Κυριακή, 21 Απριλίου 2013

Σήμερα στη FOSSCOMM 2013, BoF/Hackathon για την Ελληνική γλώσσα στις 15.00, αίθουσα Β3

Η FOSSCOMM μέχρι στιγμής είναι (όπως κάθε χρονιά) εξαιρετικά ενδιαφέρουσα! Γνωρίζεις από κοντά ανθρώπους που τους έχεις δει μόνο online, βάζεις πρόσωπα
δίπλα στα emails, μαθαίνεις ενδιαφέροντα πράγματα, ανταλλάζεις απόψεις ...

Ένα πράγμα που αν και τρομερά χρήσιμο, πιστεύω έλλειπε τις προηγούμενες χρονιές και ξεκίνησε φέτος από τα παιδιά στη Χαροκόπειο, είναι τα λεγόμενα BoF sessions.

Τι είναι BoF session;

Απλά, όλοι όσοι ενδιαφέρονται για ένα κοινό, συγκεκριμένο θέμα, μαζεύονται σε ένα δωμάτιο και συζητούν / λαμβάνουν αποφάσεις για να συντονίσουν τη δράση τους. Πολλές φορές αυτό μπορεί να συνδυαστεί και με λίγη συνεισφορά "επιτόπου". Η συζήτηση είναι τελείως "peer-to-peer", δεν υπάρχουν δηλαδή "συντονιστές" και "panel". Ιδανικά ένα BoF session μαζεύει λίγα άτομα (περίπου 10 είναι καλά) αλλά 100% ορεξάτους να συνεισφέρουν, ώστε να μη γίνεται χάβρα και "πηγαδάκια".

Αυτό είναι που μπορεί να κάνει τη FOSSCOMM να "βγάλει τα λεφτά της" για όσους
συμμετέχουν σοβαρά. Γιατί:
  • Ορισμένα θέματα και αποφάσεις αργούν υπερβολικά όταν γίνονται online λόγω μεγαλύτερης δυσπιστίας που υπάρχει όταν το μόνο που βλέπεις από τον άλλο είναι το email του.
  • Π.χ., ένα γρήγορο tutorial / demo μπορεί να πάρει 5-10 λεπτά ενώ για να το φτιάξεις "ασύγχρονα" ως blog post μπορεί να πάρει μια ώρα τουλάχιστον για να γίνει σωστά (screencasts, screenshots, diagrams ...)
  • Οι online συζητήσεις πολύ συχνά καταλήγουν σε flamewars για τελείως άσχετα θέματα.
Φυσικά αυτό δε σημαίνει ότι τα BoF sessions μπορούν να αντικαταστήσουν τις online
συζητήσεις, απλά δουλεύουν καλά για να "συντονίσουμε τα ρολόγια μας" και ως σημείο αναφοράς για τη μετέπειτα πολλή δουλειά που γίνεται online / ασύγχρονα.

Στα πλαίσια αυτά προσπαθώ να οργανώσω ένα BoF session + mini hackathon για την υποστήριξη της Ελληνικής γλώσσας στο ΕΛ/ΛΑΚ σήμερα στις 15.00 στην αίθουσα Β3 στη Χαροκόπειο.

Η ιδέα είναι να δούμε σε ποιο σημείο βρισκόμαστε, ποια είναι τα κύρια προβλήματα που απομένουν, να μοιραστούμε πρόσφατα αποτελέσματα μέσω σύντομων demos / tutorials και να δούμε τι σκοπεύει να κάνει καθένας από εμάς για το θέμα αυτό από εδώ κι εμπρός και πώς μπορούμε να συντονιστούμε / συνεργαστούμε για καλύτερα αποτελέσματα.

Συγκεκριμένες θεματικές περιοχές:

Ορθογραφικός έλεγχος / λεξικά hunspell

Εδώ υπάρχουν θέματα όπως το πώς θα γίνει πιο σωστά και "δημοκρατικά" το maintainance του λεξικού του hunspell από εδώ κι εμπρός (μια ενδιαφέρουσα / σχετικά εύκολη στην εφαρμογή ιδέα είναι να κάνουμε port το project "dicollecte" των Γάλλων).

Επίσης υπάρχει το θέμα του πώς μπορούμε να προσθέσουμε γραμματική πληροφορία (π.χ., "μέρος του λόγου") στο λεξικό για να μπορεί να χρησιμοποιηθεί και από το lightproof για γραμματικό έλεγχο όπως κάνουν στα Γαλλικά (grammalecte).

Παράλληλα, υπάρχουν φωνές που λένε ότι η μορφή του hunspell δεν είναι ικανοποιητική και θα πρέπει να περάσουμε σε ένα νέο framework για spellchecking βασισμένο σε WFSTs (Weighted Finite State Transducers) τα οποία μπορούν να μας δώσουν μεγαλύτερη ευελιξία, ranking κλπ κλπ

Συνώνυμα / Θησαυρός

Εδώ μπορούμε να κάνουμε σύντομα demos των wiktionary, openthesaurus και του Ελληνικού wordnet και να δούμε τι θέματα παρουσιάζονται με το interoperability
αυτών. Επίσης, μπορούμε να δούμε πώς πλέον όλοι μας μπορούμε να συνεισφέρουμε στο openthesaurus.gr χωρίς να χρειάζονται ιδιαίτερες γνώσεις.

Θέματα με τις εφαρμογές

Π.χ., στα windows στο LibreOffice υπάρχει η επιλογή όταν αλλάζεις το πληκτρολόγιο από Ελληνικά σε Αγγλικά να αλλάζει αυτόματα και η γλώσσα του κειμένου και άρα το ενεργό λεξικό ορθογραφίας, ενώ στο Linux αυτό δε δουλεύει. Μπορούμε να δούμε τι φταίει και πώς μπορεί αυτό να λυθεί.

Αντίστοιχα με τα input methods και γιατί π.χ., ορισμένες φορές δεν μπορούμε να γράψουμε τόνους σε κάποιες εφαρμογές.ι

Αναγνώριση φωνής

Γιατί δεν έχουμε αυτή τη στιγμή εφαρμογές ΕΛ/ΛΑΚ που να μπορούμε να τους μιλάμε Ελληνικά; Μπορούμε να δούμε συνοπτικά τα θέματα που υπάρχουν (π.χ., έλλειψη ανοιχτών στατιστικών μοντέλων και δεδομένων στα οποία αυτά στηρίζονται και πώς θα μπορούσαμε να το λύσουμε αυτό, γλωσσικά μοντέλα και corpora κλπ κλπ).

Αντίστοιχα για OCR, predictive input και όποια άλλη τεχνολογία σας ενδιαφέρει με μόνους περιορισμούς να αφορά την ελληνική γλώσσα και να είναι ΕΛΛΑΚ.

Mini Hackathon

Δε χρειάζεται να λύσουμε το κυπριακό ή να γράψουμε τη νέα έκδοση του duke nukem forever :P αλλά μπορούμε να παίξουμε με το Web API του openthesaurus.gr σε Android, FirefoxOS, OpenSearch, KDE, κλπ, να κάνουμε λίγο packaging για debian/ubuntu/openSUSE/Fedora κλπ όπως και libreoffice extensions (π.χ., να χωρίσουμε το libregreek.oxt σε σωστά κομμάτια και να τα κάνουμε upload, ίσως
να κάνουμε και κάποια πράγματα από το libregreek submit upstream αν δεν υπάρχει λόγος να είναι extensions). Και φυσικά ό,τι άλλο έχετε εσείς να προτείνετε :)

Με λίγη καλή θέληση και μεράκι μπορεί να είναι ένα ιδιαίτερα διασκεδαστικό και παραγωγικό "περίπου δίωρο" (15.00 - 16.45) και να μπορούμε να λέμε ότι βγήκε και κάτι από αυτή τη βόλτα :)