Polytechnitis: ΕΛ/ΛΑΚ και ελληνική γλώσσα

Κυριακή 16 Σεπτεμβρίου 2012

ΕΛ/ΛΑΚ και ελληνική γλώσσα

Το συζητήσαμε στη φετινή FOSSCOMM, συζητήθηκε και στο παρασκήνιο του Java Specialists Unconference που έγινε πρόσφατα στα Χανιά. Χρειαζόμαστε περισσότερη / καλύτερη υποστήριξη της Ελληνικής γλώσσας στο ΕΛ/ΛΑΚ.

Συνήθως η απάντηση που λαμβάνω κάθε φορά που μιλάω σε κάποιον για το ζήτημα είναι "σιχαίνομαι τις μεταφράσεις". Έλα όμως που οι μεταφράσεις δεν είναι το ζήτημα!

Πού χρειάζεται δουλειά / υπάρχουν περιθώρια βελτίωσης

Εργαλεία υποστήριξης συγγραφέων (author support tools): ορθογραφικός έλεγχος

Ας ξεκινήσουμε με τον ορθογραφικό έλεγχο. Υπάρχει το project elspell που έχει παράξει ήδη ένα ικανοποιητικού μεγέθους λεξικό, που δουλεύει με τα ispell/aspell/hunspell. Το πρόβλημα είναι ότι το λεξικό αυτό είναι βασικά ένα τεράστιο wordlist, με αποτέλεσμα η κάλυψη που παρέχει να είναι κάπως ανεπαρκής. Πολλές φορές δηλαδή λείπει μια λέξη που στην ουσία είναι απλά μια διαφορετική μορφή μίας λέξης που υπάρχει στο λεξικό (χρόνος, γένος, αριθμός) π.χ., υπάρχει το "αποσφαλματωθεί" αλλά όχι το "αποσφαλματώσει". Αν λάβουμε υπόψιν την απίστευτη μορφολογική πολυπλοκότητα της γλώσσας μας, καταλαβαίνουμε ότι οι περίπου 1 εκατομμύριο λέξεις που είναι αυτή τη στιγμή στο λεξικό παρέχουν στην πράξη λιγότερο καλή κάλυψη από όσο θα θέλαμε, παρά το κόστος που έχει σε μνήμη (ακόμα χειρότερα αν μιλάμε για unicode ή UTF-8 εσωτερική αναπαράσταση).

Το hunspell υποστηρίζει κωδικοποίηση των λέξεων με βάση μορφολογικούς κανόνες (ειδικά για πολύπλοκες γλώσσες όπως είναι και τα ελληνικά) αλλά στην πράξη αυτοί οι κανόνες υπάρχουν μόνο για τα αγγλικά και τα Ουγγρικά ενώ υπάρχει και πολύ λίγη τεκμηρίωση σχετικά με το πώς μπορεί κάποιος να φτιάξει (αλλά και να αποσφαλματώσει) τέτοιους κανόνες. Ακόμα περισσότερο, αρκετοί από εμάς δεν έχουν πειστεί ότι το hunspell αποτελεί πανάκεια ως μηχανή ορθογραφικού ελέγχου μια και δε φαίνεται να αναπτύσσεται ιδιαίτερα τον τελευταίο καιρό, ενώ σε κάποιες περιπτώσεις το aspell κάνει καλύτερες προτάσεις διόρθωσης. Χωρίς να υπολογίσουμε και λύσεις βασισμένες σε αυτόματα (όπως το voikko) που προσφέρουν ένα πιο κομψό θεωρητικό πλαίσιο με βάση το οποίο μπορεί κάποιος να καταλάβει το πώς δουλεύει ο ορθογραφικός έλεγχος.

Επίσης σημαντικό θέμα είναι ο πολυγλωσσικός ορθογραφικός έλεγχος, δηλαδή ο έλεγχος κειμένων μικτής γλώσσας (π.χ., ελληνικά/αγγλικά). Γι αυτό το πρόβλημα υπάρχουν μέθοδοι όπως η παρακολούθηση της τρέχουσας διάταξης του πληκτρολογίου (π.χ., όταν γράφω σε αγγλική διάταξη να ενεργοποιείται το αγγλικό λεξικό και αντίστοιχα για Ελληνικά) όπως και μέθοδοι αυτόματης ανίχνευσης γλώσσας χρησιμοποιώντας n-grams (π.χ., η βιβλιοθήκη sonnet του KDE). Προς το παρόν η λύση που χρησιμοποιείται γι αυτό το πρόβλημα είναι η κατασκευή μικτών λεξικών, με τους προφανείς περιορισμούς ως προς την ανανέωση και τον αριθμό γλωσσών που υποστηρίζονται.

Ειδικά για τα ελληνικά υπάρχει και το θέμα των πεζών / κεφαλαίων σε συνδυασμό με τους τόνους. Π.χ., η λέξη ΠΡΟΣΟΧΗ θεωρείται λάθος από το συνδυασμό hunspell + elspell εκτός αν προσθέσουμε ένα επιπλέον λεξικό που περιέχει όλες τις λέξεις του elspell σε μορφή κεφαλαίων χωρίς τόνους (υπάρχει σχετικό extension για LibreOffice / Firefox).

Πιστεύω ότι η καλύτερη λύση για εμάς θα ήταν μάλλον να επιδιώξουμε την αποσύνδεση του hunspell από προγράμματα όπως LibreOffice και Firefox και αντίθετα να προσπαθήσουμε για την υιοθέτηση ενός "προτύπου" όπως το enchant που θα επέτρεπε να έχουμε π.χ., μια ξεχωριστή μηχανή ειδικά για την ελληνική γλώσσα, καθώς και τη γρηγορότερη / ευκολότερη δοκιμή νέων αλγορίθμων σε μεγάλη κλίμακα κλπ.

Συνώνυμα

Υπάρχει ένας θησαυρός συνωνύμων στο ελληνικό LibreOffice ο οποίος ως ένα βαθμό είχε αναπτυχθεί από ότι φαίνεται συνεργατικά, μέσω του site openthesaurus.gr. Δυστυχώς πλέον το site δεν υπάρχει ούτε το ίδιο ούτε ο κώδικάς του, οπότε δεν μπορεί αυτή τη στιγμή να συνεχιστεί αυτή η προσπάθεια. Ευτυχώς υπάρχει μία νεότερη έκδοση του λογισμικού στο οποίο είχε βασιστεί το openthesaurus.gr (vithesaurus) και υπάρχει σε εξέλιξη αυτή τη στιγμή μια προσπάθεια αναβίωσης του openthesaurus.gr με βάση το λογισμικό αυτό.

Σε κάθε περίπτωση χρειάζονται άτομα που θα συμμετέχουν σε αυτή την προσπάθεια τόσο συνεισφέροντας καινούργιες λέξεις και συνώνυμα όσο ως αναθεωρητές (reviewers) ώστε μόνο

σωστές λέξεις να προστίθενται στο λεξικό (και φυσικά και προγραμματιστές για τη συγγραφή των χαρακτηριστικών που λείπουν).

Γραμματικός έλεγχος

Κι εδώ υπάρχουν διάφορες κατηγορίες και τα αντίστοιχα ΕΛ/ΛΑΚ εργαλεία. Υπάρχει η προσέγγιση του LanguageTool που προσπαθεί για όσο το δυνατόν πιο πλήρες proofreading ενός κειμένου, η προσέγγιση του Lightproof που προσπαθεί για όσο το δυνατόν λιγότερες ή καθόλου λανθασμένες προτάσεις διόρθωσης και η στατιστική προσέγγιση του After the deadline που χρησιμοποιεί n-grams.

Και στις 3 περιπτώσεις υπάρχει ελάχιστη ως καθόλου υποστήριξη για τα ελληνικά.

Σώματα κειμένων

Αυτή τη στιγμή, στο βαθμό που γνωρίζω δεν υπάρχει κανένα σώμα ελληνικών κειμένων με άδεια π.χ., creative commons η οποία να επιτρέπει την ελεύθερη αναδιανομή. Αυτό είναι σημαντικό εμπόδιο καθώς καθιστά αδύνατη την 100% δίκαιη / επαναλήψιμη σύγκριση μεταξύ αλγορίθμων επεξεργασίας φυσικής γλώσσας για τα Ελληνικά (πάντα μιλώντας αποκλειστικά και μόνο για το ΕΛ/ΛΑΚ).

Πιστεύω ότι σε πρώτη φάση θα μπορούσαμε να ξεκινήσουμε με σώματα κειμένων με βάση τις μεταφράσεις λογισμικού που υπάρχουν στις μεγάλες διανομές και με βάση τα σχολικά βιβλία. Από εκεί και πέρα είναι ανοιχτό πρόβλημα το πώς θα μπορούσε να δημιουργηθεί ένα πρότυπο σώμα κειμένων (μεγάλο / έγκυρο / προεπεξεργασμένο) με μεθόδους ΕΛ/ΛΑΚ και εθελοντικής εργασίας

ώστε να μπορεί να διέπεται από ελεύθερη άδεια.

Στατιστικά γλωσσικά μοντέλα

Αυτά είναι απαραίτητα για ΕΛ/ΛΑΚ εφαρμογές όπως αναγνώριση γραφής, φωνής, σύνθεση φωνής, σύνθεση φυσικής γλώσσας κλπ κλπ. Το κύριο πρόβλημα για τη δημιουργία τους είναι ακριβώς η απουσία σωμάτων κειμένων που να μπορούν να αναδιανεμηθούν.

Έτσι π.χ., στο tesseract OCR υπάρχει ένα μοντέλο για τα ελληνικά αλλά κανείς δεν ξέρει με βάση ποιες υποθέσεις κατασκευάστηκε ούτε είναι εύκολο να το τροποποιήσει κάποιος όταν παράγει

πολύ χαμηλής ποιότητας αποτελέσματα. Αντίστοιχα και στις υπόλοιπες περιπτώσεις υπάρχουν είτε τελείως "black box" μοντέλα για τα ελληνικά είτε δεν υπάρχουν καθόλου διαθέσιμα.

Επεξεργασία φυσικής γλώσσας / Ανάκτηση πληροφορίας

Κι εδώ η δουλειά που υπάρχει φαίνεται να είναι αρκετά φτωχή (πάντα ως προς το ΕΛ/ΛΑΚ) με μερικές φωτεινές εξαιρέσεις όπως οι αλγόριθμοι stemming των Νταή και Σαρούκου, η δουλειά του Ίων Ανδρουτσόπουλου κλπ. Για παράδειγμα ενώ γίνεται δουλειά για μετάφραση στα ελληνικά του βιβλίου του NLTK, δεν έχει γίνει κάποιο βήμα για υποστήριξη της ελληνικής γλώσσας σε αυτό το toolkit.

Ελεγχόμενες γλώσσες / γλωσσικά υποσύνολα / οντολογίες / μηχανική μετάφραση

Και σε αυτό τον τομέα φαίνεται να μην υπάρχει ιδιαίτερη δουλειά σε μορφή ΕΛ/ΛΑΚ, π.χ., υπάρχει κάποια προσπάθεια για μηχανική μετάφραση με χρήση του Apertium αλλά χωρίς να γνωρίζουμε παραπάνω λεπτομέρειες. Η δε παλαιότερη προσπάθεια του Μετσόβειου για ελεγχόμενα υποσύνολα των ελληνικών επίσης δε φαίνεται να έχει οδηγήσει σε κάποιο έργο ΕΛ/ΛΑΚ. Τουλάχιστον υπάρχει αρκετή θεωρητική δουλειά και από ότι φαίνεται το μόνο που λείπει είναι το κίνητρο.

Bugs

Εκτός των παραπάνω υπάρχουν και κάποια ενδιαφέροντα bugs ως προς την υποστήριξη ελληνικών, τα οποία θα ήταν πολύ ωραίο να υπάρχουν κάπου συγκεντρωμένα ώστε να ασχολούμαστε με αυτά σε hackathons κλπ.

Π.χ., ένα αρκετά επίπονο πρόβλημα είναι ότι αρκετές δημοφιλείς γραμματοσειρές δεν έχουν ελληνικούς χαρακτήρες, με πιο επίπονο παράδειγμα το υποκατάστατο της Tahoma που έχει το wine και ακολουθούν οι cantarell (GNOME 3) και η Oxygen font (KDE).

Ένα άλλο πρόβλημα είναι η υποστήριξη μη αγγλικών στο lightdm:

https://bugs.launchpad.net/ubuntu/+source/lightdm/+bug/919200

Και πολλά άλλα περισσότερο ή λιγότερο σοβαρά.

Τι πιστεύετε ότι θα μπορούσε να γίνει για τα παραπάνω θέματα; Γνωρίζετε κάποια σημαντική δουλειά σε ΕΛ/ΛΑΚ που αφορά την Ελληνική γλώσσα και δεν αναφέρεται παραπάνω; Σημαντικά bugs;

7 σχόλια:

Christos Bacharakis17 Σεπτεμβρίου 2012 στις 4:00 π.μ.
Καλημέρα ανώνυμε.
Θα ήθελα να ρωτήσω τι ακριβώς εννοείς στην παράγραφο "
Σώματα κειμένων".

Προσωπική μου άποψη είναι ότι η Ελληνική γλώσσα υποστηρίζεται αρκετά καλά σε μεγάλα έργα ΕΛ/ΛΑΚ όπως λειτουργικά συστήματα(Fedora,Ubuntu), Firefox, LibreOffice και λοιπά. Κυρίως η υποστήριξη οφείλεται στη δουλειά των εθελοντών που είτε με μεταφράσεις είτε με την δημιουργία εργαλείων ορθογραφικού ελέγχου, βοηθούν στην καθημερινή πλοήγηση του χρήστη.

Δυστυχώς όλα αυτά που αναφέρεις, εκτός πάντα του ορθογραφικού ελέγχου, τα βρίσκω μείζονος σημασίας καθότι απασχολούν μια πολύ μικρή μερίδα χρηστών. Ο απλός χρήστης θέλει να έχει ένα 100% μεταφρασμένο στη γλώσσα του λογισμικό ΕΛ/ΛΑΚ και έναν αρκετά καλό ορθογραφικό έλεγχο.

Μην ξεχνάμε ότι σχεδόν όλες οι διανομές παίζουν out of the box στην ελληνική γλώσσα με πλήρη υποστήριξη και ορθογραφικό έλεγχο χωρίς να χρειαστούν την παραμικρή ρύθμιση.

Από την δική μου σκοπιά, αυτή του χρήστη αλλά και μεταφραστή, αυτό που θεωρώ ότι πρέπει να γίνει, είναι να μαζευτούν όλοι οι Έλληνες μεταφραστές τους ΕΛ/ΛΑΚ και να φτιάξουν ένα λεξικό ούτως ώστε οι ίδιοι όροι να έχουν την ίδια μετάφραση και στο Fedora και στο Ubuntu, και στο Firerox και στο LibreOffice και παντού.

Ευχαριστώ

ΑπάντησηΔιαγραφή
Απαντήσεις
pkt17 Σεπτεμβρίου 2012 στις 9:44 π.μ.
Καλημέρα Χρήστο,

Αν το "ανώνυμε" το εννοείς με την έννοια ότι πάω να κρυφτώ αυτό δεν ισχύει, με γνωρίζεις, ο Παντελής είμαι :)

Τα σώματα κειμένων (corpora) είναι επεξεργασμένες συλλογές κειμένων που μπορούν να χρησιμοποιηθούν για παραγωγή (στατιστικών και μη) γλωσσικών μοντέλων.

Παραδείγματα σωμάτων κειμένων για τα ελληνικά είναι π.χ., αυτό της Ελευθεροτυπίας. Από όσο γνωρίζω, κανένα από τα γνωστά ελληνικά σώματα κειμένων δυστυχώς δεν έχει ελεύθερη άδεια το οποίο δυσχεραίνει πολύ την κατασκευή πραγματικά ελεύθερων στατιστικών μοντέλων. (Π.χ., θα μπορούσα να φτιάξω μια συλλογή κειμένων τρέχοντας απλά ένα crawler αλλά το αποτέλεσμα δε θα μπορούσα να στο δώσω εσένα. Άρα σου στερώ ουσιαστικά την ελευθερία της βελτίωσης και αναδιανομής των παραγόμενων μοντέλων που είναι βασικό δικαίωμα όταν μιλάμε για ΕΛ/ΛΑΚ).

"τα βρίσκω μείζονος σημασίας" σημαίνει ότι τα βρίσκεις εξαιρετικά σημαντικά :)

Δεν απασχολούν καθόλου μικρή μερίδα χρηστών, είναι χαρακτηριστικά που δεν μπορείς να τα εκτιμήσεις ίσως όσο δεν τα έχεις αλλά αν τα χρησιμοποιήσεις δεν πρόκειται να θέλεις να ξαναγυρίσεις πίσω / να τα αποχωριστείς.

Ο ορθογραφικός έλεγχος για μένα δεν είναι τόσο καλός όσο λες καθώς αρκετές λέξεις δεν τις αναγνωρίζει το λεξικό. Θα μπορούσα να προσπαθήσω την quıck n' dirty λύση σε αυτό, δηλαδή απλά να προσθέτω όλη την ώρα λέξεις (το λεξικό είναι στο github στο κάτω-κάτω) και πιθανόν και αυτό να γίνει, αλλά ήθελα να δείξω ότι επεμβαίνοντας στον κώδικα μπορούμε να πετύχουμε σημαντικά μεγαλύτερη βελτίωση.

Το μεγάλο έργο που έχει γίνει με τις μεταφράσεις δεν το υποτιμώ (κάθε άλλο), ούτε το έργο που έχει γίνει με τις υπόλοιπες "low-level" λεπτομέρειες (UTF-8, διάταξη πληκτρολογίου, hyphenation rules και τόσα άλλα). Απλά τώρα που αυτά έχουν λυθεί (modulo bugs) είναι πιστεύω καιρός να περάσουμε στο επόμενο επίπεδο. Καλύτεροι είναι από εμάς π.χ., οι Ούγγροι που βρίσκονται σε πολύ καλύτερη μοίρα ως προς τα παραπάνω;

ΑπάντησηΔιαγραφή
Απαντήσεις
Dimitris D22 Σεπτεμβρίου 2012 στις 12:39 π.μ.
Υπάρχουν και εναλλακτικές λύσεις στην ορθογραφική διόρθωση. Τα Ιαπωνικά και τα Κινέζικα δεν έχουν ορθογραφική διόρθωση, αλλά μπορείς να κάνεις ορθογραφικά λάθη με τα δεκάδες ομόηχα που έχουν. Αυτοί χρησιμοποιούν ΙΜΕ όπως το iBus. Ενδιαφέρων έχει η προέκταση ibus-tegaki, μετατροπή γραφής(π.χ.) σε κείμενο.
Η ελληνική γραφή με iBus θέλει πολύ πειραματισμό ακόμα.
Ο θησαυρός-συνώνυμα στα ελληνικά είναι αποτυχία εξαιτίας των αμέτρητων καταλήξεων. Ακόμα η χρήση συνωνύμων είναι αντίθετη στην ελληνική παράδοση, σύμφωνα με την οποία πρέπει να είμαστε λογικοί(Αριστοτέλης) και να γνωρίζουμε ακριβώς τι κάνουμε(Ορθοδοξία). Όσοι θέλουν να πειραματίζονται μπορούν να χρησιμοποιήσουν το βιβλίο «ΣΥΝΩΝΥΜΑ ΚΑΙ ΣΥΓΓΕΝΙΚΑ. ΠΕΤΡΟΥ ΒΛΑΣΤΟΥ 1931» που έχει ληγμένο copyright.
Το tesseract είναι εύκολο να εκπαιδευτή και να προστεθεί ελληνικό λεξικό, το πρόβλημα είναι το μέγεθος του λεξικού, δεν αναγνωρίζει σωστά τις γραμμές και το μπέρδεμα με τους τόνους. Στο πολυτονικό δεν λειτουργεί σωστά, ακόμα και με λεξικό. Η εκπαίδευση στο ατονικό για να αναγνωρίζει τα γράμματα χωρίς τους τόνους δεν λειτουργεί σε κείμενο με τόνους. Ο συνδυασμός ocropus για αναγνώριση γραμμών και tesseract, με εκπαίδευση και ειδικό λεξικό, λειτουργεί ας πούμε καλά. OCR τύπου Subrip λειτουργούν καλύτερα!!!
Τα aspell-hunspell-κτλ. δεν λειτουργούν σωστά γιατί βασίζονται στον μηδενισμό: χρησιμοποιούμε μια μέθοδο για να λύσουμε όλα τα προβλήματα με τον ίδιο τρόπο. Το NLTK είναι μόνο για τα αγγλικά(απλοϊκή γλώσσα). Πολλά project σχετικά με την γλώσσα είναι πειράματα φοιτητών-καθηγητών για να δημοσιεύουν paper(NLTK,PRAAT).

Εγώ φτιάχνω το ἑγἐ - Ἑλληνικά Γλωσσικά Ἐργαλεία
http://code.google.com/p/hellenic-language-toolkit/
http://www.ohloh.net/p/hellenic-language-toolkit
με σκοπό την χρήση του στην πραγματικότητα, π.χ. πολυτονισμό, ειδικούς ορθογραφικούς ελέγχους για OCR,IME.
ΑπάντησηΔιαγραφή
Απαντήσεις
pkt24 Σεπτεμβρίου 2012 στις 11:21 π.μ.
Dimitris D: Ναι, είχα δει τη δουλειά σου ακολουθώντας το link από την προηγούμενη δημόσια διαβούλευση της ΕΕΛΛΑΚ για το θέμα και την είχα βρει πολύ ενδιαφέρουσα (αυτομουτζώνομαι μάλιστα αυτή τη στιγμή που παρέλειψα να αναφέρω το δικό σου project :P).

Ως προς tesseract / ocropus έχεις ασχοληθεί κι εσύ με την εκπαίδευσή τους; Θα με ενδιέφερε να ανταλλάξουμε σημειώσεις κάποια στιγμή (το email μου αν δεν το ξέρεις είναι pktoss στο gmail).

Η μετατροπή γραφής σε κείμενο έχει όντως μεγάλο νόημα για αυτές τις χώρες λόγω του τεράστιου αλφαβήτου στο οποίο φαντάζομαι δε βολεύει τόσο το πληκτρολόγιο. Δυστυχώς δεν έχουμε κάποιο αντίστοιχα καλό ΕΛ/ΛΑΚ handwritting engine για τα ελληνικά έτσι δεν είναι; (Είχα δοκιμάσει λίγο να εκπαιδεύσω το cellwriter αλλά στην πράξη δε βολεύει και τόσο).

Το βιβλίο που ανέφερες το έχεις; Γνωρίζεις σίγουρα αν έχει λήξει το copyright (γιατί είναι νομίζω 70 χρόνια από το θάνατο του συγγραφέα όχι από τη δημοσίευση του βιβλίου. Έχω π.χ., ένα μεγάλο λεξικό του Γιάνναρη από το 1933 αλλά δεν είμαι σίγουρος αν έχει λήξει ακόμα ή όχι).

Όσο για τον ορθογραφικό έλεγχο και το ότι τα aspell/hunspell δε λειτουργούν συμφωνώ και γι αυτό πιστεύω ότι η σωστή λύση είναι lobbying στο να χρησιμοποιούν όλοι ένα API όπως το enchant ή μια βελτιωμένη έκδοση αυτού. Έτσι θα έχουμε την ελευθερία να αναπτύξουμε custom engines για πιο δύσκολες γλώσσες όπως η δική μας π.χ., βασιζόμενοι σε WFSTs σαν θεωρητικό πλαίσιο (βλ. voikko για τα φιλανδικά αν θυμάμαι καλά).

Πραγματικά σε ευχαριστώ για το σχόλιο και σε παρακαλώ να μείνουμε σε επαφή μήπως μπορέσουμε να βοηθήσουμε ο ένας τον άλλον.

ΑπάντησηΔιαγραφή
Απαντήσεις
Teacher16 Απριλίου 2013 στις 10:09 μ.μ.
Εμεις παντως (evris, voula) περαν της χειροκινητης εισαγωγης λεξεων και κανονων σε aspell, ispell κλπ καταληξαμε να αναπτυξουμε ενα συνολο γραμματικων σκριπτακιων για λημματοποιησεις, κλισεις ομαλων, χρονους, αριθμους, συζυγιες, προσωπα, παραθετικα, συγκριτικους, υπερθετικους και καποια ακομα για αυτοματους ελεγχους της παραγωγης μας και συγκριση με σωματα κειμενων που ειναι εκει εξω..... με αυτον τον τροπο βγηκαν οι περισσοτερες λεξεις του τοτε aspell... τα προγραμματα αυτα θυμαμαι τα δωσαμε open source αλλα κανεις δεν ενδιαφερθηκε να τα κανει κατι...
evris
ΑπάντησηΔιαγραφή
Απαντήσεις

Προσθήκη σχολίου

Σελίδες