„მცდარ-ბეჭდილ-მძებნი”, მცდარი ბეჭდილების (ე.წ „ტაიპო“-ების) აღმოსაჩენი მორფოლოგიური ანალიზატორია, რომელსაც ორი მისამართი აქვს გრძელი, spellchecker.ge და მოკლე, spell.ge. ამ ეტაპზე მოდელი შეიცავს 105.000 არაზმნურ და 17.500 ზმნური სიტყვის ლემას და ამ პარადიგმების მიერ ნაწარმოები ფორმების საერთო რაოდენობა რამდენიმე ასეულ მილიონს აღწევს.
პროექტის იდეა ეკუთვნის მონაცემთა მეცნიერს, ვახო ელერდაშვილს, რომელმაც STUDINFO.GE-სთან ისაუბრა ვებ-გვერდის შექმნის მიზანსა და სამომავლოდ განსახორციელებელ გეგმებზე.
– ვახო, როგორ იშიფრება ვებ-გვერდის სახელწოდება „მცდარ-ბეჭდილ-მძებნი“?
მცდარბეჭდილი ქართულად ტექსტში გაპარულ კორექტურულ შეცდომას ჰქვია. ეს სიტყვა რუსულ-ქართულ ლექსიკონში ვიპოვეთ და ისე მოგვეწონა, რომ გადავწყვიტეთ გაგვეცოცხლებინა აქტიურ მეტყველებაში. მცდარ-ბეჭდილ-მძებნი კი მცდარბეჭდილების საძიებო პლატფორმაა, რომლის ლოგოშიც, კითხვა რომ გაადვილებულიყო, დეფისები ჩავწერეთ, რაც ლოგოს შემთხვევაში დასაშვებია.
– რა ეტაპების გავლა დაგჭირდათ, სანამ მორფოლოგიურ ანალიზატორს შექმნიდით?
მცდარბეჭდილმძებნი ამ ეტაპზე ნაწილობრივ მოიცავს მორფოლოგიურ ანალიზატორს, რომელიც მთლად მორფოლოგიური ანალიზატორი არ არის. „სპელჩეკერი“ იმით განსხვავდება მორფოლოგიური ანალიზატორისგან, რომ „სპელჩეკერში“ მნიშვნელოვანია მონაცემთა სწრაფი დამუშავება, რაც მორფოლოგიური ანალიზატორის შემთხვევაში – საერთოდ იგნორირებულია. სწორედ ამიტომ რამდენიმე თვე დავხარჯეთ ოპტიმიზაციაზე, რათა ჩვენს პლატფორმაზე ვრცელი ტექსტების შემოწმება ყოფილიყო შესაძლებელი. მანამდე ქართული ენის კომპიუტერულ მოდელზე ვმუშაობდით, რომელსაც ეფუძნება ახლა მცდარბეჭდილმძებნი. ენის მოდელამდე კი ტექსტების შეგროვება და ქართული ენის დიდი კორპუსის შექმნა გახდა საჭირო, რათა ჩვენს მიერ შექმნილი ქართული ენის მოდელი „გაგვეტესტა“.
– როგორ მუშაობს თქვენ მიერ შექმნილი ქართული ენის კომპიუტერული მოდელი?
ეს კომპიუტერული მოდელი ინტერნეტში ფართოდ გავრცელებულ სოფტს, Hunspell-ს იყენებს. ჩვენი მოდელი Hunspell-ის ლექსიკონი და აფიქსების წესების კრებულია, რომელიც ე.წ. „პაზლივით“ აწყობს სიტყვების ფორმებს. Hunspell-ს აქვს სტემირება, სწორი/არასწორი სიტყვის გადამოწმება, მისი საშუალებით შესაძლებელია სიტყვების მორფოლოგიური ანალიზი და ყველაზე მთავარი – ძალიან სწრაფია! ერთი სიტყვით, აქ არის თავმოყრილი ყველაფერი, რაც გვჭირდებოდა ამ ამოცანის შესასრულებლად. ახლა Hunspell-ზე დაფუძნებული ეს მოდელი, ჩვენი პლატფორმის, მცდარ-ბეჭდილ-მძებნის ბირთვს წარმოადგენს.
– რა განსხვავებაა „მცდარ-ბეჭდილ-მძებნსა“ და აქამდე არსებულ „სპელჩეკერებს“ შორის?
ქართულ ენაზე აქამდე რამდენიმე სპელჩეკერი არსებობდა, რომელთაგან საუკეთესო კომპანია მაიკროსოფტის მიერ შექმნილი პრუფრიდერი იყო, თუმცა ამ უკანასკნელს და ბაზარზე არსებულ სხვა „სპელჩეკერებს“ აქვთ გარკვეული შეზღუდვები: ზოგი ნელია, ზოგი არასწორადაა მოდელირებული, ზოგს კი – ლექსიკის პრობლემა აქვს. ჩვენს შემთხვევაში სიჩქარე, სწორი მოდელირება (რაც იმას გულისხმობს, რომ სიტყვების სიხშირეზე არ არის დაფუძნებული ჩვენი სპელჩეკერი) და ლექსიკური ერთეულების სიმრავლე – სამივე კომპონენტი სახეზეა, სწორედ ეს გამოარჩევს მცდარბეჭდილმძებნს მანამდე არსებული „სპელჩეკერებისგან“.
– გარდა მორფოლოგიური ანალიზატორისა, სამომავლოდ რა ფუნქციების დამატებას გეგმავთ ვებ-გვერდზე?
ამჟამად ვმუშაობთ ბარბარიზმების კორპუსის გასაანალიზებელ ძრავაზე, გვინდა რომ თუ მომხმარებელი დაწერს სიტყვას “შლაკი” ეს სიტყვა კი არ გაუწითლოს, არამედ – სხვა ფერით მონიშნოს და ამ სიტყვაზე დაწკაპუნების შემთხვევაში პროგრამამ შესთავაზოს სწორი ფორმა „წიდა“. „დავალაიქეზე“ ამონათდეს – მოვიწონე, „დავაშეარეზე“ – გავაზიარე და ა.შ.
ასევე უახლოეს რამდენიმე თვეში ვგეგმავთ ქრომის ექსთენშენის დაწერას, რათა ჩვენმა მომხმარებლებმა ტექსტების შემოწმება შეძლონ ფეისბუქში, ელექტრონული მეილების წერის დროს, თუ მესინჯერში საუბრისას. შორს მიმავალ გეგმებს რაც შეეხება, გვსურს სემანტიკური და სინტაქსური შემმოწმებლის შექმნაც, თუმცა ამის გაკეთება ჯერჯერობით მხოლოდ სურვილის დონეზეა, იმედს ვიტოვებთ, რომ ამის გაკეთებაც მოხერხდება.
ნებისმიერ მსურველს შეუძლია ვებ-გვერდის მომხმარებელი გახდეს. თუ ისეთ სიტყვას წააწყდით, რომელსაც ანალიზატორი „უცნობად“ აღიქვამს, ჩასანაცვლებელ სიტყვებში კი სწორ ვერსიას არ გთავაზობთ, შეგიძლიათ „დამატებას“ დააჭიროთ და ანალიზატორის ლექსიკური მარაგის შევსებაში დაეხმაროთ მცდარბეჭდილის საძმოს. ქართული ენის მოყვარულთა ჯგუფის მიზანია, ქართულ ენაზე სრულყოფილი ანალიზატორის შექმნა.
ავტორი: სოფია ნადიბაიძე