Қазақ тілін тереңірек тануға таптырмайтын смарт-өнімдер таныстырылды

Ахмет Байтұрсынұлы атындағы Тіл білімі институтының ұйымдастыруымен Астана қаласында "Креативті индустрияның тілтанымдық негіздері: зерттеулер мен әзірлемелер" стенд-конференциясы өтті, деп хабарлайды BAQ.KZ тілшісі.

Шарада Тіл білімі институтының көп жылғы зерттеу нәтижелері мен әзірлемелері, атап айтқанда, "Қазақ тілінің ұлттық корпусы" электронды сайтының жаңалықтары мен қолданысқа енгізілген жаңа қызметтер таныстырылды. 

Олар:

Қазақ тілінің әмбебап электрондық сөздігі – қазақ тіліндегі сөздердің лексикалық, фразеологиялық, омонимдік, синонимдік, мәдени мағыналары берілген бірегей электрондық сөздік. Бірнеше сөздіктің басы бір жерде қосылған, іздеген сөзіңіз туралы көп сөздіктен ақтарып жинайтын ақпаратыңызды бір жерден ала алатын ресурс. Электрондық сөздік бірқатар ерекшеліктерге ие. Омоним, синоним сөздерді ажыратып, оған байланысты тіркестерді көрсетеді. Сөздікте шартты қысқартулар арқылы кірме сөздің қай тілден шыққаны, терминдердің латын, грек, т.б. тілдердегі ғылыми баламасы, фразеологизмдердің дефинициялары, әр омонимнің мағынасы, сөз табы, мысалдары берілген.

Тілтанымдық электрондық кітапхана – тіл білімі, филология, түркітану, мәдениет салалары бойынша жүйеленген электрондык кітапхана. 7 мыңнан астам тілтанымдық еңбек – монография, сөздік, жинақ, автореферат, көркем шығармалар, диссертациялар мен энциклопедиялар қамтылған. Әдебиеттер тіл білімінің әр саласы бойынша топтастырылған.

Қазақ мәтінін автоматты тану жүйесі – кітаптарды сканерлеу арқылы PDF форматка ауыстыруға мүмкіндік беретін, қазақ мәтінін автоматты тануға, оны жаңадан өңдеуге болатын электрондық жүйе. Кодтары ашық қолданысқа берілген қазақ баспа мәтінін автоматты тану бағдарламасы. PDF, PNG, JPEG, JPG форматындағы файлдарды таниды. Жүйе фундаментінің базасы шамамен 54 мың қазақ сөзін қамтиды. Нейрондық жүйені оқытуда 500 мың синтетикалық кескіннен тұратын оқу жинағы мен 2 мың қосымша синтетикалық кескін қолданылды.

Ақылды мәтінтүзеткіш – пайдаланушы өз мәтінін грамматикалық, орфографиялық, стилдік, пунктуациялық жағынан түзетіп, өзгерте алады. Жүйе фундаментінің базасы шамамен 1 миллион 200 мың сөзқолданыстан тұрады. Модель қазақ емлелерін орфографиялық норма бойынша түзейді, сондықтан ChatGPT моделінен әлдеқайда дәлірек жұмыс істейді. Модель қазақ тілі морфологиясы мен синтаксисінің ерекшеліктері бойынша, контекске сай түзету енгізеді.

Жалпы Qazcorpus.kz сайты қазақ тілінің лексика-грамматикалық жүйесін толық қамтыған (терең аннотацияланған) миллиондаған сөзқолданыстан тұратын электронды пішіндегі көлемді мәтіндер жинағы, қазақ тілі жайлы барлық мәліметті жинақтаушы "ақылды", мамандандырылған білім қоры. Ондағы жалпы сөзқолданыс саны 65 000 000-нан асады.

Бұл қадам қазақ тіл білімін дамытуға және ғылым саласында қазақ тілінің қолданылуына қажетті тілдік базаны жетілдіруге, отандық ғылыми-лингвистикалық ойдың бәсекеге қабілеттілігін арттыруға бағытталып отыр. 

Және де осы арқылы мемлекеттік тілдің зияткерлік әлеуетін кеңінен насихаттауға болады. Ғылым және жоғары білім министрі Саясат Нұрбек Тіл білімі инситутының ұжымының осы бағытта атқарылып жатқан жұмысын жоғары бағалап, ана тілімізді әрмен қарай дамытуға арналған жоспарларды тілге тиек етті.

Қазір әлемде сегіз мыңға жуық тіл бар. Жыл сайын бірнеше тіл өледі. Себебі сөйлейтін адам аз, басқа да себептер бар. Сондықтан қазіргі алғышарт ол тілді цифрлық форматта дамыту, яғни цифрлық кеңістікте үлкен модельдерді қалыптастыру. Ол тілдің болашақта тірі қалуының алғышарты, кепілі деп айтуға да болады. Біз бүкіл ресурстарымызды, сол бұрыннан келе жатқан ұлттық корпус, подкорпустар, кіші корпустардың бәрін бір жерге келтіріп, токендарға алмастырып, қазір KAZ-LLM деген моделіміз шықты. Қазір қазақ тілдің цифрлық моделін жүктеп алып, кез келген алгоритмдерді жаттықтыруға, кез келген жаңа қосымшалар болсын, цифрлық өнімдерді, - деді министр.

Саясат Нұрбектің сөзінше,  жаттықтыруға мүмкіндік бар. Бұл өте үлкен жетістік. Былай қарасаңыз, ана тіліміздің болашақта мына келе жатқан жасанды интеллект революциясына дайын екеніміздің дәлелі, әлеуетіміздің бар екенінің дәлелі.

Тіл білімі институты басшылығы қолданысқа берілген бұл жобалардың барлығы үнемі толығып, жетілдіріліп отыратынын айтады.

Бөлісу:
Қысқа да нұсқа. Жазылыңыз telegram - ға

Фото: Арман Мухатов
Өзгелердің жаңалығы