Preview

«Тұран» университетінің хабаршысы

Кеңейтілген іздеу

Мемлекеттік тілдегі жартылай құрылымдық басылымдардағы қателерді анықтаудың экономикалық аспектілері

https://doi.org/10.46914/1562-2959-2024-1-3-128-138

Толық мәтін:

Аңдатпа

Интернеттегі және әлеуметтік желілердегі ақпараттың тез өсуіне байланысты қазіргі уақытта компьютерлік лингвистика саласындағы зерттеулер өте өзекті болып отыр. Адамдар мен машиналар табиғи тілде жасайтын ақпарат көлемін өңдеу, талдау және тексеру қажет. Ол үшін ақпаратты іздеу жүйелері, диалогтық жүйелер, машиналық аударма құралдары қолданылады. Мәтінді автоматты өңдеу жүйелерінің өзі әртүрлі бағыттарды қамтитын өте кең сала. Мәтіндер мен сөздердегі қателерді табу, қате сөздерді анықтау және түзету табиғи тілді өңдеудің (NLP) маңызды міндеттерінің бірі. Мақалада табиғи тілдердегі қате сөздерді анықтаудың жартылай құрылымдық деректері, әдістері мен технологиялары қарастырылған. Қазақ тіліндегі қате сөздерді анықтау тәсілі құрылып, бұл тәсілдің ерекшеліктері мен мүмкіндіктері талданды. Зерттеудің мақсаты – қазақ тіліндегі мәтіндерде, әсіресе ресурстардың шектеулілігі мен құрылымдалмаған деректер жағдайында кездесетін қателерді анықтау және түзетудің тиімді әдісін әзірлеу. Зерттеу машиналық оқыту әдістерін пайдалануды, сондай-ақ осындай шешімдерді әзірлеу және енгізу шығындарын экономикалық талдауды қамтиды. Ұсынылған тәсіл мәтінді тексеруді автоматтандыруға көмектеседі, бұл деректерді қолмен өңдеу құнын айтарлықтай төмендетуге және әртүрлі салаларда, соның ішінде бизнес пен мемлекеттік басқаруда ақпарат сапасын жақсартуға мүмкіндік береді.

Авторлар туралы

Л. М. Байтенова
«Тұран» университеті
Қазақстан

Э.ғ.д., профессор.

Aлматы қ.



Д. Р. Рахимова
«Тұран» университеті; әл-Фараби атындағы Қазақ ұлттық университеті
Қазақстан

PhD, қауымдастырылған профессор.

Aлматы қ.



Ә. Т. Турарбек
«Тұран» университеті; әл-Фараби атындағы Қазақ ұлттық университеті
Қазақстан

PhD, доцент.

Aлматы қ.



Е. Aдали
Стамбұл техникалық университеті
Түркия

PhD, профессор.

Стамбұл қ.



Әдебиет тізімі

1. Рахимова Д.Р. Компьютерная обработка казахского языка: сборник научных трудов (материалов) // Қазақ университеті. – Алматы, 2020. – 146 с.

2. Han B., Baldwin T. Lexical normalisation of short text messages: Makn sens a# twitter // 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011. Vol. 1. P. 368–378.

3. Farra N. et al. Generalized Character-Level Spelling Error Correction. Association for Computational Linguistics. 2014. No. 2. P. 161–167.

4. Hladek D. et al. Survey of Automatic Spelling Correction // Electronics. 2020. Vol. 9. No. 10. P. 1–29.

5. Peter B. Semistructured data // Proceedings of the sixteenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems. 1997. P. 117–121.

6. Brill E., Moore R.C. An improved error model for noisy channel spelling correction // Proceedings of the 38th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics. 2000. P. 1–10.

7. Farag A., Ernesto W., Andreas N. Revised N-Gram based Automatic Spelling Correction Tool to Improve Retrieval Effectiveness. 2009. No. 40. P. 117–121.

8. Kaufmann M., Kalita J. Syntactic normalization of twitter messages // International conference on natural language processing. Kharagpur, India. 2010. P. 266

9. Лучшие программы для исправления ошибок в тексте. URL: https://www.rush-analytics.ru/blog/programmy-dlya-ispravleniya-v-tekste-razbor-primerov-i-osnovnye-osobennosti (accessed: 22.08.2024)

10. Shaalan K., Aref R., Fahmy A. An approach for analyzing and correcting spelling errors for non-native Arabic learners // Computer Science. The 7th International Conference on Informatics and Systems. 2010. P. 53–59.

11. Такташкин Д.В., Мокроусова Е.А. Методы и алгоритмы проверки орфографии тестовых документов // Электронный научно-практический журнал «Современные научные исследования и инновации». 2017. № 5. URL: https://web.snauka.ru/issues/2017/05/72892 (дата обращения: 12.08.2023)

12. Rakesh K., Minu B. and Kumar S. A study of spell checking techniques for Indian languages // JK Research Journal in Mathematics and Computer Sciences. 2018. Vol. 1. No. 1. P. 105–111.

13. Tukeyev U., Turganbaeva А. Lexicon-free stemming for the Kazakh language. Materials of the International Scientific Conference «Computer science and Applied Mathematics» dedicated to the 25th anniversary of the Independence of the Republic of Kazakhstan and the 25th anniversary of the Institute of Information and Computational Technologies. Part ІІ. Almaty. 2016. September 21–24. P. 84–88.

14. Tukeyev U., Turganbaeva А., Karibayeva A., Amirova D., Abduali B. Language_Resources_for_ Kazakh_language. URL: https://github.com/NLPKazNU/Language_Resources_for_Kazakh_language.2020. (accessed: 12.08.2024)

15. Recent advances in Apertium, a free/open-source rul-based machine translation platform for low-esource languages. 2021. URL: https://turkic.apertium.org/index.kaz.html?choice=kaz&qA=%D0%9C%D0%B5%D0%BD%D1%96%D2%A3%20%D0%BE%D2%9B%D1%83%D1%88%D1%8B%D0%BC%20#analyzation (accessed: 29.07.2024)


Рецензия

Дәйектеу үшін:


Байтенова Л.М., Рахимова Д.Р., Турарбек Ә.Т., Aдали Е. Мемлекеттік тілдегі жартылай құрылымдық басылымдардағы қателерді анықтаудың экономикалық аспектілері. «Тұран» университетінің хабаршысы. 2024;(3):128-138. https://doi.org/10.46914/1562-2959-2024-1-3-128-138

For citation:


Baitenova L.M., Rakhimova D.R., Turarbek A.T., Adali E. Economic aspects of error identification in semi-structured publications in the state language. Bulletin of "Turan" University. 2024;(3):128-138. (In Kazakh) https://doi.org/10.46914/1562-2959-2024-1-3-128-138

Қараулар: 188


ISSN 1562-2959 (Print)
ISSN 2959-1236 (Online)