Экономические аспекты идентификации ошибок в полуструктурированных публикациях на государственном языке
https://doi.org/10.46914/1562-2959-2024-1-3-128-138
Аннотация
В связи с быстрым ростом информации в Интернете и социальных сетях в данное время исследования в области компьютерной лингвистики стали весьма актуальны. Объем информации, которую создают люди и машины на естественном языке, нуждается в обработке, анализе и проверке. Для этого используются информационно-поисковые системы, диалоговые системы, средства машинного перевода. Сам спектр систем автоматической обработки текстов весьма широк, он охватывает различные задачи. Поиск ошибок в текстах и словах, выявление и исправление некорректных слов являются одной из важнейших задач обработки естественного языка (NLP). В статье дается обзор полуструктурированных данных, методов и технологий выявления некорректных слов на естественных языках. Цель исследования – разработка эффективного подхода для обнаружения и исправления ошибок, возникающих в казахскоязычных текстах, особенно в условиях ограниченных ресурсов и неструктурированных данных. Исследование включает использование методов машинного обучения, а также экономический анализ затрат на разработку и внедрение таких решений. Предлагаемый подход способствует автоматизации проверки текстов, что может значительно сократить затраты на ручную обработку данных и повысить качество информации в различных сферах, включая бизнес и государственное управление.
Об авторах
Л. М. БайтеноваКазахстан
Д.э.н., профессор.
Aлматы
Д. Р. Рахимова
Казахстан
PhD, ассоциированный профессор.
Aлматы
Ә. Т. Турарбек
Казахстан
PhD, доцент.
Aлматы
Е. Aдали
Турция
PhD, профессор.
Стамбул
Список литературы
1. Рахимова Д.Р. Компьютерная обработка казахского языка: сборник научных трудов (материалов) // Қазақ университеті. – Алматы, 2020. – 146 с.
2. Han B., Baldwin T. Lexical normalisation of short text messages: Makn sens a# twitter // 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011. Vol. 1. P. 368–378.
3. Farra N. et al. Generalized Character-Level Spelling Error Correction. Association for Computational Linguistics. 2014. No. 2. P. 161–167.
4. Hladek D. et al. Survey of Automatic Spelling Correction // Electronics. 2020. Vol. 9. No. 10. P. 1–29.
5. Peter B. Semistructured data // Proceedings of the sixteenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems. 1997. P. 117–121.
6. Brill E., Moore R.C. An improved error model for noisy channel spelling correction // Proceedings of the 38th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics. 2000. P. 1–10.
7. Farag A., Ernesto W., Andreas N. Revised N-Gram based Automatic Spelling Correction Tool to Improve Retrieval Effectiveness. 2009. No. 40. P. 117–121.
8. Kaufmann M., Kalita J. Syntactic normalization of twitter messages // International conference on natural language processing. Kharagpur, India. 2010. P. 266
9. Лучшие программы для исправления ошибок в тексте. URL: https://www.rush-analytics.ru/blog/programmy-dlya-ispravleniya-v-tekste-razbor-primerov-i-osnovnye-osobennosti (accessed: 22.08.2024)
10. Shaalan K., Aref R., Fahmy A. An approach for analyzing and correcting spelling errors for non-native Arabic learners // Computer Science. The 7th International Conference on Informatics and Systems. 2010. P. 53–59.
11. Такташкин Д.В., Мокроусова Е.А. Методы и алгоритмы проверки орфографии тестовых документов // Электронный научно-практический журнал «Современные научные исследования и инновации». 2017. № 5. URL: https://web.snauka.ru/issues/2017/05/72892 (дата обращения: 12.08.2023)
12. Rakesh K., Minu B. and Kumar S. A study of spell checking techniques for Indian languages // JK Research Journal in Mathematics and Computer Sciences. 2018. Vol. 1. No. 1. P. 105–111.
13. Tukeyev U., Turganbaeva А. Lexicon-free stemming for the Kazakh language. Materials of the International Scientific Conference «Computer science and Applied Mathematics» dedicated to the 25th anniversary of the Independence of the Republic of Kazakhstan and the 25th anniversary of the Institute of Information and Computational Technologies. Part ІІ. Almaty. 2016. September 21–24. P. 84–88.
14. Tukeyev U., Turganbaeva А., Karibayeva A., Amirova D., Abduali B. Language_Resources_for_ Kazakh_language. URL: https://github.com/NLPKazNU/Language_Resources_for_Kazakh_language.2020. (accessed: 12.08.2024)
15. Recent advances in Apertium, a free/open-source rul-based machine translation platform for low-esource languages. 2021. URL: https://turkic.apertium.org/index.kaz.html?choice=kaz&qA=%D0%9C%D0%B5%D0%BD%D1%96%D2%A3%20%D0%BE%D2%9B%D1%83%D1%88%D1%8B%D0%BC%20#analyzation (accessed: 29.07.2024)
Рецензия
Для цитирования:
Байтенова Л.М., Рахимова Д.Р., Турарбек Ә.Т., Aдали Е. Экономические аспекты идентификации ошибок в полуструктурированных публикациях на государственном языке. Вестник университета «Туран». 2024;(3):128-138. https://doi.org/10.46914/1562-2959-2024-1-3-128-138
For citation:
Baitenova L.M., Rakhimova D.R., Turarbek A.T., Adali E. Economic aspects of error identification in semi-structured publications in the state language. Bulletin of "Turan" University. 2024;(3):128-138. (In Kazakh) https://doi.org/10.46914/1562-2959-2024-1-3-128-138