Қазақша 40 миллион сөз қолданысқа ене ме?

11.02.2022
Қазақ тілі, оның тарихы, бүгіні мен болашағы, алдағы уақытта тілдік құрылым мен сөз қолданысында болуы мүмкін өзгерістер тек тіл мамандарының ғана емес, тіл тағдырына алаңдайтын көпшіліктің де көңілін алаңдататын тақырып болса керек. Десе де, лингвистерден осы туралы сұрағанда көбі лингвистикалық корпус ­туралы айтады. Ол қандай корпус? Маңызы қандай? Қазақстанда неге үшеу? Олардың бір-бірінен айырмашылығы қандай? Осы сауалдарға жауап іздеп көрдік.

ЛИНГВИСТИКАЛЫҚ КОРПУС ДЕГЕН НЕ?

Лингвистикалық корпус – белгілі бір тілдегі жазбаша және ауызша мәтіндердің электронды түрде жинақталған ақпараттық-анықтамалық базасы. Ол тілдік құбылыстарды, әсіресе сөздер мен фразаларды іздеуді жеңілдетеді және тілдің лексикасы мен грамматикасын, ондағы жүздеген жылдар бойы болған өзгерістерді ғылыми зерттеу үшін қажет.

Әлемдегі тілдердің біршамасы өзде­рінің ұлттық корпустарын жасаған. Олар бір-бірінен негізінен мәтіндерді ғылыми өңдеуі, база толықтығы мен субкорпустарының алуандығы бойынша ерекшеленеді. Қазіргі әлем тілдері ішінде BNC британ ұлттық корпусы мойындалған. Басқа заманауи корпустар соның негізінде жасалады. Мәселен, Прагадағы Карл универси­те­тінде құрылған Чех ұлттық корпусы, сонымен қатар Орыс тілінің ұлттық кор­пусы да қарқынды дамып келеді. Қазақ­станда осындай үш корпус бар: Ұлттық корпус, Алматы қазақ тілі кор­пусы және публицистикалық кіші корпус.

 

КОРПУСТАРДЫҢ ЕРЕКШЕЛІГІ НЕДЕ?

Қазақ тілінің ұлттық корпусын­да қазақ тілінің электронды мә­тіндік қоры жинақталған. Кор­пустағы мәтін көлемі – 21 миллион. Мәтіндер қазақ тілінің 5 стиль түрінен (көркем стиль, ғы­лыми стиль, публицистикалық стиль, ісқағаз стилі, сөйлеу стилі) жи­нақталған. Корпустан сөз, сөзформа (сөз түрленімі) бойынша іздеу жүргізіп, сол сөз қолданыл­ған сөйлемдердің тізімін және олардың дереккөзін көруге болады. Табылған сөз/сөзформа немесе мы­салдардағы кез келген сөз туралы тілдің барлық деңгейіне қатысты ақпарат беріледі. Ол Тіл білімі ­институты мамандары жүзеге асырған «Қазақ тілінің ұлттық корпусын қалыптастырудың негізгі факторлары, Қазақстан Республикасындағы үштілділік идеологиясы тұрғысы­нан оның коммуникативтік және ин­теграциялық қасиеттерін күшейту» атты зерттеу аясында әзірленген.

Алматы қазақ тілі корпу­сының көлемі 40 миллионнан аса сөз­қолданыстан тұрады. Корпус мәтіндері автоматты мор­фологиялық талдағыш кө­мегімен белгіленген, корпус­тағы сөзформаның 86%-на грамма­тикалық талдау жасалынған. Бұл корпусты әл-Фараби атындағы Қазақ ұлттық университетінің лингвистері жасаған.

Қазақ тілінің ұлттық кор­пу­сы­ның публицистикалық кіші корпусын Білім және ғылым ми­нистрлігі Тіл саясаты комитетінің тапсы­рысымен Ш.Шаяхметов атындағы «Тіл-Қазына» ұлттық ғылы­ми-практикалық орталығында жасалған.

Осы жерде «Қазақ тілінің бірнеше корпусын жасау қаншалықты маңыз­ды? Неге Ұлттық корпусты жетілдіре бермеске?» деген сауал туындайды.

Публицистикалық кіші кор­пустың жоба жетекшісі, «Тіл-Қазына» ұлттық ғылыми-практикалық орталығы­ның ғалым хатшысы, ­филология ғылымдарының кандидаты, қауымдас­тырылған профессор Нұрлыхан Аитова­ның айтуынша, әр жерден корпустар көптеп жасала бастаса, тек қуану керек.

«Корпустардың бір-бірінен айыр­машылығы болуы оның қай мақсатта, қандай дереккөздер базасы ретінде жасалуымен байланысты. Әйтпесе, барлық корпустардың түп мақсаты біреу – тілдегі түрлі дерекқорларды жинақтап ұсынып, сұрыпталған тілдің әдеби нормасын жасауға қызмет ету, тілді қалыптау, қолданысын ыңғайлы ету. Кіші корпустарды жасаудың өзі – Ұлттық корпусты жетілдіру. Оның маңызы ұлттық корпус жасаудың маңызымен барабар, яғни ұлысы да кішісі де түптің-түбінде қазақ тілінің толыққанды қызмет етуі, сақталуы мен таралуына бірдей жұмыс істейді», – деп түсіндірді Нұрлыхан Нуруллақызы.

Ғалым әлем тілдерінде корпус жа­сақтауға бір елдің түкпір-түк­пі­ріндегі оннан астам ірі ұйымдары жұмылдырылатынын атап өтті.

«Дамыған Батыс елдерінде тек қана корпус жасаумен айналысатын үлкен корпустық институттар бар, мұнда осы бағытта зерттеу жобаларын жасайтын, ғылыми жұмыстармен айналысатын барлық басқа өзге ұйымдар, жекелеген адамдар өз біліктіліктерін арттырып, корпус жасақтауға атсалыса алады. Бұл елдерде корпус жасау қызметтері үнемі қаржыландырылып отырады және ол аз ауқымда емес. Бұл – қазіргі цифрлы жаһандық заманда корпустың нағыз керек дүние екенін ұқтырса керек», – дейді ғалым.

 

КОРПУСТЫҢ МАҢЫЗЫ ҚАНДАЙ?

Кіші корпусты жасақтау барысында газет мәтінін жазушылардың кейбір тілдік құрылымды қате қолданатыны анықталған.

«Нақтырақ, қанша? неше? деген сауалдарға жауап беретін сөзқолданысты алсақ, газет мәтінін жазушылардың бұл тілдік құрылымды қате қолданатынын байқадық. Корпуста дәл қазір «қанша» сөзі 777, ал «неше» сөзі 224 құжатта кездеседі. Мысалы, «қанша заттар мен бұйымдар бар», «қанша тіл оқыған», «қанша билеушілермен жақын таныс бола тұрса да» дегендерде қанша? сөзі көптік мәнде болғандықтан тіркескен сөзіне көптік жалғау жалғанбауы керек (дұрысы – «қанша зат пен бұйым», «қанша билеушімен»), ал адам білетін тілі санауға келетін анық нәрсе болғандықтан «неше тіл оқыған/білген» деген тіркес дұрыс. Келесі «неше жерден пәлсапалық мәнге ие болып, неше жерден ой қозғайтын», «неше жылдардан бері қарай», «емханаларымыздан неше мыңдаған орындар әзірленді», «неше жылғы досынан теріс айналып кететіндер жоқ емес» тәрізді мысалдарда керісінше, қанша, қаншама сөздерін қолдану дұрыс болған болар еді. Яғни бұл мысалдар тілдің грамматикалық функциясының бұрмалануы мен стильдік қолданысындағы ақауларды білдіреді», – дейді Нұрлыхан Нуруллақызы. Ғалым осы мысалдарды бар жоғы 27 минутта талдап шыққан. «Ал осыны газет бетінен терсеңіз, қанша уақыт ысырап болар еді ғой. Міне, корпустың маңыздылығы деген – осы», – дейді ғалым.

Корпус базасына осы уақытқа дейін 5 миллионнан аса сөзқолданыс енгізілген, оның 2 миллионнан астамы талданған. Дереккөздері – «Ана тілі», «Қазақ әдебиеті», «Егемен Қазақстан», «Заң», «Түркістан» газеттері. Кейін бұл дереккөз кеңейтіле толықтырылады.

«Қазір талданбаған сөздерге әрі қарай лингвистикалық белгілеу жүргізіліп жатыр. Сондай-ақ іздеу функцияларын жетілдірумен айналысамыз. Жаңа контент жасақтау, мәтіндерді цифрландыру, оны өңдеу, белгілеу сынды жұмыстар жасалуда. Алда тағы төрт кіші корпус параллель әзірлеу жүзеге асырылмақ. Корпус базасы сол бағыттарда толықтырылатын болады», – деп түсіндірді Нұрлыхан Нуруллақызы.

Құрылғанына бір ғана жыл болған «Қазақ тілінің ұлттық корпусының публицистикалық мәтіндер кіші корпусының» мәтіндік дерегін зерттеушілер қазірдің өзінде қолдана бастаған. Қазір университеттерде, мысалы әл-Фараби атындағы ҚазҰУ-да зерттеу тақырыптары берілген. «Өзіміз де, яғни корпус жасауға қатысушы жұмыс тобы да зерттеуге кірісті», – деп толықтырды жоба жетекшісі.

 

ЖОБАНЫ КІМДЕР ЖАСАДЫ?

Жобаны жасауға барлығы – 21 адам, оның ішінде: үш ғылым докторы, бес ғылым кандидаты, бір PhD, алты докторант, бес ғылым магистрі, екі ІТ маман қатысқан. Мамандар А.Байтұрсынұлы атындағы Тіл білімі институты, әл-Фараби атындағы Қазақ ұлттық университеті, Л.Н.Гумилев атындағы Еуразия ұлттық университеті, Назарбаев Университет, Қазақ ұлттық қыздар педагогикалық университеті, Қ.Жұбанов атындағы Ақтөбе өңірлік мемлекеттік университеті, Абылай хан атындағы Қазақ халықаралық қатынастар және әлем тілдері университеті, Байшев университет, «Minialgo» ЖШС және «Qazkitap баспасы» ЖШС ұйымдарынан іріктелген.

 

АЛДАҒЫ ЖОСПАРЛАР ҚАНДАЙ?

Жобаны 2021–2025 жылдар аралы­ғында жүзеге асыру жоспарланған. Осы аралықта қазақ тілінің ұлттық корпусының бес кіші корпусы әзірленеді. Оған 40 миллион сөзқолданыс енгізілу көзделген.

«Корпус жасау қызметі үздіксіз жүргізіліп, мәтіндік база толыққанды жұмыс істеуі тиіс. 2025 жылдан кейін бұл тоқтап қалмайды, оған жол берілмейді деп ойлаймын. Сондықтан бұны ірі жобаға айналдыру ойымызда бар. Оны уақыт көрсете жатар», – дейді жоба жетекшісі.

Лингвистикалық корпустың тағы бір маңызы – мәтіндердің толықтай цифрландырылуы және орыс, ағылшын тілдерінде жұмыс істеуі. Бұл өзге ұлт өкілдерінің де зерттеу жұмысында қазақ тілінің ұлттық корпусын қолдануына мүмкіндік береді.

Корпус кәсіби лингвистерден ­бастап мұғалімдерге, білім алушыларға, тіл үйренушілерге, жалпы қазақ тіліне қызығушылығы бар көпшілікке арналған. Жұртшылыққа да еркін қолжетімді.

Comments (0)
Post a comment