ТЕРМИНОЛОГИЯЛЫҚ БАЗА: ТӘЖІРИБЕ ЖӘНЕ ТЕХНОЛОГИЯ
Терминология мәселелерімен кімдердің айналысқаны абзал деген сұрақ көпті мазалап жүр? Сіздің көзқарасыңызды білсек?
Отандық тіл білімінде терминология мәселелерімен тек терминологтар ғана айналысу қажет деген дәстүрлі пікір қалыптасып келгені рас. Алайда тек қана тіл мамандары ғана емес, әр түрлі пән салалары мамандары, аудармашылар, мемлекеттік қызметкерлер, т.б. мамандар да өз қызметтерінде күн сайын өз пән саласына қатысты терминдермен жұмыс жасауларына тура келеді.
Біраздан бері барлық ғалымдарды, пән салаларындағы тәжірибеші мамандарды толғандырып келе жатқан мәселелердің бірі – осы пән салалары терминдерін жүйелеу, оларды қазіргі таңдағы ақпараттық технологиялар жетістіктерін тиімді пайдалана отырып халықаралық стандарттарға сәйкес жасалған автоматтандырылған веб‑платформаларға енгізу болып табылатыны сөзсіз.
Осы орайда, қазақ тілінің терминдер корпусын біріздендіріп жүйелеу мақсатында бастаған жобамыздың тәжірибесімен бөлісуді жөн көрдік.
РҒА Сібір бөлімі, Новосібір мемлекеттік университетінің Есептеу технологиялары институты (Федотов А.М.) мен Л.Н. Гумилев атындағы ЕҰУ, Ақпараттық технологиялар кафедрасы (Тусупов Ж.А., Самбетбаева М.А.) бірігіп жасаған электрондық тезаурус жобасына, Л.Н. Гумилев атындағы ЕҰУ, Аударма теориясы мен практикасы кафедрасында (Тажибаева С.Ж., Баекеева А.Т.) тау‑кен терминдерінің көптілді басқарылмалы тезаурусын құрастыру 2018 жылы жобасын бастадық.
Digital Library басқару жүйесі негізіндегі тезаурус құрастыру қалай жүргізіледі?
Бұл Новосібір мемлекеттік университеті мен Л.Н. Гумилев атындағы Еуразия ұлттық униерситетінің біріккен жобасы аясындағы үлкен жұмыстың бас әзірлеушісі физико‑математика ғылымдарының докторы, профессор А.М. Федотов, Ж.А. Тусупов және осы кісілерден тәлім алған шәкірті Ақпараттық технология мамандығының PhD докторы М.А. Самбетбаева.
Осы тезаурус ISO 25964-1:2011 (бірінші бөлім) және ISO 25964-1:2013 (екінші бөлім) соңғы халықаралық стандарттары негізінде құрастырылды [1, 2]. Аталған стандарттар негізінде құрастырылған тезаурус басқа да халықаралық тезаурустармен өзара әрекеттесі мүмкіндігін береді, яғни бұл дегеніміз, машиналық немесе автоматтандырылған аударманы арнайы пән саласы үшін орындау кезінде осы тезаурусқа енгізілген қазақ, ағылшын, орыс тілдеріндегі контент арқылы аудамаға арналған компьютерлік жасақтамалар тезаурус мазмұнын көре алып, релевантты ақпаратты іздеу процесіне қатыса алады.
Мұндай халықаралық стандарттарға сай жасалған тезаурустарға мыналарды жатқызамыз: AGROVOC тезаурусы, AGCOM тезаурусы, EuroVOC тезаурусы, SNOMED тезаурусы, WordNet тезаурусы, ЮНЕСКО тезаурусы [3-8].
Сонымен, біздің ұсынып отырған тезаурусымыз белгілі бір пән саласына арналған сөздіктердің толық базасы болып табылады [9].
Тезаурус өз ішіне терминдердің түрлері, байланыстары, топтарымен қоса, түрлі сөздіктерді енгізе алады:
- анықтамалық сөздік,
- көптілді сөздік,
- синонимдер сөздігі,
- антонимдер сөздігі,
- омонимдер сөздігі,
- түсіндірме сөздік, т.т.
Тезауруста терминдер семантикалық және функционалдық жағынан нақты анықталып, олардың лингвистикалық баламалары бекітіліп, иерархиялық түрде жіктеліп, беріледі.
Әдетте тілдік корпустар бірнеше ондаған жылдар бойы жинақталған түбегейлі еңбекті талап ететін жоба. Өкінішке орай Қазақстанда бір ғана «Қазақ тілінің Алматы корпусы» қызмет етеді [10]. Қазақ тілінің Алматы корпусының тек қана көркем әдебиет пен периодикалық және публицистикалық шығармалар негізінде жасалғандығында. Аталған корпуста пән салаларының терминдері қарастырылмаған. Бұл термин саласындағы тілші, аудармашы мамандардың алдына үлкен мақсат пен міндеттерді артады. Сондықтан терминологияны пәнаралық бағытта, компьютерлік лингвистика, пән салалары, салалық терминология мен салалық аударма тоғысында зерттеп, осы салаларда ғасырлар бойы атқарылып келген ақпараттарды жүйелеп, біріздендіріп, электрондық басқарылмалы платформаларға жүктеу жұмыстарын атқару қажет екендігін білдіреді.
Бұл тезаурус жүйеленген терминдер арасындағы семантикалық байланыстар мен сөздік мақалаларды көрсете алады. Бұл дегеніміз, аталған тезаурусты қажетінше сөздік мақалалармен, мысалдармен, мәтіндермен толықтыру арқылы қазақ тілінің ғылыми тіл ретіндегі корпусын құрастырудың алғышарттарын да жасауға болады.
Бұл тезаурусымызға енгізетін терминдерге Терминком бекіткен «Кен ісі және металлургия» саласының терминологиялық базасы арқау болды.
Аталған тезауруста салалық терминдердің сипаттамасы (description), лингвистикалық эквиваленттері (LE – linguistic equivalents), синонимдері (абсолюттік синонимдері), антонимдері (бар болған жағдайда), ассоциативтік терминдері, терминдердің бір бірімен иерархиялық байланысы, яғни терминдердің жоғарғы (broader term) және төменгі (narrower term) ұғымдары беріледі.
М.А. Сәмбетбаеваның жетекшілігімен ҚР БҒМ Ақпараттық және есептеуіш технологиялар институтында осы біріккен жоба аясында Қазақстандық интероперабельді платформа әзірленді.
Аталған жоба аясында Л.Н. Гумилев атындағы Еуразия ұлттық университеті, Аударма теориясы мен практикасы кафедрасының «Аударма ісі» мамандығында оқитын докторанттар мен магистранттармен бірігіп әр пән саласын қамтитын тезаурустар құрастыру жұмысын бастадық.
Мамандар негізінен аудармашы болғандықтан, салалық терминдер тезаурусын үш тілде (қазақ, ағылшын, орыс) әзірлеуде, алайда бұл тезаурусқа француз, неміс және басқа да тілдерді енгізу мүмкіндігі бар. Сонымен, осы тезаурусты жасауда әр салаларда аудармашылық тәжірибесі бар мамандар іріктеліп алынды:
Тау‑кен терминдері – Баекеева Айнур (қазақ, ағылшын, орыс)
Салық терминдері – Бакраев Акбар (қазақ, ағылшын, орыс)
Зергерлік бұйымдар атаулары – Кожахметова Гульсара (қазақ, ағылшын, орыс)
Құрылыс терминдері – Темирова Зухра (қазақ, ағылшын, орыс)
Дипломатия терминдері – Байгужин Берік (қазақ, ағылшын, орыс, араб)
Көптілді салалық терминологиялық базаны басқарылмалы тезаурусқа енгізудің қадамдық алгоритмін әзірледік. Тау-кен терминдерінің терминологиялық базасының негізінде иерархиялық алгоритм тілші, аудармашы мамандарға бейімделіп жасалды. Бұл алгоритм басқа да ғылыми пән салалары терминдерінің тезаурусын құрастырудың үлгісі болып табылады.
Мұндай көптілді терминологиялық базаға сала терминдерін енгізу жұмысы сала терминдерін жақсы түсінетін, бірнеше тіл арасында аударма жасап жүрген тәжірибеші салалық аудармашылар мен тіл мамандарына өте қажетті. Себебі мұндай ғылым мен техниканың пән саласындағы тезаурусты толтыруға құзыретті маман болуы шарт. Осы орайда біз аталған қадамдық алгоритмді Л.Н. Гумилев атындағы Еуразия ұлттық универеситеті Аударма теорисы мен практикасы кафедрасының докторанттары мен магистранттарына, ұлттық және трансұлттық компаниялардағы тәжірибеші аудармашыларға, мемлекеттік органдардағы тіл мамандарына ұсындық (кесте 1). Мамандардың аударма ісіндегі еңбек өтілі мен іс‑тәжірибесі 10 жылдан жоғары.
Кесте 1 – Тезаурус толтырудың қадамдық алгоритміне баға берген салалық аудармашылар
Аудармашының жұмыс тілдері |
Лауазымы |
Саны |
Қазақ, орыс, ағылшын |
Аудармашы, докторант |
8 |
Қазақ, орыс, ағылшын |
Аудармашы, магистрант |
17 |
Қазақ, орыс, ағылшын |
Аудармашы, ф.ғ.к., PhD |
5 |
Қазақ, орыс |
Аудармашы, мемлекеттік органдар мамандары |
3 |
Қазақ, орыс және шетел тілі (француз, неміс, араб, қытай, корей, т.б.) |
Аудармашы, магистр |
6 |
Барлық саны 39 аударма саласындағы мамандар Digital Library платформасында Zthes деректер схемасында әзірленген салалық терминдердің көптілді басқарылмалы тезаурусын құрастырудың қадамдық алгоритмін ақпараттық технология мамандарының жетістіктерін аудармашыларға түсінікті тілмен түсіндірілгенін растады.
Digital Library басқару жүйесі терминдерді біріздендіру мен жүйелеудің аясын кеңейте алады ма? Әлде?
Бұл тезаурустың басты ерекшелігі көптеген электрондық сөздіктерде термин іздеу барысында кездесетін көп варианттылық мәселесін шеше алады, яғни бұл Digital Library басқару жүйесі негізінде жасалған тезаурустың сала мамандарына беретін басты артықшылығы – ол термин іздеу барысындағы таргеттік немесе релеванттық іздеу, яғни салалық терминнің нақты бір саладағы семантикалық және функционалдық жағы нақты анықталады, олардың қазақ, орыс, ағылшын тілдеріндегі лингвистикалық баламалары бекітіліп, нақты сол терминге қатысты барлық ақпарат тізбегіне қол жеткізе алу мүмкіндігі бар.
Сонымен, тіліміздегі терминдерді біріздендіру мен жүйелеудің бірден бір жолы – Digital Library платформасы арқылы электрондық тезаурус құрастыру деп пайымдаймыз. Мұндай пікірдің дәлелі ретінде салалық аударма үшін құрастырылып жатқан тезаурустағы таргеттік немесе релеванттық іздеуді басты себеп деп есептейміз. Осыдан 5-6 жыл бұрынғы әзірленген электрондық сөздіктердің өзі қолданыстан тыс қалып жатыр, және осы аталған мәселелерді шешу жолында салалық терминологияға тың шешімдер қажет. Мұндай шешім жасауға қазақ тілінің терминологиялық қорында жинақталған 10 мыңнан аса тау‑кен терминдері, қостілді және көптілді электрондық лексикографиялық дереккөздерден алынған терминдердің талдауы дәлел бола алады.
Әңгімеңізге рахмет.