Створення власних лінгвістичних корпусів

DOI: https://doi.org/10.17721/1728-242X.2021.27.6-12

Автор(и)

Ключові слова:

лінгвістичний корпус, електронний корпус текстів, паралельний корпус, частотний список, ключові слова, type / token ratio, середня довжина речення

Анотація

Досліджено проблему створення власних корпусів паралельних текстів великих обсягів. Запропоновано методику та критерії конструювання паралельних лінгвістичних корпусів. У результаті дослідження створено об'єднаний корпус на 3 850 000 пар речень або на 65 мільйонів слів англійської частини, що за обсягом становить 10 % відомого корпусу COCA або корпусу GRAC. Дієвими виявилися методи завантаження матеріалу для корпусу на основі частотного списку, термінологічних словників, а також частотних списків слів попередньо самостійно створених корпусів. Проведено теоретичні розвідки та практичні дослідження задля нормалізації корпусу. Результативними для дослідження корпусу виявилися співвідношення type / token ratio, автоматичний індекс читабельності ARI, показники середньої довжини речення ASL тощо. Побудова графіків розподілу лексики за частотністю та довжиною речень у корпусі яскраво унаочнює результати наших досліджень, ефективно репрезентує матеріал. Також можна говорити про вдалий досвід створення вузьких спеціалізованих термінологічних корпусів на противагу термінологічним словникам для подальших досліджень саме функціональних особливостей, моделей речень тієї чи іншої терміносистеми. Отримано корпуси медичного і біологічного спрямування (приблизно 500 тис. пар речень кожен), а також політехнічного на 1,3 млн. Загалом було укладено вісім корпусів, для п'яти з них пораховано загальну кількість знаків, слів та речень у корпусі з відповідною узагальнювальною таблицею; встановлено середню довжину речень ASL, визначено автоматичний індекс читабельності ARI, співвідношення type / token ratio TTR; для корпусів складено частотні списки лексики, пораховано загальну кількість унікальної лексики та побудовано відповідні логарифмічні графіки; запропонована методика аналізу розподілу лексики частотного словника тексту на основі графіків через поділ їх на три частини: початкову, середню та хвостову – вважається нами перспективною.

Посилання

Bisikalo, O. V., 2015. Statystychnyi analiz skladnykh zalezhnostei u teksti. Visnyk Natsionalnoho universytetu "Lvivska politekhnika". Informatsiini systemy ta merezhi, 814, pp. 228–236.

Chibisova, O. I., Smirnov, N. N. and Vaseckij, S. G., 2003. Novyj anglo-russkij biologicheskij slovar'. Moscow: Russo.

Demska, O., 2011. Tekstovyi korpus: ideia inshoi formy. Kyiv: NaUKMA.

Kozoriz, O. P., 2014. Statystychni kharakterystyky movnykh odynyts yurydychnoi terminolohii kytaiskoi movy. Bulletin of Taras Shevchenko National University of Kyiv. Oriental languages and literatures, 1(20), pp. 15–20.

McEnery, T. and Wilson, A., 2001. Corpus Linguistics: An Introduction. 2nd ed. Edinburg: Edinburg University press.

Rayson, P. E., 2002. Matrix: A statistical method and software tool for linguistic analysis through corpus comparison. Ph. D. Lancaster University.

Rivkin, V. L. and Benjumovich, M. S., 2004. Novyj anglo-russkij medicinskij slovar'. Moscow: Russo.

Skobnikova, O. V., 2018. Stvorennia vlasnoho korpusu amerykanskykh kinostsenariiv. Naukovyi visnyk Drohobytskoho derzhavnoho pedahohichnoho universytetu imeni Ivana Franka. Filolohichni nauky (movoznavstvo), 9, pp. 204–207.

Stoljarov, D. E. et al., 2003. Bol'shoj anglo-russkij politehnicheskij slovar'. Moscow: Russo.

Zaharov, V. P. and Bogdanova, S. Ju., 2011. Korpusnaja lingvistika. Irkutsk: IGLU.

Zhukovska, V. V., 2013. Vstup do korpusnoi linhvistyky. Zhytomyr: Zhytomyrskyi derzhavnyi universytet imeni Ivana Franka.

Sources

Anglo-russkij slovar' i sistema kontekstual'nogo poiska po perevodam Linguee, [online]. Available at: <http://linguee.ru> [Accessed 11 February 2021].

AntConc Homepage, [online]. Available at: <http://www.laurenceanthony.net/software/antconc/> [Accessed 11 February 2021].

British National Corpus, [online]. Available at: <http://www.natcorp.ox.ac.uk/> [Accessed 11 February 2021].

Corpus of Contemporary American English, [online]. Available at: <https://www.english-corpora.org/coca/> [Accessed 11 February 2021].

Corpus software and related tools, [online]. Available at: <http://ucrel.lancs.ac.uk/tools.html> [Accessed 11 February 2021].

Corpus Survey, [online]. Available at: <https://www.lancaster.ac.uk/fass/projects/corpus/cbls/corpora.asp> [Accessed 11 February 2021].

Czech National Corpus, [online]. Available at: <http://web.archive.org/web/20131029222327/http://ucnk.ff.cuni.cz/english/stahni.php> [Accessed 11 February 2021].

English Collocations Dictionary online, [online]. Available at: <http://ozdic.com/collocation-dictionary/> [Accessed 11 February 2021].

Glosbe (multilingual online dictionary), [online]. Available at: <http://glosbe.com> [Accessed 11 February 2021].

Heneralnyi rehionalno anotovanyi korpus ukrainskoi movy (HRAK), [online]. Available at: <http://uacorpus.org/> [Accessed 11 February 2021].

MyMemory, [online]. Available at: <http://mymemory.translated.net> [Accessed 11 February 2021].

Nacional'nyj korpus russkogo jazyka, [online]. Available at: <http://ruscorpora.ru/new/> [Accessed 11 February 2021].

Open parallel corpus OPUS, [online]. Available at: <http://opus.lingfil.uu.se> [Accessed 11 February 2021].

Oxford English Corpus, [online]. Available at: <https://www.sketchengine.co.uk/oxford-english-corpus> [Accessed 11 February 2021].

ProWritingAid, [online]. Available at: <https://prowritingaid.com/> [Accessed 11 February 2021].

QuWord, [online]. Available at: <https://www.quword.com/> [Accessed 11 February 2021].

Reverso context, [online]. Available at: <https://context.reverso.net> [Accessed 11 February 2021].

Russian-Chinese Translation Corpus, [online]. Available at: <http://www.rucorpus.cn/> [Accessed 11 February 2021].

TAUS Data Cloud, [online]. Available at: <http://data-app.taus.net> [Accessed 11 February 2021].

Word frequency data, [online]. Available at: <https://www.wordfrequency.info/samples.asp> [Accessed 11 February 2021].

Yuliaokuzaixianwangzhan, [online]. Available at: <http://corpus.zhonghuayuwen.org/CpsWParser.aspx> [Accessed 11 February 2021].

Завантаження

Опубліковано

18.02.2023

Як цитувати

Створення власних лінгвістичних корпусів: DOI: https://doi.org/10.17721/1728-242X.2021.27.6-12. (2023). ВІСНИК КИЇВСЬКОГО НАЦІОНАЛЬНОГО УНІВЕРСИТЕТУ ІМЕНІ ТАРАСА ШЕВЧЕНКА. СХІДНІ МОВИ ТА ЛІТЕРАТУРИ, 1(27), 6-12. https://oriental.bulletin.knu.ua/article/view/564

Схожі статті

1-10 з 16

Ви також можете розпочати розширений пошук схожих статей для цієї статті.

Статті цього автора (цих авторів), які найбільше читають

1 2 3 4 5 > >>