Russian Learner Translator CorpusСвободное произведение культуры

Проект Russian Learner Translator Corpus (Russian LTC) или «Корпус несовершенных переводов» нацелен на создание доступной исследователям коллекции студенческих переводов в направлениях «английский-русский» и «русский-английский». Название нашего корпуса является модификацией названия европейского проекта MeLLANGE Learner Translator Corpus (MeLLANGE LTC).

In English

В корпус включаются переводы, выполненные студентами специальности «Перевод и переводоведение» и дополнительной квалификация «Переводчик в сфере профессиональной коммуникации» (очное и очно-заочное отделения), направлений подготовки бакалавриата «Лингвистика» (вид деятельности: переводческая), а также переводы, представленные к участию в нескольких российских конкурсах перевода. Большая часть коллекции состоит из работ студентов ТюмГУ, однако RusLTC содержит переводы студентов десяти российских вузов (НГЛУ, МАИ, МГУ, ПГНИУ, УдГУ, СГУ и др). Метаданные, содержащие обобщенную информацию об авторе перевода перевода (университет, курс, форма обучения, год выполнения перевода), включены в дополнительные параметры поиска на главной странице корпуса.

Корпус пополняется два раза в год, и по состоянию на 14 июня 2015 года его общий объем составляет более 1,5 млн словоупотреблений. Общее количество английских оригиналов - 260, русских оригиналов - 59. Количество переводов к каждому из них варьирует от 1 до более 60. Все переводы анонимизированы. Более подробную информацию о статистических параметрах корпуса, которая обновляется в режиме реального времени, можно получить по адресу: https://dev.rus-ltc.org/statistics/

Корпус может быть использован для разнообразных переводоведческих исследований, а также как источник примеров в методических целях. В частности, RusLTC может быть материалом для исследований в области:

  1. вариативности перевода, поскольку содержит множественные переводы к одному оригиналу;
  2. переводческих универсалий, на основе сравнения с корпусом естественного языка перевода, представленного в национальных корпусах;
  3. зависимости характеристик переводного текста от тех или иных экстралингвистических факторов, зафиксированных в метаданных (направление перевода, соотношение родного языка и языка оригинала, жанр оригинала, ступень переводческого образования и т.д.);
  4. качества перевода, для выявления типичных переводческих проблем и проверки гипотез относительно теоретических переводческих трудностей, традиционно описываемых на основе сопоставительных данных (способы передачи эпистемической модальности, «ложные друзья переводчика» и пр.). В этих целях можно использовать подкорпус RusLTC, размеченный по переводческим ошибкам и существующий в виде отдельного сервиса (см. ниже).

Насколько нам известно, RusLTC – единственный множественный параллельный корпус учебных переводов, доступный онлайн и включающий русский язык. В мире это третий (и самый большой) параллельный корпус в Интернете, после ENTRAD and MeLLANGE LTC (см. Таблицу 1, в которой описаны все аналогичные ресурсы по состоянию на март 2014).


Genres in the corpus

Корпус представляет собой коллекцию текстов оригиналов и переводов, выровненных на уровне предложения программой LF Aligner с последующей ручной корректировкой полученного двуязычного файла (в программах Olifant или Heartsome TMX Editor). Основной интерфейс поиска позволяет проводить простой лексический поиск в оригиналах или переводах, в результате которого выдаются предложения оригиналов/переводов, содержащие искомую единицу и связанные с каждым их них предложения переводов. Кроме того, разметка корпуса позволяет уточнять поиск по метаданным о переводчике, о тексте оригинала и о ситуации перевода (кнопка «Дополнительные параметры поиска»). Полный список метаданных включает следующие 10 параметров (для некоторых текстов тот или иной вид данных может отсутствовать): пол переводчика, вид и ступень образовательной программы, оценка за перевод, год и условия выполнения перевода (дома/в классе; экзамен/текущий перевод/конкурс), жанр оригинала, университет. Все оригиналы в корпусе отнесены к одной из следующих жанрово-регистровых разновидностей: информационный, публицистический, научный, научно-популярный, художественный, речь, письмо, реклама, обзор (см. рисунок справа, отображающий распределение жанровое распределение текстов в корпусе).

Например, вы можете искать слово might в переводах студентов мужского пола, выполненные в ТюмГУ на экзамене на пятом курсе очной формы обучения, получивших оценку "4".

Результаты поиска можно сохранить в виде файла в формате .csv.

Сравнительно небольшая часть RusLTC (391 перевод на русский и 89 – на английский) размечена по ошибкам при помощи программы текстовых аннотаций brat (Stenetorp et al 2012), позволяющей сохранять информацию о типе и значимости ошибок, а также комментарии к ним, в виде отдельного файла, предназначенного для машинной обработки. Разметка производится на основе специально созданной классификации переводческих ошибок, включающей 30 иерархически организованных категорий. Содержание размеченного по ошибкам подкорпуса RusLTC представлено в Таблице 3. Этот подкорпус постоянно пополняется и непосредственно используется в образовательном процессе. Посмотреть размеченные переводы можно по адресу https://dev.rus-ltc.org/brat/#/rusltc/.

RusLTC можно скачать полностью в двух вариантах: в виде двуязычного файла в формате доработанного TMX (разновидность XML, использующаяся для хранения памяти перевода в системах автоматизированного перевода) или в виде архива простых текстовых файлов в кодировке Unicode utf-8.

Каждому тексту присваивается уникальное имя, содержащее следующие элементы: обозначение языка, на котором он написан (EN или RU), номер одного из разработчиков корпусов, уникальный номер для каждого оригинала (независимо от языка оригинала) и, в случае переводов, порядковый номер перевода для одного оригинала. Например, имя файла RU_1_35.txt означает, что это оригинал на русском языке из раздела, курируемого разработчиком 1, а EN_1_35_3.txt – это перевод указанного выше оригинала под номером 3. В Таблице 2 приведены все заголовки переведенных текстов, указан их жанр, размер и количество переводов.

Error types

Все метаданные и разметка по ошибкам к каждому переводу хранятся в одноименных служебных файлах, снабженных уточнением head или и расширением ann (напр., RU_1_35.head.txt содержит метаданные к указанному тексту, а EN_1_35_3.ann – разметку по ошибкам). Обобщенная статистика по видам выделенных ошибок в EN>RU размеченном подкорпусе представлена на рисунке слева.


Контент корпуса (оригиналы и переводы, а также метаданные) доступен под свободной лицензией Creative Commons Attribution-ShareAlike. Вы можете использовать его в любых целях, при условии ссылки на авторов корпуса (Kunilovskaya, Kutuzov 2014 в списке литературы ниже) и распространении вашей производной работы под аналогичной свободной лицензией.

Если вы являетесь автором одного из включенных в корпус текстов или переводов и не желаете, чтобы он был доступен в Сети, то свяжитесь с авторами корпуса и мы удалим ваше произведение из свободного доступа.

Если у вас возникли вопросы пишите нам на электронную почту rlpcorpus@gmail.com.

Скачать корпус как набор текстовых файлов с мета-данными

Скачать корпус как выровненный TMX-файл (bitext)

Поиск в корпусе


Создатели Корпуса несовершенных переводов — коллектив лингвистов и переводоведов Тюменского государственного университета и Школы лингвистики Высшей школы экономики (как преподавателей, так и студентов), а также независимых исследователей.

Подробнее о корпусе можно прочитать в следующих публикациях:

Презентация корпуса на конференции TSD-2014, Брно, Чехия:

RusLTC at TSD-2014 (Brno) from Maria Kunilovskaya
Лицензия Creative Commons
Произведение «Russian Learner Translator Corpus» созданное автором по имени RusLTC Team, публикуется на условиях лицензии Creative Commons «Attribution-ShareAlike» («Атрибуция — На тех же условиях») 4.0 Непортированная.
Разрешения, выходящие за рамки данной лицензии, могут быть доступны по адресу rlpcorpus@gmail.com.