Н.Д. Голев Обратный машинный перевод: исследовательские и прикладные возможности (постановка проблем). Статья 1. ОМП как источник материала для решения лингвистических задач

09.07.2017

Н.Д. Голев

Обратный машинный перевод: исследовательские и прикладные возможности (постановка проблем). Статья 1. ОМП как источник материала для решения лингвистических задач

 

В статье выносится на обсуждение научная идея, предполагающая возможность  использования результатов обратного машинного перевода (ОМП) для исследования различных теоретических вопросов языкознания и для решения разнообразных  практических задач, возникающих, в частности, в сфере межъязыковой коммуникации, перевода и лингводидактики (обучения иностранным языкам). Под ОМП понимаем «трансляционный продукт», полученный в результате машинного (компьютерного) перевода текста или других единиц  (слов, словосочетаний,  предложений, и т.д.) с языка R на язык N и обратного  перевода полученного «продукта» с языка N на язык R.  Такое межъязыковое преобразование дает возможность соотнесения в различных аспектах единиц исходного языка R-1 с  «трансляционными вариантами» (R-2, R-3 и т.д.). Например, обратный перевод русской фразы    у меня вскружило голову «через» разные языки дает такие R-варианты: через англ.  я поворачиваю голову; через нем. я поворачиваю голову; китай. я обернулся, белорус. у меня вскружить голову;  укр. у меня закрутило голову; финск. я поворачиваю голову; араб. поворот головы. Сопоставление вариантов дает возможность при постановке соответствующих задач осуществить их сопоставление и типологию в необходимом аспекте, например, структурную (уровневую): лексико-семантические, морфологические, словообразовательные и т.п. трансформации и их типы или смысловую – по степени семантического расстояния между «разноязычными» R. Статья 1 посвящается методологическим аспектам проблемы, в статье 2 мы намерены представить практический мониторинг источникового  потенциала, иллюстрирующий особенности и возможности методики ОМП, в статье  3 предполагается рассмотрение прикладных выходов идеи ОМП в области межъязыковой коммуникации и лингводидактики.

1.       Данные ОМП и показания языкового сознания

 В настоящей статье 1, посвященной методологическим вопросам применения ОМП мы рассмотрим только один вид возможностей использования ОМП, связанный с получением специфического материала, который применяется в качестве «полигона» для решения собственно лингвистических задач. Считаю нужным сразу подчеркнуть, что рассматриваем такое применение ОМП вне непосредственного  соотнесения исследовательских возможностей со спецификой машинного перевода (МП). Напротив, для источникового аспекта ОМП важнее подчеркнуть возможность (а в нашем случае и желательность)  отвлечения от этой специфики, равно как и от задач, связанных  с оценкой качества МП и его  совершенствованием [33].  Такой методологический подход в определенном смысле приравнивает «показания» компьютера к «показаниям языкового сознания» - этим термином часто обозначают данные, полученные в результате апелляции к носителям языка и их реакции на различные вопросы и задания (например [30]). Такой способ получения данных по традиции, восходящей к известной статье Л. В. Щербы, часто квалифицируют как эксперимент (некоторые сомнения по поводу такой квалификации высказаны нами в статье [10]). 

Тезис, сближающий такие источники получения языкового материала, как языковое сознание рядового носителя языка и компьютерные программы, в которых опредмечено сознание составителя программы, нуждается в дополнительной аргументации, направленной на обоснование правомерности использования данных МП для выявления и описания онтологических свойств и закономерностей генезиса, функционирования и устройства естественного языка. Выдвигая названный тезис, мы имеем в виду, что данные МП являются обобщением  речевого материала под определенным углом зрения, и такое обобщение и концентрация не противоречат законам естественного языка, что вытекает из факта в принципе успешного функционирования многих программ МП. Мы говорим о применении данных МП и ОМП для осуществления исследовательских целей, и здесь вопрос о корректности такого применения во многом зависит от конкретных целей и задач исследования и оценка корректности, исходя из этого, дается самим исследователем. Так, во многих случаях использования данных ОМП в ходе нашего исследования, которые будут продемонстрированы далее,  наличие элементов обобщенности,  искусственности, невысокого качества «трансляционного продукта» не являются существенным препятствием для получения объективных сведений о естественном языке и речевой деятельности.   В некотором роде  «надиндивидуальность», «надсубъективность» дают некоторые преимущества такому лингвистическому  источнику, как показания МП (ОМП).

Приведем дополнительный аргумент (в формате иллюстрации) к тезису о том, что данные МП являются частным случаем показаний языкового сознания и стоят в одном (источниковом) ряду с ними. Сравним данные ОМП на лексическом уровне, полученные в результате обратного перевода отдельных слов с данными по этим же словам, полученным в результате свободного ассоциативного эксперимента с рядовыми носителями русского языка и в результате металингвистического обобщения семантики слова составителями толковых словарей[1].   На наш взгляд, они не противоречат друг другу.

МЕРЗАВЕЦ
Данные «Российского ассоциативного словаря» [29. C.316] (далее РАС) в порядке убывания частотности: подлец, негодяй, гад, козел, подонок, сволочь, хам, дурак, нахал, ненавижу, отъявленный, плохой, ублюдок, алкаш, бестолковый.

Данные ОМП с помощью Google-переводчика, полученные путем обратного перевода всех ЛСВ слова «материя»: негодяй, подлец, негодяй, негодяй, улица ежа,
каблук, крен, пятки, сволочь, накипь, сволочи, подонки, бродяга, бездельник ублюдок.

 

МЕРЗОСТЬ

РАС: пакость, гадость, дрянь, грязь, жизни, какая, дикая. жуткая, низость, ужасная, белая. блевотина, болотная, вонячая. все, выходки, гнусность, дерьмо, дождь.

ОМП: мерзость, отталкивание, отвращение, что-то отвратительное,
гадость, грязь, отбросы, нечистоты, мерзость, грязь, перегной,
навоз, перегной, злодейство, подлость, низость, мерзость, гадость.

МЕЛОЧЬ

РАС: жизни, деньги, в кармане, копейки, пузатая, медь, тоже деньгам, искать, карман, мало, медная, безделушка, богатая, быта, важная, вразмен, всякая, выбросить, готовить, дать, всякая, деталь, ерунда, желтая, желчь, звенеть , мелкая.

ОМП: мелочь, пустяк, безделица, безделушка, ничтожество, небольшая сумма,
небольшой изменение, мелкие деньги, перемена, смена, замена, сдвиг, ничего,  ничто, ноль, пустяк, пустое место, карманные деньги, карманные деньги, деньги на мелкие расходы, короткая  смена, сдача, 
деталь, деликатный вопрос, трудный вопрос,
солома, соломинка, соломка, соломенная шляпа, пустяк.

СОЧУВСТВИЕ

РАС: жалость, сострадание, ближнему, другу, ближнему, людям, милосердие, помощь, в беде, искреннее, соболезнование, человеку, выразить, горю, доброта, боль, пострадавшим, чувство, беда понимание, предчувствие, слезы.

ОМП:  сочувствие, сострадание, сопереживание, чувство, соболезнование, симпатия сочувствие, симпатия, чувство, наклоняясь, симпатия, сострадание, жалость, милосердие, общность сообщество, общность,  солидарность, альянс, Взаимное понмание, симпатии.

СПЛЕТНИ

РАС: слухи, злые, разговоры, болтовня, бабки, бабьи, грязные, грязь, плохо, ползут, слушать, распускать, глупые, пускать, пустые, старухи

ОМП: сплетня, сплетня, слухи, болтовня, сплетница, сплетник, сплетничать,
сплетни, болтовня, слухи, пустой разговор, клевета
злословие, поклеп, навет, напраслина, шепчущий, шепот, перешептывание, шушуканье, слух, разговор шепотом, , розничная торговля, сплетни.

Мы не ставим задачи полного анализа приведенных данных, однако даже беглый взгляда на приведенные списки позволяет обнаружить вполне закономерные (не случайные) пересечения двух источников языкового материала -  показаний естественного языкового сознания  и компьютерной формы искусственного интеллекта. Для слова «мерзавец» пересечения обнаруживаются в реакциях подлец, негодяй, гад, козел, подонок, сволочь, хам, дурак, нахал, ненавижу, отъявленный, плохой, ублюдок, алкаш, бестолковый; для слова «мерзость» - в реакциях гадость, дрянь, грязь,  низость; для «мелочь» -  деньги, карман,  в кармане, копейки, безделушка, мелкая: для «сочувствия» - жалость, сострадание,  милосердие,  чувство,  понимание; для «сплетни» - слухи, злые, разговоры, болтовня.

Прозрачен и понятен параллелизм приведенных выше типов реакций со смысловой структурой слова (= составом ЛСВ), фиксируемой в толковых словарях, двуязычных переводных словарях[2] и т.п. Заметим в продолжение тезиса о том, что данные словарей также являются обобщенными (надиндвидуальными), хотя они во многом опираются на интуицию индивидуального автора–лексикографа, в некотором роде искусственными, отчасти отвлеченными: однако сомневаться в их объективности и способности отражать наивную картину мира языкового коллектива в целом не приходится.

Продолжая линию квалификации и сопоставления  источникового потенциала разных форм отметим далее параллелизм указанных форм с другими типами источников.   Считаем существенным подчеркнуть, что,  различные параметры семантики могут исследоваться (и уже неоднократно исследовались) разными способами и методами.  Попытки таких исследований неоднократно осуществлялись и автором настоящего доклада, неоднократно обращавшегося к вопросу о семантическом расстоянии между лексическими едницами. Так, ранее нами испытывались структурно-семантические методы, ассоциативная методика, квантитативная методика измерения степени семантической близости /отдаленности лексических единиц разного типа [6-9]. В последнее время мы обдумываем комплексную лексикографическую методику  измерения семантической нагруженности лексем, для чего предполгаем измерять объем словарной статьи толкового словаря, энциклопедического словаря, словообразовательного словаря, ассоциативного словаря и частотного словаря русского языка, в том числе использовать данные статистики слов поисковых систем Рунета.  Фрагменты этой методики использованы при формировании словника «Опыта разноязычного словаря»  (см. об этом: [11]). Говоря о словарях в данном контексте, считаем важным отметить, что само лексикографическое описание лексического (и не только!) материала представляет собой исследование, выполненное определенным способом, или методом [3]. Применительно к обратному переводу о такой квалификации лексикографии см. [21 ].  

Здесь уместно продолжить обсуждение тезиса о «способности» компьютерных программ (формата искусственного интеллекта)  быть подобным (в определенных отношениях) естественному языковому сознанию; говоря о частотности слов как онтологичекой характеристике слова [8], мы отмечали, что чувство частотности рядового носителя языка закономерно  верифицируется данными эксперимента. Следующее наблюдение писателя – подтверждение приведенному тезиса. «К сожалению, нет статистически точных данных о том, какое из слов в русском языке более или менее употребительно. То есть каждому, разумеется, ясно, что слово, например, «треска» употребляется значительно чаще, чем, допустим, «стерлядь», а слово «водка», скажем, гораздо обиходнее таких слов, как «нектар» или «амброзия». Но точных, повторяю, данных на этот счет не существует. А жаль» [15].  Поисковая система Google бесстрастно подтверждает правомерность интуитивных оценок писателя;  ее данные (в порядке убывания частотности) на 23.12.2017:водка – 13 млн.400 тыс. треска – 3 млн.150 тыс., нектар –  3 млн, амброзия – 737 тыс.,  стерлядь 600 тыс. В «Частотном словаре русского языка» [31] также фиксируется, что треска частотнее, чем стерлядь (соотношение 4:1), а водка, чем амброзия и нектар (88:2:1).    Не сомневаемся, что массовый эксперимент с показаниями языкового сознания рядовых носителей русского языка подтвердил бы эти факты: во-первых, предощущение частотности слова, несмотря на тонкость материи,  выступает как проявление языкового сознания  большинства носителей русского языка, во-вторых, совокупный коэффициент частотности   является отвлеченной (надиндивидуальной)  устойчивой характеристикой слова, которую объективно фиксирует как языковая интуиция, так и  компьютер, отражающий тем самым языковую практику, а  - через ее опосредование – и языковое сознание.

Приведенными аргументами мы еще раз подчеркиваем правомерность важного в источниковом аспекте  тезиса, в соответствии с которым электронного информанта с исследовательской точки зрения корректно ставить в один ряд с биологическими информантами, каждый из которых (в том числе электронный) является носителем индивидуального варианта качества языковой способности. Можно предположить, что особое качество наличествует как у вариантов МП (Яндекс, Гугл), так и у  у инвариантного  МП. Свидетельством этому в частности является узнаваемость «почерка» (акцента, идостиля?) МП в том числе в его обратном формате. Ср. в связи с этим пример из художественного текста:  - Да, — согласился Сашка. — Похоже знаешь на что? На обратный перевод с иностранного языка. — Как-как? — У меня перехватило дыхание. Нет, ну ты посмотри: “сильная черепно-головная травма”! Мы же так не пишем. Это же набор слов. Так что плюнь и забудь. — Но этот набор слов написан рукой убитого и, похоже, незадолго до того, как его убили. Мне трудно на это плюнуть. — Как-как? — У меня перехватило дыхание.
— Представь, что грамотные термины сначала перевели на другой язык, ну, скажем, на английский или немецкий, а потом перевели снова на русский, но переводил человек, далекий от медицины. Вот и получилась абракадабра.
Другой пример: В Фейсбуке обсуждался текст  в жанре  «нигерийского письма» на предмет наличия у него признаков ОМП. Я г-жа Марта Нгуен Ван Bau, я вышла замуж за доктора Нгуен Ван Bau Serges. У вас нет семьи, потому что мой муж и я не имел детей до смерти, я решил завещать мою наследие, которое составляет £ 2,800.000 миллионов фунтов на благотворительность или лица, с хорошим характером, в Будьте уверены, что деньги используются для создания детского дома, больницы или любое другое действие происходит в сфере благотворительной усилия, чтобы лишить наследства ребенка. В обоих (особенно во втором) примерах актуализируются поверхностные отклонения МП от естественной речи. Мы полагаем, что дальнейшее исследование в этом плане может привести к поиску и выявлению глубинных особенностей «технолекта», вплоть до когнитивных, противопоставляющих естественный и машинный интеллекты.

«Антропо» - это апелляция к языковому сознанию носителей языка разного типа, составитель программ МП - один из них. В «антропо» перевод соотнесен с идеей когнитивного диссонанса и когнитивной гармонии, в «техно», как будет показано далее, - с идеей субъективного удовлетворения или неудовлетворения при доработке исходного теста.

Полагаем, что данная тема не ограничивается уровнем примеров из литературы ненаучного содержания.  О  надъязыковом этаже исследовательского использования ОМП, при котором всегда присутствует возможность соотнесения данных машинного (техно-) и антропо-перевода, свидетельствуют исследовательские наблюдения над ОМП аннотаций научных статей, которые системно сравниваются с переводами тех же аннотаций данных профессиональными переводчиками, публикуемые при статьях в научных журналах [3].

2.       Достоинства ОМП как лингвистического источника

При обсуждении вопроса об источниковом потенциале электронного и биологического информантов логично рассмотреть прагматическую сторону их соотношения – удобства и преимуществ того и другого при решении исследовательских задач. В порядке постановки проблемы выскажем такие соображения в пользу первого, поскольку именно оно вступает непосредственным предметом обсуждения в настоящее статье.  

1. Очевидны простота и быстрота и безотказность получения требуемых (в качественном и количественном отношениях) данных через компьютер.

2. Данные компьютера (и ОМП) воспроизводимы (верифицируемы), что существенно приближает их к статусу объективных данных и соответственно повышает в этом плане качество выводов на их основе. Язык – феномен одновременно природный и рукотворный, естественный и гуманитарный. Существует проблема приближения лингвистики к естественным наукам, к чему призывают многие исследователи языка. Главное, что различает предметы данных типов научного знания, - это разная степень вероятности проявлений закономерностей в них. Если, скажем, мышца лягушки при одних  тех же условиях воздействия на нее электрического разряда реагирует всякий раз одинаково, то одинаковая реакция языкового сознания  на один и тот же стимул низковероятностна: один и тот же испытуемый на слово «стерлядь» в разных условиях ответит, скорее всего, по-разному. Такое «гуманитарное обстоятельство» затрудняет  выявление устойчивых закономерностей в области языка, текста, языкового сознания. 

3. Мобильность получения данных связана с возможностью разнообразных модификаций исходных условий для проверки воздействия на них механизмов «черных ящиков» - языкового сознания и языковой системы. Далее (в ч.2)  мы покажем этот параметр при решении частных проблем, при которых необходимо варьировать вводные единицы и конструкции на входе «черного ящика».

4. Для ОМП важно подчеркнуть возможность разнообразной верификации полученных первичных данных. Они проявляются в следующих возможностях:

- верификация контрастивными вариантами (см. выше. п.3);

-верификация данными ОМП, полученными путем «проведения» исходного материала  через разные языки, число которых в Интернете в настоящее практически неограниченно;

- верификация путем проведения исходного материала через разные программы МП, например Google-перевод, Yandex-перевод,  «Promt/Stylus», «Сократ», TRADOS,  DÉJÀ VU,  Pragma 4.0.

5. Всем перечисленным в п.4. способам верификации через подключение разнообразных вариантов R, которые можно квалифицировать как радиальные (соположенные, равностатусные варианты, воcходящие к одному «корню» - исходной единице), противостоит цепочечный способ, при котором верификационный вариант одной ступени (ОМП первой степени), верифицируется вариантом другой ступени (ОМП второй степени) и т.п. Например, мы верифицируем трансляционную совместимость в русско-немецких программах ОМП на Google-перводчике конструкции с неопределенно-личным значением в нашем кафе хорошо кормят – нем. in unseren Cafés gut zugeführt – русск. (обр 1) хорошо кормили в наших кафе -  нем (2) auch in unserem Café gefüttertрусск. (обр.2) подается в нашем кафе – (нем 3) in unserem Café serviert – русск (обр.3) служил в нашем кафе. Сопоставление исходного текста с последующими позволяет сделать вывод о низкой степени «обратной переводимости» данной конструкции через немецкий язык, свидетельством чего является то, что на каждой новой ступени происходит все большее отдаление от исходного смысла. Это обстоятельство обладает верификационным потенциалом: если другой исследователь не согласится с этим выводом, он имеет возможность продолжить эту цепочку или перейти к радиальным способам верификации, например,  использовать в качестве языка-транслятора любой другой язык / несколько языков или другие программы машинного перевода, либо обратиться к радиальному способу, названному выше под первым номером – в соответствии с характером несогласия полностью или частично изменить исходную конструкцию, например, зафиксировав ее в форме в наших кафе хорошо кормили.

Одним из прикладных выходов предлагаемой методики цепоченой верифиации R-вариантов связан с с улучшением качества МП. Здесь мы можем позволить себе высказать  лишь общую идею. Алгоритмы (рекомендации) видоизменения исходного текста, направленные на его адаптацию к МП (им будет посвящена статья 2), могут  быть представлены как «машинные» программы, действующие в автоматическом формате. При выработке автоматической индексации уровня качества ОМП в компьютер может быть заложена    программа поиска и автоматической проверки вариантов с целью выявления улучшающего, а в конечном итоге – оптимального - варианта. Возможность подключения цепочечной верификации открывает перспективы для машинного формата улучшения качества (=повышения индекса адекватности перевода, =понижения индекса деформированности исходного текста). Предполагаем, что  такая стратегия поиска оптимального варианта имеет аналогию в программах шахматных компьютеров, способных отыскивать оптимальные варианты в многочисленных ветвях расчета и оценивать позицию на каждом этапе шахматной партии в каждой ветви и на  каждом шаге расчета  (в цифровом соотношении в пользу черных или белых).  

В науковедческом аспекте предполагаем возможность использования ОМП как источника языкового материала при решении ранее поставленных в лингвистике проблем, обоснования или опровержения известных гипотез. В ходе наблюдения за результатами ОМП с дальнейшей постановкой проблем и формулировкой гипотез,  в ходе накопления и обработки материала, полученного при ОМП, могут возникнуть принципиально новые проблемы, которые потребуют формулировки новых гипотез. Полагаем, что к таким специфическим (привязанным к ОМП) проблемам прежде всего относятся сравнительно-типологические проблемы, предполагающие сравнение и типологию по параметрам, обусловленным их вхождением в парадигму ОМП, например, сравнение и типология по признаку переводимости. В качестве иллюстрации такого рода исследования возьмем проверку проблемы категории одушевленности как специфической категории русского языка. Пропуская фразу  тигра убивает лев через разные языки, обнаруживаем, что лишь в русско-белорусском и русско-украинском вариантах программы-Googleфраза находит адекватный перевод; перевод через ОМП на другие языки говорит об отсутствии реакции на форму одушевленности - тигра  (в.п. =р.п.), реакция на порядок слов оказывается гораздо сильнее, в результате чего фраза трансформируется в противоположную по смыслу – тигр убивает льва[3]. Понятно, что причина совместимости ОМП с восточно-славянскими языками заключается в факте наличия адекватной категории в их морфологической системе в названных языках, и, возможно, по этой причине ее учет оказался заложенным в соответствующих программах. Заложить в другие языке эту особенность русского языка, по-видимому, гораздо сложнее.

Очевидное преимущество ОМП как источника материала заключается в возможности привлечения материала различных планов и уровней:  от морфемного до сложно синтаксического целого, например аннотаций научных статей или достаточно больших текстов, например, стихотворений. Далее (в статье 2) мы намерены проиллюстрировать эти возможности   на примере конкретных миниисследований материала ОМП.  В статье возможности предлагаемой методики иллюстрируются в основном  на лексическом материале, но лексикой они не исчерпываются.

 

3.       Некоторые источниковые перспективы ОМП

В какой мере возможно переносить данный способ на более высокие этажи и более крупные блоки сравнения и типологии, вопрос на настоящий момент полностью открытый. Считаем в этом плане допустимыми  лишь весьма осторожные общие  суждения, связанные с предположением о том, что в таких сравнениях и  типологиях учет данных ОМП может оказаться полезным, в том числе при сравнении и типологии языков в аспекте их комплементарности на отдельных участках или – в отдельных аспектах -  в целом. Так, полезным для данного вопроса может стать оппозиция двух типах цепочек: центробежной и центростремительной. Пример первой был дан выше в связи с ОМП (через немецкий) русской фразы в нашем кафе хорошо кормят, в которой каждое новое звено отдаляет от центра. Однако продолжение цепочки показывает, что уже на четвертом звене (оно таково: он служил в нашем кафе) центробежность ее энтропирует и порождение модификаций затухает. В трансляционной цепочке возникает момент динамического равновесия двух языков[4]. Всегда ли этот момент  возникает и, если возникает, то  на каком звене – вопросы открытые, подлежащие конкретным исследованиям. Рассмотрев несколько фраз из списка «Скрижали Джорджии»[5], мы пришли к выводу, что уже на 3 звене модификации трансляционной цепи этих фраз прекращаются на всех указанных языках. Несколько длиннее оказалась цепочка ОМП фразы Пусть справедливые законы и беспристрастный суд встанут на защиту людей и народов, «пропущенной» через иврит:  R-1 Пусть закон право на справедливый суд осудит людей и народы; R-2 Дайте закону право судить людей и народы на справедливое судебное разбирательство; R-3 Пусть закон судить людей и народов на справедливое судебное разбирательство; R-4 Пусть люди судить народы закона и справедливого судебного разбирательства; R-5 Пусть люди судить народы закона на справедливое судебное разбирательство и т.д.

                 Для лингвистов может представить интерес вопрос о правомерности использования материалов, полученных через ОМП, для решения вопросов влияния особенностей языковых систем (транслируемой и транслирующей) на трансляционные трансформации, то есть для моделирования элементов интерференции и образования в сопоставляемых языках своеобразных акцентов, понимаемых в широком смысле – не только в смыле фонетической интерференции, но также и грамматической, смысловой, лингвокультурной и т.п. ОМП может способствовать обнаружению проявлений данных процессов и их результатов. Разумеется в данном случае не может не актуализироваться момент выяснения причин, по которым возникают центробежные модификации, или – напротив – их преодоление  – в центростремительных. В определенном смысле мы говорим о   комплементарных и некомплементарных элементах языковых систем, а при их массовости и о регулярности проявлений (закономерностях) – самих языковых систем в целом. Полагаем, что в каждой сопоставляемой паре языков могут быть обнаружены моменты сопротивления языкового материала и способы их преодоления, которые при постановке совершенствования программ перевода могут быть включены в соответствующие алгоритмы. Выше мы обсуждали такую возможность, сопоставляя такие алгоритмы с шахматными. Здесь добавим существенный момент – вряд ли точка преодоления роста деформации исходного текста можно отождествить с достижением более высокого уровня смысловой адеватности перевода. Эти результаты находятся в разной плоскости.    

В содержательном аспекте потенциал использования данных ОМП трудно прогнозируем. Можно предположить полезность его применения для решения различных семасиологических вопросов лингвистики, например, таких, как исчисление смысловой нагрузки языковых единиц, степени их определенности / неопределенности, потенциала вариативности при их интерпретации,  семантического расстояния (близости /отдаленности) между ними, квалификация эквивалентности / неэквивалентности (и в том числе взаимозаменяемости), выявление первичных и вторичных смыслов, актуализируемых при восприятии единиц, распределение позиций в синонимических рядах (слово-доминанта/ слово-периферия), членении и структурировании семантических полей, образуемых словом  и многих других. 

Из перечисленных выше  проблем в настоящей статье  акцент делается на аспекте, связанном со степенью близости/отдаленности  сопрягаемых лексических и других единиц, хотя заметим, что этот аспект не изолирован от остальных, и в докладе мы неизбежно будем  выходить за его рамки, стараясь однако не рассредоточиваться .

Считаем существенным подчеркнуть, что, что названные проблемы (параметры семантики) могут исследоваться (и уже неоднократно исследовались) разными способами и методами.  Попытки таких исследований неоднократно осуществлялись и автором настоящей статьи, неоднократно обращавшимся к вопросу о семантическом расстоянии между лексическими единицами. Так, ранее нами испытывались при решении названного вопроса структурно-семантические методы [7], ассоциативная методика [9; 10; 13], квантитативная методика измерения [8] степени семантической близости /отдаленности лексических единиц разного типа.

                Далее мы будем рассматривать только одну из названных проблем – определение степени семантического расстояния между языковыми единицами. Считаем ее фундаментальной, так как она связана детерминационными отношениями со многими другими, являющимися производными по отношению к ней. Подчеркнем, что определяющее значение данного вопроса касается не только теоретических аспектов проблемы, но и прикладных, связанных с межъязыковой коммуникацией, лингводидактикой, совершенствованием машинного перевода.   Для возможности прикладного использования также необходимо квалифицировать степень семантического расстояния в формально-количественном параметре с возможностью проекции результатов такой теоретической квалификации в компьютерный формат.

4. ОМП как способ измерения семантического расстояния между единицами языка, связанными деривационными отношениями

В.Н. Базылев в статье «Философия машинного перевода» [1] так обосновал и сформулировал названную нами базовую проблему ОМП.  «Предположим, что у нас есть два языковых пространства, а перевод – это некоторое преобразование одного в другое. Мы смешиваем эти языковые пространства точками параллельных текстов, параллельных предложений и делаем предположение, что это преобразование непрерывно. Тогда мы можем исходить из предположения, что в небольшой окрестности пары параллельных текстов малая модификация входного предложения отражается в малой модификации выходного предложения. Другими словами, если входное предложение чуть-чуть отличается от эталонного, то, немного подкорректировав выходное, мы получим более-менее адекватный перевод. Мы распознаем близкий фрагмент такого пространства в исходном тексте и подбираем ему эквивалент, а основную работу человека как бы уже проделал, мы только подгоняем изменения. Нерешаемую задачу повторения процесса, происходящего в голове человека, мы вообще удаляем и экономим большие силы на разработке. Все это оказывается, к сожалению, верно, пока мы имеем дело с небольшими модификациями. Но что следует считать большой деформацией, а что малой модификацией? На самом деле для величины деформации можно ввести метрику на множество слов и как бы взвешивать, близко они находятся друг к другу в обычном языке или нет» [1. C.97] /выделено нами – Н.Г. /. Помимо центрального тезиса, мы выделили в приведенном фрагменте также такие важные для дальнейшего обсуждения слова, - как преобразование (это понятие важно, по той причине, что перевод далее трактуется как деривационный процесс или  результат);  выходное, так как в аспекте «использование ОМП в межъязыковой коммуникации» мы имеем в виду противоположную идею – корректировку не выходного, а входного предложения, подгоняем  - корректировка, о которой сказано выше, может быть описана этим словом, синонимом которому в соответствующем контексте (замены входной единицы)  являются «политкорректные» приспосабливаем, адаптируем.

Базовая задача – определение (в идеале – формально-количественное, компьютерное) степени деформации исходного смысла, или степень смыслового расстояния  между  входным и выходным смыслом - имеет долгую историю, решаемую на разном языковом материале, в разных аспектах  и разными способами [3; 6; 10; 21; 22]. Полагаем, что настоящее исследование, как и наши предшествующие,  включено в дериватологическую и вариантологическую  парадигмы. В данном аспекте на уровне лексики, в частности,  ее представляют проблемы тождества слова, дифференциации форм слова и разных слов, вариантов одного и того же слова и образование нового слова, вариантов слова и синонимов, семантических вариаций (смысловых оттенков), лексико-семантических вариантов и омонимов.

Перевод также включен в дериватологическую парадигму [14]. Такая его трактовка имеет лингвистическую традицию, которую в отечественной лингвистике обычно связывают с работой Л.С. Бархударова [2], по трактовке ученого переводческие трансформации – это «межъязыковые преобразования, цель которых – достижение переводческой эквивалентности» [2. С].» Для нашего обсуждения важно следующее толкование концепции данного автора: «…. Бархударов, и Швейцер предлагали рас­сматривать переводческие трансформации как определенные от­ношения между языковыми или речевыми единицами. В таком относительном значении термины преобразование и трансформация, скорее, определяют не процесс перевода, а его результат, так как констатируют особый тип отношений между исходным текстом и текстом перевода. В этом понятие преобразования (трансформа­ции) выступает уже как категория сравнения двух наблюдаемых объектов. Преобразование предстает как некая исследовательская абстракция, как констатация различий между состояниями пер­вичного и вторичного объектов: при сравнении системы смыслов исходного текста и текста перевода мы отмечаем, что первая не во всем соответствует второй, т.е. представлена в трансформиро­ванном виде [5. С.366-367]. Деривационная концепция перевода в настоящее время становится одной из наиболее актуальных как в дериватологии, так и в переводоведении (см., например [14; 24-27].

Дериватологическая парадигма тесно увязана с проблемой изоморфизма-асимметрии планов содержания и выражения и детерминационных отношений между ними. Сопоставление исходной единицы ее трансляционных производных может осуществляться на первом этапе  в формально-количественном аспекте и на втором этапе - в плане содержания как квалификация тождества-различия смысла первичных и вторичных единиц с дальнейшим синтезированием результатов обоих этапов. Подобным образом может быть поставлен также вопрос о соотнесении системоцентрического и антропоцентрического планов исходного и вторичных (полученных через ОМП) текстов или единиц других типов.

Заключение

Настоящей статьей мы хотели бы предложить научной общественности специфическую методику исследования некоторых научных вопросов общей и русской семасиологии. Большинство из них имеет глобальный характер, они  пронизывают многие уровни языка – лексический, грамматический, текстовый. Какого рода эти проблемы? Назовем некоторые из них: Исчисление смысловой нагрузки языковых единиц, степени их определенности / неопределенности, потенциала вариативности при их интерпретации,  семантического расстояния (близости /отдаленности) между ними, квалификация эквивалентности / неэквивалентности (и в том числе взаимозаменяемости), выявление первичных и вторичных смыслов, актуализируемых при восприятии единиц, распределение позиций в синонимических рядах (слово-доминанта/ слово-периферия)  и многие другие. 

ЛИТЕРАТУРА

1.       Базылев В.Н.  "Философия» машинного перевода -  Вестник Воронежского гос. университета. Серия Лингвистика и межкультурная коммуникация. 2005. № 2. С. 95-103.

2.       Бархударов Л.С. Язык и перевод.  М., 1975.

3.       Башкатова Ю.А. Типология деривационных трансформаций текстов по степени их смысловой общности/отдаленности // Концепт и культура: диалоговое пространство культуры: Языковая личность. Текст. Дискурс
сборник статей VI международной научной конференции / Кемеровский государственный университет; Гуманитарно-педагогическая академия (филиал) Крымский федеральный университет имени В. И. Вернадского. Кемерово, 2016.

4.       Блинова О.И., Гавар М.Э. Синонимия сибирского говора сквозь призму комплексной лексикографической параметризации //
Вестник Томского государственного университета. Филология. 2014. № 1 (27). С. 5-15.

5.       Воронина К.В. Ассоциативный потенциал перевода нонсенса //
 Социокультурные проблемы перевода сборник научных трудов. Воронеж, 2014. С. 148-157.

6.       Гарбовский Н.К. Теория перевода. М., 1997.  

7.       Голев Н.Д. К вопросу о семантическом расстоянии между словами, связанными мотивационными отношениями // Семантическая структура слова: Сборник научных трудов. - Кемерово: Изд-во КемГУ, 1984. - С. 17-27.

8.       Голев Н.Д. О новых источниках квантитативного речевого материала и их семасиологических возможностях (постановка проблем) // Изменяющаяся Россия: новые парадигмы и новые решения в лингвистике: Материалы I Международной конференции (Кемерово, 29-31 августа 2006 г.): В 4-х частях. Часть 4. - Кемерово: Юнити, 2006. – С. 9-15.

9.       Голев Н.Д. Опыты ассоциативного измерения содержательного расстояния между словами и словоформами на концептном уровне. Статья 1. // Картина мира: язык, литература, культура: Сборник научных статей. Вып.2. Отв. ред. М.Г. Шкуропацкая. – Бийск: РИО БПГУ им. В.М. Шукшина, 2006. – 286-292.

10.   Голев Н.Д. Экспериментальные исследования русской лексики в рамках одного лингвистического направления: опыт обобщения и методологической рефлексии постфактум. Cтатья 1 //
Вестник Кемеровского государственного университета. 2016. № 3. С. 70-78.

11.   Голев Н.Д. Экспериментальные исследования русской лексики в рамках одного лингвистического направления: опыт обобщения и методологической рефлексии постфактум. Cтатья 2 //
Вестник Кемеровского государственного университета. 2017. 1. С. 70-78.

12.   Голев Н.Д., Дебренн М.  Разноязычный сопоставительный словарь обыденной семантики бионимов: концепция, лексикографический проект и опыт его реализации // Вестник Новосибирского государственного университета: Серия лингвистика и межкультурная комуникация. 2013, том 11, вып .2 стр. 80-92  (совместно с Дебренн М.)

13.   Голев Н.Д., Дударева Я.А. Измерение семантического расстояния между словами с помощью ассоциативных методик // Ассоциативное измерение системных отношений в лексике: коллективная монография / отв. ред. М.Г. Шкуропацкая. – Бийск: ФГБОУ «ААГАО», 2012.- с. 11-36

14.   Голев Н.Д.. Сайкова Н.В.  Изложение, пародия, перевод… К основаниям деривационной интерпретации вторичных текстов //  Изложение, пародия, перевод…К основаниям деривационной интерпретации вторичных текстов // языковое бытие человека и этноса: психолингвистический и когнитивный аспекты. Вып.3. Сб. ст. / Под общей ред. В.А. Пищальниковой. Барнаул, 20001. – С.20-27

15.   Гребнева Е.С., Кирилова И.В. Ассоциативный эксперимент как способ отражения восприятия названий нечистой силы современными носителями языка //
Linguistica Juvenis. 2016. № 18. С. 37-43.

16.   Довлатов С. Трудное слово. Электр. Ресурс: http://www.izbrannoe.com/news/mysli/trudnoe-slovo/

17.   Константинова Н.А. Реализация деривационного потенциала глагола в межъязыковом пространстве в процессе обратного перевода // Концепт и культура: диалоговое пространство культуры: Языковая личность. Текст. Дискурс
сборник статей VI международной научной конференции / Кемеровский государственный университет; Гуманитарно-педагогическая академия (филиал) Крымский федеральный университет имени В. И. Вернадского. Кемерово, 2016. – 261-265.

18.   Личаргин Д.В., Полякова О.С., Подлесный А.О., Кравченко М.В. Оценка расстояния в семантическом и грамматическом пространстве между отдельными языковыми единицами и фрагментами текстов //
Современные проблемы науки и образования. 2014. № 6. С. 88.

19.   Ляшевская О. Н. , Шаров С. А.  Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. Электронная версия издания: http://dict.ruslang.ru/freq.php

20.   Морозов А.В. Деривационная системность лексики русского языка в межъязыковом аспекте.  Барнаул, 2005).

21.   Морозов А.В. Межъязыковая эквивалентность как способ представления деривационных отношений в лексике русского языка // Вестник Томского государственного университета. — 2007. — № 297.

22.   Морозов А.В. Межъязыковой синонимический ряд как реализация семантико-деривационного потенциала русского слова // Филологические науки. 2003. № 4. С. 78.

23.   Морозов А.В. Обратный лексикографический перевод как метод исследования деривационного потенциала русского слова в межъязыковом пространстве // Вестник ВГУ. Серия Лингвистика и межкультурная коммуникация  2004  №1. С.71-73

24.   Разина И. Г. Деривационная теория текста во внутриязыковом и межъязыковом аспекте [Текст] / И. Г. Разина // Научные исследования: от теории к практике : материалы VII Междунар. науч.-практ. конф. (Чебоксары, 13 март 2016 г.) / редкол.: О. Н. Широков [и др.]. — Чебоксары: ЦНС «Интерактив плюс», 2016. — № 1 (7). — С. 226–228. — ISSN 2413-3957.

25.   Разина И.Г. Перевод как процесс межъязыковой деривации //
Язык и культура. 2008. № 1. С. 66-77.

26.   Разина И.Г.Деривационная теория текста во внутриязыковом и межъязыковом аспекте // Научные исследования: от теории к практике. 2016. № 1 (7). С. 226-228.

27.   Разина И.Г. Перевод как процесс межъязыковой деривации // Язык и культура. – Томск: ТГУ, 2008. – №1. – С. 66–78.

28.   Рунтова Т.А. Диффузная семантика в зеркале межъязыкового перевода (на материале инвективной лексики) // Вестник Томского государственного университета. Общенаучный периодический журнал. Бюллетень оперативной научной информации. Функционирование русского языка на современном этапе. № 120. Декабрь 2006.

29.   Русский ассоциативный словарь. В 2-х т. Т.1. От стимула к реакции: Ок. 7000 стимулов / Ю.Н. Караулов, Г.А. Черкасова, Н.В. Уфимцева, Ю.А. Сорокин, Е.Ф. Тарасов. – М., ООО «Изд-во «Астрель»: Издательство «АСТ», 2002. – 784 с.

30.   Тубалова И.В. Показания языкового сознания как источник изучения явления мотивации слов: Автореф. дисс… канд. филол. наук. - Томск, 1995.

31.   Частотный словарь русскго языка / под ред Л.Н.Засориной. – М., Изд-во «Русский язык», 1977. – 935 с.

32.   Щерба Л.В. О трояком аспекте языковых явлений и об эксперименте в языкознании // Языковая система и речевая деятельность. – М.: Наука, 1974. – 24-39. 

33.   Явари Ю.В. Компьютерный (машинный) перевод: "за" и "против" //
Проблемы управления в социально-гуманитарных, экономических и технических системах Сборник научных трудов преподавателей, аспирантов, магистрантов, студентов факультета управления и социальных коммуникаций. Ответственный за выпуск О.Ю. Ильин, под редакцией Павлова И.И. . Тверь, 2015. С. 193-199.



[1] Трактовка перевода как ассоциативной деятельности имеет очевидные основания, ср. например: «Установлено, что переводческие соответствия отображают ассоциации, возникающие в сознании переводчиков» [4. С.148]. Особенено близки к ассоциациям толкования переводимых и переведенных слов через лексические синонимыПродолжая аналогию перевода с ассоциированием, отметим, что она проявляется не только на лексическом уровне, но и на других, в частности, формула ассоциирования  «слово-стимул – слово-реакция» в полной мере коррелятивна формуле «фраза-стимул, фраза – реакция», к которой далее мы будем часто обращаться.

 

[2] Представление семантической деривации слова в межъязыковом пространстве представлено в работах [17; 18-21, 26]. Так,  в статье Т.А Рунтовой «перевод русских лексем на иностранный язык (английский) и обратный перевод на русский язык полученных эквивалентов используется в качестве способа изучения семантико-деривационного развития лексики русского языка. Развитие слова в межъязыковом пространстве – направление семантического развития слова, которое позволяет определить границы, объем семантических изменений, происходящих в структуре слова» [26. С.69].

[3] Любопытно, что формирование категории одушевленности многие историки славянских языков связывают именно с необходимостью противостоять омонимии двух падежных форм и  формально дифференцировать субъектно-объектные отношения. Машина «не чувствует» опасности такого рода омонимии.

[4] Можно предположить, что такая модель достижения  равновесия имеет универсальный характер, например, ее проявление можно усмотреть в стихийном формировании нормативного варианта, например, в узуализации одного из номинативных вариантов в качестве нормативного.

[5]  «На вертикальные плиты нанесены надписи на восьми современных языках (английском, русском, китайском (мандарин), арабском, иврите, суахили, испанском и хинди), представляющие собой некие заповеди человечеству для гармоничного развития в постапокалиптическую эру». http://www.bbc.com/russian/society/2015/09/150924_vert_tra_one_of_the_us_greatest_mysteries. Мы провели через ОМП на указанных в приведенной выдержке языках следующие: Найдите новый живой язык, способный объединить людей; Пусть справедливые законы и беспристрастный суд встанут на защиту людей и народов; Превыше всего цените истину, красоту и любовь, стремясь к гармонии с мирозданием.

Комментарии

Нет комментариев

Чтобы оставлять комментарии необходимо войти на сайт под вашей учетной записью