Об изображении русских текстов латинскими буквами

УДК 681.3.04 : 003.035
С.Б. Покровский

Переработанная версия статьи, впервые опубликованной в 1978 г.:

С.Б. Покровский. Об изображении русских текстов латинскими буквами. «Программирование», №1, 1978. С. 64–73.

Сравнительно с журнальным вариантом в новой версии несколько сокращена вводная часть, добавлено сравнение с Пиньином, и полностью заменена программная часть: вместо программы на давно забытом Бейсике приведены 2 коротких и более эффективных скрипта для редактора sed.


Аннотация. Появление средств автоматической обработки данных позволяет по-новому поставить и решить задачу транслитерации русских текстов латинскими буквами. Предлагаемое в статье решение использует только общераспространённые латинские буквы и выгодно отличается от транслитерации, рекомендуемой Министерством связи, взаимной однозначностью соответствия русскому оригиналу.

Содержание

1. Постановка задачи
2. Предлагаемая транслитерация
3. Заключение
Приложение 1. Примеры транслитерации
Приложение 2. Скрипты

1. Постановка задачи

1. Азбукой мы называем современный русский алфавит (33 буквы).
2. Л.В. Щерба. Транслитерация латинскими буквами русских фамилий и географических названий. Изв. АН СССР (отделение литературы и языка), 1940, № 3.

Русское письмо, независимо от оценки лежащей в его основе азбуки¹, составляет одну из примечательных черт нашей культуры. Столь же традиционна и вызванная особностью азбуки проблема изображения русских слов в какой-нибудь из систем письма, основанных на латинице. Подробный анализ этой проблемы, некоторые пункты которого воспроизведены ниже, дан в статье акад. Л.В. Щербы².

Л.В. Щерба выделяет следующие случаи, когда единство инописьменной формы «становится делом исключительной важности:

  1. при идентификации личности (на суде, в банке, в торговле, на почте и т.п.);
  2. при идентификации судов дальнего плавания;
  3. на географических нартах и в разного рода международных списках населённых местностей, а в связи с этим в международных почтово-телеграфных сношениях;
  4. в международных библиография, где при отсутствии единства транслитерации часто совершенно невозможно найти того или иного автора».

Заметим, что для некоторых алфавитов уже давно существует такая единая система транслитерации: греческие цитаты даже в русских текстах и библиография часто приводятся в латинизированной форме; естественную систему транслитерации вуковицы (сербской кириллицы) даёт хорватское письмо и т.п.

3. Именно этим последним обстоятельством и вызвано появление настоящей статьи. Аналогичная работа была выполнена в ВЦ ЛГУ.

В настоящее время развитие вычислительного дела позволяет решить задачу автоматической транслитерации русских текстов. Помимо традиционных применений, вроде международной телеграфной связи, решение этой задачи представляет интерес и для самого вычислительного дела, так как согласование представления русской текстовой информации с международными стандартами расширило бы возможности использования для её обработки импортных оборудования и/или программного обеспечения³.

Указанные приложения обусловливают следующие особенности искомой системы представления русских текстов латинскими буквами.

Переходя теперь к оценке «существовавших до последнего времени транслитераций» (см. сводную таблицу в работе Л.В. Щербы, а также таблицы 1 и 2 в настоящей статье), прежде всего выделим бесспорные транслитерации, на которых сходятся все 7 рассматриваемых систем (см. табл. 1) и которые далее обсуждаться не будут.

Таблица 1. Бесспорные транслитерации
Азбука абвгдзикл мнопрстфы
Латиница abvgdzikl mnoprctfy
4. УВС Министерства связи СССР. Сборник тарифов на Международные услуги электросвязи. Ч. 1 (телеграф, фототелеграф). М.: Связь, 1974; также Ю.С. Демачева, А.Н. Кузнецова. Машинопись. М.: Высшая школа, 1972, стр. 144.
Таблица 2. Телеграфная транслитерация4
Азбука е, ё, эжйухцчшщь, ъюя
Латиница ejiuhcchshsc(h)ничегоiuia

Ни одна из рассматриваемых систем всеми требуемыми свойствами не обладает, причём особенно не повезло взаимной однозначности. Такие двусмысленности телеграфной транслитерации, как, скажем, Мцхета/Мчета, Пасха/Паша серьёзных недоразумений не вызывают‚ но как быть с распространённой в Средней Азии фамилией Исхаков? Прочие транслитерации тоже двусмысленны на существующих русских словах и фразах (Майами, йэху, бельэтаж, район, Шаганэ, СЭВ, бульон, коньяк/конъюнкция, щепка‚ «й, ь, ъ, э, щ суть буквы» и т.п.), не говоря уже о произвольных цепочках русских букв.

2. Предлагаемая транслитерация

Определение предполагаемой транслитерации дадим в два этапа. Сначала будет определён полный стиль транслитерации, задающий взаимно-однозначный образ каждой (отдельной) русской буквы. Затем, пользуясь некоторыми особенностями русского письма, мы введём контекстно-зависимый краткий стиль, делающий транслитерацию компактнее и нагляднее. Полный стиль задаётся «бесспорными транслитерациями» из табл. 1 и новыми, собранными в табл. 3.

Таблица 3. Дополнительные транслитерации (полный стиль)
Азбука еёжйухцч шщьъэюя
Латиница ejozhjiuqcch shxhjhyhehjuja

Объясним наш выбор. Для изображения тридцати трёх русских букв двадцатью шестью латинскими естественно воспользоваться диакритикой, по необходимости буквенной (ср. требования изоморфизма и общераспространённости). В латинском алфавите есть буква, используемая по преимуществу в функции постпозитивного диакритического, знака — это буква h; вот примеры такого её использования в письме английском, французском, немецком, итальянском, португальском, албанском5:

5. Р.С. Гиляровский, В.С. Гривнин. Определение языков мира по письменностям. М.: Наука, 1964.

Richard, dhe, ghirlanda, khaki, camarilha, campanha, phi, rhythm, shampoong, whim, qeraxhinj, Zhob; ihr, Ehre, Uhlan, cahier, rajah, John.

6. Л.В. Щерба. Указ. соч.

Поэтому, признавая чешские č, š, ž лучшими латинизированными обозначениями Ч, Ш, Ж6, мы должны принять английские ch, sh, zh как ближайшее соответствие чешскому идеалу (а вовсе не из «англофильства»6 — если угодно, можно считать, что h здесь замещает háček. Сами по себе эти чешские буквы, поддерживаемые Академией наук СССР, к сожалению, не только не получили предсказанного Л.В. Щербой распространения на Западе, но даже не входят в общий стандарт ЕС ЭВМ — хотя помимо словенцев и хорватов их используют пять народов СЭВ).

Далее, довольно обычно изображение русского ха как придыхательного к, т.е. kh. Эта транслитерация вполне корректна, однако ту же идею можно выразить и короче — просто буквой q. Это оправдано исторически (происхождение Q из семитской буквы коф, изображавшей задненебное к, точно отражается в английской системе транскрипции — qoph, Qatar‚ ’Iraq), и практикой живых языков (фр. quinine, époque — хинин, эпоха).

7. Л.В. Щерба. Указ. соч.

Транслитерации букв Е, Ю, Я, У, Ц «в духе славянского единства»7 также весьма естественны. Выбор представлений для пары Е/Э обусловлен русской письменной традицией, дающей Е подавляющий перевес над «производным» Э.

Главными достоинствами представления для ща являются краткость и однозначность. Впрочем, в пользу этой транслитерации можно привести и несколько более филологических ассоциаций:

Заметим, что используемые в прочих системах представления Ща через эквиваленты СЧ, ШЧ и т.п. не только противоречат требованию взаимной однозначности, но и, по сути, столь же иероглифичны: в литературном языке Щ уже давно упростилось в мягкое Ш. Поэтому транслитерации вроде oshchushchajushchie, sushchestvujushchie нам представляются менее наглядными, чем, скажем, более краткое suxhestvujuxhie.

Выбор представления для ера (ъ) обусловлен, во-первых, прочно укоренившейся иллюзией о якобы связанной с ним твёрдости и, во-вторых, исторически Ы=Ъ+I, следовательно, Ъ=Ы−I, а для отмены йотации уже использовалось аш (в представлении э). Заметим, что представление ера апострофом не только нарушило бы изоморфизм, но и привело бы к появлению фамилий вроде ДЪАЛАМБЕР (д’Аламбер).

7. Именно поэтому хорватское письмо не вполне однозначно соответствует вуковице. Пример: SSRNJ (Socijalistički Savez radnog naroda Jugislavije).

Представления букв Ь и Й всегда были главным источником неоднозначности транслитераций: для обеих естественным представлением был бы йот, как в хорватском письме7. Выбранные нами представления довольно произвольны (впрочем, ср. старинные маиор, Иисус и т.п.), но однозначны.

Так определённая транслитерация очевидным образом корректна (используются две самостоятелыю не употребляемые диакритические буквы — одна всегда перед, а другая — после модифицируемой буквы), но не минимальна: совершенно не используется дубль-ве, избыточно длинно представление ща, унифицированное изображение йотации (через ah, oh, uh) высвободило бы йот для самостоятельного употребления.

По следующим причинам представляется нецелесообразным нагружать дубль-вэ каким-либо «русским» значением: во-первых, естественным образом сделать это нельзя, во-вторых, будет возникать зрительная коллизия с встречающимся в русских словах двойным вэ (ввод, вверх, ввиду, Савва и т.п.), и, в-третьих, во многих задачах символьной обработки удобно иметь «свободную», не встречающуюся во вводимых текстах букву.

Рассмотрение двух последних возражений приводит к идее краткого стиля, в котором допускаются обратимые сокращения.

Прежде всего всегда можно сокращать изображение ща, сведя его к одной букве икс — диакритика в этом случае использовалась только для увеличения наглядности, как признак нестандартного чтения. Что же касается высвобождения йота, то на правильных русских словах учёт в кратком стиле особенностей русского письма позволяет в громадном большинстве случаев использовать йот для представления даже не одной, а сразу двух букв (Ь и Й), правда‚ за счёт введения контекста. Упомянутые свойства заключаются в следующем:

  1. ерь (ь) всегда следует за согласной,
  2. Й обычно не следует за согласной (ср. однако НДРЙ = «Народно-Демократическая Республика Йемен»),
  3. Й в исконно русских словах не предшествует гласным А, О, И, У (однако «йод», «Пойа»),
  4. ерь в исконно русских словах не предшествует гласным А, 0, У (но иногда предшествует И — «соловьи», «по-медвежьи»).

Первые два свойства в русских словах выполнены практически всегда и упомянуты только для полноты. Два же последних нарушаются многими заимствованиями и должны быть оформлены как условие:

Вхождение буквы Ь или Й в русское слово может быть передано одним только йотом, если оно непосредственно не предшествует вхождению А, И, О или У.

Это правило логично распространить и на произвольные тексты из русских букв, оговорив также свойства 1 и 2 как условия (при этом следует договориться, что Й, Ь, Ъ суть, скажем, «согласные», так что jjj означает йьь).

Правила сокращения однозначно определяют минимальную (далее не сократимую) форму транслитерации, которую естественно, ввиду её наглядности и зкономности, использовать как каноническую. Любопытно, что эта форма сама по себе образует замкнутую систему, в которои йот используется для обозначения мягкости согласных и соответствующего полугласного по тем же правилам, что и в словенском или хорватском письме — ср. хорватские konj, ljuljka, jastreb. Подобные переразложения производят лингвисты для демонстрации единства некоторых морфологических механизмов русского языка — например в склонениях: konj, kraj, brat — konj-u, kraj-u brat-u (кон-ю, кра-ю — но брат-у). Правила получения краткой (канонической) транслитерации резюмированы в табл. 4, где примеры интернациональной (не славянской) лексики подобраны в подтверждение наличия у латинских букв придаваемых им функций.

Таблица 4. Краткая форма транслитерации
АзбукаОбразыПояснения и примеры
аaabsurd, Amsterdam
бbbiblioteka, Berlin
вvvariant, Venecija
гggigant, gamma
дddobro; dilemma, Dublin
еeestj; referent, Evropa, evgenika
ёjoJo-mobiljЁ-мобиль, DezhnjovДежнёв
жzhZhitomir; francuzhenka
зzzemlja; zigzag, zona
иiinstrument
йjiперед А, И, О, У:  jiodйод, majiorмайор, rajiispolkomрайисполком, MajiamiМайами;
после согласной: NDRJiНДРЙ
jв прочих случаях: kojka, bukva j, Jemen
кkkm, kurort, Krasnojarsk
лlljudi; lampa, literatura, Ljubljana, London
мmmetal, Moskva
нnnash; nota
оoon; original, Omsk
пppokoj; programma, Peterburg
рrrisk
сsslovo, Susanna
тttelegramma, Tashkent
уuuniforma, Ufa
фffortissimo
хqqvalaхвала, PasqaПасха, ehqoэхо, kazaqказах, kqmerкхмер
цcscena, francuz
чchschastjeсчастье; ChiliЧили, charljstonчарльстон
шshfinish, Shekspir
щxvexjвещь, suxestvujuxijсуществующий, akademik XerbaЩерба
ъyhobyhektобъект, podyhezdподъезд, ChanyhanjЧанъань
ыycyganцыган, klykклык, myloмыло, pylпыл, operacija Yоперация Ы, syrnyjсырный
ьjhперед А, И, О, У: kanjhonканьон, solovjhiсоловьи;
в самостоятельном употреблении: bukva jhбуква ь
jпосле согласной в прочих случаях: erjерь, pisjmoписьмо, VjetnamВьетнам
эehehlementэлемент, jehquйэху, EhrenburgЭренбург
юjujurist, Jugoslavija, Jurmala
яjajazyk, jaguar

Примеры транслитерации исконно русских слов см. в приложении 1; в приложении 2 — автоматическое преобразование текста.

Несмотря на отмеченные достоинства краткой формы, в некоторых случаях удобнее может оказаться максимально полная форма, например как рабочее (внутреннее) представление текста при редактировании (в этом случае проще контекстные замены).

3. Заключение

Оригинальность описанной транслитерации состоит прежде всего в том, что, возникнув в связи с новыми возможностями автоматической обработки символьной информации, она основана на ряде новых принципов. Среди них важнейшими являются:

8. Л.В. Щерба. Указ. соч.
9. А.М. Яглом, И.М. Яглом. Вероятность и информация. М.: Физматгиз, 1960, стр. 189.

Последнее свойство удалось обеспечить за счёт того, что мы ориентировались не столько на иностранного, сколько на отечественного пользователя; отказавшись от попытки создания наднациональной системы8, смогли использовать 25 латинских букв (при этом верхняя оценка удлинения текста, конечно, 2; статистически же даже в полном стиле текст удлинится лишь в 1.082 раза — пoдсчёт на основе таблицы относительных частот русских букв9).

Несмотря на своё инженерное происхождение (а вернее, благодаря ему), описанная транслитерация обеспечивает более полное, чем её предшественницы, уважение к «любимым мозолям» русской орфографии, строго различая, скажем, доЩатый/бруСЧатый‚ ожЁг/ожОг, синЬОр/сенЬЕр, подобЪЕм/подобЬЁм/подобЬЕм и т.п. Вместе с тем, как уже было отмечено выше, краткий стиль сам по себе образует замкнутую систему, выявляющую некоторые грамматические свойства, не очевидные в традиционном письме; эта системность обеспечивает удобочитаемость и лёгкость усвоения краткого стиля (см. примеры в Приложениях). В действительности краткий стиль довольно близок к предшествовавшим системам (за исключением телеграфной транслитерации), и различия проявляются преимущественно на небольшом числе заимствованных слов, в случаях, когда орфография отступает от обычных принципов русского письма — для изображения необычного слогоцеления (Гай·ана, строй·отряд), или избегая «необязательной» буквы Ё (почтальон, йод — хотя Ян, юстиция, всерьёз, коньяк). Эти нерегулярности русской орфографии обусловливают усложнение правил транслитерации букв И и Ь.

10. Интервью с твёрдым B при адъютант с мягким Д.

Некрасивое изображение буквы Ъ также обусловлено её избыточностью в русском письме, и после унификации разделительных знаков слово обьект изобразилось бы идеальным objekt; к сожалению, упорство, с которым русская письменная традиция держится за особое обозначение разделительного знака после приставок10, сравнимо лишь с нежеланием издательств различать Е и Ё.

Ко внутренним недостаткам системы относятся прежде всего неудобочитаемое изображение Э (твёрдость М в транслитерации слова «мэр» обнаруживается лишь на второй после М букве — mehr) и неочевидное представление буквы ща.

Для полного преодоления неудобств отдельного алфавита нужно решить ещё две задачи, в настоящей статье совершенно не затронутые: во-первых, задачу изображения латинских букв в транслитерируемом русском тексте (например, как транслитерировать Иван IV Грозный), и, во-вторых, двойственную к рассмотренной проблему стандартной транслитерации латинских букв средствами русского письма.

Все перечисленные задачи обладают тремя чертами, в высшей степени типичными для проблематики программирования: при всей своей логической тривиальности (1) они чрезвычайно интересны (2) и осложнены многочисленными социально-психологическими факторами (3), из-за которых у нас до сих пор отсутствует удовлетворительная общепринятая система транслитерации.

Приложение 1. Примеры транслитерации

А) Из «Мёртвых душ» Н.В. Гоголя (том 1, гл. 11)

Qaraktera on byl boljshe molchalivogo, chem razgovochivogo; imel dazhe blagorodnoe pobuzhdenie k prosvexheniju, to estj chteniju knig, soderzhaniem kotoryq ne zatrudnjalsja: emu bylo sovershenno vsjo ravno, poqozhdenie li vljubljonngo geroja‚ prosto bukvarj ili molitvennik‚ — on vsjo chital s ravnym vnimamiem; esli by emu podvernuli qimiju, on i ot nejo by ne otkazalsja. Emu nravilosj ne to, o chjom chital on, no boljshe samoe chtenie‚ ili, luchshe skazatj, process samogo chtenija, chto vot-de iz bukv vechno vyqodit kakoe-nibudj slovo, kotoroe inoj raz chjort znaet chto i znachit.

11. И.А. Бодуэн де Куртенэ. Избр. тр. по общему языкознанию. М., 1963, т. 2, стр. 210.

Б) Из статьи И.А. Бодуэна де Куртенэ «К критике международных искусственных языков»11.

Jazyk ne estj ni zamknutyj v sebe organizm, ni neprikosnovennyj idol, on predstavljaet soboj orudie i dejateljnostj. I chelovek ne toljko imeet pravo, no ehto ego socialjnyj dolg — uluchshatj svoi orudija v sootvetstvii s celjju iq primenenija i dazhe zamenjatj uzhe suxestvujuxie orudija drugimi, luchshimi.

12. И.А. Ильф, Е.П. Петров. «Золотой телёнок». Гл. 19.

В) «Злободневная резолюция»12

V otvet na nagloe beschinstvo buqgaltera Kukushkinda, potrebovavshego uplaty emu sverqurochnyq, my, gerkulesovcy, kak odin chelovek otvetim:

  • a) povysheniem kachestva sluzhebnoj perepiski,
  • b) uvelicheniem proizvoditeljnosti truda,
  • v) usileniem borjby s bjurokratizmom, volokitoj, kumovstvom i podqalimstvom,
  • g) unichtozheniem progulov i imenin,
  • d) umenjsheniem nakladnyq rasqodov na kalendari i portrety,
  • e) obxim rostom profsojuznoj aktivnosti,
  • zh) otkazom ot prazdnovanija rozhdestva, pasqi, troicy, blagovexenija, krexenija, kurban-bajrama, jiom-kipura, ramazana, purima i drugiq religioznyq prazdnikov,
  • z) bespoxadnoj borjboj s golovotjapstvom, quliganstvom, pjjanstvom, obezlichkoj, besqrebetnostjju i pereverzevxinoj,
  • i) pogolovnym vstupleniem v obxestvo «doloj rutinu s opernyq podmostkov»,
  • k) pogolovnym pereqodom na soju,
  • l) pogolovnym perevodom deloproizvodstva na latinskij alfavit,
  • — a takzhe vsem, chto ponadobitsja vpredj.

Приложение 2. Скрипты

Предлагаемая транслитерация в ASCII и обратное восстановление русского текста может быть осуществлено парой простых sed-скриптов (тут даже Перла не надо). Ради красоты распечатки команды перекодировки (y//) разбиты пополам; логичнее и эффективнее было бы их соединить.

А) Перевод с русского (r2l)

#!/bin/sed -f
# абвгдеёжзийклмнопрстуфхцчшщъыьэюя

# Полный стиль в русских словах (ЙОд, соловЬИ ...):
s/й\([аиоуАИОУ]\)/ji\1/g
s/Й\([аиоуАИОУ]\)/Ji\1/g
s/ь\([аиоуАИОУ]\)/jh\1/g
s/Ь\([аиоуАИОУ]\)/JH\1/g

# Полный стиль в НДРЙ и т.п.:
s/\([бвгдзйклмнпрстфхцщь]\)й/\1ji/g
s/\([БВГДЗЙКЛМНПРСТФХЦЩЬ]\)Й/\1Ji/gi

# Полный стиль для чеченских "юь", "яь" и т.п.:
s/\([аиоуАИОУiёйюяЁЙЮЯ]\)ь/\1jh/g
s/\([аиоуАИОУiёйюяЁЙЮЯ]\)Ь/\1Jh/gi
s/\<ь/jh/gi

# Перекодировка "1:1" (можно объединить в 1 команду) :
y/абвгдезийклмнопрстуфхцщыь/abvgdezijklmnoprstufqcxyj/
y/АБВГДЕЗИЙКЛМНОПРСТУФХЦЩЫЬ/ABVGDEZIJKLMNOPRSTUFQCXYJ/

# Йотованные гласные:
s/[ёйюя]/j&/g
s/[ЁЙЮЯ]/J&/g
y/ёйюяЁЙЮЯ/oiuaOIUA/

# h-диакритика:
s/[жчшъэ]/&h/g
s/[ЖЧШЪЭ]/&H/g
y/жчшъьэЖЧШЪЭ/zcsyjeZCSYE/

Б) Обратная конвертация на русский (l2r)

#!/bin/sed -f

# Диграфы:
s/J[Aa]/Я/g; s/ja/я/gi
s/J[Oo]/Ё/g; s/jo/ё/gi
s/J[Uu]/Ю/g; s/ju/ю/gi
s/J[Ii]/Й/g; s/ji/й/gi
s/J[Hh]/Ь/g; s/jh/ь/gi
s/E[Hh]/Э/g; s/eh/э/gi
s/Y[Hh]/Ъ/g; s/yh/ъ/gi
s/C[Hh]/Ч/g; s/ch/ч/gi
s/S[Hh]/Ш/g; s/sh/ш/gi
s/X[Hh]/Щ/g; s/xh/щ/gi
s/Z[Hh]/Ж/g; s/zh/ж/gi

# Йот:
s/\([AEIOUYЯЁЮЭЙЬЪ]\)J/\1Й/g
s/\([aeiouyяёюэйьъ]\)j/\1й/gi
s/\<J/Й/g; s/\<j/й/g

# Перекодировка "1:1" (можно объединить в 1 команду):
y/ABVGDEZIKLMNOPRSTUFQCXYJ/АБВГДЕЗИКЛМНОПРСТУФХЦЩЫЬ/
y/abvgdeziklmnoprstufqcxyj/абвгдезиклмнопрстуфхцщыь/

В) Пример использования скриптов

$ cat test.txt
В чащах юга жил бы цитрус?
Да, но фальшивый экземпляр.
$ 
$ r2l test.txt
V chaxaq juga zhil by citrus?
Da, no faljshivyj ehkzempljar.
$ 
$ r2l test.txt | l2r
В чащах юга жил бы цитрус?
Да, но фальшивый экземпляр.
$

Версия от 2017-10-26

Valid HTML 4.0 Transitional