Программирование на языке Ruby, Фултон Хэл

Программирование на языке Ruby

на обложку

Фултон Хэл

Шрифт:

4.2.4. Нормализация Unicode-строк

До сих пор мы пользовались монолитными символами, в которых базовый символ и диакритический знак объединены в одну кодовую позицию. Но, вообще говоря, в Unicode символы и диакритические знаки представлены отдельно. Вместо того чтобы хранить букву 'e в кодовой позиции СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E С АКУТОМ, можно было бы представить ее в составной форме как СТРОЧНУЮ ЛАТИНСКУЮ БУКВУ E и МОДИФИЦИРУЮЩИЙ АКУТ.

Для чего это может понадобиться? Для обеспечения дополнительной гибкости и возможности применять диакритические знаки к любому символу, а не ограничивать себя комбинациями, которые предусмотрел проектировщик кодировки. На самом деле в шрифты включены глифы для наиболее распространенных комбинаций символа и диакритического знака, но отображение символа и его кодирование — вещи разные.

При проектировании Unicode приходилось учитывать такие вещи, как эффективность и совместимость с существующими национальными кодировками. Иногда это приводит к избыточности; например, в Unicode имеются кодовые позиции как для составных форм, так и для многих уже применяющихся монолитных форм.

Рассмотрим, к примеру, немецкое слово «"offnen» (открывать). Даже если забыть о регистре, его можно закодировать четырьмя способами:

+ МОДИФИЦИРУЮЩАЯ ТРЕМА (

u+0308

)

+f+f+n+e+n

2. СТРОЧНАЯ ЛАТИНСКАЯ БУКВА О С ТРЕМОЙ (

U+00F6

)

+ f + f + n + е + n

3. о + МОДИФИЦИРУЮЩАЯ ТРЕМА + ЛИГАТУРА ДВОЙНОЕ F (

U+FB00

) +

n + е + n

4. СТРОЧНАЯ ЛАТИНСКАЯ БУКВА О С ТРЕМОЙ + ЛИГАТУРА ДВОЙНОЕ F +

n + e + n

Трема — это две точки над буквой (в немецком языке называется «умляут»).

Нормализацией называется процедура приведения разных представлений символа к стандартной форме. Можно быть уверенным, что после нормализации данный символ закодирован вполне определенным образом. Каким именно, зависит оттого, чего мы хотим достичь. В приложении 15 к стандарту Unicode перечислены четыре формы нормализации:

1. Форма D (каноническая декомпозиция).

2. Форма С (каноническая декомпозиция с последующей канонической композицией).

3. Форма KD (совместимая декомпозиция).

4. Форма KC (совместимая декомпозиция с последующей канонической композицией).

Иногда можно встретить аббревиатуры NKFC (Normalization Form KC) и т.д.

Точные правила, сформулированные в стандарте, довольно сложны; в них проведено различие между «канонической эквивалентностью» и «совместимой эквивалентностью». (Корейский и японский языки требуют особого рассмотрения, но мы не станем тратить на это время.) В таблице 4.2 показано, как форма нормализации влияет на приведенные выше строки.

Таблица 4.2. Нормализованные формы в Unicode

Исходная	NFD	NFC	NFKD	NFKC
o+ +f+f+n+e+n	o+ +f+f+n+e+n	"o+f+f+n+e+n	o+ +f+f+n+e+n	"o+f+f+n+e+n
"o+f+f+n+e+n	o+ +f+f+n+e+n	"o+f+f+n+e+n	o+ +f+f+n+e+n	"o+f+f+n+e+n
o+ +ff+n+e+n	o+ +ff+n+e+n	"o+ff+n+e+n	o+ +f+f+n+e+n	"o+f+f+n+e+n
"o+ff+n+e+n	o+ +ff+n+e+n	"o+ff+n+e+n	o+ +f+f+n+e+n	"o+f+f+n+e+n

Формы С и D обратимы, KC и KD — нет. С другой стороны, потеря некоторых данных в формах KC и KD — свидетельство того, что все четыре строки двоично эквивалентны. Какая форма лучше всего подходит, зависит от приложения. Мы ещё вернемся к этой теме в следующем разделе.

Для Ruby есть библиотека, позволяющая выполнить описанные нормализации, хотя в стандартный дистрибутив она не входит. Вы можете скачать ее со страницыи установить командой

gem install Unicode

Если библиотека Unicode установлена, то для выполнения любой нормализации достаточно вызвать один из методов

Unicode.normalize_x

require 'Unicode'

sword_kd = Unicode.normalize_KD(sword)

sword_kd.scan(/./) # ["e", "'", "p", "e", "'", "e"]

sword_kc = Unicode.normalize_KC(sword)

sword_kc.scan(/./) # [ "'e", "p", "'e", "e"]

4.2.5. Упорядочение строк

Обычно, хотя и не всегда, строки упорядочиваются по алфавиту или сходным образом. Упорядочение тесно связано с нормализацией: в обоих случаях применяются одни и те же идеи и библиотеки.

Предположим, например, что мы хотим отсортировать такой массив строк:

eacute = [0x00Е9].pack('U')

acute = [0x0301].pack('U')

array = ["epicurian", "#{eacute}p#{eacute}e", "e#{acute}lan"]

# ["epicurian", "'eр'eе", "'elan"]

Что произойдет, если передать этот массив методу

Array#sort

array.sort # ["epicurian", "'elan", "'eр'eе"]

He годится!.. Попытаемся понять, почему так получилось. Сортируемые строки Ruby сравнивает побайтно. Чтобы убедиться в этом, достаточно взглянуть на первые несколько байтов каждой строки:

array.map {|item| "#{item}: #{item.unpack('С*')[0,3].join(',')}" }

# ["epicurian: 101,112,105", "'eр'eе: 195,169,112",

# "'elan: 101,204,129"]

Тут возникают две трудности. Во-первых, символы UTF-8, не имеющие аналога в кодировке ASCII, начинаются с байта, имеющего большое числовое значение, а стало быть, после сортировки неизбежно окажутся после ASCII-символов. Во-вторых, составные латинские символы оказываются раньше монолитных из-за первого ASCII-байта.

В системные библиотеки обычно включают функции сортировки, которые сравнивают строки в соответствии с правилами конкретного языка. В библиотеке, поставляемой вместе с компилятором языка С, для этого служат функции

strxfrm

strcoll

Имейте в виду, что проблема возникает даже в случае кодировки ASCII. При сортировке ASCII-строк в Ruby производится прямое лексикографическое сравнение, однако в реальной жизни (например, если мы хотим отсортировать по названиям книги из библиотеки Конгресса США) есть много правил, которые не учитываются при таком упрощенном подходе.

1-50 51 52 53 54 55 56 57 58 59 60 61 62-268

Лекарь Империи 9

Карелин Сергей Витальевич

9. Лекарь Империи

Фантастика:

городское фэнтези

аниме

боевая фантастика

5.00

рейтинг книги

Принадлежать им

Зайцева Мария

Любовные романы:

современные любовные романы

5.00

рейтинг книги

Локки 11. Потомок бога

Решетов Евгений Валерьевич

11. Локки

Фантастика:

героическая фантастика

боевая фантастика

фэнтези

юмористическое фэнтези

5.00

рейтинг книги

Кодекс Охотника. Книга XII

Винокуров Юрий

12. Кодекс Охотника

Фантастика:

боевая фантастика

городское фэнтези

аниме

7.50

рейтинг книги

Локки 8. Потомок бога

Решетов Евгений Валерьевич

8. Локки

Фантастика:

фэнтези

6.71

рейтинг книги

Путешественник по Изнанке

Билик Дмитрий Александрович

4. Бедовый

Фантастика:

юмористическое фэнтези

городское фэнтези

попаданцы

мистика

5.00

рейтинг книги

Чтение онлайн

книги

авторы

Жанры

Деловая литература

Детективы

Детские

Документальная литература

Дом и Семья

Драматургия

Жанр не определен

Компьютеры и Интернет

Любовные романы

Научно-образовательная

Поэзия

Приключения

Проза

Прочее

Религия и эзотерика

Справочная литература

Старинная литература

Техника

Фантастика

Фольклор

Юмор

Программирование на языке Ruby

Фултон Хэл

Шрифт:

Лекарь Империи 9

9. Лекарь Империи

Фантастика:

городское фэнтези

аниме

боевая фантастика

рейтинг книги

Принадлежать им

Любовные романы:

современные любовные романы

рейтинг книги

Локки 11. Потомок бога

11. Локки

Фантастика:

героическая фантастика

боевая фантастика

фэнтези

юмористическое фэнтези

рейтинг книги

Кодекс Охотника. Книга XII

12. Кодекс Охотника

Фантастика:

боевая фантастика

городское фэнтези

аниме

рейтинг книги

Локки 8. Потомок бога

8. Локки

Фантастика:

фэнтези

боевая фантастика

героическая фантастика

попаданцы

рейтинг книги

Петля, Кадетский корпус. Книга третья

3. Петля

Фантастика:

боевая фантастика

попаданцы

аниме

рейтинг книги

Наемный корпус

5. Фронтир

Фантастика:

боевая фантастика

космическая фантастика

космоопера

рейтинг книги

Имя нам Легион. Том 8

8. Меж двух миров

Фантастика:

боевая фантастика