Вкладка «Тексты»

Порядок выполнения автоматической векторизации текстов:

1. настроить параметры векторизации. В диалоге Параметры преобразования во вкладке Распознавание должен быть отмечен пункт Текстовая область, во вкладке Тексты произведены необходимые настройки;

3. запустить команду автоматической векторизации

Растр в векторы. Векторные объекты появятся поверх исходного растра;

4. чтобы прервать процесс векторизации, нажать клавишу ESC.

Настройка параметров модуля поиска и распознавания текстов производится во вкладке Тексты диалогового окна Параметры преобразования.

Обработка растровых текстов разделяется на два этапа. Сначала программа ищет растровые фрагменты, содержащие растровые тексты. Эти фрагменты называются текстовыми областями.

Затем программа применяет к найденным растровым текстам операцию, заданную как дополнительный параметр алгоритма Текстовая область во вкладке Распознавание.

Одной из таких операций является распознавание растровых текстов с помощью встроенного модуля распознавания текстов (OCR).

Модуль OCR распознает растровые тексты и создает текстовые объекты. При этом вычисляются высота и угол поворота созданных текстов.

В программе имеется файл шаблонов букв OCR (DEFAULT.OCR и CYRILLIC.OCR), с помощью которого модуль распознает символы английского алфавита, цифры, знаки препинания и специальные символы (первую половину таблицы ASCII). Кроме того, можно обучить модуль OCR распознавать любые другие текстовые символы.

Если OCR не может распознать символ, то этот символ заменяется в текстовой строке символом «~» (тильда). Если не распознаны все символы слова, OCR не генерирует соответствующий текстовый объект.

Определяет допустимую ориентацию растровых текстов:

· По горизонтали – ищет горизонтальные текстовые строки. Текстовые области будут только горизонтальными;

· Горизонтальная и вертикальная – ищет горизонтальные и вертикальные текстовые строки. Текстовые области будут только горизонтальными и вертикальными;

· Произвольная – ищет все текстовые строки. Выбор этой опции может снизить скорость поиска текстовых областей.

При включении этой опции программа ищет растровые тексты, касающиеся других растровых объектов. Выбор этой опции может снизить скорость поиска текстовых областей.

Позволяет искать одиночные текстовые символы. Если эта опция выключена, ГР одиночных текстовых символов находить не будет, но также не будет распознавать как текст графические объекты, маркеры, тире и т.д.

Для настройки OCR вы должны задать набор шаблонов слов. Шаблон слова – это правило, задающее разрешенную последовательность символов в пределах одного распознанного слова. Модуль OCR будет распознавать только те слова, которые соответствуют одному из заданных шаблонов (шаблоны приведены во вкладке Тексты диалога Параметры конверсии).

Кнопки

Добавить шаблон и

Удалить шаблон управляют составом списка шаблонов слов.

Ниже приведено формальное описание определения шаблона слова:

Параметр	Значение
[%]	Начало определения последовательности символов
[длина]	Любое десятичное число; отсутствует при переменной длине
[тип]	Тип символа (D, E, e, N, n, S)
[буква]	Одиночная буква

Кодировка символа	Расшифровка
D	Цифры
E	Буквы английского алфавита верхнего регистра (первый алфавит)
e	Буквы английского алфавита нижнего регистра (первый алфавит)
N	Прописные буквы национального алфавита, например русского (второй алфавит)
n	Строчные буквы национального алфавита, например русского (второй алфавит)
S	Специальные символы (знаки плюс и минус, знак равенства и т.д.)
%%	Одиночный символ «%»
[буква]	Одиночный символ

· Шаблон Rz%D соответствует словам, которые начинаются с «Rz», после чего следует любая последовательность цифр, например, «Rz40», «Rz2.5», «Rz5000».

· Шаблон %1N%n соответствует словам национального алфавита с прописной первой буквой, например «Ганновер», «Осло», «Москва».

· Шаблон %D%% соответствует словам следующего образца: «20%», «1100%», «12.50%».

· Шаблон %DV соответствует словам следующего образца: «5V», «220V», «13.8V».

В этом поле вы можете задать возможные высоты текстов. Если установить флажок, то при генерации распознанных текстов модуль OCR будет создавать текстовые объекты с высотами из этого списка, производя округление распознанной высоты к ближайшей из заданных в списке.

Задает файл библиотеки образцов букв, который используется при распознавании. Образцы букв – это топологические модели текстовых символов (букв, спецзнаков и т.п.), по которым производится распознавание растровых текстовых символов.

С помощью файла DEFAULT модуль OCR может распознавать символы английского алфавита, цифры, знаки препинания и специальные символы (первую половину таблицы ASCII). Выбор файла CYRILLIC предоставляет возможность распознавать все вышеперечисленные символы и русские буквы.

Существует возможность обучения модуля OCR распознавать также и другие текстовые символы. Во время процесса обучения OCR создает образцы букв и записывает их в библиотеку. Образцы букв вы можете сохранить как в существующем, так и во вновь созданном файле библиотеки.

Примечание. Если используется пользовательский файл библиотек с образцами букв, OCR признает символы, описанные только в этом файле.

В этом списке можно ввести имя слоя, на котором будут располагаться тексты, полученные в результате работы OCR.