Тема: Системы оптического распознавания документов
Цель: иметь представление о программах для работы со сканером, знать системы распознавания символов, форм и текста; уметь пользоваться программой распознавания текста
Оборудование: компьютерный класс, проектор
Ход урока:
Организационный момент (2 мин)
Проверка домашнего задания (10 мин)
Где чаще всего встречаются понятия гипертекста и гиперссылки?
Для чего они были созданы?
Что такое гипертекст?
Что такое гиперссылка?
Какой объект документа может быть гиперссылкой?
Что такое браузер?
Что такое Web-страница?
Каким браузером мы пользуемся?
Что такое мультимедийный документ?
В каких приложениях еще используется гиперссылка?
Назначение компьютерных словарей. Приведите примеры российских словарей (Lingvo, «Контекст», «Мультлекс»)
Назначение систем машинного перевода текстов. .Приведите примеры российских систем перевода текстов (Promt и Сократ)
Перечислите дополнительные возможности компьютерных словарей.
Изучение нового материала (15 мин)
Системы оптического распознания символов – преобразуют элементы графического изображения в последовательности символов (FineReader, CuneiForm)
- распознание структуры размещения текста на странице: выделяются колонки, таблицы, изображения и т.д.
- выделяются текстовые фрагменты графического изображения и преобразуются в текст.
Сравнение символов с растровыми шаблонами (документ имеет типографическое качество: крупный шрифт, отсутствие плохо напечатанных символов и исправлений);
Векторный способ – распознание символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и т.д.). Применяется для распознавания документов с низким качеством печати (машинописный текст, факс и т.д.)
Системы оптического распознавания форм – распознаются рукопечатные тексты (данные вводятся в поля печатными буквами)
Системы распознавания рукописного текста – преобразуют текст, созданный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.
Системы оптического распознавания символов. Системы оптического распознавания символов используются при создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат.
Сначала с помощью сканера необходимо получить изображение страницы текста в графическом формате. Далее для получения документа в текстовом формате необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательность текстовых символов.
Системы оптического распознавания символов сначала определяют структуру размещения текста на странице и разбивают его на отдельные области: колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы разделяются на изображения отдельных символов.
Для отсканированных документов типографского качества (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений) распознавание символов проводится путем их сравнения с растровыми шаблонами.
Растровое изображение каждого символа последовательно накладывается на растровые шаблоны символов, хранящиеся в памяти системы оптического распознавания. Результатом распознавания является символ, шаблон которого в наибольшей степени совпадает с изображением (рис. 3.16).
При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется векторный метод распознавания символов. В распознаваемом изображении символа выделяются геометрические примитивы (отрезки, окружности и др.) и сравниваются с векторными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех геометрических примитивов и их расположение больше всего соответствует распознаваемому символу (рис. 3.17).
Системы оптического распознавания символов являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов), и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.
С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.
Системы оптического распознавания форм. При заполнении документов большим количеством людей (например, при сдаче выпускником школы единого государственного экзамена (ЕГЭ)) используются бланки с пустыми полями. Данные вводятся в поля печатными буквами от руки. Затем эти данные распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных.
Сложность состоит в том, что необходимо распознавать символы, написанные от руки, которые довольно сильно различаются у разных людей. Кроме того, такие системы должны уметь определять, к какому полю относится распознаваемый текст.
Закрепление
Задание № 9.12
Домашнее задание (2 мин)
П. 9.6, повторить п. 9.1-9.9.5
Итоги урока (3 мин)