Чтение онлайн

на главную - закладки

Жанры

Шрифт:

К счастью, на свете существуют программы, способные перевести сканированный текст из графического в текстовый формат – программы распознавания текста или OCR.

Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами (именно так работали распознавалки первого поколения), но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное – корректно распознавать не только четко набранные тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст – это еще полдела. Не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата – скажем, формата Microsoft Word или Excel.

Как видим, для того чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций:

Сканирование. За эту работу отвечает, собственно, не программа OCR, а встроенное в систему программное обеспечение вашего сканера. Именно с его помощью вы можете задать нужные вам параметры сканирования – например, разрешение (рекомендуется 300 dpi), цветовой режим (для простых текстов достаточно черно-белого или LineArt) – и выделить ту область документа, которую вам необходимо «скопировать» в компьютер.

Сегментация. Полученную со сканера «картинку» подхватывает OCR-программа. Но до распознавания еще далеко – сначала надо отделить текстовые элементы от графики, да и текст в ряде случаев разбить на отдельные куски (например, при многоколоночной верстке).

Распознавание. На этом этапе текст переводится из графической формы в обычную текстовую.

Проверка орфографии и правка. Встроенная система проверки орфографии «проходится» по тексту, проверяя и корректируя последствия работы системы распознавания. Спорные слова и символы выделяются особым предупреждающим цветом. Потом наступает очередь пользователя, который также может внести свою лепту в этот ответственный процесс.

Сохранение. Для дальнейшей обработки документ должен быть передан «на поруки» соответствующей программе – как правило, одному из продуктов семейства Microsoft Office. Или сохранен в формате, соответствующем его содержанию: текст – в DOC или RTF, таблица – в XLS... Да и встроенную графику желательно в документе оставить...

Все эти операции в большинстве программ OCR могут выполняться как в автоматическом, с помощью программы-мастера, так и в ручном режиме, по отдельности. С двумя первыми и последней операциями с легкостью справится любая программа распознавания. А вот весь процесс целиком по зубам, увы, только нескольким продуктам, разработанным в нашей стране. Тут надо сделать небольшую поправку: на самом деле корректно работать с русским языком умеют практически все современные «распознавалки», вне зависимости от того, где они были разработаны. Более того, в состав Microsoft Office-2003 уже включена абсолютно бесплатная программа распознавания Microsoft Office Document Scanning! Однако для российских пользователей само понятие «программа распознавания текста» чаще всего неразрывно связано с программой FineReader. Ибо компания ABBYY смогла не просто создать удобный для пользователя и качественный продукт, но и, самое главное, удачно «раскрутить» его.

Одним из козырей FineReader является поддержка неимоверного количества языков распознавания – 176, в числе которых вы найдете экзотические и древние языки, и даже популярные языки программирования (Basic, С/C++, COBOL, Fortran, Java, Pascal)! Так что FineReader сможет без запинки справиться с древнегреческим свитком или с бледными распечатками исходных текстов программ, сделанных вашими предками лет 30 назад. Как ни странно, большинство пользователей на деле интересуется совсем другим. Офисных работников интересует распознавание типовых форм документов, студентов – возможность быстро «передрать» для реферата многостраничный текст из учебника, сканируя и распознавая книжный разворот целиком, бухгалтеров – возможность автоматического распознавания таблиц и документов на бланках... Все это и многое другое FineReader умеет... или не все, а только частично, в зависимости от модификации продукта. Далеко не все возможности из нашего перечня включены в самую простую модификацию программы, которую вы можете получить бесплатно вместе со сканером. Пакетное сканирование, грамотная обработка таблиц и изображений – для всего этого стоит приобрести профессиональную версию программы – FineReader Pro. Заодно она умеет безукоризненно читать штрихкоды, позволяет добавлять в базу данных новые языки. А самая мощная (и дорогостоящая) версия – FineReader Office – без труда справится и с распознаванием любых бланков и форм! Все версии FineReader, от самой простой до самой мощной, объединяет, на мой взгляд, главное достоинство программы – интерфейс. Для запуска процесса распознавания вам достаточно просто положить документ в сканер и нажать единственную кнопку (мастер Scan & Read) на панели инструментов программы. Все дальнейшие операции – сканирование, разбивку изображения на «блоки» и, наконец, собственно распознавание программа выполнит автоматически. Пользователю останется только установить нужные параметры сканирования – рекомендуется разрешение в 300 dpi и режим черно-белого изображения или LineArt. Впрочем, текст можно отсканировать и в цветном режиме: в этом случае FineReader сможет грамотно распознать цветовое выделение шрифтов и сохранить его в готовом документе.

После завершения распознавания страницы FineReader предложит пользователю выбор: сканировать и распознавать дальше (для многостраничного документа) или сохранить полученный текст в одном из множества популярных форматов – от документов Microsoft Office до HTML или PDF. Можно, впрочем, сразу же перебросить документ в Word или Excel и уже там исправить все огрехи распознавания (без них обойтись просто невозможно). При этом FineReader полностью сохраняет все особенности форматирования документов и графическое оформление.

PROMT – перевод текста

Знание хотя бы одного иностранного языка необходимо сегодня всем, как воздух. В особенности пользователям: ведь избежать столкновения с английским языком на компьютерном поприще, увы, невозможно. Ладно, если бы дело касалось только файлов с документацией к программам (которые у нас традиционно никто не читает) или названий программных меню (ориентироваться в которых можно научиться и без знания языка, методом научного тыка и зубрежки). А как быть, скажем, с Интернетом? Без английского языка в Сеть и соваться не следует... Плохо, если вы не знаете иностранного языка... Однако горю вашему – отчасти – можно помочь, установив на компьютер одну из специализированных программ-переводчиков.

...Лет десять назад, когда автор этой книги только-только начинал свое знакомство с компьютером, одной из его любимых игрушек была маленькая программа Stylus, умевшая творить, по тем временам, вовсе невероятные вещи: за пару минут трудолюбивая «софтина» могла перевести любой текст с английского языка на русский! Конечно, качество перевода было, мягко скажем, не всегда адекватным... Но все же свою скромную задачу она выполняла. Шли годы. Stylus канул в Лету вместе с эпохой DOS, успев, однако, оставить наследников: ему на смену пришла линейка PROMT, в которой насчитывается уже восемь поколений переводческих программ. Надобно сказать, что поначалу разработчики сделали ставку исключительно на профессионалов. Однако со временем позиция компании изменилась – и теперь под маркой PROMT выпускаются продукты разного класса, отличающиеся как по функциональности, так и по цене.

Так, семейство PROMT 7.0 включает целых три версии пакета – Standard ($99–189), Expert ($600), Professional ($300) и Translation Suite ($400). Кроме того, компания выпускает и серию недорогих переводчиков домашнего класса, каждый из которых рассчитан на работу лишь с одной языковой парой. У каждой из программ семейства PROMT имеется свой собственный редактор. А старшие версии семейства еще и позволяют обеспечить перевод текста непосредственно в программах Microsoft Office – в них появляется новое меню PROMT и новая кнопочная Панель инструментов. Кроме того, новые версии PROMT встраивают команду Перевести и в контекстное меню Internet Explorer, благодаря чему вы можете с помощью одного щелчка мышью перевести содержание целой страницы (с полным сохранением оформления) либо отдельного абзаца – в этом случае его перевод будет помещен под оригинальным текстом и выделен особым цветом. Кстати, для перевода веб-страниц PROMT выпускает и отдельную программу – PROMT Internet Premium.

Несмотря на сильный разброс в цене и в количестве компонентов, все программы семейства PROMT используют одно и то же «ядро» механизма перевода. При этом все программы пакета (кроме двуязычной версии Promt Standard) поддерживают работу с несколькими направлениями перевода:

Английский-Русский, Русский-Английский.

Немецкий-Русский, Русский-Немецкий.

Французский-Русский, Русский-Французский.

Испанский-Русский, Русский-Испанский.

Поделиться:
Популярные книги

Тринадцатый XII

NikL
12. Видящий смерть
Фантастика:
попаданцы
аниме
фэнтези
фантастика: прочее
7.00
рейтинг книги
Тринадцатый XII

Хозяин Стужи 2

Петров Максим Николаевич
2. Злой Лед
Фантастика:
аниме
фэнтези
попаданцы
5.75
рейтинг книги
Хозяин Стужи 2

На границе империй. Том 10. Часть 10

INDIGO
Вселенная EVE Online
Фантастика:
космическая фантастика
попаданцы
5.00
рейтинг книги
На границе империй. Том 10. Часть 10

Кодекс Охотника. Книга XXXVI

Винокуров Юрий
36. Кодекс Охотника
Фантастика:
аниме
фэнтези
попаданцы
5.00
рейтинг книги
Кодекс Охотника. Книга XXXVI

Наследник с Меткой Охотника

Тарс Элиан
1. Десять Принцев Российской Империи
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Наследник с Меткой Охотника

Мастер 7

Чащин Валерий
7. Мастер
Фантастика:
фэнтези
боевая фантастика
попаданцы
технофэнтези
аниме
5.00
рейтинг книги
Мастер 7

Черный Маг Императора 17

Герда Александр
17. Черный маг императора
Фантастика:
юмористическое фэнтези
попаданцы
аниме
фэнтези
фантастика: прочее
5.00
рейтинг книги
Черный Маг Императора 17

Офицер Красной Армии

Поселягин Владимир Геннадьевич
2. Командир Красной Армии
Фантастика:
попаданцы
8.51
рейтинг книги
Офицер Красной Армии

Тринадцатый XIII

NikL
13. Видящий смерть
Фантастика:
городское фэнтези
аниме
фэнтези
попаданцы
5.00
рейтинг книги
Тринадцатый XIII

Кодекс Охотника. Книга XXXII

Винокуров Юрий
32. Кодекс Охотника
Фантастика:
аниме
фэнтези
попаданцы
5.00
рейтинг книги
Кодекс Охотника. Книга XXXII

Черный дембель. Часть 2

Федин Андрей Анатольевич
2. Черный дембель
Фантастика:
попаданцы
альтернативная история
4.25
рейтинг книги
Черный дембель. Часть 2

#Бояръ-Аниме. Газлайтер. Том 13

Володин Григорий Григорьевич
13. История Телепата
Фантастика:
боевая фантастика
аниме
попаданцы
фэнтези
5.00
рейтинг книги
#Бояръ-Аниме. Газлайтер. Том 13

Дважды одаренный. Том III

Тарс Элиан
3. Дважды одаренный
Фантастика:
альтернативная история
аниме
фэнтези
фантастика: прочее
юмористическое фэнтези
5.00
рейтинг книги
Дважды одаренный. Том III

Виконт. Книга 2. Обретение силы

Юллем Евгений
2. Псевдоним `Испанец`
Фантастика:
боевая фантастика
попаданцы
рпг
7.10
рейтинг книги
Виконт. Книга 2. Обретение силы