Содержание

Сканирование книг и сшитых документов

Специалисты компании Редокс качественно и в сжатые сроки выполняют сканирование книг, буклетов, журналов, подшивок газет и других переплетенных или сшитых документов.

Эта операция является начальным этапом таких процессов как:

  • создание электронных книг
  • создание электронных библиотек
  • создание электронных каталогов

Работы по сканированию сшитых документов имеют свои особенности, в связи с которыми рекомендуется поручить их выполнение сотрудникам компании, специализирующейся на предоставлении подобных услуг.

Если сканирование обычных документов даже очень большого размера или нестандартного формата можно осуществлять на обычных планшетных сканерах, то для переплетенных или сшитых листов это оборудование не подходит по двум причинам: 

  1. Электронные изображения получаются дефектными, с затемнениями и искажениями в местах сгиба страниц, перекосами, что влечет за собой потерю информации
  2. Существуют книги, которые невозможно раскрыть под углом более чем 90
    0
    из-за особенностей переплета или сшивки, ветхости или большой ценности 

Наша компания работает с книгами на протяжении уже 10 лет и мы знаем как сделать так, чтобы наши клиенты получили отличный результат по разумной цене.

Цены на услуги сканирования книг и сшитых документов

Нерасшивные документы и книги (за страницу)

Свернуть
Ч/Б сканирование до формата А4 300 dpi 4р. Рассчитать
Сканирование в градациях серого до формата А4 300 dpi 6р. Рассчитать

ПОПУЛЯРНОЕ

Цветное сканирование до формата А4 300 dpi 8р. Рассчитать
Цветное сканирование до формата А4 600 dpi 16р. Рассчитать
Цветное сканирование до формата А4 1200 dpi 32р. Рассчитать
Ч/Б сканирование формата А3 300 dpi 15р. Рассчитать
Сканирование в градациях серого формата А3 300 dpi 20р. Рассчитать
Цветное сканирование формата А3 300 dpi 30р. Рассчитать
Цветное сканирование формата А3 600 dpi 45р. Рассчитать
Цветное сканирование формата А3 1200 dpi 90р. Рассчитать

Если у вас сложный проект или большой объём свяжитесь с нами по телефону 8 (495) 646-26-77, и мы подберем оптимальные условия и цену для вашего проекта. Или воспользуйте нашим калькулятором с базовыми ценами:

Техника сканирования

Для сканирования книг мы применяем специализированную технику — высокоскоростные книжные сканеры, позволяющие сканировать переплетенные или сшитые листы без повреждений  и, соответственно, искажения или утраты информации.  Такое оборудование имеет достаточно высокую стоимость и требует  наличия некоторых навыков в обращении с ним. По этой причине нецелесообразно проводить самостоятельное  сканирование таких документов — цена будет неоправданно высокой по сравнению со стоимостью услуг профессионалов, а результат работы неудовлетворительным.

Для того чтобы получить качественные электронные копии бумажных книг и документов, пригодные для использования и наполнения электронных библиотек, вам достаточно предоставить нашим специалистам исходные материалы — любые переплетенные книги либо сшитые документы  с листами формата не больше чем А3 или  разворотом формата не более А2. 

После проведения сканирования вы получите файл с изображением оригинала, сохраненный в любом из графических форматов tif, gif, jpg или PDF.  

Многостраничный PDF на данный является самым распространенным форматом для создания электронной документации, электронных книг и инструкций, поэтому по желанию заказчика наши специалисты преобразуют результат в электронный документ PDF. Изображения в данном формате можно просматривать с помощью распространенного приложения Acrobat Reader.

Для обработки большого объема исходных материалов мы применяем поточное сканирование, при котором весь процесс представляет собой единый конвейер, работающий с высокой производительностью и практически безостановочно.

Наше оборудование

Книжные высокоскоростные специализированные сканера Plustec OpticBook A300, со скоростью 2.10 сек на одну страницу формата А3 (оттенки серого и Ч/Б, 300dpi) 

 

Широкоформатный книжный сканер формата A1 book2net Flash

 

 

Обратите внимание!

Электронные копии книг, полученные в результате сканирования, нельзя редактировать  в текстовых и табличных редакторах (таких как MS Word, MS Excel и другие). Для того чтобы появилась такая возможность, необходима полная оцифровка книг, которая включает следующие этапы:

  • распознавание текста
  • проверка корректности распознавания символов
  • внесение исправлений
  • сохранение текста, элементов оформления  и стиля документа в текстовом формате
Закажите эту услугу со скидкой!

Для детального обсуждения условий сотрудничества, получения консультации и оформления заказа на любую из наших услуг:

  • Оставаясь на рабочем месте
  • В удобное время
  • За считанные минуты

Перейти в раздел контакты→ Страница сгенерирована за 0.01 секунд !

Как сделать электронную копию бумажной книги

Что для вас значит книга? Если это не просто увлекательный попутчик, но и мудрый наставник, то вы хоть раз задумывались о том, чтобы сберечь ее на будущее. Оцифровка бумажных книг имеет два несомненных преимущества: книга в электронном виде всегда под рукой, и ей очень легко делиться.

Из этого мануала вы узнаете об основных этапах создания удобной электронной версии бумажной книги с навигацией и возможностью копирования текста.

Вступление

Стоит оговориться, что в век бурной защиты авторских прав и легкой доступности литературы, изначально сверстанной в электронной форме, имеет смысл оцифровывать либо старые фундаментальные советские учебники, либо что-то действительно редкое и только для личного пользования.

Имея доступ к старым техническим справочникам, я иногда безвозмездно помогал тем незнакомым мне людям, которым так не хватало хороших источников знаний для обучения. И коль уж я подряжался, хотелось выполнить свою работу на достаточно высоком уровне, чтобы читателю книги было приятно в нее погружаться.

Этап 1. Копирование книги

Со временем многие процессы упрощаются. Если с пяток лет назад этот этап был крайне продолжительным (приходилось пользоваться сканером), то с улучшением камер мобильных телефонов затрачиваемое время существенно сократилось. Конечно, камера камере рознь, но, если подобрать приемлемые условия съемки, должен подойти любой более-менее современный телефон.

Разумеется, использование сканера все же более предпочтительно. Особенно если дело касается технической литературы, содержащей множество формул и чертежей.

Предвосхищая события, отмечу, что снимки впоследствии будут обработаны специальной программой. Но все же стоит добросовестно отнестись к самой съемке, дабы не ставить качество конечного продукта в зависимость лишь от постобработки.

Пример не самого хорошего снимка: освещение страдает, страницы до конца не распрямлены. Все ради эксперимента.Пример не самого хорошего снимка: освещение страдает, страницы до конца не выпрямлены. Все ради эксперимента

Поэтому постарайтесь максимально широко раскрывать страницы, чтобы изгибы у корешка книги были минимальны. Было бы здорово, если бы вам кто-то в этом помогал. Один человек держит телефон, а второй переворачивает и выпрямляет страницы. Ко всему прочему, студенты любят делать на библиотечных книгах пометки, и неплохо было бы их стереть.

Делаем серию снимков и перекидываем их на компьютер в отдельную папку. Пришла пора поработать неживому мозгу.

Этап 2. Обработка

Я сталкивался с двумя серьезными программами для обработки отсканированных (сфотографированных) книг: ScanTailor и ScanKromsator. Возможно, за годы моего инактива появились еще какие-то достойные альтернативы, но я сомневаюсь — уж очень мала и бедна пользовательская ниша. Самые прожженные книгоделы предпочитают ScanKromsator. В нем предельно много настроек и возможностей, но разобраться и понять все предложенные навороты, видимо, не в состоянии и сам автор программы (шутка). Поэтому я рекомендую вам ScanTailor. Мне довелось следить за развитием этой утилиты с первых дней ее существования. Разработчик еще несколько лет назад прекратил поддержку проекта, но все-таки дал миру хороший инструмент для обработки сканов.

Начало работы

Работа в ScanTailor последовательна и проста. Все промежуточные действия отображены в левой части рабочей области, вы с легкостью вольетесь в процесс.

Выберите папку с исходниками, выходная папка будет создана автоматически. Для всех страниц установите максимально возможное DPI — 600 × 600. Мощности современных компьютеров позволяют достаточно быстро обрабатывать такие изображения.

ScanTailor_pic1Не жалейте DPI для своей книги

Шаг 1. Исправление ориентации

Самый простой и быстрый шаг. Скорее всего, вы изначально фотографировали страницы с верной ориентацией, потому и хлопот возникнуть не должно. Отмечу лишь, что изначально ScanTailor будет предлагать вам запустить пакетную обработку текущего действия (небольшой значок Play напротив шага) — обязательно им пользуйтесь, дабы не щелкать по каждому изображению отдельно.

ScanTailor_pic2
На мой взгляд, ScanTailor может гордиться своим продуманным интерфейсом

Шаг 2. Разрезка страниц

Практически беспроблемный шаг. Я крайне редко встречал ошибки программы на этом этапе. Обязательно обратите внимание на обложку книги — именно здесь зачастую возникают нюансы.

ScanTailor_pic3Большей наглядности и придумать трудно

Шаг 3. Компенсация наклона

В подавляющем большинстве случаев алгоритм срабатывает корректно. Не ждите подвоха, переходите к следующему шагу.

ScanTailor_pic4К вашим услугам ручная настройка до долей градуса

Шаг 4. Полезная область

Наверное, это самый ответственный момент. Только содержание книги имеет определяющее значение, оформление — дело вторичное. Именно с этого шага начинает работать связка «компьютер — человек». В программе порой случаются небольшие сбои, поэтому после автоматической обработки пробегитесь глазами по миниатюрам страниц в правой части экрана. Обычно ошибки сразу бросаются в глаза.

ScanTailor_pic5«Бракованная» полезная область будет видна при просмотре миниатюр страниц

Шаг 5. Поля

Размер полей — дело вкуса. Более важным моментом является возможность выравнивания размеров страниц. Не забудьте поставить эту галочку, чтобы не получить на выходе «пляшущие» страницы.

ScanTailor_pic6Обложку обычно приходится дорабатывать в графическом редакторе

Шаг 6. Выход

Последний бой — он трудный самый. Плюс самый ресурсоемкий для вашего компьютера и самый требовательный к вашему вниманию.

ScanTailor_pic7Необработанные страницы помечаются вопросительным знаком

Финишный отрезок знаменуется рядом важнейший действий. Прежде всего вы определяете выходной режим книги: черно-белый, цветной или смешанный. Затем страницы очищаются от мусора, искривленные строки выравниваются. Не буду вдаваться в подробности, но укажу вам на не самые заметные закладки, расположенные несколько нелогично и непривычно — между превью страницы и лентой миниатюр. Каждая закладка отвечает за важную функцию ручной настройки получаемых изображений. Если вы найдете желание и время вникнуть в принцип их работы, ваши книги будут более высокого качества.

Страница до и после корректировки искажения строкСтраница до и после корректировки искажения строк

Итог

Стремясь к идеалу, на эту работу вы можете потратить не один час. Все зависит от вашей заинтересованности в конечном результате и качестве исходных снимков. Да, я еще раз возвращаюсь к этой теме. Чуть большие старания на этапе подготовки могут сэкономить огромное количество времени, которое уходит на приведение страниц в приличный вид.

Прошу не брать за образец приведенные скриншоты — на все про все у меня ушло не более пары минут. Я не сомневаюсь, что забыл указать вам на некоторые нюансы работы со ScanTailor — слишком давно я ничего не обрабатывал с его помощью.

В итоге вы получите набор разрозненных страниц в формате .tif. Пора сшиваться!

Этап 3. Создание djvu-файла

Если вы хотите быстро сварганить DjVu-файл, обратитесь за помощью к малюсенькой утилите DjVu Small. Есть и более серьезные программы, например DjVu Editor Pro. Конечно, предпочтительным видится применение второго инструмента. Но решать вам: установите обе программы и сравните их возможности.

DjVu Small

Что касается создания PDF — в Интернете есть вагон и маленькая тележка соответствующих программ и веб-сервисов.

Этап 4. Создание OCR-слоя

Одним из признанных мировых лидеров в распознавании текста несомненно является компания ABBYY с ее известным продуктом FineReader. Наверное, нет таких людей, которые не слышали об этой программе, поэтому и расписывать особо нечего. С недавнего времени FineReader умеет открывать и сохранять результаты работы прямиком в DjVu, что исключает необходимость использования промежуточного софта.

Этап 5. Создание оглавления

На просторах Сети довелось встречать положительные отзывы о программе Pdf & Djvu Bookmarker. Как становится понятно из названия, софтина умеет работать с обоими самыми распространенными форматами электронных книг.

Заключение

Скорее всего, вы не осилили много букв и сразу перешли к выводам. А они для рядового человека неутешительны. Электронное книгоиздание — дело хлопотное, полное трудностей и сюрпризов. Чтобы дослужиться даже до «зеленого пояса», вам придется потратить кучу времени. Оцифровка бумажных книг на высоком уровне — удел энтузиастов. Если вы все же решитесь пройти чертову дюжину кругов ада, то получите непередаваемые впечатления. Всегда приятно делать что-то общественно полезное и получать за это обычные человеческие благодарности.

Но в целом рекомендую остановиться после обработки в ScanTailor, объединить разрозненные страницы в PDF и дальше не лезть в дебри.

Осознанно и бессознательно я упустил кучу мелочей и нюансов, которые подстерегут вас на пути создания хорошей электронной книги. Надеюсь, что к обсуждению в комментариях подключатся знающие люди и укажут на мои неточности или расскажут о своих секретах.

Как сканировать книги и каталоги библиотеки: технологии и практика

Почему библиотека является наиболее ярким образом системологии – фундаментальной науки, изучающей организацию процессов и явлений в мире? Ответ кроется в фонде и справочно-поисковом аппарате библиотеки. Для обычного читателя книги на полках и есть фонд, но это не совсем так. Библиотечный фонд – это сложная по структуре совокупность документов, представленных на различных носителях информации, соответствующая определенным отраслям знаний и связанная со специализированным поисковым механизмом на основе карточного каталога.

Даже размещение журналов на стеллажах библиотеки основываются на научном подходе: информетрический закон Брэдфорда объясняет закономерность распределения статей по изданиям и тем самым позволяет с большой вероятностью спрогнозировать востребованность материалов, исходя из специфики информации.

Иначе говоря, библиотекам удалось создать идеальную систему классификации и структурирования информации, которая позволила решить проблему хранения и поиска огромных объемов данных из любых источников. Для этого были разработаны специализированные библиотечные классификаторы, регламентирующие распределение и расстановку фондов, методы организации систематических каталогов, стандарты оформления и учета документов.

Об оцифровке

Когда мы говорим об оцифровке книг любой библиотеки, то, помимо сохранности оригиналов и обеспечения аутентичности электронной копии, необходимо помнить о сохранении идентичности структуры классификации и поиска информации в бумажном и электронном фонде. Другими словами, сканирование книг требует обязательного создания электронного каталога и формирования индексно-поисковой базы данных с максимальной полнотой наполнения.

Проекты по созданию электронных ресурсов библиотек
являются одними из самых сложных и насыщенных с точки зрения трудозатрат,
применяемых методологий и технического исполнения.

Возникает естественный вопрос – зачем? Зачем при такой сложности реализации подобных проектов затевать оцифровку библиотечных материалов, ведь «книги могут храниться веками», да и «вообще в библиотеку уже никто не ходит»?

Это ошибочное мнение. В последние годы библиотеки активно меняются, внедряют современные технологии и стандарты обслуживания для удовлетворения потребностей нового поколения читателей, воспитанных на свободе использования цифрового контента. Принимаются программы по переоснащению, в практику работы вводятся индексы эффективности деятельности, создаются единые каталоги, региональные и краеведческие электронные коллекции. В 2015 г. запущена Национальная электронная библиотека (НЭБ), для развития которой проводится регулярная оцифровка фондов российских библиотек.

Не стоит забывать и о сохранности бесценных знаний и культурных ценностей, накопленных в книгохранилищах по всей стране. Для этих целей оцифровка – самый эффективный способ сохранения изданий и обеспечения безопасного доступа к содержащейся в них информации.

Электронный каталог

Проект в одной крупной библиотеке продолжался с 2003 по 2011 гг. В ходе проекта было выполнено сканирование и индексирование более 2 млн карточек систематического каталога на русском и иностранных языках. В АБИС перенесены данные по 17 полям с каждой карточки.

Основа основ автоматизации современных библиотек – создание электронного каталога и наполнение автоматизированной библиотечно-информационной системы (АБИС). АБИС необходима для автоматизации учета фондов. А полноценный электронный каталог значительно увеличивает эффективность и скорость поиска информации, значительно повышая общее качество обслуживания читателей.

Как правило, в библиотеке ведутся несколько видов каталогов: алфавитный, в котором все карточки расставлены по алфавиту; систематический, где карточки расставлены по отраслям знаний. Существуют каталоги, разделяющиеся по охвату фонда: генеральный или отдельных частей фонда; по назначению: читательский или служебный; по многим другим признакам: краеведческий, предметный и т.д.

При большом количестве фондов
оцифровка всего каталога – довольно длительный процесс,
который обычно проводится поэтапно.

Основа каталога – это библиотечная карточка, содержащая информацию об издании, индексы классификации, номер книги (ISBN) и другие данные. Ввиду большого объема специфической информации, карточка является сложнейшим документом для извлечения индексных данных. Еще больше затрудняют обработку информации записи на иностранных языках, рукописный текст или диакритические знаки (различные надстрочные, подстрочные, реже внутристрочные символы).


Одна библиографическая запись может содержать до 24 разных полей. Перенос записей в систему напрямую с бумажных носителей нецелесообразен из-за низкой скорости и риска потери/пропуска ключевой информации, поэтому работы по созданию электронного каталога подразумевают обязательное предварительное сканирование библиотечной картотеки, формирование и проверку индексной базы данных перед загрузкой в АБИС.

Даже в небольшой библиотеке количество карточек исчисляется тысячами единиц. В таких условиях искать собственные кадровые и технические ресурсы и самостоятельно заниматься формированием электронного каталога практически невозможно, поэтому для экономии времени и денег привлекаются профессиональные подрядчики, которые специализируются на обработке библиотечной информации и готовы гарантировать итоговый результат.

Типовой технологический процесс создания электронного каталога

Оцифровку целесообразно производить на территории библиотеки, чтобы не изымать библиотечные карточки из использования и не нарушать работу с читателями. Процесс делится на несколько этапов:

Экспертиза. Оценивается физическое состояние карточек и объемов картотеки. Определяется состав библиографического описания и требуемый формат машиночитаемых записей. Исходя из полученных данных, составляется дальнейшая технологическая цепочка работ. На перечень работ и методы извлечения данных влияют нюансы в написании символов, формате и даже составе материала (картон, бумага). Ниже приведены возможные типы карточек:

Современное оборудование позволяет достигать скорости сканирования 170 карточек в минуту, при этом выбор профессионального сканера позволяет избежать повреждения самих карточек.

  • добавочная карточка. Особенность: печатные и рукописные символы,
  • разделитель. Особенность: отличный от стандартного формат карточки,
  • ссылочная карточка. Особенность: только рукописные символы,
  • описание. Особенность: старорусский текст.

Сканирование. Поточное сканирование бумажных карточек осуществляется на высокоскоростных документных сканерах. Стандартные требования к оцифровке: разрешение 300 dpi, черно-белый режим сканирования, формат файлов TIFF или JPEG. Большинство карточек типового размера 130х80 мм, но встречаются до формата А6 (148х105 мм) включительно. Иногда перед сканированием производится склейка поврежденных карточек. Часто проводится двустороннее сканирование карточек, где на обратной стороне содержатся инвентарные номера, разбивка по филиалам. Незначимые карточки-разделители не сканируются.

После оцифровки бумажный массив картотеки приводится в исходное состояние.
Все последующие работы проводятся с полученными
графическими образами карточек.

Обязательно должны проводиться поворот перекошенных изображений, удаление фона, проявление слабоконтрастных символов и т.д.

Свойства электронных копий должны исключать потерю информации и не ухудшать читаемость документа по сравнению с бумажным оригиналом. В случае плохого состояния исходного материала допускается использование программных средств улучшения качества изображений.

Вся обработка изображений выполняется в автоматическом режиме. Возможна ручная коррекция геометрии образов, очистка от шумов и следов сгиба при необходимости обработки небольшого количества поврежденных документов.

Даже в случае набора текста на печатной машинке, далеко не все символы распознаются корректно. Автоматическое распознавание рукописного текста, карандашных пометок и карточек, созданных до середины 20 века практически невозможно.

Количество графических образов должно совпадать с числом листов бумажного массива. Нормой стало сканирование в порядке следования карточек каталога. Пропуск страниц считается браком.

Ретроконверсия: ввод информации с отсканированных карточек и формирование базы данных. Карточки могут содержать машинопечатный и рукописный текст, карандашные пометки, нечеткие символы и иметь другие особенности заполнения.

В редких случаях, при хорошем качестве документа, содержащего печатный текст, можно использовать программные средства распознавания для автоматического извлечения определенных полей карточки.

Перед ретроконверсией производится сепарация (сортировка) изображений с целью группировки отдельных частей массива по типам карточек и другим признакам индексирования (сцепка составных карточек, создание блоков данных для томов, разделение по языкам и т.д.). Производится разметка блоков для удобства извлечения данных оператором.


На выходе формируется база данных в требуемом для библиотеки формате (RUSMARC, UNIMARK, MARC21 и др.). В некоторых случаях при создании электронного каталога предметом обработки могут служить напрямую графические образы книг. Тогда к работе привлекаются операторы, владеющие знаниями правил составления библиографических описаний.

Требования к минимальному проценту ошибок в базе данных очень высоки, так как это напрямую влияет на качество поиска информации в электронном каталоге. Поэтому после ввода данных присутствует этап проверки по различным параметрам опытными верификаторами.

Для ускорения процесса ретроконверсии используется технология заимствования,
упрощающая ввод информации за счет автоподбора заполнения полей
на основе ранее введенных данных.

Сканирование книг

Многие библиотеки уже обладают профессиональными планетарными сканерами для ежедневной оцифровки книг. Но собственными силами в основном сканируется поступающая литература. Для массовой качественной оцифровки обычно заказываются аутсорсинговые услуги. Так, в одной крупной федеральной библиотеке с 2008 по 2014 гг. оцифровано более 16,5 млн страниц библиотечных и архивных фондов силами привлеченного подрядчика.

После создания электронного каталога или параллельно этому процессу библиотеки решают задачи по обеспечению сохранности и доступности книжного фонда путем оцифровки книг. Работы по оцифровке проводятся для наполнения национальных электронных проектов, создания коллекций редких книг и полнотекстовых ресурсов, собраний тематических иллюстрированных материалов и много другого.

Библиотеки могут проводить работы по оцифровке фондов самостоятельно. Например, в крупных библиотеках организованы целые отделы сканирования, располагающие парком профессионального оборудования.

Важным аспектом являются характеристики цифровых копий. Если решаются локальные задачи, библиотека может самостоятельно определять требования к выходным электронным ресурсам. Но при реализации национальных проектов, где используются фонды различных библиотек, необходим общий стандарт, регламентирующий основные характеристики работы.

При создании НЭБ электронные ресурсы, созданные техническим исполнителем
и библиотеками самостоятельно, имели разные параметры оцифровки,
что усложняло работу по обработке и загрузке цифрового контента.

Поэтому отраслевым экспертным советом были подготовлены «Рекомендации по оцифровке материалов из фондов библиотек»*, которые показывают принцип создания электронных библиотечных ресурсов. В рекомендациях указаны три вида цифровых копий. Мастер-копия – эталонная копия оригинала в полиграфическом качестве (разрешение не ниже 600 dpi). Пользовательская копия – для создания электронных коллекций и предоставления читателям (разрешение не ниже 300 dpi). Служебная копия используется для внутренних задач библиотеки и размещения на web-сайтах (разрешение не ниже 150 dpi).

Особенности сканирования книг

При оцифровке книг этапы работ повторяют процесс создания электронного каталога. Действует библиотека самостоятельно или нанимает подрядчика, но так или иначе в первую очередь необходимо определить цель проекта и провести экспертизу книжного фонда для понимания стоимости и трудоемкости работы. В дальнейшем формируется состав подлежащих оцифровке изданий, согласовываются технические требования, и производится окончательная оценка проекта.

Рассмотрим несколько особенностей оцифровки книг, которые влияют на стоимость и сроки проектов. Большое значение имеет формат и состояние книг, а также объем бумажного фонда. Исходя из этих особенностей, определяется вид сканирующего оборудования и технологии оцифровки.

Ветхая, рваная бумага, а также толстый переплет многих книг позволяет применять только бесконтактное сканирование – профессиональные планетарные (книжные) сканеры. Использование планшетных сканеров исключено.

После сканирования полученные цифровые копии проходят процесс программной коррекции, приводятся к наиболее удобному для чтения качеству изображений. Зачастую при использовании профессиональных книжных сканеров для этого достаточно встроенных программных средств обработки. После получения массива цифровых копий при необходимости составляются библиографические описания отсканированных изданий.

Отдельно стоит выделить работы по высококачественному сканированию коллекций редких книг, книжных памятников, фолиантов и других ценных экземпляров. Для этого используются специализированные комплексы высококачественного сканирования, обеспечивающие уникально высокие показатели оптического разрешения.

Особенности формирования полнотекстовых PDF-книг

*В Гражданском кодексе РФ (ч. IV в ред. 2006 г.) статьями 1274 и 1275 допускается без согласия автора предоставление экземпляров произведений, правомерно введенных в гражданский оборот во временное безвозмездное пользование. Но цифровые экземпляры произведений могут предоставляться только в помещениях библиотек при условии исключения возможности создать копии этих произведений в цифровой форме. Для предоставления доступа к ограниченным изданиям в среде национальной электронной библиотеки был разработан специальный защищенный просмотровщик для удаленной работы граждан с произведениями в электронной форме.

Но цифровых копий порой бывает недостаточно. Существуют задачи по превращению изображения в полноценную электронную книгу. На основе графических образов формируются электронные книги в формате PDF. Этот формат наиболее универсален и позволяет осуществлять полнотекстовый поиск и навигацию по оглавлению и гиперссылкам. Электронные книги, не ограниченные авторским правом, можно публиковать в интернете или давать «защищенный» доступ в читальном зале библиотеки*.

Для создания таких книг проводится полнотекстовое распознавание с дальнейшей верификацией текста и проверкой орфографии. Для окончательной вычитки документа привлекаются профессиональные корректоры.

В результате макетирования формируется электронная книга,
полностью идентичная бумажному оригиналу — с точным расположением страниц,
иллюстрациями, сохранением языка и стиля.

Оцифровка книг и каталогов библиотек, особенно при существенном объеме, разнородности фондов по формату и состоянию оригиналов, – сложнейший производственный процесс, осуществить который качественно могут только специализированные компании, обладающие всей необходимой инфраструктурой и большим опытом в создании электронных ресурсов.

Короткая ссылка на материал: //cnews.ru/link/a4439

Оцифровка книг — Википедия

Сверхпроизводительный сканер APT BookScan

Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно оцифрованные книги сохраняют в форматах: DjVu, Portable Document Format (PDF), JPG или TIFF. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой, как ASCII, или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом. Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Люди обычно проверяют отсканированное изображение на наличие ошибок.

Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час. Существуют ручные книжные сканеры, способные оцифровывать около 1200 страниц в час.

В прошлом чаще применялся ручной набор текста книги.

Сегодня процесс оцифровки включает два подхода.

  1. Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путём сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная вёрстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.
  2. Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной вёрстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.

В последнее время (особенно с появлением форматов PDF и DjVu) всё чаще применяется смешанный подход: текст книги распознаётся в автоматическом режиме и подкладывается под оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

  • планшетные — сканеры, ориентированные на домашнего пользователя, но сконструированные именно для облегчения процесса сканирования книг.
  • планетарные — профессиональные высокопроизводительные сканеры.
  • роботизированные (англ.) — промышленные сверхвысокопроизводительные сканеры, оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая линейка, а одна расположенная над сканируемым оригиналом цифровая камера высокого разрешения (30—140 мегапикселей). В некоторых моделях возможно использование двух камер, которые устанавливаются под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота (при этом нет необходимости раскрывать книгу на 180°, что критично при оцифровке старых или находящихся в плохом состоянии оригиналов).

Планетарные и роботизированные сканеры позволяют достичь производительности 500—2000 страниц в час, у лучших моделей — до 2500—3000 страниц в час.[источник не указан 2231 день]

Эскиз V-формы книжного сканера ATIZ Эскиз типичного книжного сканера

Профессиональные книжные сканеры сканируют оригиналы в высоком качестве с использованием двух цифровых камер и источников света по обе стороны от камеры, что позволяет переснять разворот книги за один раз. Преимущество таких сканеров — высокая скорость съёмки, а также отсутствие необходимости раскрывать книгу на 180 градусов. Однако цены таких сканеров обычно начинаются с 10 000$.

Для сканирования книг с низким бюджетом наименее дорогим способом является сканирование книги или журнала с обрезкой страниц от корешка. Это превращает книгу или журнал в стопку документов, которые могут быть загружены в стандартное устройство автоматической подачи документов, хотя, безусловно, это не является хорошим решением для очень старых и необычных книг, в особенности тогда, когда книга дорогая и коллекционная. В данном сканировании есть две трудности, обрезка страниц и само сканирование.

Обрезка страниц[править | править код]

Одним из способов резки страниц объёмом от 500 до 1000 страниц за один раз, выполняется с помощью гильотины для бумаги. Эта конструкция представляет собой большой стальной стол с тисками для бумаги. Разрез выполняется большим заострённым стальным лезвием, которое движется прямо и режет по всей длине каждого листа сразу. Рычаг на лезвии позволяет прикладывать силу порядка сотен килограмм, которая необходима для разреза стопки бумаги. Чистый срез невозможно сделать традиционным серповидным ножом, так как он предназначен только для резки нескольких листов, где 10 листов является практически пределом. С течением времени при нарезке большой стопки бумаги разрез становится все более неточным, а усилие, которое нужно прикладывать для нарезки бумаги, увеличивается. Процесс при резке гильотиной притупляет лезвие с течением времени, поэтому необходимо затачивать лезвие. Бумага с покрытием притупляет лезвие быстрее, чем обычная бумага.

Сканирование[править | править код]

Когда бумага освобождена от корешка книги, то можно сканировать с помощью традиционного планшетного сканера или использовать сканер с автоматической подачей документов. Страницы с рифлёной декоративной окантовкой или изогнутыми в дугу могут быть трудными для сканирования с помощью автоподатчика. Автоподатчик предназначен для сканирования страниц одинаковой формы и размера, поэтому разный размер или форма страниц может привести к неправильному сканированию. Бумага, которая используется в журналах и учебниках, может плохо проходить в устройство автоматической подачи бумаги. Вообще наименьшие проблемы возникают с обычной бумагой. Липкий ролик, который захватывает бумагу, может со временем стереться, поэтому за его работоспособностью необходимо внимательно следить. Если в стопке бумаги находятся различные листы бумаги, например, карты, то их необходимо удалить сразу перед сканированием.

Сканер на основе ЦФК. Сканер предназначен для оцифровки как сшитых, так и расшитых изданий. Подходит для оцифровки как относительно новых, так и ветхих изданий за счёт специальной V-образной колыбели, позволяющей не раскрывать книгу полностью (на 180 градусов), что сводит к минимуму вредное воздействие на издание. Книга остаётся в одной и той же позиции. Скорость сканирования (цветной режим) — около 500—700 страниц/час. Перелистывание страниц происходит вручную (существуют модели с автоматическим перелистыванием, однако ценные, ветхие книги, составляющие основу библиотечного фонда, не рекомендуется оцифровывать на таком оборудовании во избежание повреждений). Формат сканируемого документа А2—А4. Разрешение получаемых изображений — 130—470 dpi (оптическое). Сканеры подобного типа занимают много рабочего пространства, однако практически не подвержены поломкам, поскольку являются сканирующими платформами. Модернизируется за счёт замены фотокамер на более совершенные модели. Запускается нажатием одной кнопки. Примером таких сканеров могут являться сканеры, использующие цифровые фотокамеры.

Сектор сканирования в университетской библиотеке

В ходе масштабных проектов по оцифровке книг, как правило, обрабатываются книги, перешедшие в общественное достояние. Хотя Google оцифровывает вообще все книги, однако книги, защищённые авторским правом, предоставляет лишь в виде фрагментов. К крупным проектам по оцифровке на сегодня относятся:

Одной из основных проблем является большой объём книг, которые будут отсканированы. Десятки миллионов книг будут отсканированы, а затем должны находиться в свободном доступе и поиске в интернете в качестве универсальной библиотеки. В настоящее время крупные организации полагаются на аутсорсинг или сканирование дома с использованием профессиональных или роботизированных сканеров.

Что касается аутсорсинга, то книги часто отправляются оцифровываться в Индию или Китай, за счёт самых низких цен. Профессиональные сканеры используют цифровые камеры, что значительно ускоряет весь процесс. При использовании роботизированных сканеров традиционно необходимо отделять страницы от корешка книги, чтобы страницы могли автоматически подаваться.

Как только страница сканируется, данные вводятся вручную или с помощью OCR, что является ещё одним критерием стоимости сканирования книги. В связи с вопросами авторского права на большинство отсканированных книг не распространяется авторское право. Однако известно, что Google Book Search сканирует книги, которые защищены авторским правом, и может убрать книгу из свободного доступа, только если издатель специально исключит книгу из поиска.

Ряд крупных библиотек предоставляют особые услуги по оцифровке публикаций из своих фондов по желанию читателей. Основные критерии: публикации должны находиться в общественном достоянии и должны быть в достаточной сохранности. Таким образом, появляется источник финансирования процесса оцифровки или же устанавливаются приоритеты при массовой оцифровке. Как правило, отметка о возможности сканирования интегрирована в библиотечный каталог, оцифрованная публикация размещается в электронной библиотеке для всеобщего доступа.

Существующие проекты[править | править код]

  • «Scan-on-demand» (Сканирование по требованию) — бесплатный интернет-проект Open Library, любой желающий может выбрать книгу из списка (фонды Бостонской общественной библиотеки), который содержит большое количество литературы XIX—XX веков на русском языке. Оцифровка проводится средствами некоммерческой организации Архив Интернета. Сроки работ заявлены как 5—8 рабочих дней. На сайте openlibrary.org собрано уже более миллиона оцифрованных публикаций.[1]
  • «DigiWunschbuch» — проект Центра оцифровки и Университетской государственной библиотеки Гёттингена (Германия), сканирование за плату (рассчитывается постранично) заказчик получает цифровую копию на CD-ROMе, кроме того, его имя будет размещено на шмуцтитуле цифровой копии, размещённой в открытом доступе.[2]

сколько стоит сканирование книг, стоимость услуг на YouDo

В настоящее время все большую и большую популярность приобретают электронные книги. Носители, с которых можно читать книги, очень удобны и могут содержать массу полезных функций. И это кроме того, что даже обычный телефон может вмещать в себя несколько домашних библиотек.

Как получить качественную оцифровку книг?

Оцифровка бумажных книг – очень сложный и трудоемкий процесс. Использование собственных сил для осуществления этого – иногда неверно. Ведь для того, чтобы нормально пользоваться электронных книг вместо бумажных, первые должны выглядеть максимально похожими на вторые.

Этапы оцифровки книг

  • Сканирование книги;
  • Распознавание;
  • Проверка правильности распознавания;
  • Проверка на технические недочеты;
  • Оформление электронной книги в нужном формате.

Чтобы сканирование проходило должным образом, профессионалы используют только самое лучшее, постоянно обновляемое оборудование. Многие из нас самостоятельно сканируют некоторые бумаги дома на обычном сканере. Однако, отсканировать, например, паспорт или небольшой документ – не то же самое, что заниматься сканированием целой книги. Каждый скан требует пристального внимания к различным мелочам.

Следующий этап – распознавание, происходит в несколько этапов. Сначала книга проходит распознавание с точки зрения соответствия структуре страниц, которая была у бумажной книги. После этого идет распознавание самого текста. А вот следующий этап – очень важен. На нем происходит проверка того, как прошло распознавание, а также его соответствие оригиналу.

Проверка технических недочетов оцифровки, как правило, занимает меньше всего времени, так как существующие программы имеют возможность быстро выдавать результаты. Правка ошибок – это важнейший этап всего процесса работы.

Оцифровка бумажных книг подразумевает дальнейшее преобразование электронной версии в удобный для использования формат.

Какие виды форматов бывают?

Чем же хорош каждый формат? Все зависит от того, как будет использоваться электронная книга ее владельцем. Например, если клиент планирует пользоваться текстом книги, имея при этом возможность оперировать непосредственно текстом, то профессионал сделает книгу в формате Doc или TXT. Тогда книга сможет быть открытой с помощью программ, которые есть практически на любом носителе.

Книга, нужная для чтения и распространения, как правило создается в формате PDF или DJVU. Эти два формата во многом схожи по своей структуре. Но стоит учитывать наличие в книге различных растровых изображений. Полноценная книга, содержащая иллюстрации, лучше всего выглядит в формате DJVU, так как текст и изображения являются более контрастными. Этот формат меньше всего подлежит сбоям и зависит от версии программы, через которую ведется просмотр.

Оценить стоимость услуги, а также выбрать соответствующие запросам расценки можно на сайте YouDo.

 

Как быстро отсканировать книгу в формат PDF (используя ClearScan) | Проза жизни

ВВЕДЕНИЕ

В этом кратком пособии я бы хотел поделиться своим мыслями о сканировании книг в формат PDF и впечатлениями о технологии ClearScan, доступной в Adobe Acrobat начиная с версии 9.0. На мой взгляд, это замечательная технология, делающая (наконец-то!) формат PDF подходящим для отсканированного текста.

Фактически, при деструктивном сканировании (книга разрывается на листы и используется листовой сканер), процесс сканирования → чистки → перевода в PDF → OCR можно выполнить за тройку часов для чёрно-белой книги среднего размера. Если же вы «стекольщик», то есть у вас достаточно терпения сканировать книгу на стекле сканера, сканирование, очевидно, займёт дольше.

Надо сказать что хорошо отсканировать цветную книгу сложнее чем чёрно-белую: сканер портит цвета, и на их исправление в графическом редакторе уходит время и требуется определённый навык. Можно представить себе такую шкалу сложности, в начале которой находятся самые простые для сканирования книги с чёрно-белым текстом без иллюстраций; постепенно, иллюстраций становится всё больше, прибавляется цвет, так что на другой стороне этой шкалы находятся самые сложные для сканирования книги у которых каждая страница — цветная иллюстрация.

Технология ClearScan, о которой я расскажу, рассчитана на текст. Она никак не влияет на иллюстрации, чёрно-белые или цветные. Если вы захотите узнать о сканировании подробнее, и/или вы собираетесь сканировать книги с большим количеством цветных иллюстраций и хотите уметь исправлять их цвета, то я могу дать ссылку на пособие по сканированию книг в высоком качестве, размещённое в библиотеке Twirpx.com, которое также включает в себя инструкции по работе с программой Photoshop:

www.twirpx.com/file/1437636/

Моя задача скромнее. Я предполагаю у вас наличие книги, где основные страницы — текст. Это может быть учебник или документ, художественная литература или техническая, но не детская книжка с картинками, не книжка-фоторепортаж. Я рассчитываю что вы хотите перевести такую книгу в PDF и получить приличное качество и небольшой размер файла.

КАК СКАНИРУЕТ НАЧИНАЮЩИЙ

Если есть сканер, то хочется что-нибудь отсканировать! И слава Богу. Посмотрите на обилие электронных библиотек. Спасибо всем кто отсканировал и выложил это для других.

Сканеры сегодня продаются с пакетом программ, среди которых есть и программа по преобразованию в PDF. В теории (и в рекламных проспектах) это выглядит так: заложи в сканер листы, получи их на выходе в электронном виде, в формате PDF! И это иногда правда. Есть большое количество разных бумаг (количеством 1, 2, … 10 листов) с которыми я так и поступаю. А чего с ними чикаться? Видно — будет. А большее и не нужно. Но вот книга… да ещё для тех, кто любит книги… разве можно назвать получившуюся косую дрянь с полосами, пятнами, чёрными точками, с разорванным шрифтом книгой? Где же зарыта собака? Какую опцию надо выставить, какой рычажок покрутить, чтобы всё это стало похоже на оригинал?

В том-то и дело что нет такого одного рычажка. Есть четырёхступенчатый процесс, каждая ступень которого требует некоторых оптимальных решений от оператора. Пакет программ для сканера, работающий по типу «одним махом всех побивахом», скрывает этот четырёхступенчатый процесс, делая из него одну операцию: бумажный лист → электронный эквивалент. Но о том что на самом деле происходит что-то сложное, всё же можно догадаться. Например, сканер уже закончил сканировать, а компьютер ещё не готов продолжать; на нём открываются и закрываются какие-то программы; мигает лампочка доступа к жёсткому диску… Чтобы отсканировать книгу качественно, надо самому пройтись по ступеням этого процесса: сканирование, чистка, перевод в нужный формат и распознавание текста (OCR).

1. СКАНИРОВАНИЕ

Задача этой ступени перевести бумажные страницы книги в соответствующие им файлы в формате TIFF с разрешением как минимум 300 dpi. Это разрешение достаточно для книжного текста обычного («читабельного») размера. Мелкий шрифт или желание передать мелкие детали иллюстраций может потребовать большего разрешения. Покопайтесь в настройках своего сканера. На выходе, вам нужно получить графические файлы, в формате TIFF. Один лист — один файл. И никаких многостраничных TIFF-ов (где в одном TIFF файле несколько страниц)! Никаких PDF-ов! Никаких OCR-ов (распознаваний текста)!

На этой ступени также нужно принять решение о сканировании книге в цвете (color) или в оттенках серого (grayscale). Обычно не рекомендуется сканировать книгу в строго чёрно-белом варианте (b&w), даже если книга чёрно-белая, так как сканер должен будет тогда решать что делать чёрным, а что белым. Скажем, изгиб на странице может быть передан чёрным и создаст чёрные полосы и пятна, а ещё того хуже, эти пятна закроют чёрный же текст. Вычистить потом такое «чёрное на чёрном» невозможно. Если же пятно (полоса, другой дефект) серого (или другого, при цветном сканировании) цвета, а текст чёрного (отличного от дефекта) цвета, то дефект можно будет убрать на стадии чистки путём удаления из изображения цвета пятна. Поэтому книжки с пожелтевшими страницами хорошо сканировать в цвете, чтобы иметь возможность убрать жёлтый цвет из получившегося скана. Бывает также, строго чёрно-белое сканирование утоньшает и разрывает линии и шрифт (то есть когда буква, скажем, «d» выглядит как «cl»). Поэтому, для качественного сканирования, не стоит сканировать в строго чёрно-белом варианте (b&w). Никто не запрещает перевести страницу в чёрно-белое изображение потом, когда изображение почищено, если такой перевод нужен. Как мы увидим, для технологии ClearScan такой перевод не требуется: ClearScan прекрасно работает с текстом в оттенках серого и с большим разрешением.

Для моего листового сканера, сканирование начинается с отрезания обложки. Обычный кухонный нож с коротким лезвием и удобной ручкой вполне подойдёт. Для мягкой обложки, нож просовывается между обложкой и первой страницей (при закрытой обложке) и обложка отрезается. Если у книги твёрдая обложка, то при открытой обложке из неё вырезается сама книга. Страницы потом либо отрываются по одной, либо отрезаются. Рваные края потом можно будет удалить с помощью программы на стадии чистки. Главное, чтобы рваные края не залезали на текст.

Пишу эти строки, а в голове звучит стихотворение Маршака:

У Скворцова Гришки
Жили-были книжки —
Грязные, лохматые,
Рваные, горбатые…

У меня есть книжки, ещё из детства, которые я люблю и не буду резать. Но часто приходится сканировать пособия, часто компьютерные, часто толстые, и макулатура — лучшее место для них. И времени своего на сканирование «на стекле» жаль тратить.

Ещё раз о базовых настройках сканера. Разрешение — 300 dpi или больше, цветовой режим «оттенки серого» (grayscale) или «цветной» (color). Формат файла — TIFF. Измерив страницу книги в миллиметрах, можно задать длину и ширину. Конечно, «на стекле» это можно сделать лишь приблизительно, так как точно положить книгу на стекло невозможно. А листовой сканер будет засасывать листы с ровной стороны (либо сверху/снизу либо, если сбоку, надо положить ровной стороной) и тут всё будет точно вплоть до миллиметра. На своём листовом сканере я, последнее время, из-за врождённой лени, выбираю опцию «улучшить текст» (text enhancement), которая «ужирняет» и «учерняет» текст и портит цветные иллюстрации (сгущает краски) и опцию «выравнять изображения» (deskew) так как ровные листы легче потом обработать. Но можно вообще никаких других опций кроме dpi и цвета не выбирать, и оставить всё остальное на стадию чистки.

2. ЧИСТКА

Задача этой ступени — получить на выходе файлы с чистыми, красивыми страницами в том же формате TIFF и в том же количестве. Это «набор» будущей электронной книги. Нечего и говорить, что обрабатывать нужно все (вернее почти все) изображения по группам, т. е. в «пакетном режиме» (batch processing). Кроме обложек и некоторых других неординарных страниц, возиться с каждым изображением страницы отдельно в графическом редакторе практически невозможно (представьте 700 страниц текста!) да и не нужно.

Для чистки, я раньше пользовался программой ScanKromsator v5.9. Её можно найти в интернете.

Ссылки на описание этой программы:

ru.wikipedia.org/wiki/ScanKromsator
www.djvu-soft.narod.ru/kromsator/
www.twirpx.com/file/394016/

Программа, особенно для начинающего, сложная из-за непривычного интерфейса, большого количества опций и плохой документации. Не всегда понятно какой же результат будет в конце. Последнее время, я пользуюсь комбинацией программ Photoshop и Scan Tailor. Scan Tailor не пытается быть графическим редактором как ScanKromsator, но из-за этого им проще пользоваться. Объединив же возможности программ Photoshop и Scan Tailor, набирается внушительный инструментарий для выправления сырых сканов. Документация к Scan Tailor есть здесь:

sourceforge.net/apps/mediawiki/scantailor/index.php?title=Main_Page

Какая бы программа не использовалась, нужно

убрать наклон страниц (deskew)
отрезать неровные края
выравнять освещённость (убрать тени от неравномерной освещённости)
убрать точки и другой мусор (despeckle)
отдельно проверить/выправить иллюстрации (включая обложку)

Можно поправить такие дефекты на станицах как заметки на полях (если конечно, нет цели их сохранить), стереть карандашные линии, подчёркивающие текст (будут мешать программе OCR, которая примет их за графику), убрать полосы, пятна, а иногда и задний фон. Я однажды сканировал книжку с синими буквами на голубом фоне; фон вышел безобразно, и я его просто убрал, т. е. поменял на белый, благо он был чуть светлее текста и от него можно было избавиться, убрав его цвета.

Из вышесказанного ясно, что чистка — это самая технически сложная ступень. Если вы не работали раньше с графическими редакторами, то нечего и думать сделать всё с первого раза на сто процентов. Не отчаиваетесь! Даже чуть облагороженный файл — это шаг вперёд на пути к лучше отсканированной книге! В другой раз будет ещё лучше. А потом, русские просто обожают чистку! К сожалению, мы даже любим вычищать наше собственное население. Или, как говорят теперь, «зачищать». Было вычищено столько народу, что если б от этого действительно зависело продвижение на пути в рай, мы давно жили б в раю. Как тут не вспомнить Сергея Мироновича Кирова:

«ЧК-ГПУ — это орган, призванный карать, а если попросту изобразить это дело, — не только карать, а карать по-настоящему, чтобы на том свете был заметен прирост населения, благодаря деятельности нашего ГПУ.»

На том свете, стало быть прибыло, а на этом убыло. Но они ж все плохие были, те которые убыли… чего их не расстрелять за плохоту? Простите за отступление, просто в нашем стремлении к крайностям мы иногда вычищаем самих себя. Потом удивляемся: «почему у нас режим авторитарный?» Потому что хочется быстрых, кардинальных, простых решений для сложных проблем. Посмотрите сколько людей мыслят в русле «да взять их всех да и [способ вычищения]», и вы согласитесь что никакого другого режима, кроме авторитарного, т. е. который способен «всех взять за … и …» нам не светит.

3. ПЕРЕВОД В КОНЕЧНЫЙ ФОРМАТ

Итак… переводим книгу в нужный формат. Я здесь рассматриваю только формат PDF как единственно простое, быстрое, кардинальное решение «форматного вопроса»… стойте. Где-то я уже это говорил. Ах, да. Ну, хорошо, есть много форматов в которые можно перевести книгу, в том числе «текстовые», то есть такие где распознанный текст отделяется от книги и публикуется без неё. Программа по распознаванию текста ошибается, и такому отделённому тексту нужна хорошая вычитка. Но нравится вам вычитывать книгу — вычитывайте. Только уж вычитывайте как следует, а то скачаешь с интернета книжку в текстовом формате — там опечаток море.

Я же объясню как сделать книгу в PDF, причём используя технологию ClearScan. ClearScan — передовая технология. Если сам по себе формат PDF не идеален для хранения отсканированного текста (получается либо большого размера файл, либо, если сжать побольше, некачественное изображение) то при применении ClearScan, этот формат приближается к идеальному.

На самом деле, принципиальных вариантов что делать с отсканированной книгой не так много. Можно просто оставить её в TIFF файлах. Кстати, эти файлы можно оставить в любом случае. Как уже было сказано, TIFF файлы — «набор» книги. Из них потом можно лепить другие форматы. Мне лень их хранить, но потом не раз я покусал локотки из-за того что оригиналов уже не было. Однако, TIFF файлы не удобны для обмена. Они занимают много места, и смотреть их надо в графическом редакторе. Можно перевести TIFF файлы в формат JPEG, так они займут меньше места. Но формат JPEG не лучший вариант для чёрно-белого текста, особенно когда его несколько сот страниц.

Можно перевести книгу в текстовой или смешанный формат: TXT, RTF, DOC наконец, или в HTML-ные и XML-ные EPUB и FB2. Но это — отделить текст и переиздать книжку заново. И возможно, потерять всё или часть оформления книжки при переиздании. Нужно ли это, если книжка уже издана? Конечно, решать вам. Если оформления немного, то можно и переиздать. А если много и его хочется сохранить? Да и просто не хочется терять время на переиздание? Тогда остаётся либо «хлопнуть» книгу в DJVU, либо в PDF (кто-то «хлопает» и в PowerPoint, но это уж, простите, «ваще»).

В теории, до появления технологии ClearScan, формат DJVU больше подходил для отсканированных книг чем PDF, так как файлы получались меньше. Но на практике, PDF куда более распространён (это факт), а программы позволяющие читать PDF куда более привлекательны (это моё мнение) чем-то что создано для DJVU, что для меня выбор был ясен даже до появления технологии ClearScan. А теперь-то уж…

Суть технологии ClearScan состоит в замене изображений букв на стадии OCR на настоящий шрифт. Этот шрифт не является каким-либо готовым (системным) шрифтом более-менее похожим на оригинальный шрифт, а специальным шрифтом изготавливаемым программой Acrobat «на лету» под конкретную букву текста.

В результате, вместо страницы книги в графическом формате, появляется страница с (почти) настоящим текстом, по форме (почти) таким же как и оригинальный.

Ссылка на статью на английском языке о технологии ClearScan:

blogs.adobe.com/acrolaw/2009/05/better_pdf_ocr_clearscan_is_smal/

Как сказано в этой статье и проверенно на практике, самые лучшие результаты получаются при высоком разрешении оригинала (600dpi) и отсутствии на оригинале побочных помех (мусора, артефактов).

Где же взять Adobe Acrobat 9.0 и выше? В голове тут же начинает крутиться одно [нехорошее слово]. Но зачем мне учить вас нехорошим словам? Вы их знаете и без меня. Поэтому, как экзотический альтернативный способ, я придумал зайти на какой-нибудь аукцион, скажем E-bay, набрать adobe acrobat 9 pro и посмотреть можно ли получить то что хочется по разумной цене. Допустим — можно. И Acrobat у вас.

Запустив Acrobat, выбираем все TIFF-ы получившиеся после чистки. Для этого жмём на File → Combine → Merge Files into a Single PDF. Открывается окошко в котором мы справа вверху выбираем опцию Single PDF (она скорей всего и так выбрана). Нажимаем Add Files → Add Files и добавляем все TIFF-ы. Чтобы добавить все файлы сразу, нажимаем мышкой на первый файл, потом держим клавишу Shift и нажимаем на последний файл. Нажимаем Combine Files и терпеливо ждём результата — одного файла в формате PDF.

4. OCR С ОПЦИЕЙ CLEARSCAN

Это самая простая для нас ступень. Bo-первых, распознать текст (OCR) нужно для того, чтобы заменить изображения букв на шрифт (ClearScan). Во-вторых, если текст распознан, появляется возможность поиска по ключевым словам. Это удобно в учебниках, справочниках, да возможно и в художественной литературе. OCR не работает на сто процентов, и распознаёт текст не совсем верно. Но нам-то этого и не нужно. Мы не собираемся отделить этот распознанный текст от книги и опубликовать только его — это дело тех, кто выбрал текстовой формат. Аккуратность нам нужна только для поиска по ключевым словам, а для этой цели аккуратности OCR обычно хватает. Представьте себе какой-нибудь раздел в учебнике. Скажем, про постоянный ток. Сначала пойдёт заглавие — «постоянный ток». Потом определение постоянного тока. Потом свойства постоянного тока. Комбинация слов «постоянный ток» встретится в этом разделе много раз, и даже если OCR ошибётся однажды, второй случай употребления не останется незамеченным, и ваш поиск по ключевым словам «постоянный ток» приведёт в нужный раздел.

Что ж, запускаем OCR в том же Adobe Acrobat. Для этого делаем Document → OCR Text Recognition → Recognize Text Using OCR и в открывшимся окне нажимаем Edit в разделе Settings. Выбираем

Primary OCR Language — надо указать основной язык документа
PDF Output Style — ставим ClearScan
Downsample Images — обычно можно Low (300dpi)

Эта последняя настройка отвечает за заключительное разрешение нераспознанных изображений. Допустим, что вы отсканировали книгу в 600 dpi чтобы текст после ClearScan выглядел наилучшим образом. Но у вас в книге есть не только текст, но и иллюстрации. Они тоже оказались отсканированы в 600 dpi. Допустим также, что вы не хотите такого высокого разрешения для иллюстраций, так как вашим конкретным иллюстрациям это не нужно, а места при разрешении 600 dpi они будут занимать много. Выставив настройку Downsample Images, у вас есть возможность понизить разрешение иллюстраций в документе.

Ждём ещё терпеливей прежнего, а лучше идём отдыхать. На выходе получается искомый PDF. Найдите в нём какую-нибудь буковку и начните увеличивать. Эта буковка должна оставаться чёткой при любом увеличении.

Готово. Не забываем сохранить файл.

И вот что ещё… Не надо дожимать-пережимать этот файл в Acrobat-е ради экономии места на диске. Я даже не буду рассказывать как это сделать. Не надо портить качество файла, да и на мобильных устройствах, где процессор послабее, и программа для просматривания PDF не такая умная, смотреть такую пережатую книжку — мученье.

Попробуйте закинуть вашу книжку на мобильное устройство — для меня это будет iPad с читалкой iBooks. Как хорошо она выглядит! Как быстро можно листать страницы! Есть поиск по ключевым словам! Студенты! Отсканируйте свои учебники! Мамы и папы! Пожалуйста, отсканируйте хорошие детские книжки с картинками!

И, не забудьте выложить их в электронной библиотеке.

написал товарищ Кузнецов, Иван Иванович,
со слов товарища Петрова Филиппа Фёдоровича,
который услышал всё это от серой мышки.
2012 — 2014 г.

Бизнес на сканировании и оцифровке книг Бизнес идея. Сканирование книг

На сегодняшний день, во время всеобщей компьютеризации и развития  большой популярностью пользуются электронные книги. В связи с этим услуга по сканированию и оцифровке книг является достаточно востребованной. Такая услуга заключается в переводе информации с бумажного носителя в электронный (цифровой) вид.  Электронные книги позволяют получить пользователям доступ к редким книгам, оригиналы которых хранятся в музеях и частных коллекциях. Кроме того, в таком продукте заинтересованы библиотеки, архивные фонды, школы, университеты. Поэтому организация компании, специализирующейся на оцифровке бумажных книг является отличной идеей бизнеса.  На сегодняшний день существуют два подхода к оцифровке книг. Первый заключается в фотографировании или сканировании книг и получение цифровых копий страниц, их последующей обработке и сохранении в формате графических файлов. При этом подходе остается оригинальная верстка книги, исключаются ошибки, возникающие при обработке первоисточника. Однако главным недостатком является невозможность поиска определенных фрагментов текста и его извлечения. Второй подход, опционный, заключается в распознавании текста и сохранении его в формате электронной книги. В этом случае возможен поиск по тексту и индексация больших массивов книг.  В последние годы приобрел популярность метод, совмещающий преимущества вышеописанных методов. В этом случае распознавание осуществляется автоматически, после чего текст подкладывают под оригинальные растровые изображения текстовых страниц.  Для работы понадобится персональный компьютер, сканер для сканирования книг и специальное программное обеспечение. Программа для сканирования книг, например, «DjVu Solo» позволяет распознавать отсканированный текст в автоматическом режиме. Данная программа проста в работе, научиться работать с данным приложением можно, используя различныеИнтернет-ресурсы, на которых даны подробные советы.  Чтобы оптимизировать работу лучше всего приобрести узкоспециализированные книжные сканеры, которые позволяют получить растровые копии быстрым и удобным способом. Чтобы оптимизировать рабочий процесс следует знать особенности сканеров.  Сканеры бывают трех видов: планшетные, планетарные и роботизированные. Планшетные сканеры ориентированы на домашнее использование, однако, они пригодны для сканирования именно книг. Планетарные и роботизированные сканеры являются профессиональными, характеризуются высокой производительностью.  Эти два типа сканеров оснащены расположенной над сканируемым источником цифровой камерой с высоким разрешением. Также такой сканер может быть оснащен двумя камерами для получения снимка всего разворота книги, что особо важно при сканировании старых, ветхих книг.  Рекламировать свой бизнес необходимо различными способами не только в Интернете, но и с помощью объявлений в газетах, расклейки их по городу. Также свои услуги можно предлагать непосредственно заведующему библиотекой.  Подобные услуги по сканированию востребованы и со стороны правоохранительных органов. Например, в милиции и прокуратуре хранятся документы еще прошлого века, которые необходимо переводить в электронный вид.

Заработок на оцифровке книг

Данная идея подойдет абсолютно каждому человеку, желающему начать зарабатывать в интернете и даже создать собственный бизнес. Имеется в виду сканирование книг, документов, фотографий и других материалов, чтобы впоследствии перевести их в цифровые копии. Вы спросите, для чего это нужно, ведь сейчас в интернете и так полно различной информации, которую можно найти и скачать бесплатно, или купить. Но это в большей мере касается художественной литературы и современных справочников, а вот, например техническую литературу, изданную десятки лет назад, найти в интернете очень сложно, тем более в бесплатном доступе. Многим профессионалам инженерных специальностей, студентам и преподавателям хотелось бы иметь богатую электронную библиотеку, в которой бы находился любой необходимый им учебник, справочник и другая техническая литература. Что необходимо для старта? Для организации бизнеса по оцифровке бумажных изданий, вам не придется искать много денег. Необходимо иметь лишь компьютер и сканер, а такая техника имеется в доме практически каждого человека. Конечно, для ускорения процесса оцифровки, со временем можно приобрести хороший скоростной сканер. Хотелось бы вспомнить изобретение компании Google – сканер, который обрабатывает около одной тысячи страниц текста всего за полчаса. Уникальность этого устройства имеется в том, что после сканирования, книги сохраняют свой первоначальный вид. А вот японское оборудование в процессе работы разрезает книги на части, после чего их остается только выбросить. Работа с клиентами. Вам необходимо создать собственный сайт, на котором потенциальные заказчики смогут ознакомиться с условиями вашей работы, стоимостью сканирования книг и подать заявку на заказ услуги. Иногородние клиенты будут отправлять вам книги, которые нужно переснять, по почте, поэтому на своем сайте вы должны также указать адрес доставки. Решите для себя, будет ли доставка книг оплачиваться отдельно или это войдет в стоимость услуги. Предложите несколько удобных способ оплаты, чтобы клиент мог выбрать наиболее подходящий для себя: банковский перевод, Webmoney, наличными и т.д. Спрашивайте также клиентов, в каком формате им нужен оцифрованный текст – PDF, DOC, TXT или другой. Работа.

Определение оцифровки, причем, только бумажных книг, не совсем точное определение. Процесс предполагает носитель в качестве источника, а им не всегда является только бумага. В современном мире существует несколько типов носителей информации — бумажные книги, экран компьютера, графические файлы, сайты, мультимедийные издания и так далее.

Более точное определение процесса «оцифровки книг» — это создание или использование готовой графической копии страницы в одном из соответствующих форматов (например, TIFF, JPG, PDF, DJVU, PNG) с последующим (не всегда обязательным) распознаванием текста и перевод результата в электронную форму для дальнейшего копирования, тиражирования, хранения и в том числе перевод первичной копии в другие цифровые форматы необходимого для использования типа.

Самый популярный способ оцифровки — перевод растрового изображения в цифровой формат книг. Среди форматов могут быть графические — PDF, DJVU, форматы для комиксов — CBZ, CBR, текстовые — TXT, FB2, EPUB, PDF, HTML, DOC и так далее. Как правило, графические форматы не являются масштабируемыми. Они сохраняют пропорции и размер исходной страницы вместе с содержимым. В них и довольно часто, для компактности сокращают пустые поля страницы, чтобы текстовое окно, как образ книги, лучше вписывалось в экраны мобильных устройств.

Оцифровка книг — это еще один возможный источник получения электронного контента для чтения.

На историческом этапе оцифровка книг применяется для различных целей. От личного использования до профессиональных нужд. Как хобби и вид заработка. Для наполнения библиотек и магазинов контентом. Довольно закономерное правило — чем больше контента продается или распространяется бесплатно, тем меньше используется оцифровка для создания электронного контента. Этот вид деятельности переходит в узкоспециализированное русло для увлеченных людей и профессионалов. В то же время, наполнение библиотек происходит путем обмена, а не создания новых цифровых копий.

Магазины и музейные архивы активно оцифровывают книги по нескольким причинам, основной из которых является недоступность цифровой копии у правообладателя, ограниченное количество или старинные книги, исходный материал создавался не цифровым набором.

Владельцы копий узкоспециализированной литературы не стремятся создавать для массового потребителя контент, источником которого являются редкие книги. В этом случае цифровая копия создается для изучения книг без ущерба для первичного носителя, не только со стороны читателя, но и для исключения воздействия воздуха, света, различных газов, паразитов и так далее. Редкие цифровые копии книг и рукописей чаще всего находятся в рамках исторических архивов и библиотек.

Электронные книги, как файлы, создаются несколькими способами: прямая цифровая копия из подготовленной профессиональной или иной верстки, а также оцифровка бумажной книги или другого источника в электронную форму. Устаревшей формой оцифровки можно признать ручной набор текста и диктант.

Не всегда и везде оцифрованная книга должна и может содержать текст, который можно впоследствии масштабировать и даже редактировать, в том числе применять конвертацию в другие текстовые форматы электронных книг. Оцифрованные книги могут быть факсимильной копией, то есть графически точно отражать копию бумажной страницы.

Текстовые книги получаются с помощью распознавания текста. Применяется метод OCR (анг. optical character recognition) — оптическое распознавание символов. Страницы книги предварительно сканируются в графический формат, и впоследствии текст распознается с помощью специального программного обеспечения. Точность распознавания зависит от качества шрифта, контраста текста, наличия дефектов и графических иллюстраций. Финальное качество, в большинстве случаев, контролируется корректорами, которые сверяют текст между первоисточником и цифровой копией.

(Довольно много разногласий между специалистами OCR вызывает необходимость или возможность сохранения опечаток в цифровой копии, которые имели место в бумажной книге).

Подготовленная цифровая книга трансформируется в один из текстовых форматов. Впоследствии можно преобразовать готовую книгу в другие популярные форматы, с возможной потерей верстки, так как не все из них поддерживают совместимый набор разметки текста и иллюстраций. Первично выбранный формат зависит от предпочтений оцифровщика и использования технологической цепочки для последующей трансформации. Чаще выбирают форматы с развитой структурой разметки.

Графические книги создаются за счет точного образа страницы или факсимильной копии с помощью оптического прибора, чаще с помощью сканера, реже с помощью фотоаппарата. Метод выбирается за счет определения скорости преобразования, и вероятного вреда, который может быть нанесен первоисточнику внешним освещением, нагревом или физическими изломами оригинала.

Каждая страница отсканированного материала — это графический файл JPEG, TIFF или любой другой, в том числе контейнеры, которыми могут быть PDF и DJVU. Выбор формата зависит от дальнейшего преобразования множества файлов в один документ или наоборот, когда из одного файла создается множество промежуточных файлов, для координации профессиональной обработки.

Сканеры существуют нескольких типов — отличаются скоростью работы, встроенными средствами распознавания, конструкцией и конечно размерами. Немаловажная разница заключается в цене решения при эксплуатации того или иного типа сканера и сложности управления процессом.

Малораспространенный тип — это ручные компактные сканеры, которые не точны, имеют небольшую скорость работы, за один раз охватывают небольшую зону изображения и не имеют встроенных механизмов автоматизации процесса. Но за счет низкой стоимости, малого веса и компактности — применяются до сих пор. Удобны для отдельных рукописей и страниц.

Другие типы сканеров являются стационарными приборами. Они подразделяются на типовые, специализированные и профессиональные.

Типовые сканеры, они же массовый продукт, который существует в продаже, имеют компактные формы, тратят в рабочем режиме на одну страницу несколько секунд или минут. Точность и качество цифровой копии зависит в основном от качества прилегания исходной страницы на поверхности сканера. Для отдельных листов, существуют автоматические лотки для подачи бумаги, что увеличивает скорость работы сканера, так как фактически не тратится время на смену листов первоисточника или оно крайне мало.

«Специализированные» сканеры отличаются от «типовых» возможностью создания бестеневой копии с оригинала и они не всегда сканеры в привычном понимании. Позволяют «сканирование листа в край» даже для книг с корешком. Иногда имеют встроенное программное обеспечение для сбора отдельных копий в единый документ, хотя производители чаще прикладывают в комплекте со сканером программное обеспечение для PC и Mac. Такая работа более наглядна, происходит на большом экране компьютера.

Чаще всего, специализированные сканеры называют «книжными». Они относятся к планшетному типу. Наиболее доступными по цене и популярными среди потребителей можно признать продукцию компании Plustek. Модель OpticBook A300 позволяет сканировать не только в край, но и вплоть до A3 формата листа оригинала.

Профессиональные сканеры имеют большие габариты, скорость работы и отличаются методом сканирования.

«Планетарные сканеры» — это скорее оптическая копия с помощью одной или нескольких фотокамер. Называются так из-за расположения камеры, как спутника над планетой, которой является сканируемый оригинал. Некоторые модели сканеров могут использовать две камеры, чтобы одновременно делать копию разворота страниц.

Компания Atiz выпускает популярную серию сканеров BookDrive, которые похожи скорее на небольшую фотостудию. Отличаются размером основной площадки, на которую помещается оригинал. Можно оцифровать газету или книгу, которые располагаются на основе под углом 90° между листами, а камеры направлены перпендикулярно в сторону каждого раскрытого листа, чтобы сохранить геометрию страницы без искажений.

Серия планетарных сканеров Microbox book2net от компании Xerox имеют одну площадку, где издание одним листом располагается на основании, а оптический прибор фотографирует только одну страницу или разворот, при том, что он должен быть максимально плоским, чтобы избежать теней на корешке.

Роботизированные сканеры имеют крупные габариты, обычно это готовый набор в шкафу, в котором есть все необходимое для автоматического сканирования целого издания — свет, оптический сканер, система для перелистывания страниц, компьютер для управления и узкоспециализированные сервисные функции. Сканируемое издание располагается под меньшим углом. Для увеличения производительности производится съемка сразу двух страниц разворота.

Компания Treventus уже несколько лет выпускает роботизированные сканеры ScanRobot, которые за короткое время могут оцифровать целые библиотеки при минимальном участии человека. Лицевая часть сканера может закрываться во время работы, чтобы исключить паразитную засветку от внешних источников света.

Планетарные и роботизированные сканеры работают с производительностью от 500 страниц в час, а лучшие модели способны сканировать на скорости до 3000 страниц в час.

После сканирования изображения с оригинальной страницы необходимо распознать текст и иллюстрации. Для этой цели понадобится специальное программное обеспечение, способное оптически и логически распознавать объекты в изображении. Сложность распознавания заключается в форме букв оригинала, контрастности изображения, наличия цветовых подложек, рисунков или сложной структуры верстки. В момент распознавания происходят типовые проблемы и ошибки для конкретного оборудования и программного обеспечения, которые специалист по OCR попытается компенсировать с помощью скриптов и проверки орфографии.

Скрипты, обычно, это самодельная надстройка для исправления ошибок. Именно подобное отношение отличает разных специалистов по качеству распознавания текста. Скрипты создают специалисты OCR для личного использования, и они актуальны только для личного метода распознавания текста и используемого оборудования. Подчистка текста нужна не только для исправления вероятных грамматических ошибок, но и для задания тексту базовой типографики.

Для автоматизации первичной очистки текста, можно рекомендовать программу OCR Pad от Валерия Войцеховского.

Компьютерными технологиями не ограничивается точность распознавания. Очень важную роль играют корректоры, которые считывают текст и сверяют его с оригиналом. Это очень важно, особенно для технической литературы.

Для ускорения процесса редактирования текста используется «распределенный метод» — части документа распределяются между группой корректоров. Этот способ позволяет вычитать книгу полностью за несколько минут, но не всем под силу организация такого процесса. Обычно используется веб интерфейс, без необходимости устанавливать дополнительное программное обеспечение на множество компьютеров.

Для вычитки текста не обязательны профессиональные лингвисты. Обычно этим занимаются люди, наделенные вниманием и наблюдательностью. Важна не столько грамотность, сколько умение сравнивать печатный и электронный текст. Замечать разницу в технических опечатках, разницу между буквами и цифрами.

Художественная литература может считываться только для поиска орфографических ошибок.

В «OCR мастерских» небольшого размера «работают» парами. Обычно специалист по OCR является организатором процесса и сотрудничает с одним или группой корректоров. Группа существует на особом сочетании характеров и возможностей. При переходе к другому типу распространения готовых электронных книг, «мастерская» может распадаться, часть группы придерживается идеологических взглядов на свою деятельность.

В момент зарождения электронных книг, OCR-щики первыми протоптали дорожку для читателей к бесплатным библиотекам и собрали для них контент. Если библиотеки известны массовому читателю, то наполняли эти библиотеки не магазинные копии книг, а частные коллекции OCR.

Среди специалистов по распознаванию текста есть профессиональные объединения, свой кодекс, честь и прочее. Самой известной в отечественной истории была OCR-группа Вадима Ершова, которая располагалась по адресу publ.lib.ru и работала изначально только для библиотеки Мошкова, других просто не существовало. Впоследствии форум группы Ершова стал местом сбора и общения профессионалов в области OCR.

Время идет. Меняются приоритеты, интересы и источники оцифровки книг. Интерес к книжному распознаванию стал меньше и перешел в профессиональное русло. Доля собственной оцифровки в бесплатных библиотеках значительно ниже доли простого копирования готового материала. Поэтому, если кого-то интересует собственная оцифровка, то обычно это редкие и детские книги.

В последнее время часто оцифровывают с экрана компьютера, без использования сканера для бумажных книг. Таких любителей не много и пока это работает как «спортивный интерес» по взлому защищенных цифровых изданий.

Обычный читатель может самостоятельно оцифровать книгу, читать и вычитывать ее в электронном виде. Частной заинтересованности в этом мало, слишком трудоемко. Интерес быстро перерастает в «желание поделиться» оцифрованной книгой со всеми в Интернет. Так рождаются потоки новых книг и мелкие частные библиотеки. Хобби становится профессиональным занятием.

  Оцифровка книг http://www.the-ebook.org/?p=17526

 

Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовыватьэлектронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно оцифрованные книги сохраняют в форматах: DjVu, Portable Document Format (PDF), JPG или TIFF. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой, как ASCII, или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом. Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Люди обычно проверяют отсканированное изображение на наличие ошибок.

Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час, такие устройства могут стоить тысячи долларов. Но можно сделать сканер и самому, например, ручные книжные сканеры, способные оцифровывать около 1200 страниц в час, а стоимость построения — около 300 долларов.

Отправить ответ

avatar
  Подписаться  
Уведомление о