Список форумов |  Добавить сообщение |  Правила |  14.09.2025, воскресенье, 16:35:56
СПИСОК ФОРУМОВ
14.09.2025
12:58 Главная гостевая книга библиотеки(5883)
13.09.2025
21:24 Обо всем - мнения(3150)
12.09.2025
14:57 "Разыскиваются книжки", доска объявлений(15509)
06.09.2025
15:23 "Разыскивается песня", доска объявлений(5441)
02.09.2025
10:11 Проблемы OCR и электронных библиотек(1973)
16.08.2025
07:39 Книжки, которые скоро будут выложены(56)
02.05.2025
21:25 О возвышенной поэзии(1593)
24.02.2025
13:09 Книжки, которые стоит прочитать(5230)
13:05 Водный и всякий туризм(87)
22.02.2025
06:11 Русские впечатления о заграничной жизни(9443)
05:34 Мнения читателей о дизайне библиотеки(1479)
Lib.Ru

Проблемы OCR и электронных библиотек
Тема форума: В этом форуме обсуждаются общие проблемы связанные с поддержкой электронных библиотек и сканированием книг.

А так же обсуждение статьи Вадима Ершова "О коллективных сайтах"

Отсортировано по [убыванию] [возрастанию]   

СООБЩЕНИЯ ЗА 09.11.2002
13. Максим Мошков, 14:53:33 [ответить]
      > 11. Григорий.
      > Нереально сканировать сканером с автоподачей
     
      Очень даже реально. У Леона такой, с автоподачей - он хвастался - книжка в мягкой обложке - за 23 минуты.
     
      > Вопрос цены. Стоимость хорошего промышленного сканера заоблачна во всех смыслах.
     
      Не заоблачна. Всего 20-30 тысяч долларов.
      Хотя, конечно, это побольше, чем 100$ за обычный планшетник.


12. Максим Мошков, 14:48:35 [ответить]
      Лучший сканер для OCR книг - HP ScanJet II - чернобелый, 300dpi, со SCSI-интерфейсом. Я один такой покупал за 30$. Увы, на 500-й книжке он скончался.
     
      Главное, на что надо смотреть - максимальная скорость прохода, ускоренный обратный ход (чтоб назад каретка двигалась быстрее, чем при сканировании), возможность отключить автоподбор яркости (отнимает много времени на каждой странице) и чтобы ФИнеРеадер знал эту модель и мог работать с ней сам, не вызывая твейн-интерфейс. И обязательно SCSI - перекачка kartinki через USB и _особенно_ через LPT - существенно дольше, чем по SCSI.
     
      HP ScanJet II сканировал со скоростью 4 разворота в минуту - т.е. 500-страничная книжка за час-полтора.
      Фидер не нужен, потому что собственно скорость сканирования - 1-2 часа, по сравнению с остальными затратами времени (2-4 часа на полуавтоматический спеллчек и корректуру, и 12 часов на вычитку) - непринципиальны.
     
      Конкретные удовлетворительные модели народ, надеюсь, назовет.


11. Григорий, 14:23:20 [ответить]
      > 10. Thick-as-a-brick.
      > Уже давно хотел бы заняться сканированием книг, особенно на инстранных языках, которые по понятным причинам очень трудно найти в инете, но не заню
      >
      > КАКОЙ СКАНЕР ВЫБРАТЬ.
      >
      > Сканировать планшетным сканером - нереально, имхо.
      Очень даже реально. Тысячи метров текста пересканированы именно планшетными сканерами. Да весь lib.ru отсканирован планшетными. Нереально сканировать сканером с автоподачей, как вы предлагаете. Вопрос цены. Стоимость хорошего промышленного сканера заоблачна во всех смыслах.
     
      >
      > Какие есть мнения?


СООБЩЕНИЯ ЗА 05.11.2002
10. Thick-as-a-brick, (toomanyfaces@mail.ru) 21:36:14 [ответить]
      Уже давно хотел бы заняться сканированием книг, особенно на инстранных языках, которые по понятным причинам очень трудно найти в инете, но не заню
     
      КАКОЙ СКАНЕР ВЫБРАТЬ.
     
      Сканировать планшетным сканером - нереально, имхо. Я бы хотел купить какой-то сканер с фидером и при помощи его сканировать книжки в мягкой обложке предварительно распотрошив их на отдельные страницы.
     
      Или м.б. есть принтеры со сканирующей головкой, способные читать из пачки страниц.
     
      Какие есть мнения?


СООБЩЕНИЯ ЗА 02.11.2002
9. V.Voblin, 18:43:13 [ответить]
      Замечательные новые тексты:
     
      Сергеев-Ценский, Айрис Мэрдок, Болеслав Прус, Юрий Герман - чудесно!
     
      Спасибо Максиму, спасибо героям OCR-a Zmiy & HarryFan!!!


СООБЩЕНИЯ ЗА 01.11.2002
8. Remnanta, Одесса (remnanta@ukr.net) 21:24:57 [ответить]
      Ваша librari - просто чудо!!!
      Но наладте "поиск".Пожалуста!!!!!!!!!!!!!!!!


СООБЩЕНИЯ ЗА 28.10.2002
7. bmn, 08:53:05 [ответить]
      > 6. В.Воблин.
      > Спасибо за ответ.
      Да, пожалуйста :))
      >
      > Хочу тоже попробовать. ПОдскажите, пожалуйста, о каких декоративных шрифтах идёт речь. Может, даже есть картинка в онлайне, на которой можно "прокатать" FR с целью воспроизвести Вашу ситуацию. Спасибо заранее.
     
      Шрифт, по моему, назывался Bodoni Gothic (сейчас уже точно не помню), и сканов уже не осталось. Но FR без обучения распознал кнгу набранную полностью таким шрифтом.


СООБЩЕНИЯ ЗА 27.10.2002
6. В.Воблин, (vvoblin@hotmail.com) 11:35:44 [ответить]
      > 5. bmn.
     
      Спасибо за ответ.
     
      > > У ФайнРидера вроде есть механизм распознавания шрифтов и даже возможность обучения новому шрифту.
      > У меня FR5.0 без обучения нормально распознает декоративные шрифты.
     
      Хочу тоже попробовать. ПОдскажите, пожалуйста, о каких декоративных шрифтах идёт речь. Может, даже есть картинка в онлайне, на которой можно "прокатать" FR с целью воспроизвести Вашу ситуацию. Спасибо заранее.


СООБЩЕНИЯ ЗА 23.10.2002
5. bmn, 08:25:48 [ответить]
      > 4. V.Voblin.
     
     
      > У ФайнРидера вроде есть механизм распознавания шрифтов и даже возможность обучения новому шрифту.
      У меня FR5.0 без обучения нормально распознает декоративные шрифты. Тк что у тебя, скорее всего, проблема с FR.
     
      > Вдобавок - даже если и делаешь эту работу - после OCR исчезает особость этого шрифта в выходном файле. Ведь OCR не знает, что точнёхонько такой же фонт установлен в моих Windows.
      Компьютер штука тупая ему все указывать надо. Выделяй эти фрагменты прямо в FR ручками, тогда он их нормально сохранит.
      >
      > Внимание, вопрос.
      > Нет ли в Файнридере (скрытой?) фичи - обучение распознаванию на основе дополнительного фонта TTF, а не набора "пиксельных" трафаретов одного размера ?
      А вот этого нет.


СООБЩЕНИЯ ЗА 19.10.2002
4. V.Voblin, 05:25:30 [ответить]
      Вот problema, например.
     
      Новая книга Терри Пратчетта.
     
      Часть текстов написана фигурным, о~ень нестандартным шрифтом "Hebrew Condensed".
     
      Этот шрифт латинский, но стилизован под еврейский. Человек прочтёт его легко. OCR-у гораздо труднее.
     
      У ФайнРидера вроде есть механизм распознавания шрифтов и даже возможность обучения новому шрифту.
     
      НО!
     
      Эти куски текста - особым шрифтом - это маленькие вставки в основной текст, набранный обычным Times New Roman. Поэтому процесс обучения, ккоторому юзер имеет доступ, происходит очень медленно и коряво. Отпадает желание так тяжело пахать ради одной книжки.
     
      Вдобавок - даже если и делаешь эту работу - после OCR исчезает особость этого шрифта в выходном файле. Ведь OCR не знает, что точнёхонько такой же фонт установлен в моих Windows.
     
      Файнридер всё прекрасно делает, когда речь идёт о трёх главных фонтах - Times, Arial, Courier. Они распознаются независимо от размера букв и сохраняются в выходном файле.
     
      Внимание, вопрос.
      Нет ли в Файнридере (скрытой?) фичи - обучение распознаванию на основе дополнительного фонта TTF, а не набора "пиксельных" трафаретов одного размера ?


СООБЩЕНИЯ ЗА 13.10.2002
1. Максим Мошков, Москва 13:16:51 [ответить]
      Пожалуй, общее обсуждение проблем OCR лучше перенести сюда, оставив форум "Книги, которые будут выложены" только для размещения списков обрабатываемых книг и синхронизации работы.