Alt2000

Сканирование документов

30 posts in this topic

Обратились знакомые за советом, где можно оцифровать архив, примерно 10 тыс листов, срок - неделя, есть ли у кого идеи?

0

Share this post


Link to post
Share on other sites

Обратились знакомые за советом, где можно оцифровать архив, примерно 10 тыс листов, срок - неделя, есть ли у кого идеи?

Думаю Вашему знакомому стоит приобрести потоковый сканер... на рынке много моделей (Эпсоны подороже DS-520 или GT-S85, но есть и аналоги у Ксерокса..ничем не хуже, но дешевле- DocuMate 3125 например)

1

Share this post


Link to post
Share on other sites

Верно, проще купить лотковый сканер и самому засесть на недельку (посадить своего человека).

Даже если за работу возьмут 100 сум/лист, то уже выйдет 1млн.

Хотя, если цена - не вопрос, то можно и отдать на сторону.

0

Share this post


Link to post
Share on other sites

потоковый не пойдет, расшивать нужно...

именно потому они не обратились в тестовый центр (тоже стоят потоковые сканеры)

 

Верно, проще купить лотковый сканер и самому засесть на недельку

рассматривали и это вариант, посчитали, если пахать по 10 часов, понадобится больше полумесяца
0

Share this post


Link to post
Share on other sites

Тогда качественно фоткать по 2 страницы на обороте. Пару дней уйдет.

Распознавать не нужно потом?

0

Share this post


Link to post
Share on other sites

Ещё зависит от качества изображения. Если там текст или простейшая графика - то сканируется достаточно шустро на 100 dpi, но всё равно объём большой, за неделю один человек может не успеть.

 

Если графика посложнее, с цветом - тогда нужно уже специальное какое-то оборудование искать для скорости.

0

Share this post


Link to post
Share on other sites

в нете нашел планетарные сканеры, это типа подставки под коран, а сверху фотокамера, листаешь руками, фоткаешь педалькой, стоит система цифрового выравнивания, обрезки и распознавания - то что нужно! Но цены просто самолетные, есть ли где такие в Таше ?

0

Share this post


Link to post
Share on other sites

А какой формат архива? Почему расшивать не хотите?

В каком виде оцифровать хотите получить?

Чтобы уложиться за неделю (8ч*7=56часов), необходимо оцифровать со скоростью не менее 3листа/минут.

Бюджет за оцифровку должен быть достаточно большим, чтобы взялись за это.

 

P.S. Не понятно, почему срок оцифровки - 1 неделя. Как всегда, в последний момент взялись за работу? :-)

1

Share this post


Link to post
Share on other sites

Обратились знакомые за советом, где можно оцифровать архив, примерно 10 тыс листов, срок - неделя, есть ли у кого идеи?

В библиотеке А.Навои - есть соответствующее оборудование. Я про планетарку.

Edited by Волговод
0

Share this post


Link to post
Share on other sites

Обратились знакомые за советом, где можно оцифровать архив, примерно 10 тыс листов, срок - неделя, есть ли у кого идеи?

Маловероятно, что все 10 тыщ листов сшиты воедино. Вероятно это несколько книг и вряд ли больше 1000 листов каждая. Надо просто распределить их по исполнителям.

Даже если это формат А4 с требованием качественного отсканированного цветного изображения (порядка 600 dpi) - реально тысячу листов отсканировать за неделю.

Осталось найти 10 трудолюбивых и аккуратных сканировщиков со сканерами.

0

Share this post


Link to post
Share on other sites

Если качество не сильно критично, то можно обойтись пятком смартфонов или планшетов с хорошей камерой. Установив на них приложение сканер.

0

Share this post


Link to post
Share on other sites

В библиотеке А.Навои - есть соответствующее оборудование. Я про планетарку.

спасибо! направлю их туда

P.S. Не понятно, почему срок оцифровки - 1 неделя. Как всегда, в последний момент взялись за работу? :-)

у нас так... удивления всему этому нет, только печаль

 

можно обойтись пятком смартфонов

это архив одной госструктуры... вааажной

нужно ведь не только все превратить в файлики... но и структурировать весь этот массив, а это задача совсем нетривиальная, гугл с яндексом врядли поделятся своими технологиями...

есть ли у кого опыт в такой работе? посоветуйте, куда копать

Edited by Alt2000
0

Share this post


Link to post
Share on other sites

это архив одной госструктуры... вааажной

нужно ведь не только все превратить в файлики... но и структурировать весь этот массив, а это задача совсем нетривиальная,

Работы на год!

0

Share this post


Link to post
Share on other sites

это архив одной госструктуры... вааажной

Ясно, до нас все уже своровали. :-)

0

Share this post


Link to post
Share on other sites

И снова никаких, важных для сканирования, технических характеристик:

 

1. формат листа.

2. тип изображения (текст, простейшая графика, сложная графика)

3. качество отсканированного изображения.

4. формат получаемого файла - отдельный файл на каждый лист или многостраничные документы.

5. нужно ли преобразовывать изображение в текстовый (MS Word) или таблично-числовой (MS Excel) документ.

 

???

 

Пока с этим не определитесь - будет вас долго и мучительно лихорадить.

0

Share this post


Link to post
Share on other sites

хотят на первом этапе, чтобы был поиск по коду документа, на втором - чтобы был по содержимому тексту,

на данный момент видим решение так - первая задача выполняется с помощью штатных программ, т.е. на каждый документ вклеивается штрих-код, причем на многостраничный - 1 код, который автоматически генерирует название файла и автоматом создается база документов - есть и у эпсона и у ксерокса, то успех второго этапа видится от качества сканов (a4, текст и таблицы), в любом случае понимаем - за неделю не управиться

0

Share this post


Link to post
Share on other sites

То есть задачи такие:

1. надо давать специальное название каждому файлу,

2. надо произвести распознавание и перевод в изображения в текстовый формат,

3. можно сканировать на 100 dpi, что сильно ускоряет сам процесс сканирования, но только в случае чёткой печати оригинала.

 

Трудность пока вижу только одну но большую: распознавание текста редко бывает корректным на 100%, поэтому требуется тотальная проверка и сверка с оригиналом или с его сканом в формате изображения. Распознавание таблиц - вообще дело крайне ненадёжное, то есть очень много ручной работы по корректировке. В случае нечёткой печати текста и таблиц, а также обилия пометок или надписей сделанных вручную процент корректности распознавания резко снижается, что по объёму работы практически тупо сводится к новой перенаборке документов.

 

Это сильно удорожает весь процесс. Вопрос времени лучше вообще не ставить. :p

 

В случае исключения задачи пункта 2. (распознавание) - поиск будет работать только по названию файла. Значит должна быть отработанная система этих названий.

 

Не знаю, как работает сканер других производителей, возможно гораздо лучше - у меня Canon. Распознавание через программу ABYY Fine Reader.

 

Если ещё есть тексты на узбекской кириллице - с распознаванием текста вообще плохо будет, хотя возможно у кого-то это корректно работает.

 

Тут вообще нужно новую профессию отрабатывать - архивариус-оцифровщик. :D Хотя может уже и есть такое.

Edited by eugeen13
0

Share this post


Link to post
Share on other sites

Не знаю, как работает сканер других производителей, возможно гораздо лучше - у меня Canon. Распознавание через программу ABYY Fine Reader

от марки сканера не зависит. Главное — качество сканирования и ПО для распознавания. Пока что Файн ридер лидирует, со своим убогим распознаванием

1

Share this post


Link to post
Share on other sites

Итак, постановка задачи для быстрого исполнения:

 

1. Отсканировать документы в сером (или цветном - как захочет заказчик) цвете с разрешением не менее 100 dpi в многостраничном формате типа ".pdf" или ".djvu" (в каком именно - это надо заказчику самому определиться). Отдельный файл для каждой группы документов.

2. Присвоить каждому файлу название в соответствии с системой названий, которую предоставит заказчик. Хотя, в принципе, эту часть работы может выполнить и сам заказчик.

 

Надеюсь это поможет корректно заказчику составить задание, чтоб исполнитель не ломал долго голову.

Edited by eugeen13
0

Share this post


Link to post
Share on other sites

В библиотеке А.Навои - есть соответствующее оборудование. Я про планетарку.

И если им принести книгу, они за баблосик могут отсканировать? Мне нужно отсканировать 2 книги. Распозновать не надо, нужно только обрезать и сохранить в формате Jpeg.

0

Share this post


Link to post
Share on other sites

Мне нужно отсканировать 2 книги. Распозновать не надо, нужно только обрезать и сохранить в формате Jpeg.

В корпусе ГлавУАС (главапу) с торца со стороны к/з Туркистон есть фирмочка, любой формат сканируют. Расценок не знаю.

 

Если объём небольшой и по времени не скоро - могу и я отсканировать за пузырь. :sleep:

1

Share this post


Link to post
Share on other sites

В свое время сестра попросила просканировать книгу для акушеров, книжку взяла на день, страниц 500, подключил обычный сканер к ноуту, открыл ФайнРидер 11, установил ауто-скан 6 секунд и резолюцию скана 300 точек на дюйм, нажал на кнопку, и только и делал что переворачивал страницы и книгу. Потребовалось простоять пару часов всего. В результате получил пдф с полностью рапознаным текстом.

Edited by hamu
0

Share this post


Link to post
Share on other sites

Потребовалось простоять пару часов всего.

После нескольких отсканированных книжек подряд это уже не очень-то увлекательное дело.

 

А для 10 тыщ страниц таким макаром надо уже 40 часов отпахать. Вроде реально, но не факт, что в это время уложишься.

0

Share this post


Link to post
Share on other sites

Обратились знакомые за советом, где можно оцифровать архив, примерно 10 тыс листов, срок - неделя, есть ли у кого идеи?

В моем интернет-кафе сотрудники 10 000 листов за 10 дней успеют сделать.

 

Если что обращайтесь в ЛС,

рассматривали и это вариант, посчитали, если пахать по 10 часов, понадобится больше полумесяца

У сотрудников есть опыт сканнирвоания 850 листов с 8:30 утра до 15:00 дня.

Делали по 100 сум/лист.

 

В крайнем случае у меня 2 инетрнет-кафе. Можем разбить весь объем на 2 точки.

Гарантировано успеем за 5 дней при ЧБ изображении (оттенки серого) и 300dpi качества.

Если некоторое кол-во листов цветное, то уйдет на день больше.

Если все цветное - то 10 дней скорее всего.

меньше 300 dpi смысла делать нет. Дальше такой текст уже не обработать. А 300 - все что душе угодно.

 

Если что пишите в ЛС

Edited by Real Root
1

Share this post


Link to post
Share on other sites

Делали по 100 сум/лист.

 

Угадал :)

 

Даже если за работу возьмут 100 сум/лист, то уже выйдет 1млн.

0

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!


Register a new account

Sign in

Already have an account? Sign in here.


Sign In Now