Компания-заказчик занимается генетическим исследованиями. Основным источником для тестирования необходимо считать именно генетический материал, который сдаёт клиент. Однако это не единственное, что понадобится для дальнейшей работы специалистов.
Каждый клиент компании заполняет обязательную анкету на специальном бланке. Она состоит из вопросов с «чек-боксами» (количество вариантов ответов варьируется от 2 до 8), а также из открытых вопросов, ответ на которые следует вписать от руки. На начальном этапе все анкеты проверялись операторами, однако, когда число ежедневно проверяемых анкет на одного оператора превысило отметку 20 штук, делать это стало проблематично: возросла вероятность ошибок в данных, связанных с человеческим фактором. Кроме того, операторы тратили слишком много рабочего времени для разбора написанного и внесения данных в MS Excel.
Специалистами компании «Гигабайт» было предложено решение – организация системы, в которой:
сканировать анкеты будет потоковый сканер;
обрабатывать изображения – ПО «ImageMagick»;
хранить шаблоны (бланки) анкет и результаты распознавания будет БД «1С:Управление торговлей»;
работой оператора будет только сверка результатов автоматического распознавания и скана анкет.
Главной целью проекта являлось сокращение затрат труда операторов на «ручное» считывание заполненных анкет и занесение данных об отметках в информационную систему. Особое значение эта цель приобретает с учетом перспектив рабочего потока до 300 анкет в день.
Автоматизация работы с анкетами посредством распознавания занесённых в «чек-боксы» отметок по одному из актуальных бланков анкеты потребовала создать систему, которая распознавала бы все виды отметок (галочки, крестики и т.д.), а также исключить вероятность принятия за знак мелких помарок, заломов и сгибов бумаги и т.д.
Компания Basis Genomic Group (ООО «Базис Генотех») – это высокотехнологичная медицинская компания, основным видом деятельности которой являются исследования и анализ генетики человека. Основная задача – распространение и внедрение геномных технологий с целью повышения качества диагностики здоровья, развития превентивной, персональной и профилактической медицины. Компания Basis Genomic Group первой в РФ разработала и стала применять на практике генетические панели «Косметология» и «Трихология», созданные специально для врачей-косметологов. После этого ей же были разработаны панели «Диетология», «Активное долголетие», «Эндокринология», которые уже сейчас активно используют врачи разных специализаций.
Все исследования проводятся на базе собственной лаборатории в Новосибирске, которая лицензирована и сертифицирована согласно международным стандартам.
Задать вопросДо старта проекта единственным решением для обработки анкет был «ручной» труд операторов (штатных или на схеме «аутсорсинга»), которые своими силами проверяли анкеты и вносили данные вручную в MS Excel. Эта операция отнимала серьёзную часть их рабочего времени, а также в целом делала работу монотонной. Выполнение рутинных задач серьёзно сказывалось на внимании и как следствие – на корректности обработанной информации.
С увеличением ежедневного количества обрабатываемых анкет на одного сотрудника, эта задача вынуждала операторов тратить на одно только внесение данных 20 анкет порядка 3 часов рабочего времени.
Для решения задачи был приобретён потоковый сканер, оператор загружает в сканер анкеты респондентов (сотруднику нет необходимости загружать по одной), после чего они поступают на Яндекс Диск в PDF-формате, откуда в этом же виде отправляются в программу ImageMagick. На данном этапе задействуются PNG-маски, благодаря которым становится возможным сличение «чистых» бланков анкеты со сканом заполненного экземпляра.
После окончания автоматической обработки сканов все обнаруженные отметки (вместе с указанием на конкретный бланк) сохраняются в базе «1С:Управление торговлей». Оператор открывает в 1С документ анкеты – на экране разворачивается «бок о бок» отсканированный документ и типовой документ 1С «Анкета» с заполненными ответами на вопросы по бланку.
Оператору остается визуально сверить два отображения на корректность информации, а также прочесть на скане и проставить дополнительную информацию, которую клиент заполняет от руки (например, рост и вес).
После выполнения визуального контроля оператор ставит отметку о том, что анкета проверена, данные анкеты сопоставляются с результатами лабораторного исследования образца и на этом процесс обработки данных заканчивается – отчёт по рекомендациям для клиента готов к финальному оформлению и выдаче.
Система распознавания отметок в «чек-боксах» была разработана практически с нуля, поскольку на рынке готовых решений для 1С не существует готового варианта, который отвечал бы потребностям Заказчика.
Программистами был испробован вариант работы в ABBYY FineReader, однако процент брака в распознанных отметках был слишком высок, а значит – нельзя было говорить о достоверности оцифровки. Программа хорошо ищет на сканах анкет буквы, однако не умеет распознавать специфические отметки. Специалисты компании «Гигабайт» создали программу, которая может узнавать отметки на бумаге попиксельно, делая отбраковку мелкой пыли, которая может находиться на стекле сканера. Критично важно было добиться результата распознавания отметок, поскольку вопросы анкеты предлагают много альтернативных вариантов, следовательно, механизмы для вопросов типа «да/нет» уже не могут быть применены.
При работе над проектом сотрудники «Гигабайт» определили главные особенности работы с анкетами, в частности с распознаванием их заполнения. Так, например, важно было учесть, что потоковый сканер воспринимает любой залом бумаги как отметку в документе. Поскольку сама анкета (А4 формат) попадает в руки сотрудников лаборатории упакованной вместе с тупфером в небольшую коробку, то на ней неминуемо остаются следы сгибов. Эту проблему необходимо было решить во избежание искажения полученной информации. Специалистами было принято решение о том, что нет смысла переписывать программу и гораздо менее затратным для самого Заказчика будет переделать дизайн бланка анкеты и разместить «чек-боксы» таким образом, чтобы линия сгиба не доходила до окошек с отметками.
В целом алгоритм на данный момент умеет распознавать верх и низ анкеты, а также оборотную и лицевую сторону (то есть вручную сортировать анкеты в стопке перед началом сканирования не нужно). Это стало возможно благодаря нанесению штрих-кода и специальных слов-маркеров на бланк анкеты типографским способом.
В результате проекта был автоматизирован процесс распознавания ответов на вопросы анкеты, содержащей «чек-боксы». Оператор, который раньше мог проверять анкеты только вручную без применения каких-либо инструментов или систем для облегчения своей работы, на данный момент больше не должен тратить много своего рабочего времени на эту задачу. После введения в промышленную эксплуатацию системы, заказчик отметил повышение оперативности обработки анкет операторами: от варианта «на неделе» пришли к принципу «в тот же день». Также значительно уменьшился процент ошибок в обработке.
В итоге, благодаря разработанной подсистеме на базе «1С:Управление торговлей» и приобретённому потоковому сканеру удалось создать условия для бесперебойного автораспознаания ответов на вопросы анкет. Специалистами компании «Гигабайт» была учтена вся специфика процесса, и как следствие, предложены доработки типографских бланков для облегчения последующей их обработки. Сделаны так же поправки на возможные недочёты при распознавании, связанные с особенностями процесса сканирования (например, частицы мелкой пыли на стекле сканера не влияют на процесс и их наличие не препятствует получению правильного результата). Сегодня работой оператора является только контроль, а не ввод данных в базу «с нуля».
Реализованный проект помог заказчику не только увеличить скорость обработки анкет, но и гарантировать достоверность полученных данных, при значительном снижении трудозатрат. Поскольку Заказчик работает в сфере медицины, критично важно было получать данные с максимальной точностью. Благодаря результатам, клиент начал получать обратную связь быстрее и яснее, а значит, возросла лояльность среди его клиентов. На данный период времени внедрённое решение во многом определило увеличение скорости выдачи результатов исследований.