«Яндекс» запустил поиск и расшифровку архивных рукописных документов с помощью нейросети

11:17 Янв. 25, 2023

Попробовать технологию в действии можно уже сейчас в сервисе «Поиск по архивам».

Пресс-служба компании сообщила радиостанции «Говорит Москва», что поиск открывает всем желающим доступ к более чем 2,5 млн страниц исторических документов с текстовой расшифровкой.

Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов.

Отмечается, что специалисты компании обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII–XIX веков и десятков миллионов сгенерированных примеров. Материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. В базе сервиса можно быстро находить документы с упоминанием фамилии, населённого пункта или любых других слов, сказала радиостанции «Говорит Москва» руководитель «Яндекс.Поиск» Елена Бубнова.

«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах «Яндекса».

Искать можно по материалам XVIII — начала XX веков, которые больше всего пользуются популярностью у пользователей. Это метрические книги, исповедные ведомости и ревизские сказки с результатами переписи населения. Документы можно найти по каталогу или через строку поиска. Есть фильтры по годам, архивам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями «Яндекса». Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.

Новости по теме

Связь с эфиром


Сообщение отправлено