Данные и компьютерное зрение

Обработка данных и IDP

ETL, OCR, извлечение сущностей из договоров, актов, медкарт. Big Data-пайплайны на Spark и Flink. От сырых PDF до структурированного warehouse.

OCRIDPSpark · Flinkготов к обезличиванию
idp · документ
scan · act_007.pdf
АКТ
приёма-передачи
№ 007 от 23.04.2026

Исполнитель: ООО «Альфа»
Заказчик: ООО «Бета»
Сумма: 1 240 000 ₽
НДС: 20%
извлечено · json
doc_type: "act"
number: "007"
date: "2026-04-23"
parties: [...]
amount: 1240000
vat_pct: 20
conf: 0.96
Что делаем

Пайплайн данных end-to-end

От источников до хранилища. С обезличиванием на входе, валидацией схем и готовыми табличными витринами для BI и ML.

01 · приём
Подключение источников
SAP, 1С, МИС, АБС, SCADA, S3, SFTP, Kafka. Инкрементальная и полная загрузка.
12+ коннекторов
02 · ocr
OCR и layout-анализ
Русский, английский, рукопись. Многостраничные документы с таблицами и штампами.
>98% accuracy
03 · извлечение
Извлечение сущностей
Структурирование: реквизиты, суммы, даты, позиции, участники. Через JSON schema.
schema-driven
04 · обогащение
Обогащение и нормализация
Справочники ОКПО, ИНН, ОКВЭД, МКБ-10. Дедупликация и matching.
rule + ml
05 · хранилище
Хранилище данных / Data Lakehouse
Delta Lake, Iceberg, ClickHouse, Greenplum. Row- и column-level security.
dbt-compatible

Соберём ваш контур данных.