Privacy & Compliance · Флагманский продукт

Анонимизация персональных данных

100% российская разработка, работающая в вашем контуре. Обезличиваем текст, таблицы, PDF-сканы и аудио без потери аналитической ценности.

152-ФЗ ст.10on-premREST / k8s
demo · pii → anon
input · emr.json
Пациент Иванов И. И., 05.03.1978, +7 916 ... поступил в отделение кардиологии ГКБ №7, г. Москва.
output · anon.jsonl
Пациент <NAME_A1F2>, <DOB:1978>, <PHONE> поступил в отделение кардиологии <HOSPITAL_07>, <CITY>.
Проблема

Обучать ML
на сырых ПДн нельзя

152-ФЗ ограничивает круг лиц, получающих доступ к ПДн. Штрафы, до 500 млн рублей. Но бизнес-задачи, от скоринга до клинических моделей, всё равно требуют данных. Решение, обезличивание с сохранением ценности для ML.

500
млн ₽, штраф по 152-ФЗ
14
категорий ПДн в медицине
0
утечек в периметре N1AI
Как работает

Четырёхстадийный pipeline

Каждая стадия настраивается под отрасль: медицина, банк, стройка. Замены ведутся с сохранением согласованности, один человек остаётся одним псевдонимом на всю выборку.

Типы данных

Шесть модальностей

01 · text
Свободный текст
ЭМК, клинические записи, обращения клиентов, договоры. NER-модели, обученные на русскоязычных корпусах.
02 · table
Структурированные таблицы
CSV, Parquet, выгрузки из АБС/CRM. Column-aware обезличивание с сохранением референциальной целостности.
03 · pdf
PDF-сканы и рукопись
OCR + layout-aware обезличивание. Работает с многостраничными актами и рукописными вкраплениями.
04 · audio
Аудио
Звонки call-центров, телемедицина. ASR → детекция PII в транскрипте → маскировка исходного wave.
05 · image
Фото и видео
Обезличивание лиц, номеров, документов. Используется в продукте для стройплощадок.
Метрики качества

Не просто «удалили всё подряд»

Обезличивание без сохранения utility, это ценность, выброшенная вместе с риском. Мы отслеживаем обе оси.

Матрица качества · ЕМЦ · 2 месяца
0.987
качество детекции ПДн
94.1%
сохранено ценности
2 мес.
срок проекта
0
реидентификаций (по аудиту)
Все метрики валидируются независимой командой проверки безопасности до выпуска датасета во внутренний ML-контур.
Интеграция

Ставится как
инфраструктурный компонент

Разворачиваем через k8s helm-чарт или docker-compose. Встраиваем в существующие ETL и CI-для-данных. Инференс, CPU или GPU, на выбор.

API

REST / gRPC

Синхронная и batch обработка. OpenAPI-спека, SDK для Python и Java.

Deploy

k8s · docker · VM

Helm-чарт с sensible defaults. Air-gap установка, поддерживается.

Data

S3 · Kafka · SFTP

Подключение к вашим источникам. Streaming и batch режимы работают параллельно.

Monitor

Prometheus · OTel

Метрики по latency, throughput, recall. Алерты в ваш SIEM.

Пилот на вашей выборке.

Две недели. Фиксированный бюджет. Ставим в ваш контур, прогоняем на 10–50 тысячах записей, сдаём отчёт по F1 и utility.