LegalHalluLens: типизированный аудит галлюцинаций и калиброванные многоагентные дебаты для надежного юридического ИИ

Аннотация

Системы ИИ, развернутые в юридических рабочих процессах, галлюцинируют с частотой, которую агрегированные метрики оценивают примерно в 52%, но это среднее значение скрывает, где концентрируются ошибки и в каком направлении они возникают, оставляя сотрудников по комплаенсу без действенного сигнала для надежного развертывания. Мы представляем LegalHalluLens — фреймворк аудита с тремя компонентами: типизированные профили галлюцинаций по четырем юридически обоснованным категориям утверждений (числовые, временные, обязательства/права, фактические) на основе CUAD (Hendrycks et al., 2021); Индекс направления риска (RDI), сводящий смещение между пропуском и изобретением к одному скаляру, сопоставимому при развертывании; и типизированный дебатный пайплайн, откалиброванный как по величинам, так и по направлениям. На 510 контрактах и 249 252 экземплярах уровня пунктов мы измерили внутримодельный разрыв приблизительно в 38–40 процентных пунктов между утверждениями об обязательствах/числах и временными утверждениями, который скрывает агрегированная отчетность, и показали, что две системы с одинаковым показателем в 52% могут иметь противоположные RDI. Дебатный пайплайн сокращает сфабрикованные обнаружения на 45%, при этом выигрыш по каждой категории отслеживает диагноз, соответствуя коммерческим API при существенно меньшей магистрали (4 млрд активных параметров). Типизированные профили и RDI выявляют режимы отказов, которые скрывают агрегированные метрики; мы также показываем, что эти диагностические данные служат калибровочными входами для многомодельных дебатных пайплайнов, где скептические возражения и асимметричные шлюзы, нацеленные на измеренные режимы отказов, превосходят дебаты с общей настройкой. Фреймворк поддерживает закупки с учетом направления, подотчетность и разработку агентов для юридического ИИ, развернутого в реальных условиях.

English

AI systems deployed in legal workflows hallucinate at rates that aggregate metrics report at ~52%, but this average conceals where errors concentrate and in which direction they run, leaving compliance officers without an actionable signal for trustworthy deployment. We present LegalHalluLens, an auditing framework with three components: typed hallucination profiles across four legally-motivated claim categories (numeric, temporal, obligation/entitlement, factual) over CUAD (Hendrycks et al., 2021); a Risk Direction Index (RDI) that reduces omission-versus-invention bias to a single deployment-comparable scalar; and a typed debate pipeline calibrated to both magnitudes and directions. Across 510 contracts and 249,252 clause-level instances we measure a within-model gap of approximately 38-40 pp between obligation/numeric and temporal claims that aggregate reporting hides, and show that two systems with matched 52% rates can carry opposite RDIs. The debate pipeline reduces fabricated detections by 45% with per-category gains tracking the diagnosis, matching commercial APIs with a substantially smaller backbone (4B active parameters). Typed profiles and RDI surface failure modes that aggregate metrics hide; we further show these diagnostics serve as calibration inputs for multi-agent debate pipelines, where Skeptic challenges and asymmetric gates targeted at measured failure modes outperform generically-tuned debate. The framework supports direction-aware procurement, accountability, and agent design for legal AI deployed in the wild.