LegalHalluLens: Auditoría de Alucinaciones Tipificadas y Debate Multi-Agente Calibrado para una IA Legal Confiable

Resumen

Los sistemas de IA desplegados en flujos de trabajo legales alucinan a tasas que las métricas agregadas reportan en ~52%, pero este promedio oculta dónde se concentran los errores y en qué dirección se manifiestan, dejando a los oficiales de cumplimiento sin una señal procesable para un despliegue confiable. Presentamos LegalHalluLens, un marco de auditoría con tres componentes: perfiles de alucinación tipificados en cuatro categorías de afirmaciones legalmente motivadas (numérica, temporal, obligación/derecho, fácticas) sobre CUAD (Hendrycks et al., 2021); un Índice de Dirección de Riesgo (RDI) que reduce el sesgo de omisión versus invención a un escalar comparable entre despliegues; y un pipeline de debate tipificado calibrado tanto para magnitudes como para direcciones. En 510 contratos y 249 252 instancias a nivel de cláusula, medimos una brecha intra-modelo de aproximadamente 38-40 puntos porcentuales entre afirmaciones de obligación/numéricas y temporales que los reportes agregados ocultan, y mostramos que dos sistemas con tasas igualadas del 52% pueden tener RDI opuestos. El pipeline de debate reduce las detecciones fabricadas en un 45%, con ganancias por categoría que siguen el diagnóstico, igualando a las API comerciales con un backbone sustancialmente más pequeño (4 mil millones de parámetros activos). Los perfiles tipificados y el RDI revelan modos de falla que las métricas agregadas ocultan; además, mostramos que estos diagnósticos sirven como entradas de calibración para pipelines de debate multiagente, donde los desafíos del Escéptico y las compuertas asimétricas dirigidas a modos de falla medidos superan al debate genéricamente ajustado. El marco respalda la adquisición consciente de la dirección, la rendición de cuentas y el diseño de agentes para IA legal desplegada en entornos reales.

English

AI systems deployed in legal workflows hallucinate at rates that aggregate metrics report at ~52%, but this average conceals where errors concentrate and in which direction they run, leaving compliance officers without an actionable signal for trustworthy deployment. We present LegalHalluLens, an auditing framework with three components: typed hallucination profiles across four legally-motivated claim categories (numeric, temporal, obligation/entitlement, factual) over CUAD (Hendrycks et al., 2021); a Risk Direction Index (RDI) that reduces omission-versus-invention bias to a single deployment-comparable scalar; and a typed debate pipeline calibrated to both magnitudes and directions. Across 510 contracts and 249,252 clause-level instances we measure a within-model gap of approximately 38-40 pp between obligation/numeric and temporal claims that aggregate reporting hides, and show that two systems with matched 52% rates can carry opposite RDIs. The debate pipeline reduces fabricated detections by 45% with per-category gains tracking the diagnosis, matching commercial APIs with a substantially smaller backbone (4B active parameters). Typed profiles and RDI surface failure modes that aggregate metrics hide; we further show these diagnostics serve as calibration inputs for multi-agent debate pipelines, where Skeptic challenges and asymmetric gates targeted at measured failure modes outperform generically-tuned debate. The framework supports direction-aware procurement, accountability, and agent design for legal AI deployed in the wild.