LegalHalluLens : Audit des hallucinations typées et débat multi-agent calibré pour une IA juridique de confiance

Résumé

Les systèmes d'IA déployés dans les flux de travail juridiques hallucinent à des taux que les métriques agrégées rapportent à environ 52 %, mais cette moyenne masque la concentration des erreurs et leur direction, laissant les responsables de la conformité sans signal exploitable pour un déploiement fiable. Nous présentons LegalHalluLens, un cadre d'audit comprenant trois composantes : des profils typés d'hallucination pour quatre catégories de revendications juridiquement motivées (numériques, temporelles, obligations/droits, factuelles) sur CUAD (Hendrycks et al., 2021) ; un Indice de Direction du Risque (IDR) qui réduit le biais omission versus invention en un scalaire unique comparable entre déploiements ; et un pipeline de débat typé calibré à la fois sur les magnitudes et les directions. À travers 510 contrats et 249 252 instances au niveau des clauses, nous mesurons un écart intra-modèle d'environ 38 à 40 points de pourcentage entre les revendications d'obligation/numériques et temporelles que les rapports agrégés masquent, et montrons que deux systèmes avec des taux appariés de 52 % peuvent avoir des IDR opposés. Le pipeline de débat réduit les détections fabriquées de 45 %, avec des gains par catégorie suivant le diagnostic, égalant les API commerciales avec un modèle de base sensiblement plus petit (4 milliards de paramètres actifs). Les profils typés et l'IDR révèlent des modes de défaillance que les métriques agrégées cachent ; nous montrons en outre que ces diagnostics servent d'entrées de calibration pour les pipelines de débat multi-agents, où les défis du Skeptic et les portes asymétriques ciblant les modes de défaillance mesurés surpassent le débat génériquement réglé. Le cadre soutient un approvisionnement sensible à la direction, la responsabilité et la conception d'agents pour l'IA juridique déployée dans la nature.

English

AI systems deployed in legal workflows hallucinate at rates that aggregate metrics report at ~52%, but this average conceals where errors concentrate and in which direction they run, leaving compliance officers without an actionable signal for trustworthy deployment. We present LegalHalluLens, an auditing framework with three components: typed hallucination profiles across four legally-motivated claim categories (numeric, temporal, obligation/entitlement, factual) over CUAD (Hendrycks et al., 2021); a Risk Direction Index (RDI) that reduces omission-versus-invention bias to a single deployment-comparable scalar; and a typed debate pipeline calibrated to both magnitudes and directions. Across 510 contracts and 249,252 clause-level instances we measure a within-model gap of approximately 38-40 pp between obligation/numeric and temporal claims that aggregate reporting hides, and show that two systems with matched 52% rates can carry opposite RDIs. The debate pipeline reduces fabricated detections by 45% with per-category gains tracking the diagnosis, matching commercial APIs with a substantially smaller backbone (4B active parameters). Typed profiles and RDI surface failure modes that aggregate metrics hide; we further show these diagnostics serve as calibration inputs for multi-agent debate pipelines, where Skeptic challenges and asymmetric gates targeted at measured failure modes outperform generically-tuned debate. The framework supports direction-aware procurement, accountability, and agent design for legal AI deployed in the wild.