LegalHalluLens: Getypeerde hallucinatie-audit en gekalibreerd multi-agentdebat voor betrouwbare juridische AI

Samenvatting

AI-systemen die in juridische workflows worden ingezet, hallucineren met een percentage dat geaggregeerde metrieken rapporteren als ~52%, maar dit gemiddelde verhult waar fouten zich concentreren en in welke richting ze gaan, waardoor compliance officers geen bruikbaar signaal krijgen voor betrouwbare implementatie. We presenteren LegalHalluLens, een auditkader met drie componenten: getypeerde hallucinatieprofielen voor vier juridisch gemotiveerde claimcategorieën (numeriek, temporeel, verplichting/recht, feitelijk) over CUAD (Hendrycks et al., 2021); een Risicorichtingsindex (RDI) die weglatings- versus verzinningsbias reduceert tot één enkele, inzetbaar vergelijkbare scalar; en een getypeerde debatpijplijn die zowel is gekalibreerd op omvang als richting. Over 510 contracten en 249.252 clausule-niveau gevallen meten wij een binnen-model kloof van ongeveer 38-40 procentpunt tussen verplichtingen/numerieke en temporele claims die geaggregeerde rapportage verbergt, en tonen aan dat twee systemen met overeenkomstige percentages van 52% tegengestelde RDI's kunnen hebben. De debatpijplijn reduceert verzonnen detecties met 45%, met winsten per categorie die de diagnose volgen, en evenaart commerciële API's met een aanzienlijk kleinere backbone (4B actieve parameters). Getypeerde profielen en RDI brengen faalwijzen aan het licht die geaggregeerde metrieken verbergen; we tonen verder aan dat deze diagnostiek dient als kalibratie-inputs voor multi-agent debatpijplijnen, waarbij Scepticus-uitdagingen en asymmetrische poorten gericht op gemeten faalwijzen het beter doen dan generiek afgestemde debatten. Het kader ondersteunt richtingbewuste inkoop, verantwoording en agentontwerp voor juridische AI die in de echte wereld wordt ingezet.

English

AI systems deployed in legal workflows hallucinate at rates that aggregate metrics report at ~52%, but this average conceals where errors concentrate and in which direction they run, leaving compliance officers without an actionable signal for trustworthy deployment. We present LegalHalluLens, an auditing framework with three components: typed hallucination profiles across four legally-motivated claim categories (numeric, temporal, obligation/entitlement, factual) over CUAD (Hendrycks et al., 2021); a Risk Direction Index (RDI) that reduces omission-versus-invention bias to a single deployment-comparable scalar; and a typed debate pipeline calibrated to both magnitudes and directions. Across 510 contracts and 249,252 clause-level instances we measure a within-model gap of approximately 38-40 pp between obligation/numeric and temporal claims that aggregate reporting hides, and show that two systems with matched 52% rates can carry opposite RDIs. The debate pipeline reduces fabricated detections by 45% with per-category gains tracking the diagnosis, matching commercial APIs with a substantially smaller backbone (4B active parameters). Typed profiles and RDI surface failure modes that aggregate metrics hide; we further show these diagnostics serve as calibration inputs for multi-agent debate pipelines, where Skeptic challenges and asymmetric gates targeted at measured failure modes outperform generically-tuned debate. The framework supports direction-aware procurement, accountability, and agent design for legal AI deployed in the wild.