LegalHalluLens: Typisierte Halluzinationsprüfung und kalibrierte Multi-Agenten-Debatte für vertrauenswürdige KI im Rechtswesen

Zusammenfassung

In rechtlichen Arbeitsabläufen eingesetzte KI-Systeme halluzinieren mit Raten, die aggregierte Metriken mit etwa 52 % angeben, doch dieser Durchschnittswert verbirgt, wo sich Fehler konzentrieren und in welche Richtung sie verlaufen, sodass Compliance-Beauftragte kein umsetzbares Signal für einen vertrauenswürdigen Einsatz erhalten. Wir stellen LegalHalluLens vor, ein Prüfrahmenwerk mit drei Komponenten: typisierte Halluzinationsprofile über vier rechtlich motivierte Anspruchskategorien (numerisch, zeitlich, Verpflichtung/Anspruch, sachlich) auf Basis von CUAD (Hendrycks et al., 2021); einen Risikorichtungsindex (RDI), der die Auslassungs- gegenüber Erfindungsverzerrung auf einen einzelnen, einsatzvergleichbaren Skalar reduziert; und eine typisierte Debatten-Pipeline, die sowohl auf Größenordnungen als auch auf Richtungen kalibriert ist. Über 510 Verträge und 249.252 Klauselinstanzen messen wir eine modellinterne Diskrepanz von etwa 38–40 Prozentpunkten zwischen Verpflichtungs-/numerischen und zeitlichen Ansprüchen, die die aggregierte Berichterstattung verbirgt, und zeigen, dass zwei Systeme mit übereinstimmenden 52 %-Raten entgegengesetzte RDIs aufweisen können. Die Debatten-Pipeline reduziert erfundene Erkennungen um 45 %, wobei die Gewinne pro Kategorie der Diagnose folgen und kommerzielle APIs mit einem wesentlich kleineren Backbone (4 Milliarden aktive Parameter) erreichen. Typisierte Profile und der RDI decken Fehlermodi auf, die aggregierte Metriken verbergen; wir zeigen ferner, dass diese Diagnosen als Kalibrierungseingaben für Multi-Agenten-Debatten-Pipelines dienen, bei denen skeptische Herausforderungen und asymmetrische Tore, die auf gemessene Fehlermodi abzielen, generisch abgestimmte Debatten übertreffen. Das Rahmenwerk unterstützt richtungsbewusste Beschaffung, Rechenschaftspflicht und Agentengestaltung für rechtliche KI, die in freier Wildbahn eingesetzt wird.

English

AI systems deployed in legal workflows hallucinate at rates that aggregate metrics report at ~52%, but this average conceals where errors concentrate and in which direction they run, leaving compliance officers without an actionable signal for trustworthy deployment. We present LegalHalluLens, an auditing framework with three components: typed hallucination profiles across four legally-motivated claim categories (numeric, temporal, obligation/entitlement, factual) over CUAD (Hendrycks et al., 2021); a Risk Direction Index (RDI) that reduces omission-versus-invention bias to a single deployment-comparable scalar; and a typed debate pipeline calibrated to both magnitudes and directions. Across 510 contracts and 249,252 clause-level instances we measure a within-model gap of approximately 38-40 pp between obligation/numeric and temporal claims that aggregate reporting hides, and show that two systems with matched 52% rates can carry opposite RDIs. The debate pipeline reduces fabricated detections by 45% with per-category gains tracking the diagnosis, matching commercial APIs with a substantially smaller backbone (4B active parameters). Typed profiles and RDI surface failure modes that aggregate metrics hide; we further show these diagnostics serve as calibration inputs for multi-agent debate pipelines, where Skeptic challenges and asymmetric gates targeted at measured failure modes outperform generically-tuned debate. The framework supports direction-aware procurement, accountability, and agent design for legal AI deployed in the wild.