ChatPaper.aiChatPaper

TabReX: Tabellarische referenzlose erklärbare Evaluierung

TabReX : Tabular Referenceless eXplainable Evaluation

December 17, 2025
papers.authors: Tejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta
cs.AI

papers.abstract

Die Bewertung der Qualität von Tabellen, die von großen Sprachmodellen (LLMs) generiert werden, bleibt eine ungelöste Herausforderung: bestehende Metriken glätten Tabellen entweder zu Text und ignorieren deren Struktur, oder sie stützen sich auf feste Referenzen, was die Generalisierbarkeit einschränkt. Wir stellen TabReX vor, ein referenzloses, eigenschaftsgetriebenes Framework zur Bewertung tabellarischer Generierung mittels graphenbasierter Reasoning-Verfahren. TabReX wandelt sowohl Quelltext als auch generierte Tabellen in kanonische Wissensgraphen um, bringt diese durch einen LLM-gesteuerten Abgleichprozess in Übereinstimmung und berechnet interpretierbare, rubrikensensitive Scores, die strukturelle und faktische Treue quantifizieren. Die resultierende Metrik ermöglicht kontrollierbare Kompromisse zwischen Sensitivität und Spezifität und führt zu menschenähnlichen Bewertungen sowie feingranularen Fehlernachverfolgungen auf Zellebene. Um die Robustheit der Metrik systematisch zu bewerten, führen wir TabReX-Bench ein, einen umfangreichen Benchmark, der sechs Domänen und zwölf planergesteuerte Störungstypen über drei Schwierigkeitsstufen hinweg abdeckt. Empirische Ergebnisse zeigen, dass TabReX die höchste Korrelation mit Expertenrankings erreicht, unter stärkeren Störungen stabil bleibt und eine feingranulare Modell-vs.-Prompt-Analyse ermöglicht, wodurch ein neues Paradigma für vertrauenswürdige, erklärbare Bewertung strukturierter Generierungssysteme etabliert wird.
English
Evaluating the quality of tables generated by large language models (LLMs) remains an open challenge: existing metrics either flatten tables into text, ignoring structure, or rely on fixed references that limit generalization. We present TabReX, a reference-less, property-driven framework for evaluating tabular generation via graph-based reasoning. TabReX converts both source text and generated tables into canonical knowledge graphs, aligns them through an LLM-guided matching process, and computes interpretable, rubric-aware scores that quantify structural and factual fidelity. The resulting metric provides controllable trade-offs between sensitivity and specificity, yielding human-aligned judgments and cell-level error traces. To systematically asses metric robustness, we introduce TabReX-Bench, a large-scale benchmark spanning six domains and twelve planner-driven perturbation types across three difficulty tiers. Empirical results show that TabReX achieves the highest correlation with expert rankings, remains stable under harder perturbations, and enables fine-grained model-vs-prompt analysis establishing a new paradigm for trustworthy, explainable evaluation of structured generation systems.
PDF11December 20, 2025