TabReX : 表形式参照不要説明可能評価
TabReX : Tabular Referenceless eXplainable Evaluation
December 17, 2025
著者: Tejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta
cs.AI
要旨
大規模言語モデル(LLM)によって生成された表の品質評価は未解決の課題であり、既存の指標は表をテキストに平坦化して構造を無視するか、一般化を制限する固定参照に依存している。本論文では、グラフベース推論による表生成評価のための参照不要・特性駆動型フレームワーク「TabReX」を提案する。TabReXは、元のテキストと生成された表の両方を正規化知識グラフに変換し、LLM誘導型マッチングプロセスを通じてそれらを整合させ、構造的・事実的忠実度を定量化する解釈可能なルーブリック対応スコアを算出する。これにより、感度と特異性の制御可能なトレードオフを実現し、人間の判断と整合した評価とセル単位のエラー追跡を可能にする。指標の頑健性を体系的に評価するため、6領域・3難易度階層にわたる12種類のプランナー駆動摂動を含む大規模ベンチマーク「TabReX-Bench」を導入した。実験結果では、TabReXは専門家の順位付けとの最高の相関を達成し、困難な摂動下でも安定性を維持し、モデル対プロンプトの詳細分析を可能にすることで、構造化生成システムの信頼性高く説明可能な評価の新たなパラダイムを確立することを示した。
English
Evaluating the quality of tables generated by large language models (LLMs) remains an open challenge: existing metrics either flatten tables into text, ignoring structure, or rely on fixed references that limit generalization. We present TabReX, a reference-less, property-driven framework for evaluating tabular generation via graph-based reasoning. TabReX converts both source text and generated tables into canonical knowledge graphs, aligns them through an LLM-guided matching process, and computes interpretable, rubric-aware scores that quantify structural and factual fidelity. The resulting metric provides controllable trade-offs between sensitivity and specificity, yielding human-aligned judgments and cell-level error traces. To systematically asses metric robustness, we introduce TabReX-Bench, a large-scale benchmark spanning six domains and twelve planner-driven perturbation types across three difficulty tiers. Empirical results show that TabReX achieves the highest correlation with expert rankings, remains stable under harder perturbations, and enables fine-grained model-vs-prompt analysis establishing a new paradigm for trustworthy, explainable evaluation of structured generation systems.