TabReX : Évaluation Explicable Sans Référence pour Données Tabulaires
TabReX : Tabular Referenceless eXplainable Evaluation
December 17, 2025
papers.authors: Tejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta
cs.AI
papers.abstract
L'évaluation de la qualité des tableaux générés par les grands modèles de langage (LLM) reste un défi ouvert : les métriques existantes soit aplatissent les tableaux en texte, ignorant la structure, soit reposent sur des références fixes qui limitent la généralisation. Nous présentons TabReX, un cadre sans référence et axé sur les propriétés pour évaluer la génération tabulaire via un raisonnement basé sur les graphes. TabReX convertit à la fois le texte source et les tableaux générés en graphes de connaissances canoniques, les aligne via un processus d'appariement guidé par un LLM, et calcule des scores interprétables, conscients d'une grille d'évaluation, qui quantifient la fidélité structurelle et factuelle. La métrique qui en résulte offre des compromis contrôlables entre sensibilité et spécificité, produisant des jugements alignés avec l'humain et des traces d'erreur au niveau cellulaire. Pour évaluer systématiquement la robustesse des métriques, nous introduisons TabReX-Bench, un benchmark à grande échelle couvrant six domaines et douze types de perturbations pilotés par un planificateur sur trois niveaux de difficulté. Les résultats empiriques montrent que TabReX atteint la plus haute corrélation avec les classements d'experts, reste stable sous des perturbations plus difficiles, et permet une analyse fine modèle-contre-prompt, établissant un nouveau paradigme pour l'évaluation fiable et explicable des systèmes de génération structurée.
English
Evaluating the quality of tables generated by large language models (LLMs) remains an open challenge: existing metrics either flatten tables into text, ignoring structure, or rely on fixed references that limit generalization. We present TabReX, a reference-less, property-driven framework for evaluating tabular generation via graph-based reasoning. TabReX converts both source text and generated tables into canonical knowledge graphs, aligns them through an LLM-guided matching process, and computes interpretable, rubric-aware scores that quantify structural and factual fidelity. The resulting metric provides controllable trade-offs between sensitivity and specificity, yielding human-aligned judgments and cell-level error traces. To systematically asses metric robustness, we introduce TabReX-Bench, a large-scale benchmark spanning six domains and twelve planner-driven perturbation types across three difficulty tiers. Empirical results show that TabReX achieves the highest correlation with expert rankings, remains stable under harder perturbations, and enables fine-grained model-vs-prompt analysis establishing a new paradigm for trustworthy, explainable evaluation of structured generation systems.