ChatPaper.aiChatPaper

TabReX: Valutazione Spiegabile Senza Riferimento per Dati Tabulari

TabReX : Tabular Referenceless eXplainable Evaluation

December 17, 2025
Autori: Tejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta
cs.AI

Abstract

La valutazione della qualità delle tabelle generate da grandi modelli linguistici (LLM) rimane una sfida aperta: le metriche esistenti appiattiscono le tabelle in testo, ignorandone la struttura, o si basano su riferimenti fissi che ne limitano la generalizzazione. Presentiamo TabReX, un framework senza riferimento e guidato da proprietà per valutare la generazione tabulare tramite ragionamento basato su grafi. TabReX converte sia il testo sorgente che le tabelle generate in grafi della conoscenza canonici, li allinea attraverso un processo di matching guidato da LLM e calcola punteggi interpretabili e consapevoli di rubriche che quantificano la fedeltà strutturale e fattuale. La metrica risultante fornisce compromessi controllabili tra sensibilità e specificità, producendo giudizi allineati con quelli umani e tracce di errore a livello di cella. Per valutare sistematicamente la robustezza delle metriche, introduciamo TabReX-Bench, un benchmark su larga scala che abbraccia sei domini e dodici tipi di perturbazione guidati da pianificatori, suddivisi in tre livelli di difficoltà. I risultati empirici dimostrano che TabReX raggiunge la correlazione più elevata con le classificazioni di esperti, rimane stabile sotto perturbazioni più difficili e consente un'analisi granulare modello-vs-prompt, stabilendo un nuovo paradigma per la valutazione affidabile e spiegabile dei sistemi di generazione strutturata.
English
Evaluating the quality of tables generated by large language models (LLMs) remains an open challenge: existing metrics either flatten tables into text, ignoring structure, or rely on fixed references that limit generalization. We present TabReX, a reference-less, property-driven framework for evaluating tabular generation via graph-based reasoning. TabReX converts both source text and generated tables into canonical knowledge graphs, aligns them through an LLM-guided matching process, and computes interpretable, rubric-aware scores that quantify structural and factual fidelity. The resulting metric provides controllable trade-offs between sensitivity and specificity, yielding human-aligned judgments and cell-level error traces. To systematically asses metric robustness, we introduce TabReX-Bench, a large-scale benchmark spanning six domains and twelve planner-driven perturbation types across three difficulty tiers. Empirical results show that TabReX achieves the highest correlation with expert rankings, remains stable under harder perturbations, and enables fine-grained model-vs-prompt analysis establishing a new paradigm for trustworthy, explainable evaluation of structured generation systems.
PDF11December 21, 2025