ChatPaper.aiChatPaper

TabReX: Tabelvormige Referentieloze Uitlegbare Evaluatie

TabReX : Tabular Referenceless eXplainable Evaluation

December 17, 2025
Auteurs: Tejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta
cs.AI

Samenvatting

Het evalueren van de kwaliteit van tabellen gegenereerd door grote taalmodellen (LLM's) blijft een open uitdaging: bestaande metrieken maken tabellen ofwel plat tot tekst, waarbij de structuur wordt genegeerd, of vertrouwen op vaste referenties die generalisatie beperken. Wij presenteren TabReX, een referentieloos, eigenschapgestuurd raamwerk voor het evalueren van tabelgeneratie via op grafieken gebaseerd redeneren. TabReX zet zowel brontekst als gegenereerde tabellen om in canonieke kennsgrafieken, brengt deze in overeenstemming via een door een LLM geleid matchingproces, en berekent interpreteerbare, rubriekbewuste scores die structurele en feitelijke trouw kwantificeren. De resulterende metriek biedt controleerbare afwegingen tussen gevoeligheid en specificiteit, wat menselijk uitgelijnde oordelen en foutsporen op cel niveau oplevert. Om de robuustheid van de metriek systematisch te beoordelen, introduceren we TabReX-Bench, een grootschalige benchmark die zes domeinen en twaalf door een planner aangedreven verstoringstypen omvat, verdeeld over drie moeilijkheidsniveaus. Empirische resultaten tonen aan dat TabReX de hoogste correlatie met expertrankings bereikt, stabiel blijft onder zwaardere verstoringen, en fijnmazige model-versus-promptanalyse mogelijk maakt, waarmee een nieuw paradigma wordt gevestigd voor betrouwbare, uitlegbare evaluatie van gestructureerde generatiesystemen.
English
Evaluating the quality of tables generated by large language models (LLMs) remains an open challenge: existing metrics either flatten tables into text, ignoring structure, or rely on fixed references that limit generalization. We present TabReX, a reference-less, property-driven framework for evaluating tabular generation via graph-based reasoning. TabReX converts both source text and generated tables into canonical knowledge graphs, aligns them through an LLM-guided matching process, and computes interpretable, rubric-aware scores that quantify structural and factual fidelity. The resulting metric provides controllable trade-offs between sensitivity and specificity, yielding human-aligned judgments and cell-level error traces. To systematically asses metric robustness, we introduce TabReX-Bench, a large-scale benchmark spanning six domains and twelve planner-driven perturbation types across three difficulty tiers. Empirical results show that TabReX achieves the highest correlation with expert rankings, remains stable under harder perturbations, and enables fine-grained model-vs-prompt analysis establishing a new paradigm for trustworthy, explainable evaluation of structured generation systems.
PDF11December 31, 2025