ChatPaper.aiChatPaper

TabReX: Evaluación Explicable Sin Referencia para Datos Tabulares

TabReX : Tabular Referenceless eXplainable Evaluation

December 17, 2025
Autores: Tejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta
cs.AI

Resumen

La evaluación de la calidad de las tablas generada por modelos de lenguaje grandes (LLM) sigue siendo un desafío abierto: las métricas existentes o bien aplanan las tablas a texto, ignorando la estructura, o dependen de referencias fijas que limitan la generalización. Presentamos TabReX, un marco de evaluación sin referencias y basado en propiedades para la generación tabular mediante razonamiento basado en grafos. TabReX convierte tanto el texto fuente como las tablas generadas en grafos de conocimiento canónicos, los alinea mediante un proceso de emparejamiento guiado por un LLM y calcula puntuaciones interpretables y conscientes de rúbricas que cuantifican la fidelidad estructural y fáctica. La métrica resultante proporciona compensaciones controlables entre sensibilidad y especificidad, produciendo juicios alineados con evaluaciones humanas y trazas de error a nivel de celda. Para evaluar sistemáticamente la robustez de la métrica, presentamos TabReX-Bench, un benchmark a gran escala que abarca seis dominios y doce tipos de perturbación impulsados por un planificador en tres niveles de dificultad. Los resultados empíricos muestran que TabReX logra la correlación más alta con las clasificaciones de expertos, se mantiene estable bajo perturbaciones más difíciles y permite un análisis detallado modelo-frente-a-prompt, estableciendo un nuevo paradigma para la evaluación confiable y explicable de sistemas de generación estructurada.
English
Evaluating the quality of tables generated by large language models (LLMs) remains an open challenge: existing metrics either flatten tables into text, ignoring structure, or rely on fixed references that limit generalization. We present TabReX, a reference-less, property-driven framework for evaluating tabular generation via graph-based reasoning. TabReX converts both source text and generated tables into canonical knowledge graphs, aligns them through an LLM-guided matching process, and computes interpretable, rubric-aware scores that quantify structural and factual fidelity. The resulting metric provides controllable trade-offs between sensitivity and specificity, yielding human-aligned judgments and cell-level error traces. To systematically asses metric robustness, we introduce TabReX-Bench, a large-scale benchmark spanning six domains and twelve planner-driven perturbation types across three difficulty tiers. Empirical results show that TabReX achieves the highest correlation with expert rankings, remains stable under harder perturbations, and enables fine-grained model-vs-prompt analysis establishing a new paradigm for trustworthy, explainable evaluation of structured generation systems.
PDF11December 20, 2025