TabReX: Avaliação Explicável sem Referência para Dados Tabulares

Resumo

A avaliação da qualidade de tabelas geradas por modelos de linguagem de grande porte (LLMs) permanece um desafio em aberto: as métricas existentes ou simplificam as tabelas em texto, ignorando a estrutura, ou dependem de referências fixas que limitam a generalização. Apresentamos o TabReX, uma estrutura de avaliação sem referência e orientada por propriedades para a geração tabular, baseada em raciocínio gráfico. O TabReX converte tanto o texto fonte quanto as tabelas geradas em grafos de conhecimento canônicos, alinha-os através de um processo de correspondência guiado por LLM e calcula escores interpretáveis e conscientes de rubricas que quantificam a fidelidade estrutural e factual. A métrica resultante oferece compensações controláveis entre sensibilidade e especificidade, produzindo julgamentos alinhados com avaliações humanas e rastreamentos de erro a nível de célula. Para avaliar sistematicamente a robustez da métrica, introduzimos o TabReX-Bench, um benchmark de larga escala abrangendo seis domínios e doze tipos de perturbação orientados por planejamento, distribuídos por três níveis de dificuldade. Resultados empíricos mostram que o TabReX alcança a maior correlação com rankings de especialistas, mantém-se estável sob perturbações mais difíceis e permite uma análise granular de modelo versus *prompt*, estabelecendo um novo paradigma para a avaliação confiável e explicável de sistemas de geração estruturada.

English

Evaluating the quality of tables generated by large language models (LLMs) remains an open challenge: existing metrics either flatten tables into text, ignoring structure, or rely on fixed references that limit generalization. We present TabReX, a reference-less, property-driven framework for evaluating tabular generation via graph-based reasoning. TabReX converts both source text and generated tables into canonical knowledge graphs, aligns them through an LLM-guided matching process, and computes interpretable, rubric-aware scores that quantify structural and factual fidelity. The resulting metric provides controllable trade-offs between sensitivity and specificity, yielding human-aligned judgments and cell-level error traces. To systematically asses metric robustness, we introduce TabReX-Bench, a large-scale benchmark spanning six domains and twelve planner-driven perturbation types across three difficulty tiers. Empirical results show that TabReX achieves the highest correlation with expert rankings, remains stable under harder perturbations, and enables fine-grained model-vs-prompt analysis establishing a new paradigm for trustworthy, explainable evaluation of structured generation systems.

TabReX: Avaliação Explicável sem Referência para Dados Tabulares

TabReX : Tabular Referenceless eXplainable Evaluation

Resumo

Support