TabReX: Бесссылочная объяснимая оценка табличных данных
TabReX : Tabular Referenceless eXplainable Evaluation
December 17, 2025
Авторы: Tejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta
cs.AI
Аннотация
Оценка качества таблиц, генерируемых большими языковыми моделями (БЯМ), остается открытой проблемой: существующие метрики либо преобразуют таблицы в плоский текст, игнорируя структуру, либо опираются на фиксированные эталоны, что ограничивает их обобщающую способность. Мы представляем TabReX — беэталонную, свойственно-ориентированную систему для оценки табличной генерации на основе графовых рассуждений. TabReX преобразует исходный текст и генерируемые таблицы в канонические графы знаний, выравнивает их с помощью процесса сопоставления, управляемого БЯМ, и вычисляет интерпретируемые оценки, учитывающие критерии рубрики, которые количественно определяют структурную и фактическую достоверность. Результирующая метрика обеспечивает контролируемый баланс между чувствительностью и специфичностью, давая согласованные с человеческими суждения оценки и трассировку ошибок на уровне ячеек. Для систематической оценки устойчивости метрики мы представляем TabReX-Bench — масштабный эталонный набор данных, охватывающий шесть предметных областей и двенадцать типов возмущений, управляемых планировщиком, по трем уровням сложности. Эмпирические результаты показывают, что TabReX достигает наивысшей корреляции с экспертными ранжированиями, остается стабильной при более сложных возмущениях и позволяет проводить детальный анализ «модель против промпта», устанавливая новую парадигму для достоверной и объяснимой оценки систем структурированной генерации.
English
Evaluating the quality of tables generated by large language models (LLMs) remains an open challenge: existing metrics either flatten tables into text, ignoring structure, or rely on fixed references that limit generalization. We present TabReX, a reference-less, property-driven framework for evaluating tabular generation via graph-based reasoning. TabReX converts both source text and generated tables into canonical knowledge graphs, aligns them through an LLM-guided matching process, and computes interpretable, rubric-aware scores that quantify structural and factual fidelity. The resulting metric provides controllable trade-offs between sensitivity and specificity, yielding human-aligned judgments and cell-level error traces. To systematically asses metric robustness, we introduce TabReX-Bench, a large-scale benchmark spanning six domains and twelve planner-driven perturbation types across three difficulty tiers. Empirical results show that TabReX achieves the highest correlation with expert rankings, remains stable under harder perturbations, and enables fine-grained model-vs-prompt analysis establishing a new paradigm for trustworthy, explainable evaluation of structured generation systems.