ChatPaper.aiChatPaper

TabReX: 참조 없는 표 형식 설명 가능 평가

TabReX : Tabular Referenceless eXplainable Evaluation

December 17, 2025
저자: Tejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta
cs.AI

초록

대규모 언어 모델(LLM)이 생성한 표의 품질을 평가하는 것은 여전히 해결되지 않은 과제로 남아 있습니다: 기존 평가 지표는 구조를 무시한 채 표를 텍스트로 평면화하거나 일반화를 제한하는 고정된 참조에 의존합니다. 본 논문에서는 그래프 기반 추론을 통해 표 생성 평가를 수행하는 참조 없음(reference-less) 및 속성 주도(property-driven) 프레임워크인 TabReX를 제안합니다. TabReX는 원본 텍스트와 생성된 표를 표준 지식 그래프로 변환하고, LLM 기반 매칭 프로세스를 통해 정렬하며, 구조적 및 사실적 정확도를 정량화하는 해석 가능하고 루브릭 인식(rubbrubric-aware) 점수를 계산합니다. 이를 통해 민감도와 특이도 간 제어 가능한 균형을 제공하며, 인간의 판단과 일치하는 평가 및 셀 수준 오류 추적을 가능하게 합니다. 평가 지표의 강건성을 체계적으로 평가하기 위해 6개 도메인과 3개 난이도 계층에 걸친 12가지 플래너 주도(planner-driven) 변형 유형을 포함하는 대규모 벤치마크인 TabReX-Bench를 도입합니다. 실험 결과, TabReX는 전문가 순위와 가장 높은 상관관계를 달성하며, 더 어려운 변형 조건에서도 안정적인 성능을 유지하고, 세분화된 모델 대 프롬프트 분석을 가능하게 하여 구조化 생성 시스템에 대한 신뢰할 수 있고 설명 가능한 평가의 새로운 패러다임을 정립합니다.
English
Evaluating the quality of tables generated by large language models (LLMs) remains an open challenge: existing metrics either flatten tables into text, ignoring structure, or rely on fixed references that limit generalization. We present TabReX, a reference-less, property-driven framework for evaluating tabular generation via graph-based reasoning. TabReX converts both source text and generated tables into canonical knowledge graphs, aligns them through an LLM-guided matching process, and computes interpretable, rubric-aware scores that quantify structural and factual fidelity. The resulting metric provides controllable trade-offs between sensitivity and specificity, yielding human-aligned judgments and cell-level error traces. To systematically asses metric robustness, we introduce TabReX-Bench, a large-scale benchmark spanning six domains and twelve planner-driven perturbation types across three difficulty tiers. Empirical results show that TabReX achieves the highest correlation with expert rankings, remains stable under harder perturbations, and enables fine-grained model-vs-prompt analysis establishing a new paradigm for trustworthy, explainable evaluation of structured generation systems.
PDF11December 20, 2025