ChatPaper.aiChatPaper

LTD-Bench: 대규모 언어 모델의 도해 능력 평가

LTD-Bench: Evaluating Large Language Models by Letting Them Draw

November 4, 2025
저자: Liuhao Lin, Ke Li, Zihan Xu, Yuchen Shi, Yulei Qin, Yan Zhang, Xing Sun, Rongrong Ji
cs.AI

초록

대규모 언어 모델(LLM)의 현재 평가 패러다임은 AI 연구의 중요한 맹점으로 작용합니다. 공간 추론의 근본적 한계를 은폐하는 불투명한 수치 지표에 의존하면서 모델 능력에 대한 직관적 이해를 제공하지 못하기 때문입니다. 이러한 결함은 보고된 성능과 실제 능력 사이에 위험한 괴리를 만들어내며, 특히 물리적 세계 이해가 필요한 응용 분야에서 두드러집니다. 본 연구에서는 모델이 점 행렬을 통한 그림 그리기 또는 실행 가능한 코드 생성을 요구하는 방식으로 LLM 평가를 추상적인 점수에서 직접 관찰 가능한 시각적 결과로 전환하는 획기적인 벤치마크인 LTD-Bench를 소개합니다. 이 접근법은 비전문가에게도 공간 추론의 한계를 즉시 드러내어 통계적 성능과 직관적 평가 사이의 근본적 격차를 해소합니다. LTD-Bench는 세 단계의 점진적 난이도로 보완적 생성 과제(공간 상상력 테스트)와 인식 과제(공간 지각력 평가)를 포함한 포괄적 방법론을 구현하며, 중요한 언어-공간 매핑의 양방향을 체계적으로 평가합니다. 최첨단 모델을 대상으로 한 광범위한 실험은 놀라운 능력 격차를 드러냈습니다: 기존 벤치마크에서 인상적인 결과를 달성한 LLM조차 언어와 공간 개념 간의 양방향 매핑 수립에 깊은 결함을 보였으며, 이는 진정한 세계 모델로서의 잠재력을 훼손하는 근본적 한계입니다. 나아가 LTD-Bench의 시각적 결과는 강력한 진단 분석을 가능하게 하여 모델 유사성 연구를 위한 잠재적 접근법을 제시합니다.
English
Current evaluation paradigms for large language models (LLMs) represent a critical blind spot in AI research--relying on opaque numerical metrics that conceal fundamental limitations in spatial reasoning while providing no intuitive understanding of model capabilities. This deficiency creates a dangerous disconnect between reported performance and practical abilities, particularly for applications requiring physical world understanding. We introduce LTD-Bench, a breakthrough benchmark that transforms LLM evaluation from abstract scores to directly observable visual outputs by requiring models to generate drawings through dot matrices or executable code. This approach makes spatial reasoning limitations immediately apparent even to non-experts, bridging the fundamental gap between statistical performance and intuitive assessment. LTD-Bench implements a comprehensive methodology with complementary generation tasks (testing spatial imagination) and recognition tasks (assessing spatial perception) across three progressively challenging difficulty levels, methodically evaluating both directions of the critical language-spatial mapping. Our extensive experiments with state-of-the-art models expose an alarming capability gap: even LLMs achieving impressive results on traditional benchmarks demonstrate profound deficiencies in establishing bidirectional mappings between language and spatial concept--a fundamental limitation that undermines their potential as genuine world models. Furthermore, LTD-Bench's visual outputs enable powerful diagnostic analysis, offering a potential approach to investigate model similarity.
PDF81December 2, 2025