LINGOLY-TOO: 언어적 템플릿화와 철자적 난독화를 통해 기억과 추론 분리하기
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation
March 4, 2025
저자: Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi
cs.AI
초록
대규모 언어 모델(LLM)의 추론 능력을 효과적으로 평가하는 것은 평가 벤치마크의 데이터 노출로 인해 과대평가될 가능성이 높다. 우리는 모델 성능 추정에서 암기의 영향을 줄이는 언어적 추론 문제를 생성하기 위한 프레임워크를 소개하고, 이를 적용하여 언어적 추론을 위한 도전적인 평가 벤치마크인 LINGOLY-TOO를 개발했다. 우리는 표기법 템플릿을 개발하여 실제 언어의 문자 체계를 동적으로 은폐함으로써 다양한 질문 변형을 생성한다. 이러한 변형은 각 해결책에 필요한 추론 단계를 보존하면서도 특정 문제 사례가 모델 학습 데이터에 나타날 가능성을 줄인다. 우리의 실험은 OpenAI o1-preview와 DeepSeem R1을 포함한 최첨단 모델들이 고급 추론에서 어려움을 겪는 것을 보여준다. 또한 우리의 분석은 LLM이 동일한 문제의 순열에 대해 정확도에서 눈에 띄는 차이를 보이며, 평균적으로 원래 표기법으로 나타난 질문에서 더 나은 성능을 보인다는 것을 보여준다. 우리의 연구 결과는 LLM의 응답 생성의 불투명한 특성을 강조하고, 이전 데이터 노출이 최첨단 모델들의 추론 능력을 과대평가하는 데 기여한다는 증거를 제공한다.
English
Effective evaluation of the reasoning capabilities of large language models
(LLMs) are susceptible to overestimation due to data exposure of evaluation
benchmarks. We introduce a framework for producing linguistic reasoning
problems that reduces the effect of memorisation in model performance estimates
and apply this framework to develop LINGOLY-TOO, a challenging evaluation
benchmark for linguistic reasoning. By developing orthographic templates, we
dynamically obfuscate the writing systems of real languages to generate
numerous question variations. These variations preserve the reasoning steps
required for each solution while reducing the likelihood of specific problem
instances appearing in model training data. Our experiments demonstrate that
frontier models, including OpenAI o1-preview and DeepSeem R1, struggle with
advanced reasoning. Our analysis also shows that LLMs exhibit noticeable
variance in accuracy across permutations of the same problem, and on average
perform better on questions appearing in their original orthography. Our
findings highlight the opaque nature of response generation in LLMs and provide
evidence that prior data exposure contributes to overestimating the reasoning
capabilities of frontier models.Summary
AI-Generated Summary