LINGOLY-TOO: 言語テンプレート化と表記難読化による記憶と推論の分離
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation
March 4, 2025
著者: Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi
cs.AI
要旨
大規模言語モデル(LLM)の推論能力を効果的に評価する際、評価ベンチマークのデータ露出による過大評価のリスクが存在します。本研究では、モデルの性能推定における記憶効果を低減する言語的推論問題を生成するフレームワークを提案し、これを応用してLINGOLY-TOOという言語的推論のための挑戦的な評価ベンチマークを開発しました。正書法テンプレートを開発することで、実在する言語の表記体系を動的に難読化し、多数の問題バリエーションを生成します。これらのバリエーションは、各解答に必要な推論ステップを保持しつつ、特定の問題インスタンスがモデルの訓練データに含まれる可能性を低減します。実験の結果、OpenAI o1-previewやDeepSeem R1といった最先端モデルでさえ、高度な推論に苦戦することが明らかになりました。また、LLMは同一問題の順列間で精度に顕著なばらつきを示し、平均的に元の正書法で提示された問題に対してより良い性能を発揮することが分析により示されました。本研究の知見は、LLMの応答生成における不透明性を浮き彫りにし、先行データの露出が最先端モデルの推論能力を過大評価する要因となっていることを示唆しています。
English
Effective evaluation of the reasoning capabilities of large language models
(LLMs) are susceptible to overestimation due to data exposure of evaluation
benchmarks. We introduce a framework for producing linguistic reasoning
problems that reduces the effect of memorisation in model performance estimates
and apply this framework to develop LINGOLY-TOO, a challenging evaluation
benchmark for linguistic reasoning. By developing orthographic templates, we
dynamically obfuscate the writing systems of real languages to generate
numerous question variations. These variations preserve the reasoning steps
required for each solution while reducing the likelihood of specific problem
instances appearing in model training data. Our experiments demonstrate that
frontier models, including OpenAI o1-preview and DeepSeem R1, struggle with
advanced reasoning. Our analysis also shows that LLMs exhibit noticeable
variance in accuracy across permutations of the same problem, and on average
perform better on questions appearing in their original orthography. Our
findings highlight the opaque nature of response generation in LLMs and provide
evidence that prior data exposure contributes to overestimating the reasoning
capabilities of frontier models.Summary
AI-Generated Summary