LINGOLY-TOO: Separare la memorizzazione dal ragionamento attraverso la templatizzazione linguistica e l'offuscamento ortografico
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation
March 4, 2025
Autori: Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi
cs.AI
Abstract
La valutazione efficace delle capacità di ragionamento dei grandi modelli linguistici (LLM) è soggetta a sovrastima a causa dell'esposizione dei benchmark di valutazione ai dati. Introduciamo un framework per la produzione di problemi di ragionamento linguistico che riduce l'effetto della memorizzazione nelle stime delle prestazioni del modello e applichiamo questo framework per sviluppare LINGOLY-TOO, un benchmark di valutazione impegnativo per il ragionamento linguistico. Sviluppando modelli ortografici, oscuriamo dinamicamente i sistemi di scrittura delle lingue reali per generare numerose variazioni di domande. Queste variazioni preservano i passaggi di ragionamento necessari per ogni soluzione, riducendo al contempo la probabilità che specifiche istanze di problemi compaiano nei dati di addestramento del modello. I nostri esperimenti dimostrano che i modelli all'avanguardia, tra cui OpenAI o1-preview e DeepSeem R1, hanno difficoltà con il ragionamento avanzato. La nostra analisi mostra inoltre che i LLM presentano una variazione significativa nell'accuratezza tra le permutazioni dello stesso problema e, in media, ottengono risultati migliori sulle domande che appaiono nella loro ortografia originale. I nostri risultati evidenziano la natura opaca della generazione delle risposte nei LLM e forniscono prove che la precedente esposizione ai dati contribuisce a sovrastimare le capacità di ragionamento dei modelli all'avanguardia.
English
Effective evaluation of the reasoning capabilities of large language models
(LLMs) are susceptible to overestimation due to data exposure of evaluation
benchmarks. We introduce a framework for producing linguistic reasoning
problems that reduces the effect of memorisation in model performance estimates
and apply this framework to develop LINGOLY-TOO, a challenging evaluation
benchmark for linguistic reasoning. By developing orthographic templates, we
dynamically obfuscate the writing systems of real languages to generate
numerous question variations. These variations preserve the reasoning steps
required for each solution while reducing the likelihood of specific problem
instances appearing in model training data. Our experiments demonstrate that
frontier models, including OpenAI o1-preview and DeepSeem R1, struggle with
advanced reasoning. Our analysis also shows that LLMs exhibit noticeable
variance in accuracy across permutations of the same problem, and on average
perform better on questions appearing in their original orthography. Our
findings highlight the opaque nature of response generation in LLMs and provide
evidence that prior data exposure contributes to overestimating the reasoning
capabilities of frontier models.Summary
AI-Generated Summary