LINGOLY-TOO: Separare la memorizzazione dal ragionamento attraverso la templatizzazione linguistica e l'offuscamento ortografico

Abstract

La valutazione efficace delle capacità di ragionamento dei grandi modelli linguistici (LLM) è soggetta a sovrastima a causa dell'esposizione dei benchmark di valutazione ai dati. Introduciamo un framework per la produzione di problemi di ragionamento linguistico che riduce l'effetto della memorizzazione nelle stime delle prestazioni del modello e applichiamo questo framework per sviluppare LINGOLY-TOO, un benchmark di valutazione impegnativo per il ragionamento linguistico. Sviluppando modelli ortografici, oscuriamo dinamicamente i sistemi di scrittura delle lingue reali per generare numerose variazioni di domande. Queste variazioni preservano i passaggi di ragionamento necessari per ogni soluzione, riducendo al contempo la probabilità che specifiche istanze di problemi compaiano nei dati di addestramento del modello. I nostri esperimenti dimostrano che i modelli all'avanguardia, tra cui OpenAI o1-preview e DeepSeem R1, hanno difficoltà con il ragionamento avanzato. La nostra analisi mostra inoltre che i LLM presentano una variazione significativa nell'accuratezza tra le permutazioni dello stesso problema e, in media, ottengono risultati migliori sulle domande che appaiono nella loro ortografia originale. I nostri risultati evidenziano la natura opaca della generazione delle risposte nei LLM e forniscono prove che la precedente esposizione ai dati contribuisce a sovrastimare le capacità di ragionamento dei modelli all'avanguardia.

English

Effective evaluation of the reasoning capabilities of large language models (LLMs) are susceptible to overestimation due to data exposure of evaluation benchmarks. We introduce a framework for producing linguistic reasoning problems that reduces the effect of memorisation in model performance estimates and apply this framework to develop LINGOLY-TOO, a challenging evaluation benchmark for linguistic reasoning. By developing orthographic templates, we dynamically obfuscate the writing systems of real languages to generate numerous question variations. These variations preserve the reasoning steps required for each solution while reducing the likelihood of specific problem instances appearing in model training data. Our experiments demonstrate that frontier models, including OpenAI o1-preview and DeepSeem R1, struggle with advanced reasoning. Our analysis also shows that LLMs exhibit noticeable variance in accuracy across permutations of the same problem, and on average perform better on questions appearing in their original orthography. Our findings highlight the opaque nature of response generation in LLMs and provide evidence that prior data exposure contributes to overestimating the reasoning capabilities of frontier models.

LINGOLY-TOO: Separare la memorizzazione dal ragionamento attraverso la templatizzazione linguistica e l'offuscamento ortografico

LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

Abstract

Support