LINGOLY-TOO : Distinguer la mémorisation du raisonnement par la templatisation linguistique et l'obfuscation orthographique
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation
March 4, 2025
Auteurs: Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi
cs.AI
Résumé
L'évaluation efficace des capacités de raisonnement des grands modèles de langage (LLMs) est sujette à une surestimation en raison de l'exposition des benchmarks d'évaluation aux données d'entraînement. Nous introduisons un cadre pour produire des problèmes de raisonnement linguistique qui réduit l'effet de la mémorisation sur les estimations de performance des modèles, et appliquons ce cadre pour développer LINGOLY-TOO, un benchmark d'évaluation exigeant pour le raisonnement linguistique. En développant des modèles orthographiques, nous masquons dynamiquement les systèmes d'écriture des langues réelles pour générer de nombreuses variations de questions. Ces variations préservent les étapes de raisonnement nécessaires à chaque solution tout en réduisant la probabilité que des instances spécifiques de problèmes apparaissent dans les données d'entraînement des modèles. Nos expériences démontrent que les modèles de pointe, y compris OpenAI o1-preview et DeepSeem R1, rencontrent des difficultés avec le raisonnement avancé. Notre analyse montre également que les LLMs présentent une variance notable dans leur précision selon les permutations d'un même problème, et qu'en moyenne, ils performent mieux sur les questions apparaissant dans leur orthographe originale. Nos résultats mettent en lumière la nature opaque de la génération de réponses dans les LLMs et fournissent des preuves que l'exposition antérieure aux données contribue à surestimer les capacités de raisonnement des modèles de pointe.
English
Effective evaluation of the reasoning capabilities of large language models
(LLMs) are susceptible to overestimation due to data exposure of evaluation
benchmarks. We introduce a framework for producing linguistic reasoning
problems that reduces the effect of memorisation in model performance estimates
and apply this framework to develop LINGOLY-TOO, a challenging evaluation
benchmark for linguistic reasoning. By developing orthographic templates, we
dynamically obfuscate the writing systems of real languages to generate
numerous question variations. These variations preserve the reasoning steps
required for each solution while reducing the likelihood of specific problem
instances appearing in model training data. Our experiments demonstrate that
frontier models, including OpenAI o1-preview and DeepSeem R1, struggle with
advanced reasoning. Our analysis also shows that LLMs exhibit noticeable
variance in accuracy across permutations of the same problem, and on average
perform better on questions appearing in their original orthography. Our
findings highlight the opaque nature of response generation in LLMs and provide
evidence that prior data exposure contributes to overestimating the reasoning
capabilities of frontier models.Summary
AI-Generated Summary