LINGOLY-TOO : Distinguer la mémorisation du raisonnement par la templatisation linguistique et l'obfuscation orthographique

Résumé

L'évaluation efficace des capacités de raisonnement des grands modèles de langage (LLMs) est sujette à une surestimation en raison de l'exposition des benchmarks d'évaluation aux données d'entraînement. Nous introduisons un cadre pour produire des problèmes de raisonnement linguistique qui réduit l'effet de la mémorisation sur les estimations de performance des modèles, et appliquons ce cadre pour développer LINGOLY-TOO, un benchmark d'évaluation exigeant pour le raisonnement linguistique. En développant des modèles orthographiques, nous masquons dynamiquement les systèmes d'écriture des langues réelles pour générer de nombreuses variations de questions. Ces variations préservent les étapes de raisonnement nécessaires à chaque solution tout en réduisant la probabilité que des instances spécifiques de problèmes apparaissent dans les données d'entraînement des modèles. Nos expériences démontrent que les modèles de pointe, y compris OpenAI o1-preview et DeepSeem R1, rencontrent des difficultés avec le raisonnement avancé. Notre analyse montre également que les LLMs présentent une variance notable dans leur précision selon les permutations d'un même problème, et qu'en moyenne, ils performent mieux sur les questions apparaissant dans leur orthographe originale. Nos résultats mettent en lumière la nature opaque de la génération de réponses dans les LLMs et fournissent des preuves que l'exposition antérieure aux données contribue à surestimer les capacités de raisonnement des modèles de pointe.

English

Effective evaluation of the reasoning capabilities of large language models (LLMs) are susceptible to overestimation due to data exposure of evaluation benchmarks. We introduce a framework for producing linguistic reasoning problems that reduces the effect of memorisation in model performance estimates and apply this framework to develop LINGOLY-TOO, a challenging evaluation benchmark for linguistic reasoning. By developing orthographic templates, we dynamically obfuscate the writing systems of real languages to generate numerous question variations. These variations preserve the reasoning steps required for each solution while reducing the likelihood of specific problem instances appearing in model training data. Our experiments demonstrate that frontier models, including OpenAI o1-preview and DeepSeem R1, struggle with advanced reasoning. Our analysis also shows that LLMs exhibit noticeable variance in accuracy across permutations of the same problem, and on average perform better on questions appearing in their original orthography. Our findings highlight the opaque nature of response generation in LLMs and provide evidence that prior data exposure contributes to overestimating the reasoning capabilities of frontier models.

LINGOLY-TOO : Distinguer la mémorisation du raisonnement par la templatisation linguistique et l'obfuscation orthographique

LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

Résumé

Support