ChatPaper.aiChatPaper

LINGOLY-TOO: Het Ontwarren van Memoriseerbaarheid en Redeneren met Linguïstische Sjabloonvorming en Orthografische Verhulling

LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

March 4, 2025
Auteurs: Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi
cs.AI

Samenvatting

Effectieve evaluatie van de redeneervaardigheden van grote taalmmodellen (LLM's) is vatbaar voor overschatting vanwege de blootstelling van evaluatiebenchmarks aan data. We introduceren een raamwerk voor het produceren van linguïstische redeneerproblemen dat het effect van memorisatie op modelprestatie-inschattingen vermindert en passen dit raamwerk toe om LINGOLY-TOO te ontwikkelen, een uitdagende evaluatiebenchmark voor linguïstisch redeneren. Door orthografische sjablonen te ontwikkelen, verhullen we dynamisch de schriftsystemen van echte talen om talloze vraagvarianten te genereren. Deze varianten behouden de redeneerstappen die voor elke oplossing nodig zijn, terwijl de kans wordt verkleind dat specifieke probleeminstanties in de trainingsdata van het model voorkomen. Onze experimenten tonen aan dat frontiermodellen, waaronder OpenAI o1-preview en DeepSeem R1, moeite hebben met geavanceerd redeneren. Onze analyse laat ook zien dat LLM's aanzienlijke variatie in nauwkeurigheid vertonen bij permutaties van hetzelfde probleem en gemiddeld beter presteren op vragen die in hun oorspronkelijke orthografie voorkomen. Onze bevindingen benadrukken de ondoorzichtige aard van antwoordgeneratie in LLM's en leveren bewijs dat eerdere data-blootstelling bijdraagt aan het overschatten van de redeneervaardigheden van frontiermodellen.
English
Effective evaluation of the reasoning capabilities of large language models (LLMs) are susceptible to overestimation due to data exposure of evaluation benchmarks. We introduce a framework for producing linguistic reasoning problems that reduces the effect of memorisation in model performance estimates and apply this framework to develop LINGOLY-TOO, a challenging evaluation benchmark for linguistic reasoning. By developing orthographic templates, we dynamically obfuscate the writing systems of real languages to generate numerous question variations. These variations preserve the reasoning steps required for each solution while reducing the likelihood of specific problem instances appearing in model training data. Our experiments demonstrate that frontier models, including OpenAI o1-preview and DeepSeem R1, struggle with advanced reasoning. Our analysis also shows that LLMs exhibit noticeable variance in accuracy across permutations of the same problem, and on average perform better on questions appearing in their original orthography. Our findings highlight the opaque nature of response generation in LLMs and provide evidence that prior data exposure contributes to overestimating the reasoning capabilities of frontier models.

Summary

AI-Generated Summary

PDF253March 7, 2025