ChatPaper.aiChatPaper

LINGOLY-TOO: Entflechtung von Auswendiglernen und logischem Denken durch linguistische Templatisierung und orthografische Verschleierung

LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

March 4, 2025
Autoren: Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi
cs.AI

Zusammenfassung

Die effektive Bewertung der Fähigkeiten großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung ist anfällig für Überschätzungen aufgrund der Datenexposition von Evaluierungsbenchmarks. Wir stellen ein Framework zur Erstellung linguistischer Denkprobleme vor, das den Einfluss von Auswendiglernen auf die Leistungsschätzungen von Modellen reduziert, und wenden dieses Framework an, um LINGOLY-TOO zu entwickeln, einen anspruchsvollen Evaluierungsbenchmark für linguistisches Denken. Durch die Entwicklung orthografischer Vorlagen verschleiern wir die Schriftsysteme realer Sprachen dynamisch, um zahlreiche Fragenvariationen zu generieren. Diese Variationen bewahren die für jede Lösung erforderlichen Denkschritte, während sie die Wahrscheinlichkeit verringern, dass spezifische Problembeispiele in den Trainingsdaten der Modelle auftauchen. Unsere Experimente zeigen, dass Spitzenmodelle, einschließlich OpenAI o1-preview und DeepSeem R1, mit fortgeschrittenem logischen Denken Schwierigkeiten haben. Unsere Analyse zeigt auch, dass LLMs eine merkliche Varianz in der Genauigkeit bei Permutationen desselben Problems aufweisen und im Durchschnitt besser bei Fragen abschneiden, die in ihrer ursprünglichen Orthografie erscheinen. Unsere Ergebnisse unterstreichen die undurchsichtige Natur der Antwortgenerierung in LLMs und liefern Belege dafür, dass frühere Datenexposition zur Überschätzung der Denkfähigkeiten von Spitzenmodellen beiträgt.
English
Effective evaluation of the reasoning capabilities of large language models (LLMs) are susceptible to overestimation due to data exposure of evaluation benchmarks. We introduce a framework for producing linguistic reasoning problems that reduces the effect of memorisation in model performance estimates and apply this framework to develop LINGOLY-TOO, a challenging evaluation benchmark for linguistic reasoning. By developing orthographic templates, we dynamically obfuscate the writing systems of real languages to generate numerous question variations. These variations preserve the reasoning steps required for each solution while reducing the likelihood of specific problem instances appearing in model training data. Our experiments demonstrate that frontier models, including OpenAI o1-preview and DeepSeem R1, struggle with advanced reasoning. Our analysis also shows that LLMs exhibit noticeable variance in accuracy across permutations of the same problem, and on average perform better on questions appearing in their original orthography. Our findings highlight the opaque nature of response generation in LLMs and provide evidence that prior data exposure contributes to overestimating the reasoning capabilities of frontier models.

Summary

AI-Generated Summary

PDF253March 7, 2025