ChatPaper.aiChatPaper

LINGOLY-TOO: Desenredando la memorización del razonamiento mediante la plantilla lingüística y la ofuscación ortográfica

LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

March 4, 2025
Autores: Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi
cs.AI

Resumen

La evaluación efectiva de las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs) es susceptible de sobreestimación debido a la exposición de datos en los benchmarks de evaluación. Introducimos un marco para generar problemas de razonamiento lingüístico que reduce el efecto de la memorización en las estimaciones del rendimiento del modelo, y aplicamos este marco para desarrollar LINGOLY-TOO, un benchmark de evaluación desafiante para el razonamiento lingüístico. Mediante el desarrollo de plantillas ortográficas, ofuscamos dinámicamente los sistemas de escritura de lenguas reales para generar numerosas variaciones de preguntas. Estas variaciones preservan los pasos de razonamiento requeridos para cada solución mientras reducen la probabilidad de que instancias específicas de problemas aparezcan en los datos de entrenamiento del modelo. Nuestros experimentos demuestran que los modelos de vanguardia, incluyendo OpenAI o1-preview y DeepSeem R1, tienen dificultades con el razonamiento avanzado. Nuestro análisis también muestra que los LLMs exhiben una variabilidad notable en la precisión entre permutaciones del mismo problema, y en promedio obtienen mejores resultados en preguntas que aparecen en su ortografía original. Nuestros hallazgos resaltan la naturaleza opaca de la generación de respuestas en los LLMs y proporcionan evidencia de que la exposición previa a datos contribuye a sobreestimar las capacidades de razonamiento de los modelos de vanguardia.
English
Effective evaluation of the reasoning capabilities of large language models (LLMs) are susceptible to overestimation due to data exposure of evaluation benchmarks. We introduce a framework for producing linguistic reasoning problems that reduces the effect of memorisation in model performance estimates and apply this framework to develop LINGOLY-TOO, a challenging evaluation benchmark for linguistic reasoning. By developing orthographic templates, we dynamically obfuscate the writing systems of real languages to generate numerous question variations. These variations preserve the reasoning steps required for each solution while reducing the likelihood of specific problem instances appearing in model training data. Our experiments demonstrate that frontier models, including OpenAI o1-preview and DeepSeem R1, struggle with advanced reasoning. Our analysis also shows that LLMs exhibit noticeable variance in accuracy across permutations of the same problem, and on average perform better on questions appearing in their original orthography. Our findings highlight the opaque nature of response generation in LLMs and provide evidence that prior data exposure contributes to overestimating the reasoning capabilities of frontier models.

Summary

AI-Generated Summary

PDF253March 7, 2025