ChatPaper.aiChatPaper

LINGOLY-TOO: Desvinculando Memorização de Raciocínio com Modelagem Linguística e Ofuscação Ortográfica

LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

March 4, 2025
Autores: Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi
cs.AI

Resumo

A avaliação eficaz das capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) é suscetível a superestimação devido à exposição de dados em benchmarks de avaliação. Introduzimos um framework para a produção de problemas de raciocínio linguístico que reduz o efeito da memorização nas estimativas de desempenho dos modelos e aplicamos esse framework para desenvolver o LINGOLY-TOO, um benchmark desafiador para avaliação de raciocínio linguístico. Ao desenvolver templates ortográficos, obscurecemos dinamicamente os sistemas de escrita de idiomas reais para gerar diversas variações de questões. Essas variações preservam os passos de raciocínio necessários para cada solução, enquanto reduzem a probabilidade de instâncias específicas de problemas aparecerem nos dados de treinamento dos modelos. Nossos experimentos demonstram que modelos de ponta, incluindo o OpenAI o1-preview e o DeepSeem R1, têm dificuldades com raciocínio avançado. Nossa análise também mostra que os LLMs exibem variação perceptível na precisão entre permutações do mesmo problema e, em média, têm melhor desempenho em questões que aparecem em sua ortografia original. Nossas descobertas destacam a natureza opaca da geração de respostas em LLMs e fornecem evidências de que a exposição prévia a dados contribui para a superestimação das capacidades de raciocínio dos modelos de ponta.
English
Effective evaluation of the reasoning capabilities of large language models (LLMs) are susceptible to overestimation due to data exposure of evaluation benchmarks. We introduce a framework for producing linguistic reasoning problems that reduces the effect of memorisation in model performance estimates and apply this framework to develop LINGOLY-TOO, a challenging evaluation benchmark for linguistic reasoning. By developing orthographic templates, we dynamically obfuscate the writing systems of real languages to generate numerous question variations. These variations preserve the reasoning steps required for each solution while reducing the likelihood of specific problem instances appearing in model training data. Our experiments demonstrate that frontier models, including OpenAI o1-preview and DeepSeem R1, struggle with advanced reasoning. Our analysis also shows that LLMs exhibit noticeable variance in accuracy across permutations of the same problem, and on average perform better on questions appearing in their original orthography. Our findings highlight the opaque nature of response generation in LLMs and provide evidence that prior data exposure contributes to overestimating the reasoning capabilities of frontier models.

Summary

AI-Generated Summary

PDF253March 7, 2025