Não por Palavras, Mas por Coisas: Modelos de Linguagem Grandes são Solucionadores Fracos de Enigmas Italianos.

Resumo

Os rebuses são quebra-cabeças que exigem um raciocínio multi-etapa restrito para identificar uma frase oculta a partir de um conjunto de imagens e letras. Neste trabalho, apresentamos uma grande coleção de rebuses verbalizados para a língua italiana e a utilizamos para avaliar as capacidades de resolução de rebuses de modelos de linguagem de última geração. Enquanto sistemas de propósito geral como LLaMA-3 e GPT-4o apresentam baixo desempenho nessa tarefa, ajustes finos ad hoc parecem melhorar o desempenho dos modelos. No entanto, descobrimos que os ganhos de desempenho provenientes do treinamento são amplamente motivados pela memorização. Nossos resultados sugerem que a resolução de rebuses continua sendo um campo de testes desafiador para avaliar a proficiência linguística e as habilidades de seguir instruções sequenciais de grandes modelos de linguagem.

English

Rebuses are puzzles requiring constrained multi-step reasoning to identify a hidden phrase from a set of images and letters. In this work, we introduce a large collection of verbalized rebuses for the Italian language and use it to assess the rebus-solving capabilities of state-of-the-art large language models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly on this task, ad-hoc fine-tuning seems to improve models' performance. However, we find that performance gains from training are largely motivated by memorization. Our results suggest that rebus solving remains a challenging test bed to evaluate large language models' linguistic proficiency and sequential instruction-following skills.

Não por Palavras, Mas por Coisas: Modelos de Linguagem Grandes são Solucionadores Fracos de Enigmas Italianos.

Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

Resumo

Support