ChatPaper.aiChatPaper

Não por Palavras, Mas por Coisas: Modelos de Linguagem Grandes são Solucionadores Fracos de Enigmas Italianos.

Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

August 1, 2024
Autores: Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza
cs.AI

Resumo

Os rebuses são quebra-cabeças que exigem um raciocínio multi-etapa restrito para identificar uma frase oculta a partir de um conjunto de imagens e letras. Neste trabalho, apresentamos uma grande coleção de rebuses verbalizados para a língua italiana e a utilizamos para avaliar as capacidades de resolução de rebuses de modelos de linguagem de última geração. Enquanto sistemas de propósito geral como LLaMA-3 e GPT-4o apresentam baixo desempenho nessa tarefa, ajustes finos ad hoc parecem melhorar o desempenho dos modelos. No entanto, descobrimos que os ganhos de desempenho provenientes do treinamento são amplamente motivados pela memorização. Nossos resultados sugerem que a resolução de rebuses continua sendo um campo de testes desafiador para avaliar a proficiência linguística e as habilidades de seguir instruções sequenciais de grandes modelos de linguagem.
English
Rebuses are puzzles requiring constrained multi-step reasoning to identify a hidden phrase from a set of images and letters. In this work, we introduce a large collection of verbalized rebuses for the Italian language and use it to assess the rebus-solving capabilities of state-of-the-art large language models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly on this task, ad-hoc fine-tuning seems to improve models' performance. However, we find that performance gains from training are largely motivated by memorization. Our results suggest that rebus solving remains a challenging test bed to evaluate large language models' linguistic proficiency and sequential instruction-following skills.

Summary

AI-Generated Summary

PDF72November 28, 2024