Não por Palavras, Mas por Coisas: Modelos de Linguagem Grandes são Solucionadores Fracos de Enigmas Italianos.
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses
August 1, 2024
Autores: Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza
cs.AI
Resumo
Os rebuses são quebra-cabeças que exigem um raciocínio multi-etapa restrito para identificar uma frase oculta a partir de um conjunto de imagens e letras. Neste trabalho, apresentamos uma grande coleção de rebuses verbalizados para a língua italiana e a utilizamos para avaliar as capacidades de resolução de rebuses de modelos de linguagem de última geração. Enquanto sistemas de propósito geral como LLaMA-3 e GPT-4o apresentam baixo desempenho nessa tarefa, ajustes finos ad hoc parecem melhorar o desempenho dos modelos. No entanto, descobrimos que os ganhos de desempenho provenientes do treinamento são amplamente motivados pela memorização. Nossos resultados sugerem que a resolução de rebuses continua sendo um campo de testes desafiador para avaliar a proficiência linguística e as habilidades de seguir instruções sequenciais de grandes modelos de linguagem.
English
Rebuses are puzzles requiring constrained multi-step reasoning to identify a
hidden phrase from a set of images and letters. In this work, we introduce a
large collection of verbalized rebuses for the Italian language and use it to
assess the rebus-solving capabilities of state-of-the-art large language
models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly
on this task, ad-hoc fine-tuning seems to improve models' performance. However,
we find that performance gains from training are largely motivated by
memorization. Our results suggest that rebus solving remains a challenging test
bed to evaluate large language models' linguistic proficiency and sequential
instruction-following skills.Summary
AI-Generated Summary