ChatPaper.aiChatPaper

Non Verbis, Sed Rebus: I Modelli Linguistici di Grandi Dimensioni sono Risolutori Deboli dei Rebus Italiani

Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

August 1, 2024
Autori: Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza
cs.AI

Abstract

I rebus sono enigmi che richiedono un ragionamento vincolato e multi-step per identificare una frase nascosta a partire da un insieme di immagini e lettere. In questo lavoro, introduciamo una vasta raccolta di rebus verbalizzati per la lingua italiana e la utilizziamo per valutare le capacità di risoluzione dei rebus dei modelli linguistici di ultima generazione. Mentre sistemi generalisti come LLaMA-3 e GPT-4o ottengono scarsi risultati in questo compito, un fine-tuning ad hoc sembra migliorare le prestazioni dei modelli. Tuttavia, osserviamo che i guadagni di performance ottenuti con l'addestramento sono in gran parte motivati dalla memorizzazione. I nostri risultati suggeriscono che la risoluzione dei rebus rimane un banco di prova impegnativo per valutare la competenza linguistica e le capacità di seguire istruzioni sequenziali dei modelli linguistici di grandi dimensioni.
English
Rebuses are puzzles requiring constrained multi-step reasoning to identify a hidden phrase from a set of images and letters. In this work, we introduce a large collection of verbalized rebuses for the Italian language and use it to assess the rebus-solving capabilities of state-of-the-art large language models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly on this task, ad-hoc fine-tuning seems to improve models' performance. However, we find that performance gains from training are largely motivated by memorization. Our results suggest that rebus solving remains a challenging test bed to evaluate large language models' linguistic proficiency and sequential instruction-following skills.
PDF72November 28, 2024