Non Verbis, Sed Rebus : Les grands modèles de langage sont des solveurs faibles des rébus italiens
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses
August 1, 2024
Auteurs: Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza
cs.AI
Résumé
Les rébus sont des énigmes qui nécessitent un raisonnement multi-étapes contraint pour identifier une phrase cachée à partir d'un ensemble d'images et de lettres. Dans ce travail, nous introduisons une vaste collection de rébus verbalisés pour la langue italienne et l'utilisons pour évaluer les capacités de résolution de rébus des modèles de langage de pointe. Bien que les systèmes généralistes tels que LLaMA-3 et GPT-4o obtiennent de faibles performances sur cette tâche, un ajustement ad hoc semble améliorer les performances des modèles. Cependant, nous constatons que les gains de performance obtenus grâce à l'entraînement sont largement motivés par la mémorisation. Nos résultats suggèrent que la résolution de rébus reste un banc d'essai difficile pour évaluer la maîtrise linguistique et les compétences de suivi séquentiel des instructions des modèles de langage de grande taille.
English
Rebuses are puzzles requiring constrained multi-step reasoning to identify a
hidden phrase from a set of images and letters. In this work, we introduce a
large collection of verbalized rebuses for the Italian language and use it to
assess the rebus-solving capabilities of state-of-the-art large language
models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly
on this task, ad-hoc fine-tuning seems to improve models' performance. However,
we find that performance gains from training are largely motivated by
memorization. Our results suggest that rebus solving remains a challenging test
bed to evaluate large language models' linguistic proficiency and sequential
instruction-following skills.Summary
AI-Generated Summary