ChatPaper.aiChatPaper

Non Verbis, Sed Rebus : Les grands modèles de langage sont des solveurs faibles des rébus italiens

Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

August 1, 2024
Auteurs: Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza
cs.AI

Résumé

Les rébus sont des énigmes qui nécessitent un raisonnement multi-étapes contraint pour identifier une phrase cachée à partir d'un ensemble d'images et de lettres. Dans ce travail, nous introduisons une vaste collection de rébus verbalisés pour la langue italienne et l'utilisons pour évaluer les capacités de résolution de rébus des modèles de langage de pointe. Bien que les systèmes généralistes tels que LLaMA-3 et GPT-4o obtiennent de faibles performances sur cette tâche, un ajustement ad hoc semble améliorer les performances des modèles. Cependant, nous constatons que les gains de performance obtenus grâce à l'entraînement sont largement motivés par la mémorisation. Nos résultats suggèrent que la résolution de rébus reste un banc d'essai difficile pour évaluer la maîtrise linguistique et les compétences de suivi séquentiel des instructions des modèles de langage de grande taille.
English
Rebuses are puzzles requiring constrained multi-step reasoning to identify a hidden phrase from a set of images and letters. In this work, we introduce a large collection of verbalized rebuses for the Italian language and use it to assess the rebus-solving capabilities of state-of-the-art large language models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly on this task, ad-hoc fine-tuning seems to improve models' performance. However, we find that performance gains from training are largely motivated by memorization. Our results suggest that rebus solving remains a challenging test bed to evaluate large language models' linguistic proficiency and sequential instruction-following skills.

Summary

AI-Generated Summary

PDF72November 28, 2024