ChatPaper.aiChatPaper

Nicht mit Worten, sondern mit Dingen: Große Sprachmodelle sind schwache Löser von italienischen Bilderrätseln.

Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

August 1, 2024
Autoren: Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza
cs.AI

Zusammenfassung

Rebuse sind Rätsel, die eingeschränktes, mehrstufiges Denken erfordern, um einen versteckten Ausdruck aus einer Reihe von Bildern und Buchstaben zu identifizieren. In dieser Arbeit stellen wir eine umfangreiche Sammlung verbalisierter Rebuse für die italienische Sprache vor und verwenden sie, um die Fähigkeiten von modernen Sprachmodellen bei der Lösung von Rebussen zu bewerten. Während allgemeine Systeme wie LLaMA-3 und GPT-4o bei dieser Aufgabe schlecht abschneiden, scheint eine spezielle Feinabstimmung die Leistung der Modelle zu verbessern. Allerdings stellen wir fest, dass die Leistungssteigerungen durch das Training weitgehend durch das Auswendiglernen motiviert sind. Unsere Ergebnisse legen nahe, dass das Lösen von Rebussen nach wie vor ein anspruchsvoller Test ist, um die sprachliche Kompetenz und die Fähigkeiten zur sequenziellen Anweisungsbeachtung großer Sprachmodelle zu bewerten.
English
Rebuses are puzzles requiring constrained multi-step reasoning to identify a hidden phrase from a set of images and letters. In this work, we introduce a large collection of verbalized rebuses for the Italian language and use it to assess the rebus-solving capabilities of state-of-the-art large language models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly on this task, ad-hoc fine-tuning seems to improve models' performance. However, we find that performance gains from training are largely motivated by memorization. Our results suggest that rebus solving remains a challenging test bed to evaluate large language models' linguistic proficiency and sequential instruction-following skills.

Summary

AI-Generated Summary

PDF72November 28, 2024