No con Palabras, Sino con Cosas: Los Modelos de Lenguaje Grandes son Solucionadores Débiles de Adivinanzas en Italiano
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses
August 1, 2024
Autores: Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza
cs.AI
Resumen
Los rebuses son acertijos que requieren un razonamiento multietapa restringido para identificar una frase oculta a partir de un conjunto de imágenes y letras. En este trabajo, presentamos una amplia colección de rebuses verbalizados para el idioma italiano y la utilizamos para evaluar las capacidades de resolución de rebuses de modelos de lenguaje grandes de última generación. Mientras que sistemas de propósito general como LLaMA-3 y GPT-4o tienen un desempeño deficiente en esta tarea, el ajuste fino ad-hoc parece mejorar el rendimiento de los modelos. Sin embargo, encontramos que las mejoras de rendimiento derivadas del entrenamiento están motivadas en gran medida por la memorización. Nuestros resultados sugieren que la resolución de rebuses sigue siendo una prueba desafiante para evaluar la competencia lingüística y las habilidades de seguimiento de instrucciones secuenciales de los modelos de lenguaje grandes.
English
Rebuses are puzzles requiring constrained multi-step reasoning to identify a
hidden phrase from a set of images and letters. In this work, we introduce a
large collection of verbalized rebuses for the Italian language and use it to
assess the rebus-solving capabilities of state-of-the-art large language
models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly
on this task, ad-hoc fine-tuning seems to improve models' performance. However,
we find that performance gains from training are largely motivated by
memorization. Our results suggest that rebus solving remains a challenging test
bed to evaluate large language models' linguistic proficiency and sequential
instruction-following skills.Summary
AI-Generated Summary