No con Palabras, Sino con Cosas: Los Modelos de Lenguaje Grandes son Solucionadores Débiles de Adivinanzas en Italiano

Resumen

Los rebuses son acertijos que requieren un razonamiento multietapa restringido para identificar una frase oculta a partir de un conjunto de imágenes y letras. En este trabajo, presentamos una amplia colección de rebuses verbalizados para el idioma italiano y la utilizamos para evaluar las capacidades de resolución de rebuses de modelos de lenguaje grandes de última generación. Mientras que sistemas de propósito general como LLaMA-3 y GPT-4o tienen un desempeño deficiente en esta tarea, el ajuste fino ad-hoc parece mejorar el rendimiento de los modelos. Sin embargo, encontramos que las mejoras de rendimiento derivadas del entrenamiento están motivadas en gran medida por la memorización. Nuestros resultados sugieren que la resolución de rebuses sigue siendo una prueba desafiante para evaluar la competencia lingüística y las habilidades de seguimiento de instrucciones secuenciales de los modelos de lenguaje grandes.

English

Rebuses are puzzles requiring constrained multi-step reasoning to identify a hidden phrase from a set of images and letters. In this work, we introduce a large collection of verbalized rebuses for the Italian language and use it to assess the rebus-solving capabilities of state-of-the-art large language models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly on this task, ad-hoc fine-tuning seems to improve models' performance. However, we find that performance gains from training are largely motivated by memorization. Our results suggest that rebus solving remains a challenging test bed to evaluate large language models' linguistic proficiency and sequential instruction-following skills.

No con Palabras, Sino con Cosas: Los Modelos de Lenguaje Grandes son Solucionadores Débiles de Adivinanzas en Italiano

Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

Resumen

Support