ChatPaper.aiChatPaper

Не словами, а делами: большие языковые модели являются слабыми решателями итальянских ребусов.

Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

August 1, 2024
Авторы: Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza
cs.AI

Аннотация

Ребусы - это головоломки, требующие ограниченного многоэтапного рассуждения для выявления скрытой фразы из набора изображений и букв. В данной работе мы представляем большую коллекцию вербализованных ребусов для итальянского языка и используем ее для оценки способностей к решению ребусов современных крупных языковых моделей. В то время как универсальные системы, такие как LLaMA-3 и GPT-4o, показывают плохие результаты на этой задаче, специализированная донастройка, кажется, улучшает производительность моделей. Однако мы обнаруживаем, что улучшения производительности от обучения в значительной степени обусловлены запоминанием. Наши результаты свидетельствуют о том, что решение ребусов остается сложным тестовым полигоном для оценки лингвистической грамотности и навыков последовательного следования инструкциям крупных языковых моделей.
English
Rebuses are puzzles requiring constrained multi-step reasoning to identify a hidden phrase from a set of images and letters. In this work, we introduce a large collection of verbalized rebuses for the Italian language and use it to assess the rebus-solving capabilities of state-of-the-art large language models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly on this task, ad-hoc fine-tuning seems to improve models' performance. However, we find that performance gains from training are largely motivated by memorization. Our results suggest that rebus solving remains a challenging test bed to evaluate large language models' linguistic proficiency and sequential instruction-following skills.

Summary

AI-Generated Summary

PDF72November 28, 2024