Non Verbis, Sed Rebus: 大規模言語モデルはイタリア語のなぞなぞに弱い
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses
August 1, 2024
著者: Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza
cs.AI
要旨
リバスは、一連の画像や文字から隠されたフレーズを特定するために、制約付きの多段階推論を必要とするパズルです。本研究では、イタリア語向けの大規模な言語化リバスコレクションを導入し、それを用いて最先端の大規模言語モデルのリバス解決能力を評価します。LLaMA-3やGPT-4oのような汎用システムはこのタスクで低い性能を示しますが、アドホックなファインチューニングによりモデルの性能が向上するようです。しかし、トレーニングによる性能向上は主に記憶化によってもたらされていることがわかりました。我々の結果は、リバス解決が大規模言語モデルの言語能力と逐次的な指示追従スキルを評価するための挑戦的なテストベッドであることを示唆しています。
English
Rebuses are puzzles requiring constrained multi-step reasoning to identify a
hidden phrase from a set of images and letters. In this work, we introduce a
large collection of verbalized rebuses for the Italian language and use it to
assess the rebus-solving capabilities of state-of-the-art large language
models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly
on this task, ad-hoc fine-tuning seems to improve models' performance. However,
we find that performance gains from training are largely motivated by
memorization. Our results suggest that rebus solving remains a challenging test
bed to evaluate large language models' linguistic proficiency and sequential
instruction-following skills.Summary
AI-Generated Summary