Non Verbis, Sed Rebus: 大規模言語モデルはイタリア語のなぞなぞに弱い

要旨

リバスは、一連の画像や文字から隠されたフレーズを特定するために、制約付きの多段階推論を必要とするパズルです。本研究では、イタリア語向けの大規模な言語化リバスコレクションを導入し、それを用いて最先端の大規模言語モデルのリバス解決能力を評価します。LLaMA-3やGPT-4oのような汎用システムはこのタスクで低い性能を示しますが、アドホックなファインチューニングによりモデルの性能が向上するようです。しかし、トレーニングによる性能向上は主に記憶化によってもたらされていることがわかりました。我々の結果は、リバス解決が大規模言語モデルの言語能力と逐次的な指示追従スキルを評価するための挑戦的なテストベッドであることを示唆しています。

English

Rebuses are puzzles requiring constrained multi-step reasoning to identify a hidden phrase from a set of images and letters. In this work, we introduce a large collection of verbalized rebuses for the Italian language and use it to assess the rebus-solving capabilities of state-of-the-art large language models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly on this task, ad-hoc fine-tuning seems to improve models' performance. However, we find that performance gains from training are largely motivated by memorization. Our results suggest that rebus solving remains a challenging test bed to evaluate large language models' linguistic proficiency and sequential instruction-following skills.

Non Verbis, Sed Rebus: 大規模言語モデルはイタリア語のなぞなぞに弱い

Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

要旨

Support