AlphaMaze: GRPOによる大規模言語モデルの空間知能の強化
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO
February 20, 2025
著者: Alan Dao, Dinh Bach Vu
cs.AI
要旨
大規模言語モデル(LLMs)は言語処理において印象的な能力を発揮しているが、真の視覚的空間推論を必要とするタスクではしばしば苦戦する。本論文では、迷路ナビゲーションのための視覚的推論能力を標準的なLLMsに付与するために設計された新しい二段階のトレーニングフレームワークを紹介する。まず、トークン化された迷路表現の精選されたデータセットに対して教師あり微調整(SFT)を活用し、モデルにステップバイステップの移動コマンドを予測することを教える。次に、DeepSeekR1で使用されるGroup Relative Policy Optimization(GRPO)を慎重に設計された報酬関数と共に適用し、モデルの逐次的意思決定を洗練させ、連鎖的思考行動の出現を促す。合成生成された迷路での実験結果は、ベースラインモデルが迷路をナビゲートできないのに対し、SFTでトレーニングされたモデルは86%の精度を達成し、さらにGRPOによる微調整で精度が93%に向上することを示している。定性的分析により、GRPOがより堅牢で自己修正的な推論を促進することが明らかになり、言語モデルと視覚的空間タスクの間のギャップを埋める本アプローチの可能性が強調される。これらの発見は、ロボティクス、自律ナビゲーション、および視覚的かつ逐次的な推論を必要とする他の分野での応用において有望な示唆を提供する。
English
Large Language Models (LLMs) have demonstrated impressive capabilities in
language processing, yet they often struggle with tasks requiring genuine
visual spatial reasoning. In this paper, we introduce a novel two-stage
training framework designed to equip standard LLMs with visual reasoning
abilities for maze navigation. First, we leverage Supervised Fine Tuning (SFT)
on a curated dataset of tokenized maze representations to teach the model to
predict step-by-step movement commands. Next, we apply Group Relative Policy
Optimization (GRPO)-a technique used in DeepSeekR1-with a carefully crafted
reward function to refine the model's sequential decision-making and encourage
emergent chain-of-thought behaviors. Experimental results on synthetically
generated mazes show that while a baseline model fails to navigate the maze,
the SFT-trained model achieves 86% accuracy, and further GRPO fine-tuning
boosts accuracy to 93%. Qualitative analyses reveal that GRPO fosters more
robust and self-corrective reasoning, highlighting the potential of our
approach to bridge the gap between language models and visual spatial tasks.
These findings offer promising implications for applications in robotics,
autonomous navigation, and other domains that require integrated visual and
sequential reasoning.Summary
AI-Generated Summary