ChatPaper.aiChatPaper

アリアドネ:VLMの推論境界を探査・拡張するための制御可能なフレームワーク

Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries

November 1, 2025
著者: Minghe Shen, Zhuo Zhi, Chonghan Liu, Shuo Xing, Zhengzhong Tu, Che Liu
cs.AI

要旨

強化学習(RL)による事後学習を受けた視覚言語モデル(VLM)は、印象的な汎用的推論能力を示すが、その評価はしばしば言語優位なタスク(例:数学)に限定されている。これは重要な疑問を提起する:RLによる事後学習は、特にベースVLMが最初は失敗する視覚中心の空間タスクにおいて、その本質的な能力限界を真に拡張できるのか? これを調査するため、我々はAriadneを導入する。これは合成迷路を利用した多段階空間推論のフレームワークであり、タスクの難易度(例:経路長、曲がり角の数)を精密に制御できる。この制御可能な環境を活用し、難易度を意識したカリキュラムにおいて、検証済み報酬を用いた強化学習(RLVR)でVLMを学習させる。驚くべきことに、RLVRによる事後学習後、VLMはベースモデルが0%の正解率だった問題セットで50%超の正解率を達成し、我々のアプローチがモデルの初期能力限界を拡大することを実証した。実世界での実用性を評価するため、実用的ベンチマークにおける分布外(OOD)汎化性能を評価する。合成迷路サンプルのみで学習させたにもかかわらず、Ariadneは顕著なゼロショット改善を示し、MapBench(例:美術館ナビゲーション)で平均16%、ReasonMap(地下鉄乗換タスク)で平均24%の向上を達成した。これらの結果は、我々の手法がモデルの基本的限界を広げるだけでなく、実世界の空間推論への汎化も強化することを確認する。本研究は、事前学習データの不透明さを考慮し、事後学習段階に限定されていることを認識する。我々の研究が、専門的で能力限界を拡張するアライメントに関するさらなる研究を促進することを期待する。
English
While Vision-Language Models (VLMs) post-trained with Reinforcement Learning (RL) show impressive general reasoning, their evaluation is often confined to language-dominant tasks (e.g., math). This raises a critical question: can RL post-training truly extend the inherent capability boundary of a base VLM, particularly for visual-centric spatial tasks where it initially fails? To investigate this, we introduce Ariadne, a framework utilizing synthetic mazes for multi-step spatial reasoning where task difficulty (e.g., path length, turns) is precisely controlled. We leverage this controllable environment to train VLMs using Reinforcement Learning with Verified Rewards (RLVR) in a difficulty-aware curriculum. Surprisingly, post-RLVR training, the VLM achieves over 50% accuracy on a problem set where the base model scored 0%, demonstrating that our approach expands the model's initial capability boundary. To assess real-world viability, we evaluate out-of-distribution (OOD) generalization on practical benchmarks. Despite training only on synthetic maze samples, Ariadne achieves significant zero-shot improvements, averaging 16% on MapBench (e.g., museum navigation) and 24% on ReasonMap (subway transfer tasks). These results confirm that our method not only broadens the model's fundamental limits but also enhances its generalization to real-world spatial reasoning. We acknowledge our study is limited to the post-training phase, given the opaqueness of pre-training data, and hope our research motivates further work on specialized, capability-extending alignment.
PDF42December 2, 2025