SwimBird: ハイブリッド自己回帰型MLLMにおける切り替え可能な推論モードの誘発
SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs
February 5, 2026
著者: Jintao Tong, Shilin Yan, Hongwei Xue, Xiaojun Tang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は、視覚と言語を橋渡しすることで、マルチモーダル知覚と推論において目覚ましい進歩を遂げてきた。しかし、既存のMLLMの多くは主にテキストによる連鎖思考(CoT)を用いて推論を行うため、視覚集約的なタスクにおける有効性が制限されている。近年のアプローチでは、固定数の連続潜在状態を「視覚的思考」として推論プロセスに注入し、視覚的パフォーマンスを向上させているが、多くの場合、テキストベースの論理的推論能力の低下という代償を伴う。我々は、この核心的な制限は、異なるユーザークエリに対して最も適した思考モダリティを適応的に選択できない、硬直的な事前定義された推論パターンにあると考える。本論文では、入力に応じて動的に3つの推論モード((1) テキストのみの推論、(2) 視覚のみの推論(連続潜在状態を視覚的思考として)、(3) 視覚とテキストの交互推論)を切り替える、推論切り替え可能なMLLMであるSwimBirdを提案する。この能力を実現するため、我々はテキスト思考に対する次のトークン予測と視覚思考に対する次の埋め込み予測を統合するハイブリッド自己回帰的定式化を採用し、3つの推論パターン全てをカバーする多様な教師ありファインチューニングデータセットSwimBird-SFT-92Kを構築するための体系的な推論モードキュレーション戦略を設計した。柔軟でクエリ適応的なモード選択を可能にすることで、SwimBirdは強力なテキスト論理を維持しつつ、視覚が密集したタスクにおけるパフォーマンスを大幅に向上させる。テキスト推論と挑戦的な視覚理解をカバーする様々なベンチマークによる実験により、SwimBirdが従来の固定パターンマルチモーダル推論手法を上回るState-of-the-artの結果と堅牢な性能向上を達成することを実証する。
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in multimodal perception and reasoning by bridging vision and language. However, most existing MLLMs perform reasoning primarily with textual CoT, which limits their effectiveness on vision-intensive tasks. Recent approaches inject a fixed number of continuous hidden states as "visual thoughts" into the reasoning process and improve visual performance, but often at the cost of degraded text-based logical reasoning. We argue that the core limitation lies in a rigid, pre-defined reasoning pattern that cannot adaptively choose the most suitable thinking modality for different user queries. We introduce SwimBird, a reasoning-switchable MLLM that dynamically switches among three reasoning modes conditioned on the input: (1) text-only reasoning, (2) vision-only reasoning (continuous hidden states as visual thoughts), and (3) interleaved vision-text reasoning. To enable this capability, we adopt a hybrid autoregressive formulation that unifies next-token prediction for textual thoughts with next-embedding prediction for visual thoughts, and design a systematic reasoning-mode curation strategy to construct SwimBird-SFT-92K, a diverse supervised fine-tuning dataset covering all three reasoning patterns. By enabling flexible, query-adaptive mode selection, SwimBird preserves strong textual logic while substantially improving performance on vision-dense tasks. Experiments across diverse benchmarks covering textual reasoning and challenging visual understanding demonstrate that SwimBird achieves state-of-the-art results and robust gains over prior fixed-pattern multimodal reasoning methods.