ChatPaper.aiChatPaper

マンティス:分離型ビジュアル予測を備えた多用途視覚言語行動モデル

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

November 20, 2025
著者: Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng
cs.AI

要旨

近年、Vision-Language-Action(VLA)モデルの進展により、視覚信号が疎な行動教師信号を効果的に補完できることが実証されている。しかし、VLAに高次元の視覚状態を直接予測させると、モデル容量が分散し、膨大な学習コストが生じる一方、視覚状態をよりコンパクトな教師信号に圧縮すると、情報ボトルネックが避けられない。さらに、既存手法では言語監督が軽視されるため、理解・推論能力が不十分になりがちである。本論文では、これらの課題を解決するため、Disentangled Visual Foresight(DVF)を特徴とする新規フレームワークMantisを提案する。具体的には、Mantisはメタクエリと拡散Transformer(DiT)ヘッドを組み合わせることで、視覚的予測をバックボーンから分離する。残差接続を介して現在の視覚状態をDiTに供給することで、単純な次状態予測タスクにより、メタクエリが視覚軌跡を規定する潜在行動を自動的に獲得し、明示的行動の学習を促進する。この分離によりVLAバックボーンの負担が軽減され、言語監督を通じた理解・推論能力の維持が可能となる。実証実験では、人間の操作動画、ロボット実演データ、画像-テキストペアで事前学習したMantisは、ファインチューニング後LIBEROベンチマークで96.7%の成功率を達成し、強力なベースラインを上回りながら高い収束速度を示した。実世界評価では、MantisはオープンソースVLAモデルであるπ_{0.5}を、特に指示追従能力、未見指示への一般化、推論能力において凌駕することを示した。コードと重みはオープンソースコミュニティに公開されている。
English
Recent advances in Vision-Language-Action (VLA) models demonstrate that visual signals can effectively complement sparse action supervisions. However, letting VLA directly predict high-dimensional visual states can distribute model capacity and incur prohibitive training cost, while compressing visual states into more compact supervisory signals inevitably incurs information bottlenecks. Moreover, existing methods often suffer from poor comprehension and reasoning capabilities due to the neglect of language supervision. This paper introduces Mantis, a novel framework featuring a Disentangled Visual Foresight (DVF) to tackle these issues. Specifically, Mantis decouples visual foresight prediction from the backbone with the combination of meta queries and a diffusion Transformer (DiT) head. With the current visual state provided to the DiT via a residual connection, a simple next-state prediction objective enables the meta queries to automatically capture the latent actions that delineate the visual trajectory, and hence boost the learning of explicit actions. The disentanglement reduces the burden of the VLA backbone, enabling it to maintain comprehension and reasoning capabilities through language supervision. Empirically, pretrained on human manipulation videos, robot demonstrations, and image-text pairs, Mantis achieves a 96.7% success rate on LIBERO benchmark after fine-tuning, surpassing powerful baselines while exhibiting high convergence speed. Real-world evaluations show that Mantis outperforms π_{0.5}, a leading open-source VLA model, particularly in instruction-following capability, generalization to unseen instructions, and reasoning ability. Code and weights are released to support the open-source community.
PDF122December 1, 2025