ChatPaper.aiChatPaper

맨티스: 분리된 시각 예측을 갖춘 다목적 시각-언어-행동 모델

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

November 20, 2025
저자: Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng
cs.AI

초록

비전-언어-행동(Vision-Language-Action, VLA) 모델의 최근 발전은 시각 신호가 희소한 행동 감독을 효과적으로 보완할 수 있음을 보여줍니다. 그러나 VLA 모델이 고차원 시각 상태를 직접 예측하도록 하면 모델 용량이 분산되고 훈련 비용이 급증하는 반면, 시각 상태를 더 압축된 감독 신호로 압축하는 것은 필연적으로 정보 병목 현상을 초래합니다. 더욱이 기존 방법들은 언어 감독을 소홀히 함으로써 이해 및 추론 능력이 부족한 경우가 많습니다. 본 논문은 이러한 문제를 해결하기 위해 분리된 시각 예측(Disentangled Visual Foresight, DVF)을 특징으로 하는 새로운 프레임워크인 Mantis를 소개합니다. 구체적으로 Mantis는 메타 쿼리와 Diffusion Transformer(DiT) 헤드의 조합을 통해 시각 예측을 백본에서 분리합니다. 잔차 연결을 통해 현재 시각 상태가 DiT에 제공될 때, 단순한 다음 상태 예측 목표를 통해 메타 쿼리는 시각 궤적을 delineate하는 잠재 행동을 자동으로 포착하여 명시적 행동의 학습을 촉진합니다. 이러한 분리는 VLA 백본의 부담을 줄여 언어 감독을 통해 이해 및 추론 능력을 유지할 수 있게 합니다. 실험적으로, 인간 조작 비디오, 로봇 데모 및 이미지-텍스트 쌍으로 사전 훈련된 Mantis는 미세 조정 후 LIBERO 벤치마크에서 96.7%의 성공률을 달성하여 강력한 베이스라인을 능가하면서 높은 수렴 속도를 보여줍니다. 실제 환경 평가에서 Mantis는 주류 오픈소스 VLA 모델인 π_{0.5}보다 특히 지시 따르기 능력, 보지 않은 지시에 대한 일반화 및 추론 능력에서 우수한 성능을 보입니다. 코드와 가중치는 오픈소스 커뮤니티를 지원하기 위해 공개됩니다.
English
Recent advances in Vision-Language-Action (VLA) models demonstrate that visual signals can effectively complement sparse action supervisions. However, letting VLA directly predict high-dimensional visual states can distribute model capacity and incur prohibitive training cost, while compressing visual states into more compact supervisory signals inevitably incurs information bottlenecks. Moreover, existing methods often suffer from poor comprehension and reasoning capabilities due to the neglect of language supervision. This paper introduces Mantis, a novel framework featuring a Disentangled Visual Foresight (DVF) to tackle these issues. Specifically, Mantis decouples visual foresight prediction from the backbone with the combination of meta queries and a diffusion Transformer (DiT) head. With the current visual state provided to the DiT via a residual connection, a simple next-state prediction objective enables the meta queries to automatically capture the latent actions that delineate the visual trajectory, and hence boost the learning of explicit actions. The disentanglement reduces the burden of the VLA backbone, enabling it to maintain comprehension and reasoning capabilities through language supervision. Empirically, pretrained on human manipulation videos, robot demonstrations, and image-text pairs, Mantis achieves a 96.7% success rate on LIBERO benchmark after fine-tuning, surpassing powerful baselines while exhibiting high convergence speed. Real-world evaluations show that Mantis outperforms π_{0.5}, a leading open-source VLA model, particularly in instruction-following capability, generalization to unseen instructions, and reasoning ability. Code and weights are released to support the open-source community.
PDF122December 1, 2025