ChatPaper.aiChatPaper

Mantis: Een Veelzijdig Visie-Taal-Actie-Model met Ontvlochten Visuele Voorspelling

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

November 20, 2025
Auteurs: Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng
cs.AI

Samenvatting

Recente vooruitgang in Vision-Language-Action (VLA)-modellen toont aan dat visuele signalen spaarzame actiesupervisie effectief kunnen aanvullen. Wanneer VLA's echter direct hoogdimensionale visuele toestanden voorspellen, kan dit de modelcapaciteit verdelen en tot onhoudbare trainingskosten leiden, terwijl het comprimeren van visuele toestanden tot compactere supervisiesignalen onvermijdelijk informatieflessenhalzen veroorzaakt. Bovendien kampen bestaande methoden vaak met beperkte begrips- en redeneervermogens door verwaarlozing van taalsupervisie. Dit artikel introduceert Mantis, een nieuw raamwerk met een Ontvlochten Visuele Voorspelling (Disentangled Visual Foresight, DVF) om deze problemen aan te pakken. Concreet ontkoppelt Mantis de voorspelling van visuele trajecten van de backbone door een combinatie van meta-queries en een diffusion Transformer (DiT)-hoofd. Doordat de huidige visuele toestand via een residuele verbinding aan de DiT wordt gevoed, stelt een eenvoudige next-state-voorspellingsdoelstelling de meta-queries in staat om automatisch de latente acties te leren die het visuele traject beschrijven, en zo het leren van expliciete acties te versterken. Deze ontvlechting vermindert de belasting van de VLA-backbone, waardoor deze zijn begrips- en redeneervermogen kan behouden via taalsupervisie. Empirisch gezien behaalt Mantis, voorgetraind op menselijke manipulatievideo's, robotdemonstraties en afbeelding-tekst-paren, na fine-tuning een slagingspercentage van 96,7% op de LIBERO-benchmark, waarmee krachtige baselines worden overtroffen en een hoge convergentiesnelheid wordt getoond. Evaluaties in de echte wereld tonen aan dat Mantis superieur presteert aan π_{0.5}, een toonaangevend open-source VLA-model, met name op het gebied van instructievolgend vermogen, generalisatie naar ongeziene instructies en redeneervermogen. Code en gewichten zijn vrijgegeven ter ondersteuning van de open-sourcegemeenschap.
English
Recent advances in Vision-Language-Action (VLA) models demonstrate that visual signals can effectively complement sparse action supervisions. However, letting VLA directly predict high-dimensional visual states can distribute model capacity and incur prohibitive training cost, while compressing visual states into more compact supervisory signals inevitably incurs information bottlenecks. Moreover, existing methods often suffer from poor comprehension and reasoning capabilities due to the neglect of language supervision. This paper introduces Mantis, a novel framework featuring a Disentangled Visual Foresight (DVF) to tackle these issues. Specifically, Mantis decouples visual foresight prediction from the backbone with the combination of meta queries and a diffusion Transformer (DiT) head. With the current visual state provided to the DiT via a residual connection, a simple next-state prediction objective enables the meta queries to automatically capture the latent actions that delineate the visual trajectory, and hence boost the learning of explicit actions. The disentanglement reduces the burden of the VLA backbone, enabling it to maintain comprehension and reasoning capabilities through language supervision. Empirically, pretrained on human manipulation videos, robot demonstrations, and image-text pairs, Mantis achieves a 96.7% success rate on LIBERO benchmark after fine-tuning, surpassing powerful baselines while exhibiting high convergence speed. Real-world evaluations show that Mantis outperforms π_{0.5}, a leading open-source VLA model, particularly in instruction-following capability, generalization to unseen instructions, and reasoning ability. Code and weights are released to support the open-source community.
PDF122December 1, 2025