ChatPaper.aiChatPaper

Mantis: Un Modello Versatile Visione-Linguaggio-Azione con Previsione Visiva Disaccoppiata

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

November 20, 2025
Autori: Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng
cs.AI

Abstract

I recenti progressi nei modelli Visione-Linguaggio-Azione (VLA) dimostrano che i segnali visivi possono integrare efficacemente supervisioni d'azione sparse. Tuttavia, far predire direttamente ai VLA stati visivi ad alta dimensionalità può distribuire la capacità del modello e comportare costi di addestramento proibitivi, mentre comprimere gli stati visivi in segnali di supervisione più compatti comporta inevitabilmente colli di bottiglia informativi. Inoltre, i metodi esistenti spesso soffrono di scarse capacità di comprensione e ragionamento a causa della trascuratezza della supervisione linguistica. Questo articolo introduce Mantis, un nuovo framework che presenta una Previsione Visiva Disaccoppiata (DVF) per affrontare questi problemi. Nello specifico, Mantis disaccoppia la previsione visiva futura dal backbone combinando meta query e una testa di Transformer a diffusione (DiT). Fornendo lo stato visivo corrente al DiT attraverso una connessione residua, un semplice obiettivo di predizione dello stato successivo consente alle meta query di catturare automaticamente le azioni latenti che delineano la traiettoria visiva, potenziando così l'apprendimento delle azioni esplicite. Il disaccoppiamento riduce il carico sul backbone VLA, permettendogli di mantenere le capacità di comprensione e ragionamento attraverso la supervisione linguistica. Sperimentalmente, dopo pre-addestramento su video di manipolazione umana, dimostrazioni robotiche e coppie immagine-testo, Mantis raggiunge un tasso di successo del 96.7% sul benchmark LIBERO dopo il fine-tuning, superando baseline potenti e mostrando un'elevata velocità di convergenza. Valutazioni nel mondo reale mostrano che Mantis supera π_{0.5}, un importante modello VLA open-source, particolarmente nella capacità di seguire istruzioni, nella generalizzazione a istruzioni non viste e nell'abilità di ragionamento. Codice e pesi sono rilasciati per supportare la comunità open-source.
English
Recent advances in Vision-Language-Action (VLA) models demonstrate that visual signals can effectively complement sparse action supervisions. However, letting VLA directly predict high-dimensional visual states can distribute model capacity and incur prohibitive training cost, while compressing visual states into more compact supervisory signals inevitably incurs information bottlenecks. Moreover, existing methods often suffer from poor comprehension and reasoning capabilities due to the neglect of language supervision. This paper introduces Mantis, a novel framework featuring a Disentangled Visual Foresight (DVF) to tackle these issues. Specifically, Mantis decouples visual foresight prediction from the backbone with the combination of meta queries and a diffusion Transformer (DiT) head. With the current visual state provided to the DiT via a residual connection, a simple next-state prediction objective enables the meta queries to automatically capture the latent actions that delineate the visual trajectory, and hence boost the learning of explicit actions. The disentanglement reduces the burden of the VLA backbone, enabling it to maintain comprehension and reasoning capabilities through language supervision. Empirically, pretrained on human manipulation videos, robot demonstrations, and image-text pairs, Mantis achieves a 96.7% success rate on LIBERO benchmark after fine-tuning, surpassing powerful baselines while exhibiting high convergence speed. Real-world evaluations show that Mantis outperforms π_{0.5}, a leading open-source VLA model, particularly in instruction-following capability, generalization to unseen instructions, and reasoning ability. Code and weights are released to support the open-source community.
PDF122December 1, 2025