ChatPaper.aiChatPaper

Mantis: Ein vielseitiges Vision-Sprache-Handlung-Modell mit entflochtener visueller Vorausschau

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

November 20, 2025
papers.authors: Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng
cs.AI

papers.abstract

Jüngste Fortschritte bei Vision-Language-Action (VLA)-Modellen zeigen, dass visuelle Signale spärliche Aktionssupervisionen effektiv ergänzen können. Wenn VLA-Modelle jedoch direkt hochdimensionale visuelle Zustände vorhersagen sollen, kann dies die Modellkapazität überlasten und untragbare Trainingskosten verursachen, während die Komprimierung visueller Zustände zu kompakteren Aufsichtssignalen unweigerlich Informationsengpässe mit sich bringt. Darüber hinaus leiden bestehende Methoden häufig unter schwachen Verstehens- und Reasoningfähigkeiten, da Sprachsupervision vernachlässigt wird. Diese Arbeit stellt Mantis vor, einen neuartigen Rahmen mit einer Disentangled Visual Foresight (DVF), um diese Probleme zu lösen. Konkret entkoppelt Mantis die Vorhersage visueller Vorausschau vom Backbone durch die Kombination von Meta-Queries und einem Diffusion Transformer (DiT)-Head. Indem der aktuelle visuelle Zustand dem DiT über eine Residualverbindung bereitgestellt wird, ermöglicht ein einfaches Next-State-Prediction-Ziel den Meta-Queries, automatisch latente Aktionen zu erfassen, die die visuelle Trajektorie beschreiben und somit das Lernen expliziter Aktionen verstärken. Die Entkopplung verringert die Belastung des VLA-Backbones, sodass dieser durch Sprachsupervision seine Verstehens- und Reasoningfähigkeiten bewahren kann. Empirisch erzielt Mantis, vortrainiert mit menschlichen Manipulationsvideos, Roboterdemonstrationen und Bild-Text-Paaren, nach dem Fine-Tuning eine Erfolgsquote von 96,7 % auf dem LIBERO-Benchmark und übertrifft damit leistungsstarke Baselines bei hoher Konvergenzgeschwindigkeit. Evaluationen in der realen Welt zeigen, dass Mantis π₀,₅, ein führendes Open-Source-VLA-Modell, insbesondere in der Befolgung von Anweisungen, der Generalisierung auf ungesehene Instruktionen und der Reasoningfähigkeit übertrifft. Code und Gewichte werden veröffentlicht, um die Open-Source-Community zu unterstützen.
English
Recent advances in Vision-Language-Action (VLA) models demonstrate that visual signals can effectively complement sparse action supervisions. However, letting VLA directly predict high-dimensional visual states can distribute model capacity and incur prohibitive training cost, while compressing visual states into more compact supervisory signals inevitably incurs information bottlenecks. Moreover, existing methods often suffer from poor comprehension and reasoning capabilities due to the neglect of language supervision. This paper introduces Mantis, a novel framework featuring a Disentangled Visual Foresight (DVF) to tackle these issues. Specifically, Mantis decouples visual foresight prediction from the backbone with the combination of meta queries and a diffusion Transformer (DiT) head. With the current visual state provided to the DiT via a residual connection, a simple next-state prediction objective enables the meta queries to automatically capture the latent actions that delineate the visual trajectory, and hence boost the learning of explicit actions. The disentanglement reduces the burden of the VLA backbone, enabling it to maintain comprehension and reasoning capabilities through language supervision. Empirically, pretrained on human manipulation videos, robot demonstrations, and image-text pairs, Mantis achieves a 96.7% success rate on LIBERO benchmark after fine-tuning, surpassing powerful baselines while exhibiting high convergence speed. Real-world evaluations show that Mantis outperforms π_{0.5}, a leading open-source VLA model, particularly in instruction-following capability, generalization to unseen instructions, and reasoning ability. Code and weights are released to support the open-source community.
PDF122December 1, 2025