Mantis : Un modèle vision-langage-action polyvalent doté d'une prévision visuelle désentrelacée

papers.abstract

Les récents progrès des modèles Vision-Langage-Action (VLA) démontrent que les signaux visuels peuvent efficacement compléter des supervisions d'actions éparses. Cependant, faire prédire directement à un VLA des états visuels de haute dimension peut disperser la capacité du modèle et entraîner un coût d'entraînement prohibitif, tandis que la compression des états visuels en signaux de supervision plus compacts entraîne inévitablement des goulots d'étranglement informationnels. De plus, les méthodes existantes souffrent souvent de faibles capacités de compréhension et de raisonnement en raison de la négligence de la supervision par le langage. Cet article présente Mantis, un nouveau cadre doté d'une Prévision Visuelle Désentrelacée (Disentangled Visual Foresight - DVF) pour résoudre ces problèmes. Plus précisément, Mantis découple la prédiction de la prévision visuelle du modèle principal en combinant des requêtes méta et une tête de Transformer à diffusion (DiT). En fournissant l'état visuel actuel à la DiT via une connexion résiduelle, un simple objectif de prédiction de l'état suivant permet aux requêtes méta de capturer automatiquement les actions latentes qui délimitent la trajectoire visuelle, et ainsi d'améliorer l'apprentissage des actions explicites. Le désentrelacement réduit la charge du modèle VLA principal, lui permettant de maintenir ses capacités de compréhension et de raisonnement grâce à la supervision linguistique. Empiriquement, après un pré-entraînement sur des vidéos de manipulations humaines, des démonstrations robotiques et des paires image-texte, Mantis atteint un taux de réussite de 96,7 % sur le benchmark LIBERO après un fine-tuning, surpassant des bases de référence puissantes tout en affichant une vitesse de convergence élevée. Les évaluations en conditions réelles montrent que Mantis surpasse π_{0.5}, un modèle VLA open-source de premier plan, particulièrement en termes de capacité à suivre des instructions, de généralisation à des instructions non vues et de capacité de raisonnement. Le code et les poids sont publiés pour soutenir la communauté open-source.

English

Recent advances in Vision-Language-Action (VLA) models demonstrate that visual signals can effectively complement sparse action supervisions. However, letting VLA directly predict high-dimensional visual states can distribute model capacity and incur prohibitive training cost, while compressing visual states into more compact supervisory signals inevitably incurs information bottlenecks. Moreover, existing methods often suffer from poor comprehension and reasoning capabilities due to the neglect of language supervision. This paper introduces Mantis, a novel framework featuring a Disentangled Visual Foresight (DVF) to tackle these issues. Specifically, Mantis decouples visual foresight prediction from the backbone with the combination of meta queries and a diffusion Transformer (DiT) head. With the current visual state provided to the DiT via a residual connection, a simple next-state prediction objective enables the meta queries to automatically capture the latent actions that delineate the visual trajectory, and hence boost the learning of explicit actions. The disentanglement reduces the burden of the VLA backbone, enabling it to maintain comprehension and reasoning capabilities through language supervision. Empirically, pretrained on human manipulation videos, robot demonstrations, and image-text pairs, Mantis achieves a 96.7% success rate on LIBERO benchmark after fine-tuning, surpassing powerful baselines while exhibiting high convergence speed. Real-world evaluations show that Mantis outperforms π_{0.5}, a leading open-source VLA model, particularly in instruction-following capability, generalization to unseen instructions, and reasoning ability. Code and weights are released to support the open-source community.

Mantis : Un modèle vision-langage-action polyvalent doté d'une prévision visuelle désentrelacée

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

papers.abstract

Support