Mantis: Un Modelo Versátil de Visión, Lenguaje y Acción con Previsión Visual Disentrelazada
Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight
November 20, 2025
Autores: Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng
cs.AI
Resumen
Los recientes avances en modelos Visión-Lenguaje-Acción (VLA) demuestran que las señales visuales pueden complementar eficazmente las supervisiones de acciones dispersas. Sin embargo, permitir que los VLA predigan directamente estados visuales de alta dimensión puede distribuir la capacidad del modelo e incurrir en costos de entrenamiento prohibitivos, mientras que comprimir los estados visuales en señales de supervisión más compactas inevitablemente genera cuellos de botella de información. Además, los métodos existentes a menudo adolecen de capacidades deficientes de comprensión y razonamiento debido al descuido de la supervisión lingüística. Este artículo presenta Mantis, un marco novedoso que presenta una Previsión Visual Disociada (DVF) para abordar estos problemas. Específicamente, Mantis disocia la predicción de previsión visual del modelo principal mediante la combinación de meta-queries y una cabeza de Transformer de Difusión (DiT). Al proporcionar el estado visual actual al DiT a través de una conexión residual, un objetivo simple de predicción del siguiente estado permite que las meta-queries capturen automáticamente las acciones latentes que delinean la trayectoria visual, potenciando así el aprendizaje de acciones explícitas. La disociación reduce la carga del modelo VLA principal, permitiéndole mantener capacidades de comprensión y razonamiento mediante supervisión lingüística. Empíricamente, tras un preentrenamiento con videos de manipulaciones humanas, demostraciones robóticas y pares imagen-texto, Mantis logra una tasa de éxito del 96.7% en el benchmark LIBERO después del ajuste fino, superando a líneas base potentes y exhibiendo una alta velocidad de convergencia. Las evaluaciones en el mundo real muestran que Mantis supera a π_{0.5}, un modelo VLA de código abierto líder, particularmente en capacidad de seguimiento de instrucciones, generalización a instrucciones no vistas y habilidad de razonamiento. Se publican el código y los pesos para apoyar a la comunidad de código abierto.
English
Recent advances in Vision-Language-Action (VLA) models demonstrate that visual signals can effectively complement sparse action supervisions. However, letting VLA directly predict high-dimensional visual states can distribute model capacity and incur prohibitive training cost, while compressing visual states into more compact supervisory signals inevitably incurs information bottlenecks. Moreover, existing methods often suffer from poor comprehension and reasoning capabilities due to the neglect of language supervision. This paper introduces Mantis, a novel framework featuring a Disentangled Visual Foresight (DVF) to tackle these issues. Specifically, Mantis decouples visual foresight prediction from the backbone with the combination of meta queries and a diffusion Transformer (DiT) head. With the current visual state provided to the DiT via a residual connection, a simple next-state prediction objective enables the meta queries to automatically capture the latent actions that delineate the visual trajectory, and hence boost the learning of explicit actions. The disentanglement reduces the burden of the VLA backbone, enabling it to maintain comprehension and reasoning capabilities through language supervision. Empirically, pretrained on human manipulation videos, robot demonstrations, and image-text pairs, Mantis achieves a 96.7% success rate on LIBERO benchmark after fine-tuning, surpassing powerful baselines while exhibiting high convergence speed. Real-world evaluations show that Mantis outperforms π_{0.5}, a leading open-source VLA model, particularly in instruction-following capability, generalization to unseen instructions, and reasoning ability. Code and weights are released to support the open-source community.