ChatPaper.aiChatPaper

Mantis: Многофункциональная модель "зрение-язык-действие" с разделённым визуальным прогнозированием

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

November 20, 2025
Авторы: Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng
cs.AI

Аннотация

Последние достижения в области моделей «Зрение-Язык-Действие» (VLA) демонстрируют, что визуальные сигналы могут эффективно дополнять разреженные разметки действий. Однако прямое предсказание VLA-моделями высокоразмерных визуальных состояний может распределять емкость модели и приводить к непомерным затратам на обучение, в то время как сжатие визуальных состояний в более компактные управляющие сигналы неизбежно создает информационные узкие места. Более того, существующие методы часто страдают от слабых способностей к пониманию и логическому выводу из-за пренебрежения языковой разметкой. В данной статье представлена Mantis — новая архитектура, включающая модуль Разделенного Визуального Предсказания (Disentangled Visual Foresight, DVF) для решения этих проблем. В частности, Mantis разделяет задачу визуального предсказания от основной модели с помощью комбинации мета-запросов и диффузионного трансформерного (DiT) головного модуля. Когда текущее визуальное состояние подается в DiT через остаточное соединение, простая цель предсказания следующего состояния позволяет мета-запросам автоматически захватывать скрытые действия, которые описывают визуальную траекторию, и тем самым усиливать обучение явным действиям. Такое разделение снижает нагрузку на основную VLA-модель, позволяя ей сохранять способности к пониманию и логическому выводу благодаря языковой разметке. Экспериментально, после предварительного обучения на видеозаписях манипуляций человека, демонстрациях роботов и парах «изображение-текст», Mantis достигает показателя успеха 96,7% на бенчмарке LIBERO после дообучения, превосходя мощные базовые модели и демонстрируя высокую скорость сходимости. Реальные оценки показывают, что Mantis превосходит π_{0.5} — ведущую открытую VLA-модель — особенно в способности следовать инструкциям, обобщении на незнакомые инструкции и логическом выводе. Код и веса модели опубликованы для поддержки сообщества открытого исходного кода.
English
Recent advances in Vision-Language-Action (VLA) models demonstrate that visual signals can effectively complement sparse action supervisions. However, letting VLA directly predict high-dimensional visual states can distribute model capacity and incur prohibitive training cost, while compressing visual states into more compact supervisory signals inevitably incurs information bottlenecks. Moreover, existing methods often suffer from poor comprehension and reasoning capabilities due to the neglect of language supervision. This paper introduces Mantis, a novel framework featuring a Disentangled Visual Foresight (DVF) to tackle these issues. Specifically, Mantis decouples visual foresight prediction from the backbone with the combination of meta queries and a diffusion Transformer (DiT) head. With the current visual state provided to the DiT via a residual connection, a simple next-state prediction objective enables the meta queries to automatically capture the latent actions that delineate the visual trajectory, and hence boost the learning of explicit actions. The disentanglement reduces the burden of the VLA backbone, enabling it to maintain comprehension and reasoning capabilities through language supervision. Empirically, pretrained on human manipulation videos, robot demonstrations, and image-text pairs, Mantis achieves a 96.7% success rate on LIBERO benchmark after fine-tuning, surpassing powerful baselines while exhibiting high convergence speed. Real-world evaluations show that Mantis outperforms π_{0.5}, a leading open-source VLA model, particularly in instruction-following capability, generalization to unseen instructions, and reasoning ability. Code and weights are released to support the open-source community.
PDF122December 1, 2025