Dita : Mise à l'échelle du Transformer de Diffusion pour une Politique Généraliste Vision-Langue-Action
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy
March 25, 2025
Auteurs: Zhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu, Yu Qiao, Jifeng Dai, Yuntao Chen
cs.AI
Résumé
Alors que les modèles récents vision-langue-action entraînés sur des ensembles de données robotiques diversifiés montrent des capacités prometteuses de généralisation avec des données limitées dans le domaine, leur dépendance à des têtes d'action compactes pour prédire des actions discrètes ou continues limite leur adaptabilité à des espaces d'action hétérogènes. Nous présentons Dita, un cadre évolutif qui exploite les architectures Transformer pour débruiter directement des séquences d'action continues via un processus de diffusion multimodale unifié. S'écartant des méthodes antérieures qui conditionnent le débruitage sur des embeddings fusionnés via des réseaux peu profonds, Dita utilise un conditionnement contextuel -- permettant un alignement fin entre les actions débruitées et les tokens visuels bruts issus des observations historiques. Cette conception modélise explicitement les deltas d'action et les nuances environnementales. En mettant à l'échelle le débruiteur d'action par diffusion parallèlement à l'évolutivité du Transformer, Dita intègre efficacement des ensembles de données inter-embodiments couvrant diverses perspectives de caméra, scènes d'observation, tâches et espaces d'action. Une telle synergie renforce la robustesse face à diverses variances et facilite l'exécution réussie de tâches à long horizon. Les évaluations sur des benchmarks étendus démontrent des performances de pointe ou comparables en simulation. Notamment, Dita réalise une adaptation robuste en monde réel aux variances environnementales et aux tâches complexes à long horizon grâce à un finetuning en 10-shot, utilisant uniquement des entrées de caméra à la troisième personne. L'architecture établit une base légère, polyvalente et open-source pour l'apprentissage de politiques robotiques généralistes. Page du projet : https://robodita.github.io.
English
While recent vision-language-action models trained on diverse robot datasets
exhibit promising generalization capabilities with limited in-domain data,
their reliance on compact action heads to predict discretized or continuous
actions constrains adaptability to heterogeneous action spaces. We present
Dita, a scalable framework that leverages Transformer architectures to directly
denoise continuous action sequences through a unified multimodal diffusion
process. Departing from prior methods that condition denoising on fused
embeddings via shallow networks, Dita employs in-context conditioning --
enabling fine-grained alignment between denoised actions and raw visual tokens
from historical observations. This design explicitly models action deltas and
environmental nuances. By scaling the diffusion action denoiser alongside the
Transformer's scalability, Dita effectively integrates cross-embodiment
datasets across diverse camera perspectives, observation scenes, tasks, and
action spaces. Such synergy enhances robustness against various variances and
facilitates the successful execution of long-horizon tasks. Evaluations across
extensive benchmarks demonstrate state-of-the-art or comparative performance in
simulation. Notably, Dita achieves robust real-world adaptation to
environmental variances and complex long-horizon tasks through 10-shot
finetuning, using only third-person camera inputs. The architecture establishes
a versatile, lightweight and open-source baseline for generalist robot policy
learning. Project Page: https://robodita.github.io.Summary
AI-Generated Summary