ChatPaper.aiChatPaper

Dita : Mise à l'échelle du Transformer de Diffusion pour une Politique Généraliste Vision-Langue-Action

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

March 25, 2025
Auteurs: Zhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu, Yu Qiao, Jifeng Dai, Yuntao Chen
cs.AI

Résumé

Alors que les modèles récents vision-langue-action entraînés sur des ensembles de données robotiques diversifiés montrent des capacités prometteuses de généralisation avec des données limitées dans le domaine, leur dépendance à des têtes d'action compactes pour prédire des actions discrètes ou continues limite leur adaptabilité à des espaces d'action hétérogènes. Nous présentons Dita, un cadre évolutif qui exploite les architectures Transformer pour débruiter directement des séquences d'action continues via un processus de diffusion multimodale unifié. S'écartant des méthodes antérieures qui conditionnent le débruitage sur des embeddings fusionnés via des réseaux peu profonds, Dita utilise un conditionnement contextuel -- permettant un alignement fin entre les actions débruitées et les tokens visuels bruts issus des observations historiques. Cette conception modélise explicitement les deltas d'action et les nuances environnementales. En mettant à l'échelle le débruiteur d'action par diffusion parallèlement à l'évolutivité du Transformer, Dita intègre efficacement des ensembles de données inter-embodiments couvrant diverses perspectives de caméra, scènes d'observation, tâches et espaces d'action. Une telle synergie renforce la robustesse face à diverses variances et facilite l'exécution réussie de tâches à long horizon. Les évaluations sur des benchmarks étendus démontrent des performances de pointe ou comparables en simulation. Notamment, Dita réalise une adaptation robuste en monde réel aux variances environnementales et aux tâches complexes à long horizon grâce à un finetuning en 10-shot, utilisant uniquement des entrées de caméra à la troisième personne. L'architecture établit une base légère, polyvalente et open-source pour l'apprentissage de politiques robotiques généralistes. Page du projet : https://robodita.github.io.
English
While recent vision-language-action models trained on diverse robot datasets exhibit promising generalization capabilities with limited in-domain data, their reliance on compact action heads to predict discretized or continuous actions constrains adaptability to heterogeneous action spaces. We present Dita, a scalable framework that leverages Transformer architectures to directly denoise continuous action sequences through a unified multimodal diffusion process. Departing from prior methods that condition denoising on fused embeddings via shallow networks, Dita employs in-context conditioning -- enabling fine-grained alignment between denoised actions and raw visual tokens from historical observations. This design explicitly models action deltas and environmental nuances. By scaling the diffusion action denoiser alongside the Transformer's scalability, Dita effectively integrates cross-embodiment datasets across diverse camera perspectives, observation scenes, tasks, and action spaces. Such synergy enhances robustness against various variances and facilitates the successful execution of long-horizon tasks. Evaluations across extensive benchmarks demonstrate state-of-the-art or comparative performance in simulation. Notably, Dita achieves robust real-world adaptation to environmental variances and complex long-horizon tasks through 10-shot finetuning, using only third-person camera inputs. The architecture establishes a versatile, lightweight and open-source baseline for generalist robot policy learning. Project Page: https://robodita.github.io.

Summary

AI-Generated Summary

PDF502March 27, 2025