Dita: 일반화된 시각-언어-행동 정책을 위한 확장 가능한 디퓨전 트랜스포머
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy
March 25, 2025
저자: Zhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu, Yu Qiao, Jifeng Dai, Yuntao Chen
cs.AI
초록
최근 다양한 로봇 데이터셋으로 학습된 비전-언어-행동 모델들은 제한된 도메인 내 데이터로도 유망한 일반화 능력을 보여주고 있지만, 이산적 또는 연속적 행동을 예측하기 위해 간소화된 행동 헤드에 의존함으로써 이질적인 행동 공간에 대한 적응성이 제한됩니다. 본 연구에서는 Transformer 아키텍처를 활용하여 통합된 멀티모달 확산 과정을 통해 연속적 행동 시퀀스를 직접 디노이징하는 확장 가능한 프레임워크인 Dita를 제안합니다. 기존의 얕은 네트워크를 통해 융합된 임베딩에 디노이징을 조건화하는 방법과 달리, Dita는 인-컨텍스트 조건화를 사용하여 디노이징된 행동과 과거 관측에서 얻은 원시 시각 토큰 간의 세밀한 정렬을 가능하게 합니다. 이 설계는 행동 델타와 환경적 뉘앙스를 명시적으로 모델링합니다. 확산 행동 디노이저를 Transformer의 확장성과 함께 스케일링함으로써, Dita는 다양한 카메라 시각, 관측 장면, 작업 및 행동 공간에 걸친 교차-구체화 데이터셋을 효과적으로 통합합니다. 이러한 시너지는 다양한 변동에 대한 견고성을 강화하고 장기적 작업의 성공적 실행을 용이하게 합니다. 광범위한 벤치마크에서의 평가는 시뮬레이션에서 최첨단 또는 비교 가능한 성능을 입증합니다. 특히, Dita는 10-샷 파인튜닝을 통해 제3자 카메라 입력만을 사용하여 환경 변동과 복잡한 장기적 작업에 대한 견고한 실세계 적응을 달성합니다. 이 아키텍처는 일반적인 로봇 정책 학습을 위한 다용도, 경량 및 오픈소스 기반을 마련합니다. 프로젝트 페이지: https://robodita.github.io.
English
While recent vision-language-action models trained on diverse robot datasets
exhibit promising generalization capabilities with limited in-domain data,
their reliance on compact action heads to predict discretized or continuous
actions constrains adaptability to heterogeneous action spaces. We present
Dita, a scalable framework that leverages Transformer architectures to directly
denoise continuous action sequences through a unified multimodal diffusion
process. Departing from prior methods that condition denoising on fused
embeddings via shallow networks, Dita employs in-context conditioning --
enabling fine-grained alignment between denoised actions and raw visual tokens
from historical observations. This design explicitly models action deltas and
environmental nuances. By scaling the diffusion action denoiser alongside the
Transformer's scalability, Dita effectively integrates cross-embodiment
datasets across diverse camera perspectives, observation scenes, tasks, and
action spaces. Such synergy enhances robustness against various variances and
facilitates the successful execution of long-horizon tasks. Evaluations across
extensive benchmarks demonstrate state-of-the-art or comparative performance in
simulation. Notably, Dita achieves robust real-world adaptation to
environmental variances and complex long-horizon tasks through 10-shot
finetuning, using only third-person camera inputs. The architecture establishes
a versatile, lightweight and open-source baseline for generalist robot policy
learning. Project Page: https://robodita.github.io.Summary
AI-Generated Summary