Tora2: 다중 개체 비디오 생성을 위한 모션 및 외관 맞춤형 디퓨전 트랜스포머
Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation
July 8, 2025
저자: Zhenghao Zhang, Junchao Liao, Xiangyu Meng, Long Qin, Weizhi Wang
cs.AI
초록
모션 기반 비디오 생성을 위한 확산 트랜스포머 모델의 최근 발전, 특히 Tora와 같은 모델은 상당한 진전을 보여주었습니다. 본 논문에서는 Tora의 개선된 버전인 Tora2를 소개하며, 외형과 모션 커스터마이제이션 능력을 확장하기 위한 여러 설계 개선 사항을 제안합니다. 구체적으로, 우리는 다중 오픈 세트 엔티티에 대한 포괄적인 개인화 임베딩을 생성하는 분리된 개인화 추출기를 도입하여, 기존 방법보다 미세한 시각적 세부 사항을 더 잘 보존합니다. 이를 바탕으로, 각 엔티티의 궤적, 텍스트 설명 및 시각적 정보를 통합하기 위한 게이트된 자기 주의 메커니즘을 설계했습니다. 이 혁신은 훈련 중 다중 모달 조건 간의 불일치를 크게 줄입니다. 또한, 모션과 개인화 임베딩 간의 명시적 매핑을 통해 궤적 역학과 엔티티 일관성을 공동으로 최적화하는 대조 손실을 도입했습니다. 우리가 아는 한, Tora2는 비디오 생성을 위한 외형과 모션의 동시 다중 엔티티 커스터마이제이션을 달성한 첫 번째 방법입니다. 실험 결과는 Tora2가 최첨단 커스터마이제이션 방법과 경쟁력 있는 성능을 달성하면서도 고급 모션 제어 기능을 제공함을 보여주며, 이는 다중 조건 비디오 생성 분야에서 중요한 진전을 이룬 것입니다. 프로젝트 페이지: https://github.com/alibaba/Tora.
English
Recent advances in diffusion transformer models for motion-guided video
generation, such as Tora, have shown significant progress. In this paper, we
present Tora2, an enhanced version of Tora, which introduces several design
improvements to expand its capabilities in both appearance and motion
customization. Specifically, we introduce a decoupled personalization extractor
that generates comprehensive personalization embeddings for multiple open-set
entities, better preserving fine-grained visual details compared to previous
methods. Building on this, we design a gated self-attention mechanism to
integrate trajectory, textual description, and visual information for each
entity. This innovation significantly reduces misalignment in multimodal
conditioning during training. Moreover, we introduce a contrastive loss that
jointly optimizes trajectory dynamics and entity consistency through explicit
mapping between motion and personalization embeddings. Tora2 is, to our best
knowledge, the first method to achieve simultaneous multi-entity customization
of appearance and motion for video generation. Experimental results demonstrate
that Tora2 achieves competitive performance with state-of-the-art customization
methods while providing advanced motion control capabilities, which marks a
critical advancement in multi-condition video generation. Project page:
https://github.com/alibaba/Tora .