ChatPaper.aiChatPaper

Tora2: Motion en Uiterlijk Gepersonaliseerde Diffusie Transformer voor Multi-Entiteit Video Generatie

Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation

July 8, 2025
Auteurs: Zhenghao Zhang, Junchao Liao, Xiangyu Meng, Long Qin, Weizhi Wang
cs.AI

Samenvatting

Recente vooruitgang in diffusie-transformatormodellen voor beweging-gestuurde videogeneratie, zoals Tora, heeft aanzienlijke vooruitgang laten zien. In dit artikel presenteren we Tora2, een verbeterde versie van Tora, die verschillende ontwerpverbeteringen introduceert om de mogelijkheden voor zowel uiterlijk als beweging aan te passen. Specifiek introduceren we een ontkoppelde personalisatie-extractor die uitgebreide personalisatie-embeddings genereert voor meerdere open-set entiteiten, waardoor fijnmazige visuele details beter behouden blijven in vergelijking met eerdere methoden. Hierop voortbouwend ontwerpen we een gegate self-attention-mechanisme om traject, tekstuele beschrijving en visuele informatie voor elke entiteit te integreren. Deze innovatie vermindert de uitlijning in multimodale conditionering tijdens de training aanzienlijk. Bovendien introduceren we een contrastief verlies dat gezamenlijk de trajectdynamiek en entiteitsconsistentie optimaliseert door expliciete mapping tussen beweging en personalisatie-embeddings. Tora2 is, voor zover wij weten, de eerste methode die gelijktijdige multi-entiteit-aanpassing van uiterlijk en beweging voor videogeneratie bereikt. Experimentele resultaten tonen aan dat Tora2 concurrerende prestaties bereikt met state-of-the-art aanpassingsmethoden, terwijl het geavanceerde bewegingscontrolemogelijkheden biedt, wat een kritische vooruitgang markeert in multi-condition videogeneratie. Projectpagina: https://github.com/alibaba/Tora.
English
Recent advances in diffusion transformer models for motion-guided video generation, such as Tora, have shown significant progress. In this paper, we present Tora2, an enhanced version of Tora, which introduces several design improvements to expand its capabilities in both appearance and motion customization. Specifically, we introduce a decoupled personalization extractor that generates comprehensive personalization embeddings for multiple open-set entities, better preserving fine-grained visual details compared to previous methods. Building on this, we design a gated self-attention mechanism to integrate trajectory, textual description, and visual information for each entity. This innovation significantly reduces misalignment in multimodal conditioning during training. Moreover, we introduce a contrastive loss that jointly optimizes trajectory dynamics and entity consistency through explicit mapping between motion and personalization embeddings. Tora2 is, to our best knowledge, the first method to achieve simultaneous multi-entity customization of appearance and motion for video generation. Experimental results demonstrate that Tora2 achieves competitive performance with state-of-the-art customization methods while providing advanced motion control capabilities, which marks a critical advancement in multi-condition video generation. Project page: https://github.com/alibaba/Tora .
PDF122July 9, 2025