Tora2: Bewegungs- und Erscheinungsbild-angepasster Diffusionstransformer für die Multi-Entitäten-Videogenerierung
Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation
July 8, 2025
papers.authors: Zhenghao Zhang, Junchao Liao, Xiangyu Meng, Long Qin, Weizhi Wang
cs.AI
papers.abstract
Jüngste Fortschritte bei Diffusions-Transformer-Modellen für bewegungsgesteuerte Videogenerierung, wie Tora, haben bedeutende Fortschritte gezeigt. In diesem Artikel präsentieren wir Tora2, eine verbesserte Version von Tora, die mehrere Designverbesserungen einführt, um ihre Fähigkeiten in Bezug auf Erscheinungsbild- und Bewegungsanpassung zu erweitern. Insbesondere führen wir einen entkoppelten Personalisierungs-Extraktor ein, der umfassende Personalisierungs-Embeddings für mehrere Open-Set-Entitäten generiert und im Vergleich zu früheren Methoden feinere visuelle Details besser bewahrt. Darauf aufbauend entwerfen wir einen gated Self-Attention-Mechanismus, um Trajektorie, Textbeschreibung und visuelle Informationen für jede Entität zu integrieren. Diese Innovation reduziert die Fehlausrichtung bei der multimodalen Konditionierung während des Trainings erheblich. Darüber hinaus führen wir einen Kontrastverlust ein, der die Trajektoriendynamik und die Entitätskonsistenz durch explizite Abbildung zwischen Bewegungs- und Personalisierungs-Embeddings gemeinsam optimiert. Tora2 ist, nach unserem besten Wissen, die erste Methode, die eine gleichzeitige Multi-Entitäten-Anpassung von Erscheinungsbild und Bewegung für die Videogenerierung erreicht. Experimentelle Ergebnisse zeigen, dass Tora2 eine wettbewerbsfähige Leistung im Vergleich zu state-of-the-art Personalisierungsmethoden erzielt und gleichzeitig fortschrittliche Bewegungssteuerungsfähigkeiten bietet, was einen kritischen Fortschritt in der Multi-Konditionen-Videogenerierung darstellt. Projektseite: https://github.com/alibaba/Tora.
English
Recent advances in diffusion transformer models for motion-guided video
generation, such as Tora, have shown significant progress. In this paper, we
present Tora2, an enhanced version of Tora, which introduces several design
improvements to expand its capabilities in both appearance and motion
customization. Specifically, we introduce a decoupled personalization extractor
that generates comprehensive personalization embeddings for multiple open-set
entities, better preserving fine-grained visual details compared to previous
methods. Building on this, we design a gated self-attention mechanism to
integrate trajectory, textual description, and visual information for each
entity. This innovation significantly reduces misalignment in multimodal
conditioning during training. Moreover, we introduce a contrastive loss that
jointly optimizes trajectory dynamics and entity consistency through explicit
mapping between motion and personalization embeddings. Tora2 is, to our best
knowledge, the first method to achieve simultaneous multi-entity customization
of appearance and motion for video generation. Experimental results demonstrate
that Tora2 achieves competitive performance with state-of-the-art customization
methods while providing advanced motion control capabilities, which marks a
critical advancement in multi-condition video generation. Project page:
https://github.com/alibaba/Tora .