ChatPaper.aiChatPaper

Tora2: Трансформер диффузии с настройкой движения и внешнего вида для генерации видео с несколькими объектами

Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation

July 8, 2025
Авторы: Zhenghao Zhang, Junchao Liao, Xiangyu Meng, Long Qin, Weizhi Wang
cs.AI

Аннотация

Последние достижения в области моделей диффузионных трансформеров для генерации видео с управлением движением, такие как Tora, продемонстрировали значительный прогресс. В данной статье мы представляем Tora2, усовершенствованную версию Tora, которая включает несколько улучшений в дизайне для расширения возможностей кастомизации как внешнего вида, так и движения. В частности, мы вводим декомпозированный экстрактор персонализации, который генерирует всеобъемлющие эмбеддинги персонализации для множества объектов из открытого набора, лучше сохраняя мелкие визуальные детали по сравнению с предыдущими методами. На основе этого мы разрабатываем механизм управляемого самовнимания для интеграции траектории, текстового описания и визуальной информации для каждого объекта. Это нововведение значительно снижает рассогласование в мультимодальных условиях во время обучения. Кроме того, мы вводим контрастную функцию потерь, которая совместно оптимизирует динамику траектории и согласованность объектов через явное отображение между эмбеддингами движения и персонализации. Tora2, насколько нам известно, является первым методом, который позволяет одновременно кастомизировать внешний вид и движение нескольких объектов для генерации видео. Экспериментальные результаты показывают, что Tora2 демонстрирует конкурентоспособную производительность по сравнению с современными методами кастомизации, предоставляя при этом расширенные возможности управления движением, что знаменует собой важный шаг вперед в генерации видео с множественными условиями. Страница проекта: https://github.com/alibaba/Tora.
English
Recent advances in diffusion transformer models for motion-guided video generation, such as Tora, have shown significant progress. In this paper, we present Tora2, an enhanced version of Tora, which introduces several design improvements to expand its capabilities in both appearance and motion customization. Specifically, we introduce a decoupled personalization extractor that generates comprehensive personalization embeddings for multiple open-set entities, better preserving fine-grained visual details compared to previous methods. Building on this, we design a gated self-attention mechanism to integrate trajectory, textual description, and visual information for each entity. This innovation significantly reduces misalignment in multimodal conditioning during training. Moreover, we introduce a contrastive loss that jointly optimizes trajectory dynamics and entity consistency through explicit mapping between motion and personalization embeddings. Tora2 is, to our best knowledge, the first method to achieve simultaneous multi-entity customization of appearance and motion for video generation. Experimental results demonstrate that Tora2 achieves competitive performance with state-of-the-art customization methods while providing advanced motion control capabilities, which marks a critical advancement in multi-condition video generation. Project page: https://github.com/alibaba/Tora .
PDF91July 9, 2025