ChatPaper.aiChatPaper

Tora2: Transformador de Difusão Personalizado para Movimento e Aparência na Geração de Vídeos com Múltiplas Entidades

Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation

July 8, 2025
Autores: Zhenghao Zhang, Junchao Liao, Xiangyu Meng, Long Qin, Weizhi Wang
cs.AI

Resumo

Avanços recentes em modelos de transformadores de difusão para geração de vídeo guiada por movimento, como o Tora, têm mostrado progresso significativo. Neste artigo, apresentamos o Tora2, uma versão aprimorada do Tora, que introduz várias melhorias de design para expandir suas capacidades tanto na personalização de aparência quanto de movimento. Especificamente, introduzimos um extrator de personalização desacoplado que gera embeddings de personalização abrangentes para múltiplas entidades de conjunto aberto, preservando melhor detalhes visuais refinados em comparação com métodos anteriores. Com base nisso, projetamos um mecanismo de autoatenção com portas para integrar trajetória, descrição textual e informações visuais para cada entidade. Essa inovação reduz significativamente o desalinhamento no condicionamento multimodal durante o treinamento. Além disso, introduzimos uma função de perda contrastiva que otimiza conjuntamente a dinâmica da trajetória e a consistência da entidade por meio de um mapeamento explícito entre embeddings de movimento e personalização. O Tora2 é, até onde sabemos, o primeiro método a alcançar a personalização simultânea de aparência e movimento de múltiplas entidades para geração de vídeo. Resultados experimentais demonstram que o Tora2 alcança desempenho competitivo com os métodos de personalização mais avançados, ao mesmo tempo em que oferece capacidades avançadas de controle de movimento, o que representa um avanço crítico na geração de vídeo com múltiplas condições. Página do projeto: https://github.com/alibaba/Tora.
English
Recent advances in diffusion transformer models for motion-guided video generation, such as Tora, have shown significant progress. In this paper, we present Tora2, an enhanced version of Tora, which introduces several design improvements to expand its capabilities in both appearance and motion customization. Specifically, we introduce a decoupled personalization extractor that generates comprehensive personalization embeddings for multiple open-set entities, better preserving fine-grained visual details compared to previous methods. Building on this, we design a gated self-attention mechanism to integrate trajectory, textual description, and visual information for each entity. This innovation significantly reduces misalignment in multimodal conditioning during training. Moreover, we introduce a contrastive loss that jointly optimizes trajectory dynamics and entity consistency through explicit mapping between motion and personalization embeddings. Tora2 is, to our best knowledge, the first method to achieve simultaneous multi-entity customization of appearance and motion for video generation. Experimental results demonstrate that Tora2 achieves competitive performance with state-of-the-art customization methods while providing advanced motion control capabilities, which marks a critical advancement in multi-condition video generation. Project page: https://github.com/alibaba/Tora .
PDF101July 9, 2025