ChatPaper.aiChatPaper

Tora2: Transformador de Difusión Personalizado para Movimiento y Apariencia en la Generación de Vídeo con Múltiples Entidades

Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation

July 8, 2025
Autores: Zhenghao Zhang, Junchao Liao, Xiangyu Meng, Long Qin, Weizhi Wang
cs.AI

Resumen

Los recientes avances en modelos de transformadores de difusión para la generación de vídeo guiada por movimiento, como Tora, han mostrado un progreso significativo. En este artículo, presentamos Tora2, una versión mejorada de Tora, que introduce varias mejoras de diseño para ampliar sus capacidades en la personalización tanto de apariencia como de movimiento. Específicamente, introducimos un extractor de personalización desacoplado que genera embeddings de personalización completos para múltiples entidades de conjunto abierto, preservando mejor los detalles visuales de grano fino en comparación con métodos anteriores. Basándonos en esto, diseñamos un mecanismo de autoatención con compuerta para integrar la trayectoria, la descripción textual y la información visual de cada entidad. Esta innovación reduce significativamente la desalineación en el condicionamiento multimodal durante el entrenamiento. Además, introducimos una pérdida contrastiva que optimiza conjuntamente la dinámica de la trayectoria y la consistencia de la entidad mediante un mapeo explícito entre los embeddings de movimiento y personalización. Tora2 es, hasta donde sabemos, el primer método en lograr la personalización simultánea de apariencia y movimiento de múltiples entidades para la generación de vídeo. Los resultados experimentales demuestran que Tora2 alcanza un rendimiento competitivo con los métodos de personalización más avanzados, al tiempo que ofrece capacidades avanzadas de control de movimiento, lo que marca un avance crítico en la generación de vídeo con múltiples condiciones. Página del proyecto: https://github.com/alibaba/Tora.
English
Recent advances in diffusion transformer models for motion-guided video generation, such as Tora, have shown significant progress. In this paper, we present Tora2, an enhanced version of Tora, which introduces several design improvements to expand its capabilities in both appearance and motion customization. Specifically, we introduce a decoupled personalization extractor that generates comprehensive personalization embeddings for multiple open-set entities, better preserving fine-grained visual details compared to previous methods. Building on this, we design a gated self-attention mechanism to integrate trajectory, textual description, and visual information for each entity. This innovation significantly reduces misalignment in multimodal conditioning during training. Moreover, we introduce a contrastive loss that jointly optimizes trajectory dynamics and entity consistency through explicit mapping between motion and personalization embeddings. Tora2 is, to our best knowledge, the first method to achieve simultaneous multi-entity customization of appearance and motion for video generation. Experimental results demonstrate that Tora2 achieves competitive performance with state-of-the-art customization methods while providing advanced motion control capabilities, which marks a critical advancement in multi-condition video generation. Project page: https://github.com/alibaba/Tora .
PDF91July 9, 2025