Edição Versátil de Conteúdo, Ações e Dinâmicas de Vídeo sem Treinamento

Resumo

A geração controlada de vídeos tem registado melhorias drásticas nos últimos anos. No entanto, editar ações e eventos dinâmicos, ou inserir conteúdos que devam afetar o comportamento de outros objetos em vídeos do mundo real, continua a ser um grande desafio. Os modelos treinados existentes lutam com edições complexas, provavelmente devido à dificuldade de recolher dados de treino relevantes. Da mesma forma, os métodos existentes sem treino estão inerentemente restritos a edições que preservam a estrutura e o movimento e não suportam a modificação de movimento ou interações. Aqui, introduzimos a DynaEdit, um método de edição sem treino que desbloqueia capacidades versáteis de edição de vídeo com modelos pré-treinados de fluxo texto-para-vídeo. O nosso método baseia-se na abordagem recentemente introduzida sem inversão, que não intervém nos componentes internos do modelo, sendo assim agnóstica em relação ao modelo. Mostramos que tentar adaptar ingenuamente esta abordagem a uma edição geral sem restrições resulta num grave desalinhamento de baixa frequência e em tremores de alta frequência. Explicamos as fontes destes fenómenos e introduzimos novos mecanismos para os superar. Através de experiências extensivas, mostramos que a DynaEdit alcança resultados de última geração em tarefas complexas de edição de vídeo baseadas em texto, incluindo a modificação de ações, a inserção de objetos que interagem com a cena e a introdução de efeitos globais.

English

Controlled video generation has seen drastic improvements in recent years. However, editing actions and dynamic events, or inserting contents that should affect the behaviors of other objects in real-world videos, remains a major challenge. Existing trained models struggle with complex edits, likely due to the difficulty of collecting relevant training data. Similarly, existing training-free methods are inherently restricted to structure- and motion-preserving edits and do not support modification of motion or interactions. Here, we introduce DynaEdit, a training-free editing method that unlocks versatile video editing capabilities with pretrained text-to-video flow models. Our method relies on the recently introduced inversion-free approach, which does not intervene in the model internals, and is thus model-agnostic. We show that naively attempting to adapt this approach to general unconstrained editing results in severe low-frequency misalignment and high-frequency jitter. We explain the sources for these phenomena and introduce novel mechanisms for overcoming them. Through extensive experiments, we show that DynaEdit achieves state-of-the-art results on complex text-based video editing tasks, including modifying actions, inserting objects that interact with the scene, and introducing global effects.

Edição Versátil de Conteúdo, Ações e Dinâmicas de Vídeo sem Treinamento

Versatile Editing of Video Content, Actions, and Dynamics without Training

Resumo

Support