Geração In-Context com Restrição de Região para Edição de Vídeos Instrucionais

Resumo

O paradigma de geração in-context demonstrou recentemente forte capacidade na edição de imagens instrucional, com eficiência de dados e qualidade de síntese. No entanto, adaptar esse aprendizado in-context para a edição de vídeo baseada em instruções não é trivial. Sem especificar regiões de edição, os resultados podem sofrer com o problema de regiões de edição imprecisas e a interferência entre tokens de áreas editadas e não editadas durante a remoção de ruído. Para resolver isso, apresentamos o ReCo, um novo paradigma de edição de vídeo instrucional que investiga de forma inovadora a modelagem de restrições entre regiões editadas e não editadas durante a geração in-context. Tecnicamente, o ReCo concatena lateralmente os vídeos fonte e destino para remoção de ruído conjunta. Para calibrar o aprendizado de difusão de vídeo, o ReCo emprega dois termos de regularização, ou seja, regularização latente e de atenção, aplicados respectivamente aos latentes desruídos de um passo anterior e aos mapas de atenção. O primeiro aumenta a discrepância latente da região de edição entre os vídeos fonte e destino, enquanto reduz a das áreas não editadas, enfatizando a modificação na área de edição e aliviando a geração de conteúdo indesejado externo. O último suprime a atenção dos tokens na região de edição para os tokens na contraparte do vídeo fonte, mitigando assim sua interferência durante a geração de novos objetos no vídeo destino. Adicionalmente, propomos um conjunto de dados de edição de vídeo em larga escala e de alta qualidade, o ReCo-Data, compreendendo 500 mil pares instrução-vídeo para beneficiar o treinamento de modelos. Experimentos extensivos conduzidos em quatro tarefas principais de edição de vídeo baseada em instruções demonstram a superioridade de nossa proposta.

English

The In-context generation paradigm recently has demonstrated strong power in instructional image editing with both data efficiency and synthesis quality. Nevertheless, shaping such in-context learning for instruction-based video editing is not trivial. Without specifying editing regions, the results can suffer from the problem of inaccurate editing regions and the token interference between editing and non-editing areas during denoising. To address these, we present ReCo, a new instructional video editing paradigm that novelly delves into constraint modeling between editing and non-editing regions during in-context generation. Technically, ReCo width-wise concatenates source and target video for joint denoising. To calibrate video diffusion learning, ReCo capitalizes on two regularization terms, i.e., latent and attention regularization, conducting on one-step backward denoised latents and attention maps, respectively. The former increases the latent discrepancy of the editing region between source and target videos while reducing that of non-editing areas, emphasizing the modification on editing area and alleviating outside unexpected content generation. The latter suppresses the attention of tokens in the editing region to the tokens in counterpart of the source video, thereby mitigating their interference during novel object generation in target video. Furthermore, we propose a large-scale, high-quality video editing dataset, i.e., ReCo-Data, comprising 500K instruction-video pairs to benefit model training. Extensive experiments conducted on four major instruction-based video editing tasks demonstrate the superiority of our proposal.

Geração In-Context com Restrição de Região para Edição de Vídeos Instrucionais

Region-Constraint In-Context Generation for Instructional Video Editing

Resumo

Support