ChatPaper.aiChatPaper

DiffusionBrowser: Visualizações Interativas de Difusão via Decodificadores Multirramo

DiffusionBrowser: Interactive Diffusion Previews via Multi-Branch Decoders

December 15, 2025
Autores: Susung Hong, Chongjian Ge, Zhifei Zhang, Jui-Hsien Wang
cs.AI

Resumo

Os modelos de difusão de vídeo revolucionaram a síntese generativa de vídeo, mas são imprecisos, lentos e podem ser opacos durante a geração – mantendo os utilizadores no escuro por um período prolongado. Neste trabalho, propomos o DiffusionBrowser, uma estrutura de decodificador leve e independente do modelo que permite aos utilizadores gerar previsualizações interativas em qualquer ponto (passo temporal ou bloco do transformador) durante o processo de remoção de ruído. O nosso modelo pode gerar representações de previsualização multimodais que incluem RGB e características intrínsecas da cena a uma velocidade superior a 4 vezes o tempo real (menos de 1 segundo para um vídeo de 4 segundos), transmitindo aparência e movimento consistentes com o vídeo final. Com o decodificador treinado, demonstramos que é possível guiar interativamente a geração em passos de ruído intermediários através da reinjeção de estocasticidade e direcionamento modal, desbloqueando uma nova capacidade de controlo. Além disso, analisamos sistematicamente o modelo usando os decodificadores aprendidos, revelando como a cena, os objetos e outros detalhes são compostos e montados durante o processo de remoção de ruído, que de outra forma seria uma caixa negra.
English
Video diffusion models have revolutionized generative video synthesis, but they are imprecise, slow, and can be opaque during generation -- keeping users in the dark for a prolonged period. In this work, we propose DiffusionBrowser, a model-agnostic, lightweight decoder framework that allows users to interactively generate previews at any point (timestep or transformer block) during the denoising process. Our model can generate multi-modal preview representations that include RGB and scene intrinsics at more than 4times real-time speed (less than 1 second for a 4-second video) that convey consistent appearance and motion to the final video. With the trained decoder, we show that it is possible to interactively guide the generation at intermediate noise steps via stochasticity reinjection and modal steering, unlocking a new control capability. Moreover, we systematically probe the model using the learned decoders, revealing how scene, object, and other details are composed and assembled during the otherwise black-box denoising process.
PDF32March 6, 2026