FMA-Net++: Rede Neural para Super-Resolução e Desembaçamento Conjuntos em Vídeos do Mundo Real com Consciência de Movimento e Exposição
FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring
December 4, 2025
Autores: Geunhyuk Youk, Jihyong Oh, Munchurl Kim
cs.AI
Resumo
A restauração de vídeos do mundo real é prejudicada por degradações complexas resultantes do movimento combinado com exposição dinamicamente variável - um desafio fundamental amplamente negligenciado por trabalhos anteriores e um artefato comum da captura com autoexposição ou em condições de pouca luz. Apresentamos o FMA-Net++, uma estrutura para super-resolução e desembaçamento conjuntos de vídeo que modela explicitamente este efeito acoplado de movimento e exposição dinamicamente variável. O FMA-Net++ adota uma arquitetura em nível de sequência construída a partir de blocos de Refinamento Hierárquico com Propagação Bidirecional, permitindo modelagem temporal paralela e de longo alcance. Dentro de cada bloco, uma camada de Modulação com Consciência do Tempo de Exposição condiciona as características na exposição por quadro, que por sua vez direciona um módulo de Filtragem Dinâmica Guiada por Fluxo com consciência da exposição para inferir kernels de degradação conscientes do movimento e da exposição. O FMA-Net++ desacopla a aprendizagem de degradação da restauração: a primeira prevê prioridades conscientes da exposição e do movimento para orientar a última, melhorando tanto a precisão quanto a eficiência. Para avaliar sob condições realistas de captura, introduzimos os benchmarks REDS-ME (multi-exposição) e REDS-RE (exposição aleatória). Treinado exclusivamente em dados sintéticos, o FMA-Net++ alcança precisão e consistência temporal de última geração em nossos novos benchmarks e no GoPro, superando métodos recentes tanto em qualidade de restauração quanto em velocidade de inferência, e generaliza bem para vídeos desafiadores do mundo real.
English
Real-world video restoration is plagued by complex degradations from motion coupled with dynamically varying exposure - a key challenge largely overlooked by prior works and a common artifact of auto-exposure or low-light capture. We present FMA-Net++, a framework for joint video super-resolution and deblurring that explicitly models this coupled effect of motion and dynamically varying exposure. FMA-Net++ adopts a sequence-level architecture built from Hierarchical Refinement with Bidirectional Propagation blocks, enabling parallel, long-range temporal modeling. Within each block, an Exposure Time-aware Modulation layer conditions features on per-frame exposure, which in turn drives an exposure-aware Flow-Guided Dynamic Filtering module to infer motion- and exposure-aware degradation kernels. FMA-Net++ decouples degradation learning from restoration: the former predicts exposure- and motion-aware priors to guide the latter, improving both accuracy and efficiency. To evaluate under realistic capture conditions, we introduce REDS-ME (multi-exposure) and REDS-RE (random-exposure) benchmarks. Trained solely on synthetic data, FMA-Net++ achieves state-of-the-art accuracy and temporal consistency on our new benchmarks and GoPro, outperforming recent methods in both restoration quality and inference speed, and generalizes well to challenging real-world videos.