FMA-Net++: Super-risoluzione e deblurring video congiunto in scenari reali con consapevolezza del movimento e dell'esposizione
FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring
December 4, 2025
Autori: Geunhyuk Youk, Jihyong Oh, Munchurl Kim
cs.AI
Abstract
Il restauro video nel mondo reale è afflitto da degradazioni complesse dovute al movimento accoppiato a un'esposizione dinamicamente variabile - una sfida cruciale largamente trascurata dai lavori precedenti e un artefatto comune della cattura con auto-esposizione o in condizioni di scarsa illuminazione. Presentiamo FMA-Net++, un framework per la super-risoluzione video congiunta e il deblurring che modella esplicitamente questo effetto accoppiato di movimento ed esposizione dinamicamente variabile. FMA-Net++ adotta un'architettura a livello di sequenza costruita con blocchi di Raffinamento Gerarchico con Propagazione Bidirezionale, consentendo una modellazione temporale parallela e a lungo raggio. All'interno di ogni blocco, un layer di Modulazione Consapevole del Tempo di Esposizione condiziona le feature sull'esposizione per fotogramma, che a sua volta guida un modulo di Filtraggio Dinamico Guidato dal Flusso consapevole dell'esposizione per inferire kernel di degradazione sensibili al movimento e all'esposizione. FMA-Net++ dissocia l'apprendimento della degradazione dal restauro: il primo predice prior sensibili all'esposizione e al movimento per guidare il secondo, migliorando sia l'accuratezza che l'efficienza. Per valutare in condizioni di acquisizione realistiche, introduciamo i benchmark REDS-ME (multi-esposizione) e REDS-RE (esposizione casuale). Addestrato esclusivamente su dati sintetici, FMA-Net++ raggiunge accuratezza e coerenza temporale allo stato dell'arte sui nostri nuovi benchmark e su GoPro, superando i metodi recenti sia nella qualità del restauro che nella velocità di inferenza, e si generalizza bene su video del mondo reale impegnativi.
English
Real-world video restoration is plagued by complex degradations from motion coupled with dynamically varying exposure - a key challenge largely overlooked by prior works and a common artifact of auto-exposure or low-light capture. We present FMA-Net++, a framework for joint video super-resolution and deblurring that explicitly models this coupled effect of motion and dynamically varying exposure. FMA-Net++ adopts a sequence-level architecture built from Hierarchical Refinement with Bidirectional Propagation blocks, enabling parallel, long-range temporal modeling. Within each block, an Exposure Time-aware Modulation layer conditions features on per-frame exposure, which in turn drives an exposure-aware Flow-Guided Dynamic Filtering module to infer motion- and exposure-aware degradation kernels. FMA-Net++ decouples degradation learning from restoration: the former predicts exposure- and motion-aware priors to guide the latter, improving both accuracy and efficiency. To evaluate under realistic capture conditions, we introduce REDS-ME (multi-exposure) and REDS-RE (random-exposure) benchmarks. Trained solely on synthetic data, FMA-Net++ achieves state-of-the-art accuracy and temporal consistency on our new benchmarks and GoPro, outperforming recent methods in both restoration quality and inference speed, and generalizes well to challenging real-world videos.