ChatPaper.aiChatPaper

FMA-Net++: Superresolución y Desenfoque Conjuntos de Video en Tiempo Real con Conciencia del Movimiento y la Exposición

FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring

December 4, 2025
Autores: Geunhyuk Youk, Jihyong Oh, Munchurl Kim
cs.AI

Resumen

La restauración de vídeo en escenarios reales se ve afectada por degradaciones complejas derivadas del movimiento combinado con una exposición dinámicamente variable, un desafío clave ampliamente ignorado por trabajos anteriores y un artefacto común en capturas con autoexposición o en condiciones de baja luminosidad. Presentamos FMA-Net++, un marco para la super-resolución y desenfoque conjunto de vídeo que modela explícitamente este efecto acoplado de movimiento y exposición variable dinámica. FMA-Net++ adopta una arquitectura a nivel de secuencia construida con bloques de Refinamiento Jerárquico con Propagación Bidireccional, permitiendo un modelado temporal paralelo de largo alcance. Dentro de cada bloque, una capa de Modulación Consciente del Tiempo de Exposición condiciona las características según la exposición por fotograma, lo que a su vez impulsa un módulo de Filtrado Dinámico Guiado por Flujo consciente de la exposición para inferir núcleos de degradación que tienen en cuenta el movimiento y la exposición. FMA-Net++ desacopla el aprendizaje de la degradación de la restauración: el primero predice priores conscientes de la exposición y el movimiento para guiar al segundo, mejorando tanto la precisión como la eficiencia. Para evaluar en condiciones de captura realistas, presentamos los benchmarks REDS-ME (multi-exposición) y REDS-RE (exposición aleatoria). Entrenado únicamente con datos sintéticos, FMA-Net++ logra una precisión y consistencia temporal state-of-the-art en nuestros nuevos benchmarks y en GoPro, superando a métodos recientes tanto en calidad de restauración como en velocidad de inferencia, y generaliza bien para vídeos reales desafiantes.
English
Real-world video restoration is plagued by complex degradations from motion coupled with dynamically varying exposure - a key challenge largely overlooked by prior works and a common artifact of auto-exposure or low-light capture. We present FMA-Net++, a framework for joint video super-resolution and deblurring that explicitly models this coupled effect of motion and dynamically varying exposure. FMA-Net++ adopts a sequence-level architecture built from Hierarchical Refinement with Bidirectional Propagation blocks, enabling parallel, long-range temporal modeling. Within each block, an Exposure Time-aware Modulation layer conditions features on per-frame exposure, which in turn drives an exposure-aware Flow-Guided Dynamic Filtering module to infer motion- and exposure-aware degradation kernels. FMA-Net++ decouples degradation learning from restoration: the former predicts exposure- and motion-aware priors to guide the latter, improving both accuracy and efficiency. To evaluate under realistic capture conditions, we introduce REDS-ME (multi-exposure) and REDS-RE (random-exposure) benchmarks. Trained solely on synthetic data, FMA-Net++ achieves state-of-the-art accuracy and temporal consistency on our new benchmarks and GoPro, outperforming recent methods in both restoration quality and inference speed, and generalizes well to challenging real-world videos.
PDF42December 6, 2025