ChatPaper.aiChatPaper

FMA-Net++ : Réseau conjoint de super-résolution vidéo et de débruitage en temps réel prenant en compte le mouvement et l'exposition

FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring

December 4, 2025
papers.authors: Geunhyuk Youk, Jihyong Oh, Munchurl Kim
cs.AI

papers.abstract

La restauration vidéo en conditions réelles est entravée par des dégradations complexes associant le mouvement à une exposition dynamiquement variable - un défi majeur largement négligé par les travaux antérieurs et un artéfact courant des captures en auto-exposition ou en faible luminosité. Nous présentons FMA-Net++, un cadre pour la super-résolution vidéo et le débruitage conjoints qui modélise explicitement cet effet couplé du mouvement et de l'exposition dynamiquement variable. FMA-Net++ adopte une architecture séquentielle basée sur des blocs de Raffinement Hiérarchique avec Propagation Bidirectionnelle, permettant une modélisation temporelle parallèle à longue portée. Au sein de chaque bloc, une couche de Modulation Sensible au Temps d'Exposition conditionne les caractéristiques sur l'exposition par image, ce qui pilote ensuite un module de Filtrage Dynamique Guidé par Flux sensible à l'exposition pour inférer des noyaux de dégradation conscients du mouvement et de l'exposition. FMA-Net++ découple l'apprentissage de la dégradation de la restauration : le premier prédit des préalables sensibles à l'exposition et au mouvement pour guider la seconde, améliorant à la fois la précision et l'efficacité. Pour évaluer dans des conditions de capture réalistes, nous introduisons les benchmarks REDS-ME (multi-exposition) et REDS-RE (exposition aléatoire). Entraîné uniquement sur des données synthétiques, FMA-Net++ atteint une précision et une cohérence temporelle de pointe sur nos nouveaux benchmarks et GoPro, surpassant les méthodes récentes tant en qualité de restauration qu'en vitesse d'inférence, et généralise bien aux vidéos réalistes difficiles.
English
Real-world video restoration is plagued by complex degradations from motion coupled with dynamically varying exposure - a key challenge largely overlooked by prior works and a common artifact of auto-exposure or low-light capture. We present FMA-Net++, a framework for joint video super-resolution and deblurring that explicitly models this coupled effect of motion and dynamically varying exposure. FMA-Net++ adopts a sequence-level architecture built from Hierarchical Refinement with Bidirectional Propagation blocks, enabling parallel, long-range temporal modeling. Within each block, an Exposure Time-aware Modulation layer conditions features on per-frame exposure, which in turn drives an exposure-aware Flow-Guided Dynamic Filtering module to infer motion- and exposure-aware degradation kernels. FMA-Net++ decouples degradation learning from restoration: the former predicts exposure- and motion-aware priors to guide the latter, improving both accuracy and efficiency. To evaluate under realistic capture conditions, we introduce REDS-ME (multi-exposure) and REDS-RE (random-exposure) benchmarks. Trained solely on synthetic data, FMA-Net++ achieves state-of-the-art accuracy and temporal consistency on our new benchmarks and GoPro, outperforming recent methods in both restoration quality and inference speed, and generalizes well to challenging real-world videos.
PDF42December 6, 2025