MEMFOF: Entrenamiento de Alta Resolución para la Estimación de Flujo Óptico Multi-Frame Eficiente en Memoria

Resumen

Los avances recientes en la estimación del flujo óptico han priorizado la precisión a costa de un creciente consumo de memoria en GPU, especialmente para entradas de alta resolución (FullHD). Presentamos MEMFOF, un método de flujo óptico multiframe eficiente en memoria que identifica un equilibrio favorable entre la estimación multiframe y el uso de memoria en GPU. Destacablemente, MEMFOF requiere solo 2.09 GB de memoria en GPU durante la ejecución para entradas de 1080p, y 28.5 GB durante el entrenamiento, lo que posiciona de manera única a nuestro método para ser entrenado en resolución nativa de 1080p sin necesidad de recortes o reducción de resolución. Revisamos sistemáticamente las decisiones de diseño de arquitecturas similares a RAFT, integrando volúmenes de correlación reducidos y protocolos de entrenamiento de alta resolución junto con la estimación multiframe, para lograr un rendimiento de vanguardia en múltiples benchmarks mientras se reduce sustancialmente la sobrecarga de memoria. Nuestro método supera a alternativas más intensivas en recursos tanto en precisión como en eficiencia de tiempo de ejecución, validando su robustez para la estimación de flujo en altas resoluciones. Al momento de la presentación, nuestro método ocupa el primer lugar en el benchmark Spring con una tasa de valores atípicos de 1 píxel (1px) de 3.289, lidera Sintel (clean) con un error de punto final (EPE) de 0.963, y alcanza el mejor error Fl-all en KITTI-2015 con un 2.94%. El código está disponible en https://github.com/msu-video-group/memfof.

English

Recent advances in optical flow estimation have prioritized accuracy at the cost of growing GPU memory consumption, particularly for high-resolution (FullHD) inputs. We introduce MEMFOF, a memory-efficient multi-frame optical flow method that identifies a favorable trade-off between multi-frame estimation and GPU memory usage. Notably, MEMFOF requires only 2.09 GB of GPU memory at runtime for 1080p inputs, and 28.5 GB during training, which uniquely positions our method to be trained at native 1080p without the need for cropping or downsampling. We systematically revisit design choices from RAFT-like architectures, integrating reduced correlation volumes and high-resolution training protocols alongside multi-frame estimation, to achieve state-of-the-art performance across multiple benchmarks while substantially reducing memory overhead. Our method outperforms more resource-intensive alternatives in both accuracy and runtime efficiency, validating its robustness for flow estimation at high resolutions. At the time of submission, our method ranks first on the Spring benchmark with a 1-pixel (1px) outlier rate of 3.289, leads Sintel (clean) with an endpoint error (EPE) of 0.963, and achieves the best Fl-all error on KITTI-2015 at 2.94%. The code is available at https://github.com/msu-video-group/memfof.

MEMFOF: Entrenamiento de Alta Resolución para la Estimación de Flujo Óptico Multi-Frame Eficiente en Memoria

MEMFOF: High-Resolution Training for Memory-Efficient Multi-Frame Optical Flow Estimation

Resumen

Support