MEMFOF: Entrenamiento de Alta Resolución para la Estimación de Flujo Óptico Multi-Frame Eficiente en Memoria
MEMFOF: High-Resolution Training for Memory-Efficient Multi-Frame Optical Flow Estimation
June 29, 2025
Autores: Vladislav Bargatin, Egor Chistov, Alexander Yakovenko, Dmitriy Vatolin
cs.AI
Resumen
Los avances recientes en la estimación del flujo óptico han priorizado la precisión a costa de un creciente consumo de memoria en GPU, especialmente para entradas de alta resolución (FullHD). Presentamos MEMFOF, un método de flujo óptico multiframe eficiente en memoria que identifica un equilibrio favorable entre la estimación multiframe y el uso de memoria en GPU. Destacablemente, MEMFOF requiere solo 2.09 GB de memoria en GPU durante la ejecución para entradas de 1080p, y 28.5 GB durante el entrenamiento, lo que posiciona de manera única a nuestro método para ser entrenado en resolución nativa de 1080p sin necesidad de recortes o reducción de resolución. Revisamos sistemáticamente las decisiones de diseño de arquitecturas similares a RAFT, integrando volúmenes de correlación reducidos y protocolos de entrenamiento de alta resolución junto con la estimación multiframe, para lograr un rendimiento de vanguardia en múltiples benchmarks mientras se reduce sustancialmente la sobrecarga de memoria. Nuestro método supera a alternativas más intensivas en recursos tanto en precisión como en eficiencia de tiempo de ejecución, validando su robustez para la estimación de flujo en altas resoluciones. Al momento de la presentación, nuestro método ocupa el primer lugar en el benchmark Spring con una tasa de valores atípicos de 1 píxel (1px) de 3.289, lidera Sintel (clean) con un error de punto final (EPE) de 0.963, y alcanza el mejor error Fl-all en KITTI-2015 con un 2.94%. El código está disponible en https://github.com/msu-video-group/memfof.
English
Recent advances in optical flow estimation have prioritized accuracy at the
cost of growing GPU memory consumption, particularly for high-resolution
(FullHD) inputs. We introduce MEMFOF, a memory-efficient multi-frame optical
flow method that identifies a favorable trade-off between multi-frame
estimation and GPU memory usage. Notably, MEMFOF requires only 2.09 GB of GPU
memory at runtime for 1080p inputs, and 28.5 GB during training, which uniquely
positions our method to be trained at native 1080p without the need for
cropping or downsampling. We systematically revisit design choices from
RAFT-like architectures, integrating reduced correlation volumes and
high-resolution training protocols alongside multi-frame estimation, to achieve
state-of-the-art performance across multiple benchmarks while substantially
reducing memory overhead. Our method outperforms more resource-intensive
alternatives in both accuracy and runtime efficiency, validating its robustness
for flow estimation at high resolutions. At the time of submission, our method
ranks first on the Spring benchmark with a 1-pixel (1px) outlier rate of 3.289,
leads Sintel (clean) with an endpoint error (EPE) of 0.963, and achieves the
best Fl-all error on KITTI-2015 at 2.94%. The code is available at
https://github.com/msu-video-group/memfof.