ChatPaper.aiChatPaper

MEMFOF: Treinamento de Alta Resolução para Estimação de Fluxo Óptico Multi-Quadro com Eficiência de Memória

MEMFOF: High-Resolution Training for Memory-Efficient Multi-Frame Optical Flow Estimation

June 29, 2025
Autores: Vladislav Bargatin, Egor Chistov, Alexander Yakovenko, Dmitriy Vatolin
cs.AI

Resumo

Os avanços recentes na estimativa de fluxo óptico priorizaram a precisão ao custo de um crescente consumo de memória GPU, especialmente para entradas de alta resolução (FullHD). Apresentamos o MEMFOF, um método de fluxo óptico multiframe eficiente em memória que identifica um equilíbrio favorável entre a estimativa multiframe e o uso de memória GPU. Notavelmente, o MEMFOF requer apenas 2,09 GB de memória GPU em tempo de execução para entradas 1080p e 28,5 GB durante o treinamento, o que posiciona exclusivamente nosso método para ser treinado em resolução nativa 1080p sem a necessidade de recorte ou redução de resolução. Revisitamos sistematicamente as escolhas de design de arquiteturas semelhantes ao RAFT, integrando volumes de correlação reduzidos e protocolos de treinamento em alta resolução juntamente com a estimativa multiframe, para alcançar desempenho de ponta em vários benchmarks enquanto reduz substancialmente a sobrecarga de memória. Nosso método supera alternativas mais intensivas em recursos tanto em precisão quanto em eficiência de tempo de execução, validando sua robustez para estimativa de fluxo em altas resoluções. No momento da submissão, nosso método ocupa o primeiro lugar no benchmark Spring com uma taxa de outliers de 1 pixel (1px) de 3,289, lidera o Sintel (clean) com um erro de ponto final (EPE) de 0,963 e alcança o melhor erro Fl-all no KITTI-2015 com 2,94%. O código está disponível em https://github.com/msu-video-group/memfof.
English
Recent advances in optical flow estimation have prioritized accuracy at the cost of growing GPU memory consumption, particularly for high-resolution (FullHD) inputs. We introduce MEMFOF, a memory-efficient multi-frame optical flow method that identifies a favorable trade-off between multi-frame estimation and GPU memory usage. Notably, MEMFOF requires only 2.09 GB of GPU memory at runtime for 1080p inputs, and 28.5 GB during training, which uniquely positions our method to be trained at native 1080p without the need for cropping or downsampling. We systematically revisit design choices from RAFT-like architectures, integrating reduced correlation volumes and high-resolution training protocols alongside multi-frame estimation, to achieve state-of-the-art performance across multiple benchmarks while substantially reducing memory overhead. Our method outperforms more resource-intensive alternatives in both accuracy and runtime efficiency, validating its robustness for flow estimation at high resolutions. At the time of submission, our method ranks first on the Spring benchmark with a 1-pixel (1px) outlier rate of 3.289, leads Sintel (clean) with an endpoint error (EPE) of 0.963, and achieves the best Fl-all error on KITTI-2015 at 2.94%. The code is available at https://github.com/msu-video-group/memfof.
PDF242July 1, 2025