ChatPaper.aiChatPaper

MEMFOF: Высококачественное обучение для эффективного по памяти многокадрового оценивания оптического потока

MEMFOF: High-Resolution Training for Memory-Efficient Multi-Frame Optical Flow Estimation

June 29, 2025
Авторы: Vladislav Bargatin, Egor Chistov, Alexander Yakovenko, Dmitriy Vatolin
cs.AI

Аннотация

Последние достижения в области оценки оптического потока были сосредоточены на повышении точности за счет увеличения потребления памяти GPU, особенно для входных данных с высоким разрешением (FullHD). Мы представляем MEMFOF — метод оценки оптического потока по нескольким кадрам, оптимизированный по использованию памяти, который находит оптимальный баланс между многофреймовой оценкой и потреблением памяти GPU. Важно отметить, что MEMFOF требует всего 2,09 ГБ памяти GPU во время выполнения для входных данных 1080p и 28,5 ГБ во время обучения, что позволяет обучать метод на нативных данных 1080p без необходимости обрезки или уменьшения разрешения. Мы систематически пересмотрели архитектурные решения, вдохновленные RAFT, интегрировав уменьшенные корреляционные объемы и протоколы обучения с высоким разрешением наряду с многофреймовой оценкой, чтобы достичь передовых результатов на множестве бенчмарков при значительном снижении нагрузки на память. Наш метод превосходит более ресурсоемкие альтернативы как по точности, так и по эффективности выполнения, подтверждая свою надежность для оценки потока на высоких разрешениях. На момент подачи наш метод занимает первое место на бенчмарке Spring с показателем выбросов в 1 пиксель (1px) 3,289%, лидирует на Sintel (clean) с ошибкой конечной точки (EPE) 0,963 и демонстрирует наилучшую ошибку Fl-all на KITTI-2015 — 2,94%. Код доступен по адресу https://github.com/msu-video-group/memfof.
English
Recent advances in optical flow estimation have prioritized accuracy at the cost of growing GPU memory consumption, particularly for high-resolution (FullHD) inputs. We introduce MEMFOF, a memory-efficient multi-frame optical flow method that identifies a favorable trade-off between multi-frame estimation and GPU memory usage. Notably, MEMFOF requires only 2.09 GB of GPU memory at runtime for 1080p inputs, and 28.5 GB during training, which uniquely positions our method to be trained at native 1080p without the need for cropping or downsampling. We systematically revisit design choices from RAFT-like architectures, integrating reduced correlation volumes and high-resolution training protocols alongside multi-frame estimation, to achieve state-of-the-art performance across multiple benchmarks while substantially reducing memory overhead. Our method outperforms more resource-intensive alternatives in both accuracy and runtime efficiency, validating its robustness for flow estimation at high resolutions. At the time of submission, our method ranks first on the Spring benchmark with a 1-pixel (1px) outlier rate of 3.289, leads Sintel (clean) with an endpoint error (EPE) of 0.963, and achieves the best Fl-all error on KITTI-2015 at 2.94%. The code is available at https://github.com/msu-video-group/memfof.
PDF152July 1, 2025