ChatPaper.aiChatPaper

MEMFOF: Hochauflösendes Training für speichereffiziente Multi-Frame-Optical-Flow-Schätzung

MEMFOF: High-Resolution Training for Memory-Efficient Multi-Frame Optical Flow Estimation

June 29, 2025
Autoren: Vladislav Bargatin, Egor Chistov, Alexander Yakovenko, Dmitriy Vatolin
cs.AI

Zusammenfassung

Jüngste Fortschritte in der Schätzung des optischen Flusses haben die Genauigkeit priorisiert, jedoch auf Kosten eines steigenden GPU-Speicherverbrauchs, insbesondere bei hochauflösenden (FullHD) Eingaben. Wir stellen MEMFOF vor, eine speichereffiziente Methode zur Schätzung des optischen Flusses über mehrere Frames, die einen günstigen Kompromiss zwischen der Schätzung über mehrere Frames und dem GPU-Speicherverbrauch findet. Bemerkenswerterweise benötigt MEMFOF nur 2,09 GB GPU-Speicher zur Laufzeit für 1080p-Eingaben und 28,5 GB während des Trainings, was unsere Methode einzigartig positioniert, um nativ in 1080p trainiert zu werden, ohne dass ein Zuschneiden oder Herunterskalieren erforderlich ist. Wir überprüfen systematisch Designentscheidungen von RAFT-ähnlichen Architekturen, integrieren reduzierte Korrelationsvolumina und hochauflösende Trainingsprotokolle zusammen mit der Schätzung über mehrere Frames, um eine state-of-the-art Leistung über mehrere Benchmarks zu erreichen und gleichzeitig den Speicherbedarf erheblich zu reduzieren. Unsere Methode übertrifft ressourcenintensivere Alternativen sowohl in der Genauigkeit als auch in der Laufzeiteffizienz, was ihre Robustheit für die Flussschätzung bei hohen Auflösungen bestätigt. Zum Zeitpunkt der Einreichung belegt unsere Methode den ersten Platz auf dem Spring-Benchmark mit einer 1-Pixel (1px) Outlier-Rate von 3,289, führt bei Sintel (clean) mit einem Endpunktfehler (EPE) von 0,963 und erreicht den besten Fl-all-Fehler auf KITTI-2015 bei 2,94%. Der Code ist verfügbar unter https://github.com/msu-video-group/memfof.
English
Recent advances in optical flow estimation have prioritized accuracy at the cost of growing GPU memory consumption, particularly for high-resolution (FullHD) inputs. We introduce MEMFOF, a memory-efficient multi-frame optical flow method that identifies a favorable trade-off between multi-frame estimation and GPU memory usage. Notably, MEMFOF requires only 2.09 GB of GPU memory at runtime for 1080p inputs, and 28.5 GB during training, which uniquely positions our method to be trained at native 1080p without the need for cropping or downsampling. We systematically revisit design choices from RAFT-like architectures, integrating reduced correlation volumes and high-resolution training protocols alongside multi-frame estimation, to achieve state-of-the-art performance across multiple benchmarks while substantially reducing memory overhead. Our method outperforms more resource-intensive alternatives in both accuracy and runtime efficiency, validating its robustness for flow estimation at high resolutions. At the time of submission, our method ranks first on the Spring benchmark with a 1-pixel (1px) outlier rate of 3.289, leads Sintel (clean) with an endpoint error (EPE) of 0.963, and achieves the best Fl-all error on KITTI-2015 at 2.94%. The code is available at https://github.com/msu-video-group/memfof.
PDF152July 1, 2025