Zukünftige Optischer-Fluss-Vorhersage verbessert Robotiksteuerung und Videogenerierung.
Future Optical Flow Prediction Improves Robot Control & Video Generation
January 15, 2026
papers.authors: Kanchana Ranasinghe, Honglu Zhou, Yu Fang, Luyu Yang, Le Xue, Ran Xu, Caiming Xiong, Silvio Savarese, Michael S Ryoo, Juan Carlos Niebles
cs.AI
papers.abstract
Zukünftige Bewegungsrepräsentationen, wie optischer Fluss, bieten einen immensen Mehrwert für Steuerungs- und Generative Aufgaben. Die Vorhersage generalisierbarer, räumlich dichter Bewegungsrepräsentationen bleibt jedoch eine zentrale Herausforderung, und das Erlernen solcher Vorhersagen aus verrauschten, realen Daten ist relativ unerforscht. Wir stellen FOFPred vor, ein neuartiges, sprachkonditioniertes Modell zur Vorhersage von optischem Fluss, das eine vereinheitlichte Vision-Language-Model (VLM)- und Diffusionsarchitektur aufweist. Diese einzigartige Kombination ermöglicht starkes multimodales Reasoning mit pixelgenauer generativer Treue für die Vorhersage zukünftiger Bewegungen. Unser Modell wird mit Web-scale-Daten zu menschlichen Aktivitäten trainiert – einer hochskalierbaren, aber unstrukturierten Quelle. Um aussagekräftige Signale aus diesen verrauschten Video-Text-Daten zu extrahieren, setzen wir entscheidende Datenvorverarbeitungstechniken und unsere vereinheitlichte Architektur mit starker Bildvorverarbeitung ein. Das trainierte Modell wird anschließend erweitert, um zwei verschiedene Downstream-Aufgaben in den Bereichen Steuerung und Generierung zu bewältigen. Evaluationen in den Bereichen robotergestützte Manipulation und Videogenerierung unter sprachgesteuerten Bedingungen belegen die domänenübergreifende Vielseitigkeit von FOFPred und bestätigen den Wert einer vereinheitlichten VLM-Diffusions-Architektur sowie des skalierbaren Lernens aus diversen Webdaten für die Vorhersage von zukünftigem optischem Fluss.
English
Future motion representations, such as optical flow, offer immense value for control and generative tasks. However, forecasting generalizable spatially dense motion representations remains a key challenge, and learning such forecasting from noisy, real-world data remains relatively unexplored. We introduce FOFPred, a novel language-conditioned optical flow forecasting model featuring a unified Vision-Language Model (VLM) and Diffusion architecture. This unique combination enables strong multimodal reasoning with pixel-level generative fidelity for future motion prediction. Our model is trained on web-scale human activity data-a highly scalable but unstructured source. To extract meaningful signals from this noisy video-caption data, we employ crucial data preprocessing techniques and our unified architecture with strong image pretraining. The resulting trained model is then extended to tackle two distinct downstream tasks in control and generation. Evaluations across robotic manipulation and video generation under language-driven settings establish the cross-domain versatility of FOFPred, confirming the value of a unified VLM-Diffusion architecture and scalable learning from diverse web data for future optical flow prediction.