ChatPaper.aiChatPaper

La prédiction du flux optique futur améliore le contrôle robotique et la génération vidéo.

Future Optical Flow Prediction Improves Robot Control & Video Generation

January 15, 2026
papers.authors: Kanchana Ranasinghe, Honglu Zhou, Yu Fang, Luyu Yang, Le Xue, Ran Xu, Caiming Xiong, Silvio Savarese, Michael S Ryoo, Juan Carlos Niebles
cs.AI

papers.abstract

Les représentations du mouvement futur, telles que le flux optique, présentent une valeur immense pour les tâches de contrôle et de génération. Cependant, la prédiction de représentations motionnelles spatialement denses et généralisables reste un défi majeur, et l'apprentissage de cette prédiction à partir de données réelles bruitées reste relativement peu exploré. Nous présentons FOFPred, un nouveau modèle de prévision de flux optique conditionné par le langage, intégrant une architecture unifiée de modèle vision-langage (VLM) et de diffusion. Cette combinaison unique permet un raisonnement multimodal robuste avec une fidélité générative au niveau pixel pour la prédiction du mouvement futur. Notre modèle est entraîné sur des données d'activité humaine à l'échelle du web - une source hautement scalable mais non structurée. Pour extraire des signaux significatifs de ces données bruitées vidéo-légendes, nous employons des techniques cruciales de prétraitement ainsi que notre architecture unifiée bénéficiant d'un pré-entraînement image robuste. Le modèle ainsi entraîné est ensuite étendu pour relever deux tâches en aval distinctes dans les domaines du contrôle et de la génération. Les évaluations menées en manipulation robotique et en génération vidéo dans des cadres pilotés par le langage établissent la versatilité transdomaine de FOFPred, confirmant la valeur d'une architecture unifiée VLM-Diffusion et d'un apprentissage scalable à partir de données web variées pour la prédiction du flux optique futur.
English
Future motion representations, such as optical flow, offer immense value for control and generative tasks. However, forecasting generalizable spatially dense motion representations remains a key challenge, and learning such forecasting from noisy, real-world data remains relatively unexplored. We introduce FOFPred, a novel language-conditioned optical flow forecasting model featuring a unified Vision-Language Model (VLM) and Diffusion architecture. This unique combination enables strong multimodal reasoning with pixel-level generative fidelity for future motion prediction. Our model is trained on web-scale human activity data-a highly scalable but unstructured source. To extract meaningful signals from this noisy video-caption data, we employ crucial data preprocessing techniques and our unified architecture with strong image pretraining. The resulting trained model is then extended to tackle two distinct downstream tasks in control and generation. Evaluations across robotic manipulation and video generation under language-driven settings establish the cross-domain versatility of FOFPred, confirming the value of a unified VLM-Diffusion architecture and scalable learning from diverse web data for future optical flow prediction.
PDF81January 20, 2026