未来のオプティカルフロー予測がロボット制御と映像生成を革新
Future Optical Flow Prediction Improves Robot Control & Video Generation
January 15, 2026
著者: Kanchana Ranasinghe, Honglu Zhou, Yu Fang, Luyu Yang, Le Xue, Ran Xu, Caiming Xiong, Silvio Savarese, Michael S Ryoo, Juan Carlos Niebles
cs.AI
要旨
光フローなどの未来の運動表現は、制御や生成タスクにおいて極めて重要な価値を持つ。しかし、一般化可能な空間的に密な運動表現の予測は依然として主要な課題であり、ノイズの多い実世界データからそのような予測を学習する手法は比較的未開拓である。本研究では、統一的なVision-Language Model(VLM)とDiffusionアーキテクチャを特徴とする、言語条件付き光フロー予測モデルFOFPredを提案する。この独自の組み合わせにより、未来の運動予測において、強力なマルチモーダル推論能力とピクセルレベルの生成精度を両立させる。本モデルはウェブ規模の人間活動データ(拡張性が高いが非構造化された情報源)で学習される。ノイズの多いビデオ-キャプションデータから意味のある信号を抽出するため、重要なデータ前処理技術と、強力な画像事前学習を備えた統一アーキテクチャを採用する。学習済みモデルは、制御と生成という2つの異なる下流タスクに応用される。言語駆動設定下的なロボットマニピュレーションとビデオ生成における評価により、FOFPredのクロスドメインでの汎用性が実証され、統一VLM-Diffusionアーキテクチャの価値と、多様なウェブデータからのスケーラブルな学習が未来の光フロー予測に有効であることが確認された。
English
Future motion representations, such as optical flow, offer immense value for control and generative tasks. However, forecasting generalizable spatially dense motion representations remains a key challenge, and learning such forecasting from noisy, real-world data remains relatively unexplored. We introduce FOFPred, a novel language-conditioned optical flow forecasting model featuring a unified Vision-Language Model (VLM) and Diffusion architecture. This unique combination enables strong multimodal reasoning with pixel-level generative fidelity for future motion prediction. Our model is trained on web-scale human activity data-a highly scalable but unstructured source. To extract meaningful signals from this noisy video-caption data, we employ crucial data preprocessing techniques and our unified architecture with strong image pretraining. The resulting trained model is then extended to tackle two distinct downstream tasks in control and generation. Evaluations across robotic manipulation and video generation under language-driven settings establish the cross-domain versatility of FOFPred, confirming the value of a unified VLM-Diffusion architecture and scalable learning from diverse web data for future optical flow prediction.