ChatPaper.aiChatPaper

Прогнозирование оптического потока в будущем улучшает управление роботами и генерацию видео

Future Optical Flow Prediction Improves Robot Control & Video Generation

January 15, 2026
Авторы: Kanchana Ranasinghe, Honglu Zhou, Yu Fang, Luyu Yang, Le Xue, Ran Xu, Caiming Xiong, Silvio Savarese, Michael S Ryoo, Juan Carlos Niebles
cs.AI

Аннотация

Будущие представления движения, такие как оптический поток, обладают огромной ценностью для задач управления и генерации. Однако прогнозирование обобщаемых пространственно плотных представлений движения остается ключевой проблемой, а обучение такому прогнозированию на зашумленных реальных данных изучено относительно слабо. Мы представляем FOFPred — новую модель прогнозирования оптического потока, обусловленную языком, которая объединяет унифицированную архитектуру Vision-Language Model (VLM) и Diffusion. Это уникальное сочетание обеспечивает мощные мультимодальные рассуждения с генеративной точностью на уровне пикселей для предсказания будущего движения. Наша модель обучается на веб-масштабных данных о человеческой деятельности — высокомасштабируемом, но неструктурированном источнике. Для извлечения значимых сигналов из этих зашумленных данных (видео-подписи) мы применяем ключевые методы предобработки данных и нашу унифицированную архитектуру с мощным предварительным обучением на изображениях. Обученная модель затем расширяется для решения двух различных downstream-задач: управления и генерации. Оценки в областях роботизированного манипулирования и генерации видео в условиях языкового управления демонстрируют кросс-доменную универсальность FOFPred, подтверждая ценность унифицированной архитектуры VLM-Diffusion и масштабируемого обучения на разнородных веб-данных для прогнозирования будущего оптического потока.
English
Future motion representations, such as optical flow, offer immense value for control and generative tasks. However, forecasting generalizable spatially dense motion representations remains a key challenge, and learning such forecasting from noisy, real-world data remains relatively unexplored. We introduce FOFPred, a novel language-conditioned optical flow forecasting model featuring a unified Vision-Language Model (VLM) and Diffusion architecture. This unique combination enables strong multimodal reasoning with pixel-level generative fidelity for future motion prediction. Our model is trained on web-scale human activity data-a highly scalable but unstructured source. To extract meaningful signals from this noisy video-caption data, we employ crucial data preprocessing techniques and our unified architecture with strong image pretraining. The resulting trained model is then extended to tackle two distinct downstream tasks in control and generation. Evaluations across robotic manipulation and video generation under language-driven settings establish the cross-domain versatility of FOFPred, confirming the value of a unified VLM-Diffusion architecture and scalable learning from diverse web data for future optical flow prediction.
PDF81January 20, 2026