ChatPaper.aiChatPaper

La Predicción Futura de Flujo Óptico Mejora el Control Robótico y la Generación de Vídeo

Future Optical Flow Prediction Improves Robot Control & Video Generation

January 15, 2026
Autores: Kanchana Ranasinghe, Honglu Zhou, Yu Fang, Luyu Yang, Le Xue, Ran Xu, Caiming Xiong, Silvio Savarese, Michael S Ryoo, Juan Carlos Niebles
cs.AI

Resumen

Las representaciones de movimiento futuro, como el flujo óptico, ofrecen un valor inmenso para tareas de control y generación. Sin embargo, predecir representaciones de movimiento espacialmente densas y generalizables sigue siendo un desafío clave, y el aprendizaje de dicha predicción a partir de datos reales y ruidosos ha sido relativamente poco explorado. Presentamos FOFPred, un novedoso modelo de predicción de flujo óptico condicionado por lenguaje que presenta una arquitectura unificada de Modelo de Visión-Lenguaje (VLM) y Difusión. Esta combinación única permite un razonamiento multimodal robusto con fidelidad generativa a nivel de píxel para la predicción de movimiento futuro. Nuestro modelo se entrena con datos de actividad humana a escala web, una fuente altamente escalable pero no estructurada. Para extraer señales significativas de estos datos ruidosos de videos y descripciones, empleamos técnicas cruciales de preprocesamiento de datos y nuestra arquitectura unificada con un fuerte preentrenamiento de imágenes. El modelo entrenado resultante se extiende luego para abordar dos tareas posteriores distintas en control y generación. Las evaluaciones en manipulación robótica y generación de video en entornos guiados por lenguaje establecen la versatilidad multidominio de FOFPred, confirmando el valor de una arquitectura unificada VLM-Difusión y el aprendizaje escalable a partir de diversos datos web para la predicción de flujo óptico futuro.
English
Future motion representations, such as optical flow, offer immense value for control and generative tasks. However, forecasting generalizable spatially dense motion representations remains a key challenge, and learning such forecasting from noisy, real-world data remains relatively unexplored. We introduce FOFPred, a novel language-conditioned optical flow forecasting model featuring a unified Vision-Language Model (VLM) and Diffusion architecture. This unique combination enables strong multimodal reasoning with pixel-level generative fidelity for future motion prediction. Our model is trained on web-scale human activity data-a highly scalable but unstructured source. To extract meaningful signals from this noisy video-caption data, we employ crucial data preprocessing techniques and our unified architecture with strong image pretraining. The resulting trained model is then extended to tackle two distinct downstream tasks in control and generation. Evaluations across robotic manipulation and video generation under language-driven settings establish the cross-domain versatility of FOFPred, confirming the value of a unified VLM-Diffusion architecture and scalable learning from diverse web data for future optical flow prediction.
PDF81January 20, 2026