ChatPaper.aiChatPaper

미래 광학 흐름 예측을 통한 로봇 제어 및 영상 생성 성능 향상

Future Optical Flow Prediction Improves Robot Control & Video Generation

January 15, 2026
저자: Kanchana Ranasinghe, Honglu Zhou, Yu Fang, Luyu Yang, Le Xue, Ran Xu, Caiming Xiong, Silvio Savarese, Michael S Ryoo, Juan Carlos Niebles
cs.AI

초록

광학 흐름과 같은 미래 동작 표현은 제어 및 생성 작업에 막대한 가치를 제공합니다. 그러나 일반화 가능한 공간적으로 조밀한 동작 표현의 예측은 여전히 핵심 과제로 남아 있으며, 노이즈가 많은 실세계 데이터로부터 이러한 예측을 학습하는 것은 상대적으로 덜 탐구된 분야입니다. 본 연구에서는 통합 Vision-Language Model(VLM)과 Diffusion 아키텍처를 특징으로 하는 새로운 언어 조건부 광학 흐름 예측 모델인 FOFPred를 제안합니다. 이 독특한 조합은 미래 동작 예측을 위해 픽셀 수준의 생성 정밀도와 강력한 다중 모드 추론을 가능하게 합니다. 우리 모델은 웹 규모의 인간 활동 데이터라는 확장성은 높지만 비정형적인 소스로 학습됩니다. 노이즈가 많은 비디오-캡션 데이터에서 의미 있는 신호를 추출하기 위해 우리는 중요한 데이터 전처리 기술과 강력한 이미지 사전 학습을 갖춘 통합 아키텍처를 활용합니다. 그 결과 학습된 모델은 제어와 생성이라는 두 가지 상이한 다운스트림 작업을 해결하도록 확장됩니다. 언어 주도 설정 하에서 로봇 매니픽레이션 및 비디오 생성에 걸친 평가를 통해 FOFPred의 크로스 도메인 다양성이 입증되며, 통합 VLM-Diffusion 아키텍처와 다양한 웹 데이터로부터의 확장 가능한 학습이 미래 광학 흐름 예측에 가치가 있음을 확인합니다.
English
Future motion representations, such as optical flow, offer immense value for control and generative tasks. However, forecasting generalizable spatially dense motion representations remains a key challenge, and learning such forecasting from noisy, real-world data remains relatively unexplored. We introduce FOFPred, a novel language-conditioned optical flow forecasting model featuring a unified Vision-Language Model (VLM) and Diffusion architecture. This unique combination enables strong multimodal reasoning with pixel-level generative fidelity for future motion prediction. Our model is trained on web-scale human activity data-a highly scalable but unstructured source. To extract meaningful signals from this noisy video-caption data, we employ crucial data preprocessing techniques and our unified architecture with strong image pretraining. The resulting trained model is then extended to tackle two distinct downstream tasks in control and generation. Evaluations across robotic manipulation and video generation under language-driven settings establish the cross-domain versatility of FOFPred, confirming the value of a unified VLM-Diffusion architecture and scalable learning from diverse web data for future optical flow prediction.
PDF81January 20, 2026