La previsione del flusso ottico futuro migliora il controllo robotico e la generazione video

Abstract

Le rappresentazioni del movimento futuro, come il flusso ottico, offrono un valore immenso per compiti di controllo e generativi. Tuttavia, la previsione di rappresentazioni di movimento spazialmente dense e generalizzabili rimane una sfida chiave, e l'apprendimento di tale previsione a partire da dati reali rumorosi rimane relativamente inesplorato. Introduciamo FOFPred, un innovativo modello di previsione del flusso ottico condizionato dal linguaggio, che presenta un'architettura unificata basata su un Modello Visione-Linguaggio (VLM) e Diffusion. Questa combinazione unica consente un forte ragionamento multimodale con fedeltà generativa a livello di pixel per la previsione del movimento futuro. Il nostro modello è addestrato su dati di attività umana di scala web, una fonte altamente scalabile ma non strutturata. Per estrarre segnali significativi da questi dati rumorosi di video e didascalie, impieghiamo tecniche cruciali di pre-elaborazione dei dati e la nostra architettura unificata con un solido pre-addestramento su immagini. Il modello addestrato risultante viene poi esteso per affrontare due distinti compiti downstream nel controllo e nella generazione. Le valutazioni condotte nell'ambito della manipolazione robotica e della generazione video in contesti guidati dal linguaggio stabiliscono la versatilità cross-domain di FOFPred, confermando il valore di un'architettura unificata VLM-Diffusion e dell'apprendimento scalabile da dati web diversificati per la previsione del flusso ottico futuro.

English

Future motion representations, such as optical flow, offer immense value for control and generative tasks. However, forecasting generalizable spatially dense motion representations remains a key challenge, and learning such forecasting from noisy, real-world data remains relatively unexplored. We introduce FOFPred, a novel language-conditioned optical flow forecasting model featuring a unified Vision-Language Model (VLM) and Diffusion architecture. This unique combination enables strong multimodal reasoning with pixel-level generative fidelity for future motion prediction. Our model is trained on web-scale human activity data-a highly scalable but unstructured source. To extract meaningful signals from this noisy video-caption data, we employ crucial data preprocessing techniques and our unified architecture with strong image pretraining. The resulting trained model is then extended to tackle two distinct downstream tasks in control and generation. Evaluations across robotic manipulation and video generation under language-driven settings establish the cross-domain versatility of FOFPred, confirming the value of a unified VLM-Diffusion architecture and scalable learning from diverse web data for future optical flow prediction.

La previsione del flusso ottico futuro migliora il controllo robotico e la generazione video

Future Optical Flow Prediction Improves Robot Control & Video Generation

Abstract

Support