A Previsão de Fluxo Óptico Futuro Melhora o Controle de Robôs e a Geração de Vídeos

Resumo

As representações de movimento futuro, como o fluxo óptico, oferecem um valor imenso para tarefas de controle e geração. No entanto, prever representações de movimento espacialmente densas e generalizáveis permanece um desafio fundamental, e a aprendizagem dessa previsão a partir de dados reais e ruidosos permanece relativamente inexplorada. Apresentamos o FOFPred, um novo modelo de previsão de fluxo óptico condicionado por linguagem que apresenta uma arquitetura unificada de Modelo de Visão e Linguagem (VLM) e Difusão. Esta combinação única permite um forte raciocínio multimodal com fidelidade generativa a nível de pixel para a previsão de movimento futuro. O nosso modelo é treinado em dados de atividade humana em escala web - uma fonte altamente escalável, mas não estruturada. Para extrair sinais significativos destes dados ruidosos de vídeo-legenda, empregamos técnicas cruciais de pré-processamento de dados e a nossa arquitetura unificada com forte pré-treinamento de imagem. O modelo treinado resultante é então estendido para abordar duas tarefas distintas a jusante em controle e geração. Avaliações em manipulação robótica e geração de vídeo em cenários orientados por linguagem estabelecem a versatilidade transdomínio do FOFPred, confirmando o valor de uma arquitetura unificada VLM-Difusão e da aprendizagem escalável a partir de dados web diversificados para a previsão de fluxo óptico futuro.

English

Future motion representations, such as optical flow, offer immense value for control and generative tasks. However, forecasting generalizable spatially dense motion representations remains a key challenge, and learning such forecasting from noisy, real-world data remains relatively unexplored. We introduce FOFPred, a novel language-conditioned optical flow forecasting model featuring a unified Vision-Language Model (VLM) and Diffusion architecture. This unique combination enables strong multimodal reasoning with pixel-level generative fidelity for future motion prediction. Our model is trained on web-scale human activity data-a highly scalable but unstructured source. To extract meaningful signals from this noisy video-caption data, we employ crucial data preprocessing techniques and our unified architecture with strong image pretraining. The resulting trained model is then extended to tackle two distinct downstream tasks in control and generation. Evaluations across robotic manipulation and video generation under language-driven settings establish the cross-domain versatility of FOFPred, confirming the value of a unified VLM-Diffusion architecture and scalable learning from diverse web data for future optical flow prediction.

A Previsão de Fluxo Óptico Futuro Melhora o Controle de Robôs e a Geração de Vídeos

Future Optical Flow Prediction Improves Robot Control & Video Generation

Resumo

Support