Modelos Mundiales Unificados: Acoplamiento de Difusión de Video y Acción para Pretrenamiento en Grandes Conjuntos de Datos Robóticos

Resumen

El aprendizaje por imitación ha surgido como un enfoque prometedor para construir robots generalistas. Sin embargo, escalar el aprendizaje por imitación para modelos base de robots de gran escala sigue siendo un desafío debido a su dependencia de demostraciones expertas de alta calidad. Mientras tanto, grandes cantidades de datos de video que representan una amplia gama de entornos y comportamientos diversos están fácilmente disponibles. Estos datos proporcionan una fuente rica de información sobre la dinámica del mundo real y las interacciones entre agentes y entornos. Sin embargo, aprovechar directamente estos datos para el aprendizaje por imitación ha resultado difícil debido a la falta de anotaciones de acciones requeridas por la mayoría de los métodos contemporáneos. En este trabajo, presentamos Modelos de Mundo Unificados (UWM, por sus siglas en inglés), un marco que permite aprovechar tanto datos de video como de acciones para el aprendizaje de políticas. Específicamente, un UWM integra un proceso de difusión de acciones y un proceso de difusión de video dentro de una arquitectura de transformador unificada, donde pasos de difusión independientes gobiernan cada modalidad. Mostramos que, simplemente controlando cada paso de difusión, UWM puede representar flexiblemente una política, una dinámica directa, una dinámica inversa y un generador de video. A través de experimentos simulados y en el mundo real, demostramos que: (1) UWM permite un preentrenamiento efectivo en conjuntos de datos multitarea de robots a gran escala con predicciones tanto de dinámica como de acciones, lo que resulta en políticas más generalizables y robustas que el aprendizaje por imitación, (2) UWM facilita naturalmente el aprendizaje a partir de datos de video sin acciones mediante el control independiente de pasos de difusión específicos para cada modalidad, mejorando aún más el rendimiento de las políticas ajustadas. Nuestros resultados sugieren que UWM ofrece un paso prometedor hacia el aprovechamiento de grandes conjuntos de datos heterogéneos para el aprendizaje escalable de robots, y proporciona una unificación simple entre los paradigmas a menudo dispares del aprendizaje por imitación y el modelado del mundo. Videos y código están disponibles en https://weirdlabuw.github.io/uwm/.

English

Imitation learning has emerged as a promising approach towards building generalist robots. However, scaling imitation learning for large robot foundation models remains challenging due to its reliance on high-quality expert demonstrations. Meanwhile, large amounts of video data depicting a wide range of environments and diverse behaviors are readily available. This data provides a rich source of information about real-world dynamics and agent-environment interactions. Leveraging this data directly for imitation learning, however, has proven difficult due to the lack of action annotation required for most contemporary methods. In this work, we present Unified World Models (UWM), a framework that allows for leveraging both video and action data for policy learning. Specifically, a UWM integrates an action diffusion process and a video diffusion process within a unified transformer architecture, where independent diffusion timesteps govern each modality. We show that by simply controlling each diffusion timestep, UWM can flexibly represent a policy, a forward dynamics, an inverse dynamics, and a video generator. Through simulated and real-world experiments, we show that: (1) UWM enables effective pretraining on large-scale multitask robot datasets with both dynamics and action predictions, resulting in more generalizable and robust policies than imitation learning, (2) UWM naturally facilitates learning from action-free video data through independent control of modality-specific diffusion timesteps, further improving the performance of finetuned policies. Our results suggest that UWM offers a promising step toward harnessing large, heterogeneous datasets for scalable robot learning, and provides a simple unification between the often disparate paradigms of imitation learning and world modeling. Videos and code are available at https://weirdlabuw.github.io/uwm/.

Modelos Mundiales Unificados: Acoplamiento de Difusión de Video y Acción para Pretrenamiento en Grandes Conjuntos de Datos Robóticos

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

Resumen

Support