Avanzando en los Modelos de Mundo de Código Abierto

Resumen

Presentamos LingBot-World, un simulador mundial de código abierto derivado de la generación de vídeo. Posicionado como un modelo de mundo de primer nivel, LingBot-World ofrece las siguientes características. (1) Mantiene una alta fidelidad y dinámicas robustas en un amplio espectro de entornos, incluyendo realismo, contextos científicos, estilos de animación y más. (2) Permite un horizonte a nivel de minuto mientras preserva la coherencia contextual en el tiempo, también conocida como "memoria a largo plazo". (3) Admite interactividad en tiempo real, logrando una latencia inferior a 1 segundo al producir 16 fotogramas por segundo. Proporcionamos acceso público al código y al modelo en un esfuerzo por reducir la brecha entre las tecnologías de código abierto y cerrado. Creemos que nuestra publicación dotará a la comunidad de aplicaciones prácticas en áreas como la creación de contenido, los videojuegos y el aprendizaje robótico.

English

We present LingBot-World, an open-sourced world simulator stemming from video generation. Positioned as a top-tier world model, LingBot-World offers the following features. (1) It maintains high fidelity and robust dynamics in a broad spectrum of environments, including realism, scientific contexts, cartoon styles, and beyond. (2) It enables a minute-level horizon while preserving contextual consistency over time, which is also known as "long-term memory". (3) It supports real-time interactivity, achieving a latency of under 1 second when producing 16 frames per second. We provide public access to the code and model in an effort to narrow the divide between open-source and closed-source technologies. We believe our release will empower the community with practical applications across areas like content creation, gaming, and robot learning.