Representación del Mundo Accionable

Resumen

Inspirado por los comportamientos emergentes en modelos de lenguaje grandes que generalizan la inteligencia humana, la comunidad investigadora persigue capacidades emergentes similares dentro de modelos del mundo, con énfasis en modelar el mundo físico. Dentro del ámbito del modelo del mundo físico, los objetos son las primitivas fundamentales que constituyen la realidad física. Desde humanos hasta computadoras, casi todo con lo que interactuamos es un objeto. Estos objetos rara vez son estáticos; son entidades accionables con estados variables determinados por sus propiedades intrínsecas. Si bien los métodos actuales abordan los estados de acción de los objetos ya sea mediante generación de video o reconstrucción dinámica de escenas, ninguno modela explícitamente este elemento básico de manera unificada y fundamentada para construir una representación de objeto accionable. Proponemos WorldString, una arquitectura neuronal capaz de modelar la variedad de estados de objetos del mundo real aprendiendo directamente de nubes de puntos o flujos de video RGB-D. Actuando como un gemelo digital versátil, sirve como bloque fundamental para modelos del mundo físico; por lo tanto, lo llamamos WorldString. Afortunadamente, su estructura completamente diferenciable permite sin problemas la integración futura con aprendizaje de políticas y dinámicas neuronales.

English

Inspired by the emergent behaviors in large language models that generalized human intelligence, the research community is pursuing similar emergent capabilities within world models, with a emphasis on modeling the physical world. Within the scope of physical world model, objects are the fundamental primitives that constitute physical reality. From humans to computers, nearly everything we interact with is an object. These objects are rarely static; they are actionable entities with varying states determined by their intrinsic properties. While current methods approach object action states either via video generation or dynamic scene reconstruction, none explicitly model this basic element in a unified, principled way to build an actionable object representation. We propose WorldString, a neural architecture capable of modeling the state manifold of real-world objects by learning directly from point clouds or RGB-D video streams. Serving as a versatile digital twin, it acts as a foundational building block for physical world models; thus, we name it WorldString. Sweetly, its fully differentiable structure seamlessly enables future integration with policy learning and neural dynamics.