Représentation actionnable du monde

Résumé

Inspirés par les comportements émergents dans les grands modèles de langage qui généralisent l'intelligence humaine, la communauté de recherche poursuit des capacités émergentes similaires au sein des modèles du monde, en mettant l'accent sur la modélisation du monde physique. Dans le cadre d'un modèle du monde physique, les objets sont les primitives fondamentales qui constituent la réalité physique. Des humains aux ordinateurs, presque tout ce avec quoi nous interagissons est un objet. Ces objets sont rarement statiques ; ce sont des entités actionnables avec des états variables déterminés par leurs propriétés intrinsèques. Alors que les méthodes actuelles abordent les états d'action des objets soit par la génération vidéo, soit par la reconstruction dynamique de scènes, aucune ne modélise explicitement cet élément de base de manière unifiée et fondée pour construire une représentation actionnable d'objet. Nous proposons WorldString, une architecture neuronale capable de modéliser la variété d'états d'objets réels en apprenant directement à partir de nuages de points ou de flux vidéo RGB-D. Servant de jumeau numérique polyvalent, il agit comme un bloc de construction fondamental pour les modèles du monde physique ; ainsi, nous le nommons WorldString. Avantageusement, sa structure entièrement différentiable permet une intégration sans couture future avec l'apprentissage de politiques et la dynamique neuronale.

English

Inspired by the emergent behaviors in large language models that generalized human intelligence, the research community is pursuing similar emergent capabilities within world models, with a emphasis on modeling the physical world. Within the scope of physical world model, objects are the fundamental primitives that constitute physical reality. From humans to computers, nearly everything we interact with is an object. These objects are rarely static; they are actionable entities with varying states determined by their intrinsic properties. While current methods approach object action states either via video generation or dynamic scene reconstruction, none explicitly model this basic element in a unified, principled way to build an actionable object representation. We propose WorldString, a neural architecture capable of modeling the state manifold of real-world objects by learning directly from point clouds or RGB-D video streams. Serving as a versatile digital twin, it acts as a foundational building block for physical world models; thus, we name it WorldString. Sweetly, its fully differentiable structure seamlessly enables future integration with policy learning and neural dynamics.