Actiegerichte wereldrepresentatie

Samenvatting

Geïnspireerd door de emergente gedragingen in grote taalmodellen die menselijke intelligentie generaliseren, onderzoekt de wetenschappelijke gemeenschap vergelijkbare emergente capaciteiten binnen wereldmodellen, met een nadruk op het modelleren van de fysieke wereld. Binnen het bereik van het fysieke wereldmodel zijn objecten de fundamentele primitieven die de fysieke werkelijkheid vormen. Van mensen tot computers, bijna alles waarmee we interacteren is een object. Deze objecten zijn zelden statisch; het zijn handelbare entiteiten met variërende toestanden die worden bepaald door hun intrinsieke eigenschappen. Terwijl huidige methoden objectactietoestanden benaderen via videogeneratie of dynamische scènereconstructie, modelleert geen van hen dit basiselement expliciet op een uniforme, principiële manier om een handelbare objectrepresentatie te bouwen. Wij stellen WorldString voor, een neurale architectuur die in staat is om de toestandsvariëteit van objecten uit de echte wereld te modelleren door direct te leren van puntenwolken of RGB-D videostromen. Het fungeert als een veelzijdige digitale tweeling en dient als een fundamentele bouwsteen voor fysieke wereldmodellen; daarom noemen we het WorldString. Bovendien maakt de volledig differentieerbare structuur naadloze toekomstige integratie met beleidsleren en neurale dynamica mogelijk.

English

Inspired by the emergent behaviors in large language models that generalized human intelligence, the research community is pursuing similar emergent capabilities within world models, with a emphasis on modeling the physical world. Within the scope of physical world model, objects are the fundamental primitives that constitute physical reality. From humans to computers, nearly everything we interact with is an object. These objects are rarely static; they are actionable entities with varying states determined by their intrinsic properties. While current methods approach object action states either via video generation or dynamic scene reconstruction, none explicitly model this basic element in a unified, principled way to build an actionable object representation. We propose WorldString, a neural architecture capable of modeling the state manifold of real-world objects by learning directly from point clouds or RGB-D video streams. Serving as a versatile digital twin, it acts as a foundational building block for physical world models; thus, we name it WorldString. Sweetly, its fully differentiable structure seamlessly enables future integration with policy learning and neural dynamics.