Handlungsorientierte Weltrepräsentation

Zusammenfassung

Angeregt durch das Emergenzverhalten großer Sprachmodelle, das verallgemeinerte menschliche Intelligenz hervorbringt, verfolgt die Forschung ähnliche emergente Fähigkeiten in Weltmodellen, mit einem Schwerpunkt auf der Modellierung der physikalischen Welt. Im Bereich des physikalischen Weltmodells sind Objekte die grundlegenden Primitive, aus denen die physikalische Realität besteht. Vom Menschen bis zum Computer ist nahezu alles, womit wir interagieren, ein Objekt. Diese Objekte sind selten statisch; sie sind handlungsfähige Entitäten mit wechselnden Zuständen, die durch ihre intrinsischen Eigenschaften bestimmt werden. Während aktuelle Methoden Objektaktionszustände entweder durch Videogenerierung oder dynamische Szenenrekonstruktion angehen, modelliert keine von ihnen dieses grundlegende Element explizit auf einheitliche, prinzipientreue Weise, um eine handlungsfähige Objektrepräsentation aufzubauen. Wir schlagen WorldString vor, eine neuronale Architektur, die in der Lage ist, die Zustandsmannigfaltigkeit realer Objekte zu modellieren, indem sie direkt aus Punktwolken oder RGB-D-Videoströmen lernt. Es dient als vielseitiger digitaler Zwilling und fungiert als grundlegender Baustein für physikalische Weltmodelle; daher nennen wir es WorldString. Erfreulicherweise ermöglicht seine vollständig differenzierbare Struktur nahtlos eine zukünftige Integration mit Policy-Lernen und neuronalen Dynamiken.

English

Inspired by the emergent behaviors in large language models that generalized human intelligence, the research community is pursuing similar emergent capabilities within world models, with a emphasis on modeling the physical world. Within the scope of physical world model, objects are the fundamental primitives that constitute physical reality. From humans to computers, nearly everything we interact with is an object. These objects are rarely static; they are actionable entities with varying states determined by their intrinsic properties. While current methods approach object action states either via video generation or dynamic scene reconstruction, none explicitly model this basic element in a unified, principled way to build an actionable object representation. We propose WorldString, a neural architecture capable of modeling the state manifold of real-world objects by learning directly from point clouds or RGB-D video streams. Serving as a versatile digital twin, it acts as a foundational building block for physical world models; thus, we name it WorldString. Sweetly, its fully differentiable structure seamlessly enables future integration with policy learning and neural dynamics.