Действенное представление мира

Аннотация

Вдохновленный эмерджентным поведением больших языковых моделей, которые обобщили человеческий интеллект, исследовательское сообщество стремится к аналогичным эмерджентным способностям в мировых моделях, с акцентом на моделирование физического мира. В рамках модели физического мира объекты являются фундаментальными примитивами, составляющими физическую реальность. От людей до компьютеров, почти все, с чем мы взаимодействуем, является объектом. Эти объекты редко бывают статичными; это сущности, с которыми можно взаимодействовать, обладающие изменяющимися состояниями, определяемыми их внутренними свойствами. Хотя современные методы подходят к состояниям действия объектов либо через генерацию видео, либо через динамическую реконструкцию сцены, ни один из них не моделирует этот базовый элемент явно в унифицированной, принципиальной манере для построения представления объекта, с которым можно взаимодействовать. Мы предлагаем WorldString — нейронную архитектуру, способную моделировать многообразие состояний реальных объектов путем обучения непосредственно на облаках точек или RGB-D видеопотоках. Выступая в качестве универсального цифрового двойника, она служит фундаментальным строительным блоком для моделей физического мира; поэтому мы называем ее WorldString. Приятно, что ее полностью дифференцируемая структура обеспечивает бесшовную интеграцию с обучением политике и нейродинамикой в будущем.

English

Inspired by the emergent behaviors in large language models that generalized human intelligence, the research community is pursuing similar emergent capabilities within world models, with a emphasis on modeling the physical world. Within the scope of physical world model, objects are the fundamental primitives that constitute physical reality. From humans to computers, nearly everything we interact with is an object. These objects are rarely static; they are actionable entities with varying states determined by their intrinsic properties. While current methods approach object action states either via video generation or dynamic scene reconstruction, none explicitly model this basic element in a unified, principled way to build an actionable object representation. We propose WorldString, a neural architecture capable of modeling the state manifold of real-world objects by learning directly from point clouds or RGB-D video streams. Serving as a versatile digital twin, it acts as a foundational building block for physical world models; thus, we name it WorldString. Sweetly, its fully differentiable structure seamlessly enables future integration with policy learning and neural dynamics.