Representação Acionável do Mundo

Resumo

Inspirado pelos comportamentos emergentes em grandes modelos de linguagem que generalizaram a inteligência humana, a comunidade de pesquisa busca capacidades emergentes semelhantes dentro de modelos de mundo, com ênfase na modelagem do mundo físico. No escopo do modelo de mundo físico, objetos são os primitivos fundamentais que constituem a realidade física. De humanos a computadores, quase tudo com que interagimos é um objeto. Esses objetos raramente são estáticos; são entidades acionáveis com estados variáveis determinados por suas propriedades intrínsecas. Embora os métodos atuais abordem estados de ação de objetos por meio de geração de vídeo ou reconstrução dinâmica de cenas, nenhum modela explicitamente esse elemento básico de maneira unificada e fundamentada para construir uma representação de objeto acionável. Propomos WorldString, uma arquitetura neural capaz de modelar a variedade de estados de objetos do mundo real aprendendo diretamente a partir de nuvens de pontos ou fluxos de vídeo RGB-D. Servindo como um gêmeo digital versátil, ela atua como um bloco de construção fundamental para modelos de mundo físico; assim, a nomeamos WorldString. Felizmente, sua estrutura totalmente diferenciável permite perfeitamente a integração futura com aprendizado de políticas e dinâmica neural.

English

Inspired by the emergent behaviors in large language models that generalized human intelligence, the research community is pursuing similar emergent capabilities within world models, with a emphasis on modeling the physical world. Within the scope of physical world model, objects are the fundamental primitives that constitute physical reality. From humans to computers, nearly everything we interact with is an object. These objects are rarely static; they are actionable entities with varying states determined by their intrinsic properties. While current methods approach object action states either via video generation or dynamic scene reconstruction, none explicitly model this basic element in a unified, principled way to build an actionable object representation. We propose WorldString, a neural architecture capable of modeling the state manifold of real-world objects by learning directly from point clouds or RGB-D video streams. Serving as a versatile digital twin, it acts as a foundational building block for physical world models; thus, we name it WorldString. Sweetly, its fully differentiable structure seamlessly enables future integration with policy learning and neural dynamics.