SceneScript: Reconstruindo Cenas com um Modelo de Linguagem Estruturado Autoregressivo
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model
March 19, 2024
Autores: Armen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas
cs.AI
Resumo
Apresentamos o SceneScript, um método que produz diretamente modelos completos de cenas como uma sequência de comandos estruturados em linguagem, utilizando uma abordagem autoregressiva baseada em tokens. Nossa representação de cena proposta é inspirada pelos recentes sucessos dos transformers e LLMs (Large Language Models), e se afasta dos métodos mais tradicionais que comumente descrevem cenas como malhas, grades voxelizadas, nuvens de pontos ou campos de radiação. Nosso método infere o conjunto de comandos estruturados em linguagem diretamente a partir de dados visuais codificados, utilizando uma arquitetura codificador-decodificador de linguagem de cena. Para treinar o SceneScript, geramos e disponibilizamos um grande conjunto de dados sintético chamado Aria Synthetic Environments, composto por 100 mil cenas internas de alta qualidade, com renderizações fotorrealistas e anotações de verdade terrestre de passeios egocêntricos por cenas. Nosso método alcança resultados de última geração na estimativa de layout arquitetônico e resultados competitivos na detecção de objetos 3D. Por fim, exploramos uma vantagem do SceneScript, que é a capacidade de se adaptar facilmente a novos comandos por meio de simples adições à linguagem estruturada, o que ilustramos para tarefas como a reconstrução grosseira de partes de objetos 3D.
English
We introduce SceneScript, a method that directly produces full scene models
as a sequence of structured language commands using an autoregressive,
token-based approach. Our proposed scene representation is inspired by recent
successes in transformers & LLMs, and departs from more traditional methods
which commonly describe scenes as meshes, voxel grids, point clouds or radiance
fields. Our method infers the set of structured language commands directly from
encoded visual data using a scene language encoder-decoder architecture. To
train SceneScript, we generate and release a large-scale synthetic dataset
called Aria Synthetic Environments consisting of 100k high-quality in-door
scenes, with photorealistic and ground-truth annotated renders of egocentric
scene walkthroughs. Our method gives state-of-the art results in architectural
layout estimation, and competitive results in 3D object detection. Lastly, we
explore an advantage for SceneScript, which is the ability to readily adapt to
new commands via simple additions to the structured language, which we
illustrate for tasks such as coarse 3D object part reconstruction.