ChatPaper.aiChatPaper

SceneScript: Reconstrucción de Escenas con un Modelo de Lenguaje Estructurado Autoregresivo

SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

March 19, 2024
Autores: Armen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas
cs.AI

Resumen

Presentamos SceneScript, un método que produce directamente modelos completos de escenas como una secuencia de comandos estructurados en lenguaje utilizando un enfoque autoregresivo basado en tokens. Nuestra representación de escena propuesta se inspira en los recientes éxitos de los transformadores y los modelos de lenguaje grandes (LLMs), y se aparta de los métodos más tradicionales que comúnmente describen las escenas como mallas, cuadrículas de vóxeles, nubes de puntos o campos de radiancia. Nuestro método infiere el conjunto de comandos estructurados en lenguaje directamente a partir de datos visuales codificados utilizando una arquitectura codificador-decodificador de lenguaje de escenas. Para entrenar SceneScript, generamos y publicamos un conjunto de datos sintético a gran escala llamado Aria Synthetic Environments, que consta de 100,000 escenas interiores de alta calidad, con renders fotorrealistas y anotaciones de verdad fundamental de recorridos egocéntricos de escenas. Nuestro método ofrece resultados de vanguardia en la estimación de la disposición arquitectónica y resultados competitivos en la detección de objetos 3D. Por último, exploramos una ventaja de SceneScript, que es la capacidad de adaptarse fácilmente a nuevos comandos mediante simples adiciones al lenguaje estructurado, lo que ilustramos para tareas como la reconstrucción aproximada de partes de objetos 3D.
English
We introduce SceneScript, a method that directly produces full scene models as a sequence of structured language commands using an autoregressive, token-based approach. Our proposed scene representation is inspired by recent successes in transformers & LLMs, and departs from more traditional methods which commonly describe scenes as meshes, voxel grids, point clouds or radiance fields. Our method infers the set of structured language commands directly from encoded visual data using a scene language encoder-decoder architecture. To train SceneScript, we generate and release a large-scale synthetic dataset called Aria Synthetic Environments consisting of 100k high-quality in-door scenes, with photorealistic and ground-truth annotated renders of egocentric scene walkthroughs. Our method gives state-of-the art results in architectural layout estimation, and competitive results in 3D object detection. Lastly, we explore an advantage for SceneScript, which is the ability to readily adapt to new commands via simple additions to the structured language, which we illustrate for tasks such as coarse 3D object part reconstruction.

Summary

AI-Generated Summary

PDF322December 15, 2024