ChatPaper.aiChatPaper

SceneScript: Ricostruzione di Scene con un Modello Linguistico Strutturato Autoregressivo

SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

March 19, 2024
Autori: Armen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas
cs.AI

Abstract

Presentiamo SceneScript, un metodo che produce direttamente modelli completi di scene come una sequenza di comandi strutturati in linguaggio naturale utilizzando un approccio autoregressivo basato su token. La nostra rappresentazione di scene è ispirata dai recenti successi dei transformer e dei modelli linguistici di grandi dimensioni (LLM), e si discosta dai metodi più tradizionali che descrivono comunemente le scene come mesh, griglie di voxel, nuvole di punti o campi di radianza. Il nostro metodo inferisce l'insieme di comandi strutturati in linguaggio naturale direttamente da dati visivi codificati utilizzando un'architettura encoder-decoder per il linguaggio delle scene. Per addestrare SceneScript, abbiamo generato e rilasciato un ampio dataset sintetico chiamato Aria Synthetic Environments, composto da 100k scene interne di alta qualità, con rendering fotorealistici e annotati con verità di base di percorsi egocentrici nelle scene. Il nostro metodo ottiene risultati all'avanguardia nella stima del layout architettonico e risultati competitivi nel rilevamento di oggetti 3D. Infine, esploriamo un vantaggio di SceneScript, ovvero la capacità di adattarsi facilmente a nuovi comandi tramite semplici aggiunte al linguaggio strutturato, che illustriamo per compiti come la ricostruzione approssimativa di parti di oggetti 3D.
English
We introduce SceneScript, a method that directly produces full scene models as a sequence of structured language commands using an autoregressive, token-based approach. Our proposed scene representation is inspired by recent successes in transformers & LLMs, and departs from more traditional methods which commonly describe scenes as meshes, voxel grids, point clouds or radiance fields. Our method infers the set of structured language commands directly from encoded visual data using a scene language encoder-decoder architecture. To train SceneScript, we generate and release a large-scale synthetic dataset called Aria Synthetic Environments consisting of 100k high-quality in-door scenes, with photorealistic and ground-truth annotated renders of egocentric scene walkthroughs. Our method gives state-of-the art results in architectural layout estimation, and competitive results in 3D object detection. Lastly, we explore an advantage for SceneScript, which is the ability to readily adapt to new commands via simple additions to the structured language, which we illustrate for tasks such as coarse 3D object part reconstruction.
PDF312February 7, 2026