SceneScript : Reconstruction de scènes avec un modèle de langage structuré autorégressif
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model
March 19, 2024
Auteurs: Armen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas
cs.AI
Résumé
Nous présentons SceneScript, une méthode qui produit directement des modèles complets de scènes sous la forme d'une séquence de commandes structurées en langage, en utilisant une approche autoregressive basée sur des tokens. Notre représentation de scène proposée s'inspire des récents succès des transformers et des grands modèles de langage (LLMs), et s'écarte des méthodes plus traditionnelles qui décrivent généralement les scènes sous forme de maillages, de grilles voxel, de nuages de points ou de champs de radiance. Notre méthode déduit l'ensemble des commandes structurées en langage directement à partir de données visuelles encodées, en utilisant une architecture encodeur-décodeur de langage de scène. Pour entraîner SceneScript, nous générons et publions un vaste ensemble de données synthétiques appelé Aria Synthetic Environments, composé de 100 000 scènes intérieures de haute qualité, avec des rendus photoréalistes et annotés de manière précise de parcours de scènes égocentriques. Notre méthode obtient des résultats de pointe dans l'estimation de la disposition architecturale et des résultats compétitifs en détection d'objets 3D. Enfin, nous explorons un avantage de SceneScript, qui est la capacité de s'adapter facilement à de nouvelles commandes via de simples ajouts au langage structuré, ce que nous illustrons pour des tâches telles que la reconstruction grossière de parties d'objets 3D.
English
We introduce SceneScript, a method that directly produces full scene models
as a sequence of structured language commands using an autoregressive,
token-based approach. Our proposed scene representation is inspired by recent
successes in transformers & LLMs, and departs from more traditional methods
which commonly describe scenes as meshes, voxel grids, point clouds or radiance
fields. Our method infers the set of structured language commands directly from
encoded visual data using a scene language encoder-decoder architecture. To
train SceneScript, we generate and release a large-scale synthetic dataset
called Aria Synthetic Environments consisting of 100k high-quality in-door
scenes, with photorealistic and ground-truth annotated renders of egocentric
scene walkthroughs. Our method gives state-of-the art results in architectural
layout estimation, and competitive results in 3D object detection. Lastly, we
explore an advantage for SceneScript, which is the ability to readily adapt to
new commands via simple additions to the structured language, which we
illustrate for tasks such as coarse 3D object part reconstruction.Summary
AI-Generated Summary