SceneScript: Scènes reconstrueren met een autoregressief gestructureerd taalmodel
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model
March 19, 2024
Auteurs: Armen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas
cs.AI
Samenvatting
We introduceren SceneScript, een methode die volledige scènemodellen direct produceert als een reeks gestructureerde taalcommando's met behulp van een autoregressieve, token-gebaseerde aanpak. Onze voorgestelde scène-representatie is geïnspireerd door recente successen in transformers en LLM's (Large Language Models), en wijkt af van meer traditionele methoden die scènes doorgaans beschrijven als meshes, voxelroosters, puntenwolken of stralingsvelden. Onze methode leidt de set gestructureerde taalcommando's direct af van gecodeerde visuele data met behulp van een scène-taal encoder-decoder architectuur. Om SceneScript te trainen, genereren en publiceren we een grootschalige synthetische dataset genaamd Aria Synthetic Environments, bestaande uit 100k hoogwaardige binnenscènes, met fotorealistische en grondwaarheid-geannoteerde renders van egocentrische scènewandelingen. Onze methode behaalt state-of-the-art resultaten in het schatten van architectonische lay-outs en competitieve resultaten in 3D-objectdetectie. Tot slot verkennen we een voordeel van SceneScript, namelijk het vermogen om zich eenvoudig aan te passen aan nieuwe commando's via eenvoudige toevoegingen aan de gestructureerde taal, wat we illustreren voor taken zoals grove 3D-objectonderdeelreconstructie.
English
We introduce SceneScript, a method that directly produces full scene models
as a sequence of structured language commands using an autoregressive,
token-based approach. Our proposed scene representation is inspired by recent
successes in transformers & LLMs, and departs from more traditional methods
which commonly describe scenes as meshes, voxel grids, point clouds or radiance
fields. Our method infers the set of structured language commands directly from
encoded visual data using a scene language encoder-decoder architecture. To
train SceneScript, we generate and release a large-scale synthetic dataset
called Aria Synthetic Environments consisting of 100k high-quality in-door
scenes, with photorealistic and ground-truth annotated renders of egocentric
scene walkthroughs. Our method gives state-of-the art results in architectural
layout estimation, and competitive results in 3D object detection. Lastly, we
explore an advantage for SceneScript, which is the ability to readily adapt to
new commands via simple additions to the structured language, which we
illustrate for tasks such as coarse 3D object part reconstruction.