ChatPaper.aiChatPaper

Szenenskript: Rekonstruktion von Szenen mit einem autoregressiven strukturierten Sprachmodell

SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

March 19, 2024
Autoren: Armen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas
cs.AI

Zusammenfassung

Wir stellen SceneScript vor, eine Methode, die direkt vollständige Szenenmodelle als eine Sequenz strukturierter Sprachbefehle mithilfe eines autoregressiven, tokenbasierten Ansatzes erzeugt. Unsere vorgeschlagene Szenendarstellung ist von den jüngsten Erfolgen in Transformatoren & LLMs inspiriert und unterscheidet sich von traditionelleren Methoden, die Szenen üblicherweise als Meshes, Voxelgitter, Punktwolken oder Strahlungsfelder beschreiben. Unsere Methode schließt von kodierten visuellen Daten direkt auf die Menge strukturierter Sprachbefehle mithilfe einer Szenensprach-Encoder-Decoder-Architektur. Um SceneScript zu trainieren, generieren und veröffentlichen wir einen groß angelegten synthetischen Datensatz namens Aria Synthetic Environments, der aus 100.000 hochwertigen Innenraumszenen besteht, mit fotorealistischen und Ground-Truth-annotierten Renderings von egozentrischen Szenendurchläufen. Unsere Methode erzielt Spitzenresultate bei der architektonischen Layoutschätzung und wettbewerbsfähige Ergebnisse bei der 3D-Objekterkennung. Schließlich erkunden wir einen Vorteil für SceneScript, nämlich die Fähigkeit, sich durch einfache Ergänzungen zur strukturierten Sprache leicht an neue Befehle anzupassen, was wir für Aufgaben wie die grobe 3D-Objektteilrekonstruktion veranschaulichen.
English
We introduce SceneScript, a method that directly produces full scene models as a sequence of structured language commands using an autoregressive, token-based approach. Our proposed scene representation is inspired by recent successes in transformers & LLMs, and departs from more traditional methods which commonly describe scenes as meshes, voxel grids, point clouds or radiance fields. Our method infers the set of structured language commands directly from encoded visual data using a scene language encoder-decoder architecture. To train SceneScript, we generate and release a large-scale synthetic dataset called Aria Synthetic Environments consisting of 100k high-quality in-door scenes, with photorealistic and ground-truth annotated renders of egocentric scene walkthroughs. Our method gives state-of-the art results in architectural layout estimation, and competitive results in 3D object detection. Lastly, we explore an advantage for SceneScript, which is the ability to readily adapt to new commands via simple additions to the structured language, which we illustrate for tasks such as coarse 3D object part reconstruction.

Summary

AI-Generated Summary

PDF322December 15, 2024