ChatPaper.aiChatPaper

SceneScript: 自己回帰型構造化言語モデルによるシーン再構築

SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

March 19, 2024
著者: Armen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas
cs.AI

要旨

SceneScriptを紹介します。これは、自己回帰型のトークンベースアプローチを用いて、完全なシーンモデルを構造化された言語コマンドのシーケンスとして直接生成する手法です。提案するシーン表現は、トランスフォーマーや大規模言語モデル(LLM)の最近の成功に着想を得ており、メッシュ、ボクセルグリッド、ポイントクラウド、放射輝度場など、より伝統的な方法でシーンを記述する手法から離れています。本手法では、シーン言語エンコーダーデコーダーアーキテクチャを使用して、符号化された視覚データから直接構造化言語コマンドのセットを推論します。SceneScriptを訓練するために、10万の高品質な屋内シーンからなる大規模な合成データセット「Aria Synthetic Environments」を生成・公開しました。このデータセットには、フォトリアルなエゴセントリックシーンウォークスルーのグラウンドトゥルースアノテーション付きレンダリングが含まれています。本手法は、建築レイアウト推定において最先端の結果を示し、3D物体検出においても競争力のある結果を達成します。最後に、SceneScriptの利点として、構造化言語への簡単な追加によって新しいコマンドに容易に適応できる能力を探り、粗い3Dオブジェクトパーツ再構成などのタスクでその例を示します。
English
We introduce SceneScript, a method that directly produces full scene models as a sequence of structured language commands using an autoregressive, token-based approach. Our proposed scene representation is inspired by recent successes in transformers & LLMs, and departs from more traditional methods which commonly describe scenes as meshes, voxel grids, point clouds or radiance fields. Our method infers the set of structured language commands directly from encoded visual data using a scene language encoder-decoder architecture. To train SceneScript, we generate and release a large-scale synthetic dataset called Aria Synthetic Environments consisting of 100k high-quality in-door scenes, with photorealistic and ground-truth annotated renders of egocentric scene walkthroughs. Our method gives state-of-the art results in architectural layout estimation, and competitive results in 3D object detection. Lastly, we explore an advantage for SceneScript, which is the ability to readily adapt to new commands via simple additions to the structured language, which we illustrate for tasks such as coarse 3D object part reconstruction.

Summary

AI-Generated Summary

PDF322December 15, 2024