SceneScript: Восстановление сцен с помощью авторегрессивной структурированной языковой модели
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model
March 19, 2024
Авторы: Armen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas
cs.AI
Аннотация
Мы представляем метод SceneScript, который непосредственно создает полные модели сцен в виде последовательности структурированных языковых команд с использованием авторегрессивного подхода на основе токенов. Наш предложенный способ представления сцены вдохновлен недавними успехами в области трансформеров и языковых моделей с большим количеством параметров и отличается от более традиционных методов, которые обычно описывают сцены как сетки, воксельные сетки, облака точек или поля яркости. Наш метод выводит набор структурированных языковых команд напрямую из закодированных визуальных данных с использованием архитектуры кодировщика-декодировщика языка сцены. Для обучения SceneScript мы создаем и выпускаем крупномасштабный синтетический набор данных под названием Aria Synthetic Environments, состоящий из 100 тыс. качественных внутренних сцен, с фотореалистичными и земляными аннотированными рендерами эгоцентрических прогулок по сцене. Наш метод дает результаты на уровне передовых технологий в оценке архитектурной компоновки и конкурентоспособные результаты в обнаружении 3D объектов. Наконец, мы исследуем преимущество для SceneScript, которое заключается в способности легко адаптироваться к новым командам с помощью простых дополнений к структурированному языку, что мы иллюстрируем для задач, таких как грубая реконструкция частей 3D объектов.
English
We introduce SceneScript, a method that directly produces full scene models
as a sequence of structured language commands using an autoregressive,
token-based approach. Our proposed scene representation is inspired by recent
successes in transformers & LLMs, and departs from more traditional methods
which commonly describe scenes as meshes, voxel grids, point clouds or radiance
fields. Our method infers the set of structured language commands directly from
encoded visual data using a scene language encoder-decoder architecture. To
train SceneScript, we generate and release a large-scale synthetic dataset
called Aria Synthetic Environments consisting of 100k high-quality in-door
scenes, with photorealistic and ground-truth annotated renders of egocentric
scene walkthroughs. Our method gives state-of-the art results in architectural
layout estimation, and competitive results in 3D object detection. Lastly, we
explore an advantage for SceneScript, which is the ability to readily adapt to
new commands via simple additions to the structured language, which we
illustrate for tasks such as coarse 3D object part reconstruction.Summary
AI-Generated Summary