SceneScript: Восстановление сцен с помощью авторегрессивной структурированной языковой модели

Аннотация

Мы представляем метод SceneScript, который непосредственно создает полные модели сцен в виде последовательности структурированных языковых команд с использованием авторегрессивного подхода на основе токенов. Наш предложенный способ представления сцены вдохновлен недавними успехами в области трансформеров и языковых моделей с большим количеством параметров и отличается от более традиционных методов, которые обычно описывают сцены как сетки, воксельные сетки, облака точек или поля яркости. Наш метод выводит набор структурированных языковых команд напрямую из закодированных визуальных данных с использованием архитектуры кодировщика-декодировщика языка сцены. Для обучения SceneScript мы создаем и выпускаем крупномасштабный синтетический набор данных под названием Aria Synthetic Environments, состоящий из 100 тыс. качественных внутренних сцен, с фотореалистичными и земляными аннотированными рендерами эгоцентрических прогулок по сцене. Наш метод дает результаты на уровне передовых технологий в оценке архитектурной компоновки и конкурентоспособные результаты в обнаружении 3D объектов. Наконец, мы исследуем преимущество для SceneScript, которое заключается в способности легко адаптироваться к новым командам с помощью простых дополнений к структурированному языку, что мы иллюстрируем для задач, таких как грубая реконструкция частей 3D объектов.

English

We introduce SceneScript, a method that directly produces full scene models as a sequence of structured language commands using an autoregressive, token-based approach. Our proposed scene representation is inspired by recent successes in transformers & LLMs, and departs from more traditional methods which commonly describe scenes as meshes, voxel grids, point clouds or radiance fields. Our method infers the set of structured language commands directly from encoded visual data using a scene language encoder-decoder architecture. To train SceneScript, we generate and release a large-scale synthetic dataset called Aria Synthetic Environments consisting of 100k high-quality in-door scenes, with photorealistic and ground-truth annotated renders of egocentric scene walkthroughs. Our method gives state-of-the art results in architectural layout estimation, and competitive results in 3D object detection. Lastly, we explore an advantage for SceneScript, which is the ability to readily adapt to new commands via simple additions to the structured language, which we illustrate for tasks such as coarse 3D object part reconstruction.

SceneScript: Восстановление сцен с помощью авторегрессивной структурированной языковой модели

SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

Аннотация

Support