ChatPaper.aiChatPaper

Holodeck: Geração Guiada por Linguagem de Ambientes 3D para IA Embarcada

Holodeck: Language Guided Generation of 3D Embodied AI Environments

December 14, 2023
Autores: Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark
cs.AI

Resumo

Ambientes simulados em 3D desempenham um papel crucial na Inteligência Artificial Embarcada, mas sua criação exige expertise e esforço manual extensivo, limitando sua diversidade e escopo. Para mitigar essa limitação, apresentamos o Holodeck, um sistema que gera ambientes 3D de forma totalmente automatizada com base em um prompt fornecido pelo usuário. O Holodeck pode gerar cenas diversas, como arcades, spas e museus, ajustar os designs para diferentes estilos e capturar a semântica de consultas complexas, como "apartamento para um pesquisador com um gato" e "escritório de um professor que é fã de Star Wars". O Holodeck utiliza um modelo de linguagem de grande escala (GPT-4) para obter conhecimento de senso comum sobre como a cena pode parecer e emprega uma vasta coleção de ativos 3D do Objaverse para preencher a cena com objetos diversos. Para resolver o desafio de posicionar os objetos corretamente, solicitamos ao GPT-4 que gere restrições de relações espaciais entre os objetos e, em seguida, otimizamos o layout para satisfazer essas restrições. Nossa avaliação humana em larga escala mostra que os anotadores preferem o Holodeck em comparação com baselines procedurais projetadas manualmente em cenas residenciais e que o Holodeck pode produzir saídas de alta qualidade para diversos tipos de cenas. Também demonstramos uma aplicação empolgante do Holodeck na Inteligência Artificial Embarcada, treinando agentes para navegar em cenas novas, como salas de música e creches, sem dados construídos por humanos, o que representa um avanço significativo no desenvolvimento de agentes embarcados de propósito geral.
English
3D simulated environments play a critical role in Embodied AI, but their creation requires expertise and extensive manual effort, restricting their diversity and scope. To mitigate this limitation, we present Holodeck, a system that generates 3D environments to match a user-supplied prompt fully automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and museums, adjust the designs for styles, and can capture the semantics of complex queries such as "apartment for a researcher with a cat" and "office of a professor who is a fan of Star Wars". Holodeck leverages a large language model (GPT-4) for common sense knowledge about what the scene might look like and uses a large collection of 3D assets from Objaverse to populate the scene with diverse objects. To address the challenge of positioning objects correctly, we prompt GPT-4 to generate spatial relational constraints between objects and then optimize the layout to satisfy those constraints. Our large-scale human evaluation shows that annotators prefer Holodeck over manually designed procedural baselines in residential scenes and that Holodeck can produce high-quality outputs for diverse scene types. We also demonstrate an exciting application of Holodeck in Embodied AI, training agents to navigate in novel scenes like music rooms and daycares without human-constructed data, which is a significant step forward in developing general-purpose embodied agents.
PDF162December 15, 2024