SpaceBlender: Criando Espaços Colaborativos Rica em Contexto Através da Fusão Generativa de Cenas 3D

Resumo

Existe um interesse crescente em utilizar IA generativa para criar espaços 3D para aplicações de Realidade Virtual (RV). No entanto, os modelos atuais produzem ambientes artificiais, não sendo capazes de apoiar tarefas colaborativas que se beneficiam da incorporação do contexto físico do usuário. Para gerar ambientes que suportem a telepresença em RV, apresentamos o SpaceBlender, um novo pipeline que utiliza técnicas de IA generativa para mesclar os arredores físicos dos usuários em espaços virtuais unificados. Este pipeline transforma imagens 2D fornecidas pelo usuário em ambientes 3D ricos em contexto por meio de um processo iterativo composto por estimativa de profundidade, alinhamento de malha e conclusão de espaço baseada em difusão, guiada por premissas geométricas e prompts de texto adaptativos. Em um estudo preliminar dentro de sujeitos, no qual 20 participantes realizaram uma tarefa colaborativa de diagramação de afinidade em RV em pares, comparamos o SpaceBlender com um ambiente virtual genérico e um framework de geração de cenas de última geração, avaliando sua capacidade de criar espaços virtuais adequados para colaboração. Os participantes apreciaram a familiaridade aprimorada e o contexto fornecido pelo SpaceBlender, mas também observaram complexidades nos ambientes generativos que poderiam desviar o foco da tarefa. Com base no feedback dos participantes, propomos direções para melhorar o pipeline e discutimos o valor e o design de espaços mesclados para diferentes cenários.

English

There is increased interest in using generative AI to create 3D spaces for Virtual Reality (VR) applications. However, today's models produce artificial environments, falling short of supporting collaborative tasks that benefit from incorporating the user's physical context. To generate environments that support VR telepresence, we introduce SpaceBlender, a novel pipeline that utilizes generative AI techniques to blend users' physical surroundings into unified virtual spaces. This pipeline transforms user-provided 2D images into context-rich 3D environments through an iterative process consisting of depth estimation, mesh alignment, and diffusion-based space completion guided by geometric priors and adaptive text prompts. In a preliminary within-subjects study, where 20 participants performed a collaborative VR affinity diagramming task in pairs, we compared SpaceBlender with a generic virtual environment and a state-of-the-art scene generation framework, evaluating its ability to create virtual spaces suitable for collaboration. Participants appreciated the enhanced familiarity and context provided by SpaceBlender but also noted complexities in the generative environments that could detract from task focus. Drawing on participant feedback, we propose directions for improving the pipeline and discuss the value and design of blended spaces for different scenarios.

SpaceBlender: Criando Espaços Colaborativos Rica em Contexto Através da Fusão Generativa de Cenas 3D

SpaceBlender: Creating Context-Rich Collaborative Spaces Through Generative 3D Scene Blending

Resumo

Support