ShapeR: Geração Robusta de Formas 3D Condicionada a partir de Capturas Casuais

Resumo

Os avanços recentes na geração de formas 3D têm alcançado resultados impressionantes, mas a maioria dos métodos existentes depende de entradas limpas, sem oclusão e bem segmentadas. Tais condições raramente são atendidas em cenários do mundo real. Apresentamos o ShapeR, uma nova abordagem para a geração condicional de formas de objetos 3D a partir de sequências capturadas casualmente. Dada uma sequência de imagens, aproveitamos algoritmos de SLAM visual-inercial, detecção 3D e modelos visão-linguagem prontos para uso para extrair, para cada objeto, um conjunto de pontos esparsos do SLAM, imagens com pose de múltiplas visualizações e legendas geradas por máquina. Um transformador de fluxo retificado, treinado para condicionar efetivamente nessas modalidades, gera então formas 3D métricas de alta fidelidade. Para garantir robustez aos desafios dos dados capturados casualmente, empregamos uma série de técnicas, incluindo aumentos composicionais dinâmicos, um esquema de treinamento curricular abrangendo conjuntos de dados em nível de objeto e de cena, e estratégias para lidar com desordem de fundo. Adicionalmente, introduzimos um novo benchmark de avaliação composto por 178 objetos "in-the-wild" em 7 cenas do mundo real com anotações de geometria. Os experimentos mostram que o ShapeR supera significativamente as abordagens existentes neste cenário desafiador, alcançando uma melhoria de 2,7x na distância de Chamfer em comparação com o estado da arte.

English

Recent advances in 3D shape generation have achieved impressive results, but most existing methods rely on clean, unoccluded, and well-segmented inputs. Such conditions are rarely met in real-world scenarios. We present ShapeR, a novel approach for conditional 3D object shape generation from casually captured sequences. Given an image sequence, we leverage off-the-shelf visual-inertial SLAM, 3D detection algorithms, and vision-language models to extract, for each object, a set of sparse SLAM points, posed multi-view images, and machine-generated captions. A rectified flow transformer trained to effectively condition on these modalities then generates high-fidelity metric 3D shapes. To ensure robustness to the challenges of casually captured data, we employ a range of techniques including on-the-fly compositional augmentations, a curriculum training scheme spanning object- and scene-level datasets, and strategies to handle background clutter. Additionally, we introduce a new evaluation benchmark comprising 178 in-the-wild objects across 7 real-world scenes with geometry annotations. Experiments show that ShapeR significantly outperforms existing approaches in this challenging setting, achieving an improvement of 2.7x in Chamfer distance compared to state of the art.