ChatPaper.aiChatPaper

UrbanIR: Renderização Inversa de Cenas Urbanas em Grande Escala a partir de um Único Vídeo

UrbanIR: Large-Scale Urban Scene Inverse Rendering from a Single Video

June 15, 2023
Autores: Zhi-Hao Lin, Bohan Liu, Yi-Ting Chen, David Forsyth, Jia-Bin Huang, Anand Bhattad, Shenlong Wang
cs.AI

Resumo

Mostramos como construir um modelo que permite renderizações realistas de cenas em novos pontos de vista e sob condições de iluminação variadas a partir de vídeos. Nosso método — UrbanIR: Urban Scene Inverse Rendering — calcula uma representação de gráficos inversos a partir do vídeo. O UrbanIR infere conjuntamente forma, albedo, visibilidade, e iluminação solar e do céu a partir de um único vídeo de cenas externas ilimitadas com iluminação desconhecida. O UrbanIR utiliza vídeos capturados por câmeras montadas em carros (em contraste com múltiplas visões dos mesmos pontos típicas da estimação no estilo NeRF). Como resultado, métodos padrão produzem estimativas de geometria pobres (por exemplo, telhados) e há numerosos "flutuadores". Erros na inferência de gráficos inversos podem resultar em artefatos de renderização significativos. O UrbanIR utiliza novas funções de perda para controlar essas e outras fontes de erro. O UrbanIR emprega uma função de perda inovadora para fazer estimativas muito precisas dos volumes de sombra na cena original. As representações resultantes facilitam edições controláveis, entregando renderizações fotorealísticas de cenas reiluminadas e objetos inseridos em novos pontos de vista. A avaliação qualitativa demonstra melhorias significativas em relação ao estado da arte.
English
We show how to build a model that allows realistic, free-viewpoint renderings of a scene under novel lighting conditions from video. Our method -- UrbanIR: Urban Scene Inverse Rendering -- computes an inverse graphics representation from the video. UrbanIR jointly infers shape, albedo, visibility, and sun and sky illumination from a single video of unbounded outdoor scenes with unknown lighting. UrbanIR uses videos from cameras mounted on cars (in contrast to many views of the same points in typical NeRF-style estimation). As a result, standard methods produce poor geometry estimates (for example, roofs), and there are numerous ''floaters''. Errors in inverse graphics inference can result in strong rendering artifacts. UrbanIR uses novel losses to control these and other sources of error. UrbanIR uses a novel loss to make very good estimates of shadow volumes in the original scene. The resulting representations facilitate controllable editing, delivering photorealistic free-viewpoint renderings of relit scenes and inserted objects. Qualitative evaluation demonstrates strong improvements over the state-of-the-art.
PDF50February 7, 2026