UrbanIR: Renderizado Inverso a Gran Escala de Escenas Urbanas a partir de un Único Vídeo
UrbanIR: Large-Scale Urban Scene Inverse Rendering from a Single Video
June 15, 2023
Autores: Zhi-Hao Lin, Bohan Liu, Yi-Ting Chen, David Forsyth, Jia-Bin Huang, Anand Bhattad, Shenlong Wang
cs.AI
Resumen
Mostramos cómo construir un modelo que permita renderizaciones realistas y de punto de vista libre de una escena bajo condiciones de iluminación novedosas a partir de video. Nuestro método, UrbanIR: Urban Scene Inverse Rendering, calcula una representación de gráficos inversos a partir del video. UrbanIR infiere conjuntamente la forma, el albedo, la visibilidad, y la iluminación solar y del cielo a partir de un único video de escenas exteriores no delimitadas con iluminación desconocida. UrbanIR utiliza videos de cámaras montadas en automóviles (en contraste con múltiples vistas de los mismos puntos en la estimación típica al estilo NeRF). Como resultado, los métodos estándar producen estimaciones de geometría deficientes (por ejemplo, techos) y hay numerosos "flotadores". Los errores en la inferencia de gráficos inversos pueden resultar en artefactos de renderización significativos. UrbanIR utiliza pérdidas novedosas para controlar estas y otras fuentes de error. UrbanIR emplea una pérdida novedosa para realizar estimaciones muy precisas de los volúmenes de sombra en la escena original. Las representaciones resultantes facilitan la edición controlable, ofreciendo renderizaciones fotorrealistas de punto de vista libre de escenas reiluminadas y objetos insertados. La evaluación cualitativa demuestra mejoras significativas con respecto al estado del arte.
English
We show how to build a model that allows realistic, free-viewpoint renderings
of a scene under novel lighting conditions from video. Our method -- UrbanIR:
Urban Scene Inverse Rendering -- computes an inverse graphics representation
from the video. UrbanIR jointly infers shape, albedo, visibility, and sun and
sky illumination from a single video of unbounded outdoor scenes with unknown
lighting. UrbanIR uses videos from cameras mounted on cars (in contrast to many
views of the same points in typical NeRF-style estimation). As a result,
standard methods produce poor geometry estimates (for example, roofs), and
there are numerous ''floaters''. Errors in inverse graphics inference can
result in strong rendering artifacts. UrbanIR uses novel losses to control
these and other sources of error. UrbanIR uses a novel loss to make very good
estimates of shadow volumes in the original scene. The resulting
representations facilitate controllable editing, delivering photorealistic
free-viewpoint renderings of relit scenes and inserted objects. Qualitative
evaluation demonstrates strong improvements over the state-of-the-art.