ChatPaper.aiChatPaper

RenderFormer: Representación Neural Basada en Transformers de Mallas de Triángulos con Iluminación Global

RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination

May 28, 2025
Autores: Chong Zeng, Yue Dong, Pieter Peers, Hongzhi Wu, Xin Tong
cs.AI

Resumen

Presentamos RenderFormer, una canalización de renderizado neuronal que genera directamente una imagen a partir de una representación basada en triángulos de una escena, incluyendo efectos completos de iluminación global, y que no requiere entrenamiento o ajuste específico por escena. En lugar de adoptar un enfoque centrado en la física para el renderizado, formulamos este proceso como una transformación de secuencia a secuencia, donde una secuencia de tokens que representan triángulos con propiedades de reflectancia se convierte en una secuencia de tokens de salida que representan pequeños parches de píxeles. RenderFormer sigue una canalización de dos etapas: una etapa independiente de la vista que modela el transporte de luz entre triángulos, y una etapa dependiente de la vista que transforma un token que representa un haz de rayos en los valores de píxeles correspondientes, guiada por la secuencia de triángulos de la etapa independiente de la vista. Ambas etapas se basan en la arquitectura transformer y se aprenden con restricciones previas mínimas. Demostramos y evaluamos RenderFormer en escenas con complejidad variable en forma y transporte de luz.
English
We present RenderFormer, a neural rendering pipeline that directly renders an image from a triangle-based representation of a scene with full global illumination effects and that does not require per-scene training or fine-tuning. Instead of taking a physics-centric approach to rendering, we formulate rendering as a sequence-to-sequence transformation where a sequence of tokens representing triangles with reflectance properties is converted to a sequence of output tokens representing small patches of pixels. RenderFormer follows a two stage pipeline: a view-independent stage that models triangle-to-triangle light transport, and a view-dependent stage that transforms a token representing a bundle of rays to the corresponding pixel values guided by the triangle-sequence from the view-independent stage. Both stages are based on the transformer architecture and are learned with minimal prior constraints. We demonstrate and evaluate RenderFormer on scenes with varying complexity in shape and light transport.

Summary

AI-Generated Summary

PDF343May 29, 2025