ChatPaper.aiChatPaper

RenderFormer: Renderização Neural Baseada em Transformers de Malhas Triangulares com Iluminação Global

RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination

May 28, 2025
Autores: Chong Zeng, Yue Dong, Pieter Peers, Hongzhi Wu, Xin Tong
cs.AI

Resumo

Apresentamos o RenderFormer, um pipeline de renderização neural que renderiza diretamente uma imagem a partir de uma representação baseada em triângulos de uma cena, com efeitos completos de iluminação global, e que não requer treinamento ou ajuste específico por cena. Em vez de adotar uma abordagem centrada na física para renderização, formulamos a renderização como uma transformação de sequência para sequência, onde uma sequência de tokens representando triângulos com propriedades de refletância é convertida em uma sequência de tokens de saída representando pequenos blocos de pixels. O RenderFormer segue um pipeline de dois estágios: um estágio independente da visão que modela o transporte de luz entre triângulos, e um estágio dependente da visão que transforma um token representando um feixe de raios nos valores de pixel correspondentes, guiado pela sequência de triângulos do estágio independente da visão. Ambos os estágios são baseados na arquitetura transformer e são aprendidos com restrições mínimas de conhecimento prévio. Demonstramos e avaliamos o RenderFormer em cenas com complexidade variada em forma e transporte de luz.
English
We present RenderFormer, a neural rendering pipeline that directly renders an image from a triangle-based representation of a scene with full global illumination effects and that does not require per-scene training or fine-tuning. Instead of taking a physics-centric approach to rendering, we formulate rendering as a sequence-to-sequence transformation where a sequence of tokens representing triangles with reflectance properties is converted to a sequence of output tokens representing small patches of pixels. RenderFormer follows a two stage pipeline: a view-independent stage that models triangle-to-triangle light transport, and a view-dependent stage that transforms a token representing a bundle of rays to the corresponding pixel values guided by the triangle-sequence from the view-independent stage. Both stages are based on the transformer architecture and are learned with minimal prior constraints. We demonstrate and evaluate RenderFormer on scenes with varying complexity in shape and light transport.
PDF374May 29, 2025