RenderFormer: Rendering Neurale Basato su Transformer di Mesh Triangolari con Illuminazione Globale
RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination
May 28, 2025
Autori: Chong Zeng, Yue Dong, Pieter Peers, Hongzhi Wu, Xin Tong
cs.AI
Abstract
Presentiamo RenderFormer, una pipeline di rendering neurale che genera direttamente un'immagine da una rappresentazione basata su triangoli di una scena, con effetti completi di illuminazione globale e senza richiedere addestramento o fine-tuning specifico per ogni scena. Invece di adottare un approccio centrato sulla fisica per il rendering, formuliamo il rendering come una trasformazione sequenza-a-sequenza in cui una sequenza di token che rappresentano triangoli con proprietà di riflettanza viene convertita in una sequenza di token di output che rappresentano piccole porzioni di pixel. RenderFormer segue una pipeline a due stadi: uno stadio indipendente dalla vista che modella il trasporto della luce tra triangoli, e uno stadio dipendente dalla vista che trasforma un token rappresentante un fascio di raggi nei corrispondenti valori di pixel, guidato dalla sequenza di triangoli proveniente dallo stadio indipendente dalla vista. Entrambi gli stadi si basano sull'architettura transformer e vengono appresi con vincoli a priori minimi. Dimostriamo e valutiamo RenderFormer su scene con complessità variabile nella forma e nel trasporto della luce.
English
We present RenderFormer, a neural rendering pipeline that directly renders an
image from a triangle-based representation of a scene with full global
illumination effects and that does not require per-scene training or
fine-tuning. Instead of taking a physics-centric approach to rendering, we
formulate rendering as a sequence-to-sequence transformation where a sequence
of tokens representing triangles with reflectance properties is converted to a
sequence of output tokens representing small patches of pixels. RenderFormer
follows a two stage pipeline: a view-independent stage that models
triangle-to-triangle light transport, and a view-dependent stage that
transforms a token representing a bundle of rays to the corresponding pixel
values guided by the triangle-sequence from the view-independent stage. Both
stages are based on the transformer architecture and are learned with minimal
prior constraints. We demonstrate and evaluate RenderFormer on scenes with
varying complexity in shape and light transport.