ChatPaper.aiChatPaper

RenderFormer: Rendering Neurale Basato su Transformer di Mesh Triangolari con Illuminazione Globale

RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination

May 28, 2025
Autori: Chong Zeng, Yue Dong, Pieter Peers, Hongzhi Wu, Xin Tong
cs.AI

Abstract

Presentiamo RenderFormer, una pipeline di rendering neurale che genera direttamente un'immagine da una rappresentazione basata su triangoli di una scena, con effetti completi di illuminazione globale e senza richiedere addestramento o fine-tuning specifico per ogni scena. Invece di adottare un approccio centrato sulla fisica per il rendering, formuliamo il rendering come una trasformazione sequenza-a-sequenza in cui una sequenza di token che rappresentano triangoli con proprietà di riflettanza viene convertita in una sequenza di token di output che rappresentano piccole porzioni di pixel. RenderFormer segue una pipeline a due stadi: uno stadio indipendente dalla vista che modella il trasporto della luce tra triangoli, e uno stadio dipendente dalla vista che trasforma un token rappresentante un fascio di raggi nei corrispondenti valori di pixel, guidato dalla sequenza di triangoli proveniente dallo stadio indipendente dalla vista. Entrambi gli stadi si basano sull'architettura transformer e vengono appresi con vincoli a priori minimi. Dimostriamo e valutiamo RenderFormer su scene con complessità variabile nella forma e nel trasporto della luce.
English
We present RenderFormer, a neural rendering pipeline that directly renders an image from a triangle-based representation of a scene with full global illumination effects and that does not require per-scene training or fine-tuning. Instead of taking a physics-centric approach to rendering, we formulate rendering as a sequence-to-sequence transformation where a sequence of tokens representing triangles with reflectance properties is converted to a sequence of output tokens representing small patches of pixels. RenderFormer follows a two stage pipeline: a view-independent stage that models triangle-to-triangle light transport, and a view-dependent stage that transforms a token representing a bundle of rays to the corresponding pixel values guided by the triangle-sequence from the view-independent stage. Both stages are based on the transformer architecture and are learned with minimal prior constraints. We demonstrate and evaluate RenderFormer on scenes with varying complexity in shape and light transport.
PDF363May 29, 2025