ChatPaper.aiChatPaper

RenderFormer: Transformer-gebaseerd Neuraal Renderen van Driehoeksmazen met Globale Verlichting

RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination

May 28, 2025
Auteurs: Chong Zeng, Yue Dong, Pieter Peers, Hongzhi Wu, Xin Tong
cs.AI

Samenvatting

We presenteren RenderFormer, een neurale renderingpijplijn die direct een afbeelding weergeeft vanuit een driehoekgebaseerde representatie van een scène met volledige globale belichtingseffecten en die geen per-scène training of fine-tuning vereist. In plaats van een fysica-gerichte benadering van rendering te hanteren, formuleren we rendering als een sequentie-naar-sequentie transformatie waarbij een reeks tokens die driehoeken met reflectie-eigenschappen representeren, wordt omgezet in een reeks uitvoertokens die kleine stukjes pixels representeren. RenderFormer volgt een tweestappenpijplijn: een view-onafhankelijke fase die lichttransport tussen driehoeken modelleert, en een view-afhankelijke fase die een token die een bundel stralen representeert, transformeert naar de corresponderende pixelwaarden, geleid door de driehoeksequentie uit de view-onafhankelijke fase. Beide fasen zijn gebaseerd op de transformer-architectuur en worden geleerd met minimale voorafgaande beperkingen. We demonstreren en evalueren RenderFormer op scènes met variërende complexiteit in vorm en lichttransport.
English
We present RenderFormer, a neural rendering pipeline that directly renders an image from a triangle-based representation of a scene with full global illumination effects and that does not require per-scene training or fine-tuning. Instead of taking a physics-centric approach to rendering, we formulate rendering as a sequence-to-sequence transformation where a sequence of tokens representing triangles with reflectance properties is converted to a sequence of output tokens representing small patches of pixels. RenderFormer follows a two stage pipeline: a view-independent stage that models triangle-to-triangle light transport, and a view-dependent stage that transforms a token representing a bundle of rays to the corresponding pixel values guided by the triangle-sequence from the view-independent stage. Both stages are based on the transformer architecture and are learned with minimal prior constraints. We demonstrate and evaluate RenderFormer on scenes with varying complexity in shape and light transport.
PDF374May 29, 2025