ChatPaper.aiChatPaper

RenderFormer: Transformer-basiertes neuronales Rendering von Dreiecksnetzen mit globaler Beleuchtung

RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination

May 28, 2025
Autoren: Chong Zeng, Yue Dong, Pieter Peers, Hongzhi Wu, Xin Tong
cs.AI

Zusammenfassung

Wir präsentieren RenderFormer, eine neuronale Rendering-Pipeline, die direkt ein Bild aus einer dreiecksbasierten Darstellung einer Szene mit vollständigen globalen Beleuchtungseffekten rendert und keine szenenspezifische Trainings- oder Feinabstimmung erfordert. Anstatt einen physikzentrierten Ansatz für das Rendering zu verfolgen, formulieren wir das Rendering als eine Sequenz-zu-Sequenz-Transformation, bei der eine Sequenz von Tokens, die Dreiecke mit Reflexionseigenschaften repräsentieren, in eine Sequenz von Ausgabe-Tokens umgewandelt wird, die kleine Pixelbereiche darstellen. RenderFormer folgt einer zweistufigen Pipeline: einer sichtunabhängigen Stufe, die den Lichttransport zwischen Dreiecken modelliert, und einer sichtabhängigen Stufe, die einen Token, der ein Bündel von Strahlen repräsentiert, in die entsprechenden Pixelwerte transformiert, geleitet durch die Dreieckssequenz aus der sichtunabhängigen Stufe. Beide Stufen basieren auf der Transformer-Architektur und werden mit minimalen Vorannahmen gelernt. Wir demonstrieren und evaluieren RenderFormer an Szenen mit unterschiedlicher Komplexität in Form und Lichttransport.
English
We present RenderFormer, a neural rendering pipeline that directly renders an image from a triangle-based representation of a scene with full global illumination effects and that does not require per-scene training or fine-tuning. Instead of taking a physics-centric approach to rendering, we formulate rendering as a sequence-to-sequence transformation where a sequence of tokens representing triangles with reflectance properties is converted to a sequence of output tokens representing small patches of pixels. RenderFormer follows a two stage pipeline: a view-independent stage that models triangle-to-triangle light transport, and a view-dependent stage that transforms a token representing a bundle of rays to the corresponding pixel values guided by the triangle-sequence from the view-independent stage. Both stages are based on the transformer architecture and are learned with minimal prior constraints. We demonstrate and evaluate RenderFormer on scenes with varying complexity in shape and light transport.

Summary

AI-Generated Summary

PDF343May 29, 2025