ChatPaper.aiChatPaper

RenderFormer : Rendu neuronal basé sur des Transformers pour des maillages triangulaires avec illumination globale

RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination

May 28, 2025
Auteurs: Chong Zeng, Yue Dong, Pieter Peers, Hongzhi Wu, Xin Tong
cs.AI

Résumé

Nous présentons RenderFormer, un pipeline de rendu neuronal qui génère directement une image à partir d'une représentation d'une scène basée sur des triangles, avec des effets d'illumination globale complets, et qui ne nécessite ni entraînement ni ajustement spécifique à la scène. Plutôt que d'adopter une approche centrée sur la physique pour le rendu, nous formulons ce dernier comme une transformation séquence-à-séquence où une séquence de tokens représentant des triangles avec des propriétés de réflectance est convertie en une séquence de tokens de sortie représentant de petites zones de pixels. RenderFormer suit un pipeline en deux étapes : une étape indépendante de la vue qui modélise le transport de lumière entre triangles, et une étape dépendante de la vue qui transforme un token représentant un faisceau de rayons en les valeurs de pixels correspondantes, guidée par la séquence de triangles issue de l'étape indépendante de la vue. Les deux étapes sont basées sur l'architecture Transformer et sont apprises avec un minimum de contraintes préalables. Nous démontrons et évaluons RenderFormer sur des scènes présentant des complexités variées en termes de formes et de transport de lumière.
English
We present RenderFormer, a neural rendering pipeline that directly renders an image from a triangle-based representation of a scene with full global illumination effects and that does not require per-scene training or fine-tuning. Instead of taking a physics-centric approach to rendering, we formulate rendering as a sequence-to-sequence transformation where a sequence of tokens representing triangles with reflectance properties is converted to a sequence of output tokens representing small patches of pixels. RenderFormer follows a two stage pipeline: a view-independent stage that models triangle-to-triangle light transport, and a view-dependent stage that transforms a token representing a bundle of rays to the corresponding pixel values guided by the triangle-sequence from the view-independent stage. Both stages are based on the transformer architecture and are learned with minimal prior constraints. We demonstrate and evaluate RenderFormer on scenes with varying complexity in shape and light transport.

Summary

AI-Generated Summary

PDF343May 29, 2025