RenderFormer: トランスフォーマーベースの三角形メッシュのニューラルレンダリングとグローバルイルミネーション
RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination
May 28, 2025
著者: Chong Zeng, Yue Dong, Pieter Peers, Hongzhi Wu, Xin Tong
cs.AI
要旨
本論文では、RenderFormerを紹介します。これは、三角形ベースのシーン表現から直接画像をレンダリングするニューラルレンダリングパイプラインであり、完全なグローバルイルミネーション効果を実現し、シーンごとのトレーニングやファインチューニングを必要としません。物理中心のアプローチを取る代わりに、レンダリングをシーケンス間変換として定式化します。ここでは、反射特性を持つ三角形を表すトークンのシーケンスが、ピクセルの小さなパッチを表す出力トークンのシーケンスに変換されます。RenderFormerは、2段階のパイプラインを採用しています。第1段階はビュー非依存の段階で、三角形間の光輸送をモデル化します。第2段階はビュー依存の段階で、ビームの束を表すトークンを、第1段階の三角形シーケンスに基づいて対応するピクセル値に変換します。両段階ともトランスフォーマーアーキテクチャに基づいており、最小限の事前制約で学習されます。形状と光輸送の複雑さが異なるシーンにおいて、RenderFormerを実証し評価します。
English
We present RenderFormer, a neural rendering pipeline that directly renders an
image from a triangle-based representation of a scene with full global
illumination effects and that does not require per-scene training or
fine-tuning. Instead of taking a physics-centric approach to rendering, we
formulate rendering as a sequence-to-sequence transformation where a sequence
of tokens representing triangles with reflectance properties is converted to a
sequence of output tokens representing small patches of pixels. RenderFormer
follows a two stage pipeline: a view-independent stage that models
triangle-to-triangle light transport, and a view-dependent stage that
transforms a token representing a bundle of rays to the corresponding pixel
values guided by the triangle-sequence from the view-independent stage. Both
stages are based on the transformer architecture and are learned with minimal
prior constraints. We demonstrate and evaluate RenderFormer on scenes with
varying complexity in shape and light transport.Summary
AI-Generated Summary