Carve3D: Verbesserung der Mehransichts-Rekonstruktionskonsistenz für Diffusionsmodelle durch RL-Finetuning
Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning
December 21, 2023
Autoren: Desai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi, Sören Pirk, Arie E. Kaufman
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Text-zu-3D-Aufgabe nutzen feinabgestimmte Text-zu-Bild-Diffusionsmodelle, um Multi-View-Bilder zu generieren, gefolgt von einer NeRF-Rekonstruktion. Dennoch leiden bestehende, überwachte feinabgestimmte (SFT) Diffusionsmodelle weiterhin unter Inkonsistenzen in der Multi-View-Darstellung und den daraus resultierenden NeRF-Artefakten. Obwohl ein längeres Training mit SFT die Konsistenz verbessert, führt es auch zu einer Verschiebung der Verteilung, was die Vielfalt und realistische Details reduziert. Wir argumentieren, dass die SFT von Multi-View-Diffusionsmodellen der Instruktionsfeinabstimmung in der LLM-Alignment-Pipeline ähnelt und von Methoden der RL-Feinabstimmung (RLFT) profitieren kann. Im Wesentlichen optimieren RLFT-Methoden Modelle über ihre SFT-Datenverteilung hinaus, indem sie ihre eigenen Ausgaben verwenden, wodurch die Verteilungsverschiebung effektiv gemildert wird. Zu diesem Zweck führen wir Carve3D ein, eine RLFT-Methode, die mit der Multi-View-Rekonstruktionskonsistenz (MRC) Metrik gekoppelt ist, um die Konsistenz von Multi-View-Diffusionsmodellen zu verbessern. Um MRC für eine Reihe von Multi-View-Bildern zu berechnen, vergleichen wir sie mit den entsprechenden Renderings der rekonstruierten NeRF aus denselben Blickwinkeln. Wir validieren die Robustheit von MRC durch umfangreiche Experimente, die unter kontrollierten Inkonsistenzniveaus durchgeführt wurden. Wir verbessern den Basis-RLFT-Algorithmus, um den Trainingsprozess zu stabilisieren, die Verteilungsverschiebung zu reduzieren und Skalierungsgesetze zu identifizieren. Durch qualitative und quantitative Experimente sowie eine Benutzerstudie demonstrieren wir die verbesserte Multi-View-Konsistenz von Carve3D, die daraus resultierende überlegene NeRF-Rekonstruktionsqualität und die minimale Verteilungsverschiebung im Vergleich zu einem längeren SFT. Projektwebseite: https://desaixie.github.io/carve-3d.
English
Recent advancements in the text-to-3D task leverage finetuned text-to-image
diffusion models to generate multi-view images, followed by NeRF
reconstruction. Yet, existing supervised finetuned (SFT) diffusion models still
suffer from multi-view inconsistency and the resulting NeRF artifacts. Although
training longer with SFT improves consistency, it also causes distribution
shift, which reduces diversity and realistic details. We argue that the SFT of
multi-view diffusion models resembles the instruction finetuning stage of the
LLM alignment pipeline and can benefit from RL finetuning (RLFT) methods.
Essentially, RLFT methods optimize models beyond their SFT data distribution by
using their own outputs, effectively mitigating distribution shift. To this
end, we introduce Carve3D, a RLFT method coupled with the Multi-view
Reconstruction Consistency (MRC) metric, to improve the consistency of
multi-view diffusion models. To compute MRC on a set of multi-view images, we
compare them with their corresponding renderings of the reconstructed NeRF at
the same viewpoints. We validate the robustness of MRC with extensive
experiments conducted under controlled inconsistency levels. We enhance the
base RLFT algorithm to stabilize the training process, reduce distribution
shift, and identify scaling laws. Through qualitative and quantitative
experiments, along with a user study, we demonstrate Carve3D's improved
multi-view consistency, the resulting superior NeRF reconstruction quality, and
minimal distribution shift compared to longer SFT. Project webpage:
https://desaixie.github.io/carve-3d.