Carve3D: Miglioramento della coerenza nella ricostruzione multi-vista per modelli di diffusione con ottimizzazione RL
Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning
December 21, 2023
Autori: Desai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi, Sören Pirk, Arie E. Kaufman
cs.AI
Abstract
I recenti progressi nel compito di generazione di testo-3D sfruttano modelli di diffusione testo-immagine affinati per generare immagini multi-vista, seguite da una ricostruzione NeRF. Tuttavia, i modelli di diffusione affinati in modo supervisionato (SFT) esistenti continuano a soffrire di incoerenza multi-vista e degli artefatti NeRF risultanti. Sebbene un addestramento più lungo con SFT migliori la coerenza, provoca anche uno spostamento della distribuzione, riducendo la diversità e i dettagli realistici. Sosteniamo che l'affinamento SFT dei modelli di diffusione multi-vista assomiglia alla fase di affinamento delle istruzioni della pipeline di allineamento degli LLM e può trarre vantaggio dai metodi di affinamento con rinforzo (RLFT). In sostanza, i metodi RLFT ottimizzano i modelli oltre la loro distribuzione di dati SFT utilizzando i loro stessi output, mitigando efficacemente lo spostamento della distribuzione. A tal fine, introduciamo Carve3D, un metodo RLFT accoppiato con la metrica di Coerenza della Ricostruzione Multi-vista (MRC), per migliorare la coerenza dei modelli di diffusione multi-vista. Per calcolare l'MRC su un insieme di immagini multi-vista, le confrontiamo con i rendering corrispondenti del NeRF ricostruito dalle stesse angolazioni. Validiamo la robustezza dell'MRC con esperimenti estensivi condotti sotto livelli controllati di incoerenza. Miglioriamo l'algoritmo RLFT di base per stabilizzare il processo di addestramento, ridurre lo spostamento della distribuzione e identificare le leggi di scala. Attraverso esperimenti qualitativi e quantitativi, insieme a uno studio utente, dimostriamo la migliore coerenza multi-vista di Carve3D, la qualità superiore della ricostruzione NeRF risultante e uno spostamento minimo della distribuzione rispetto a un SFT più lungo. Pagina del progetto: https://desaixie.github.io/carve-3d.
English
Recent advancements in the text-to-3D task leverage finetuned text-to-image
diffusion models to generate multi-view images, followed by NeRF
reconstruction. Yet, existing supervised finetuned (SFT) diffusion models still
suffer from multi-view inconsistency and the resulting NeRF artifacts. Although
training longer with SFT improves consistency, it also causes distribution
shift, which reduces diversity and realistic details. We argue that the SFT of
multi-view diffusion models resembles the instruction finetuning stage of the
LLM alignment pipeline and can benefit from RL finetuning (RLFT) methods.
Essentially, RLFT methods optimize models beyond their SFT data distribution by
using their own outputs, effectively mitigating distribution shift. To this
end, we introduce Carve3D, a RLFT method coupled with the Multi-view
Reconstruction Consistency (MRC) metric, to improve the consistency of
multi-view diffusion models. To compute MRC on a set of multi-view images, we
compare them with their corresponding renderings of the reconstructed NeRF at
the same viewpoints. We validate the robustness of MRC with extensive
experiments conducted under controlled inconsistency levels. We enhance the
base RLFT algorithm to stabilize the training process, reduce distribution
shift, and identify scaling laws. Through qualitative and quantitative
experiments, along with a user study, we demonstrate Carve3D's improved
multi-view consistency, the resulting superior NeRF reconstruction quality, and
minimal distribution shift compared to longer SFT. Project webpage:
https://desaixie.github.io/carve-3d.