Carve3D : Amélioration de la cohérence de la reconstruction multi-vues pour les modèles de diffusion par affinage par apprentissage par renforcement
Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning
December 21, 2023
Auteurs: Desai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi, Sören Pirk, Arie E. Kaufman
cs.AI
Résumé
Les avancées récentes dans la tâche de génération de texte-à-3D exploitent des modèles de diffusion texte-à-image affinés pour produire des images multi-vues, suivies d'une reconstruction par NeRF. Cependant, les modèles de diffusion affinés de manière supervisée (SFT) existants souffrent encore d'incohérences multi-vues et des artefacts NeRF qui en résultent. Bien qu'un entraînement plus long avec SFT améliore la cohérence, il provoque également un décalage de distribution, ce qui réduit la diversité et les détails réalistes. Nous soutenons que l'affinage SFT des modèles de diffusion multi-vues ressemble à l'étape d'affinage par instruction du pipeline d'alignement des LLM et peut bénéficier des méthodes d'affinage par apprentissage par renforcement (RLFT). Essentiellement, les méthodes RLFT optimisent les modèles au-delà de leur distribution de données SFT en utilisant leurs propres sorties, atténuant ainsi efficacement le décalage de distribution. À cette fin, nous introduisons Carve3D, une méthode RLFT couplée à la métrique de Cohérence de Reconstruction Multi-vues (MRC), pour améliorer la cohérence des modèles de diffusion multi-vues. Pour calculer la MRC sur un ensemble d'images multi-vues, nous les comparons à leurs rendus correspondants du NeRF reconstruit aux mêmes points de vue. Nous validons la robustesse de la MRC avec des expériences approfondies menées sous des niveaux contrôlés d'incohérence. Nous améliorons l'algorithme RLFT de base pour stabiliser le processus d'entraînement, réduire le décalage de distribution et identifier les lois d'échelle. Grâce à des expériences qualitatives et quantitatives, ainsi qu'à une étude utilisateur, nous démontrons que Carve3D améliore la cohérence multi-vues, la qualité supérieure de la reconstruction NeRF qui en résulte, et un décalage de distribution minimal par rapport à un SFT plus long. Page du projet : https://desaixie.github.io/carve-3d.
English
Recent advancements in the text-to-3D task leverage finetuned text-to-image
diffusion models to generate multi-view images, followed by NeRF
reconstruction. Yet, existing supervised finetuned (SFT) diffusion models still
suffer from multi-view inconsistency and the resulting NeRF artifacts. Although
training longer with SFT improves consistency, it also causes distribution
shift, which reduces diversity and realistic details. We argue that the SFT of
multi-view diffusion models resembles the instruction finetuning stage of the
LLM alignment pipeline and can benefit from RL finetuning (RLFT) methods.
Essentially, RLFT methods optimize models beyond their SFT data distribution by
using their own outputs, effectively mitigating distribution shift. To this
end, we introduce Carve3D, a RLFT method coupled with the Multi-view
Reconstruction Consistency (MRC) metric, to improve the consistency of
multi-view diffusion models. To compute MRC on a set of multi-view images, we
compare them with their corresponding renderings of the reconstructed NeRF at
the same viewpoints. We validate the robustness of MRC with extensive
experiments conducted under controlled inconsistency levels. We enhance the
base RLFT algorithm to stabilize the training process, reduce distribution
shift, and identify scaling laws. Through qualitative and quantitative
experiments, along with a user study, we demonstrate Carve3D's improved
multi-view consistency, the resulting superior NeRF reconstruction quality, and
minimal distribution shift compared to longer SFT. Project webpage:
https://desaixie.github.io/carve-3d.