Carve3D : Amélioration de la cohérence de la reconstruction multi-vues pour les modèles de diffusion par affinage par apprentissage par renforcement

papers.abstract

Les avancées récentes dans la tâche de génération de texte-à-3D exploitent des modèles de diffusion texte-à-image affinés pour produire des images multi-vues, suivies d'une reconstruction par NeRF. Cependant, les modèles de diffusion affinés de manière supervisée (SFT) existants souffrent encore d'incohérences multi-vues et des artefacts NeRF qui en résultent. Bien qu'un entraînement plus long avec SFT améliore la cohérence, il provoque également un décalage de distribution, ce qui réduit la diversité et les détails réalistes. Nous soutenons que l'affinage SFT des modèles de diffusion multi-vues ressemble à l'étape d'affinage par instruction du pipeline d'alignement des LLM et peut bénéficier des méthodes d'affinage par apprentissage par renforcement (RLFT). Essentiellement, les méthodes RLFT optimisent les modèles au-delà de leur distribution de données SFT en utilisant leurs propres sorties, atténuant ainsi efficacement le décalage de distribution. À cette fin, nous introduisons Carve3D, une méthode RLFT couplée à la métrique de Cohérence de Reconstruction Multi-vues (MRC), pour améliorer la cohérence des modèles de diffusion multi-vues. Pour calculer la MRC sur un ensemble d'images multi-vues, nous les comparons à leurs rendus correspondants du NeRF reconstruit aux mêmes points de vue. Nous validons la robustesse de la MRC avec des expériences approfondies menées sous des niveaux contrôlés d'incohérence. Nous améliorons l'algorithme RLFT de base pour stabiliser le processus d'entraînement, réduire le décalage de distribution et identifier les lois d'échelle. Grâce à des expériences qualitatives et quantitatives, ainsi qu'à une étude utilisateur, nous démontrons que Carve3D améliore la cohérence multi-vues, la qualité supérieure de la reconstruction NeRF qui en résulte, et un décalage de distribution minimal par rapport à un SFT plus long. Page du projet : https://desaixie.github.io/carve-3d.

English

Recent advancements in the text-to-3D task leverage finetuned text-to-image diffusion models to generate multi-view images, followed by NeRF reconstruction. Yet, existing supervised finetuned (SFT) diffusion models still suffer from multi-view inconsistency and the resulting NeRF artifacts. Although training longer with SFT improves consistency, it also causes distribution shift, which reduces diversity and realistic details. We argue that the SFT of multi-view diffusion models resembles the instruction finetuning stage of the LLM alignment pipeline and can benefit from RL finetuning (RLFT) methods. Essentially, RLFT methods optimize models beyond their SFT data distribution by using their own outputs, effectively mitigating distribution shift. To this end, we introduce Carve3D, a RLFT method coupled with the Multi-view Reconstruction Consistency (MRC) metric, to improve the consistency of multi-view diffusion models. To compute MRC on a set of multi-view images, we compare them with their corresponding renderings of the reconstructed NeRF at the same viewpoints. We validate the robustness of MRC with extensive experiments conducted under controlled inconsistency levels. We enhance the base RLFT algorithm to stabilize the training process, reduce distribution shift, and identify scaling laws. Through qualitative and quantitative experiments, along with a user study, we demonstrate Carve3D's improved multi-view consistency, the resulting superior NeRF reconstruction quality, and minimal distribution shift compared to longer SFT. Project webpage: https://desaixie.github.io/carve-3d.

Carve3D : Amélioration de la cohérence de la reconstruction multi-vues pour les modèles de diffusion par affinage par apprentissage par renforcement

Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning

papers.abstract

Support