Carve3D: Melhorando a Consistência da Reconstrução Multi-visualização para Modelos de Difusão com Ajuste Fino por RL

Resumo

Avanços recentes na tarefa de texto-para-3D utilizam modelos de difusão texto-para-imagem ajustados para gerar imagens multi-visão, seguidas pela reconstrução NeRF. No entanto, os modelos de difusão ajustados de forma supervisionada (SFT) ainda sofrem com inconsistências multi-visão e artefatos resultantes no NeRF. Embora o treinamento prolongado com SFT melhore a consistência, ele também causa um deslocamento na distribuição, o que reduz a diversidade e os detalhes realistas. Argumentamos que o ajuste SFT de modelos de difusão multi-visão se assemelha à etapa de ajuste fino por instrução no pipeline de alinhamento de LLMs e pode se beneficiar de métodos de ajuste fino por reforço (RLFT). Essencialmente, os métodos RLFT otimizam os modelos além de sua distribuição de dados SFT, utilizando suas próprias saídas, mitigando efetivamente o deslocamento na distribuição. Para isso, introduzimos o Carve3D, um método RLFT acoplado à métrica de Consistência de Reconstrução Multi-visão (MRC), para melhorar a consistência dos modelos de difusão multi-visão. Para calcular o MRC em um conjunto de imagens multi-visão, comparamos essas imagens com as renderizações correspondentes do NeRF reconstruído nos mesmos pontos de vista. Validamos a robustez do MRC com extensos experimentos conduzidos sob níveis controlados de inconsistência. Aprimoramos o algoritmo base RLFT para estabilizar o processo de treinamento, reduzir o deslocamento na distribuição e identificar leis de escalonamento. Através de experimentos qualitativos e quantitativos, juntamente com um estudo de usuário, demonstramos a consistência multi-visão aprimorada do Carve3D, a qualidade superior da reconstrução NeRF resultante e o deslocamento mínimo na distribuição em comparação com o SFT prolongado. Página do projeto: https://desaixie.github.io/carve-3d.

English

Recent advancements in the text-to-3D task leverage finetuned text-to-image diffusion models to generate multi-view images, followed by NeRF reconstruction. Yet, existing supervised finetuned (SFT) diffusion models still suffer from multi-view inconsistency and the resulting NeRF artifacts. Although training longer with SFT improves consistency, it also causes distribution shift, which reduces diversity and realistic details. We argue that the SFT of multi-view diffusion models resembles the instruction finetuning stage of the LLM alignment pipeline and can benefit from RL finetuning (RLFT) methods. Essentially, RLFT methods optimize models beyond their SFT data distribution by using their own outputs, effectively mitigating distribution shift. To this end, we introduce Carve3D, a RLFT method coupled with the Multi-view Reconstruction Consistency (MRC) metric, to improve the consistency of multi-view diffusion models. To compute MRC on a set of multi-view images, we compare them with their corresponding renderings of the reconstructed NeRF at the same viewpoints. We validate the robustness of MRC with extensive experiments conducted under controlled inconsistency levels. We enhance the base RLFT algorithm to stabilize the training process, reduce distribution shift, and identify scaling laws. Through qualitative and quantitative experiments, along with a user study, we demonstrate Carve3D's improved multi-view consistency, the resulting superior NeRF reconstruction quality, and minimal distribution shift compared to longer SFT. Project webpage: https://desaixie.github.io/carve-3d.

Carve3D: Melhorando a Consistência da Reconstrução Multi-visualização para Modelos de Difusão com Ajuste Fino por RL

Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning

Resumo

Support