Carve3D: Melhorando a Consistência da Reconstrução Multi-visualização para Modelos de Difusão com Ajuste Fino por RL
Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning
December 21, 2023
Autores: Desai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi, Sören Pirk, Arie E. Kaufman
cs.AI
Resumo
Avanços recentes na tarefa de texto-para-3D utilizam modelos de difusão texto-para-imagem ajustados para gerar imagens multi-visão, seguidas pela reconstrução NeRF. No entanto, os modelos de difusão ajustados de forma supervisionada (SFT) ainda sofrem com inconsistências multi-visão e artefatos resultantes no NeRF. Embora o treinamento prolongado com SFT melhore a consistência, ele também causa um deslocamento na distribuição, o que reduz a diversidade e os detalhes realistas. Argumentamos que o ajuste SFT de modelos de difusão multi-visão se assemelha à etapa de ajuste fino por instrução no pipeline de alinhamento de LLMs e pode se beneficiar de métodos de ajuste fino por reforço (RLFT). Essencialmente, os métodos RLFT otimizam os modelos além de sua distribuição de dados SFT, utilizando suas próprias saídas, mitigando efetivamente o deslocamento na distribuição. Para isso, introduzimos o Carve3D, um método RLFT acoplado à métrica de Consistência de Reconstrução Multi-visão (MRC), para melhorar a consistência dos modelos de difusão multi-visão. Para calcular o MRC em um conjunto de imagens multi-visão, comparamos essas imagens com as renderizações correspondentes do NeRF reconstruído nos mesmos pontos de vista. Validamos a robustez do MRC com extensos experimentos conduzidos sob níveis controlados de inconsistência. Aprimoramos o algoritmo base RLFT para estabilizar o processo de treinamento, reduzir o deslocamento na distribuição e identificar leis de escalonamento. Através de experimentos qualitativos e quantitativos, juntamente com um estudo de usuário, demonstramos a consistência multi-visão aprimorada do Carve3D, a qualidade superior da reconstrução NeRF resultante e o deslocamento mínimo na distribuição em comparação com o SFT prolongado. Página do projeto: https://desaixie.github.io/carve-3d.
English
Recent advancements in the text-to-3D task leverage finetuned text-to-image
diffusion models to generate multi-view images, followed by NeRF
reconstruction. Yet, existing supervised finetuned (SFT) diffusion models still
suffer from multi-view inconsistency and the resulting NeRF artifacts. Although
training longer with SFT improves consistency, it also causes distribution
shift, which reduces diversity and realistic details. We argue that the SFT of
multi-view diffusion models resembles the instruction finetuning stage of the
LLM alignment pipeline and can benefit from RL finetuning (RLFT) methods.
Essentially, RLFT methods optimize models beyond their SFT data distribution by
using their own outputs, effectively mitigating distribution shift. To this
end, we introduce Carve3D, a RLFT method coupled with the Multi-view
Reconstruction Consistency (MRC) metric, to improve the consistency of
multi-view diffusion models. To compute MRC on a set of multi-view images, we
compare them with their corresponding renderings of the reconstructed NeRF at
the same viewpoints. We validate the robustness of MRC with extensive
experiments conducted under controlled inconsistency levels. We enhance the
base RLFT algorithm to stabilize the training process, reduce distribution
shift, and identify scaling laws. Through qualitative and quantitative
experiments, along with a user study, we demonstrate Carve3D's improved
multi-view consistency, the resulting superior NeRF reconstruction quality, and
minimal distribution shift compared to longer SFT. Project webpage:
https://desaixie.github.io/carve-3d.