Carve3D: Mejorando la consistencia en la reconstrucción multi-vista para modelos de difusión mediante ajuste fino con aprendizaje por refuerzo
Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning
December 21, 2023
Autores: Desai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi, Sören Pirk, Arie E. Kaufman
cs.AI
Resumen
Los avances recientes en la tarea de texto-a-3D aprovechan modelos de difusión texto-a-imagen ajustados para generar imágenes multivista, seguidas de una reconstrucción mediante NeRF. Sin embargo, los modelos de difusión ajustados de manera supervisada (SFT) aún presentan inconsistencias multivista y artefactos en la reconstrucción NeRF resultante. Aunque entrenar más tiempo con SFT mejora la consistencia, también provoca un desplazamiento en la distribución, lo que reduce la diversidad y los detalles realistas. Argumentamos que el ajuste SFT de los modelos de difusión multivista se asemeja a la etapa de ajuste por instrucciones en la alineación de modelos de lenguaje (LLM) y puede beneficiarse de métodos de ajuste por refuerzo (RLFT). En esencia, los métodos RLFT optimizan los modelos más allá de su distribución de datos SFT utilizando sus propias salidas, mitigando efectivamente el desplazamiento de distribución. Para ello, presentamos Carve3D, un método RLFT combinado con la métrica de Consistencia en la Reconstrucción Multivista (MRC), para mejorar la consistencia de los modelos de difusión multivista. Para calcular MRC en un conjunto de imágenes multivista, las comparamos con sus representaciones correspondientes del NeRF reconstruido en los mismos puntos de vista. Validamos la robustez de MRC con extensos experimentos realizados bajo niveles controlados de inconsistencia. Mejoramos el algoritmo base RLFT para estabilizar el proceso de entrenamiento, reducir el desplazamiento de distribución e identificar leyes de escalado. A través de experimentos cualitativos y cuantitativos, junto con un estudio de usuarios, demostramos que Carve3D mejora la consistencia multivista, la calidad superior de la reconstrucción NeRF resultante y un desplazamiento de distribución mínimo en comparación con un SFT más prolongado. Página del proyecto: https://desaixie.github.io/carve-3d.
English
Recent advancements in the text-to-3D task leverage finetuned text-to-image
diffusion models to generate multi-view images, followed by NeRF
reconstruction. Yet, existing supervised finetuned (SFT) diffusion models still
suffer from multi-view inconsistency and the resulting NeRF artifacts. Although
training longer with SFT improves consistency, it also causes distribution
shift, which reduces diversity and realistic details. We argue that the SFT of
multi-view diffusion models resembles the instruction finetuning stage of the
LLM alignment pipeline and can benefit from RL finetuning (RLFT) methods.
Essentially, RLFT methods optimize models beyond their SFT data distribution by
using their own outputs, effectively mitigating distribution shift. To this
end, we introduce Carve3D, a RLFT method coupled with the Multi-view
Reconstruction Consistency (MRC) metric, to improve the consistency of
multi-view diffusion models. To compute MRC on a set of multi-view images, we
compare them with their corresponding renderings of the reconstructed NeRF at
the same viewpoints. We validate the robustness of MRC with extensive
experiments conducted under controlled inconsistency levels. We enhance the
base RLFT algorithm to stabilize the training process, reduce distribution
shift, and identify scaling laws. Through qualitative and quantitative
experiments, along with a user study, we demonstrate Carve3D's improved
multi-view consistency, the resulting superior NeRF reconstruction quality, and
minimal distribution shift compared to longer SFT. Project webpage:
https://desaixie.github.io/carve-3d.