Carve3D: Повышение согласованности многовидовой реконструкции для диффузионных моделей с помощью тонкой настройки методом обучения с подкреплением
Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning
December 21, 2023
Авторы: Desai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi, Sören Pirk, Arie E. Kaufman
cs.AI
Аннотация
Недавние достижения в задаче преобразования текста в 3D используют дообученные модели диффузии для генерации изображений с нескольких ракурсов, за которыми следует реконструкция с помощью NeRF. Однако существующие модели диффузии, дообученные с использованием контролируемых данных (SFT), всё ещё страдают от несогласованности между видами и артефактами в результирующих NeRF. Хотя более длительное обучение с SFT улучшает согласованность, оно также вызывает смещение распределения, что снижает разнообразие и реалистичность деталей. Мы утверждаем, что дообучение моделей диффузии для многовидовых данных напоминает этап дообучения по инструкциям в процессе согласования больших языковых моделей (LLM) и может выиграть от методов дообучения с подкреплением (RLFT). По сути, методы RLFT оптимизируют модели за пределы их распределения данных SFT, используя их собственные выходы, что эффективно смягчает смещение распределения. В связи с этим мы представляем Carve3D — метод RLFT, сочетающийся с метрикой согласованности многовидовой реконструкции (MRC), для улучшения согласованности моделей диффузии. Для вычисления MRC на наборе многовидовых изображений мы сравниваем их с соответствующими рендерами реконструированного NeRF с тех же точек зрения. Мы подтверждаем устойчивость MRC с помощью обширных экспериментов, проведённых при контролируемых уровнях несогласованности. Мы улучшаем базовый алгоритм RLFT для стабилизации процесса обучения, уменьшения смещения распределения и выявления законов масштабирования. С помощью качественных и количественных экспериментов, а также пользовательского исследования, мы демонстрируем улучшенную многовидовую согласованность Carve3D, превосходное качество реконструкции NeRF и минимальное смещение распределения по сравнению с более длительным SFT. Страница проекта: https://desaixie.github.io/carve-3d.
English
Recent advancements in the text-to-3D task leverage finetuned text-to-image
diffusion models to generate multi-view images, followed by NeRF
reconstruction. Yet, existing supervised finetuned (SFT) diffusion models still
suffer from multi-view inconsistency and the resulting NeRF artifacts. Although
training longer with SFT improves consistency, it also causes distribution
shift, which reduces diversity and realistic details. We argue that the SFT of
multi-view diffusion models resembles the instruction finetuning stage of the
LLM alignment pipeline and can benefit from RL finetuning (RLFT) methods.
Essentially, RLFT methods optimize models beyond their SFT data distribution by
using their own outputs, effectively mitigating distribution shift. To this
end, we introduce Carve3D, a RLFT method coupled with the Multi-view
Reconstruction Consistency (MRC) metric, to improve the consistency of
multi-view diffusion models. To compute MRC on a set of multi-view images, we
compare them with their corresponding renderings of the reconstructed NeRF at
the same viewpoints. We validate the robustness of MRC with extensive
experiments conducted under controlled inconsistency levels. We enhance the
base RLFT algorithm to stabilize the training process, reduce distribution
shift, and identify scaling laws. Through qualitative and quantitative
experiments, along with a user study, we demonstrate Carve3D's improved
multi-view consistency, the resulting superior NeRF reconstruction quality, and
minimal distribution shift compared to longer SFT. Project webpage:
https://desaixie.github.io/carve-3d.