Carve3D: Verbetering van multi-view reconstructieconsistentie voor diffusiemodellen met RL-finetuning
Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning
December 21, 2023
Auteurs: Desai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi, Sören Pirk, Arie E. Kaufman
cs.AI
Samenvatting
Recente vooruitgang in de tekst-naar-3D-taak maakt gebruik van fijn afgestemde tekst-naar-beeld diffusiemodellen om multi-view beelden te genereren, gevolgd door NeRF-reconstructie. Toch lijden bestaande supervised fijn afgestemde (SFT) diffusiemodellen nog steeds aan multi-view inconsistentie en de resulterende NeRF-artefacten. Hoewel langer trainen met SFT de consistentie verbetert, veroorzaakt het ook een distributieverschuiving, wat de diversiteit en realistische details vermindert. Wij beargumenteren dat de SFT van multi-view diffusiemodellen lijkt op de instructie fijn afstemmingsfase van de LLM-uitlijningspijplijn en kan profiteren van RL fijn afstemmingsmethoden (RLFT). In essentie optimaliseren RLFT-methoden modellen voorbij hun SFT-datadistributie door hun eigen uitvoer te gebruiken, waardoor distributieverschuiving effectief wordt gemitigeerd. Hiertoe introduceren we Carve3D, een RLFT-methode gekoppeld aan de Multi-view Reconstructie Consistentie (MRC) metriek, om de consistentie van multi-view diffusiemodellen te verbeteren. Om MRC te berekenen op een set multi-view beelden, vergelijken we deze met hun corresponderende renderings van de gereconstrueerde NeRF vanuit dezelfde gezichtspunten. We valideren de robuustheid van MRC met uitgebreide experimenten uitgevoerd onder gecontroleerde inconsistentieniveaus. We verbeteren het basis RLFT-algoritme om het trainingsproces te stabiliseren, distributieverschuiving te verminderen en schaalwetten te identificeren. Door kwalitatieve en kwantitatieve experimenten, samen met een gebruikersstudie, demonstreren we de verbeterde multi-view consistentie van Carve3D, de resulterende superieure NeRF-reconstructiekwaliteit en minimale distributieverschuiving in vergelijking met langere SFT. Projectwebpagina: https://desaixie.github.io/carve-3d.
English
Recent advancements in the text-to-3D task leverage finetuned text-to-image
diffusion models to generate multi-view images, followed by NeRF
reconstruction. Yet, existing supervised finetuned (SFT) diffusion models still
suffer from multi-view inconsistency and the resulting NeRF artifacts. Although
training longer with SFT improves consistency, it also causes distribution
shift, which reduces diversity and realistic details. We argue that the SFT of
multi-view diffusion models resembles the instruction finetuning stage of the
LLM alignment pipeline and can benefit from RL finetuning (RLFT) methods.
Essentially, RLFT methods optimize models beyond their SFT data distribution by
using their own outputs, effectively mitigating distribution shift. To this
end, we introduce Carve3D, a RLFT method coupled with the Multi-view
Reconstruction Consistency (MRC) metric, to improve the consistency of
multi-view diffusion models. To compute MRC on a set of multi-view images, we
compare them with their corresponding renderings of the reconstructed NeRF at
the same viewpoints. We validate the robustness of MRC with extensive
experiments conducted under controlled inconsistency levels. We enhance the
base RLFT algorithm to stabilize the training process, reduce distribution
shift, and identify scaling laws. Through qualitative and quantitative
experiments, along with a user study, we demonstrate Carve3D's improved
multi-view consistency, the resulting superior NeRF reconstruction quality, and
minimal distribution shift compared to longer SFT. Project webpage:
https://desaixie.github.io/carve-3d.