Text-to-3D con distillazione del punteggio del classificatore

Abstract

La generazione di modelli 3D a partire da testo ha compiuto progressi significativi di recente, in particolare con metodi basati sul *Score Distillation Sampling* (SDS) che sfruttano modelli di diffusione 2D pre-addestrati. Sebbene l'uso della guida *classifier-free* sia ampiamente riconosciuto come cruciale per un'ottimizzazione efficace, essa è considerata un trucco ausiliario piuttosto che il componente più essenziale. In questo articolo, rivalutiamo il ruolo della guida *classifier-free* nella distillazione dei punteggi e scopriamo un risultato sorprendente: la guida da sola è sufficiente per compiti efficaci di generazione di modelli 3D a partire da testo. Denominiamo questo metodo *Classifier Score Distillation* (CSD), che può essere interpretato come l'utilizzo di un modello di classificazione implicita per la generazione. Questa nuova prospettiva rivela nuove intuizioni per comprendere le tecniche esistenti. Validiamo l'efficacia del CSD in una varietà di compiti di generazione di modelli 3D a partire da testo, inclusi la generazione di forme, la sintesi di texture e la modifica di forme, ottenendo risultati superiori rispetto ai metodi più avanzati. La nostra pagina del progetto è disponibile all'indirizzo https://xinyu-andy.github.io/Classifier-Score-Distillation.

English

Text-to-3D generation has made remarkable progress recently, particularly with methods based on Score Distillation Sampling (SDS) that leverages pre-trained 2D diffusion models. While the usage of classifier-free guidance is well acknowledged to be crucial for successful optimization, it is considered an auxiliary trick rather than the most essential component. In this paper, we re-evaluate the role of classifier-free guidance in score distillation and discover a surprising finding: the guidance alone is enough for effective text-to-3D generation tasks. We name this method Classifier Score Distillation (CSD), which can be interpreted as using an implicit classification model for generation. This new perspective reveals new insights for understanding existing techniques. We validate the effectiveness of CSD across a variety of text-to-3D tasks including shape generation, texture synthesis, and shape editing, achieving results superior to those of state-of-the-art methods. Our project page is https://xinyu-andy.github.io/Classifier-Score-Distillation

Text-to-3D con distillazione del punteggio del classificatore

Text-to-3D with classifier score distillation

Abstract

Support