Votre élève est meilleur que prévu : Collaboration adaptative enseignant-élève pour les modèles de diffusion conditionnés par le texte
Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models
December 17, 2023
papers.authors: Nikita Starodubcev, Artem Fedorov, Artem Babenko, Dmitry Baranchuk
cs.AI
papers.abstract
Les méthodes de distillation des connaissances ont récemment démontré leur potentiel pour accélérer la synthèse de modèles de diffusion à grande échelle en ne nécessitant qu'un nombre réduit d'étapes d'inférence. Bien que plusieurs méthodes de distillation puissantes aient été proposées récemment, la qualité globale des échantillons produits par les modèles étudiants reste généralement inférieure à celle des modèles enseignants, ce qui limite leur utilisation pratique. Dans ce travail, nous étudions la qualité relative des échantillons générés par un modèle de diffusion enseignant de texte-à-image et sa version étudiante distillée. Comme principal résultat empirique, nous découvrons qu'une portion notable des échantillons étudiants présente une fidélité supérieure à celle des échantillons enseignants, malgré la nature « approximative » du modèle étudiant. Sur la base de cette observation, nous proposons une collaboration adaptative entre les modèles de diffusion enseignant et étudiant pour une synthèse efficace de texte-à-image. Concrètement, le modèle distillé produit l'échantillon initial, puis un oracle décide si des améliorations supplémentaires sont nécessaires en utilisant le modèle enseignant plus lent. Des expériences approfondies montrent que la pipeline conçue surpasse les alternatives de pointe en synthèse de texte-à-image pour divers budgets d'inférence en termes de préférence humaine. De plus, l'approche proposée peut être naturellement utilisée dans des applications populaires telles que l'édition d'images guidée par texte et la génération contrôlée.
English
Knowledge distillation methods have recently shown to be a promising
direction to speedup the synthesis of large-scale diffusion models by requiring
only a few inference steps. While several powerful distillation methods were
recently proposed, the overall quality of student samples is typically lower
compared to the teacher ones, which hinders their practical usage. In this
work, we investigate the relative quality of samples produced by the teacher
text-to-image diffusion model and its distilled student version. As our main
empirical finding, we discover that a noticeable portion of student samples
exhibit superior fidelity compared to the teacher ones, despite the
``approximate'' nature of the student. Based on this finding, we propose an
adaptive collaboration between student and teacher diffusion models for
effective text-to-image synthesis. Specifically, the distilled model produces
the initial sample, and then an oracle decides whether it needs further
improvements with a slow teacher model. Extensive experiments demonstrate that
the designed pipeline surpasses state-of-the-art text-to-image alternatives for
various inference budgets in terms of human preference. Furthermore, the
proposed approach can be naturally used in popular applications such as
text-guided image editing and controllable generation.