ChatPaper.aiChatPaper

Tu Estudiante es Mejor de lo Esperado: Colaboración Adaptativa entre Maestro y Estudiante para Modelos de Difusión Condicionados por Texto

Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models

December 17, 2023
Autores: Nikita Starodubcev, Artem Fedorov, Artem Babenko, Dmitry Baranchuk
cs.AI

Resumen

Los métodos de destilación de conocimiento han demostrado recientemente ser una dirección prometedora para acelerar la síntesis de modelos de difusión a gran escala al requerir solo unos pocos pasos de inferencia. Aunque se han propuesto varios métodos de destilación potentes, la calidad general de las muestras generadas por el estudiante suele ser inferior en comparación con las del maestro, lo que dificulta su uso práctico. En este trabajo, investigamos la calidad relativa de las muestras producidas por el modelo maestro de difusión texto-imagen y su versión destilada del estudiante. Como principal hallazgo empírico, descubrimos que una porción notable de las muestras del estudiante exhiben una fidelidad superior en comparación con las del maestro, a pesar de la naturaleza "aproximada" del estudiante. Basándonos en este hallazgo, proponemos una colaboración adaptativa entre los modelos de difusión del estudiante y del maestro para una síntesis efectiva de texto a imagen. Específicamente, el modelo destilado produce la muestra inicial, y luego un oráculo decide si necesita mejoras adicionales con el modelo maestro más lento. Experimentos extensos demuestran que el pipeline diseñado supera a las alternativas de texto a imagen más avanzadas para varios presupuestos de inferencia en términos de preferencia humana. Además, el enfoque propuesto puede usarse naturalmente en aplicaciones populares como la edición de imágenes guiada por texto y la generación controlable.
English
Knowledge distillation methods have recently shown to be a promising direction to speedup the synthesis of large-scale diffusion models by requiring only a few inference steps. While several powerful distillation methods were recently proposed, the overall quality of student samples is typically lower compared to the teacher ones, which hinders their practical usage. In this work, we investigate the relative quality of samples produced by the teacher text-to-image diffusion model and its distilled student version. As our main empirical finding, we discover that a noticeable portion of student samples exhibit superior fidelity compared to the teacher ones, despite the ``approximate'' nature of the student. Based on this finding, we propose an adaptive collaboration between student and teacher diffusion models for effective text-to-image synthesis. Specifically, the distilled model produces the initial sample, and then an oracle decides whether it needs further improvements with a slow teacher model. Extensive experiments demonstrate that the designed pipeline surpasses state-of-the-art text-to-image alternatives for various inference budgets in terms of human preference. Furthermore, the proposed approach can be naturally used in popular applications such as text-guided image editing and controllable generation.
PDF71December 15, 2024