Skalierung zur Inferenzzeit für Diffusionsmodelle über den Skalierungsdämpfungsschritten hinausInference-Time Scaling for Diffusion Models beyond Scaling Denoising
Steps
Generative Modelle haben in verschiedenen Bereichen erhebliche Auswirkungen gehabt, hauptsächlich aufgrund ihrer Fähigkeit, während des Trainings durch Erhöhung von Daten, Rechenressourcen und Modellgröße zu skalieren, ein Phänomen, das durch die Skalierungsgesetze charakterisiert wird. Aktuelle Forschung hat begonnen, das Skalierungsverhalten zur Inferenzzeit bei Large Language Models (LLMs) zu erforschen, was zeigt, wie die Leistung durch zusätzliche Berechnungen während der Inferenz weiter verbessert werden kann. Im Gegensatz zu LLMs besitzen Diffusionsmodelle von Natur aus die Flexibilität, die Berechnung zur Inferenzzeit über die Anzahl der Rauschunterdrückungsschritte anzupassen, obwohl die Leistungsgewinne in der Regel nach einigen Dutzend abflachen. In dieser Arbeit erforschen wir das Skalierungsverhalten zur Inferenzzeit von Diffusionsmodellen über die Erhöhung der Rauschunterdrückungsschritte hinaus und untersuchen, wie die Generierungsleistung durch erhöhte Berechnung weiter verbessert werden kann. Insbesondere betrachten wir ein Suchproblem, das darauf abzielt, bessere Rausche für den Diffusionsabtastungsprozess zu identifizieren. Wir strukturieren den Designraum entlang zweier Achsen: der Verifikatoren, die zur Rückmeldung verwendet werden, und der Algorithmen, die zur Suche nach besseren Rauschkandidaten verwendet werden. Durch umfangreiche Experimente an klassenbedingten und textbedingten Bildgenerierungsbenchmarks zeigen unsere Ergebnisse, dass eine Erhöhung der Inferenzzeitberechnung zu erheblichen Verbesserungen bei der Qualität der von Diffusionsmodellen generierten Proben führt und dass bei der komplexen Natur von Bildern Kombinationen der Komponenten im Rahmenwerk speziell für verschiedene Anwendungsszenarien ausgewählt werden können.