Diffusionszwang: Vorhersage des nächsten Tokens trifft auf vollständige Sequenzdiffusion.Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
Dieses Papier stellt Diffusion Forcing vor, ein neues Schulungsparadigma, bei dem ein Diffusionsmodell darauf trainiert wird, eine Reihe von Tokens mit unabhängigen pro-Token Rauschniveaus zu denoisieren. Wir wenden Diffusion Forcing auf die sequenzielle generative Modellierung an, indem wir ein kausales nächstes Token-Vorhersagemodell schulen, um ein oder mehrere zukünftige Tokens zu generieren, ohne die vergangenen vollständig zu diffundieren. Unsere Methode kombiniert die Stärken von Modellen zur Vorhersage des nächsten Tokens, wie die Generierung variabler Längen, mit den Stärken von vollständigen Sequenzdiffusionsmodellen, wie der Fähigkeit, die Probenahme auf wünschenswerte Trajektorien zu lenken. Unser Ansatz bietet eine Reihe zusätzlicher Fähigkeiten, wie (1) das Ausrollen von Sequenzen kontinuierlicher Tokens, wie Videos, mit Längen über den Schulungshorizont hinaus, wo Baselines auseinanderlaufen, und (2) neue Probenahme- und Leitungsverfahren, die einzigartig von der variablen Horizont- und kausalen Architektur des Diffusion Forcing profitieren und zu deutlichen Leistungssteigerungen bei Entscheidungsfindungs- und Planungsaufgaben führen. Neben seinem empirischen Erfolg wurde nachgewiesen, dass unsere Methode eine Variationsschranke auf die Wahrscheinlichkeiten aller Teilsequenzen von Tokens optimiert, die aus der wahren gemeinsamen Verteilung gezogen wurden. Projektwebsite: https://boyuan.space/diffusion-forcing/