Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Dieses Papier stellt Diffusion Forcing vor, ein neues Schulungsparadigma, bei dem ein Diffusionsmodell darauf trainiert wird, eine Reihe von Tokens mit unabhängigen pro-Token Rauschniveaus zu denoisieren. Wir wenden Diffusion Forcing auf die sequenzielle generative Modellierung an, indem wir ein kausales nächstes Token-Vorhersagemodell schulen, um ein oder mehrere zukünftige Tokens zu generieren, ohne die vergangenen vollständig zu diffundieren. Unsere Methode kombiniert die Stärken von Modellen zur Vorhersage des nächsten Tokens, wie die Generierung variabler Längen, mit den Stärken von vollständigen Sequenzdiffusionsmodellen, wie der Fähigkeit, die Probenahme auf wünschenswerte Trajektorien zu lenken. Unser Ansatz bietet eine Reihe zusätzlicher Fähigkeiten, wie (1) das Ausrollen von Sequenzen kontinuierlicher Tokens, wie Videos, mit Längen über den Schulungshorizont hinaus, wo Baselines auseinanderlaufen, und (2) neue Probenahme- und Leitungsverfahren, die einzigartig von der variablen Horizont- und kausalen Architektur des Diffusion Forcing profitieren und zu deutlichen Leistungssteigerungen bei Entscheidungsfindungs- und Planungsaufgaben führen. Neben seinem empirischen Erfolg wurde nachgewiesen, dass unsere Methode eine Variationsschranke auf die Wahrscheinlichkeiten aller Teilsequenzen von Tokens optimiert, die aus der wahren gemeinsamen Verteilung gezogen wurden. Projektwebsite: https://boyuan.space/diffusion-forcing/
Die parameter-effiziente Feinabstimmung (PEFT) ist entscheidend für die Anpassung von großen Sprachmodellen (LLMs) mit begrenzten Ressourcen. Obwohl es verschiedene PEFT-Methoden für dicht-architektonische LLMs gibt, ist PEFT für LLMs mit spärlicher Architektur noch wenig erforscht. In dieser Arbeit untersuchen wir die PEFT-Methode für LLMs mit der Architektur des Mixture-of-Experts (MoE) und die Inhalte dieser Arbeit sind hauptsächlich dreifach: (1) Wir untersuchen den Streuungsgrad der aktivierten Experten in angepassten Aufgaben und stellten fest, dass die Routing-Verteilung für eine spezifische Aufgabe dazu neigt, sehr konzentriert zu sein, während die Verteilung der aktivierten Experten sich zwischen verschiedenen Aufgaben signifikant unterscheidet. (2) Wir schlagen Experten-spezialisierte Feinabstimmung, oder ESFT, vor, die die für nachgelagerte Aufgaben relevantesten Experten abstimmt, während die anderen Experten und Module eingefroren werden; experimentelle Ergebnisse zeigen, dass unsere Methode nicht nur die Abstimmungseffizienz verbessert, sondern auch die Leistung der Feinabstimmung mit vollen Parametern erreicht oder sogar übertrifft. (3) Wir analysieren weiterhin den Einfluss der MoE-Architektur auf die experten-spezialisierte Feinabstimmung. Wir stellen fest, dass MoE-Modelle mit feiner granulierten Experten vorteilhafter sind bei der Auswahl der Kombination von Experten, die für nachgelagerte Aufgaben am relevantesten sind, wodurch sowohl die Trainings-Effizienz als auch die Effektivität gesteigert werden.
Viele aktuelle Arbeiten haben die Verwendung von Sprachmodellen für Planungsprobleme untersucht. Eine Forschungsrichtung konzentriert sich darauf, natürlichsprachliche Beschreibungen von Planungsaufgaben in strukturierte Planungssprachen zu übersetzen, wie beispielsweise die Planungsbereichsdefinitionsprache (PDDL). Obwohl dieser Ansatz vielversprechend ist, stellt die genaue Messung der Qualität des generierten PDDL-Codes weiterhin erhebliche Herausforderungen dar. Erstens wird der generierte PDDL-Code in der Regel mithilfe von Planungsvalidatoren bewertet, die überprüfen, ob das Problem mit einem Planer gelöst werden kann. Diese Methode ist unzureichend, da ein Sprachmodell gültigen PDDL-Code generieren könnte, der nicht mit der natürlichsprachlichen Beschreibung der Aufgabe übereinstimmt. Zweitens ähneln die vorhandenen Bewertungssätze oft den natürlichsprachlichen Beschreibungen der Planungsaufgabe, die der Ground-Truth-PDDL stark ähneln, was die Herausforderung der Aufgabe verringert. Um diese Lücke zu schließen, stellen wir \benchmarkName vor, einen Benchmark, der entwickelt wurde, um die Fähigkeit von Sprachmodellen zu bewerten, PDDL-Code aus natürlichsprachlichen Beschreibungen von Planungsaufgaben zu generieren. Wir beginnen mit der Erstellung eines PDDL-Äquivalenzalgorithmus, der die Korrektheit des von Sprachmodellen generierten PDDL-Codes rigoros bewertet, indem er ihn flexibel mit einem Ground-Truth-PDDL vergleicht. Anschließend präsentieren wir einen Datensatz von 132.037 Text-PDDL-Paaren über 13 verschiedene Aufgaben mit unterschiedlichen Schwierigkeitsgraden. Schließlich evaluieren wir mehrere API-Zugriffs- und Open-Weight-Sprachmodelle, die die Komplexität dieser Aufgabe aufzeigen. Zum Beispiel sind 87,6% der von GPT-4o generierten PDDL-Problem-beschreibungen syntaktisch analysierbar, 82,2% sind gültige, lösbar Probleme, aber nur 35,1% sind semantisch korrekt, was die Notwendigkeit eines strengeren Benchmarks für dieses Problem verdeutlicht.