Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Reinforcement Learning from Human Feedback (RLHF) hat sich als ein beliebtes Paradigma zur Ausrichtung von Modellen an menschlichen Absichten etabliert. Typischerweise operieren RLHF-Algorithmen in zwei Phasen: Zuerst werden menschliche Präferenzen verwendet, um eine Belohnungsfunktion zu lernen, und anschließend wird das Modell durch Optimierung der gelernten Belohnung mittels Reinforcement Learning (RL) ausgerichtet. Dieses Paradigma geht davon aus, dass menschliche Präferenzen gemäß der Belohnung verteilt sind, doch neuere Arbeiten deuten darauf hin, dass sie stattdessen dem Bedauern (Regret) unter der optimalen Politik des Nutzers folgen. Daher basiert das Lernen einer Belohnungsfunktion aus Feedback nicht nur auf einer fehlerhaften Annahme über menschliche Präferenzen, sondern führt auch zu komplexen Optimierungsherausforderungen, die sich aus Policy-Gradienten oder Bootstrapping in der RL-Phase ergeben. Aufgrund dieser Optimierungsherausforderungen beschränken sich zeitgenössische RLHF-Methoden auf Kontexte wie kontextuelle Banditen (z. B. bei großen Sprachmodellen) oder begrenzen die Beobachtungsdimensionalität (z. B. bei zustandsbasierten Robotiksystemen). Wir überwinden diese Einschränkungen, indem wir eine neue Familie von Algorithmen zur Optimierung von Verhalten aus menschlichem Feedback einführen, die auf dem Bedauern-basierten Modell menschlicher Präferenzen basiert. Unter Verwendung des Prinzips der maximalen Entropie leiten wir Contrastive Preference Learning (CPL) ab, einen Algorithmus zum Lernen optimaler Politiken aus Präferenzen, ohne Belohnungsfunktionen zu lernen, wodurch die Notwendigkeit von RL umgangen wird. CPL ist vollständig off-policy, verwendet nur ein einfaches kontrastives Ziel und kann auf beliebige MDPs angewendet werden. Dies ermöglicht es CPL, elegant auf hochdimensionale und sequenzielle RLHF-Probleme zu skalieren, während es einfacher ist als bisherige Methoden.
*Data Synthesis* (Datensynthese) ist ein vielversprechender Ansatz, um ein kleines Modell mit sehr wenigen annotierten Daten zu trainieren. Eine Methode der Datensynthese besteht darin, das umfangreiche Wissen großer Sprachmodelle zu nutzen, um pseudotrainierte Beispiele für kleine Modelle zu synthetisieren, wodurch gleichzeitig Daten- und Recheneffizienz erreicht werden können. Eine zentrale Herausforderung bei der Datensynthese besteht jedoch darin, dass der synthetisierte Datensatz oft eine erhebliche Verteilungsabweichung von der *realen Aufgabenverteilung* aufweist. Daher schlagen wir in diesem Artikel *Synthesis Step by Step* (**S3**) vor, ein Datensynthese-Framework, das diese Verteilungslücke verringert, indem es die Fehler eines kleinen Modells, das auf dem synthetisierten Datensatz trainiert wurde, iterativ anhand eines kleinen realen Validierungsdatensatzes mithilfe eines großen Sprachmodells extrapoliert. Umfangreiche Experimente zu mehreren NLP-Aufgaben zeigen, dass unser Ansatz die Leistung eines kleinen Modells verbessert, indem die Lücke zwischen dem synthetischen Datensatz und den realen Daten verringert wird, was zu einer signifikanten Verbesserung im Vergleich zu mehreren Baselines führt: eine Verbesserung von 9,48 % gegenüber ZeroGen und 2,73 % gegenüber GoldGen sowie eine maximale Verbesserung von 15,17 % im Vergleich zu dem kleinen Modell, das auf von Menschen annotierten Daten trainiert wurde.
Diffusion-Probabilistische Modelle (DPMs) haben hervorragende Leistungen bei der Erzeugung hochwertiger Bilder gezeigt, leiden jedoch unter ineffizientem Sampling. Neuere Arbeiten beschleunigen den Sampling-Prozess durch die Einführung schneller ODE-Löser, die die spezifische ODE-Form von DPMs nutzen. Allerdings sind sie stark auf spezifische Parametrisierungen während der Inferenz angewiesen (wie z. B. Rauschen/Datenvorhersage), die möglicherweise nicht die optimale Wahl darstellen. In dieser Arbeit schlagen wir eine neuartige Formulierung vor, die auf die optimale Parametrisierung während des Samplings abzielt und den Diskretisierungsfehler erster Ordnung der ODE-Lösung minimiert. Basierend auf dieser Formulierung präsentieren wir DPM-Solver-v3, einen neuen schnellen ODE-Löser für DPMs, indem wir mehrere Koeffizienten einführen, die effizient auf dem vortrainierten Modell berechnet werden und die wir als empirische Modellstatistiken bezeichnen. Wir integrieren weiterhin Mehrschrittmethoden und ein Prädiktor-Korrektor-Framework und schlagen einige Techniken zur Verbesserung der Probenqualität bei geringen Funktionsauswertungen (NFE) oder großen Guidance-Skalen vor. Experimente zeigen, dass DPM-Solver-v3 durchweg bessere oder vergleichbare Leistungen sowohl beim unbedingten als auch beim bedingten Sampling mit Pixelraum- und Latentraum-DPMs erzielt, insbesondere bei 5–10 NFEs. Wir erreichen FIDs von 12,21 (5 NFE) und 2,51 (10 NFE) beim unbedingten CIFAR10 und einen MSE von 0,55 (5 NFE, 7,5 Guidance-Skala) bei Stable Diffusion, was eine Beschleunigung von 15–30 % im Vergleich zu den bisherigen state-of-the-art Methoden ohne Training darstellt. Der Code ist verfügbar unter https://github.com/thu-ml/DPM-Solver-v3.
Das Hören ist zweifellos eine wesentliche Fähigkeit von künstlicher Intelligenz (KI) in der physischen Welt, was die Wahrnehmung und das Verständnis allgemeiner auditiver Informationen umfasst, die aus mindestens drei Arten von Klängen bestehen: Sprache, Audioereignisse und Musik. In diesem Artikel stellen wir SALMONN vor, ein Speech Audio Language Music Open Neural Network, das durch die Integration eines vortrainierten textbasierten Large Language Models (LLM) mit Sprach- und Audio-Encodern in ein einziges multimodales Modell erstellt wurde. SALMONN ermöglicht es dem LLM, allgemeine Audioeingaben direkt zu verarbeiten und zu verstehen, und erzielt dabei wettbewerbsfähige Leistungen bei einer Reihe von Sprach- und Audioaufgaben, die im Training verwendet werden, wie automatische Spracherkennung und -übersetzung, fragebasierte Beantwortung von Audioinformationen, Emotionserkennung, Sprecherverifizierung sowie Musik- und Audio-Beschriftung usw. SALMONN verfügt auch über eine Vielzahl von emergenten Fähigkeiten, die im Training nicht zu sehen waren, darunter, aber nicht beschränkt auf, Sprachübersetzung in nicht trainierte Sprachen, sprachbasierte Slot-Füllung, fragebasierte Beantwortung von gesprochenen Anfragen, audiobasierte Geschichtenerzählung und Sprach-Audio-Ko-Reasoning usw. Das Vorhandensein dieser cross-modalen emergenten Fähigkeiten wird untersucht, und ein neuartiger Few-Shot-Aktivierungs-Tuning-Ansatz wird vorgeschlagen, um solche Fähigkeiten von SALMONN zu aktivieren. Unseres Wissens ist SALMONN das erste Modell seiner Art und kann als ein Schritt hin zu KI mit generischen Hörfähigkeiten betrachtet werden. Eine interaktive Demo von SALMONN ist verfügbar unter \url{https://github.com/bytedance/SALMONN}, und der Trainingscode sowie die Modell-Checkpoints werden nach der Annahme veröffentlicht.
Große Sprachmodelle (LLMs) zeigen beeindruckende emergente Fähigkeiten in der natürlichen Sprachverarbeitung, doch ihre Demokratisierung wird durch enorme Rechenanforderungen und ihren Closed-Source-Charakter behindert. Aktuelle Forschungen zur Weiterentwicklung von kleineren Open-Source-LMs durch Wissensdestillation aus Black-Box-LLMs haben vielversprechende Ergebnisse in Bezug auf die Fähigkeit zur Befolgung von Anweisungen erzielt. Die Fähigkeit zum logischen Schlussfolgern, die schwieriger zu fördern ist, wurde jedoch relativ selten untersucht. In diesem Artikel schlagen wir einen maßgeschneiderten Lernansatz vor, um diese Fähigkeit zum logischen Schlussfolgern auf kleinere LMs zu übertragen und so die Demokratisierung dieser exklusiven Fähigkeit zu fördern. Im Gegensatz zur bloßen Verwendung des LLM als Datenannotator nutzen wir das Potenzial des LLM als Lehrkraft für logisches Schlussfolgern, indem wir ein interaktives, mehrstufiges Lernparadigma entwickeln. Dieses Paradigma ermöglicht es dem Schüler, seine Defizite dem Black-Box-Lehrer aufzuzeigen, der dann maßgeschneiderte Trainingsdaten bereitstellen kann. Darüber hinaus schlagen wir ein Selbstreflexionslernen vor, um das Potenzial des kleineren LM für logisches Schlussfolgern zu nutzen und den Schüler dazu zu motivieren, aus selbstgemachten Fehlern zu lernen. Das Lernen durch Selbstreflexion und das LLM werden beide auf den Lernstatus des Schülers zugeschnitten, was durch die nahtlose Integration in das mehrstufige Lernparadigma ermöglicht wird. Umfassende Experimente und Analysen zu mathematischen und alltagslogischen Schlussfolgerungsaufgaben demonstrieren die Wirksamkeit unserer Methode. Der Code wird unter https://github.com/Raibows/Learn-to-Reason verfügbar sein.
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in der Entscheidungsfindung und Planung bei der Lösung komplexer realer Probleme gezeigt. LLM-basierte autonome Agenten können mit verschiedenen Werkzeugen (z. B. funktionalen APIs) interagieren und Lösungspläne erstellen, die eine Reihe von API-Funktionsaufrufen in einem schrittweisen Verfahren ausführen. Die Vielzahl möglicher API-Funktionsaufrufe erweitert den Aktionsraum erheblich, was die Notwendigkeit einer effizienten Navigation im Aktionsraum verstärkt. Bisherige Methoden scheitern jedoch entweder an der unidirektionalen Erkundung in umfangreichen Aktionsräumen, wodurch sie in lokal optimalen Lösungen stecken bleiben, oder sie durchlaufen erschöpfend alle potenziellen Aktionen, was zu ineffizienter Navigation führt. Um diese Probleme zu lösen, schlagen wir ToolChain* vor, einen effizienten, baumbasierten Planungsalgorithmus für LLM-basierte Agenten. Dieser formuliert den gesamten Aktionsraum als Entscheidungsbaum, wobei jeder Knoten einen möglichen API-Funktionsaufruf in einem Lösungsplan darstellt. Durch die Integration des A*-Suchalgorithmus mit einer aufgabenbezogenen Kostenfunktion beschneidet er effizient hochpreisige Zweige, die fehlerhafte Aktionen enthalten könnten, und identifiziert den kostengünstigsten gültigen Pfad als Lösung. Umfangreiche Experimente zu verschiedenen Werkzeugnutzungs- und Denkaufgaben zeigen, dass ToolChain* effizient Exploration und Exploitation in einem umfangreichen Aktionsraum ausbalanciert. Es übertrifft die besten Vergleichsmethoden bei Planungs- und Denkaufgaben im Durchschnitt um 3,1 % bzw. 3,5 % und benötigt dabei 7,35-mal bzw. 2,31-mal weniger Zeit.
Diffusionsbasierte Methoden haben bemerkenswerte Erfolge bei der Generierung von 2D-Medien erzielt. Die Erreichung ähnlicher Fähigkeiten für die Texturierung von Szenen-Meshes in 3D-Raumanwendungen, z.B. XR/VR, bleibt jedoch eingeschränkt, hauptsächlich aufgrund der komplexen Natur der 3D-Geometrie und der Notwendigkeit für immersives Rendering aus freien Blickwinkeln. In diesem Artikel schlagen wir ein neuartiges Framework für die Texturierung von Innenraumszenen vor, das eine textgesteuerte Texturgenerierung mit beeindruckenden Details und authentischer räumlicher Kohärenz ermöglicht. Der zentrale Ansatz besteht darin, zunächst eine stilisierte 360°-Panoramatextur aus dem zentralen Blickwinkel der Szene zu imaginieren und diese dann mit Inpainting- und Imitationstechniken auf die restlichen Bereiche zu übertragen. Um sinnvolle und an die Szene angepasste Texturen zu gewährleisten, entwickeln wir einen neuartigen grob-zu-fein-Ansatz zur Panoramatexturgenerierung mit dualer Texturausrichtung, der sowohl die Geometrie als auch die Texturhinweise der erfassten Szenen berücksichtigt. Um die Herausforderungen durch unübersichtliche Geometrien während der Texturpropagation zu bewältigen, entwerfen wir eine getrennte Strategie, die Texturinpainting in vertrauenswürdigen Regionen durchführt und dann ein implizites Imitationsnetzwerk lernt, um Texturen in verdeckten und kleinstrukturierten Bereichen zu synthetisieren. Umfangreiche Experimente und die immersive VR-Anwendung auf realen Innenraumszenen demonstrieren die hohe Qualität der generierten Texturen und das fesselnde Erlebnis auf VR-Headsets. Projektwebseite: https://ybbbbt.com/publication/dreamspace
Die Fähigkeit zur Selbstverbesserung großer Sprachmodelle (LLMs), die durch die Aufforderung, ihre eigenen Ausgaben zu analysieren und zu überarbeiten, ermöglicht wird, hat in der jüngeren Forschung erhebliches Interesse geweckt. Es hat sich jedoch gezeigt, dass diese Fähigkeit bei kleineren Modellen fehlt und schwer zu erlernen ist, wodurch die Leistungslücke zwischen modernsten LLMs und kostengünstigeren sowie schnelleren Modellen vergrößert wird. Um diese Lücke zu verringern, stellen wir TriPosT vor, einen Trainingsalgorithmus, der kleineren Modellen eine solche Selbstverbesserungsfähigkeit verleiht, und zeigen, dass unser Ansatz die Leistung eines LLaMA-7b bei mathematischen und logischen Aufgaben um bis zu 7,13 % verbessern kann. Im Gegensatz zu früheren Arbeiten erreichen wir dies, indem wir das kleinere Modell dazu verwenden, mit LLMs zu interagieren, um Feedback und Verbesserungen für seine eigenen Generierungen zu sammeln. Diese Erfahrung spielen wir dann zurück, um das kleine Modell zu trainieren. Unsere Experimente mit vier mathematischen und logischen Datensätzen zeigen, dass die interaktive Erfahrung, aus eigenen Fehlern zu lernen und diese zu korrigieren, entscheidend ist, damit kleine Modelle ihre Leistung verbessern können.
Große Sprachmodelle (LLMs) können eine Vielzahl von Aufgaben ausführen, indem sie natürliche Sprachinstruktionen befolgen, ohne dass eine aufgabenspezifische Feinabstimmung erforderlich ist. Leider wird die Leistung von LLMs stark von der Qualität dieser Instruktionen beeinflusst, und das manuelle Verfassen effektiver Instruktionen für jede Aufgabe ist ein mühsamer und subjektiver Prozess. In diesem Artikel stellen wir Auto-Instruct vor, eine neuartige Methode zur automatischen Verbesserung der Qualität von Instruktionen, die an LLMs übermittelt werden. Unsere Methode nutzt die inhärente generative Fähigkeit von LLMs, um diverse Kandidateninstruktionen für eine gegebene Aufgabe zu erzeugen, und bewertet diese anschließend mithilfe eines Bewertungsmodells, das auf einer Vielzahl von 575 bestehenden NLP-Aufgaben trainiert wurde. In Experimenten mit 118 außerhalb der Trainingsdomäne liegenden Aufgaben übertrifft Auto-Instruct sowohl von Menschen verfasste Instruktionen als auch bestehende Baselines von LLM-generierten Instruktionen. Darüber hinaus zeigt unsere Methode eine bemerkenswerte Generalisierbarkeit, selbst bei anderen LLMs, die nicht in den Trainingsprozess einbezogen wurden.
Das Instruction Tuning von Open-Source-Großsprachmodellen (LLMs) wie LLaMA unter Verwendung direkter Ausgaben leistungsstärkerer LLMs wie Instruct-GPT und GPT-4 hat sich als kosteneffiziente Methode erwiesen, um das Modellverhalten an menschliche Präferenzen anzupassen. Allerdings hat das instruction-getunte Modell nur eine Antwort pro Anweisung gesehen und verfügt nicht über das Wissen über potenziell bessere Antworten. In diesem Artikel schlagen wir vor, ein instruction-getuntes LLM mithilfe unserer neuartigen Ansätze des probabilistischen Rankings und des kontextuellen Rankings zu feintunen, um die Wahrscheinlichkeit der Generierung besserer Antworten zu erhöhen. Das probabilistische Ranking ermöglicht es dem instruction-getunten Modell, die relativen Bewertungen von hochwertigen und minderwertigen Antworten vom Lehrer-LLM zu übernehmen. Andererseits ermöglicht das Lernen mit kontextuellem Ranking dem Modell, seine eigene Antwortverteilung mithilfe des kontextuellen Verständnisvermögens stärkerer LLMs zu verfeinern. Darüber hinaus wenden wir probabilistisches Ranking und kontextuelles Ranking sequenziell auf das instruction-getunte LLM an. Das resultierende Modell, das wir Tuna nennen, verbessert kontinuierlich die Leistung bei Super Natural Instructions (119 Testaufgaben), LMentry (25 Testaufgaben), Vicuna QA und kann sogar bessere Ergebnisse als mehrere starke Reinforcement-Learning-Baselines erzielen. Unser Code und unsere Daten sind verfügbar unter https://github.com/microsoft/LMOps.
Das Pretraining von Bild-Text-Modellen auf Web-Scale-Bildunterschriftendatensätzen hat sich dank des Erfolgs von CLIP und seiner Varianten zum Standardverfahren für Modelle zur offenen Vokabular-Klassifikation und -Retrieval entwickelt. Mehrere Arbeiten haben auch CLIP-Features für dichte Vorhersageaufgaben verwendet und das Entstehen von Open-Set-Fähigkeiten gezeigt. Allerdings konzentriert sich das kontrastive Ziel nur auf die Bild-Text-Ausrichtung und fördert nicht das Lernen von Bildfeatures für dichte Vorhersageaufgaben. In dieser Arbeit schlagen wir die einfache Ergänzung des Lernens von lokaler-zu-globaler Korrespondenz durch Selbst-Distillation als zusätzliches Ziel für das kontrastive Pretraining vor, um SILC zu entwickeln. Wir zeigen, dass die Destillation lokaler Bildfeatures aus einem exponentiell gleitenden Durchschnittsmodell (EMA) die Modellleistung bei mehreren Computer-Vision-Aufgaben, einschließlich Klassifikation, Retrieval und insbesondere Segmentierung, erheblich verbessert. Weiterhin zeigen wir, dass SILC bei gleicher Trainingsdauer besser skaliert als die Baseline-Modelle. Unser Modell SILC setzt neue Maßstäbe für Zero-Shot-Klassifikation, Few-Shot-Klassifikation, Bild- und Text-Retrieval, Zero-Shot-Segmentierung und Open-Vocabulary-Segmentierung.
Der Werkzeuggebrauch ist ein Kennzeichen fortgeschrittener Intelligenz, das sowohl im Verhalten von Tieren als auch in den Fähigkeiten von Robotern zu beobachten ist. Diese Arbeit untersucht die Machbarkeit, Robotern die Fähigkeit zu verleihen, Werkzeuge kreativ in Aufgaben einzusetzen, die implizite physikalische Einschränkungen und langfristige Planung beinhalten. Unter Nutzung von Large Language Models (LLMs) entwickeln wir RoboTool, ein System, das natürliche Sprachbefehle akzeptiert und ausführbaren Code zur Steuerung von Robotern in simulierten und realen Umgebungen ausgibt. RoboTool umfasst vier zentrale Komponenten: (i) einen „Analyzer“, der natürliche Sprache interpretiert, um wichtige aufgabenbezogene Konzepte zu erkennen, (ii) einen „Planner“, der umfassende Strategien basierend auf der Spracheingabe und den Schlüsselkonzepten generiert, (iii) einen „Calculator“, der Parameter für jede Fähigkeit berechnet, und (iv) einen „Coder“, der diese Pläne in ausführbaren Python-Code übersetzt. Unsere Ergebnisse zeigen, dass RoboTool nicht nur explizite oder implizite physikalische Einschränkungen und Umweltfaktoren verstehen, sondern auch kreativen Werkzeuggebrauch demonstrieren kann. Im Gegensatz zu traditionellen Methoden der Task and Motion Planning (TAMP), die auf expliziter Optimierung beruhen, bietet unser LLM-basiertes System eine flexiblere, effizientere und benutzerfreundlichere Lösung für komplexe Robotikaufgaben. Durch umfangreiche Experimente validieren wir, dass RoboTool in der Lage ist, Aufgaben zu bewältigen, die ohne den kreativen Einsatz von Werkzeugen nicht durchführbar wären, und erweitert somit die Fähigkeiten von Robotersystemen. Demos sind auf unserer Projektseite verfügbar: https://creative-robotool.github.io/.
Große Sprachmodelle (LLMs) stellen eine Revolution in der KI dar. Allerdings bergen sie auch viele erhebliche Risiken, wie das Vorhandensein von voreingenommenen, privaten, urheberrechtlich geschützten oder schädlichen Texten. Aus diesem Grund benötigen wir offene, transparente und sichere Lösungen. Wir stellen ein vollständiges Open-Source-Ökosystem für die Entwicklung und das Testen von LLMs vor. Das Ziel dieses Projekts ist es, offene Alternativen zu Closed-Source-Ansätzen zu fördern. Wir veröffentlichen h2oGPT, eine Familie von feinabgestimmten LLMs mit 7 bis 70 Milliarden Parametern. Zudem präsentieren wir H2O LLM Studio, ein Framework und eine No-Code-GUI, die für effizientes Feinabstimmen, Evaluieren und Bereitstellen von LLMs unter Verwendung der neuesten State-of-the-Art-Techniken entwickelt wurde. Unser Code und unsere Modelle sind unter vollständig freizügigen Apache-2.0-Lizenzen lizenziert. Wir glauben, dass Open-Source-Sprachmodelle die KI-Entwicklung vorantreiben und sie zugänglicher und vertrauenswürdiger machen. Die Demo ist verfügbar unter: https://gpt.h2o.ai/
Reinforcement Learning from Human Feedback (RLHF) ist eine beliebte Technik zur Schulung hochwertiger KI-Assistenten. Allerdings kann RLHF auch Modellantworten fördern, die eher den Überzeugungen der Nutzer entsprechen als wahrheitsgemäßen Antworten, ein Verhalten, das als Sykophantie bekannt ist. Wir untersuchen die Verbreitung von Sykophantie in RLHF-trainierten Modellen und ob menschliche Präferenzurteile dafür verantwortlich sind. Zunächst zeigen wir, dass fünf state-of-the-art KI-Assistenten durchweg sykophantisches Verhalten in vier verschiedenen freien Textgenerierungsaufgaben zeigen. Um zu verstehen, ob menschliche Präferenzen dieses weit verbreitete Verhalten von RLHF-Modellen antreiben, analysieren wir bestehende menschliche Präferenzdaten. Wir stellen fest, dass eine Antwort, die den Ansichten eines Nutzers entspricht, mit höherer Wahrscheinlichkeit bevorzugt wird. Darüber hinaus bevorzugen sowohl Menschen als auch Präferenzmodelle (PMs) in einem geringen Anteil der Fälle überzeugend formulierte sykophantische Antworten gegenüber korrekten. Die Optimierung von Modellausgaben gegen PMs opfert manchmal auch die Wahrhaftigkeit zugunsten von Sykophantie. Insgesamt deuten unsere Ergebnisse darauf hin, dass Sykophantie ein allgemeines Verhalten von RLHF-Modellen ist, das wahrscheinlich teilweise durch menschliche Präferenzurteile angetrieben wird, die sykophantische Antworten begünstigen.
In Diffusionsmodellen ist UNet das beliebteste Netzwerk-Backbone, da seine langen Skip-Connections (LSCs), die entfernte Netzwerkblöcke verbinden, weit entfernte Informationen aggregieren und das Verschwinden von Gradienten mildern können. Leider leidet UNet oft unter instabilem Training in Diffusionsmodellen, was durch die Skalierung seiner LSC-Koeffizienten verringert werden kann. Allerdings fehlen bisher theoretische Erkenntnisse über die Instabilität von UNet in Diffusionsmodellen und auch über die Leistungsverbesserung durch die LSC-Skalierung. Um dieses Problem zu lösen, zeigen wir theoretisch, dass die Koeffizienten der LSCs in UNet einen großen Einfluss auf die Stabilität der Vorwärts- und Rückwärtspropagation sowie auf die Robustheit von UNet haben. Insbesondere können die verborgenen Merkmale und der Gradient von UNet in jeder Schicht oszillieren, und ihre Oszillationsbereiche sind tatsächlich groß, was die Instabilität des UNet-Trainings erklärt. Darüber hinaus ist UNet nachweislich auch empfindlich gegenüber gestörten Eingaben und sagt eine Ausgabe voraus, die weit von der gewünschten Ausgabe entfernt ist, was zu oszillierenden Verlusten und somit oszillierenden Gradienten führt. Zusätzlich beobachten wir die theoretischen Vorteile der LSC-Koeffizienten-Skalierung von UNet in Bezug auf die Stabilität der verborgenen Merkmale und des Gradienten sowie auf die Robustheit. Schließlich schlagen wir, inspiriert durch unsere Theorie, ein effektives Koeffizienten-Skalierungsframework namens ScaleLong vor, das die Koeffizienten der LSCs in UNet skaliert und die Trainingsstabilität von UNet besser verbessert. Experimentelle Ergebnisse auf vier bekannten Datensätzen zeigen, dass unsere Methoden überlegen sind, um das Training zu stabilisieren, und etwa eine 1,5-fache Trainingsbeschleunigung bei verschiedenen Diffusionsmodellen mit UNet- oder UViT-Backbones erzielen. Code: https://github.com/sail-sg/ScaleLong