papers.description
Das Nachträglich-Trainieren von Sprachmodellen (Language Models, LMs) mit Verstärkungslernen (Reinforcement Learning, RL) kann deren Fähigkeiten im komplexen logischen Denken verbessern, ohne dass eine überwachte Feinabstimmung erforderlich ist, wie von DeepSeek-R1-Zero demonstriert wurde. Die effektive Nutzung von RL für LMs erfordert jedoch eine erhebliche Parallelisierung, um die Inferenz zu skalieren, was nicht unerhebliche technische Herausforderungen (z. B. Latenz, Speicher und Zuverlässigkeit) sowie stetig steigende finanzielle Kosten mit sich bringt. Wir stellen Swarm Sampling Policy Optimization (SAPO) vor, einen vollständig dezentralen und asynchronen RL-Algorithmus für das Nachträglich-Trainieren. SAPO ist für dezentrale Netzwerke aus heterogenen Rechenknoten konzipiert, wobei jeder Knoten seine eigenen Policy-Modelle verwaltet, während er Rollouts mit anderen im Netzwerk „teilt“; es werden keine expliziten Annahmen über Latenz, Modellhomogenität oder Hardware benötigt, und die Knoten können bei Bedarf isoliert arbeiten. Dadurch vermeidet der Algorithmus gängige Engpässe bei der Skalierung von RL-Nachtrainings und ermöglicht (sogar fördert) neue Möglichkeiten. Durch das Sammeln von Rollouts, die im Netzwerk „geteilt“ werden, ermöglicht es die Verbreitung von „Aha-Momenten“, wodurch der Lernprozess beschleunigt wird. In diesem Artikel zeigen wir, dass SAPO in kontrollierten Experimenten kumulative Belohnungsgewinne von bis zu 94 % erzielte. Wir teilen auch Erkenntnisse aus Tests in einem Netzwerk mit Tausenden von Knoten, die von Mitgliedern der Gensyn-Community während einer Open-Source-Demo auf unterschiedlicher Hardware und mit verschiedenen Modellen betrieben wurden.
Paralleles Denken hat sich als neuartiger Ansatz zur Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) herauskristallisiert, indem mehrere Denkpfade gleichzeitig erkundet werden. Die Aktivierung solcher Fähigkeiten durch Training bleibt jedoch eine Herausforderung, da bestehende Methoden überwiegend auf überwachtes Fein-Tuning (SFT) über synthetische Daten setzen, was eher zur Nachahmung unter Lehrerzwang als zur Exploration und Generalisierung anregt. Im Gegensatz dazu schlagen wir Parallel-R1 vor, das erste Reinforcement-Learning (RL)-Framework, das paralleles Denkverhalten für komplexe reale Denkaufgaben ermöglicht. Unser Framework verwendet einen progressiven Lehrplan, der das Cold-Start-Problem beim Training von parallelem Denken mit RL explizit adressiert. Zunächst nutzen wir SFT auf prompt-generierten Trajektorien aus einfacheren Aufgaben, um die Fähigkeit zum parallelen Denken zu vermitteln, und wechseln dann zu RL, um diese Fähigkeit bei schwierigeren Problemen zu erkunden und zu verallgemeinern. Experimente auf verschiedenen mathematischen Benchmarks, darunter MATH, AMC23 und AIME, zeigen, dass Parallel-R1 erfolgreich paralleles Denken vermittelt und zu einer 8,4%igen Genauigkeitssteigerung gegenüber dem sequenziellen Denkmodell führt, das direkt auf anspruchsvolle Aufgaben mit RL trainiert wurde. Eine weitere Analyse zeigt eine deutliche Veränderung im Denkverhalten des Modells: In einer frühen Phase nutzt es paralleles Denken als Explorationsstrategie, während es in einer späteren Phase dieselbe Fähigkeit zur mehrperspektivischen Überprüfung einsetzt. Am bedeutendsten ist, dass wir paralleles Denken als ein Explorationsgerüst während des Trainings validieren, wobei diese temporäre Explorationsphase eine höhere Leistungsgrenze nach RL freisetzt und eine 42,9%ige Verbesserung gegenüber der Baseline auf AIME25 erzielt. Unser Modell, die Daten und der Code werden unter https://github.com/zhengkid/Parallel-R1 open-source verfügbar sein.
Multimodale große Sprachmodelle (MLLMs), die mit visueller Instruktionsfeinabstimmung trainiert wurden, haben starke Leistungen in verschiedenen Aufgaben erzielt, bleiben jedoch in visuell zentrierten Aufgaben wie Objektzählung oder räumlichem Schließen begrenzt. Wir führen diese Lücke auf das vorherrschende textbasierte Aufsichtsparadigma zurück, das nur indirekte Anleitung für den visuellen Pfad bietet und oft dazu führt, dass MLLMs feinkörnige visuelle Details während des Trainings verwerfen. In diesem Artikel stellen wir VIsual Representation ALignment (VIRAL) vor, eine einfache, aber effektive Regularisierungsstrategie, die die internen visuellen Repräsentationen von MLLMs mit denen vortrainierter visueller Basismodelle (VFMs) ausrichtet. Durch die explizite Durchsetzung dieser Ausrichtung ermöglicht VIRAL dem Modell nicht nur, kritische visuelle Details aus dem visuellen Eingabecodierer zu bewahren, sondern auch zusätzliches visuelles Wissen von VFMs zu ergänzen, wodurch seine Fähigkeit zur Verarbeitung komplexer visueller Eingaben verbessert wird. Unsere Experimente zeigen konsistente Verbesserungen in allen Aufgaben auf weit verbreiteten multimodalen Benchmarks. Darüber hinaus führen wir umfassende Ablationsstudien durch, um die zugrunde liegenden Schlüsselentscheidungen unseres Frameworks zu validieren. Wir glauben, dass diese einfache Erkenntnis eine wichtige Richtung für die effektive Integration visueller Informationen in das Training von MLLMs eröffnet.
Jüngste Fortschritte bei großen multimodalen Modellen haben bildbasierte Werkzeuge mit Verstärkungslernen genutzt, um visuelle Probleme zu bewältigen. Bestehende Open-Source-Ansätze zeigen jedoch oft monotone Denkmuster und erlauben nur eine begrenzte Anzahl von Interaktionsschritten, was sie für schwierige Aufgaben, die Versuch-und-Irrtum-Exploration erfordern, ungeeignet macht. In dieser Arbeit beheben wir diese Einschränkung, indem wir werkzeugbasierte Interaktionen skalieren und Mini-o3 einführen, ein System, das tiefgreifende, mehrschrittige Denkprozesse – über Dutzende von Schritten hinweg – ausführt und Spitzenleistungen bei anspruchsvollen visuellen Suchaufgaben erzielt. Unser Rezept zur Reproduktion von OpenAI-o3-ähnlichem Verhalten umfasst drei Schlüsselkomponenten. Erstens erstellen wir den Visual Probe Dataset, eine Sammlung von Tausenden anspruchsvoller visueller Suchprobleme, die für exploratives Denken konzipiert sind. Zweitens entwickeln wir eine iterative Datenerfassungspipeline, um Cold-Start-Trajektorien zu erhalten, die vielfältige Denkmuster zeigen, einschließlich Tiefensuche, Versuch-und-Irrtum und Zielverfolgung. Drittens schlagen wir eine Over-Turn-Masking-Strategie vor, die die Bestrafung von Over-Turn-Antworten (solche, die die maximale Anzahl von Schritten erreichen) während des Verstärkungslernens verhindert und so die Effizienz während des Trainings mit der Skalierbarkeit während des Tests in Einklang bringt. Obwohl unser Modell mit einer Obergrenze von nur sechs Interaktionsschritten trainiert wurde, generiert es Trajektorien, die sich während der Inferenz natürlich auf Dutzende von Schritten skalieren lassen, wobei die Genauigkeit mit zunehmender Anzahl von Schritten steigt. Umfangreiche Experimente zeigen, dass Mini-o3 reichhaltige Denkmuster und tiefgreifende Denkpfade erzeugt und damit anspruchsvolle visuelle Suchprobleme effektiv löst.
Unified Multimodal Models (UMMs) vereinen visuelles Verständnis und Generierung innerhalb einer einzigen Architektur. Herkömmliches Training stützt sich jedoch auf Bild-Text-Paare (oder -Sequenzen), deren Beschreibungen typischerweise spärlich sind und feinkörnige visuelle Details vermissen – selbst wenn sie Hunderte von Wörtern verwenden, um ein einfaches Bild zu beschreiben. Wir stellen Reconstruction Alignment (RecA) vor, eine ressourceneffiziente Nachtrainingsmethode, die Embeddings eines visuellen Verständnis-Encoders als dichte „Text-Prompts“ nutzt und so eine umfassende Supervision ohne Beschriftungen ermöglicht. Konkret konditioniert RecA ein UMM auf seine eigenen visuellen Verständnis-Embeddings und optimiert es, um das Eingabebild mit einem selbstüberwachten Rekonstruktionsverlust zu rekonstruieren, wodurch Verständnis und Generierung neu ausgerichtet werden. Trotz seiner Einfachheit ist RecA breit anwendbar: Bei autoregressiven, maskiert-autoregressiven und diffusionsbasierten UMMs verbessert es durchgängig die Generierungs- und Bearbeitungsqualität. Mit nur 27 GPU-Stunden steigert das Nachtraining mit RecA die Bildgenerierungsleistung auf GenEval (0,73→0,90) und DPGBench (80,93→88,15) erheblich, während es auch Bearbeitungs-Benchmarks verbessert (ImgEdit 3,38→3,75, GEdit 6,94→7,25). Bemerkenswerterweise übertrifft RecA deutlich größere Open-Source-Modelle und ist breit auf diverse UMM-Architekturen anwendbar, was es als effiziente und allgemeine Nachtrainingsstrategie für UMMs etabliert.
Jüngste Fortschritte in der Bildanpassung zeigen aufgrund stärkerer Anpassungsfähigkeiten ein breites Spektrum an Anwendungsmöglichkeiten. Da wir Menschen jedoch besonders empfindlich auf Gesichter reagieren, besteht eine große Herausforderung darin, eine konsistente Identität zu bewahren, während eine Identitätsverwechslung bei Multi-Referenzbildern vermieden wird, was die Identitätsskalierbarkeit von Anpassungsmodellen einschränkt. Um dies zu adressieren, präsentieren wir UMO, ein Unified Multi-identity Optimization Framework, das darauf abzielt, eine hochwertige Identitätsbewahrung zu gewährleisten und Identitätsverwechslungen bei gleichzeitiger Skalierbarkeit zu verringern. Mit dem „Multi-to-Multi-Matching“-Paradigma formuliert UMO die Multi-Identitätsgenerierung als ein globales Zuweisungsoptimierungsproblem um und ermöglicht Multi-Identitätskonsistenz für bestehende Bildanpassungsmethoden allgemein durch Reinforcement Learning auf Diffusionsmodellen. Um das Training von UMO zu erleichtern, entwickeln wir einen skalierbaren Anpassungsdatensatz mit Multi-Referenzbildern, der sowohl synthetisierte als auch reale Teile umfasst. Zusätzlich schlagen wir eine neue Metrik zur Messung von Identitätsverwechslungen vor. Umfangreiche Experimente zeigen, dass UMO nicht nur die Identitätskonsistenz erheblich verbessert, sondern auch die Identitätsverwechslung bei mehreren Bildanpassungsmethoden reduziert und damit einen neuen State-of-the-art unter den Open-Source-Methoden in Bezug auf die Identitätsbewahrung setzt. Code und Modell: https://github.com/bytedance/UMO
Die Ausführung von sprachgesteuerten Aufgaben in dynamischen visuellen Umgebungen bleibt eine zentrale Herausforderung im Bereich der verkörperten KI. Bestehende Vision-Language-Action (VLA)-Modelle verwenden überwiegend reaktive Zustand-zu-Aktion-Zuordnungen, was oft zu kurzsichtigem Verhalten und geringer Robustheit in dynamischen Szenen führt. In diesem Artikel stellen wir F1 vor, ein vortrainiertes VLA-Framework, das die Erzeugung von visueller Voraussicht in den Entscheidungsprozess integriert. F1 nutzt eine Mixture-of-Transformer-Architektur mit dedizierten Modulen für Wahrnehmung, Voraussichtserzeugung und Steuerung und verbindet so Verständnis, Generierung und Aktionen. Im Kern verwendet F1 einen Next-Scale-Vorhersagemechanismus, um zielgerichtete visuelle Voraussicht als explizite Planungsziele zu synthetisieren. Durch die Vorhersage plausibler zukünftiger visueller Zustände formuliert F1 die Aktionserzeugung als ein voraussichtgesteuertes inverses Dynamikproblem um, wodurch Aktionen ermöglicht werden, die implizit visuelle Ziele erreichen. Um F1 mit robusten und generalisierbaren Fähigkeiten auszustatten, schlagen wir ein dreistufiges Trainingsschema auf einem umfangreichen Datensatz vor, der über 330.000 Trajektorien aus 136 verschiedenen Aufgaben umfasst. Dieses Trainingsschema fördert modulares Denken und stattet das Modell mit übertragbarer visueller Voraussicht aus, was für komplexe und dynamische Umgebungen entscheidend ist. Umfangreiche Bewertungen anhand realer Aufgaben und Simulationsbenchmarks zeigen, dass F1 bestehende Ansätze konsequent übertrifft und erhebliche Verbesserungen sowohl bei der Aufgaben-Erfolgsrate als auch bei der Generalisierungsfähigkeit erzielt.
Reinforcement Learning (RL) hat sich als äußerst effektiv erwiesen, um die komplexen Denkfähigkeiten von Large Language Models (LLMs) zu verbessern, doch die zugrunde liegenden Mechanismen, die diesen Erfolg antreiben, bleiben weitgehend undurchsichtig. Unsere Analyse zeigt, dass rätselhafte Phänomene wie „Aha-Momente“, „Längenskalierung“ und Entropiedynamiken keine isolierten Ereignisse sind, sondern Kennzeichen einer entstehenden Denkhierarchie, die der Trennung von hochrangiger strategischer Planung und niedrigrangiger prozeduraler Ausführung in der menschlichen Kognition ähnelt. Wir enthüllen eine überzeugende Zwei-Phasen-Dynamik: Zunächst ist ein Modell durch prozedurale Korrektheit eingeschränkt und muss seine grundlegenden Fähigkeiten verbessern. Der Lernengpass verschiebt sich dann entscheidend, wobei Leistungssteigerungen durch die Erkundung und Beherrschung hochrangiger strategischer Planung angetrieben werden. Diese Erkenntnis offenbart eine zentrale Ineffizienz in gängigen RL-Algorithmen wie GRPO, die den Optimierungsdruck undifferenziert anwenden und das Lernsignal über alle Tokens verdünnen. Um dies zu beheben, schlagen wir HIerarchy-Aware Credit Assignment (HICRA) vor, einen Algorithmus, der die Optimierungsbemühungen auf hochwirksame Planungstokens konzentriert. HICRA übertrifft starke Baselines deutlich und zeigt, dass die Fokussierung auf diesen strategischen Engpass der Schlüssel zur Entfaltung fortgeschrittener Denkfähigkeiten ist. Darüber hinaus validieren wir semantische Entropie als überlegenen Kompass zur Messung strategischer Erkundung gegenüber irreführenden Metriken wie Token-Level-Entropie.
Große Sprachmodelle (LLMs) haben in den letzten Jahren rasante Fortschritte gemacht, angetrieben durch Skalierung, reichlich hochwertige Trainingsdaten und Verstärkungslernen. Doch dieser Fortschritt stößt auf ein grundlegendes Hindernis: die Notwendigkeit immer mehr Daten, aus denen Modelle weiter lernen können. In dieser Arbeit schlagen wir einen Verstärkungslernansatz vor, der diese Abhängigkeit beseitigt, indem er Modelle ermöglicht, sich ohne zusätzliche Daten zu verbessern. Unsere Methode nutzt einen spieltheoretischen Rahmen des Selbstspiels, bei dem die Fähigkeiten eines Modells als Leistung in einem Wettbewerbsspiel dargestellt werden und stärkere Strategien entstehen, indem das Modell gegen sich selbst spielt – ein Prozess, den wir Language Self-Play (LSP) nennen. Experimente mit Llama-3.2-3B-Instruct auf Benchmarks zur Befolgung von Anweisungen zeigen, dass vortrainierte Modelle ihre Leistung bei anspruchsvollen Aufgaben nicht nur durch Selbstspiel allein verbessern können, sondern dies auch effektiver tun als datengetriebene Vergleichsmodelle.
Die KI-gestützte radiologische Interpretation basiert überwiegend auf eng fokussierten, auf einzelne Aufgaben spezialisierten Modellen. Dieser Ansatz ist unpraktisch, um das breite Spektrum an Bildgebungsmodalitäten, Krankheiten und radiologischen Befunden abzudecken. Foundation-Modelle (FMs) versprechen eine breite Generalisierungsfähigkeit über verschiedene Modalitäten hinweg und in Umgebungen mit geringen Datenmengen. Dieses Potenzial ist in der Radiologie jedoch weitgehend ungenutzt geblieben. Wir stellen Curia vor, ein Foundation-Modell, das auf dem gesamten Querschnittsbildgebungsoutput eines großen Krankenhauses über mehrere Jahre trainiert wurde – nach unserem Wissen der größte derartige Korpus realer Daten, der 150.000 Untersuchungen (130 TB) umfasst. Auf einem neu kuratierten externen Validierungsbenchmark mit 19 Aufgaben identifiziert Curia präzise Organe, erkennt Zustände wie Gehirnblutungen und Myokardinfarkte und sagt Ergebnisse bei der Tumorstadieneinteilung voraus. Curia erreicht oder übertrifft die Leistung von Radiologen und aktuellen Foundation-Modellen und zeigt klinisch signifikante emergente Eigenschaften in Bezug auf Cross-Modalität und in Low-Data-Regimen. Um den Fortschritt zu beschleunigen, veröffentlichen wir die Gewichte unseres Basismodells unter https://huggingface.co/raidium/curia.
Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) hat bemerkenswerte Erfolge bei der Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens erzielt. Allerdings leiden bestehende RLVR-Methoden oft unter ineffizienter Exploration, da die Schwierigkeit der Trainingsdaten nicht mit den Fähigkeiten des Modells übereinstimmt. LLMs scheitern daran, gangbare Lösungswege zu finden, wenn Probleme zu schwierig sind, während sie kaum neue Fähigkeiten erlernen, wenn Probleme zu einfach sind. In dieser Arbeit formalisieren wir den Einfluss der Problemschwierigkeit, indem wir die Beziehung zwischen der Geschwindigkeit des Verlustabfalls und der Genauigkeit der Rollouts quantifizieren. Aufbauend auf dieser Analyse schlagen wir SEELE vor, ein neuartiges, aufsichtsbasiertes RLVR-Framework, das die Problemschwierigkeit dynamisch anpasst, um im Bereich hoher Effizienz zu bleiben. SEELE erweitert jede Trainingsprobe, indem es einen Hinweis (einen Teil einer vollständigen Lösung) nach dem ursprünglichen Problem anhängt. Im Gegensatz zu früheren Ansätzen, die auf Hinweisen basieren, passt SEELE die Länge des Hinweises für jedes Problem gezielt und adaptiv an, um eine optimale Schwierigkeit zu erreichen. Um die optimale Hinweislänge zu bestimmen, verwendet SEELE eine Strategie zur mehrfachen Rollout-Stichprobenziehung. In jeder Runde passt es ein Modell der Item-Response-Theorie an die in den vorherigen Runden gesammelten Genauigkeits-Hinweis-Paare an, um die erforderliche Hinweislänge für die nächste Runde vorherzusagen. Diese instanzbasierte, Echtzeit-Anpassung der Schwierigkeit sorgt dafür, dass die Problemschwierigkeit mit der sich entwickelnden Modellfähigkeit übereinstimmt, wodurch die Explorationseffizienz verbessert wird. Experimentelle Ergebnisse zeigen, dass SEELE die Group Relative Policy Optimization (GRPO) und das Supervised Fine-tuning (SFT) um +11,8 bzw. +10,5 Punkte übertrifft und den bisher besten aufsichtsbasierten Ansatz im Durchschnitt über sechs mathematische Denkbenchmarks um +3,6 Punkte überbietet.
Bei der standardmäßigen kausalen Aufmerksamkeit sind die Query-, Key- und Value-Vektoren (QKV) jedes Tokens statisch und kodieren nur den vorhergehenden Kontext. Wir stellen CAuSal aTtention with Lookahead kEys (CASTLE) vor, einen Aufmerksamkeitsmechanismus, der die Keys jedes Tokens kontinuierlich aktualisiert, während sich der Kontext entfaltet. Wir bezeichnen diese aktualisierten Keys als Lookahead-Keys, da sie zu früheren Positionen gehören, aber Informationen von Tokens integrieren, die relativ zu diesen Positionen später erscheinen, wobei die autoregressive Eigenschaft strikt erhalten bleibt. Obwohl der Mechanismus sequenziell erscheint, leiten wir eine mathematische Äquivalenz ab, die das explizite Materialisieren von Lookahead-Keys an jeder Position vermeidet und ein effizientes paralleles Training ermöglicht. Bei Sprachmodellierungs-Benchmarks übertrifft CASTLE durchweg die standardmäßige kausale Aufmerksamkeit über verschiedene Modellgrößen hinweg, reduziert die Validierungsperplexität und verbessert die Leistung bei einer Reihe von Downstream-Aufgaben.
Aktuelle Studien haben die Wirksamkeit der direkten Ausrichtung von Diffusionsmodellen an menschlichen Präferenzen mithilfe differenzierbarer Belohnungsfunktionen demonstriert. Allerdings weisen sie zwei Hauptherausforderungen auf: (1) Sie basieren auf einer mehrstufigen Entrauschung mit Gradientenberechnung für die Belohnungsbewertung, was rechenintensiv ist und somit die Optimierung auf nur wenige Diffusionsschritte beschränkt; (2) Sie benötigen oft eine kontinuierliche Offline-Anpassung von Belohnungsmodellen, um die gewünschte ästhetische Qualität, wie Fotorealismus oder präzise Lichteffekte, zu erreichen. Um die Einschränkungen der mehrstufigen Entrauschung zu überwinden, schlagen wir Direct-Align vor, eine Methode, die ein Rauschen im Voraus definiert, um Originalbilder aus beliebigen Zeitschritten effektiv durch Interpolation wiederherzustellen. Dies nutzt die Gleichung aus, dass Diffusionszustände Interpolationen zwischen Rauschen und Zielbildern sind, wodurch eine Überoptimierung in späteren Zeitschritten effektiv vermieden wird. Darüber hinaus führen wir Semantic Relative Preference Optimization (SRPO) ein, bei der Belohnungen als textbedingte Signale formuliert werden. Dieser Ansatz ermöglicht eine Online-Anpassung der Belohnungen als Reaktion auf positive und negative Prompt-Erweiterungen, wodurch die Abhängigkeit von der Offline-Feinabstimmung der Belohnungen verringert wird. Durch die Feinabstimmung des FLUX.1.dev-Modells mit optimierter Entrauschung und Online-Belohnungsanpassung verbessern wir den vom Menschen bewerteten Realismus und die ästhetische Qualität um mehr als das Dreifache.
Wir stellen SimpleQA Verified vor, einen Benchmark mit 1.000 Prompts zur Bewertung der Faktizität von Large Language Models (LLMs) in Kurzform, basierend auf OpenAIs SimpleQA. Es adressiert kritische Einschränkungen im Benchmark von OpenAI, darunter verrauschte und falsche Labels, thematische Verzerrungen und redundante Fragen. SimpleQA Verified wurde durch einen strengen mehrstufigen Filterprozess erstellt, der Deduplizierung, Themenausgleich und Quellenabgleich umfasst, um einen zuverlässigeren und anspruchsvolleren Evaluationsdatensatz zu erstellen, zusammen mit Verbesserungen im Autorater-Prompt. Auf diesem neuen Benchmark erreicht Gemini 2.5 Pro einen state-of-the-art F1-Score von 55,6 und übertrifft damit andere führende Modelle, einschließlich GPT-5. Diese Arbeit bietet der Forschungsgemeinschaft ein hochwertigeres Werkzeug, um echte Fortschritte in der Faktizität parametrischer Modelle zu verfolgen und Halluzinationen zu reduzieren. Der Benchmark-Datensatz, der Evaluationscode und die Bestenliste sind verfügbar unter: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
Text-to-Image-Diffusionsmodelle sind rechenintensiv und erfordern oft Dutzende von Vorwärtspässen durch große Transformer-Backbones. Beispielsweise generiert Stable Diffusion XL hochwertige Bilder mit 50 Auswertungen eines 2,6-Milliarden-Parameter-Modells, ein kostspieliger Prozess selbst für einen einzelnen Batch. Wenigschrittige Diffusionsmodelle reduzieren diese Kosten auf 2–8 Denoising-Schritte, basieren jedoch weiterhin auf großen, unkomprimierten U-Net- oder Diffusion-Transformer-Backbones, die oft zu teuer für Full-Precision-Inferenz ohne Rechenzentrums-GPUs sind. Diese Anforderungen beschränken auch bestehende Post-Training-Quantisierungsmethoden, die auf Full-Precision-Kalibrierung angewiesen sind. Wir stellen Q-Sched vor, ein neues Paradigma für die Post-Training-Quantisierung, das den Scheduler des Diffusionsmodells anstelle der Modellgewichte anpasst. Durch die Anpassung der wenigschrittigen Sampling-Trajektorie erreicht Q-Sched Full-Precision-Genauigkeit bei einer 4-fachen Reduzierung der Modellgröße. Um quantisierungsbewusste Vorverarbeitungskoeffizienten zu lernen, schlagen wir den JAQ-Verlust vor, der Text-Bild-Kompatibilität mit einer Bildqualitätsmetrik für fein abgestimmte Optimierung kombiniert. JAQ ist referenzfrei und benötigt nur eine Handvoll Kalibrierungs-Prompts, wodurch Full-Precision-Inferenz während der Kalibrierung vermieden wird. Q-Sched erzielt erhebliche Verbesserungen: eine 15,5 % bessere FID gegenüber dem FP16 4-Schritt Latent Consistency Model und eine 16,6 % bessere FID gegenüber dem FP16 8-Schritt Phased Consistency Model, was zeigt, dass Quantisierung und wenigschrittige Destillation komplementär für hochwertige Generierung sind. Eine groß angelegte Nutzerstudie mit mehr als 80.000 Annotationen bestätigt weiterhin die Wirksamkeit von Q-Sched sowohl bei FLUX.1[schnell] als auch bei SDXL-Turbo.
Wir schlagen Delta L Normalization vor, eine einfache, aber effektive Methode zur Verlustaggregation, die auf die charakteristische Dynamik der Generierungslängen in Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) zugeschnitten ist. Kürzlich hat RLVR ein starkes Potenzial zur Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens gezeigt, doch eine große Herausforderung liegt in der hohen Variabilität der Antwortlängen während des Trainings, was zu einer hohen Gradientenvariation und instabiler Optimierung führt. Obwohl frühere Methoden wie GRPO, DAPO und Dr. GRPO verschiedene Verlustnormalisierungsterme eingeführt haben, um dieses Problem zu adressieren, liefern sie entweder verzerrte Schätzungen oder leiden immer noch unter einer hohen Gradientenvariation. Durch die theoretische und empirische Analyse der Auswirkungen variierender Längen auf den Policy-Verlust formulieren wir das Problem neu als die Suche nach einem erwartungstreuen Schätzer mit minimaler Varianz. Unsere vorgeschlagene Delta L Normalization liefert nicht nur eine erwartungstreue Schätzung des tatsächlichen Policy-Verlusts, sondern minimiert auch theoretisch die Gradientenvariation. Umfangreiche Experimente zeigen, dass sie durchweg überlegene Ergebnisse über verschiedene Modellgrößen, maximale Längen und Aufgaben hinweg erzielt. Unser Code wird unter https://github.com/zerolllin/Delta-L-Normalization öffentlich zugänglich gemacht.
Große Sprachmodelle (LLMs) sind beeindruckende und vielseitige Werkzeuge für textbasierte Aufgaben, die unzählige, zuvor undenkbare Anwendungen ermöglicht haben. Im Gegensatz dazu haben Retrieval-Modelle noch keine derart leistungsfähigen Allzweckmodelle hervorgebracht. Um dieses Ziel zu erreichen, müssen Retrieval-Modelle in der Lage sein, komplexe Retrieval-Aufgaben zu bewältigen, bei denen Anfragen mehrere Teile, Einschränkungen oder Anforderungen in natürlicher Sprache enthalten. Diese Aufgaben stellen eine natürliche Weiterentwicklung von den einfachen, einseitigen Anfragen dar, die in der überwiegenden Mehrheit der bestehenden, häufig verwendeten Evaluationsdatensätze verwendet werden. Komplexe Anfragen entstehen zwangsläufig, da Menschen erwarten, dass Suchsysteme spezifischere und oft anspruchsvollere Informationsanfragen bewältigen können, wie sich an der Nutzung von LLM-basierten Informationssystemen zeigt. Trotz des wachsenden Wunsches, dass Retrieval-Modelle ihre Fähigkeiten in komplexen Retrieval-Aufgaben erweitern, gibt es nur begrenzte Ressourcen, um die Fähigkeiten von Retrieval-Modellen anhand eines umfassenden Satzes von diversen komplexen Aufgaben zu bewerten. Die wenigen vorhandenen Ressourcen weisen einen begrenzten Umfang auf und fehlen oft realistische Szenarien, was es schwierig macht, die tatsächlichen Fähigkeiten von Retrieval-Modellen bei komplexen Retrieval-Aufgaben in der realen Welt zu beurteilen. Um diesen Mangel zu beheben und Innovationen bei Retrieval-Modellen der nächsten Generation voranzutreiben, erstellen wir einen vielfältigen und realistischen Satz von komplexen Retrieval-Aufgaben und benchmarken eine repräsentative Auswahl von state-of-the-art Retrieval-Modellen. Zusätzlich untersuchen wir die Auswirkungen von LLM-basierter Anfrageerweiterung und -umformulierung auf die Retrieval-Qualität. Unsere Ergebnisse zeigen, dass selbst die besten Modelle Schwierigkeiten haben, hochwertige Retrieval-Ergebnisse zu erzielen, mit einem durchschnittlichen nDCG@10 von nur 0,346 und einem R@100 von nur 0,587 über alle Aufgaben hinweg. Obwohl LLM-Erweiterungen schwächeren Modellen helfen können, zeigt das stärkste Modall bei allen Umformulierungstechniken eine Verschlechterung der Leistung in allen Metriken.
Da generative KI-Systeme in Wissenschaft, Wirtschaft und Regierung kompetenter und demokratisiert werden, besteht nun ein dringender Bedarf an tieferen Einblicken in ihre Fehlermodi. Die gelegentliche Volatilität ihres Verhaltens, wie die Neigung von Transformer-Modellen zu Halluzinationen, behindert das Vertrauen und die Akzeptanz neuartiger KI-Lösungen in hochriskanten Bereichen. In der vorliegenden Arbeit untersuchen wir, wie und wann Halluzinationen in vortrainierten Transformer-Modellen durch Konzeptrepräsentationen entstehen, die von spärlichen Autoencodern erfasst werden, und zwar unter Szenarien mit experimentell kontrollierter Unsicherheit im Eingaberaum. Unsere systematischen Experimente zeigen, dass die Anzahl der semantischen Konzepte, die das Transformer-Modell verwendet, zunimmt, wenn die Eingabeinformationen zunehmend unstrukturiert werden. Bei wachsender Unsicherheit im Eingaberaum neigt das Transformer-Modell dazu, kohärente, aber eingabeunempfindliche semantische Merkmale zu aktivieren, was zu halluzinierten Ausgaben führt. Im Extremfall von reinen Rausch-Eingaben identifizieren wir eine Vielzahl von robust ausgelösten und bedeutungsvollen Konzepten in den Zwischenaktivierungen vortrainierter Transformer-Modelle, deren funktionale Integrität wir durch gezieltes Steuern bestätigen. Wir zeigen auch, dass Halluzinationen in der Ausgabe eines Transformer-Modells zuverlässig aus den in den Transformer-Schichtaktivierungen eingebetteten Konzeptmustern vorhergesagt werden können. Diese Sammlung von Erkenntnissen über die internen Verarbeitungsmechanismen von Transformer-Modellen hat unmittelbare Auswirkungen auf die Ausrichtung von KI-Modellen an menschlichen Werten, KI-Sicherheit, die Öffnung der Angriffsfläche für potenzielle Adversarial-Angriffe und die Bereitstellung einer Grundlage für die automatische Quantifizierung des Halluzinationsrisikos eines Modells.