papers.description
Obwohl RLVR (Reinforcement Learning with Verbal Reasoning) zu einem wesentlichen Bestandteil für die Entwicklung fortgeschrittener Denkfähigkeiten in LLMs (Large Language Models) geworden ist, haben aktuelle Studien Trainingsplateaus dokumentiert, die nach Tausenden von Optimierungsschritten auftreten und deutliche Rückgänge in den Leistungssteigerungen trotz erhöhter Recheninvestitionen zeigen. Diese Einschränkung resultiert aus den spärlichen Explorationsmustern, die den aktuellen RLVR-Praktiken innewohnen, bei denen Modelle auf begrenzte Rollouts angewiesen sind, die oft kritische Denkpfade verfehlen und keine systematische Abdeckung des Lösungsraums bieten. Wir stellen DeepSearch vor, ein Framework, das Monte Carlo Tree Search direkt in das RLVR-Training integriert. Im Gegensatz zu bestehenden Methoden, die Baumsuche nur bei der Inferenz nutzen, integriert DeepSearch strukturierte Suche in den Trainingsloop, wodurch systematische Exploration und fein abgestufte Kreditzuweisung über Denkschritte hinweg ermöglicht wird. Durch Exploration während des Trainings adressiert DeepSearch den grundlegenden Engpass unzureichender Exploration, der zu abnehmenden Leistungsverbesserungen über längere Trainingsschritte führt. Unsere Beiträge umfassen: (1) eine globale Frontier-Auswahlstrategie, die vielversprechende Knoten im Suchbaum priorisiert, (2) Auswahl mit entropiebasierter Führung, die selbstbewusste Pfade für die Überwachung identifiziert, und (3) adaptives Replay-Buffer-Training mit Lösungscaching für Effizienz. Experimente auf mathematischen Denkbenchmarks zeigen, dass DeepSearch eine durchschnittliche Genauigkeit von 62,95 % erreicht und einen neuen State-of-the-Art für 1,5B-Denkmodelle etabliert – bei 5,7-fach geringerer GPU-Zeit im Vergleich zu erweiterten Trainingsansätzen. Diese Ergebnisse unterstreichen die Bedeutung strategischer Exploration gegenüber Brute-Force-Skalierung und demonstrieren das Potenzial algorithmischer Innovation für die Weiterentwicklung von RLVR-Methoden. DeepSearch weist eine neue Richtung für die Skalierung von Denkfähigkeiten durch systematische Suche anstelle von verlängerter Berechnung auf.
Das Trainingsparadigma für große Sprachmodelle (LLMs) entwickelt sich von statischen Datensätzen hin zu erfahrungsbasiertem Lernen, bei dem Agenten Fähigkeiten durch die Interaktion mit komplexen Umgebungen erwerben. Um diesen Übergang zu erleichtern, stellen wir GEM (General Experience Maker) vor, einen Open-Source-Umgebungssimulator, der für das Zeitalter der LLMs entwickelt wurde. Analog zu OpenAI-Gym für traditionelles Reinforcement Learning (RL) bietet GEM einen standardisierten Rahmen für die Schnittstelle zwischen Umgebung und Agent, einschließlich asynchroner vektorisierter Ausführung für hohen Durchsatz und flexibler Wrapper für einfache Erweiterbarkeit. GEM verfügt außerdem über eine vielfältige Sammlung von Umgebungen, robuste integrierte Tools und Einzeldatei-Beispielskripte, die die Verwendung von GEM mit fünf beliebten RL-Trainingsframeworks demonstrieren. Zusätzlich stellen wir eine Reihe von Baselines über 24 Umgebungen hinweg mit REINFORCE mit Return Batch Normalization (ReBN) bereit, das – im Gegensatz zu GRPO – mit dem vollständigen RL-Setting von dichten Belohnungen pro Zug kompatibel ist und eine bessere Kreditverteilung bietet. Wir führen außerdem einen direkten Vergleich von PPO, GRPO und REINFORCE in Einzel- und Mehrzug-Settings mit GEM durch, um Einblicke in die algorithmischen Designs zu gewähren. Schließlich fungiert GEM auch als praktisches Bewertungstoolkit neben einer Trainingsumgebung. Wir hoffen, dass dieser Rahmen die zukünftige Forschung zu agentenbasierten LLMs beschleunigen kann.
Post-Training-Quantisierung hat sich als die am weitesten verbreitete Strategie für die Bereitstellung großer Sprachmodelle mit niedriger Präzision etabliert. Dennoch zeigen aktuelle Methoden eine Verschlechterung der Perplexität bei Bitbreiten von weniger oder gleich 4, teilweise weil die Darstellung von Ausreißern Präzisionsprobleme in Parametern verursacht, die dieselben Skalierungen wie diese Ausreißer aufweisen. Dieses Problem ist besonders ausgeprägt bei kalibrationsfreien, uniformen Quantisierungsmethoden. Wir stellen SINQ vor, um bestehende Post-Training-Quantisierer mit einem zusätzlichen Skalierungsfaktor auf der zweiten Achse und einem schnellen Sinkhorn-Knopp-ähnlichen Algorithmus zu erweitern, der Skalierungen findet, um die Varianzen pro Zeile und pro Spalte zu normalisieren und dadurch ein neuartiges Proxy-Ziel für die Quantisierung zu minimieren: das Matrix-Ungleichgewicht. Unsere Methode weist keine Interaktionen zwischen Schichten auf und kann trivial auf neue Architekturen angewendet werden, um beliebige lineare Schichten zu quantisieren. Wir evaluieren unsere Methode anhand der Qwen3-Modellfamilie und DeepSeek-V2.5. SINQ verbessert die Perplexität auf WikiText2 und C4 signifikant im Vergleich zu unkalibrierten uniformen Quantisierungs-Baselines und kann weiter verbessert werden, indem es mit Kalibrierung und nicht-uniformen Quantisierungsstufen kombiniert wird. Der Code zur Reproduktion der Ergebnisse dieser Arbeit und zur einfachen Quantisierung von Modellen mit SINQ ist verfügbar unter https://github.com/huawei-csl/SINQ.
Vision-Language-Action (VLA)-Modelle ermöglichen verkörpertes Entscheidungsverhalten, sind jedoch stark auf Imitationslernen angewiesen, was zu kumulativen Fehlern und geringer Robustheit bei Verteilungsverschiebungen führt. Reinforcement Learning (RL) kann diese Probleme mildern, erfordert jedoch typischerweise kostspielige Interaktionen in der realen Welt oder leidet unter Sim-to-Real-Lücken. Wir stellen VLA-RFT vor, ein Reinforcement-Fine-Tuning-Framework, das ein datengetriebenes Weltmodell als kontrollierbaren Simulator nutzt. Der Simulator, der aus realen Interaktionsdaten trainiert wird, sagt zukünftige visuelle Beobachtungen in Abhängigkeit von Aktionen voraus und ermöglicht so Policy-Rollouts mit dichten, trajektorienbasierten Belohnungen, die aus Zielerreichungsreferenzen abgeleitet werden. Dieser Entwurf liefert ein effizientes und handlungsorientiertes Lernsignal und reduziert den Probenbedarf drastisch. Mit weniger als 400 Fine-Tuning-Schritten übertrifft VLA-RFT starke überwachte Baselines und erreicht eine höhere Effizienz als simulatorbasiertes RL. Darüber hinaus zeigt es eine starke Robustheit unter gestörten Bedingungen und gewährleistet eine stabile Aufgabenausführung. Unsere Ergebnisse etablieren weltmodellbasiertes RFT als praktisches Post-Training-Paradigma, um die Generalisierungsfähigkeit und Robustheit von VLA-Modellen zu verbessern. Weitere Details finden Sie unter https://vla-rft.github.io/.
Große Sprachmodelle (LLMs) können sich durch Reinforcement Learning selbst verbessern, indem sie Trajektorien generieren, um bessere Lösungen zu erkunden und zu entdecken. Dieser Erkundungsprozess ist jedoch rechenintensiv, was aktuelle Methoden oft dazu zwingt, jedem Task ein begrenztes Erkundungsbudget zuzuweisen. Diese gleichmäßige Zuweisung führt zu problematischen Randfällen: einfache Tasks gelingen konsequent, während schwierige Tasks konsequent scheitern, was beide während der Trainingsupdates für das weit verbreitete Group Relative Policy Optimization (GRPO) zu Null-Gradienten führt. Wir adressieren dieses Problem aus der Perspektive der Erkundungsbudgetzuweisung. Indem wir die Erkundung jedes Tasks als ein „Item“ mit einem bestimmten „Wert“ und „Kosten“ betrachten, stellen wir eine Verbindung zum klassischen Rucksackproblem her. Diese Formulierung ermöglicht es uns, eine optimale Zuweisungsregel abzuleiten, die Ressourcen basierend auf dem aktuellen Lernstatus des Modells adaptiv verteilt. Bei der Anwendung auf GRPO erhöht unsere Methode das effektive Verhältnis von Nicht-Null-Policy-Gradienten während des Trainings um 20-40%. Als eine Art rechnerischer „Gratisbonus“ könnte unser Ansatz Erkundungsbudgets von Tasks, bei denen das Lernen gesättigt ist, zu solchen umverteilen, bei denen es am wirkungsvollsten ist. Dies ermöglicht deutlich größere Budgets (z.B. 93 Rollouts) für besonders herausfordernde Probleme, die bei einer gleichmäßigen Zuweisung rechenintensiv wären. Diese Verbesserungen führen zu signifikanten Fortschritten auf mathematischen Reasoning-Benchmarks, mit durchschnittlichen Verbesserungen von 2-4 Punkten und Spitzengewinnen von 9 Punkten bei bestimmten Tasks. Bemerkenswert ist, dass vergleichbare Leistungen mit traditioneller homogener Zuweisung etwa das Doppelte an Rechenressourcen erfordern würden.
Während aktuelle generative Modelle die Videosynthese im Pixelraum vorantreiben, bleiben sie in der Erstellung professioneller Lehrvideos eingeschränkt, die Fachwissen, präzise visuelle Strukturen und kohärente Übergänge erfordern, was ihre Anwendbarkeit in Bildungsszenarien begrenzt. Intuitiv lassen sich solche Anforderungen besser durch die Manipulation einer renderbaren Umgebung bewältigen, die explizit über logische Befehle (z. B. Code) gesteuert werden kann. In dieser Arbeit stellen wir Code2Video vor, ein codezentriertes Agenten-Framework zur Erstellung von Lehrvideos über ausführbaren Python-Code. Das Framework besteht aus drei kooperierenden Agenten: (i) Planner, der Lehrinhalte in zeitlich kohärente Abläufe strukturiert und entsprechende visuelle Assets vorbereitet; (ii) Coder, der strukturierte Anweisungen in ausführbaren Python-Code umwandelt und dabei scope-gesteuerte Auto-Korrektur zur Effizienzsteigerung integriert; und (iii) Critic, der Vision-Language-Modelle (VLM) mit visuellen Anker-Prompts nutzt, um das räumliche Layout zu verfeinern und Klarheit sicherzustellen. Zur systematischen Evaluation entwickeln wir MMMC, einen Benchmark professionell produzierter, fachspezifischer Lehrvideos. Wir evaluieren MMMC über diverse Dimensionen, darunter VLM-as-a-Judge-ästhetische Bewertungen, Code-Effizienz und insbesondere TeachQuiz, eine neuartige End-to-End-Metrik, die quantifiziert, wie gut ein VLM nach dem Verlernen Wissen durch das Anschauen der generierten Videos wiedererlangen kann. Unsere Ergebnisse demonstrieren das Potenzial von Code2Video als skalierbarer, interpretierbarer und kontrollierbarer Ansatz, der eine 40 %ige Verbesserung gegenüber der direkten Code-Generierung erreicht und Videos produziert, die mit von Menschen erstellten Tutorials vergleichbar sind. Der Code und die Datensätze sind unter https://github.com/showlab/Code2Video verfügbar.
Die Einrichtung der Umgebung – der Prozess der Konfiguration des Systems für die Arbeit mit einem spezifischen Softwareprojekt – stellt eine anhaltende Herausforderung in der Softwaretechnik (SE) dar. Automatisierte Methoden zur Umgebungseinrichtung könnten Entwickler unterstützen, indem sie vollständig konfigurierte Umgebungen für beliebige Repositorys ohne manuellen Aufwand bereitstellen. Dies hilft auch SE-Forschern, ausführungsbasierte Benchmarks zu skalieren. Aktuelle Studien zeigen jedoch, dass selbst modernste Large Language Models (LLMs) nur begrenzten Erfolg bei der Automatisierung dieser Aufgabe erzielen. Um diese Einschränkung zu überwinden, optimieren wir ein spezialisiertes Modell für die Umgebungseinrichtung. Wir kombinieren überwachtes Feintuning zur Generierung korrekter Bash-Skripte und Reinforcement Learning mit überprüfbaren Belohnungen (RLVR), um es an die Aufgabe der Umgebungseinrichtung anzupassen. Auf EnvBench-Python ermöglicht unsere Methode Qwen3-8B (ein Modell, das auf Consumer-Hardware läuft), eine Leistung auf Augenhöhe mit größeren Modellen – Qwen3-32B und GPT-4o – zu erzielen. Der Trainingscode und die Modell-Checkpoints sind online verfügbar: https://github.com/JetBrains-Research/PIPer.
Große Sprachmodelle (LLMs) werden zunehmend als Agenten in dynamischen, realen Umgebungen eingesetzt, wo Erfolg sowohl logisches Denken als auch effektiven Werkzeugeinsatz erfordert. Eine zentrale Herausforderung für agentenbasierte Aufgaben ist die wachsende Kontextlänge, da Agenten lange Historienspuren von Aktionen und Beobachtungen ansammeln müssen. Diese Ausdehnung erhöht die Kosten und verringert die Effizienz bei langfristigen Aufgaben, während sich frühere Arbeiten zur Kontextkompression hauptsächlich auf Einzelschritt-Aufgaben oder eng begrenzte Anwendungen konzentrierten. Wir stellen Agent Context Optimization (ACON) vor, ein einheitliches Framework, das sowohl Umgebungsbeobachtungen als auch Interaktionshistorien optimal in prägnante, aber informative Verdichtungen komprimiert. ACON nutzt die Optimierung von Kompressionsrichtlinien im natürlichen Sprachraum: Bei gepaarten Trajektorien, bei denen der vollständige Kontext erfolgreich ist, der komprimierte Kontext jedoch scheitert, analysieren leistungsfähige LLMs die Ursachen des Scheiterns, und die Kompressionsrichtlinie wird entsprechend aktualisiert. Darüber hinaus schlagen wir vor, den optimierten LLM-Kompressor in kleinere Modelle zu destillieren, um den Overhead des zusätzlichen Moduls zu reduzieren. Experimente auf AppWorld, OfficeBench und Multi-objective QA zeigen, dass ACON den Speicherverbrauch um 26-54 % (Peak-Tokens) reduziert, während die Aufgabenleistung weitgehend erhalten bleibt, über 95 % der Genauigkeit bewahrt, wenn es in kleinere Kompressoren destilliert wird, und kleinere Sprachmodelle als langfristige Agenten mit einer Leistungssteigerung von bis zu 46 % verbessert.
Group Relative Policy Optimization (GRPO) ist ein bedeutender Reinforcement-Learning-Algorithmus für das Post-Training von Large Language Models (LLMs). Es wird allgemein angenommen, dass GRPO eine große Gruppengröße erfordert, um ein stabiles Training durch präzise statistische Schätzung zu gewährleisten, was erheblichen Rechenaufwand verursacht. In dieser Arbeit stellen wir diese Annahme in Frage, indem wir GRPO als eine Form des kontrastiven Lernens neu interpretieren, was eine grundlegende Verbindung zu Direct Preference Optimization (DPO) aufzeigt. Motiviert durch den empirischen Erfolg von DPO untersuchen wir den minimalen Fall mit zwei Rollouts (2-GRPO), eine Konfiguration, die bisher als nicht durchführbar galt. Wir liefern eine rigorose theoretische Analyse, um 2-GRPO zu validieren, und zeigen empirisch, dass es eine Leistung erzielt, die mit 16-GRPO vergleichbar ist, obwohl nur 1/8 der Rollouts verwendet und die Trainingszeit um über 70 % reduziert wird.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als ein Schlüsselelement für die Entfaltung komplexer Denkfähigkeiten in großen Sprachmodellen erwiesen. Jüngste Arbeiten wie ProRL haben vielversprechende Ansätze zur Skalierung von RL durch die Erhöhung der Anzahl der Trainingsschritte gezeigt. Allerdings stagniert die Leistung nach Tausenden von Schritten, wobei deutlich abnehmende Erträge bei der Zuweisung von mehr Rechenleistung für zusätzliches Training zu beobachten sind. In dieser Arbeit untersuchen wir ein komplementäres Paradigma zur Skalierung von RL, BroRL, bei dem die Anzahl der Rollouts pro Beispiel auf Hunderte erhöht wird, um die Exploration umfassend zu erweitern. Dies führt zu kontinuierlichen Leistungssteigerungen über den Sättigungspunkt hinaus, der bei ProRL bei der Skalierung der Anzahl der Trainingsschritte beobachtet wurde. Unser Ansatz wird durch eine Analyse der Massenbilanzgleichung motiviert, die es uns ermöglicht, die Änderungsrate der Wahrscheinlichkeitsmasse für korrekte und inkorrekte Tokens während des Verstärkungsprozesses zu charakterisieren. Wir zeigen, dass unter der Annahme eines einstufigen RL die gesampelten Rollout-Tokens immer zur Expansion der korrekten Masse beitragen, während nicht gesampelte Tokens außerhalb der Rollouts je nach ihrer Verteilung und der Netto-Belohnungsbilanz zu Gewinnen oder Verlusten führen können. Wichtig ist, dass mit zunehmender Anzahl von Rollouts pro Beispiel N der Einfluss der nicht gesampelten Terme abnimmt, was eine insgesamt positive Expansion der korrekten Masse sicherstellt. Um unsere theoretische Analyse zu validieren, führen wir Simulationen unter weniger restriktiven Bedingungen durch und stellen fest, dass eine ausreichend große Rollout-Größe N – entsprechend einer umfassenden Exploration – eine Zunahme der Wahrscheinlichkeitsmasse aller korrekten Tokens garantiert. Empirisch zeigt BroRL, dass es Modelle, die nach 3.000 ProRL-Trainingsschritten gesättigt sind, wiederbelebt und eine robuste, kontinuierliche Verbesserung demonstriert, wodurch state-of-the-art Ergebnisse für das 1,5B-Modell über diverse Benchmarks hinweg erzielt werden.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei komplexen Denkaufgaben gezeigt, wenn sie mit externen Werkzeugen ausgestattet sind. Allerdings basieren aktuelle Frameworks überwiegend auf sequenzieller Verarbeitung, was zu ineffizienter Ausführung führt, insbesondere bei Aufgaben, die umfangreiche Werkzeuginteraktionen erfordern. Dieses Paper stellt Flash-Searcher vor, ein neuartiges paralleles Agenten-Reasoning-Framework, das das Ausführungsparadigma grundlegend von sequenziellen Ketten zu gerichteten azyklischen Graphen (DAGs) umgestaltet. Flash-Searcher zerlegt komplexe Aufgaben in Unteraufgaben mit expliziten Abhängigkeiten, wodurch die gleichzeitige Ausführung unabhängiger Denkpfade bei gleichzeitiger Wahrung logischer Einschränkungen ermöglicht wird. Durch dynamische Workflow-Optimierung verfeinert unser Framework kontinuierlich den Ausführungsgraphen basierend auf Zwischenergebnissen und integriert effektiv ein Zusammenfassungsmodul. Umfassende Bewertungen über mehrere Benchmarks hinweg zeigen, dass Flash-Searcher bestehende Ansätze durchweg übertrifft. Insbesondere erreicht es eine Genauigkeit von 67,7 % auf BrowseComp und 83 % auf xbench-DeepSearch, während es die Ausführungsschritte des Agenten im Vergleich zu aktuellen Frameworks um bis zu 35 % reduziert. Darüber hinaus beobachten wir, wenn diese parallele Reasoning-Pipeline in einzelne Modelle destilliert wird, erhebliche Leistungssteigerungen über diverse Backbone-Architekturen hinweg, was die Generalisierbarkeit unserer Methodik unterstreicht. Unsere Arbeit stellt somit einen bedeutenden Fortschritt im Design von Agentenarchitekturen dar und bietet ein skalierbareres und effizienteres Paradigma für komplexe Denkaufgaben.
Bestehende Studien zu Methoden zur Minderung von Verzerrungen in großen Sprachmodellen (LLMs) verwenden unterschiedliche Baselines und Metriken, um die Leistung bei der Entfernung von Verzerrungen zu bewerten, was zu inkonsistenten Vergleichen führt. Darüber hinaus basieren ihre Bewertungen hauptsächlich auf dem Vergleich der Wahrscheinlichkeiten von LLMs für verzerrte und unverzerrte Kontexte, was die Lücke zwischen solchen Bewertungen und realen Anwendungsfällen ignoriert, in denen Benutzer mit LLMs interagieren, indem sie Modellantworten lesen und faire sowie sichere Ausgaben erwarten, anstatt Wahrscheinlichkeiten der LLMs. Um eine konsistente Bewertung von Methoden zur Verzerrungsminderung zu ermöglichen und diese Lücke zu schließen, führen wir BiasFreeBench ein, einen empirischen Benchmark, der acht gängige Techniken zur Minderung von Verzerrungen (darunter vier promptbasierte und vier trainingsbasierte Methoden) in zwei Testszenarien (Multiple-Choice-Fragen und offene Mehrfachfragen) umfassend vergleicht, indem bestehende Datensätze in ein einheitliches Abfrage-Antwort-Setting reorganisiert werden. Wir führen außerdem eine Antwort-Ebene-Metrik, den Bias-Free Score, ein, um das Ausmaß zu messen, in dem LLM-Antworten fair, sicher und anti-stereotyp sind. Die Leistungen bei der Verzerrungsminderung werden systematisch über Schlüsseldimensionen hinweg verglichen und analysiert: das Prompting- vs. Training-Paradigma, die Modellgröße und die Generalisierung verschiedener Trainingsstrategien auf unbekannte Verzerrungstypen. Wir werden unseren Benchmark öffentlich zugänglich machen, um eine einheitliche Testumgebung für die Forschung zur Verzerrungsminderung zu etablieren.
Sprachmodelle werden zunehmend leistungsfähiger, scheitern jedoch immer noch an einer scheinbar einfachen Aufgabe: der Multiplikation mehrstelliger Zahlen. In dieser Arbeit untersuchen wir, warum dies der Fall ist, indem wir ein Modell reverse-engineeren, das Multiplikation erfolgreich über einen impliziten Gedankenkettenprozess lernt, und berichten drei Erkenntnisse: (1) Hinweise auf langreichweitige Strukturen: Logit-Zuordnungen und lineare Sonden zeigen, dass das Modell die notwendigen langreichweitigen Abhängigkeiten für die Multiplikation mehrstelliger Zahlen kodiert. (2) Mechanismus: Das Modell kodiert langreichweitige Abhängigkeiten durch die Verwendung von Aufmerksamkeit, um einen gerichteten azyklischen Graphen zu konstruieren, der paarweise Teilprodukte „zwischenspeichert“ und „abruft“. (3) Geometrie: Das Modell implementiert Teilprodukte in Aufmerksamkeitsköpfen durch die Bildung von Minkowski-Summen zwischen Ziffernpaaren, und Ziffern werden mithilfe einer Fourier-Basis dargestellt, beides intuitive und effiziente Repräsentationen, die dem Standard-Fine-Tuning-Modell fehlen. Mit diesen Erkenntnissen betrachten wir die Lern dynamik des Standard-Fine-Tunings erneut und stellen fest, dass das Modell in ein lokales Optimum konvergiert, dem die erforderlichen langreichweitigen Abhängigkeiten fehlen. Wir validieren dieses Verständnis weiter, indem wir einen zusätzlichen Verlust einführen, der die „laufende Summe“ über eine lineare Regressionssonde vorhersagt, was eine induktive Verzerrung bietet, die es dem Modell ermöglicht, die Multiplikation mehrstelliger Zahlen erfolgreich zu erlernen. Zusammenfassend decken wir durch das Reverse-Engineering der Mechanismen eines impliziten Gedankenkettenmodells eine Fallgrube für das Erlernen langreichweitiger Abhängigkeiten in Transformern auf und liefern ein Beispiel dafür, wie die richtige induktive Verzerrung dieses Problem lösen kann.
Kürzlich haben wir große Fortschritte bei der Bildbearbeitung mit natürlichen Sprachanweisungen beobachtet. Mehrere proprietäre Modelle wie GPT-Image-1, Seedream und Google-Nano-Banana haben äußerst vielversprechende Entwicklungen gezeigt. Dennoch hinken die Open-Source-Modelle noch hinterher. Der Hauptengpass ist das Fehlen eines zuverlässigen Belohnungsmodells, um hochwertige synthetische Trainingsdaten zu skalieren. Um diesen kritischen Engpass zu überwinden, haben wir \mname entwickelt, das mit unserem neuen groß angelegten Datensatz für menschliche Präferenzen trainiert wurde, der von geschulten Experten nach einem strengen Protokoll mit über 200.000 Präferenzpaaren sorgfältig annotiert wurde. \mname zeigt eine überlegene Übereinstimmung mit menschlichen Präferenzen bei aufgabenorientierter Bildbearbeitung. Experimente zeigen, dass \mname eine state-of-the-art Korrelation mit menschlichen Bewertungen auf etablierten Benchmarks wie GenAI-Bench, AURORA-Bench, ImagenHub und unserem neuen \benchname erreicht und dabei eine breite Palette von VLM-as-Judge-Modellen übertrifft. Darüber hinaus verwenden wir \mname, um eine hochwertige Teilmenge aus dem bestehenden verrauschten ShareGPT-4o-Image-Datensatz auszuwählen. Wir trainieren Step1X-Edit auf der ausgewählten Teilmenge, was eine signifikante Verbesserung gegenüber dem Training auf dem vollständigen Datensatz zeigt. Dies demonstriert die Fähigkeit von \mname, als Belohnungsmodell zu dienen, um hochwertige Trainingsdaten für die Bildbearbeitung zu skalieren. Darüber hinaus deutet seine starke Übereinstimmung auf das Potenzial für fortgeschrittene Anwendungen wie verstärkungsbasiertes Nachtraining und Testzeit-Skalierung von Bildbearbeitungsmodellen hin. \mname wird zusammen mit seinem Trainingsdatensatz veröffentlicht, um die Gemeinschaft bei der Erstellung weiterer hochwertiger Trainingsdatensätze für die Bildbearbeitung zu unterstützen.
Das Entwerfen und Optimieren von aufgaben-spezifischen Quantenschaltkreisen ist entscheidend, um den Vorteil des Quantencomputings zu nutzen. Die jüngste Generierung von Quantenschaltkreisen auf Basis großer Sprachmodelle (LLMs) hat sich als vielversprechende automatische Lösung herausgestellt. Allerdings bleiben die grundlegenden Herausforderungen ungelöst: (i) parametrisierte Quantengatter erfordern präzise numerische Werte für eine optimale Leistung, die auch von mehreren Aspekten abhängen, einschließlich der Anzahl der Quantengatter, ihrer Parameter und der Struktur/Tiefe der Schaltkreise. (ii) LLMs erzeugen oft qualitativ minderwertige oder falsche Quantenschaltkreise aufgrund des Mangels an domänenspezifischem Quantenwissen. Wir schlagen QUASAR vor, ein agentenbasiertes Reinforcement-Learning (RL)-Framework zur Generierung und Optimierung von Quantenschaltkreisen, das auf werkzeuggestützten LLMs basiert. Um das LLM mit quantenspezifischem Wissen auszurichten und die generierten Quantenschaltkreise zu verbessern, entwickelt QUASAR (i) einen Ansatz zur Verifizierung von Quantenschaltkreisen mit externen Quantensimulatoren und (ii) einen ausgeklügelten hierarchischen Belohnungsmechanismus im RL-Training. Eine umfangreiche Evaluierung zeigt Verbesserungen sowohl in der syntaktischen als auch in der semantischen Leistung der generierten Quantenschaltkreise. Bei der Erweiterung eines 4B-LLMs hat QUASAR eine Gültigkeit von 99,31 % in Pass@1 und 100 % in Pass@10 erreicht und damit industrielle LLMs wie GPT-4o, GPT-5 und DeepSeek-V3 sowie mehrere nur überwachte Feinabstimmung (SFT)- und RL-Baselines übertroffen.
Die Erzeugung hochwertiger Ergebnisse in modernen LLMs wurde weitgehend als ein Auswahlproblem betrachtet: die Identifizierung einer einzigen, besten Generation aus einem diversen Pool von N Stichproben, dem sogenannten Best-of-N (BoN). Dieser Ansatz ist jedoch von Natur aus nullsummenorientiert, da er vielfältige und potenziell nützliche Informationen aus dem Pool verwirft. Stattdessen untersuchen wir ein kollaboratives Setup, bei dem alle Kandidaten potenziell zur endgültigen, besten Generation beitragen können. Zu diesem Zweck schlagen wir Fusion-of-N (FusioN) vor: eine Methode, die einen allgemeinen LLM-Richter verwendet, um die informativsten Elemente jeder Stichprobe in eine einzige, endgültige Antwort zu synthetisieren. Wir vergleichen FusioN mit BoN in zwei Szenarien: (i) Testzeit-Skalierung, bei der wir Stichproben aus einem einzelnen Modell zur Testzeit entnehmen und aggregieren, und (ii) synthetische Datengenerierung, bei der wir Stichproben aus einem Pool diverser Lehrer-Modelle fusionieren, um ein Schüler-Modell zu verbessern. Wir führen umfangreiche Benchmarks für beide Setups über 11 Sprachen, 3 verschiedene Aufgaben und unterschiedliche Modellgrößen durch. In allen Benchmarks übertrifft FusioN durchweg BoN und zeigt sowohl in der Testzeit-Skalierung als auch in den nachgelagerten Gewinnen aus der synthetischen Datengenerierung Vielseitigkeit und Robustheit. Wir führen auch eine umfassende Analyse von FusioN durch, bei der es überraschende Stärken und Robustheit unter herausfordernden Bedingungen zeigt. Diese Ergebnisse verdeutlichen, dass wir unsere Denkweise über die Bewertung und Nutzung von LLM-Generationen von einem monolithischen Qualitätsmaß hin zur Anerkennung ihrer polylithischen Natur verschieben sollten. Dieser Wandel ermöglicht es uns, vielfältige Stärken zu integrieren, latentes Potenzial freizusetzen und Verbesserungen zu erzielen, die bisher allein durch Auswahl unerreichbar waren.
Jüngste Fortschritte in den Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Schlussfolgern werden maßgeblich durch Reinforcement Learning (RL) vorangetrieben, doch die zugrunde liegende Parameterdynamik während des RL-Trainings bleibt weitgehend unverstanden. Diese Arbeit identifiziert zwei grundlegende Eigenschaften von RL-induzierten Parameteraktualisierungen in LLMs: (1) Rang-1-Dominanz, bei der der top-singuläre Unterraum der Parameteraktualisierungsmatrix die Verbesserungen im logischen Schlussfolgern nahezu vollständig bestimmt und über 99 % der Leistungssteigerungen wiedergewinnt; und (2) Rang-1-lineare Dynamik, bei der sich dieser dominante Unterraum während des Trainings linear entwickelt, was eine genaue Vorhersage aus frühen Checkpoints ermöglicht. Umfangreiche Experimente mit 8 LLMs und 7 Algorithmen bestätigen die Allgemeingültigkeit dieser Eigenschaften. Noch wichtiger ist, dass wir auf Basis dieser Erkenntnisse AlphaRL vorschlagen, ein Plug-in-Beschleunigungsframework, das die endgültige Parameteraktualisierung durch ein kurzes frühes Trainingsfenster extrapoliert und dabei eine bis zu 2,5-fache Beschleunigung erreicht, während mehr als 96 % der Schlussfolgerungsleistung ohne zusätzliche Module oder Hyperparameter-Tuning erhalten bleiben. Dies positioniert unsere Erkenntnisse als ein vielseitiges und praktisches Werkzeug für groß angelegtes RL und eröffnet einen Weg zu einem prinzipiellen, interpretierbaren und effizienten Trainingsparadigma für LLMs.
Supervised Fine-Tuning (SFT) ist der Standardansatz für das Nachtraining großer Sprachmodelle (LLMs), zeigt jedoch oft eine begrenzte Generalisierungsfähigkeit. Wir führen diese Einschränkung auf das standardmäßige Trainingsziel zurück: die negative Log-Likelihood (NLL). Während NLL beim Training von Grund auf klassisch optimal ist, operiert das Nachtraining in einem anderen Paradigma und könnte die Optimalitätsannahmen verletzen, da Modelle bereits aufgabenrelevante Prioritäten kodieren und die Supervision lang und verrauscht sein kann. In diesem Zusammenhang untersuchen wir eine allgemeine Familie von wahrscheinlichkeitsbasierten Zielen und charakterisieren deren Wirksamkeit unter verschiedenen Bedingungen. Durch umfassende Experimente und ausgedehnte Ablationsstudien über 7 Modellarchitekturen, 14 Benchmarks und 3 Domänen hinweg decken wir eine kritische Dimension auf, die das Verhalten der Ziele bestimmt: das Modell-Fähigkeits-Kontinuum. Nahe dem Modell-starken Ende übertreffen prioritätsorientierte Ziele, die Tokens mit geringer Wahrscheinlichkeit abwerten (z. B. -p, -p^{10}, Schwellenwertvarianten), durchweg die NLL; am Modell-schwachen Ende dominiert die NLL; dazwischen setzt sich kein einzelnes Ziel durch. Unsere theoretische Analyse verdeutlicht weiterhin, wie Ziele entlang des Kontinuums ihre Positionen tauschen, und bietet eine prinzipielle Grundlage für die Anpassung der Ziele an die Modellfähigkeit. Unser Code ist verfügbar unter https://github.com/GaotangLi/Beyond-Log-Likelihood.
Grafische Benutzeroberflächen (GUI)-Agenten, die auf Vision-Sprache-Modellen basieren, haben sich als vielversprechender Ansatz zur Automatisierung von Mensch-Computer-Arbeitsabläufen erwiesen. Allerdings stehen sie auch vor der Herausforderung der Ineffizienz, da sie lange Sequenzen von hochauflösenden Screenshots verarbeiten und langfristige Aufgaben lösen müssen, was die Inferenz langsam, kostspielig und speicherintensiv macht. Während Key-Value (KV)-Caching dies mildern kann, ist die Speicherung des vollständigen Caches in bildlastigen Kontexten unpraktikabel. Bestehende Cache-Kompressionsmethoden sind suboptimal, da sie die räumliche und zeitliche Redundanz von GUIs nicht berücksichtigen. In dieser Arbeit analysieren wir zunächst Aufmerksamkeitsmuster in GUI-Agenten-Workloads und stellen fest, dass die Aufmerksamkeitssparsität im Gegensatz zu natürlichen Bildern über alle Transformer-Schichten hinweg gleichmäßig hoch ist. Diese Erkenntnis motiviert eine einfache Strategie zur gleichmäßigen Budgetzuweisung, die empirisch komplexere, schichtvariierende Schemata übertrifft. Darauf aufbauend stellen wir GUI-KV vor, eine Plug-and-Play-KV-Cache-Kompressionsmethode für GUI-Agenten, die kein erneutes Training erfordert. GUI-KV kombiniert zwei neuartige Techniken: (i) räumliche Salienzführung, die Aufmerksamkeitswerte mit der L2-Norm der verborgenen Zustände anreichert, um semantisch wichtige visuelle Tokens besser zu erhalten, und (ii) zeitliche Redundanzbewertung, die Schlüssel vorheriger Frames auf den Schlüssel-Unterraum des aktuellen Frames projiziert, um redundante Historie bevorzugt zu entfernen. Über standardisierte GUI-Agenten-Benchmarks und Modelle hinweg übertrifft GUI-KV konkurrierende KV-Kompressions-Baselines und erreicht nahezu die Genauigkeit des vollständigen Caches bei moderaten Budgets. Insbesondere reduziert GUI-KV in einer 5-Screenshot-Einstellung auf dem AgentNetBench-Benchmark die Decodierungs-FLOPs um 38,9 %, während die Schrittgenauigkeit um 4,1 % gegenüber der Baseline mit vollständigem Cache steigt. Diese Ergebnisse zeigen, dass die Nutzung GUI-spezifischer Redundanzen eine effiziente und zuverlässige Agentenleistung ermöglicht.
Wir stellen MixtureVitae vor, ein Open-Access-Pretraining-Korpus, das entwickelt wurde, um rechtliche Risiken zu minimieren und gleichzeitig eine starke Modellleistung zu gewährleisten. MixtureVitae folgt einer risikominimierten Beschaffungsstrategie, die Public-Domain- und permissiv lizenzierte Texte (z. B. CC-BY/Apache) mit sorgfältig begründeten, risikoarmen Ergänzungen (z. B. Regierungswerke und EU-TDM-qualifizierte Quellen) kombiniert, ergänzt durch gezielte Instruktionen, logisches Denken und synthetische Daten mit dokumentierter Herkunft. Wir beschreiben eine transparente, mehrstufige Pipeline für lizenzbewusstes Filtern, Sicherheits- und Qualitätsprüfungen sowie domänenbewusstes Mischen und veröffentlichen den Datensatz sowie die Kurationsrezepte, um reproduzierbare Forschung zu unterstützen. In kontrollierten Experimenten unter Verwendung des Open-Sci-Ref-Trainingsprotokolls (festgelegte Architekturen mit 130M/400M/1,3B/1,7B Parametern; Trainingsbudgets von 50B und 300B Tokens) übertreffen Modelle, die auf MixtureVitae trainiert wurden, durchweg andere permissive Datensätze in einer Reihe von Standardbenchmarks, und im 1,7B/300B-Setting übertreffen sie FineWeb-Edu und nähern sich DCLM in den späteren Trainingsphasen an. Die Leistung ist besonders stark in Mathematik/Code und wettbewerbsfähig bei QA-Aufgaben. Diese Ergebnisse zeigen, dass risikominimierte, permissive Daten eine praktische und rechtlich abgesicherte Grundlage für das Training leistungsfähiger LLMs bieten und die Abhängigkeit von wahllosem Web-Scraping reduzieren, ohne die Wettbewerbsfähigkeit zu opfern. Code: https://github.com/ontocord/mixturevitae
LLMs können ihre parametrischen Wissensgrenzen nicht zuverlässig erkennen und halluzinieren oft Antworten auf Fragen, die außerhalb dieser Grenzen liegen. Im Gegensatz dazu erkennen Menschen ihre Grenzen und können entweder externe Hilfe für solche Fragen suchen oder sich enthalten. In diesem Artikel stellen wir MASH (Modeling Abstention via Selective Help-seeking) vor, ein Trainingsframework, das Enthaltungen von LLMs leicht extrahiert. Unsere zentrale Idee ist, dass jede externe Hilfesuche eines LLMs, d.h. die Nutzung von Suchwerkzeugen, als Stellvertreter für eine Enthaltung dienen kann, wenn die externe Hilfe (Suche) angemessen bestraft wird, während gleichzeitig die Antwortgenauigkeit belohnt wird. MASH setzt diese Idee mithilfe von Verstärkungslernen mit einer Bezahlung-pro-Suche-Belohnung um. Wir führen Experimente mit drei wissensintensiven QA-Datensätzen durch. Unsere Ergebnisse zeigen, dass MASH die selektive Hilfesuche-Leistung früherer effizienter Suchansätze erheblich verbessert; bei Multi-Hop-Datensätzen steigert MASH die Antwortgenauigkeit um 7,6 %. Darüber hinaus zeigt MASH eine starke Off-the-Shelf-Enthaltung – es kann zwischen unbeantwortbaren und beantwortbaren Fragen unterscheiden und selektiv Antworten für beantwortbare Fragen generieren – und demonstriert damit ein Verhalten, das spezialisierten Enthaltungsansätzen ähnelt. Wir betonen, dass MASH im Gegensatz zu früheren Enthaltungsmethoden keine vorherige Festlegung von Wissensgrenzen zur Erstellung von Trainingsdaten erfordert. Stattdessen sind die Enthaltungen von MASH ein Nebenprodukt des Trainings für die zusätzliche Aufgabe der selektiven Hilfesuche. Insgesamt zeigen wir, dass das MASH-Training die Nutzung von Suchwerkzeugen effektiv mit parametrischem Wissen in Einklang bringt, was erfolgreich für Enthaltungsentscheidungen genutzt werden kann.
Prozess-Bewertungsmodelle (PRMs) bieten schrittweise Überwachung, die die Zuverlässigkeit des Schlussfolgerns in großen Sprachmodellen verbessert. Während PRMs in textbasierten Domänen umfassend untersucht wurden, bleibt ihre Erweiterung auf Vision-Language-Modelle (VLMs) begrenzt. Bestehende Vision-Language-PRMs (VL-PRMs) stützen sich auf Monte-Carlo-Baumsuche (MCTS) für die Datenerstellung, was oft verrauschte Überwachungssignale erzeugen und die Generalisierung über Aufgaben hinweg einschränken kann. In dieser Arbeit zielen wir darauf ab, den Gestaltungsraum von VL-PRMs zu erhellen, indem wir verschiedene Strategien für die Datensatzerstellung, das Training und die Skalierung zur Testzeit untersuchen. Zunächst führen wir ein hybrides Datensynthese-Framework ein, das MCTS mit Bewertungen eines starken VLMs kombiniert und genauere schrittweise Labels erzeugt. Zweitens schlagen wir eine wahrnehmungsfokussierte Überwachung vor, die es unserem PRM ermöglicht, Fehler in der visuellen Verankerungsphase des Schlussfolgerns explizit zu erkennen. Drittens bewerten wir systematisch mehrere Skalierungsstrategien zur Testzeit und zeigen, dass unsere PRMs VLMs zuverlässig zu genaueren Lösungen führen können. Unsere Experimente, die fünf verschiedene multimodale Benchmarks abdecken (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista und MathVision), offenbaren mehrere wichtige Erkenntnisse: (i) VL-PRMs können, wenn sie als Ergebnis-Bewertungsmodelle (ORMs) während der Skalierung zur Testzeit (TTS) verwendet werden, die schrittweise Prozessauswahl durch VL-PRMs übertreffen, (ii) kleinere VL-PRMs können größere in der Erkennung von Prozessfehlern übertreffen oder sogar übertreffen, (iii) VL-PRMs decken latente Schlussfolgerungsfähigkeiten in stärkeren VLM-Backbones auf, (iv) wahrnehmungsbasierte Überwachung führt zu signifikanten Verbesserungen in der Skalierung zur Testzeit, und (v) die TTS-Leistung verschiedener Strategien verbessert sich auf fortgeschrittenen mathematischen Schlussfolgerungsdatensätzen, obwohl VL-PRMs nicht auf solchen Datensätzen trainiert wurden. Wir hoffen, dass unsere Arbeit weitere Forschung anregt und die Weiterentwicklung von VLMs unterstützt.
Die Theory of Mind (ToM) – das Verständnis der mentalen Zustände anderer – ist ein zentraler Aspekt der menschlichen sozialen Intelligenz, doch Chatbots und auf großen Sprachmodellen (LLMs) basierende soziale Agenten integrieren sie typischerweise nicht. In dieser Arbeit zeigen wir, dass LLMs, die ToM explizit nutzen, bessere Dialogfähigkeiten entwickeln und Ziele effektiver erreichen. Nachdem wir demonstriert haben, dass bereits das einfache Anregen von Modellen, mentale Zustände zwischen Dialogwechseln zu generieren, signifikante Vorteile bietet, führen wir weiterhin ToMAgent (ToMA) ein, einen auf ToM fokussierten Dialogagenten. ToMA wird trainiert, indem ToM mit Dialogvorausschau kombiniert wird, um mentale Zustände zu erzeugen, die maximal nützlich für das Erreichen von Dialogzielen sind. Experimente auf dem interaktiven sozialen Evaluationsbenchmark Sotopia demonstrieren die Wirksamkeit unserer Methode im Vergleich zu einer Reihe von Baselines. Eine umfassende Analyse zeigt, dass ToMA strategischere, zielorientierte Denkweisen aufweist, die eine langfristige Anpassung ermöglichen, während gleichzeitig bessere Beziehungen zu den Dialogpartnern aufrechterhalten werden. Unsere Ergebnisse deuten auf einen Fortschritt bei der Integration von ToM hin, um sozial intelligente LLM-Agenten zu entwickeln.
Wir untersuchen die Geheimniserkennung: die Entdeckung von Wissen, das eine KI besitzt, aber nicht explizit verbalisiert. Als Testumgebung trainieren wir drei Familien von großen Sprachmodellen (LLMs) darauf, spezifisches Wissen zu besitzen, das sie in nachgelagerten Anwendungen nutzen, aber bei direkter Nachfrage abstreiten. Beispielsweise trainieren wir in einem Szenario ein LLM darauf, Antworten zu generieren, die darauf hindeuten, dass es weiß, dass der Nutzer weiblich ist, während es dieses Wissen bei direkter Nachfrage verneint. Anschließend entwickeln wir verschiedene Black-Box- und White-Box-Techniken zur Geheimniserkennung und bewerten sie danach, ob sie einem LLM-Prüfer helfen können, das geheime Wissen erfolgreich zu erraten. Viele unserer Techniken übertreffen einfache Baselines. Unsere effektivsten Techniken (die in 2/3 der Szenarien am besten abschneiden) basieren auf Prefill-Angriffen, einer Black-Box-Technik, bei der das LLM geheimes Wissen preisgibt, wenn es eine Vervollständigung aus einem vordefinierten Präfix generiert. In unserem verbleibenden Szenario sind White-Box-Techniken, die auf Logit Lens und spärlichen Autoencodern (SAEs) basieren, am effektivsten. Wir veröffentlichen unsere Modelle und unseren Code und schaffen damit einen öffentlichen Benchmark zur Bewertung von Methoden zur Geheimniserkennung.
Große Sprachmodelle werden zunehmend als autonome Agenten für komplexe reale Aufgaben eingesetzt, doch bestehende Systeme konzentrieren sich oft auf isolierte Verbesserungen ohne ein einheitliches Design für Robustheit und Anpassungsfähigkeit. Wir schlagen eine generalistische Agentenarchitektur vor, die drei Kernkomponenten integriert: ein kollektives Multi-Agenten-Framework, das Planungs- und Ausführungsagenten mit Abstimmungen durch Kritikermodelle kombiniert, ein hierarchisches Speichersystem, das Arbeits-, Semantik- und Verfahrensebenen umfasst, sowie ein verfeinertes Werkzeugsatz für Suche, Code-Ausführung und multimodale Analyse. Auf einem umfassenden Benchmark bewertet, übertrifft unser Framework durchweg Open-Source-Baselines und nähert sich der Leistung proprietärer Systeme an. Diese Ergebnisse unterstreichen die Bedeutung der systemweiten Integration und zeigen einen Weg zu skalierbaren, widerstandsfähigen und adaptiven KI-Assistenten auf, die in der Lage sind, über verschiedene Domänen und Aufgaben hinweg zu operieren.
Der Diffusion Transformer hat bemerkenswerte Fähigkeiten bei der Erzeugung von hochauflösenden Videos gezeigt, die visuell kohärente Frames und detailreiche Inhalte über längere Zeiträume liefern. Bestehende Modelle zur Videogenerierung scheitern jedoch noch an der konsistenten Darstellung von Subjekten, da es ihnen schwerfällt, Prompts zu interpretieren, die komplexe räumliche Beziehungen, zeitliche Logik und Interaktionen zwischen mehreren Subjekten spezifizieren. Um dieses Problem zu lösen, schlagen wir BindWeave vor, ein einheitliches Framework, das eine breite Palette von Szenarien von Einzelsubjekten bis hin zu komplexen Mehrsubjektszenen mit heterogenen Entitäten abdeckt. Um die komplexe Semantik von Prompts an konkrete visuelle Subjekte zu binden, führen wir ein MLLM-DiT-Framework ein, in dem ein vortrainiertes multimodales großes Sprachmodell tiefgreifende cross-modale Schlussfolgerungen durchführt, um Entitäten zu verankern und Rollen, Attribute sowie Interaktionen zu entwirren. Dies führt zu subjektbewussten verborgenen Zuständen, die den Diffusion Transformer für die Erzeugung von hochauflösenden, subjektkonsistenten Videos konditionieren. Experimente auf dem OpenS2V-Benchmark zeigen, dass unsere Methode in Bezug auf Subjektkonsistenz, Natürlichkeit und Textrelevanz in generierten Videos überlegene Leistungen erzielt und bestehende Open-Source- und kommerzielle Modelle übertrifft.
Der Aufstieg von Large Language Models (LLMs) gestaltet multimodale Modelle neu, wobei die Sprachsynthese eine herausragende Anwendung darstellt. Bestehende Ansätze nutzen jedoch oft die linguistische Intelligenz dieser Modelle nicht ausreichend und versäumen es typischerweise, ihre leistungsstarken Fähigkeiten zur Befolgung von Anweisungen zu nutzen. Diese Einschränkung behindert die Fähigkeit des Modells, Textanweisungen für eine kontrollierbare Text-to-Speech (TTS)-Generierung zu befolgen. Um dies zu adressieren, schlagen wir ein neues Paradigma vor, das vom „Operationalismus“ inspiriert ist und das Verständnis von Anweisungen von der Sprachgenerierung entkoppelt. Wir stellen BatonVoice vor, ein Framework, in dem ein LLM als „Dirigent“ fungiert, der Benutzeranweisungen versteht und einen textuellen „Plan“ erstellt – explizite vokale Merkmale (z. B. Tonhöhe, Energie). Ein separates TTS-Modell, das „Orchester“, generiert dann die Sprache aus diesen Merkmalen. Um diese Komponente zu realisieren, entwickeln wir BatonTTS, ein TTS-Modell, das speziell für diese Aufgabe trainiert wurde. Unsere Experimente zeigen, dass BatonVoice eine starke Leistung in der kontrollierbaren und emotionalen Sprachsynthese erzielt und dabei starke Open- und Closed-Source-Baselines übertrifft. Besonders bemerkenswert ist, dass unser Ansatz eine bemerkenswerte Zero-Shot-Übertragung auf andere Sprachen ermöglicht, indem er die Fähigkeiten zur Merkmalskontrolle präzise auf Sprachen anwendet, die während des Post-Trainings nicht gesehen wurden. Dies zeigt, dass die Objektivierung von Sprache in textuelle vokale Merkmale die linguistische Intelligenz von LLMs effektiver freisetzen kann.
Vision-Language Models (VLMs) zeichnen sich durch ein hohes Verständnis von Szenen aus, scheitern jedoch bei feingranularen Wahrnehmungsaufgaben, die eine präzise Lokalisierung erfordern. Dieses Versagen resultiert aus einem grundlegenden Missverhältnis, da die Generierung exakter numerischer Koordinaten eine herausfordernde Aufgabe für sprachzentrierte Architekturen darstellt. In diesem Artikel stellen wir VLM-FO1 vor, ein neuartiges Framework, das diese Einschränkung überwindet, indem es die objektzentrierte Wahrnehmung von einem fragilen Koordinatengenerierungsproblem in eine robuste Merkmalsabrufaufgabe umformuliert. Unsere Methode fungiert als Plug-and-Play-Modul, das sich in jedes vortrainierte VLM integrieren lässt. Sie nutzt einen Hybrid Fine-grained Region Encoder (HFRE), der einen dualen Vision-Encoder beinhaltet, um leistungsstarke Regionstokens zu generieren, die reich an semantischen und räumlichen Details sind. Ein tokenbasiertes Referenzsystem ermöglicht es dann dem LLM, nahtlos über diese spezifischen visuellen Regionen zu schließen und Sprache in ihnen zu verankern. Experimente zeigen, dass VLM-FO1 state-of-the-art Leistungen über eine vielfältige Suite von Benchmarks erzielt und außergewöhnliche Fähigkeiten in der Objektverankerung, dem Verständnis der Regionengenerierung und dem visuellen Regionenschluss demonstriert. Entscheidend ist, dass unsere zweistufige Trainingsstrategie sicherstellt, dass diese Wahrnehmungsgewinne erreicht werden, ohne die allgemeinen visuellen Verständnisfähigkeiten des Basismodells zu beeinträchtigen. VLM-FO1 etabliert ein effektives und flexibles Paradigma für den Aufbau wahrnehmungsbewusster VLMs und überbrückt die Lücke zwischen hochrangigem Schlussfolgern und feingranularer visueller Verankerung.
Wir stellen ImitSAT vor, eine Verzweigungsstrategie für konfliktgetriebene Klausellernverfahren (CDCL), die auf Imitationslernen für das Problem der Booleschen Erfüllbarkeit (SAT) basiert. Im Gegensatz zu früheren Methoden, die Instanz-spezifische Signale vorhersagen, um die CDCL-Verzweigung indirekt zu verbessern, oder sich auf Verstärkungslernen und unzureichende CDCL-Informationen stützen, um die Verzweigung zu optimieren, lernt ImitSAT von einem Experten-KeyTrace, der einen vollständigen Durchlauf in die Sequenz der überlebenden Entscheidungen komprimiert. Das Abspielen eines KeyTrace auf derselben Instanz ist nahezu konfliktfrei und bietet eine dichte Entscheidungsüberwachung auf Ebene der Entscheidungen, wodurch direkt die Propagationen reduziert werden – der dominante Faktor für die Echtzeit. Diese präfix-bedingte Überwachung ermöglicht es ImitSAT, hochwertige Verzweigungen ohne Exploration zu reproduzieren, was zu schnellerer Konvergenz, stabilerem Training und nahtloser Integration in CDCL führt. Umfangreiche Experimente zeigen, dass ImitSAT die Anzahl der Propagationen und die Laufzeit reduziert und dabei state-of-the-art gelernte Ansätze übertrifft. Wir haben den Quellcode und das trainierte Modell unter https://github.com/zewei-Zhang/ImitSAT veröffentlicht.
KI-Agenten, die auf Foundation-Modellen (FM) basieren, werden zunehmend in verschiedenen Domänen eingesetzt, doch ihre inhärente Nicht-Determiniertheit und Nicht-Reproduzierbarkeit stellen Herausforderungen für das Testen und die Qualitätssicherung dar. Während aktuelle Benchmarks Aufgabenebenen-Evaluierungen bieten, gibt es nur begrenztes Verständnis darüber, wie Entwickler die interne Korrektheit dieser Agenten während der Entwicklung überprüfen. Um diese Lücke zu schließen, führen wir die erste groß angelegte empirische Studie zu Testpraktiken im Ökosystem von KI-Agenten durch, analysieren 39 Open-Source-Agenten-Frameworks und 439 agentische Anwendungen. Wir identifizieren zehn verschiedene Testmuster und stellen fest, dass neuartige, agentspezifische Methoden wie DeepEval selten verwendet werden (ca. 1 %), während traditionelle Muster wie Negativ- und Mitgliedschaftstests weit verbreitet sind, um die Unsicherheit von FMs zu bewältigen. Durch die Zuordnung dieser Muster zu kanonischen architektonischen Komponenten von Agenten-Frameworks und agentischen Anwendungen decken wir eine fundamentale Umkehrung des Testaufwands auf: deterministische Komponenten wie Ressourcenartefakte (Werkzeuge) und Koordinationsartefakte (Workflows) beanspruchen über 70 % des Testaufwands, während der FM-basierte Plan-Body weniger als 5 % erhält. Entscheidend ist, dass dies einen kritischen blinden Fleck offenbart, da die Trigger-Komponente (Prompts) vernachlässigt bleibt und in nur etwa 1 % aller Tests vorkommt. Unsere Ergebnisse bieten die erste empirische Testbasis für FM-basierte Agenten-Frameworks und agentische Anwendungen und zeigen eine rationale, aber unvollständige Anpassung an die Nicht-Determiniertheit. Um dies zu adressieren, sollten Framework-Entwickler die Unterstützung für neuartige Testmethoden verbessern, Anwendungsentwickler Prompt-Regressionstests einführen und Forscher Hindernisse für die Einführung untersuchen. Die Stärkung dieser Praktiken ist entscheidend für den Aufbau robusterer und zuverlässigerer KI-Agenten.
Die Verteilungsanpassung ist zentral für viele Aufgaben in der Bildverarbeitung und Computergrafik, bei denen die weit verbreitete Wasserstein-Distanz für hochdimensionale Verteilungen zu rechenintensiv ist. Die Sliced Wasserstein Distance (SWD) bietet eine skalierbare Alternative, doch ihr Monte-Carlo-Schätzer leidet unter hoher Varianz, was zu verrauschten Gradienten und langsamer Konvergenz führt. Wir stellen die Reservoir SWD (ReSWD) vor, die Weighted Reservoir Sampling in die SWD integriert, um in Optimierungsschritten informative Projektionsrichtungen adaptiv zu behalten. Dies führt zu stabilen Gradienten bei gleichbleibender Unverzerrtheit. Experimente auf synthetischen Benchmarks und realen Anwendungen wie Farbkorrektur und Diffusionsführung zeigen, dass ReSWD durchweg die Standard-SWD und andere Varianzreduktions-Baselines übertrifft. Projektseite: https://reservoirswd.github.io/
Curriculum Learning spielt eine entscheidende Rolle bei der Steigerung der Trainings effizienz großer Sprachmodelle (LLMs) für Aufgaben, die logisches Denken erfordern. Bisherige Methoden berücksichtigen jedoch oft nicht ausreichend die Schwankungen in der Schwierigkeit von Prompts oder verlassen sich auf vereinfachte Filtermechanismen, um Prompt-Datensätze innerhalb eines engen Kriterienbereichs auszuwählen, was zu erheblichem Rechenaufwand führt. In dieser Arbeit nähern wir uns dem Problem aus der Perspektive der Gradientenoptimierung im Reinforcement Learning und bieten eine systematische und theoretische Untersuchung, wie die Trainings effizienz von LLMs verbessert werden kann. Wir identifizieren zwei Schlüsselfaktoren, die die Trainings effizienz beeinflussen: die Auswahl der Trainings-Prompts und die Verteilung der Rollout-Mengen über verschiedene Prompts hinweg. Unsere theoretische Analyse zeigt, dass die Stichprobenverteilung der Prompts die Konvergenzrate des Gradientenabstiegs bestimmt, während die Verteilung der Rollout-Menge die Konsistenz und Stabilität der gesamten Gradientenaktualisierungen beeinflusst. Basierend auf diesen Erkenntnissen schlagen wir CurES vor, eine effiziente Trainingsmethode, die die Konvergenz beschleunigt und die Bayes’sche Posterior-Schätzung nutzt, um den Rechenaufwand zu minimieren. Experimente zeigen, dass unser CurES die Group Relative Policy Optimization (GRPO) um +3,30 Punkte und +4,82 Punkte bei 1,5B- und 7B-Modellen übertrifft. Dar hinaus weist CurES im Vergleich zu den Baselines, einschließlich GRPO, eine schnellere Konvergenz auf.
Große Sprachmodelle (LLMs) werden zunehmend im Kontext von Mehrschritt-Argumentation untersucht, bei der Modelle ihre Ausgaben iterativ auf der Grundlage von Benutzerfeedback verfeinern. Solche Szenarien sind entscheidend für Aufgaben, die komplexe Argumentation erfordern, doch bestehende Feedback-Paradigmen beruhen oft darauf, neue Nachrichten zu senden. LLMs haben Schwierigkeiten, diese zuverlässig zu integrieren, was zu inkonsistenten Verbesserungen führt. In dieser Arbeit führen wir In-Place-Feedback ein, ein neuartiges Interaktionsparadigma, bei dem Benutzer die vorherige Antwort eines LLMs direkt bearbeiten und das Modell auf dieser modifizierten Antwort basiert, um seine Überarbeitung zu generieren. Empirische Auswertungen auf diversen argumentationsintensiven Benchmarks zeigen, dass In-Place-Feedback eine bessere Leistung erzielt als konventionelles Mehrschritt-Feedback, während 79,1 % weniger Tokens verwendet werden. Ergänzende Analysen in kontrollierten Umgebungen demonstrieren weiterhin, dass In-Place-Feedback eine zentrale Einschränkung von Mehrschritt-Feedback behebt: Modelle scheitern oft daran, Feedback präzise auf fehlerhafte Teile der Antwort anzuwenden, wodurch Fehler unkorrigiert bleiben und manchmal neue Fehler in zuvor korrekte Inhalte eingeführt werden. Diese Ergebnisse legen nahe, dass In-Place-Feedback einen natürlicheren und effektiveren Mechanismus zur Steuerung von LLMs in argumentationsintensiven Aufgaben bietet.
Das Erlernen von Steuerungsstrategien für komplexe, langfristige Aufgaben ist eine zentrale Herausforderung in der Robotik und bei autonomen Systemen. Die Signal Temporal Logic (STL) bietet eine leistungsstarke und ausdrucksstarke Sprache zur Spezifikation solcher Aufgaben, doch ihre nicht-Markovsche Natur und die inhärent spärlichen Belohnungen machen es schwierig, sie mit Standard-Reinforcement-Learning (RL)-Algorithmen zu lösen. Bisherige RL-Ansätze konzentrieren sich nur auf begrenzte STL-Fragmente oder verwenden STL-Robustheitswerte als spärliche Endbelohnungen. In diesem Artikel schlagen wir TGPO, Temporal Grounded Policy Optimization, vor, um allgemeine STL-Aufgaben zu lösen. TGPO zerlegt STL in zeitlich festgelegte Teilziele und invariante Beschränkungen und bietet ein hierarchisches Framework zur Bewältigung des Problems. Die hochrangige Komponente von TGPO schlägt konkrete Zeitzuweisungen für diese Teilziele vor, und die niedrigrangige, zeitbedingte Strategie lernt, die sequenzierten Teilziele mithilfe eines dichten, stufenweisen Belohnungssignals zu erreichen. Während der Inferenz sammeln wir verschiedene Zeitzuweisungen und wählen die vielversprechendste Zuweisung für das Strategienetzwerk aus, um die Lösungstrajektorie zu entfalten. Um ein effizientes Erlernen von Strategien für komplexe STL mit mehreren Teilzielen zu fördern, nutzen wir den gelernten Kritiker, um die hochrangige zeitliche Suche über Metropolis-Hastings-Sampling zu leiten, wobei die Exploration auf zeitlich machbare Lösungen fokussiert wird. Wir führen Experimente in fünf Umgebungen durch, die von niedrigdimensionaler Navigation über Manipulation, Drohnen- und Quadrupedal-Fortbewegung reichen. Unter einer Vielzahl von STL-Aufgaben übertrifft TGPO die state-of-the-art Baselines deutlich (insbesondere bei hochdimensionalen und langfristigen Fällen), mit einer durchschnittlichen Verbesserung der Aufgaben-Erfolgsrate von 31,6 % im Vergleich zur besten Baseline. Der Code wird unter https://github.com/mengyuest/TGPO verfügbar sein.
In dieser Arbeit schlagen wir vor, vortrainierte visuelle Encoder auszurichten, um als Tokenizer für latente Diffusionsmodelle in der Bildgenerierung zu dienen. Im Gegensatz zum Training eines Variational Autoencoders (VAE) von Grund auf, der hauptsächlich niedrigstufige Details betont, nutzt unser Ansatz die reiche semantische Struktur von Foundation-Encodern. Wir führen eine dreistufige Ausrichtungsstrategie ein: (1) den Encoder einfrieren und einen Adapter sowie einen Decoder trainieren, um einen semantischen latenten Raum zu etablieren; (2) alle Komponenten gemeinsam mit einem zusätzlichen semantischen Erhaltungsverlust optimieren, wodurch der Encoder wahrnehmungsbezogene Details erfassen kann, während er gleichzeitig hochstufige Semantik beibehält; und (3) den Decoder verfeinern, um die Rekonstruktionsqualität zu verbessern. Diese Ausrichtung führt zu semantisch reichhaltigen Bild-Tokenizern, die Diffusionsmodelle begünstigen. Auf ImageNet 256×256 beschleunigt unser Tokenizer die Konvergenz von Diffusionsmodellen und erreicht einen gFID von 1,90 innerhalb von nur 64 Epochen, und verbessert die Generierung sowohl mit als auch ohne Classifier-Free Guidance. Bei der Skalierung auf LAION übertrifft ein 2B-Parameter Text-zu-Bild-Modell, das mit unserem Tokenizer trainiert wurde, den FLUX VAE unter denselben Trainingsschritten konsistent. Insgesamt ist unsere Methode einfach, skalierbar und etabliert ein semantisch fundiertes Paradigma für das Design kontinuierlicher Tokenizer.
Trotz ihrer Fähigkeiten bleiben Large Language Models (LLMs) undurchsichtig, mit begrenztem Verständnis ihrer internen Repräsentationen. Aktuelle Interpretationsmethoden wie die direkte Logit-Zuordnung (Direct Logit Attribution, DLA) und spärliche Autoencoder (Sparse Autoencoders, SAEs) bieten nur eingeschränkte Einblicke aufgrund von Beschränkungen wie dem Ausgabevokabular des Modells oder unklaren Feature-Namen. Diese Arbeit stellt Hyperdimensional Probe vor, ein neuartiges Paradigma zur Dekodierung von Informationen aus dem Vektorraum von LLMs. Es kombiniert Ideen aus symbolischen Repräsentationen und neuronalem Probing, um den Residualstrom des Modells über Vector Symbolic Architectures (VSAs) in interpretierbare Konzepte zu projizieren. Diese Sonde vereint die Stärken von SAEs und konventionellen Proben, während sie deren wesentliche Einschränkungen überwindet. Wir validieren unser Dekodierungsparadigma mit kontrollierten Eingabe-Vervollständigungsaufgaben, indem wir den Endzustand des Modells vor der nächsten Token-Vorhersage bei Eingaben untersuchen, die syntaktische Mustererkennung, Schlüssel-Wert-Assoziationen und abstrakte Inferenz umfassen. Weiterhin bewerten wir es in einem Frage-Antwort-Szenario, indem wir den Zustand des Modells sowohl vor als auch nach der Textgenerierung untersuchen. Unsere Experimente zeigen, dass unsere Sonde zuverlässig bedeutungsvolle Konzepte über verschiedene LLMs, Einbettungsgrößen und Eingabedomänen hinweg extrahiert und auch dabei hilft, Fehler von LLMs zu identifizieren. Unsere Arbeit fördert die Informationsdekodierung im Vektorraum von LLMs und ermöglicht die Extraktion informativerer, interpretierbarer und strukturierterer Merkmale aus neuronalen Repräsentationen.