Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Rekursive oder geschachtelte Sprachmodelle haben sich kürzlich als neue Skalierungsachse etabliert, indem sie dieselbe Modellberechnung iterativ über latente Zustände verfeinern, um das Reasoning zu vertiefen. Wir erweitern dieses Skalierungsprinzip von einem einzelnen Modell auf Multi-Agenten-Systeme und stellen die Frage: Kann Agentenkollaboration selbst durch Rekursion skaliert werden? Zu diesem Zweck führen wir RecursiveMAS ein, einen rekursiven Multi-Agenten-Rahmen, der das gesamte System als eine einheitliche latentraum-basierte rekursive Berechnung modelliert. RecursiveMAS verbindet heterogene Agenten durch das leichtgewichtige RecursiveLink-Modul zu einer Kollaborationsschleife, was die Erzeugung von In-Distribution-latenten Gedanken und den transfer von latenten Zuständen zwischen Agenten ermöglicht. Zur Optimierung unseres Frameworks entwickeln wir einen Inner-Outer-Loop-Lernalgorithmus zur iterativen Co-Optimierung des gesamten Systems durch eine gemeinsame gradientenbasierte Kreditzuweisung über Rekursionsrunden hinweg. Theoretische Analysen der Laufzeitkomplexität und Lern dynamiken belegen, dass RecursiveMAS effizienter ist als standardmäßige textbasierte MAS und während des rekursiven Trainings stabile Gradienten beibehält. Empirisch instanziieren wir RecursiveMAS unter vier repräsentativen Agentenkollaborationsmustern und evaluieren es über neun Benchmarks hinweg, die die Bereiche Mathematik, Naturwissenschaften, Medizin, Suche und Codegenerierung abdecken. Im Vergleich zu fortschrittlichen Single-/Multi-Agenten- und rekursiven Berechnungs-Baselines erzielt RecursiveMAS durchgängig eine durchschnittliche Genauigkeitssteigerung von 8,3 %, zusammen mit einer 1,2- bis 2,4-fachen Beschleunigung der Ende-zu-Ende-Inferenz und einer Reduktion der Token-Nutzung um 34,6 %–75,6 %. Code und Daten sind unter https://recursivemas.github.io verfügbar.
Die zuverlässige Übertragung spezialisierten menschlichen Wissens aus Text in große Sprachmodelle bleibt eine grundlegende Herausforderung der künstlichen Intelligenz. Feinabstimmung auf Fachkorpora hat zwar erhebliche Leistungssteigerungen ermöglicht, doch der Prozess erfolgt ohne Feedback: Wenn ein Modell bei einer Fachaufgabe versagt, gibt es keine Methode, um Mängel in den Trainingsdaten zu diagnostizieren, und der einzige Ausweg ist die wahllose Hinzufügung weiterer Daten. Hier zeigen wir, dass eine aus dem Quellkorpus extrahierte strukturierte Wissensrepräsentation als gemeinsame Grundlage für Trainingsdaten und Evaluation den vollständigen Data-Engineering-Lebenszyklus auf präzise und operative Weise auf den Software-Entwicklungslebenszyklus abbildet: Trainingsdaten werden zum Quellcode, der spezifiziert, was das Modell lernen soll, Modelltraining wird zur Kompilierung, Benchmarking wird zum Unit-Testing und fehlergetriebene Datenreparatur wird zum Debugging. Entsprechend dieser Analogie lassen sich Modellfehler auf konzeptuelle Lücken und Unterbrechungen in der Schlussfolgerungskette zurückführen, die sich auf spezifische Datenmängel zurückverfolgen und durch gezielte Patches beheben lassen. Jeder Reparaturzyklus führt dabei zu konsistenten Verbesserungen über verschiedene Modellgrößen und -architekturen hinweg, ohne allgemeine Fähigkeiten zu beeinträchtigen. Wir formalisieren dieses Prinzip als "Programmieren mit Daten" und implementieren es in sechzehn Disziplinen der Naturwissenschaften, Technik, Biomedizin und Sozialwissenschaften, wobei wir eine strukturierte Wissensbasis, einen Benchmark-Suite und einen Trainingskorpus als Open Resources veröffentlichen. Indem wir zeigen, dass die Beziehung zwischen Trainingsdaten und Modellverhalten strukturell nachvollziehbar und systematisch reparierbar ist, legt diese Arbeit eine prinzipiengeleitete Grundlage für die zuverlässige Integration menschlicher Expertise in Sprachmodelle.
Die Visualisierung von Real-World-Daten erfordert eine native Umgebungsintegration, plattformübergreifende Evolution und proaktive Intent-Abgleichung. Bisherige Benchmarks leiden jedoch häufig unter Code-Sandbox-Beschränkungen, einsprachigen Nur-Erstellungsaufgaben und der Annahme perfekter Intent-Spezifikation. Um diese Lücken zu schließen, stellen wir DV-World vor – einen Benchmark mit 260 Aufgaben zur Bewertung von DV-Agenten über reale professionale Lebenszyklen hinweg. DV-World umfasst drei Domänen: DV-Sheet zur nativen Tabellenkalkulationsbearbeitung inklusive Diagramm- und Dashboard-Erstellung sowie diagnostischer Reparatur; DV-Evolution zur Anpassung und Restrukturierung referenzieller Visual-Artefakte für neue Daten across diverser Programmierparadigmen; und DV-Interact für proaktiven Intent-Abgleich mit einem User-Simulator, der reale mehrdeutige Anforderungen nachbildet. Unser hybrides Evaluierungsframework integriert Table-Value-Alignment für numerische Präzision sowie MLLM-as-a-Judge mit Bewertungsrastern für semantisch-visuelle Beurteilung. Experimente zeigen, dass State-of-the-Art-Modelle weniger als 50% Gesamtleistung erreichen – ein Beleg für kritische Defizite bei der Bewältigung komplexer Real-World-Herausforderungen in der Datenvisualisierung. DV-World bietet eine realistische Testumgebung zur Entwicklung vielseitiger Expertise für Unternehmensworkflows. Unsere Daten und Codes sind verfügbar unter https://github.com/DA-Open/DV-World{dieser Projektseite}.
Autonome wissenschaftliche Forschung wird durch die Entwicklung von KI-Agenten erheblich vorangetrieben. Ein entscheidender Schritt in diesem Prozess ist das Auffinden der richtigen wissenschaftlichen Literatur, sei es zur Erschließung des vorhandenen Wissens für ein Forschungsproblem oder zum Erwerb von Belegen zur Überprüfung von Annahmen und zur Untermauerung von Behauptungen. Um die Fähigkeit von KI-Agenten zu bewerten, diesen Prozess voranzutreiben, stellen wir AutoResearchBench vor, einen speziellen Benchmark für die autonome Entdeckung wissenschaftlicher Literatur. AutoResearchBench besteht aus zwei komplementären Aufgabentypen: (1) Tiefenrecherche, die das Aufspüren eines spezifischen Zielartikels durch einen progressiven, mehrstufigen Suchprozess erfordert, und (2) Breitenrecherche, die das umfassende Sammeln einer Reihe von Artikeln erfordert, die vorgegebene Bedingungen erfüllen. Im Vergleich zu früheren Benchmarks für agentenbasiertes Web-Browsing zeichnet sich AutoResearchBench durch drei Dimensionen aus: Es ist forschungsorientiert und erfordert ein tiefgehendes Verständnis wissenschaftlicher Konzepte; literaturfokussiert und verlangt die feingranulare Nutzung detaillierter Informationen; sowie offen, da eine unbekannte Anzahl qualifizierter Artikel involviert ist und somit durchdachtes Schlussfolgern und Suchen erforderlich ist. Diese Eigenschaften machen AutoResearchBench einzigartig geeignet für die Bewertung autonomer Forschungskapazitäten und außerordentlich herausfordernd. Selbst die leistungsstärksten LLMs, die allgemeine agentenbasierte Web-Browsing-Benchmarks wie BrowseComp weitgehend gemeistert haben, erreichen nur 9,39 % Genauigkeit bei der Tiefenrecherche und 9,31 % IoU bei der Breitenrecherche, während viele andere starke Baseline-Modelle unter 5 % fallen. Wir veröffentlichen den Datensatz, die Evaluierungspipeline und den Code unter https://github.com/CherYou/AutoResearchBench, um zukünftige Forschung in dieser Richtung zu fördern.
Einheitliche multimodale Verständnis-/Generierungsmodelle haben durch die Integration von feinkörnigem Verständnis in ihre Chain-of-Thought (CoT)-Prozesse verbesserte Bildbearbeitungsleistungen gezeigt. Eine entscheidende Frage bleibt jedoch weitgehend unerforscht: Welche Formen von CoT und welche Trainingsstrategie können gemeinsam sowohl die Verständnisgranularität als auch die Generalisierung verbessern? Um dies zu adressieren, schlagen wir Meta-CoT vor, ein Paradigma, das eine zweistufige Zerlegung jeder Einzelbildbearbeitungsoperation mit zwei Schlüsseleigenschaften durchführt: (1) Zerlegbarkeit. Wir beobachten, dass jede Bearbeitungsabsicht als ein Triplett – (Aufgabe, Ziel, erforderliche Verständnisfähigkeit) – dargestellt werden kann. Inspiriert davon zerlegt Meta-CoT sowohl die Bearbeitungsaufgabe als auch das Ziel, erzeugt aufgabenspezifisches CoT und durchläuft Bearbeitungsoperationen für alle Ziele. Diese Zerlegung verbessert die Verständnisgranularität des Modells für Bearbeitungsoperationen und leitet es an, jedes Element des Tripletts während des Trainings zu lernen, was die Bearbeitungsfähigkeit erheblich steigert. (2) Generalisierbarkeit. Auf der zweiten Zerlegungsebene unterteilen wir Bearbeitungsaufgaben weiter in fünf fundamentale Meta-Aufgaben. Wir stellen fest, dass das Training an diesen fünf Meta-Aufgaben zusammen mit den anderen beiden Elementen des Tripletts ausreicht, um eine starke Generalisierung über diverse, ungesehene Bearbeitungsaufgaben zu erreichen. Um das Bearbeitungsverhalten des Modells besser mit seiner CoT-Argumentation in Einklang zu bringen, führen wir den CoT-Editing Consistency Reward ein, der eine genauere und effektivere Nutzung von CoT-Informationen während der Bearbeitung fördert. Experimente zeigen, dass unsere Methode eine Gesamtverbesserung von 15,8 % über 21 Bearbeitungsaufgaben hinweg erzielt und effektiv auf ungesehene Bearbeitungsaufgaben generalisiert, obwohl sie nur auf einer kleinen Menge von Meta-Aufgaben trainiert wurde. Unser Code, Benchmark und Modell sind unter https://shiyi-zh0408.github.io/projectpages/Meta-CoT/ veröffentlicht.
Vereinheitlichte multimodale Modelle (UMMs) integrieren visuelles Verständnis und Generierung innerhalb eines einzigen Frameworks. Für Text-zu-Bild (T2I)-Aufgaben ermöglicht diese vereinheitlichte Fähigkeit UMMs, Ausgaben nach ihrer anfänglichen Generierung zu verfeinern, was potenziell die obere Leistungsgrenze erweitert. Aktuelle auf UMMs basierende Verfeinerungsmethoden folgen primär einem Verfeinerung-durch-Bearbeitung (RvE)-Paradigma, bei dem UMMs Bearbeitungsanweisungen erzeugen, um fehlausgerichtete Regionen zu modifizieren, während gleichzeitig korrekt ausgerichtete Inhalte erhalten bleiben. Bearbeitungsanweisungen beschreiben die Prompt-Bild-Fehlausrichtung jedoch oft nur grob, was zu unvollständiger Verfeinerung führt. Darüber hinaus schränkt die Pixel-erhaltung, obwohl für die Bearbeitung notwendig, den effektiven Modifikationsraum für die Verfeinerung unnötig ein. Um diese Einschränkungen zu adressieren, schlagen wir Verfeinerung durch Regeneration (RvR) vor, ein neuartiges Framework, das Verfeinerung als konditionale Bildregeneration anstelle von Bearbeitung neu formuliert. Anstatt sich auf Bearbeitungsanweisungen zu verlassen und strikte Inhaltserhaltung durchzusetzen, regeneriert RvR Bilder bedingt durch den Ziel-Prompt und die semantischen Tokens des Ausgangsbildes, was eine vollständigere semantische Ausrichtung mit einem größeren Modifikationsraum ermöglicht. Umfangreiche Experimente demonstrieren die Wirksamkeit von RvR, die Geneval von 0,78 auf 0,91, DPGBench von 84,02 auf 87,21 und UniGenBench++ von 61,53 auf 77,41 verbessert.
In dieser Arbeit schlagen wir Mutual Forcing vor, einen Rahmen für die schnelle autoregressive Audio-Video-Generierung mit langfristiger Audio-Video-Synchronisation. Unser Ansatz adressiert zwei zentrale Herausforderungen: gemeinsame Audio-Video-Modellierung und schnelle autoregressive Generierung. Um die gemeinsame Audio-Video-Optimierung zu erleichtern, verwenden wir eine zweistufige Trainingsstrategie: Zuerst trainieren wir uni-modale Generatoren und koppeln diese dann zu einem vereinheitlichten Audio-Video-Modell für das gemeinsame Training auf gepaarten Daten. Für die Streaming-Generierung stellen wir die Frage, ob ein natives, schnelles kausales Audio-Video-Modell direkt trainiert werden kann, anstatt bestehenden Streaming-Distillations-Pipelines zu folgen, die typischerweise zuerst ein bidirektionales Modell trainieren und es dann durch mehrere Distillationsstufen in einen kausalen Generator umwandeln. Unsere Antwort ist Mutual Forcing, das direkt auf einem nativen autoregressiven Modell aufbaut und Wenigschritt- und Mehrschritt-Generierung innerhalb eines einzigen gewichteteilten Modells integriert, was Selbst-Distillation und eine verbesserte Trainings-Inferenz-Konsistenz ermöglicht. Der Mehrschritt-Modus verbessert den Wenigschritt-Modus durch Selbst-Distillation, während der Wenigschritt-Modus während des Trainings historischen Kontext generiert, um die Trainings-Inferenz-Konsistenz zu verbessern; da die beiden Modi Parameter teilen, verstärken sich diese beiden Effekte innerhalb eines einzigen Modells gegenseitig. Im Vergleich zu früheren Ansätzen wie Self-Forcing eliminiert Mutual Forcing die Notwendigkeit eines zusätzlichen bidirektionalen Lehrermodells, unterstützt flexiblere Trainingssequenzlängen, reduziert den Trainingsaufwand und ermöglicht es dem Modell, sich direkt aus echten gepaarten Daten anstatt von einem festen Lehrer zu verbessern. Experimente zeigen, dass Mutual Forcing starke Baseline-Modelle, die etwa 50 Abtastschritte benötigen, bei Verwendung von nur 4 bis 8 Schritten erreicht oder übertrifft, was erhebliche Vorteile sowohl in Effizienz als auch Qualität demonstriert. Die Projektseite ist unter https://mutualforcing.github.io verfügbar.
Jüngste Fortschritte bei großen Audio-Sprachmodellen haben Chain-of-Thought (CoT)-Reasoning auf den auditiven Bereich ausgeweitet, wodurch Modelle zunehmend komplexe akustische und Sprachaufgaben bewältigen können. Um diese erweiterten Denkketten auszulösen und aufrechtzuerhalten, stützt sich das vorherrschende Paradigma – angetrieben durch den Erfolg textbasierter Reasoning-Modelle – überwiegend auf Reinforcement Learning mit verifizierten Belohnungen (RLVR). Da Modelle jedoch strikt darauf optimiert werden, reiche, kontinuierliche auditive Kontexte in isolierte, verifizierbare Textlabels zu destillieren, stellt sich eine grundlegende Frage: Fördern wir wahre Audio-Intelligenz oder reduzieren wir lediglich ein kontinuierliches Sinnesmedium auf ein diskretes Puzzle? Wir identifizieren dies als die "Falle der verifizierbaren Belohnung". Während RLVR bemerkenswerte Ergebnisse auf standardisierten objektiven Benchmarks erzielt, verschlechtert es systematisch das realistische Gesprächsgefühl von Audio-Modellen. Indem es isolierte Korrektheit über akustische Nuancen stellt, reduziert RLVR dynamische Interaktionen auf mechanische "Antwortmaschinen" und beeinträchtigt dabei ernsthaft die prosodische Natürlichkeit, emotionale Kontinuität und Nutzerimmersion, insbesondere in Langzeitdialogen. Um die Lücke zwischen mechanischer objektiver Verifikation und echter sensorischer Empathie zu überbrücken, führen wir Step-Audio-R1.5 ein, das einen Paradigmenwechsel hin zu Reinforcement Learning from Human Feedback (RLHF) im Audio-Reasoning markiert. Umfassende Evaluationen zeigen, dass Step-Audio-R1.5 nicht nur robustes analytisches Reasoning beibehält, sondern das interaktive Erlebnis tiefgreifend transformiert und die Grenzen tief immersiver Langzeit-Sprachdialoge neu definiert.
Während Diffusionsmodelle hochwertige Videoclips generieren, bleibt deren Transformation in kohärente Storytelling-Engines eine Herausforderung. Bestehende agentenbasierte Pipelines automatisieren dies zwar durch verkettete Module, leiden jedoch unter semantischer Drift und kaskadierenden Fehlern aufgrund unabhängiger, handgefertigter Prompting-Verfahren. Wir stellen Co-Director vor, ein hierarchisches Multi-Agenten-Framework, das Video-Storytelling als globales Optimierungsproblem formalisiert. Um semantische Kohärenz zu gewährleisten, führen wir hierarchische Parametrisierung ein: Ein Multi-Armed-Bandit identifiziert global vielversprechende kreative Richtungen, während eine lokale multimodale Selbstoptimierungsschleife Identitätsdrift reduziert und Konsistenz auf Sequenzebene sicherstellt. Dies balanciert die Exploration neuartiger Erzählstrategien mit der Exploitation effektiver kreativer Konfigurationen. Zur Evaluation führen wir GenAD-Bench ein, einen 400-Szenarien-Datensatz fiktiver Produkte für personalisierte Werbung. Experimente zeigen, dass Co-Director state-of-the-art Baseline-Methoden signifikant übertrifft und einen prinzipienbasierten Ansatz bietet, der sich nahtlos auf breitere filmische Narrative verallgemeinern lässt. Projektseite: https://co-director-agent.github.io/
Die Implementierung von Schutzmaßnahmen für benutzerdefinierte Richtlinien bleibt eine Herausforderung, da generische Sicherheitsmodelle aufgabenspezifische Anforderungen nicht erfassen können, während Prompting von LLMs unter inkonsistenter Leistung in Grenzfällen und hohen Inferenzkosten leidet. Das Training benutzerdefinierter Klassifikatoren erreicht zwar Genauigkeit und Effizienz, erfordert jedoch umfangreiche gelabelte Daten, deren Beschaffung kostspielig ist. Wir stellen BARRED (Boundary Alignment Refinement through REflection and Debate) vor, ein Framework zur Erzeugung von zuverlässigen und diversen synthetischen Trainingsdaten unter Verwendung lediglich einer Aufgabenbeschreibung und einer kleinen Menge ungelabelter Beispiele. Unser Ansatz zerlegt den Domänenraum in Dimensionen, um umfassende Abdeckung zu gewährleisten, und setzt Multi-Agenten-Debatten ein, um die Label-Korrektheit zu verifizieren, was einen hochwertigen Trainingskorpus liefert. Experimente mit verschiedenen benutzerdefinierten Richtlinien zeigen, dass kleine Sprachmodelle, die auf unseren synthetischen Daten feinabgestimmt wurden, durchweg proprietäre State-of-the-Art-LLMs (einschließlich Reasoning-Modelle) und dedizierte Schutzmodelle übertreffen. Ablationsstudien bestätigen, dass sowohl Dimensionszerlegung als auch debattenbasierte Verifikation entscheidend für die Gewährleistung der für effektives Fine-Tuning erforderlichen Diversität und Label-Treue sind. Das BARRED-Framework beseitigt die Abhängigkeit von umfangreicher menschlicher Annotation und bietet eine skalierbare Lösung für präzise benutzerdefinierte Schutzmaßnahmen.
On-policy Distillation (OPD) hat ein großes Potenzial für die Übertragung von Reasoning-Fähigkeiten von führenden oder domänenspezifischen Modellen auf kleinere Studentenmodelle gezeigt. Während die Methode bei statischen Single-Turn-Aufgaben effektiv ist, bleibt ihr Verhalten in Multi-Turn-Agenten-Szenarien weitgehend unerforscht. In dieser Arbeit identifizieren wir eine zentrale Schwachstelle der herkömmlichen OPD in solchen Settings, die wir als Trajektorien-Level-KL-Instabilität bezeichnen. Konkret beobachten wir, dass die KL-Divergenz ansteigt, während die Erfolgsrate sinkt, und dass die KL-Divergenz selbst nach der Konvergenz hoch bleibt, was zu instabilem Training führt. Diese Instabilität entsteht durch die Aufsummierung von Fehlern über mehrere Turns hinweg: Wenn sich Fehler akkumulieren, bewegt sich das Studentenmodell außerhalb des effektiven Unterstützungsbereichs des Lehrers, was das Supervisionssignal unzuverlässig macht. Um dieses Problem zu lösen, schlagen wir TCOD (Temporal Curriculum On-Policy Distillation) vor, ein einfaches, aber effektives Framework, das die dem Studentenmodell ausgesetzte Trajektorienlänge kontrolliert und diese nach einem Curriculum-Plan schrittweise von kurz nach lang erweitert. Experimentelle Ergebnisse mit vier Lehrer-Schüler-Paaren auf drei Multi-Turn-Agenten-Benchmarks (ALFWorld, WebShop, ScienceWorld) zeigen, dass TCOD die KL-Eskalation abschwächt und die KL-Stabilität während des gesamten Trainings verbessert, was die Agentenleistung um bis zu 18 Punkte gegenüber der herkömmlichen OPD steigert. Weitere Auswertungen zeigen, dass TCOD sogar die Leistung des Lehrer-Modells übertreffen und sich auf Aufgaben verallgemeinern kann, bei denen der Lehrer versagt.
Terminale Agenten haben ein großes Potenzial für autonome Kommandozeilenausführung gezeigt, doch ihre Ausbildung bleibt durch die Knappheit hochwertiger und vielfältiger Ausführungspfade eingeschränkt. Bestehende Ansätze mildern diesen Engpass, indem sie groß angelegte Terminal-Aufgabeninstanzen für die Pfadabtastung synthetisieren. Sie konzentrieren sich jedoch primär auf die Skalierung der Aufgabenanzahl, während sie nur begrenzte Kontrolle über die Vielfalt der Ausführungspfade bieten, die Agenten während des Trainings tatsächlich erfahren. In diesem Artikel stellen wir SkillSynth vor, einen automatisierten Rahmen für die Synthese von Terminal-Aufgaben, der auf einem szenariovermittelten Fähigkeitsgraphen basiert. SkillSynth konstruiert zunächst einen groß angelegten Fähigkeitsgraphen, in dem Szenarien als intermediäre Transitionknoten fungieren, die verschiedene Kommandozeilenfähigkeiten verbinden. Anschließend tastet es Pfade von diesem Graphen als Abstraktionen realer Arbeitsabläufe ab und verwendet ein Multi-Agenten-System, um diese in ausführbare Aufgabeninstanzen zu instanziieren. Indem die Aufgaben synthese auf graph-abgetasteten Arbeitsablaufpfaden basiert, kontrolliert SkillSynth explizit die Vielfalt der minimalen Ausführungspfade, die zur Lösung der synthetisierten Aufgaben erforderlich sind. Experimente auf Terminal-Bench demonstrieren die Wirksamkeit von SkillSynth. Darüber hinaus wurden von SkillSynth synthetisierte Aufgabeninstanzen zur Ausbildung von Hy3 Preview übernommen, was zu dessen verbesserten agentenbasierten Fähigkeiten in terminalbasierten Umgebungen beigetragen hat.
Die Erstellung interaktiver STEM-Lernmaterialien erfordert traditionell HTML/CSS/JavaScript-Kenntnisse, was Hürden für Lehrkräfte darstellt. Zwar kann generative KI HTML-Codes erzeugen, doch bestehende Tools generieren statische Präsentationen statt interaktiver Simulationen, haben Schwierigkeiten mit langen Dokumenten und verfügen über keine Mechanismen zur Sicherung der pädagogischen Genauigkeit. Darüber hinaus erfordert eine vollständige Neugenerierung für Änderungen 200–600 Sekunden, was den kreativen Fluss unterbricht. Wir stellen MAIC-UI vor, ein No-Code-Autorensystem, das Lehrkräften ermöglicht, interaktive Lernmaterialien aus Lehrbüchern, PPTs und PDFs zu erstellen und schnell zu bearbeiten. MAIC-UI verwendet: (1) strukturierte Wissensanalyse mit multimodalem Verständnis zur Sicherung pädagogischer Strenge; (2) eine zweistufige Generate-Verify-Optimize-Pipeline, die Inhaltsausrichtung von visueller Verfeinerung trennt; und (3) Click-to-Locate-Bearbeitung mit Unified-Diff-basierter inkrementeller Generierung, die Iterationszyklen von unter 10 Sekunden erreicht. Eine kontrollierte Laborstudie mit 40 Teilnehmern zeigt, dass MAIC-UI Bearbeitungsiterationen reduziert (4,9 vs. 7,0) und die Erlernbarkeit sowie Steuerbarkeit im Vergleich zur direkten Text-zu-HTML-Generierung signifikant verbessert. Ein dreimonatiger Klassenraumeinsatz mit 53 Gymnasiasten demonstriert, dass MAIC-UI die Lernautonomie fördert und Leistungsunterschiede verringert – die Pilotklasse erzielte 9,21-Punkte-Zugewinne in MINT-Fächern im Vergleich zu -2,32 Punkten in Kontrollklassen. Unser Code ist verfügbar unter https://github.com/THU-MAIC/MAIC-UI.
Die Ausrichtung von entrauschenden generativen Modellen an menschlichen Präferenzen oder überprüfbaren Belohnungen bleibt eine zentrale Herausforderung. Während policy-basiertes Online Reinforcement Learning (RL) einen prinzipiellen Rahmen für das Nachtraining bietet, wird seine direkte Anwendung durch die nicht handhabbaren Likelihoods dieser Modelle behindert. Bestehende Arbeiten optimieren daher entweder einen induzierten Markov-Entscheidungsprozess (MDP) über Sampling-Trajektorien, was stabil aber ineffizient ist, oder verwenden Likelihood-Surrogate auf Basis der Diffusion Evidence Lower Bound (ELBO), die bisher bei der visuellen Generierung unterlegen waren. Unsere zentrale Erkenntnis ist, dass der ELBO-basierte Ansatz tatsächlich sowohl stabil als auch effizient gestaltet werden kann. Durch die Reduzierung der Surrogatvarianz und die Kontrolle von Gradientenschritten zeigen wir, dass dieser Ansatz MDP-basierte Methoden übertreffen kann. Zu diesem Zweck führen wir Variational GRPO (V-GRPO) ein, eine Methode, die ELBO-basierte Surrogate mit dem Group Relative Policy Optimization (GRPO)-Algorithmus sowie eine Reihe einfacher, aber wesentlicher Techniken integriert. Unser Ansatz ist einfach zu implementieren, steht im Einklang mit Vortrainingszielen und vermeidet die Einschränkungen MDP-basierter Methoden. V-GRPO erzielt state-of-the-art Leistung in der Text-zu-Bild-Synthese bei gleichzeitiger Verdopplung der Geschwindigkeit gegenüber MixGRPO und Verdreifachung gegenüber DiffusionNFT.
Während großskalige Video-Diffusionsmodelle beeindruckende Fähigkeiten bei der Erzeugung hochauflösender und semantisch reichhaltiger Inhalte demonstriert haben, besteht nach wie vor eine erhebliche Lücke zwischen ihrer Vorabtrainingsleistung und den Anforderungen des realen Einsatzes. Dies ist auf kritische Probleme wie Prompt-Empfindlichkeit, zeitliche Inkonsistenzen und prohibitive Inferenzkosten zurückzuführen. Um diese Lücke zu schließen, schlagen wir einen umfassenden Post-Training-Rahmen vor, der vortrainierte Modelle systematisch durch vier synergetische Stufen an die Benutzerabsichten anpasst: Zuerst setzen wir überwachtes Feintuning (SFT) ein, um das Basismodell in eine stabile, befehlsbefolgende Strategie zu transformieren. Darauf folgt eine Phase des Verstärkenden Lernens aus menschlichem Feedback (RLHF), die eine neuartige „Group Relative Policy Optimization“-Methode (GRPO) nutzt, die speziell für die Videodiffusion entwickelt wurde, um die perzeptuelle Qualität und zeitliche Kohärenz zu verbessern. Anschließend integrieren wir eine Prompt-Verbesserung mittels eines spezialisierten Sprachmodells, um Benutzereingaben zu verfeinern, und adressieren schließlich die Systemeffizienz durch Inferenzoptimierung. Zusammen bieten diese Komponenten einen systematischen Ansatz zur Verbesserung der visuellen Qualität, zeitlichen Kohärenz und Befehlstreue, wobei die während des Vortrainings erlernte Steuerbarkeit erhalten bleibt. Das Ergebnis ist eine praktische Blaupause für den Aufbau skalierbarer Post-Training-Pipelines, die stabil, anpassungsfähig und im realen Einsatz effektiv sind. Umfangreiche Experimente belegen, dass diese vereinheitlichte Pipeline gängige Artefakte effektiv reduziert und die Steuerbarkeit sowie visuelle Ästhetik signifikant verbessert, während strikte Stichprobenkostenbeschränkungen eingehalten werden.
Crowdsourcing-basierte paarweise Bewertung hat sich als skalierbarer Ansatz zur Evaluierung von Foundation Models etabliert. Die Anwendung auf Text-to-Speech (TTS) führt jedoch aufgrund der linguistischen Diversität und der multidimensionalen Natur der Sprachwahrnehmung zu einer hohen Varianz. Wir präsentieren ein kontrolliertes, multidimensionales Framework für die paarweise Evaluation von multilingualen TTS-Systemen, das linguistische Kontrolle mit wahrnehmungsbasierten Annotationen verbindet. Unter Verwendung von über 5.000 muttersprachlichen und Code-Mixed-Sätzen aus 10 indischen Sprachen evaluieren wir 7 state-of-the-art TTS-Systeme und sammeln über 120.000 paarweise Vergleiche von mehr als 1900 muttersprachlichen Bewertern. Zusätzlich zur Gesamtpräferenz geben die Bewerter Urteile über 6 perzeptive Dimensionen ab: Verständlichkeit, Ausdrucksstärke, Stimmqualität, Lebendigkeit, Störgeräusche und Halluzinationen. Mithilfe von Bradley-Terry-Modellierung erstellen wir ein multilinguales Leaderboard, interpretieren die menschliche Präferenz mittels SHAP-Analyse und untersuchen die Zuverlässigkeit des Leaderboards sowie die Stärken und Kompromisse der Modelle über die perzeptiven Dimensionen hinweg.
Große visuell-sprachliche Modelle (VLMs) werden zunehmend zur Bewertung der Ausgaben anderer Modelle eingesetzt, sowohl für Bild-zu-Text-Aufgaben (I2T) wie visuelle Fragebeantwortung als auch für Text-zu-Bild-Generierungsaufgaben (T2I). Trotz dieser wachsenden Abhängigkeit ist die Zuverlässigkeit dieser Evaluator-VLMs noch unzureichend erforscht. In dieser Arbeit evaluieren wir systematisch die Zuverlässigkeit von Evaluator-VLMs über I2T- und T2I-Aufgaben hinweg. Wir führen gezielte Störungen ein, die die Ausgabequalität entlang wichtiger Fehlerdimensionen verschlechtern, einschließlich Objekthalluzinationen, räumlichem Schlussfolgern, faktischer Fundierung und visueller Treue. Diese Störungen testen, ob Evaluator-VLMs zuverlässig diese qualitätsmindernden Fehler in ihren Bewertungen berücksichtigen können. Unter Verwendung eines umfassenden Benchmarks mit über 4000 gestörten Instanzen, die 40 Störungsdimensionen abdecken, evaluieren wir 4 prominente VLMs mittels Einzelantwort-Bewertung, paarweisem Vergleich und referenzgestützten Paradigmen. Unsere Ergebnisse zeigen, dass aktuelle VLM-Evaluatoren erhebliche blinde Flecken aufweisen: Sie erkennen oft gestörte Ausgaben nicht – in einigen Fällen zu mehr als 50 % –, haben besonders mit feinkörnigen kompositionellen und räumlichen Fehlern zu kämpfen und sind oft unempfindlich gegenüber halluzinierten Inhalten, die dem Eingabebild widersprechen. Der paarweise Vergleich erweist sich als zuverlässiger, dennoch bestehen Fehlerraten fort. Diese Ergebnisse unterstreichen die unzuverlässige Natur aktueller Evaluator-VLMs und mahnen zur Vorsicht bei ihrem Einsatz für Benchmarking und Entwicklungsentscheidungen. Code und Daten sind öffentlich verfügbar gemacht worden.
Jüngste Fortschritte bei der textgesteuerten Erzeugung menschlicher Bewegungen ermöglichen es Modellen, realistische Bewegungssequenzen aus natürlichen Sprachbeschreibungen zu synthetisieren. Die meisten bestehenden Ansätze gehen jedoch von identitätsneutralen Bewegungen aus und erzeugen Bewegungen unter Verwendung einer kanonischen Körperdarstellung, wobei der starke Einfluss der Körpermorphologie auf die Bewegungsdynamik ignoriert wird. In der Praxis beeinflussen Attribute wie Körperproportionen, Massenverteilung und Alter maßgeblich, wie Handlungen ausgeführt werden, und die Vernachlässigung dieser Kopplung führt oft zu physikalisch inkonsistenten Bewegungen. Wir schlagen ein identitätsbewusstes Bewegungsgenerierungsframework vor, das die Beziehung zwischen Körpermorphologie und Bewegungsdynamik explizit modelliert. Anstatt sich auf explizite geometrische Messungen zu verlassen, wird die Identität durch multimodale Signale repräsentiert, einschließlich natürlicher Sprachbeschreibungen und visueller Hinweise. Weiterhin führen wir ein Paradigma zur gemeinsamen Bewegungs- und Formgenerierung ein, das gleichzeitig Bewegungssequenzen und Körperformparameter synthetisiert und es Identitätshinweisen ermöglicht, die Bewegungsdynamik direkt zu modulieren. Umfangreiche Experimente mit Motion-Capture-Datensätzen und großen Mengen an In-the-Wild-Videos demonstrieren eine verbesserte Bewegungsrealität und Bewegung-Identitäts-Konsistenz bei gleichbleibend hoher Bewegungsqualität. Projektseite: https://vjwq.github.io/IAM
KI-Agenten werden zunehmend für komplexe, domänenspezifische Workflows eingesetzt – sie navigieren durch Unternehmens-Webanwendungen, die Dutzende von Klicks und Formularausfüllungen erfordern, orchestrieren mehrstufige Forschungspipelines, die Suche, Extraktion und Synthese umfassen, automatisieren Code-Reviews in unbekannten Repositorys und bearbeiten Kundeneskalationen, die nuanciertes Domänenwissen erfordern. Jede neue Aufgabendomäne erfordert aufwändige, expertengetriebene Harness-Entwicklung: das Design von Prompts, Tools, Orchestrierungslogik und Bewertungskriterien, die ein Foundation-Modell effektiv machen. Wir stellen ein Zwei-Ebenen-Framework vor, das diesen Prozess automatisiert. Auf der ersten Ebene optimiert die Harness-Evolutionsschleife das Harness H eines Worker-Agenten für eine einzelne Aufgabe: Ein Worker-Agent W_{H} führt die Aufgabe aus, ein Evaluator-Agent V diagnostiziert adversarisch Fehler und bewertet die Leistung, und ein Evolutions-Agent E modifiziert das Harness basierend auf der vollständigen Historie vorheriger Versuche. Auf der zweiten Ebene optimiert die Meta-Evolutionsschleife das Evolutionsprotokoll Λ = (W_{H}, H^{(0)}, V, E) selbst über diverse Aufgaben hinweg und lernt ein Protokoll Λ^{(best)}, das eine schnelle Harness-Konvergenz für jede neue Aufgabe ermöglicht – sodass die Anpassung eines Agenten an eine neuartige Domäne keinerlei manuelle Harness-Entwicklung mehr erfordert. Wir formalisieren die Entsprechung zu Meta-Learning und präsentieren beide Algorithmen. Das Framework verlagert manuelle Harness-Entwicklung in automatisierte Harness-Entwicklung und geht noch einen Schritt weiter – indem es das Design der Automatisierung selbst automatisiert.
Autonome Agenten, die in der Lage sind, grafische Benutzeroberflächen (GUIs) zu navigieren, haben das Potenzial, die digitale Produktivität zu revolutionieren. Das Erreichen echter digitaler Autonomie geht jedoch über reaktives Element-Matching hinaus; es erfordert ein prädiktives mentales Modell der Schnittstellendynamik und die Fähigkeit, den sich aus Interaktionen ergebenden "digitalen Weltzustand" vorherzusehen. Trotz der Wahrnehmungsfähigkeiten moderner Vision-Language-Models (VLMs) bleiben bestehende Benchmarks gespalten (sie konzentrieren sich entweder auf Blackbox-Aufgabenerfüllung oder statische, oberflächliche Verankerung) und bewerten somit nicht, ob Agenten die implizite Funktionalität und Übergangslogik von GUIs tatsächlich verstehen. Um diese Lücke zu schließen, stellen wir AutoGUI-v2 vor, einen umfassenden Benchmark zur Bewertung des tiefen Funktionalitätsverständnisses von GUIs und der Vorhersage von Interaktionsergebnissen. Wir konstruieren den Benchmark mithilfe einer neuartigen VLM-Mensch-Kollaborationspipeline, die Screenshots von Multi-Plattform-Systemen rekursiv in hierarchische Funktionsregionen zerlegt, um vielfältige Evaluierungsaufgaben zu generieren. Mit 2.753 Aufgaben über sechs Betriebssysteme hinweg testet AutoGUI-v2 Agenten rigoros in Bezug auf Semantik auf Regionen- und Elementebene, Verankerung und dynamische Zustandsvorhersage. Unsere Auswertung zeigt eine auffällige Dichotomie bei VLMs: Während quelloffene Modelle, die auf Agentendaten feinabgestimmt wurden (z.B. Qwen3-VL), bei der funktionalen Verankerung excellieren, dominieren kommerzielle Modelle (z.B. Gemini-2.5-Pro-Thinking) bei der Funktionalitätsbeschreibung. Entscheidend ist, dass alle Modelle mit der komplexen Interaktionslogik unüblicher Aktionen kämpfen, was zeigt, dass tiefes Funktionalitätsverständnis nach wie vor eine erhebliche Hürde darstellt. Durch die systematische Messung dieser grundlegenden Fähigkeiten bietet AutoGUI-v2 eine neue Perspektive für die Weiterentwicklung der nächsten Generation von GUI-Agenten.
Die Verankerung von Elementen der grafischen Benutzeroberfläche (GUI) (das präzise Lokalisieren von Elementen auf Bildschirmfotos anhand natürlicher Sprachbefehle) ist grundlegend für Agenten, die mit GUIs interagierenieren. Der direkte Einsatz dieser Fähigkeit auf ressourcenbeschränkten Geräten wie Mobiltelefonen wird für GUI-Agenten mit geringen Latenzanforderungen zunehmend kritisch. Dieses Ziel steht jedoch vor einer erheblichen Herausforderung, da aktuelle Methoden zur visuellen Verankerung typischerweise große Vision-Language-Modelle (VLM) (mit mehr als 2,5 Mrd. Parametern) verwenden, was sie aufgrund von Speicher- und Rechenbeschränkungen für die Ausführung auf dem Gerät ungeeignet macht. Um dieses Problem zu lösen, stellt dieser Beitrag GoClick vor, ein leichtgewichtiges VLM zur GUI-Elementverankerung mit nur 230 Mio. Parametern, das eine hervorragende Genauigkeit bei der visuellen Verankerung erreicht, die sogar mit der deutlich größerer Modelle vergleichbar ist. Die einfache Verkleinerung bestehender decoder-only VLMs ist ein naheliegender Weg, um ein leichtgewichtiges Modell zu entwerfen, aber unsere Experimente zeigen, dass dieser Ansatz suboptimale Ergebnisse liefert. Stattdessen wählen wir eine Encoder-Decoder-Architektur, die bei kleinen Parameterzahlen für GUI-Verankerungsaufgaben decoder-only Alternativen übertrifft. Zusätzlich motiviert uns die begrenzte Kapazität kleiner VLMs dazu, eine Progressive Data Refinement-Pipeline zu entwickeln, die Aufgabentyp-Filterung und Datenverhältnisanpassung nutzt, um einen hochwertigen Kerndatensatz mit 3,8 Mio. Beispielen aus einem Rohdatensatz mit 10,8 Mio. Beispielen zu extrahieren. Das Training von GoClick mit diesem Kerndatensatz führt zu bemerkenswerten Genauigkeitssteigerungen bei der Verankerung. Unsere Experimente zeigen, dass GoClick in mehreren Benchmarks zur GUI-Elementverankerung hervorragende Ergebnisse erzielt und dabei eine geringe Größe und hohe Inferenzgeschwindigkeit beibehält. GoClick verbessert auch die Leistung von GUI-Agenten, wenn es in ein Gerät-Cloud-Kollaborationsframework integriert wird, wo GoClick cloud-basierten Aufgabenplanern hilft, eine präzise Elementlokalisierung durchzuführen und höhere Erfolgsquoten zu erzielen. Wir hoffen, dass unsere Methode eine sinnvolle Exploration innerhalb der GUI-Agenten-Community darstellt.
Die Bewertung der Fairness von Empfehlungssystemen hat zunehmend an Bedeutung gewonnen, insbesondere durch die jüngste Gesetzgebung, die die Entwicklung einer fairen und verantwortungsvollen künstlichen Intelligenz betont. Dies hat zur Entstehung verschiedener Fairness-Bewertungsmaße geführt, die Fairness basierend auf unterschiedlichen Definitionen quantifizieren. Viele dieser Maße werden jedoch einfach vorgeschlagen und verwendet, ohne dass ihre Robustheit weiter analysiert wird. Infolgedessen besteht ein unzureichendes Verständnis und Bewusstsein für die Grenzen dieser Maße. Unter anderem ist nicht bekannt, welche Art von Modelloutputs die (un)fairsten Werte erzeugen, wie die Maßwerte empirisch verteilt sind und ob es Fälle gibt, in denen die Maße nicht berechnet werden können (z. B. aufgrund einer Division durch Null). Diese Probleme erschweren die Interpretation der Maßwerte und führen zu Verwirrung darüber, welche Maße für einen bestimmten Fall verwendet werden sollten. Diese Dissertation stellt eine Reihe von Artikeln vor, die verschiedene theoretische, empirische und konzeptionelle Grenzen bestehender Fairness-Bewertungsmaße für Empfehlungssysteme untersuchen und überwinden. Wir untersuchen eine breite Palette von Offline-Bewertungsmaßen für verschiedene Fairness-Konzepte, die nach Bewertungsobjekten (Nutzer und Items) und für verschiedene Bewertungsgranularitäten (Gruppen von Objekten und einzelne Objekte) unterteilt werden. Erstens führen wir eine theoretische und empirische Analyse der Maße durch, die Mängel aufdeckt, welche ihre Interpretierbarkeit, Aussagekraft oder Anwendbarkeit einschränken. Zweitens tragen wir neuartige Bewertungsansätze und Maße bei, die diese Grenzen überwinden. Schließlich empfehlen wir unter Berücksichtigung der Grenzen der Maße Richtlinien für deren angemessene Verwendung, um eine präzisere Auswahl von Fairness-Bewertungsmaßen in praktischen Szenarien zu ermöglichen. Insgesamt leistet diese Dissertation einen Beitrag zur Weiterentwicklung des Standes der Technik bei der Offline-Bewertung von Fairness in Empfehlungssystemen.