papers.description
In Diffusions-Transformer (DiT)-Modellen, insbesondere bei der Videogenerierung, stellt die Latenz der Aufmerksamkeit einen wesentlichen Engpass dar, bedingt durch die lange Sequenzlänge und die quadratische Komplexität. Wir stellen fest, dass die Aufmerksamkeitsgewichte in zwei Teile separiert werden können: einen kleinen Anteil großer Gewichte mit hohem Rang und die verbleibenden Gewichte mit sehr niedrigem Rang. Dies legt nahe, für den ersten Teil eine spärliche Beschleunigung und für den zweiten Teil eine Niedrigrang-Beschleunigung anzuwenden. Basierend auf dieser Erkenntnis schlagen wir SLA (Sparse-Linear Attention) vor, eine trainierbare Aufmerksamkeitsmethode, die spärliche und lineare Aufmerksamkeit kombiniert, um Diffusionsmodelle zu beschleunigen. SLA klassifiziert die Aufmerksamkeitsgewichte in kritische, marginale und vernachlässigbare Kategorien, wobei O(N^2)-Aufmerksamkeit auf kritische Gewichte, O(N)-Aufmerksamkeit auf marginale Gewichte angewendet wird und vernachlässigbare Gewichte übersprungen werden. SLA kombiniert diese Berechnungen in einem einzigen GPU-Kernel und unterstützt sowohl Vorwärts- als auch Rückwärtspass. Mit nur wenigen Feinabstimmungsschritten unter Verwendung von SLA erreichen DiT-Modelle eine 20-fache Reduktion der Aufmerksamkeitsberechnung, was zu einer erheblichen Beschleunigung ohne Qualitätsverlust bei der Generierung führt. Experimente zeigen, dass SLA die Aufmerksamkeitsberechnung um 95 % reduziert, ohne die end-to-end-Generierungsqualität zu beeinträchtigen, und dabei Baseline-Methoden übertrifft. Zusätzlich implementieren wir einen effizienten GPU-Kernel für SLA, der eine 13,7-fache Beschleunigung der Aufmerksamkeitsberechnung und eine 2,2-fache end-to-end-Beschleunigung bei der Videogenerierung auf Wan2.1-1.3B bewirkt.
Verbreitete semantische Sprach-Tokenizer, die darauf ausgelegt sind, linguistische Inhalte zu erfassen, erweisen sich überraschend fragil. Wir stellen fest, dass sie nicht robust gegenüber bedeutungsirrelevanten akustischen Störungen sind; selbst bei hohen Signal-Rausch-Verhältnissen (SNRs), bei denen die Sprache vollkommen verständlich ist, können sich ihre Ausgabesequenzen von Token drastisch ändern, was die Lernlast für nachgelagerte LLMs erhöht. Diese Instabilität rührt von zwei Schwächen her: einer brüchigen Einzelpfad-Quantisierungsarchitektur und einem entfernten Trainingssignal, das unempfindlich gegenüber der Stabilität von Zwischentoken ist. Um dies zu beheben, führen wir StableToken ein, einen Tokenizer, der Stabilität durch einen konsensgesteuerten Mechanismus erreicht. Seine Multi-Branch-Architektur verarbeitet Audiodaten parallel, und diese Repräsentationen werden über einen leistungsstarken bitweisen Abstimmungsmechanismus zu einer einzigen, stabilen Token-Sequenz zusammengeführt. StableToken setzt einen neuen Maßstab für die Token-Stabilität und reduziert die Unit Edit Distance (UED) unter verschiedenen Rauschbedingungen drastisch. Diese grundlegende Stabilität führt direkt zu Vorteilen in nachgelagerten Anwendungen und verbessert die Robustheit von SpeechLLMs bei einer Vielzahl von Aufgaben signifikant.
Reinforcement Learning from Human Feedback (RLHF) hat sich als Standardparadigma für die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen etabliert. Belohnungsbasierte Methoden, die auf der Bradley-Terry-Annahme basieren, haben jedoch Schwierigkeiten, die nicht-transitive und heterogene Natur realer Präferenzen zu erfassen. Um dies zu adressieren, haben neuere Studien die Ausrichtung als Zwei-Spieler-Nash-Spiel neu formuliert, was zu Nash Learning from Human Feedback (NLHF) geführt hat. Während diese Perspektive Algorithmen wie INPO, ONPO und EGPO mit starken theoretischen und empirischen Garantien inspiriert hat, bleiben sie grundsätzlich auf Zwei-Spieler-Interaktionen beschränkt, was eine Einzelgegner-Verzerrung erzeugt, die die volle Komplexität realistischer Präferenzstrukturen nicht erfassen kann. In dieser Arbeit stellen wir Multiplayer Nash Preference Optimization (MNPO) vor, ein neuartiges Framework, das NLHF auf den Multiplayer-Bereich verallgemeinert. Es formuliert die Ausrichtung als ein n-Spieler-Spiel, bei dem jede Strategie gegen eine Population von Gegnern antritt, während sie in Richtung eines Referenzmodells regularisiert wird. Unser Framework etabliert wohldefinierte Nash-Gleichgewichte in Multiplayer-Settings und erweitert das Konzept der Dualitätslücke, um die Approximationsqualität zu quantifizieren. Wir zeigen, dass MNPO die Gleichgewichtsgarantien von Zwei-Spieler-Methoden erbt, während es reichere Wettbewerbsdynamiken und eine verbesserte Abdeckung diverser Präferenzstrukturen ermöglicht. Durch umfassende empirische Evaluation zeigen wir, dass MNPO bestehende NLHF-Baselines auf Benchmarks zur Befolgung von Anweisungen konsequent übertrifft und eine überlegene Ausrichtungsqualität unter heterogenen Annotator-Bedingungen und gemischten Strategie-Evaluationsszenarien erreicht. Zusammen etablieren diese Ergebnisse MNPO als ein prinzipielles und skalierbares Framework für die Ausrichtung von LLMs an komplexen, nicht-transitiven menschlichen Präferenzen. Der Code ist verfügbar unter https://github.com/smiles724/MNPO.
Die Leistung von einheitlichen multimodalen Modellen für die Bildgenerierung und -bearbeitung ist grundlegend durch die Qualität und Vollständigkeit ihrer Trainingsdaten begrenzt. Während bestehende Datensätze grundlegende Aufgaben wie Stiltransfer und einfache Objektmanipulation abdecken, fehlt ihnen oft die systematische Struktur und die anspruchsvollen Szenarien, die für reale Anwendungen erforderlich sind. Um diesen Engpass zu überwinden, stellen wir OpenGPT-4o-Image vor, einen groß angelegten Datensatz, der mit einer neuartigen Methodik erstellt wurde, die hierarchische Aufgaben-Taxonomie mit automatisierter Datengenerierung kombiniert. Unsere Taxonomie umfasst nicht nur grundlegende Fähigkeiten wie Textdarstellung und Stilkontrolle, sondern führt auch hochpraktische, jedoch anspruchsvolle Kategorien wie wissenschaftliche Bilddarstellungen für chemische Illustrationen und komplexe Anweisungsbearbeitungen ein, die die gleichzeitige Ausführung mehrerer Operationen erfordern. Durch eine automatisierte Pipeline, die strukturierte Ressourcenpools und GPT-4o nutzt, generieren wir 80.000 hochwertige Anweisungs-Bild-Paare mit kontrollierter Vielfalt, die 11 Hauptdomänen und 51 Unteraufgaben abdecken. Umfangreiche Experimente zeigen, dass das Feinabstimmen führender Modelle auf unserem Datensatz signifikante Leistungssteigerungen über mehrere Benchmarks hinweg erzielt, mit Verbesserungen von bis zu 18 % bei Bearbeitungsaufgaben (UniWorld-V1 auf ImgEdit-Bench) und 13 % bei Generierungsaufgaben (Harmon auf GenEval). Unsere Arbeit zeigt, dass die systematische Datenkonstruktion der Schlüssel zur Weiterentwicklung multimodaler KI-Fähigkeiten ist.
Eine vorherrschende Sichtweise im Bereich Reinforcement Learning for Verifiable Rewards (RLVR) interpretiert die jüngsten Fortschritte durch die Linse eines Exploration-Exploitation-Trade-offs, eine Perspektive, die weitgehend durch Token-Level-Metriken geprägt ist. Wir überprüfen diese Perspektive erneut und schlagen vor, dass dieser wahrgenommene Trade-off möglicherweise keine grundlegende Einschränkung darstellt, sondern vielmehr ein Artefakt der Messebene ist. Um dies zu untersuchen, verlagern wir die Analyse in den semantisch reichen Hidden-State-Raum, wobei wir den Effective Rank (ER) zur Quantifizierung der Exploration verwenden und seine neuartigen ersten und zweiten Ableitungen, genannt Effective Rank Velocity (ERV) und Effective Rank Acceleration (ERA), vorschlagen, um die Exploitation-Dynamiken zu erfassen. Unsere Analyse zeigt, dass auf der Hidden-State-Ebene Exploration und Exploitation entkoppelt werden könnten (Abschnitt 4). Diese Erkenntnis offenbart eine Möglichkeit, beide Fähigkeiten gleichzeitig zu verbessern. Diese Einsicht motiviert unsere Methode, Velocity-Exploiting Rank-Learning (VERL), die als erste das Prinzip der synergetischen Exploration-Exploitation-Verbesserung operationalisiert, indem sie die RL-Vorteilsfunktion direkt gestaltet. Die zentrale Innovation besteht darin, den theoretisch stabilen ERA als prädiktiven Meta-Controller zu nutzen, um eine synergetische, dualkanalige Anreizstruktur zu schaffen. Anstatt einen Trade-off zu erzwingen, verstärkt VERL prospektiv die Belohnungen für die Exploration, um Selbstüberschätzung vorzubeugen, und festigt die exploitativen Gewinne, um die Argumentation zu konsolidieren. Experimente über diverse LLMs und Reasoning-Benchmarks zeigen konsistente Verbesserungen, einschließlich einer absoluten Genauigkeitssteigerung von bis zu 21,4 % auf dem anspruchsvollen Gaokao 2024-Datensatz.
Die Integration von visuellem Verständnis und Generierung in vereinheitlichte multimodale Modelle stellt einen bedeutenden Fortschritt in Richtung allgemeiner KI dar. Dennoch bleibt eine grundlegende Frage durch bestehende Benchmarks unbeantwortet: Ermöglicht diese architektonische Vereinheitlichung tatsächlich eine synergetische Interaktion zwischen den einzelnen Fähigkeiten? Bestehende Evaluierungsansätze, die hauptsächlich Verständnis und Generierung isoliert bewerten, sind unzureichend, um zu bestimmen, ob ein vereinheitlichtes Modell sein Verständnis nutzen kann, um seine Generierung zu verbessern, oder ob es generative Simulationen einsetzt, um ein tieferes Verständnis zu fördern. Um diese kritische Lücke zu schließen, führen wir RealUnify ein, einen Benchmark, der speziell zur Bewertung bidirektionaler Fähigkeitssynergie entwickelt wurde. RealUnify umfasst 1.000 sorgfältig von Menschen annotierte Instanzen, die 10 Kategorien und 32 Unteraufgaben abdecken. Er ist um zwei Kernachsen strukturiert: 1) Verständnis verbessert Generierung, was logisches Schlussfolgern (z. B. gesunder Menschenverstand, Logik) erfordert, um die Bildgenerierung zu steuern, und 2) Generierung verbessert Verständnis, was mentale Simulation oder Rekonstruktion (z. B. von transformierten oder ungeordneten visuellen Eingaben) erfordert, um logische Aufgaben zu lösen. Ein wesentlicher Beitrag ist unser duales Evaluierungsprotokoll, das eine direkte End-to-End-Bewertung mit einer diagnostischen schrittweisen Bewertung kombiniert, die Aufgaben in separate Verständnis- und Generierungsphasen zerlegt. Dieses Protokoll ermöglicht es uns, genau zu erkennen, ob Leistungsengpässe auf Defizite in den Kernfähigkeiten oder auf ein Scheitern bei deren Integration zurückzuführen sind. Durch groß angelegte Bewertungen von 12 führenden vereinheitlichten Modellen und 6 spezialisierten Baselines stellen wir fest, dass aktuelle vereinheitlichte Modelle immer noch Schwierigkeiten haben, eine effektive Synergie zu erreichen, was darauf hindeutet, dass die architektonische Vereinheitlichung allein nicht ausreicht. Diese Ergebnisse unterstreichen die Notwendigkeit neuer Trainingsstrategien und induktiver Verzerrungen, um das Potenzial vereinheitlichter Modellierung vollständig zu erschließen.
Wir stellen SANA-Video vor, ein kleines Diffusionsmodell, das effizient Videos mit einer Auflösung von bis zu 720x1280 und einer Länge von bis zu einer Minute erzeugen kann. SANA-Video synthetisiert hochauflösende, qualitativ hochwertige und lange Videos mit starker Text-Video-Ausrichtung bei einer bemerkenswert schnellen Geschwindigkeit, die auf RTX 5090 GPUs einsetzbar ist. Zwei Kernentwürfe gewährleisten unsere effiziente, effektive und lange Videogenerierung: (1) Linear DiT: Wir nutzen lineare Aufmerksamkeit als Kernoperation, die angesichts der großen Anzahl von Tokens, die bei der Videogenerierung verarbeitet werden, effizienter ist als herkömmliche Aufmerksamkeit. (2) Konstant-Speicher-KV-Cache für Block-Lineare Aufmerksamkeit: Wir entwerfen einen blockweisen autoregressiven Ansatz für die lange Videogenerierung, indem wir einen konstanten Speicherzustand verwenden, der aus den kumulativen Eigenschaften der linearen Aufmerksamkeit abgeleitet wird. Dieser KV-Cache bietet dem Linear DiT einen globalen Kontext zu festen Speicherkosten, eliminiert die Notwendigkeit eines traditionellen KV-Caches und ermöglicht eine effiziente, minutenlange Videogenerierung. Darüber hinaus untersuchen wir effektive Datenfilter und Modelltrainingsstrategien, die die Trainingskosten auf 12 Tage auf 64 H100 GPUs reduzieren, was nur 1 % der Kosten von MovieGen entspricht. Aufgrund der geringen Kosten erreicht SANA-Video eine wettbewerbsfähige Leistung im Vergleich zu modernen state-of-the-art kleinen Diffusionsmodellen (z. B. Wan 2.1-1.3B und SkyReel-V2-1.3B), während es 16x schneller in der gemessenen Latenz ist. Darüber hinaus kann SANA-Video auf RTX 5090 GPUs mit NVFP4-Präzision eingesetzt werden, was die Inferenzgeschwindigkeit bei der Erzeugung eines 5-Sekunden-720p-Videos von 71s auf 29s beschleunigt (2,4x Beschleunigung). Zusammenfassend ermöglicht SANA-Video eine kostengünstige, hochwertige Videogenerierung.
Diffusionssprachmodelle (DLMs) weisen eine starke theoretische Effizienz auf, sind jedoch durch eine feste Dekodierungslänge und Inkompatibilität mit Key-Value (KV)-Caches eingeschränkt. Blockdiffusion mildert diese Probleme, erzwingt jedoch weiterhin eine feste Blockgröße und erfordert aufwendiges Training. Wir führen Next Sequence Prediction (NSP) ein, das die Vorhersage des nächsten Tokens und des nächsten Blocks vereint und es dem Modell ermöglicht, die Generierungslänge in jedem Schritt adaptiv zu bestimmen. Wenn die Länge auf 1 festgelegt ist, reduziert sich NSP auf die Standardvorhersage des nächsten Tokens. Aufbauend auf NSP schlagen wir das Sequential Diffusion Language Model (SDLM) vor, das vortrainierte autoregressive Sprachmodelle (ALMs) mit minimalem Aufwand anpassen kann. Insbesondere führt SDLM die Diffusionsinferenz innerhalb fester Maskenblöcke durch, dekodiert jedoch aufeinanderfolgende Teilsequenzen dynamisch basierend auf der Modellkonfidenz, wodurch die KV-Cache-Kompatibilität erhalten bleibt und die Robustheit gegenüber variierender Unsicherheit und Semantik über die Sequenz hinweg verbessert wird. Experimente zeigen, dass SDLM starke autoregressive Baselines mit nur 3,5 Mio. Trainingsdaten erreicht oder übertrifft, während es einen 2,1-fach höheren Durchsatz als Qwen-2.5 erzielt. Besonders hervorzuheben ist, dass das SDLM-32B-Modell noch deutlichere Effizienzgewinne liefert, was das starke Skalierungspotenzial unseres Modellierungsparadigmas demonstriert. Projektseite und Codes: https://github.com/OpenGVLab/SDLM.
KI-Wissenschaftler entwickeln zunehmend computergestützte Systeme, die als kollaborative Partner in der Entdeckung dienen. Der Aufbau dieser Systeme bleibt jedoch eine Herausforderung, da sie maßgeschneidert sind, an starre Arbeitsabläufe gebunden sind und es an gemeinsamen Umgebungen mangelt, die Werkzeuge, Daten und Analysen in ein einheitliches Ökosystem integrieren. In der Omik-Forschung haben einheitliche Ökosysteme die Forschung revolutioniert, indem sie Interoperabilität, Wiederverwendung und gemeinschaftliche Entwicklung ermöglichten; KI-Wissenschaftler benötigen vergleichbare Infrastrukturen. Wir präsentieren ToolUniverse, ein Ökosystem zur Erstellung von KI-Wissenschaftlern aus beliebigen Sprachen oder Denkmodellen, sei es offen oder geschlossen. TOOLUNIVERSE standardisiert, wie KI-Wissenschaftler Werkzeuge identifizieren und aufrufen, und integriert mehr als 600 maschinelle Lernmodelle, Datensätze, APIs und wissenschaftliche Pakete für Datenanalyse, Wissensabruf und experimentelles Design. Es verfeinert automatisch Werkzeugschnittstellen für die korrekte Nutzung durch KI-Wissenschaftler, erstellt neue Werkzeuge aus natürlichen Sprachbeschreibungen, optimiert iterativ Werkzeugspezifikationen und kombiniert Werkzeuge zu agentenbasierten Arbeitsabläufen. In einer Fallstudie zur Hypercholesterinämie wurde ToolUniverse verwendet, um einen KI-Wissenschaftler zu erstellen, der ein wirksames Analogon eines Medikaments mit günstigen vorhergesagten Eigenschaften identifizierte. Das Open-Source-ToolUniverse ist unter https://aiscientist.tools verfügbar.
Große Sprachmodelle (LLMs) mit Fähigkeiten zur logischen Schlussfolgerung haben Spitzenleistungen in einer Vielzahl von Aufgaben erzielt. Trotz ihres empirischen Erfolgs sind die Aufgaben und Modellgrößen, bei denen logisches Schlussfolgern effektiv wird, sowie die damit verbundenen Trainings- und Inferenzkosten noch unzureichend erforscht. In dieser Arbeit stützen wir uns auf ein Framework zur synthetischen Datendestillation, um eine groß angelegte überwachte Studie durchzuführen. Wir vergleichen Instruction Fine-Tuning (IFT) und Modelle mit logischem Schlussfolgern unterschiedlicher Größen auf einer breiten Palette von mathematisch orientierten und allgemeinen Aufgaben, wobei sowohl Multiple-Choice- als auch offene Antwortformate bewertet werden. Unsere Analyse zeigt, dass logisches Schlussfolgern die Modellleistung konsequent verbessert und oft mit deutlich größeren IFT-Systemen gleichzieht oder diese übertrifft. Bemerkenswerterweise bleibt IFT zwar Pareto-optimal in Bezug auf Trainings- und Inferenzkosten, doch Modelle mit logischem Schlussfolgern werden mit zunehmender Modellgröße immer wertvoller, da sie die Leistungsgrenzen von IFT bei schlussfolgerungsintensiven und offenen Aufgaben überwinden.
Reinforcement-Learning-basierte Nachschulung hat sich kürzlich als leistungsstarkes Paradigma zur Verbesserung der Ausrichtung und der Fähigkeiten zum logischen Schlussfolgern von multimodalen großen Sprachmodellen (MLLMs) etabliert. Während visionzentrierte Nachschulung entscheidend ist, um das intrinsische Verständnis von visuellen Signalen in MLLMs zu verbessern, sind aktuelle Nachschulungsparadigmen überwiegend textzentriert, bei denen dichte visuelle Eingaben nur genutzt werden, um spärliche Hinweise für textbasiertes Schlussfolgern zu extrahieren. Es gibt zwar einige Ansätze in diese Richtung, jedoch stützen sie sich oft noch auf Text als vermittelndes Zwischenglied oder führen zusätzliche visuelle generative Designs ein. In dieser Arbeit stellen wir Visual Jigsaw vor, ein generisches, selbstüberwachtes Nachschulungsframework, das entwickelt wurde, um das visuelle Verständnis in MLLMs zu stärken. Visual Jigsaw wird als allgemeine Sortieraufgabe formuliert: Visuelle Eingaben werden partitioniert, gemischt, und das Modell muss die visuellen Informationen rekonstruieren, indem es die korrekte Permutation in natürlicher Sprache erzeugt. Dies passt natürlich zu Reinforcement Learning aus überprüfbaren Belohnungen (RLVR), erfordert keine zusätzlichen visuellen generativen Komponenten und leitet sein Überwachungssignal automatisch ohne jegliche Annotationen ab. Wir implementieren Visual Jigsaw über drei visuelle Modalitäten, einschließlich Bildern, Videos und 3D-Daten. Umfangreiche Experimente zeigen erhebliche Verbesserungen in der feinkörnigen Wahrnehmung, dem zeitlichen Schlussfolgern und dem räumlichen 3D-Verständnis. Unsere Ergebnisse unterstreichen das Potenzial selbstüberwachter, visionzentrierter Aufgaben in der Nachschulung von MLLMs und sollen weitere Forschung zu visionzentrierten Vorwanddesigns inspirieren. Projektseite: https://penghao-wu.github.io/visual_jigsaw/
Während Diffusionssprachmodelle (DLMs) eine vielversprechende Alternative zu autoregressiven Modellen (ARs) darstellen, leiden bestehende Open-Source-DLMs unter hoher Inferenzlatenz. Dieser Engpass ist hauptsächlich auf die quadratische Komplexität der Aufmerksamkeitsberechnung in Bezug auf die Kontextlänge zurückzuführen, da alle Query-Key-Paare berechnet werden müssen. Intuitiv liegt eine natürliche Strategie zur Reduzierung dieser Komplexität darin, die Aufmerksamkeit auf spärliche Muster zu beschränken, die nur die relevantesten Verbindungen beibehalten. Solche Ansätze sind in ARs etabliert, wo die Aufmerksamkeit festen und klar definierten spärlichen Mustern folgt. In DLMs beobachten wir jedoch unterschiedliche Sparsity-Verhalten: (1) Die Aufmerksamkeitsmuster variieren zwischen den Köpfen, (2) die Aufmerksamkeitsmuster in jedem Kopf bleiben über die Denoising-Schritte hinweg sehr ähnlich, und (3) frühe Denoising-Schritte sind entscheidend für die Generierung. Diese Erkenntnisse machen spärliche Aufmerksamkeitsmethoden, die für ARs entwickelt wurden, weitgehend inkompatibel mit DLMs, da sie kopf-spezifische Strukturen nicht erfassen und das Risiko bergen, die Generierung zu verschlechtern, wenn sie in frühen Denoising-Schritten angewendet werden. Um diese Herausforderungen zu bewältigen, schlagen wir SparseD vor, eine neuartige spärliche Aufmerksamkeitsmethode für DLMs. Unter Nutzung der Beobachtungen erfordert SparseD nur die einmalige Vorberechnung kopf-spezifischer spärlicher Muster, die dann über alle Schritte hinweg wiederverwendet werden. Dies verhindert die Neuberechnung spärlicher Muster in jedem Denoising-Schritt. Gleichzeitig verwendet SparseD in den frühen Schritten volle Aufmerksamkeit und wechselt später zu spärlicher Aufmerksamkeit, um die Generierungsqualität zu erhalten. Zusammen etabliert dies SparseD als eine praktische und effiziente Lösung für den Einsatz von DLMs in Anwendungen mit langem Kontext. Experimentelle Ergebnisse zeigen, dass SparseD eine verlustfreie Beschleunigung erreicht und bei einer Kontextlänge von 64k mit 1.024 Denoising-Schritten eine bis zu 1,50-fache Beschleunigung gegenüber FlashAttention liefert.
Vision-Language-Modelle (VLMs) ermöglichen eine einheitliche Modellierung von Bildern und Texten, wodurch sie komplexe reale Aufgaben durch Wahrnehmung, Planung und logisches Denken bewältigen können. Unter diesen Aufgaben ist das logische Denken besonders repräsentativ, wobei mathematisches Denken als herausragendes Beispiel dient. Es verdeutlicht die Fähigkeit von VLMs, mathematische Informationen in Bildern zu verstehen und anspruchsvolles logisches Denken durchzuführen. In jüngster Zeit wurden zahlreiche Benchmarks für visuelles mathematisches Denken vorgeschlagen, doch diese beschränken sich oft auf Geometrie, decken Textaufgaben nicht ab und bewerten selten das Denken über mehrere Bilder hinweg. Um diese Lücken zu schließen, führen wir GSM8K-V ein, einen rein visuellen Benchmark für mathematisches Denken mit mehreren Bildern. GSM8K-V wird durch die systematische Umwandlung jedes Beispiels aus dem weit verbreiteten textbasierten GSM8K in eine visuelle Form erstellt. Durch einen sorgfältig gestalteten automatisierten Bildgenerierungsprozess in Kombination mit akribischer menschlicher Annotation haben wir 1.319 hochwertige Beispiele zusammengestellt. Wir evaluieren eine Vielzahl von Open-Source- und Closed-Source-Modellen anhand von GSM8K-V. Die Ergebnisse zeigen, dass bestehende VLMs zwar eine nahezu gesättigte Leistung auf dem textbasierten GSM8K erreichen, es jedoch auf GSM8K-V noch erheblichen Verbesserungsbedarf gibt. Beispielsweise erzielt das leistungsstärkste Modell, Gemini-2.5-Pro, eine Genauigkeit von 95,22 % auf GSM8K, aber nur 46,93 % auf GSM8K-V. Wir führen eine umfassende Analyse von GSM8K-V durch, untersuchen die Grenzen aktueller Modelle sowie potenzielle Verbesserungsrichtungen. GSM8K-V bietet eine neue Perspektive auf visuelles mathematisches Denken und etabliert einen Benchmark, um die Entwicklung robusterer und generalisierbarer VLMs zu leiten.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als vielversprechendes Paradigma zur Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens herausgestellt. Aktuelle Methoden stützen sich hauptsächlich auf Policy-Optimierungs-Frameworks wie PPO und GRPO, die einem verallgemeinerten Policy-Iterationsprozess folgen, bei dem zwischen der Bewertung des aktuellen Policy-Werts und der Verbesserung der Policy basierend auf dieser Bewertung gewechselt wird. Obwohl effektiv, leiden sie oft unter Trainingsinstabilität und Diversitätsverlust, was komplexe heuristische Tricks und sorgfältiges Tuning erfordert. Wir beobachten, dass standardmäßiges RLVR im mathematischen Denken als ein spezialisierter, endlich-horizontiger Markov-Entscheidungsprozess mit deterministischen Zustandsübergängen, baumstrukturierter Dynamik und binären terminalen Belohnungen formalisiert werden kann. Obwohl groß angelegt, ist die zugrunde liegende Struktur einfacher als allgemeine Steuerungsszenarien, für die beliebte RL-Algorithmen (z.B. PPO) entwickelt wurden, was darauf hindeutet, dass mehrere ausgefeilte Techniken in bestehenden Methoden reduziert oder sogar weggelassen werden können. Basierend auf dieser Erkenntnis beweisen wir ein überraschendes Ergebnis: Die optimale Aktion kann aus der Q-Funktion einer festen, gleichmäßig zufälligen Policy rekonstruiert werden, wodurch der verallgemeinerte Policy-Iterationsprozess und die damit verbundenen Heuristiken umgangen werden. Wir führen Random Policy Valuation for Diverse Reasoning (ROVER) ein, um dieses Prinzip in einen praktischen und skalierbaren Algorithmus für das mathematische Denken von LLMs zu übersetzen – eine minimalistisch, aber äußerst effektive RL-Methode, die Aktionen aus einem Softmax über diese gleichmäßigen Policy-Q-Werte zieht. ROVER bewahrt die Diversität während des gesamten Trainings und ermöglicht eine kontinuierliche Exploration mehrerer gültiger Pfade. Über mehrere Basismodelle und standardisierte mathematische Denkbenchmarks hinweg zeigt ROVER eine überlegene Leistung sowohl in der Qualität (+8,2 bei pass@1, +16,8 bei pass@256) als auch in der Diversität (+17,6\%), trotz seiner radikalen Vereinfachung im Vergleich zu starken, komplizierten bestehenden Methoden.
Anweisungsgesteuertes Bildbearbeitung hat bemerkenswerte Fortschritte erzielt, doch aktuelle Modelle stehen weiterhin vor Herausforderungen bei komplexen Anweisungen und benötigen oft mehrere Proben, um ein gewünschtes Ergebnis zu erzielen. Reinforcement Learning (RL) bietet eine vielversprechende Lösung, doch seine Anwendung in der Bildbearbeitung wurde bisher stark durch das Fehlen eines hochpräzisen, effizienten Belohnungssignals behindert. In dieser Arbeit präsentieren wir eine umfassende Methodik, um diese Hürde zu überwinden, die auf der Entwicklung eines spezialisierten Belohnungsmodells auf dem neuesten Stand der Technik basiert. Wir führen zunächst EditReward-Bench ein, einen umfassenden Benchmark, um Belohnungsmodelle systematisch anhand der Bearbeitungsqualität zu bewerten. Aufbauend auf diesem Benchmark entwickeln wir EditScore, eine Reihe von Belohnungsmodellen (7B-72B) zur Bewertung der Qualität anweisungsgesteuerter Bildbearbeitung. Durch sorgfältige Datenkuratierung und -filterung erreicht EditScore effektiv die Leistung proprietärer VLMs. Darüber hinaus übertrifft unsere größte Variante, gekoppelt mit einer effektiven Selbst-Ensemble-Strategie, die auf die generative Natur von EditScore zugeschnitten ist, sogar GPT-5 im Benchmark. Wir zeigen dann, dass ein hochpräzises Belohnungsmodell der Schlüssel zur Nutzung von Online-RL in der Bildbearbeitung ist. Unsere Experimente zeigen, dass selbst die größten Open-Source-VLMs kein effektives Lernsignal liefern können, während EditScore eine effiziente und robuste Politikoptimierung ermöglicht. Die Anwendung unseres Frameworks auf ein starkes Basismodell, OmniGen2, führt zu einem Endmodell, das eine erhebliche und konsistente Leistungssteigerung zeigt. Insgesamt bietet diese Arbeit den ersten systematischen Weg vom Benchmarking über die Belohnungsmodellierung bis hin zum RL-Training in der Bildbearbeitung und zeigt, dass ein hochpräzises, domänenspezialisiertes Belohnungsmodell der Schlüssel zur vollständigen Ausschöpfung des Potenzials von RL in diesem Bereich ist.
Deep Research Agents (DRAs) können eigenständig komplexe Untersuchungen durchführen und umfassende Berichte erstellen, was ihr erhebliches Potenzial in der Praxis unterstreicht. Bisherige Bewertungen stützen sich jedoch hauptsächlich auf geschlossene Benchmarks, während offene Benchmarks für tiefgehende Recherchen rar sind und in der Regel personalisierte Szenarien vernachlässigen. Um diese Lücke zu schließen, führen wir den Personalized Deep Research Bench ein, den ersten Benchmark zur Bewertung der Personalisierung in DRAs. Er kombiniert 50 vielfältige Rechercheaufgaben aus 10 Domänen mit 25 authentischen Benutzerprofilen, die strukturierte Persona-Attribute mit dynamischen realen Kontexten verbinden, und erzeugt so 250 realistische Benutzer-Aufgaben-Abfragen. Um die Systemleistung zu bewerten, schlagen wir das PQR-Bewertungsframework vor, das (P) Personalisierungsausrichtung, (Q) Inhaltsqualität und (R) faktische Zuverlässigkeit gemeinsam misst. Unsere Experimente mit einer Reihe von Systemen verdeutlichen die aktuellen Fähigkeiten und Grenzen bei der Handhabung personalisierter tiefer Recherchen. Diese Arbeit schafft eine fundierte Grundlage für die Entwicklung und Bewertung der nächsten Generation wirklich personalisierter KI-Rechercheassistenten.
Die Steuerung großer Sprachmodelle (LLMs) hat sich als vielversprechendes Paradigma etabliert, um das Modellverhalten zur Inferenzzeit durch gezielte Manipulation versteckter Zustände zu kontrollieren. Dies bietet eine leichtgewichtige Alternative zu kostspieligen Nachschulungen. Allerdings leiden bestehende Steuerungsframeworks unter kritischen Einschränkungen: ineffiziente Berechnungen, begrenzte Erweiterbarkeit und eingeschränkte Funktionalität, die sowohl den Forschungsfortschritt als auch die praktische Anwendung behindern. Wir präsentieren EasySteer, ein einheitliches Framework für hochleistungsfähige, erweiterbare LLM-Steuerung, das auf vLLM basiert. Unser System verfügt über eine modulare Architektur mit anpassbaren Schnittstellen für sowohl analysebasierte als auch lernbasierte Methoden, fein abgestimmte Parameterkontrolle, vorberechnete Steuerungsvektoren für acht Anwendungsbereiche und ein interaktives Demonstrationssystem. Durch die tiefe Integration mit vLLMs optimiertem Inferenzmotor erreicht EasySteer eine 5,5- bis 11,4-fache Beschleunigung gegenüber bestehenden Frameworks. Umfangreiche Experimente belegen seine Wirksamkeit bei der Reduzierung von Überdenken, Halluzinationen und anderen Schlüsselanwendungen. EasySteer wandelt die Steuerung von einer Forschungstechnik in eine produktionsreife Fähigkeit um und schafft damit eine kritische Infrastruktur für einsetzbare, kontrollierbare Sprachmodelle.
Jüngste Fortschritte in der Text-zu-Video-Generierung haben zunehmend realistische und vielfältige Inhalte hervorgebracht, doch die Bewertung solcher Videos bleibt eine grundlegende Herausforderung aufgrund ihrer vielschichtigen Natur, die visuelle Qualität, semantische Ausrichtung und physikalische Konsistenz umfasst. Bestehende Bewertungssysteme und Belohnungsmodelle beschränken sich auf einzelne undurchsichtige Bewertungen, mangelt es an Interpretierbarkeit oder bieten nur grobe Analysen, was sie unzureichend für die umfassende Beurteilung der Videoqualität macht. Wir präsentieren VideoScore2, ein mehrdimensionales, interpretierbares und menschlich ausgerichtetes Framework, das explizit die visuelle Qualität, die Text-zu-Video-Ausrichtung sowie die physikalische/gesunde Menschenverstand-Konsistenz bewertet und dabei detaillierte Chain-of-Thought-Begründungen liefert. Unser Modell wurde auf einem groß angelegten Datensatz VideoFeedback2 trainiert, der 27.168 von Menschen annotierte Videos mit Bewertungen und Begründungsspuren über drei Dimensionen enthält, wobei eine zweistufige Pipeline aus überwachtem Feinabgleich gefolgt von Reinforcement Learning mit Group Relative Policy Optimization (GRPO) verwendet wird, um die analytische Robustheit zu verbessern. Umfangreiche Experimente zeigen, dass VideoScore2 eine überlegene Leistung mit 44,35 (+5,94) Genauigkeit auf unserem domänenspezifischen Benchmark VideoScore-Bench-v2 und 50,37 (+4,32) durchschnittlicher Leistung über vier domänenübergreifende Benchmarks (VideoGenReward-Bench, VideoPhy2, etc.) erzielt, während es interpretierbare Bewertungen liefert, die die Lücke zwischen Bewertung und kontrollierbarer Generierung durch effektive Belohnungsmodellierung für Best-of-N-Sampling schließen. Projektseite: https://tiger-ai-lab.github.io/VideoScore2/
Die Erzeugung von Streaming-Videos, als eine grundlegende Komponente in interaktiven Weltmodellen und neuronalen Spiel-Engines, zielt darauf ab, hochwertige, latenzarme und zeitlich kohärente lange Videoströme zu generieren. Die meisten bestehenden Ansätze leiden jedoch unter einer erheblichen Fehlerakkumulation, die die generierten Videoströme über lange Zeiträume oft erheblich verschlechtert. Wir entwickeln Rolling Forcing, eine neuartige Videogenerierungstechnik, die das Streaming langer Videos mit minimaler Fehlerakkumulation ermöglicht. Rolling Forcing umfasst drei innovative Designelemente. Erstens entwerfen wir anstelle der iterativen Erzeugung einzelner Frames, die die Fehlerausbreitung beschleunigt, ein gemeinsames Entrauschungsschema, das mehrere Frames gleichzeitig mit progressiv ansteigenden Rauschpegeln entrauscht. Dieser Ansatz lockert die strikte Kausalität zwischen benachbarten Frames und unterdrückt effektiv das Fehlerwachstum. Zweitens führen wir den Attention-Sink-Mechanismus in die Aufgabe der langfristigen Videostromgenerierung ein, wodurch das Modell die Schlüsselwertzustände der Anfangsframes als globalen Kontextanker behalten kann und somit die langfristige globale Konsistenz verbessert. Drittens entwickeln wir einen effizienten Trainingsalgorithmus, der eine Distillation mit wenigen Schritten über stark erweiterte Entrauschungsfenster ermöglicht. Dieser Algorithmus arbeitet auf nicht überlappenden Fenstern und reduziert den Exposure Bias, der auf selbstgenerierten Verläufen basiert. Umfangreiche Experimente zeigen, dass Rolling Forcing die Echtzeit-Streaming-Generierung von mehrminütigen Videos auf einer einzelnen GPU ermöglicht, wobei die Fehlerakkumulation erheblich reduziert wird.
Wir präsentieren HunyuanImage 3.0, ein natives multimodales Modell, das multimodales Verstehen und Generierung innerhalb eines autoregressiven Frameworks vereint, wobei sein Bildgenerierungsmodul öffentlich zugänglich ist. Die Leistung von HunyuanImage 3.0 basiert auf mehreren Schlüsselkomponenten, darunter sorgfältige Datenkuratierung, fortschrittliche Architekturdesigns, ein natives Chain-of-Thoughts-Schema, progressives Modell-Pre-Training, aggressives Modell-Post-Training und eine effiziente Infrastruktur, die groß angelegtes Training und Inferenz ermöglicht. Mit diesen Fortschritten haben wir erfolgreich ein Mixture-of-Experts (MoE)-Modell trainiert, das insgesamt über 80 Milliarden Parameter umfasst, wobei pro Token während der Inferenz 13 Milliarden Parameter aktiviert werden, was es zum größten und leistungsstärksten Open-Source-Bildgenerierungsmodell macht, das bisher verfügbar ist. Wir haben umfangreiche Experimente durchgeführt, und die Ergebnisse der automatischen und menschlichen Bewertung der Text-Bild-Ausrichtung und visuellen Qualität zeigen, dass HunyuanImage 3.0 mit früheren State-of-the-Art-Modellen konkurrieren kann. Durch die Veröffentlichung des Codes und der Gewichte von HunyuanImage 3.0 möchten wir der Community ermöglichen, neue Ideen mit einem State-of-the-Art-Foundation-Modell zu erkunden und so ein dynamisches und lebendiges multimodales Ökosystem zu fördern. Alle Open-Source-Assets sind öffentlich unter https://github.com/Tencent-Hunyuan/HunyuanImage-3.0 verfügbar.
Reinforcement Learning (RL) hat sich als ein beliebtes Trainingsparadigma etabliert, insbesondere in Kombination mit Reasoning-Modellen. Obwohl effektiv, konzentriert es sich hauptsächlich auf die Generierung von Antworten und verfügt über keine Mechanismen, um Kritik oder Reflexion explizit zu fördern. Mehrere aktuelle Studien, wie Critique-Fine-Tuning (CFT) und Critique-Guided-Distillation (CGD), haben die Vorteile des expliziten Lehrens von LLMs, wie man kritisiert, aufgezeigt. Motiviert durch diese Ansätze schlagen wir Critique Reinforcement Learning (CRL) vor, bei dem das Modell die Aufgabe hat, eine Kritik für ein gegebenes (Frage, Lösung)-Paar zu generieren. Die Belohnung wird ausschließlich dadurch bestimmt, ob das endgültige Urteilslabel c in {Wahr, Falsch} der generierten Kritik mit dem Ground-Truth-Urteil c^* übereinstimmt. Aufbauend auf diesem Punkt führen wir Critique-Coder ein, das auf einer Mischung aus RL und CRL trainiert wird, indem 20\% der Standard-RL-Daten durch CRL-Daten ersetzt werden. Wir feintunen mehrere Modelle (Critique-Coder) und evaluieren sie auf verschiedenen Benchmarks, um ihre Vorteile gegenüber reinen RL-Modellen zu zeigen. Wir zeigen, dass Critique-Coder durchweg die reinen RL-Baselines auf allen evaluierten Benchmarks übertrifft. Insbesondere kann unser Critique-Coder-8B auf LiveCodeBench (v5) über 60\% erreichen und damit andere Reasoning-Modelle wie DeepCoder-14B und GPT-o1 übertreffen. Über die Codegenerierung hinaus zeigt Critique-Coder auch verbesserte allgemeine Reasoning-Fähigkeiten, wie seine bessere Leistung bei logischen Reasoning-Aufgaben aus dem BBEH-Datensatz belegt. Dies deutet darauf hin, dass die Anwendung von CRL auf Coding-Datensätze das allgemeine Reasoning und die Kritikfähigkeiten verbessert, die auf eine breite Palette von Aufgaben übertragbar sind. Daher glauben wir, dass CRL eine hervorragende Ergänzung zum Standard-RL für das Reasoning von LLMs darstellt.
Wir postulieren, dass zukünftige Modelle, um kontinuierliche Verbesserungen und vielseitige Ausrichtung zu erreichen, aus natürlichen menschlichen Interaktionen lernen müssen. Aktuelle konversationelle Modelle werden mithilfe von vorannotierten, von Experten generierten menschlichen Rückmeldungen ausgerichtet. In dieser Arbeit führen wir Reinforcement Learning from Human Interaction (RLHI) ein, ein Paradigma, das direkt aus realen Benutzerkonversationen lernt. Wir entwickeln zwei komplementäre Methoden: (1) RLHI mit benutzergeleiteten Überarbeitungen, die unbefriedigende Modellausgaben basierend auf den natürlichen Sprachantworten der Benutzer revidiert, und (2) RLHI mit benutzerbasierten Belohnungen, das über ein Belohnungsmodell lernt, das auf dem Wissen über die langfristige Interaktionshistorie des Benutzers (als Persona bezeichnet) basiert. Zusammen verknüpfen diese Methoden langfristige Benutzerpersonas mit turn-basierten Präferenzen durch persona-konditionierte Präferenzoptimierung. Beide RLHI-Varianten, die auf Konversationen aus WildChat trainiert wurden, übertreffen starke Baselines in Bezug auf Personalisierung und Befolgung von Anweisungen, und ähnliche Rückmeldungen verbessern die Leistung bei Reasoning-Benchmarks. Diese Ergebnisse deuten darauf hin, dass organische menschliche Interaktion skalierbare und effektive Supervision für personalisierte Ausrichtung bietet.
Wir untersuchen das Problem der Anwendung von 3D-Foundation-Modellen (3DFMs) auf die dichte Neuansichtssynthese (Novel View Synthesis, NVS). Trotz erheblicher Fortschritte in der Neuansichtssynthese, die durch NeRF und 3DGS ermöglicht werden, sind aktuelle Ansätze weiterhin auf präzise 3D-Attribute (z.B. Kameraposen und Punktwolken) angewiesen, die durch Structure-from-Motion (SfM) erfasst werden. Dies ist jedoch oft langsam und fehleranfällig bei Aufnahmen mit geringer Textur oder geringer Überlappung. Neuere 3DFMs zeigen eine um Größenordnungen beschleunigte Verarbeitung im Vergleich zur traditionellen Pipeline und großes Potenzial für Online-NVS. Die meisten Validierungen und Schlussfolgerungen beschränken sich jedoch auf Sparse-View-Szenarien. Unsere Studie zeigt, dass die naive Skalierung von 3DFMs auf dichte Ansichten auf zwei grundlegende Barrieren stößt: einen dramatisch ansteigenden VRAM-Bedarf und unvollkommene Ausgaben, die die initialisierungsempfindliche 3D-Ausbildung beeinträchtigen. Um diese Barrieren zu überwinden, führen wir VGGT-X ein, das eine speichereffiziente VGGT-Implementierung umfasst, die auf über 1.000 Bilder skaliert, eine adaptive globale Ausrichtung zur Verbesserung der VGGT-Ausgaben sowie robuste 3DGS-Trainingspraktiken. Umfangreiche Experimente zeigen, dass diese Maßnahmen die Qualitätslücke zu COLMAP-initialisierten Pipelines erheblich verringern und state-of-the-art Ergebnisse in der dichten COLMAP-freien NVS und Pose-Schätzung erzielen. Zusätzlich analysieren wir die Ursachen der verbleibenden Lücken im Vergleich zu COLMAP-initialisiertem Rendering und liefern Erkenntnisse für die zukünftige Entwicklung von 3D-Foundation-Modellen und dichter NVS. Unsere Projektseite ist unter https://dekuliutesla.github.io/vggt-x.github.io/ verfügbar.
Große Sprachmodelle (LLMs) zeichnen sich durch allgemeines mathematisches Denken aus, scheitern jedoch katastrophal bei spezialisierter technischer Mathematik. In der drahtlosen Kommunikation, wo Probleme eine präzise Manipulation von informationstheoretischen Grenzen, Optimierungsbeschränkungen und Signalverarbeitungsformulierungen erfordern, kämpfen selbst state-of-the-art Modelle darum, kompetente Leistungen zu erzielen. Wir präsentieren WirelessMathLM und zeigen, dass kompakte Modelle (0,5B–7B Parameter) durch domänenspezifisches Reinforcement Learning mit überprüfbaren Belohnungen viel größere Modelle übertreffen oder gleichziehen können. Unsere zentrale Erkenntnis ist, dass Probleme der drahtlosen Mathematik eine einzigartige Eigenschaft besitzen – überprüfbare Korrektheit –, die effektives Reinforcement Learning ohne menschliches Feedback ermöglicht. Wir konstruieren WirelessMathBench-XL, einen umfassenden Benchmark mit 4.027 Problemen aus 970 wissenschaftlichen Arbeiten. Unter Verwendung von Group Relative Policy Optimization (GRPO) mit binären Überprüfungsbelohnungen trainieren wir Modelle direkt von Basis-Checkpoints aus, ohne überwachte Vorbereitung. Unser 7B-Modell erreicht eine Genauigkeit von 39,5 % auf WirelessMathBench-XL und nähert sich GPT-4o (40,4 %) an, während es etwa 100 Mal weniger Parameter verwendet als DeepSeek-R1 (671B, 57,4 %). Bemerkenswerterweise verdoppelt das GRPO-Training nahezu die Leistung über alle Modellgrößen hinweg (0,5B +11 %, 3B +103 %, 7B +81 %), mit positiver Übertragung auf allgemeine mathematische Benchmarks – unsere Modelle gewinnen durchschnittlich +8,4 Punkte auf MATH, Minerva-Math, OlympiadBench, AMC und AIME, ohne spezifisches Training für diese Aufgaben.
Vermittelt RL LLMs tatsächlich neue Fähigkeiten, oder aktiviert es lediglich bestehende? Diese Frage steht im Zentrum der aktuellen Debatten über die Rolle von RL in der Nachschulung von LLMs. Einerseits können mit RL auch ohne vorheriges überwachtes Feintuning starke empirische Ergebnisse erzielt werden; andererseits argumentieren Kritiker, dass RL wenig mehr beiträgt als die Neugewichtung bestehender Denkstrategien. Diese Arbeit liefert konkrete Belege dafür, dass LLMs während des RL tatsächlich neue Fähigkeiten erwerben können, indem sie bestehende kombinieren – ein Mechanismus, der dem zentralen Prozess ähnelt, durch den Menschen neue kognitive Fähigkeiten erlangen. Um Datenkontamination und andere Störfaktoren zu minimieren und eine präzise Kontrolle über die Aufgabenkomplexität zu ermöglichen, entwickeln wir ein synthetisches Rahmenwerk für unsere Untersuchung. Konkret definieren wir eine Fähigkeit als die Möglichkeit, die Ausgabe einer String-Transformationsfunktion f(x) bei gegebenem x abzuleiten. Wenn ein LLM f und g bereits vor dem RL gelernt hat, zeigen unsere Experimente, dass RL es ihm ermöglicht, unbekannte Kompositionen davon zu erlernen, wie h(x)=g(f(x)). Darüber hinaus verallgemeinert sich diese Kompositionsfähigkeit auf schwierigere Probleme, wie die Komposition von >2 Funktionen, die während des RL-Trainings nicht gesehen wurden. Überraschenderweise zeigen unsere Experimente, dass die im Rahmen einer Quellaufgabe erworbene Kompositionsfähigkeit auf eine andere Zielaufgabe übertragbar ist. Diese Übertragung erfolgt sogar ohne kompositorisches Training auf der Zielaufgabe und erfordert lediglich Vorwissen über die atomaren Fähigkeiten der Zielaufgabe. Unsere qualitative Analyse zeigt, dass RL das Denkverhalten der Modelle grundlegend verändert. Im Gegensatz dazu führt das Training auf der Grundlage des nächsten Tokens mit denselben Daten zu keinen dieser Erkenntnisse. Unsere systematischen Experimente bieten neue Einblicke in das Lernen von LLMs und legen nahe, dass es sinnvoll ist, zunächst Basismodelle mit grundlegenden Fähigkeiten zu entwickeln und dann RL zu nutzen, um fortgeschrittene, verallgemeinerbare Fähigkeiten für komplexe Probleme zu fördern.
Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) in Bezug auf Aufgaben des logischen Denkens basieren stark auf umfangreichen, hochwertigen Datensätzen – in der Regel von Menschen annotiert und somit schwer skalierbar. Während die Datensynthese oder -destillation eine vielversprechende Alternative bietet, kämpfen bestehende Methoden mit inkonsistenter Datenqualität und der Unfähigkeit, sich dynamisch an die sich entwickelnden Fähigkeiten des Modells anzupassen, was zu suboptimalen Trainingssignalen führt. Um diese Einschränkungen zu überwinden, stellen wir Socratic-Zero vor, ein vollständig autonomes Framework, das hochwertige Trainingsdaten aus minimalen Startbeispielen durch die Ko-Evolution von drei Agenten generiert: dem Lehrer, dem Löser und dem Generator. Der Löser verfeinert kontinuierlich sein logisches Denken, indem er aus Präferenzfeedback sowohl zu erfolgreichen als auch zu gescheiterten Lösungswegen lernt; der Lehrer passt sich an und entwickelt zunehmend herausfordernde Fragen basierend auf den Schwächen des Lösers; und der Generator destilliert die Frageentwurfsstrategie des Lehrers, um eine skalierbare, hochwertige Lehrplanerstellung zu ermöglichen. Dieses geschlossene System erzeugt einen sich selbst verbessernden Lehrplan – ohne dass vordefinierte Aufgaben oder Labels erforderlich sind. Bemerkenswerterweise erzielt unser Socratic-Solver-8B, ausgehend von nur 100 Startfragen, einen durchschnittlichen Gewinn von +20,2 Prozentpunkten gegenüber früheren Methoden der Datensynthese über sieben mathematische Denkaufgaben-Benchmarks (AMC23, AIME24-25, Olympiad, MATH-500, Minerva und GSM8K), mit konsistenten Verbesserungen sowohl bei den Qwen3- als auch den GLM4-Serienmodellen. Noch überraschender ist, dass synthetische Daten des Socratic-Generator-32B es Schülermodellen ermöglichen, eine überlegene Leistung im Vergleich zu anderen modernsten (SOTA) kommerziellen LLMs auf diesen Benchmarks zu erzielen, einschließlich Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 und Claude-4.1-Opus.
Datenanalytische Agenten entwickeln sich zunehmend zu einem zentralen Katalysator für die automatisierte wissenschaftliche Entdeckung und die Vision von innovativer KI. Aktuelle Ansätze stützen sich jedoch stark auf Prompt-Engineering über proprietäre Modelle, während Open-Source-Modelle Schwierigkeiten haben, vielfältige Formate, großvolumige Datenbestände sowie langfristige, mehrstufige Denkprozesse zu bewältigen, wie sie die reale Datenanalyse erfordert. Dieses Paper stellt DataMind vor, eine skalierbare Methode zur Datensynthese und Agentenschulung, die darauf abzielt, generalistische datenanalytische Agenten zu entwickeln. DataMind adressiert drei zentrale Herausforderungen beim Aufbau von Open-Source-datenanalytischen Agenten: unzureichende Datenressourcen, ungeeignete Trainingsstrategien und instabile, codebasierte Mehrschritt-Ausführung. Konkret wendet DataMind 1) eine feingranulare Aufgaben-Taxonomie und einen rekursiven Mechanismus zur Zusammensetzung von einfachen zu komplexen Aufgaben an, um die Vielfalt und Schwierigkeit synthetisierter Anfragen zu erhöhen; 2) eine wissensgestützte Trajektorien-Sampling-Strategie, gefolgt von modell- und regelbasiertem Filtern; 3) ein dynamisch anpassbares Trainingsziel, das sowohl SFT- als auch RL-Verluste kombiniert; 4) einen speichereffizienten und stabilen, codebasierten Mehrschritt-Ausführungsrahmen. Basierend auf DataMind haben wir DataMind-12K kuratiert, einen hochwertigen Trajektorien-Datensatz, der verschiedene Domänen, Aufgabenkategorien und Datenformate für datenanalytische Aufgaben abdeckt. Mit DataMind-12K trainiert, erreicht unser DataMind-14B mit einem Durchschnittswert von 71,16 % auf mehreren Datenanalyse-Benchmarks den State-of-the-Art und übertrifft die stärksten proprietären Baselines DeepSeek-V3.1 und GPT-5. Unser DataMind-7B erzielt ebenfalls die beste Leistung unter allen Open-Source-Modellen mit einem Wert von 68,10 %. Wir integrieren auch einige empirische Erkenntnisse aus unseren explorativen Versuchen in die Analyseexperimente, um der Community praxisrelevante Einblicke in das agentenbasierte Training zu bieten. Wir werden DataMind-12K sowie DataMind-7B und 14B für die zukünftige Forschung der Community veröffentlichen.
Räumliche Intelligenz umfasst ein breites Spektrum von Fähigkeiten, einschließlich der Visualisierung und Transformation von Formen, der mentalen Rotation von Objekten, der Beurteilung relationaler Positionen und Enthaltenseins sowie der Schätzung von Numerosität. Dennoch bleibt dies eine kritische, ungelöste Herausforderung für Multimodale Große Sprachmodelle (MLLMs). Um diese Lücke zu schließen, schlagen wir vor, die Lösung euklidischer Geometrieprobleme als Ersatzaufgabe zu behandeln. Konkret haben wir sorgfältig einen kuratierten multimodalen Datensatz namens Euclid30K erstellt, der etwa 30.000 Probleme der ebenen und räumlichen Geometrie umfasst. Um dem Modell zu ermöglichen, euklidische Prinzipien aus diesen Geometrieproblemen zu erlernen und anzuwenden, haben wir Group Relative Policy Optimization (GRPO) eingesetzt, um die Qwen2.5VL- und RoboBrain2.0-Modellfamilien zu feintunen. Dies inspiriert die Modelle, Formen zu erkennen, zu zählen, Entitäten in Beziehung zu setzen und mehrstufige deduktive Schlussfolgerungen unter Verwendung euklidischer Prinzipien durchzuführen. Unsere Experimente zeigen, dass die resultierenden Modelle erhebliche Zero-Shot-Gewinne über vier räumliche Reasoning-Benchmarks (Super-CLEVR, Omni3DBench, VSI-Bench und MindCube) erzielen, ohne dass spezifische Anpassungen für die Aufgaben erforderlich sind. Bemerkenswerterweise stieg die durchschnittliche VSI-Bench-Genauigkeit aller evaluierten Modelle nach dem Training auf Euclid30K von 34,5 % auf 40,5 %, was einer Verbesserung von 5,5 Prozentpunkten entspricht. Unter ihnen erreicht RoboBrain2.0-Euclid-7B eine Genauigkeit von 49,6 % und übertrifft damit das bisherige State-of-the-Art-Modell, Spatial-MLLM. Unseres Wissens ist dies die erste systematische Studie, die zeigt, dass geometriezentriertes Feintunen vision-sprachlichen Modellen breit übertragbare räumliche Fähigkeiten verleihen kann. Code und der Euclid30K-Datensatz sind unter https://zgca-ai4edu.github.io/Euclids_Gift verfügbar.
Visuelle Personalisierung ist entscheidend in benutzerorientierten KI-Systemen wie Smart Homes und im Gesundheitswesen, wo die Ausrichtung des Modellverhaltens an benutzerzentrierten Konzepten von zentraler Bedeutung ist. Trotz ihrer breiten Anwendbarkeit bleibt die Fähigkeit aktueller großer Vision-Sprach-Modelle (VLMs), sich an individuelle Benutzer anzupassen, jedoch weitgehend unerforscht. In diesem Artikel stellen wir MMPB vor, den ersten umfangreichen Benchmark zur Bewertung von VLMs hinsichtlich Personalisierung. MMPB umfasst 10.000 Bild-Abfrage-Paare und beinhaltet 111 personalisierbare Konzepte in vier Kategorien: Menschen, Tiere, Objekte und Charaktere, wobei die Kategorie der Menschen durch präferenzbasierte Abfragen angereichert ist. Wir gliedern die Personalisierung in drei Hauptaufgabentypen, die jeweils eine unterschiedliche Schlüsseleigenschaft von VLMs hervorheben. Unter Verwendung von 23 weit verbreiteten VLMs, einschließlich sowohl Open-Source- als auch proprietären Modellen, bewerten wir die Personalisierungsleistung anhand eines dreistufigen Protokolls: Konzeptinjektion, mehrschrittiger Dialog und personalisierte Abfrage. Unsere Ergebnisse zeigen, dass die meisten VLMs (einschließlich einiger proprietärer Modelle) Schwierigkeiten mit der Personalisierung haben, insbesondere bei der Aufrechterhaltung der Konsistenz über Dialoge hinweg, der Handhabung von Benutzerpräferenzen und der Anpassung an visuelle Hinweise. Unsere Analyse offenbart, dass die Herausforderungen bei der VLM-Personalisierung (wie Ablehnungsverhalten und Langzeitkontextvergessen) erheblichen Verbesserungsbedarf aufzeigen. Durch die Identifizierung dieser Grenzen und die Bereitstellung eines skalierbaren Benchmarks bietet MMPB wertvolle Einblicke und eine solide Grundlage für zukünftige Forschung hin zu wirklich personalisierter multimodaler KI. Projektseite: aidaslab.github.io/MMPB
Wir präsentieren MGM-Omni, ein einheitliches Omni-LLM für omnimodales Verständnis und expressive, langfristige Sprachgenerierung. Im Gegensatz zu kaskadierten Pipelines, die die Sprachsynthese isolieren, verwendet MGM-Omni ein „Gehirn-Mund“-Design mit einer dualen, tokenbasierten Architektur, die multimodales Denken klar von der Echtzeit-Sprachgenerierung entkoppelt. Dieses Design ermöglicht effiziente cross-modale Interaktion und Sprachgenerierung mit niedriger Latenz im Streaming-Modus. Für das Verständnis ermöglicht eine einheitliche Trainingsstrategie in Kombination mit einem dualen Audio-Encoder-Design die Wahrnehmung von langen Audioformaten unter verschiedenen akustischen Bedingungen. Für die Generierung reduziert ein chunk-basiertes paralleles Decodierungsschema die Lücke zwischen Text- und Sprach-Token-Raten, beschleunigt die Inferenz und unterstützt Streaming-Zero-Shot-Stimmklonung mit stabiler Klangfarbe über längere Zeiträume. Im Vergleich zu aktuellen Arbeiten erreicht MGM-Omni diese Fähigkeiten mit deutlich dateneffizienterem Training. Umfangreiche Experimente zeigen, dass MGM-Omni bestehende Open-Source-Modelle in der Bewahrung der Klangfarbenidentität über längere Sequenzen, der Erzeugung natürlicher und kontextbewusster Sprache sowie im Verständnis von langen Audioformaten und omnimodalen Inhalten übertrifft. MGM-Omni etabliert ein effizientes, end-to-end Paradigma für omnimodales Verständnis und kontrollierbare, personalisierte langfristige Sprachgenerierung.
Monokulare Tiefenschätzung (MDE) ist eine grundlegende Aufgabe in der Computer Vision. Traditionelle Methoden sind durch Datenknappheit und -qualität eingeschränkt, was ihre Robustheit beeinträchtigt. Um dies zu überwinden, schlagen wir BRIDGE vor, ein RL-optimiertes Tiefen-zu-Bild (D2I)-Generierungsframework, das über 20M realistische und geometrisch präzise RGB-Bilder synthetisiert, die jeweils intrinsisch mit ihrer Ground-Truth-Tiefe gepaart sind, aus diversen Quell-Tiefenkarten. Anschließend trainieren wir unser Tiefenschätzungsmodell auf diesem Datensatz unter Verwendung einer hybriden Überwachungsstrategie, die Lehrer-Pseudo-Labels mit Ground-Truth-Tiefe für umfassendes und robustes Training integriert. Dieses innovative Daten-Generierungs- und Trainingsparadigma ermöglicht es BRIDGE, Durchbrüche in Bezug auf Skalierbarkeit und Domänenvielfalt zu erzielen, wobei es bestehende state-of-the-art Ansätze quantitativ und in der Erfassung komplexer Szenendetails konsequent übertrifft, wodurch allgemeine und robuste Tiefenmerkmale gefördert werden. Code und Modelle sind verfügbar unter https://dingning-liu.github.io/bridge.github.io/.
Tool-Integrated Reasoning (TIR) ermöglicht es großen Sprachmodellen (LLMs), ihre interne Argumentationsfähigkeit durch die Integration externer Werkzeuge zu verbessern. Modelle, die TIR einsetzen, zeigen jedoch häufig suboptimale Verhaltensweisen, wie unzureichende oder übermäßige Nutzung von Werkzeugen sowie übermäßiges Nachdenken nach Werkzeugaufrufen. Die Herausforderung, LLMs dazu zu motivieren, TIR effizient und präzise auszuführen und gleichzeitig den Argumentationsprozess zu stabilisieren, bleibt eine offene Frage. In diesem Artikel untersuchen wir zunächst den Einfluss von Werkzeugaufrufen auf die Modellargumentation aus der Perspektive der Informationsentropie. Unsere Ergebnisse zeigen, dass die Ergebnisse von Werkzeugaufrufen zu einer deutlichen Veränderung der Informationsentropie der nachfolgenden Argumentation führen, wobei die Gesamtentropie der Argumentationskette in Abhängigkeit von der Anzahl der Werkzeugaufrufe variiert. Aufbauend auf diesen Erkenntnissen schlagen wir Tool-Light vor, ein Framework, das darauf abzielt, LLMs dazu zu ermutigen, TIR effizient und präzise auszuführen. Unser Framework umfasst die Konstruktion von Datensätzen und mehrstufiges Feintuning. Für die Datensatzkonstruktion verwenden wir kontinuierliches, selbstentwickeltes Sampling mit dem feinabgestimmten Modell, wobei sowohl einfaches Sampling als auch entropiegesteuertes Sampling integriert werden. Darüber hinaus legen wir strenge Kriterien für die Auswahl von Positiv-Negativ-Paaren während des Samplings fest. Der Trainingsprozess umfasst einen zweistufigen Ansatz, bestehend aus Supervised Fine-Tuning (SFT) und Self-Evolved Direct Preference Optimization (DPO). Experimentelle Ergebnisse auf 10 Datensätzen demonstrieren die Wirksamkeit von Tool-Light, wodurch die Effizienz des Modells bei der Ausführung von TIR-Aufgaben erheblich verbessert wird.
Große visuell-sprachliche Modelle (LVLMs) erzielen starke Leistungen bei multimodalen Aufgaben, greifen jedoch oft auf ihre sprachliche Priorität (LP) zurück – gespeicherte textuelle Muster aus dem Vorabtraining – und nutzen visuelle Hinweise nur unzureichend. Bisherige Analysen der LP stützen sich hauptsächlich auf Input-Output-Tests, die nicht die internen Mechanismen offenlegen, die bestimmen, wann und wie visuelle Informationen das Modellverhalten beeinflussen. Um diese Lücke zu schließen, präsentieren wir die erste systematische Analyse der sprachlichen Priorität durch die Linse der „Chain-of-Embedding“, die die schichtweisen Repräsentationsdynamiken innerhalb von LVLMs untersucht. Unsere Analyse zeigt ein universelles Phänomen: Jedes Modell weist einen „Visual Integration Point“ (VIP) auf, eine kritische Schicht, ab der visuelle Informationen die verborgenen Repräsentationen maßgeblich umgestalten und die Dekodierung beeinflussen. Basierend auf dieser Beobachtung führen wir den „Total Visual Integration“ (TVI)-Schätzer ein, der die Repräsentationsdistanz über den VIP hinaus aggregiert, um zu quantifizieren, wie stark die visuelle Anfrage die Antwortgenerierung beeinflusst. Über 54 Modell-Datensatz-Kombinationen, die 9 zeitgenössische LVLMs und 6 Benchmarks umfassen, zeigen wir, dass der VIP konsistent auftritt und dass der TVI zuverlässig die Stärke der sprachlichen Priorität vorhersagt. Dies bietet ein prinzipielles Toolkit zur Diagnose und zum Verständnis der sprachlichen Priorität in LVLMs.
Die Verarbeitung langer Sequenzen ist eine entscheidende Fähigkeit für moderne große Sprachmodelle. Allerdings stößt der Selbstaufmerksamkeitsmechanismus in der standardmäßigen Transformer-Architektur bei der Verarbeitung langer Sequenzen auf erhebliche Rechen- und Speicherengpässe. Während trainierbare spärliche Aufmerksamkeitsmethoden eine vielversprechende Lösung bieten, führen bestehende Ansätze wie NSA zu übermäßig vielen zusätzlichen Parametern und stören den konventionellen Workflow des Vortrainierens auf kurzen und Feinabstimmens auf langen Sequenzen, was zu langsamer Konvergenz und Schwierigkeiten bei der Beschleunigung führt. Um diese Einschränkungen zu überwinden, führen wir ein dicht-spärlich schaltbares Aufmerksamkeitsframework ein, das als InfLLM-V2 bezeichnet wird. InfLLM-V2 ist eine trainierbare spärliche Aufmerksamkeit, die Modelle nahtlos von kurzen zu langen Sequenzen anpasst. Insbesondere wiederverwendet InfLLM-V2 dichte Aufmerksamkeitsparameter durch parameterfreie Architekturmodifikationen und gewährleistet so Konsistenz zwischen der Verarbeitung kurzer und langer Sequenzen. Zudem stellt InfLLM-V2 Recheneffizienz über alle Sequenzlängen hinweg sicher, indem es dichte Aufmerksamkeit für kurze Eingaben verwendet und nahtlos zu spärlicher Aufmerksamkeit für lange Sequenzen übergeht. Um eine praktische Beschleunigung zu erreichen, führen wir weiterhin eine effiziente Implementierung von InfLLM-V2 ein, die den Rechenaufwand erheblich reduziert. Unsere Experimente zum Verständnis langer Kontexte und zur Kettenlogikschlussfolgerung zeigen, dass InfLLM-V2 viermal schneller ist als dichte Aufmerksamkeit, während es 98,1 % bzw. 99,7 % der Leistung beibehält. Basierend auf dem InfLLM-V2-Framework haben wir MiniCPM4.1 (https://huggingface.co/openbmb/MiniCPM4.1-8B), ein hybrides Schlussfolgerungsmodell, trainiert und als Open-Source veröffentlicht, wodurch eine reproduzierbare Implementierung für die Forschungsgemeinschaft bereitgestellt wird.
Vision-Language-Model (VLM)-basierte GUI-Agenten zeigen vielversprechende Ansätze zur Automatisierung komplexer Desktop- und Mobilgeräteaufgaben, stehen jedoch vor erheblichen Herausforderungen bei der Anwendung von Reinforcement Learning (RL): (1) langsame, mehrstufige Interaktionen mit GUI-Umgebungen für das Policy-Rollout und (2) unzureichende hochwertige Interaktionen zwischen Agent und Umgebung für das Policy-Lernen. Um diese Herausforderungen zu bewältigen, schlagen wir DART vor, ein entkoppeltes agentenbasiertes RL-Trainingsframework für GUI-Agenten, das heterogene Module in stark entkoppelter Weise koordiniert. DART teilt das Trainingssystem in vier asynchrone Module auf: Umgebungscluster, Rollout-Service, Datenmanager und Trainer. Dieser Entwurf ermöglicht nicht-blockierende Kommunikation, asynchrones Training, rollout-basierte Trajektorienabtastung und pro-Worker-Modellsynchronisation, was die Systemeffizienz erheblich steigert: 1,6-fache GPU-Auslastung für das Rollout, 1,9-facher Trainingsdurchsatz und 5,5-fache Umgebungsauslastung. Um effektives Lernen aus einer Fülle von Proben zu ermöglichen, führen wir ein adaptives Datenkuratierungsschema ein: (1) Vorab-Sammlung erfolgreicher Trajektorien für anspruchsvolle Aufgaben, um die spärlichen Erfolge bei der Online-Abtastung zu ergänzen; (2) dynamische Anpassung der Rollout-Zahlen und Trajektorienlängen basierend auf der Aufgabenkomplexität; (3) selektives Training auf Schritten mit hoher Entropie, um kritische Entscheidungen zu priorisieren; (4) Stabilisierung des Lernens durch gekürztes Importance Sampling für Policy-Mismatch zwischen Policy-Rollout und -Aktualisierung. Auf dem OSWorld-Benchmark erreicht DART-GUI-7B eine Aufgaben-Erfolgsrate von 42,13 %, einen absoluten Zuwachs von 14,61 % gegenüber dem Basismodell und liegt 7,34 % über dem Open-Source-SOTA. Wir werden unser Trainingsframework, die Daten und Modell-Checkpoints vollständig über computer-use-agents.github.io/dart-gui open-source bereitstellen, was wir als zeitgemäßen Beitrag zur Open-Source-Community des agentenbasierten RL-Trainings betrachten.
Große Sprachmodelle (LLMs) sind heute leistungsstarke Problemlöser in vielen Bereichen und werden kontinuierlich stärker, indem sie in Modellgröße, Trainingsdatensatzgröße und Trainingsdatensatzqualität skaliert werden, wie umfangreiche Forschung und Experimente in der Branche zeigen. Das Training eines Spitzenmodells erfordert heute in der Größenordnung von zehn bis hundert Yottaflops, was einen enormen Aufwand an Zeit, Rechenleistung und Energie darstellt. Die Verbesserung der Effizienz des Vortrainings ist daher entscheidend, um die nächste Generation noch leistungsfähigerer LLMs zu ermöglichen. Während das Training mit 8-Bit-Gleitkommazahlen (FP8) mittlerweile weit verbreitet ist, könnte der Übergang zu noch geringerer Präzision, wie 4-Bit-Gleitkommazahlen (FP4), zusätzliche Verbesserungen in der Rechengeschwindigkeit und Ressourcennutzung ermöglichen. Die Quantisierung auf diesem Niveau stellt jedoch Herausforderungen an die Trainingsstabilität, Konvergenz und Implementierung, insbesondere für großskalige Modelle, die auf langen Token-Horizonten trainiert werden. In dieser Studie stellen wir einen neuartigen Ansatz für das stabile und präzise Training großer Sprachmodelle (LLMs) unter Verwendung des NVFP4-Formats vor. Unser Verfahren integriert Random-Hadamard-Transformationen (RHT), um Block-Level-Ausreißer zu begrenzen, verwendet ein zweidimensionales Quantisierungsschema für konsistente Darstellungen sowohl im Vorwärts- als auch im Rückwärtsdurchlauf, nutzt stochastisches Runden für eine unverzerrte Gradientenschätzung und beinhaltet selektive Hochpräzisionsschichten. Wir validieren unseren Ansatz, indem wir ein Modell mit 12 Milliarden Parametern auf 10 Billionen Token trainieren – den längsten öffentlich dokumentierten Trainingslauf in 4-Bit-Präzision bis heute. Unsere Ergebnisse zeigen, dass das Modell, das mit unserer NVFP4-basierten Vortrainingsmethode trainiert wurde, Trainingsverluste und Genauigkeiten bei nachgelagerten Aufgaben erreicht, die mit einem FP8-Baseline vergleichbar sind. Diese Ergebnisse verdeutlichen, dass NVFP4 in Kombination mit unserem Trainingsansatz einen bedeutenden Fortschritt in der Entwicklung von Algorithmen für das Training von LLMs mit geringer Präzision darstellt.
Wir stellen SIRI vor, Scaling Iterative Reinforcement Learning with Interleaved Compression, einen einfachen, aber effektiven Ansatz für Reinforcement Learning (RL) bei Large Reasoning Models (LRMs), der eine effizientere und präzisere Schlussfolgerung ermöglicht. Bisherige Studien haben repetitive Denkmuster in LRMs beobachtet, und Versuche, diese zu reduzieren, gehen oft auf Kosten der Leistung. In dieser Arbeit zeigen wir, dass dieser Kompromiss durch ein Trainingsregime überwunden werden kann, das iterativ zwischen Kompression und Erweiterung des Reasoning-Budgets wechselt, indem die maximale Rollout-Länge während des Trainings dynamisch angepasst wird. Die Kompressionsphase verkürzt die Rollout-Länge und zwingt das Modell, präzise und wertvolle Entscheidungen in einem begrenzten Kontext zu treffen, wodurch redundante Token effektiv reduziert und die Reasoning-Dichte erhöht wird. Die Expansionsphase lockert dann die Längenbeschränkung und bietet dem Modell Raum, in langfristigen Szenarien zu explorieren und zu planen. Bemerkenswerterweise stellen wir fest, dass sich die Leistung des Modells nach jedem Kompressions-Expansions-Zyklus verbessert, selbst wenn die Ausgabelänge abnimmt, wodurch es sich kontinuierlich der Pareto-Front im Leistungs-Effizienz-Kompromiss annähert. Beim Training auf DeepSeek-R1-Distill-Qwen-1.5B verbessert SIRI-low die Leistung auf AIME24 um 43,2 %, während der Token-Verbrauch nach drei Iterationen um 46,9 % reduziert wird, und SIRI-high erreicht im Vergleich zu allen anderen Methoden die höchste Genauigkeit (Abbildung 1). Unsere Ergebnisse beleuchten das Potenzial, die Ausgabekürzungslänge des LRM während des Trainings periodisch zu oszillieren, um Exploration und Effizienz im Reasoning dynamisch auszubalancieren und sich einem optimalen „Sweet Spot“ zwischen beiden zu nähern. Unsere Modelle sind öffentlich verfügbar.
Test-Time Scaling (TTS) verbessert die Fähigkeit großer Sprachmodelle (LLMs) zum logischen Schlussfolgern, indem zusätzliche Rechenleistung während der Inferenz zugewiesen wird. Bisherige Ansätze stützen sich jedoch hauptsächlich auf die Stichprobenbildung auf der Ausgabeebene und vernachlässigen die Rolle der Modellarchitektur. In gängigen Mixture-of-Experts (MoE)-LLMs beobachten wir, dass die Variation der Anzahl aktivierter Experten komplementäre Lösungsmengen mit stabiler Genauigkeit liefert, was eine neue und bisher wenig erforschte Quelle für Diversität offenbart. Motiviert durch diese Beobachtung schlagen wir Dynamic Experts Search (DES) vor, eine TTS-Strategie, die die Expertenaktivierung zu einer kontrollierbaren Dimension des Suchraums erhebt. DES integriert zwei Schlüsselkomponenten: (1) Dynamic MoE, das eine direkte Steuerung der Expertenanzahl während der Inferenz ermöglicht, um diverse Schlussfolgerungspfade ohne zusätzliche Kosten zu generieren; und (2) Expert Configuration Inheritance, das konsistente Expertenanzahlen innerhalb eines Schlussfolgerungspfads beibehält, während sie über verschiedene Durchläufe variiert werden, wodurch Stabilität und Diversität im gesamten Suchprozess ausbalanciert werden. Umfangreiche Experimente über MoE-Architekturen, Verifizierer und Schlussfolgerungsbenchmarks (z. B. Mathematik, Code und Wissen) zeigen, dass DES zuverlässig TTS-Baselines übertrifft und Genauigkeit sowie Stabilität ohne zusätzliche Kosten verbessert. Diese Ergebnisse unterstreichen DES als eine praktische und skalierbare Form der architekturbewussten TTS und verdeutlichen, wie strukturelle Flexibilität in modernen LLMs das logische Schlussfolgern vorantreiben kann.
Große Sprachmodell-Agenten (LLM-Agenten), die Planungs-, Gedächtnis-, Reflexions- und Werkzeugnutzungsmodule integrieren, haben vielversprechende Ergebnisse bei der Lösung komplexer, mehrstufiger Aufgaben gezeigt. Ihre anspruchsvollen Architekturen verstärken jedoch die Anfälligkeit für kaskadierende Fehler, bei denen ein einzelner Ursachenfehler sich durch nachfolgende Entscheidungen fortpflanzt und zum Scheitern der Aufgabe führt. Aktuelle Systeme verfügen nicht über ein Framework, das Agentenfehler umfassend und modular sowie systemisch verstehen kann, und scheitern daher daran, diese Fehler entsprechend zu erkennen. Wir schließen diese Lücke mit drei Beiträgen. Erstens führen wir die AgentErrorTaxonomy ein, eine modulare Klassifizierung von Fehlermodi, die Gedächtnis, Reflexion, Planung, Aktion und systemweite Operationen umfasst. Zweitens erstellen wir AgentErrorBench, den ersten Datensatz systematisch annotierter Fehlerverläufe aus ALFWorld, GAIA und WebShop, der die Fehleranalyse in realen Agenten-Durchläufen verankert. Drittens schlagen wir AgentDebug vor, ein Debugging-Framework, das Ursachenfehler isoliert und korrektives Feedback bereitstellt, wodurch Agenten in die Lage versetzt werden, sich zu erholen und iterativ zu verbessern. Experimente auf AgentErrorBench zeigen, dass AgentDebug im Vergleich zum stärksten Baseline eine um 24 % höhere All-Correct-Genauigkeit und eine um 17 % höhere Schrittgenauigkeit erreicht. Über die Erkennung hinaus ermöglicht das gezielte Feedback von AgentDebug LLM-Agenten, sich iterativ von Fehlern zu erholen, was zu relativen Verbesserungen der Aufgabenbewältigung von bis zu 26 % in ALFWorld, GAIA und WebShop führt. Diese Ergebnisse etablieren prinzipienbasiertes Debugging als Weg zu zuverlässigeren und anpassungsfähigeren LLM-Agenten. Der Code und die Daten werden unter https://github.com/ulab-uiuc/AgentDebug verfügbar sein.
Wir stellen einen neuartigen Ansatz zur Destillation großer Sprachmodelle (LLM) vor, indem wir diesen als ein Problem des eingeschränkten Reinforcement Learning formulieren. Während aktuelle Arbeiten begonnen haben, die Integration aufgaben-spezifischer Belohnungen in Destillationsprozesse zu untersuchen, basieren bestehende Methoden typischerweise auf ad-hoc Gewichtungen der Belohnungen. Wir schlagen ein prinzipielles Optimierungsframework vor, das aufgaben-spezifische Belohnungen maximiert, während die Abweichung vom Lehrer-Modell unter einen festgelegten Schwellenwert beschränkt wird. Unser Ansatz adaptiert das eingeschränkte, zustands-erweiterte Reinforcement Learning für die Destillationsumgebung und führt eine modifizierte Belohnungsfunktion ein, die theoretische Garantien für die Einhaltung der Beschränkungen bietet, ohne eine Zustandserweiterung oder Zugriff auf das Lehrer-Modell während des Einsatzes zu erfordern und ohne den rechnerischen Aufwand dualer Lagrange-Methoden. Durch umfangreiche Experimente zu mathematischen Denkaufgaben zeigen wir, dass unsere Methode im Vergleich zu den Baselines der weichen Lagrange-Relaxation bessere Raten der Beschränkungserfüllung und besseres logisches Denken erreicht, während sie eine wettbewerbsfähige Aufgabenleistung beibehält. Unser Framework bietet eine theoretisch fundierte und praktisch effiziente Lösung für belohnungsbewusste Destillation in ressourcenbeschränkten Umgebungen.
Jüngste Fortschritte, wie beispielsweise DeepSeek-R1, haben gezeigt, dass der GRPO-Algorithmus, ein Ansatz des Reinforcement Learning (RL), effektiv das Chain-of-Thought (CoT)-Denken in Large Language Models (LLMs) und Vision-Language Models (VLMs) trainieren kann. In diesem Artikel analysieren wir drei Herausforderungen von GRPO: die Gradientenkopplung zwischen Gedanken und Antworten, spärliche Belohnungssignale aufgrund begrenzter paralleler Stichproben und instabile Vorteilsschätzungen. Um diese Herausforderungen zu bewältigen, schlagen wir GRPO-MA vor, eine einfache, aber theoretisch fundierte Methode, die die Generierung mehrerer Antworten aus jedem Denkprozess nutzt und so eine robustere und effizientere Optimierung ermöglicht. Theoretisch zeigen wir, dass die Varianz des Gedankenvorteils abnimmt, wenn die Anzahl der Antworten pro Gedanke zunimmt. Empirisch bestätigt unsere Gradientenanalyse diesen Effekt, indem sie zeigt, dass GRPO-MA im Vergleich zu GRPO Gradientenspitzen reduziert. Experimente in den Bereichen Mathematik, Programmierung und diversen multimodalen Aufgaben demonstrieren, dass GRPO-MA die Leistung und Trainings effizienz erheblich verbessert. Unsere Ablationsstudien zeigen weiterhin, dass eine Erhöhung der Anzahl der Antworten pro Gedanke die Modellleistung kontinuierlich steigert.
Aktuelle Reasoning-LLMs (RLMs), insbesondere solche, die mit verifikatorbasiertem Reinforcement Learning trainiert wurden, schneiden oft schlechter mit Few-Shot CoT ab als mit direktem Antworten. Wir untersuchen dieses Paradox erneut, indem wir hochwertige Reasoning-Traces von DeepSeek-R1 als Demonstrationen verwenden, und stellen fest, dass das Hinzufügen weiterer Beispiele die Genauigkeit konsequent verschlechtert, selbst wenn die Demonstrationen optimal sind. Eine detaillierte Analyse offenbart zwei Mechanismen hinter diesem Rückgang: (i) semantische Fehlleitung, bei der hohe textuelle Ähnlichkeit das Modell dazu veranlasst, das Ziel als dasselbe wie das Beispiel zu behandeln und Zwischenschritte wortwörtlich zu kopieren; und (ii) Strategietransferversagen, bei dem das Modell Schwierigkeiten hat, nützliche Reasoning-Strategien zu extrahieren und auf Zielfragen anzuwenden. Aufbauend auf diesen Erkenntnissen führen wir Insight-to-Solve (I2S) ein, ein sequenzielles Testzeitverfahren, das Demonstrationen in explizite, wiederverwendbare Einsichten umwandelt und einen zielspezifischen Reasoning-Trace ableitet; optional wird das Reasoning zur Kohärenz und Korrektheit selbst verfeinert (I2S+). Umfangreiche Experimente auf diversen Benchmarks zeigen, dass I2S und I2S+ sowohl direktes Antworten als auch Testzeit-Skalierungs-Baselines bei Open- und Closed-Source-Modellen konsequent übertreffen. Selbst für GPT-Modelle hilft unsere Methode: auf AIME'25 steigt GPT-4.1 um +14,0 %, und o1-mini verbessert sich um +2,7 % auf AIME und +1,7 % auf GPQA, was darauf hindeutet, dass In-Context-Demonstrationen effektiv über das Insight-Refine-Solve-Framework genutzt werden können.
Retrieval-Augmented Generation (RAG) zielt darauf ab, Halluzinationen in großen Sprachmodellen (LLMs) zu reduzieren, indem Antworten in abgerufenen Dokumenten verankert werden. Dennoch halluzinieren RAG-basierte LLMs weiterhin, selbst wenn korrekter und ausreichender Kontext bereitgestellt wird. Eine wachsende Forschungsrichtung deutet darauf hin, dass dies auf ein Ungleichgewicht zwischen der Nutzung externen Kontexts und dem internen Wissen der Modelle zurückzuführen ist, und mehrere Ansätze haben versucht, diese Signale zur Erkennung von Halluzinationen zu quantifizieren. Bisherige Methoden erfordern jedoch eine umfangreiche Hyperparameter-Optimierung, was ihre Generalisierbarkeit einschränkt. Wir stellen LUMINA vor, ein neuartiges Framework, das Halluzinationen in RAG-Systemen durch Kontext-Wissen-Signale erkennt: Die Nutzung externen Kontexts wird über die Verteilungsdistanz quantifiziert, während die Nutzung internen Wissens durch die Verfolgung der Entwicklung vorhergesagter Tokens über Transformer-Schichten gemessen wird. Darüber hinaus führen wir ein Framework zur statistischen Validierung dieser Messungen ein. Experimente auf gängigen RAG-Halluzinations-Benchmarks und vier Open-Source-LLMs zeigen, dass LUMINA durchweg hohe AUROC- und AUPRC-Werte erzielt und bisherige nutzungsbasierte Methoden auf HalluRAG um bis zu +13 % AUROC übertrifft. Zudem bleibt LUMINA robust unter gelockerten Annahmen zur Retrieval-Qualität und Modellabstimmung, was sowohl Effektivität als auch Praktikabilität bietet.
Video Joint Embedding Predictive Architectures (V-JEPA) lernen generalisierbare, sofort einsetzbare Videorepräsentationen, indem sie maskierte Regionen im latenten Raum mit einem exponentiell gleitenden Durchschnitt (EMA)-aktualisierten Lehrer vorhersagen. Während EMA den Kollaps der Repräsentation verhindert, erschwert es die skalierbare Modellauswahl und koppelt die Architekturen von Lehrer und Schüler. Wir untersuchen die Vorhersage maskierter latenter Merkmale erneut und zeigen, dass ein eingefrorener Lehrer ausreicht. Konkret (i) trainieren wir einen Ziel-Encoder mit einem einfachen Pixel-Rekonstruktionsziel unter V-JEPA-Maskierung, (ii) frieren ihn ein und trainieren einen Schüler, um die latenten Merkmale des Lehrers in maskierten Regionen vorherzusagen. Dies führt zu einem zweistufigen, unregulierten Schema, das wir als SALT (Static-teacher Asymmetric Latent Training) bezeichnen. SALT entkoppelt die Optimierung in Pixel-Rekonstruktion (Lehrer) und maskierte latente Vorhersage (Schüler), erhöht Transparenz, Effizienz und Skalierbarkeit, während die Fähigkeit der Repräsentation zur Generalisierung unter eingefrorener Evaluation erhalten bleibt. Empirisch übertreffen unsere Schüler-Modelle kürzlich vorgeschlagene V-JEPA 2 Encoder unter eingefrorener Backbone-Evaluation über diverse Benchmarks hinweg. Sie sind auch rechenoptimaler: Bei gleichen Pretraining-FLOPs erreicht unsere Methode höhere Probing-Genauigkeit, und ihre Skalierungskurven dominieren die Genauigkeit-FLOPs-Pareto-Grenze von V-JEPA. Schließlich stellen wir fest, dass die Qualität des Schülers bemerkenswert robust gegenüber der Lehrerqualität ist: Hochleistungsfähige Schüler entstehen selbst mit kleinen, suboptimalen Lehrern. Dies deutet auf eine Rechenbudget-Zuweisung hin, die den Schüler stark bevorzugen sollte. Diese Ergebnisse positionieren SALT als eine einfache, skalierbare und recheneffiziente Alternative zur EMA-basierten Selbst-Distillation für das Erlernen von Videorepräsentationen.
Das Feinabstimmen vortrainierter großer Sprachmodelle (LLMs) für nachgelagerte Aufgaben ist ein entscheidender Schritt in der KI-Bereitstellungspipeline. Das Verstärkungslernen (Reinforcement Learning, RL) ist wohl die bekannteste Methode zur Feinabstimmung und hat zur Entstehung vieler modernster LLMs beigetragen. Im Gegensatz dazu wurden Evolutionsstrategien (Evolution Strategies, ES), die einst vergleichbare Leistungen wie RL bei Modellen mit einigen Millionen Parametern zeigten, aufgrund der pessimistischen Einschätzung ihrer Skalierbarkeit auf größere Modelle vernachlässigt. In dieser Arbeit berichten wir über den ersten erfolgreichen Versuch, ES für die Feinabstimmung der vollständigen Parameter von LLMs zu skalieren, und zeigen die überraschende Tatsache, dass ES effizient über Milliarden von Parametern suchen und bestehende RL-Feinabstimmungsmethoden in mehrfacher Hinsicht übertreffen kann, einschließlich der Stichprobeneffizienz, der Toleranz gegenüber langfristigen Belohnungen, der Robustheit gegenüber verschiedenen Basis-LLMs, einer geringeren Neigung zum Belohnungshacking und einer stabileren Leistung über mehrere Durchläufe hinweg. Es dient somit als Grundlage, um eine neue Richtung in der Feinabstimmung von LLMs jenseits der aktuellen RL-Techniken zu erschließen. Die Quellcodes sind unter folgender Adresse verfügbar: https://github.com/VsonicV/es-fine-tuning-paper.
Da große Sprachmodelle (LLMs) zunehmend für wissenschaftliches Denken eingesetzt werden, machen die Komplexität der Antwortformate und die Vielfalt äquivalenter Ausdrücke die Antwortüberprüfung zu einer kritischen, aber herausfordernden Aufgabe. Bestehende Überprüfungsstudien in wissenschaftlichen Domänen leiden unter zwei wesentlichen Einschränkungen: (a) das Fehlen systematischer Bewertungsstandards und unzureichende disziplinäre Abdeckung, was eine umfassende Beurteilung behindert; und (b) eine starke Abhängigkeit von aufwendigen Regeldesigns oder Prompt-Engineering, was ihre Wirksamkeit in komplexen Denkszenarien verringert oder ihre disziplinübergreifende Generalisierung einschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir Lösungen auf der Daten- und Modellebene vor. Auf der Datenseite konstruieren wir SCI-VerifyBench, einen disziplinübergreifenden Benchmark, der Mathematik, Physik, Biologie, Chemie und allgemeine wissenschaftliche Fragen abdeckt. Der Benchmark basiert auf echten LLM-Antworten und wird durch domänenspezifische Äquivalenztransformationen erweitert, die herausfordernde und realistische Daten generieren. Modellbasierte und Experten-Annotationen gewährleisten sowohl Qualität als auch Vielfalt und ermöglichen eine rigorose Bewertung der Überprüfungsfähigkeit. Auf der Modellebene betonen wir die Bedeutung des Denkens für die Überprüfung und führen SCI-Verifier ein, einen einheitlichen, denkverstärkten Verifizierer für wissenschaftliche Domänen. Durch Nachschulung zeigt SCI-Verifier starke logische Denk- und Äquivalenzurteilsfähigkeiten bei gleichzeitiger Beibehaltung prägnanter und stabiler Ausgaben. Zusammen bieten SCI-VerifyBench und SCI-Verifier einen prinzipiellen Rahmen für die wissenschaftliche Überprüfung, der sowohl systematische Bewertung als auch praktische Wege zur Verbesserung der Zuverlässigkeit und Anwendbarkeit von LLMs in wissenschaftlichen Domänen bietet.
Menschliches Feedback spielt eine entscheidende Rolle bei der Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen. Solches Feedback ist jedoch oft verrauscht oder inkonsistent, was die Qualität von Belohnungsmodellen beeinträchtigen und die Ausrichtung behindern kann. Obwohl verschiedene automatisierte Methoden zur Datenbereinigung vorgeschlagen wurden, um dieses Problem zu mildern, fehlt es bisher an einer systematischen Bewertung ihrer Wirksamkeit und Generalisierbarkeit. Um diese Lücke zu schließen, führen wir den ersten umfassenden Benchmark zur Bewertung von 13 Methoden zur Bereinigung von Präferenzdaten im Kontext der LLM-Ausrichtung ein. PrefCleanBench bietet ein standardisiertes Protokoll, um Bereinigungsstrategien hinsichtlich der Ausrichtungsleistung und Generalisierbarkeit über verschiedene Datensätze, Modellarchitekturen und Optimierungsalgorithmen hinweg zu bewerten. Durch die Vereinheitlichung unterschiedlicher Methoden und deren rigorosen Vergleich decken wir Schlüsselfaktoren auf, die den Erfolg der Datenbereinigung bei Ausrichtungsaufgaben bestimmen. Dieser Benchmark legt den Grundstein für prinzipiengeleitete und reproduzierbare Ansätze zur Verbesserung der LLM-Ausrichtung durch eine höhere Datenqualität – und hebt die entscheidende, aber bisher wenig erforschte Rolle der Datenvorverarbeitung in der verantwortungsvollen KI-Entwicklung hervor. Wir veröffentlichen modulare Implementierungen aller Methoden, um weitere Forschungen anzuregen: https://github.com/deeplearning-wisc/PrefCleanBench.
Masked Diffusion Language Models (MDLMs) haben sich kürzlich als vielversprechende Alternative zu autoregressiven (AR) Sprachmodellen etabliert, da sie Eigenschaften wie parallele Dekodierung, flexible Generierungsreihenfolgen und das Potenzial für weniger Inferenzschritte bieten. Trotz dieser Vorteile bleiben Dekodierungsstrategien und Reinforcement-Learning (RL)-Algorithmen, die speziell für MDLMs entwickelt wurden, weitgehend unerforscht. Ein naiver Ansatz besteht darin, Techniken, die sich für AR-Modelle bewährt haben, direkt auf MDLMs zu übertragen. Dies wirft jedoch die unmittelbare Frage auf: Ist eine solche naive Übertragung tatsächlich optimal? Beispielsweise 1) werden blockweise und semi-autoregressive Dekodierungsstrategien während des Trainings von MDLMs nicht eingesetzt – warum übertreffen sie dann die vollständige Diffusions-Dekodierung während der Inferenz? 2) Die direkte Anwendung von RL-Algorithmen, die für AR-Modelle entwickelt wurden, auf MDLMs zeigt eine Trainings-Inferenz-Inkonsistenz, da die MDLM-Dekodierung nicht-kausal (parallel) ist. Dies führt zu Inkonsistenzen zwischen dem Rollout-Pfad und dem Optimierungspfad. Um diese Herausforderungen zu bewältigen, schlagen wir den EOS Early Rejection (EOSER) und den Ascending Step-Size (ASS) Dekodierungsplaner vor, die das Potenzial von MDLMs freisetzen, eine vollständige Diffusions-Dekodierung durchzuführen und dabei mit weniger Dekodierungsschritten eine wettbewerbsfähige Leistung zu erzielen. Zusätzlich führen wir die Consistency Trajectory Group Relative Policy Optimization (CJ-GRPO) zur Steuerung von MDLMs ein, die die Konsistenz zwischen Rollout-Pfad und Optimierungspfad betont und die Optimierungsfehler, die durch Skip-Step-Optimierung verursacht werden, reduziert. Wir führen umfangreiche Experimente zu Denkaufgaben, wie mathematischen und Planungs-Benchmarks, mit LLaDA-8B-Instruct durch. Die Ergebnisse zeigen, dass die vorgeschlagenen EOSER- und ASS-Mechanismen zusammen mit CJ-GRPO ein erhebliches Potenzial für die effektive und effiziente Steuerung von MDLMs besitzen. Code: https://github.com/yjyddq/EOSER-ASS-RL.
Wir stellen DafnyCOMP vor, einen Benchmark zur Bewertung von großen Sprachmodellen (LLMs) hinsichtlich der generativen Komposition von Spezifikationen in Dafny. Im Gegensatz zu früheren Benchmarks, die sich auf Aufgaben mit einzelnen Funktionen konzentrieren, zielt DafnyCOMP auf Programme ab, die aus mehreren interagierenden Funktionen mit Datenabhängigkeiten bestehen und somit eine übergreifende Argumentation über Komponentengrenzen hinweg erfordern. Der Benchmark umfasst 300 automatisch synthetisierte Programme mit mehreren Funktionen. Wir evaluieren mehrere state-of-the-art LLM-Familien und stellen fest, dass diese zwar bei der Verifikation einzelner Funktionen gut abschneiden, ihre Leistung jedoch bei kompositionellen Aufgaben deutlich abfällt. Analysen zeigen systematische Schwächen in der funktionsübergreifenden Argumentation, darunter fragile Spezifikationen, Fehlausrichtungen zwischen Implementierungen und Beweisen sowie instabile Schlussfolgerungen. DafnyCOMP bietet somit ein diagnostisches Werkzeug, um Fortschritte in Richtung einer zuverlässigen, verifizierbaren und kompositionellen Codegenerierung mit LLMs zu messen.
Vision-Language-Modelle (VLMs) können durch Textinteraktionen flexibel verschiedene Vision-Aufgaben bewältigen. Obwohl sie bei der semantischen Verständnisleistung erfolgreich sind, haben selbst modernste VLMs wie GPT-5 Schwierigkeiten, 3D aus 2D-Eingaben zu verstehen. Andererseits erreichen spezialisierte reine Vision-Modelle übermenschliche Genauigkeit bei der metrischen Tiefenschätzung, einer zentralen Aufgabe des 3D-Verständnisses. Diese Modelle benötigen jedoch aufgaben-spezifische Architekturen und Verlustfunktionen. Dieser Unterschied motiviert uns zu der Frage: Können VLMs Experten-Genauigkeit erreichen, ohne ihre Architektur oder Verlustfunktion zu ändern? Wir nehmen die metrische Tiefenschätzung auf Pixelbasis als repräsentative Aufgabe und zeigen, dass die Antwort Ja lautet! Überraschenderweise zeigt eine umfassende Analyse, dass textbasierte Supervised-Finetuning mit spärlichen Labels ausreicht, um bei VLMs ein starkes 3D-Verständnis zu ermöglichen – ohne dichte Vorhersageköpfe oder komplexe Regressions-/Regularisierungsverluste. Der Engpass bei VLMs liegt tatsächlich in der Pixelreferenz und der Kamera-Mehrdeutigkeit zwischen Datensätzen, die wir durch visuelle Prompting und intrinsisch-bedingte Augmentierung adressieren. Mit deutlich kleineren Modellen übertrifft unsere Methode DepthLM die Genauigkeit der meisten fortschrittlichen VLMs um mehr als das 2-fache und macht VLMs erstmals mit reinen Vision-Modellen vergleichbar. Interessanterweise vermeiden VLMs, die mit DepthLM trainiert wurden, ohne explizite Durchsetzung während des Trainings natürlicherweise Überglättung und weisen in Randbereichen deutlich weniger fliegende Punkte auf als reine Vision-Modelle. Die Einfachheit von DepthLM ermöglicht es zudem, dass ein einzelnes VLM verschiedene 3D-Aufgaben über die metrische Tiefenschätzung hinaus abdeckt. Unser Code und Modell werden unter dem folgenden Link veröffentlicht.
Die Multi-Subjekt-Bildgenerierung zielt darauf ab, vom Benutzer bereitgestellte Subjekte in einem einzelnen Bild zu synthetisieren, wobei die Subjekttreue gewahrt, die Konsistenz mit dem Prompt sichergestellt und die ästhetischen Präferenzen des Menschen berücksichtigt werden. Bestehende Methoden, insbesondere solche, die auf dem In-Context-Learning-Paradigma basieren, sind jedoch durch ihre Abhängigkeit von einfachen rekonstruktionsbasierten Zielen eingeschränkt, was sowohl zu schwerwiegenden Attributlecks führt, die die Subjekttreue beeinträchtigen, als auch daran scheitert, fein abgestimmte menschliche Präferenzen zu berücksichtigen. Um dies zu beheben, schlagen wir MultiCrafter vor, ein Framework, das eine hochwertige, präferenzorientierte Generierung gewährleistet. Zunächst stellen wir fest, dass die Hauptursache für Attributlecks eine signifikante Verflechtung der Aufmerksamkeit zwischen verschiedenen Subjekten während des Generierungsprozesses ist. Daher führen wir eine explizite Positionsüberwachung ein, um die Aufmerksamkeitsbereiche für jedes Subjekt klar zu trennen und so Attributlecks effektiv zu mindern. Um dem Modell zu ermöglichen, den Aufmerksamkeitsbereich verschiedener Subjekte in unterschiedlichen Szenarien präzise zu planen, verwenden wir eine Mixture-of-Experts-Architektur, um die Kapazität des Modells zu steigern, sodass verschiedene Experten sich auf unterschiedliche Szenarien konzentrieren können. Schließlich entwickeln wir ein neuartiges Online-Reinforcement-Learning-Framework, um das Modell mit menschlichen Präferenzen in Einklang zu bringen, das einen Bewertungsmechanismus zur genauen Beurteilung der Multi-Subjekt-Treue und eine stabilere Trainingsstrategie, die speziell für die MoE-Architektur zugeschnitten ist, umfasst. Experimente bestätigen, dass unser Framework die Subjekttreue erheblich verbessert und gleichzeitig besser mit menschlichen Präferenzen übereinstimmt.
Bestehende Text-zu-Bild-Diffusionsmodelle zeichnen sich durch die Erzeugung hochwertiger Bilder aus, stoßen jedoch bei der Skalierung auf hohe Auflösungen, wie beispielsweise 4K-Bildgenerierung, auf erhebliche Effizienzprobleme. Während frühere Forschungen Diffusionsmodelle in verschiedenen Aspekten beschleunigt haben, wird die inhärente Redundanz im latenten Raum selten behandelt. Um diese Lücke zu schließen, stellt dieses Papier DC-Gen vor, ein allgemeines Framework, das Text-zu-Bild-Diffusionsmodelle durch die Nutzung eines stark komprimierten latenten Raums beschleunigt. Anstatt eines kostspieligen Trainings-von-Grund-auf-Ansatzes verwendet DC-Gen eine effiziente Nachschulungs-Pipeline, um die Qualität des Basismodells zu bewahren. Eine zentrale Herausforderung in diesem Paradigma ist die Repräsentationslücke zwischen dem latenten Raum des Basismodells und einem stark komprimierten latenten Raum, die zu Instabilität während der direkten Feinabstimmung führen kann. Um dies zu überwinden, überbrückt DC-Gen zunächst die Repräsentationslücke mit einem leichtgewichtigen Embedding-Alignment-Training. Sobald die latenten Embeddings ausgerichtet sind, ist nur eine geringe Menge an LoRA-Feinabstimmung erforderlich, um die inhärente Generierungsqualität des Basismodells freizuschalten. Wir überprüfen die Wirksamkeit von DC-Gen anhand von SANA und FLUX.1-Krea. Die daraus resultierenden DC-Gen-SANA- und DC-Gen-FLUX-Modelle erreichen eine Qualität, die mit ihren Basismodellen vergleichbar ist, jedoch mit einer erheblichen Beschleunigung. Insbesondere reduziert DC-Gen-FLUX die Latenz der 4K-Bildgenerierung um das 53-fache auf der NVIDIA H100 GPU. In Kombination mit NVFP4 SVDQuant generiert DC-Gen-FLUX ein 4K-Bild in nur 3,5 Sekunden auf einer einzelnen NVIDIA 5090 GPU, was einer gesamten Latenzreduktion von 138x im Vergleich zum Basismodell FLUX.1-Krea entspricht. Code: https://github.com/dc-ai-projects/DC-Gen.
Suchverstärkte LLMs haben oft Schwierigkeiten mit komplexen Denkaufgaben aufgrund von ineffektivem Multi-Hop-Retrieval und begrenzter Denkfähigkeit. Wir schlagen AceSearcher vor, ein kooperatives Selbstspiel-Framework, das ein einzelnes großes Sprachmodell (LLM) trainiert, um zwischen zwei Rollen zu wechseln: einem Zerleger, der komplexe Anfragen aufteilt, und einem Löser, der abgerufene Kontexte zur Antwortgeneration integriert. AceSearcher kombiniert überwachtes Feinabstimmen auf einer vielfältigen Mischung aus Such-, Denk- und Zerlegungsaufgaben mit verstärkendem Feinabstimmen, das auf die Genauigkeit der endgültigen Antwort optimiert ist, wodurch die Notwendigkeit für Zwischenannotationen entfällt. Umfangreiche Experimente zu drei denkintensiven Aufgaben über 10 Datensätze zeigen, dass AceSearcher state-of-the-art Baselines übertrifft und eine durchschnittliche Verbesserung der exakten Übereinstimmung von 7,6% erreicht. Bemerkenswerterweise erreicht AceSearcher-32B bei dokumentenbasierten Finanzdenkaufgaben die Leistung des DeepSeek-V3-Modells mit weniger als 5% seiner Parameter. Selbst in kleineren Maßstäben (1,5B und 8B) übertrifft AceSearcher oft bestehende suchverstärkte LLMs mit bis zu 9x mehr Parametern, was seine außergewöhnliche Effizienz und Effektivität bei der Bewältigung komplexer Denkaufgaben unterstreicht. Unser Code wird unter https://github.com/ritaranx/AceSearcher und https://huggingface.co/AceSearcher veröffentlicht.
Autoregressive (AR)-Modelle sind vielversprechend für die Bildgenerierung, doch kontinuierliche Token-AR-Varianten liegen oft hinter latenten Diffusions- und Maskengenerierungsmodellen zurück. Das Kernproblem ist die heterogene Varianz in VAE-Latents, die während der AR-Decodierung verstärkt wird, insbesondere unter classifier-free guidance (CFG), und zu einem Varianzkollaps führen kann. Wir schlagen SphereAR vor, um dieses Problem zu lösen. Sein Kernkonzept besteht darin, alle AR-Eingaben und -Ausgaben – einschließlich nach CFG – auf einer Hypersphäre mit festem Radius (konstanter ℓ₂-Norm) zu beschränken, wobei hypersphärische VAEs genutzt werden. Unsere theoretische Analyse zeigt, dass die hypersphärische Beschränkung die Skalenkomponente (die Hauptursache für den Varianzkollaps) entfernt und dadurch die AR-Decodierung stabilisiert. Empirisch erreicht SphereAR-H (943M) bei der ImageNet-Generierung einen neuen State-of-the-Art für AR-Modelle mit einem FID von 1,34. Selbst bei kleineren Skalen erreicht SphereAR-L (479M) einen FID von 1,54 und SphereAR-B (208M) einen FID von 1,92, womit es vergleichbare oder größere Baselines wie MAR-H (943M, 1,55) und VAR-d30 (2B, 1,92) übertrifft. Unseres Wissens ist dies das erste Mal, dass ein reiner Next-Token-AR-Bildgenerator mit Rasterreihenfolge Diffusions- und Maskengenerierungsmodelle bei vergleichbaren Parameterskalen übertrifft.
Das Verständnis langer Videos bleibt für aktuelle Large Video-Language Models (LVLMs) eine Herausforderung, da ein Konflikt zwischen dem langfristigen zeitlichen Verständnis und der detaillierten räumlichen Wahrnehmung besteht. LVLMs mit einem einheitlichen Frame-Sampling-Mechanismus, der Frames mit gleicher Bildgröße und fester Abtastrate auswählt, opfern unweigerlich entweder zeitliche Hinweise oder räumliche Details, was zu suboptimalen Lösungen führt. Um dieses Dilemma zu mildern, schlagen wir LOVE-R1 vor, ein Modell, das sich adaptiv auf einen Videoclip zoomen kann. Das Modell erhält zunächst dicht abgetastete Frames, jedoch in einer kleinen Auflösung. Falls räumliche Details benötigt werden, kann das Modell basierend auf seiner Schlussfolgerung auf einen interessierenden Clip mit einer hohen Frame-Auflösung zoomen, bis wichtige visuelle Informationen erfasst sind. Der gesamte Prozess wird als ein mehrstufiger Schlussfolgerungsprozess implementiert. Um die Schlussfolgerungsfähigkeit zu trainieren, finetunen wir das Modell zunächst auf unseren gesammelten 38k hochwertigen CoT-Daten und verbessern es durch entkoppeltes Reinforcement-Finetuning. Da Ergebnisbelohnungen keine feingranulare Prozessüberwachung bieten können, entkoppeln wir die mehrstufige Schlussfolgerung in mehrere einstufige Schlussfolgerungen und optimieren die interne Zoom-Fähigkeit explizit. Experimente auf Benchmarks für das Verständnis langer Videos zeigen, dass unser Modell mit dem adaptiven Slow-Fast-Frame-Sampling-Mechanismus einen guten Kompromiss zwischen Abtastdichte und Frame-Auflösungen erreicht und LOVE-R1 unser Baseline-Modell Qwen2.5-VL auf 4 gängigen Benchmarks für das Verständnis langer Videos im Durchschnitt um 3,1 Prozentpunkte übertrifft.
Die Präferenzoptimierung ist entscheidend, um große Sprachmodelle (LLMs) mit menschlichen Werten und Absichten in Einklang zu bringen. Eine wesentliche Herausforderung in diesem Prozess ist die Verteilungsdiskrepanz zwischen vorab gesammelten Offline-Präferenzdaten und der sich entwickelnden Modellpolitik. Bestehende Methoden versuchen, diese Lücke durch statische Heuristiken oder entkoppelte Online-Sampling-Strategien zu verringern, scheitern jedoch oft daran, sich an den dynamischen Lernzustand des Modells anzupassen. Um diese Lücke zu schließen, schlagen wir Meta-Weighted Adaptive Preference Optimization (MetaAPO) vor, ein neuartiges Framework, das die Datengenerierung dynamisch mit dem Modelltraining koppelt. MetaAPO verwendet einen leichtgewichtigen Meta-Learner als „Alignment-Gap-Schätzer“, um die potenziellen Vorteile des On-Policy-Samplings im Vergleich zu Offline-Daten zu bewerten. Dies leitet eine gezielte Online-Generierung an und weist der Optimierungszielvorgabe stichprobenweise Meta-Gewichte zu, wodurch die Qualität und Verteilung von Online- und Offline-Daten dynamisch ausbalanciert werden. Experimente auf AlpacaEval 2, Arena-Hard und MT-Bench zeigen, dass MetaAPO bestehende Präferenzoptimierungsansätze in verschiedenen Szenarien durchweg übertrifft und gleichzeitig die Online-Annotationkosten um 42 % reduziert.
Die Aufgabe, Webseiten in Code zu übersetzen, erfordert von Modellen, dass sie visuelle Darstellungen von Webseiten verstehen und entsprechenden Code generieren. Bestehende Benchmarks konzentrieren sich jedoch hauptsächlich auf statische Screenshot-zu-Code-Aufgaben und vernachlässigen dabei die dynamischen Interaktionen, die für reale Webanwendungen grundlegend sind. Um diese Einschränkung zu überwinden, stellt dieses Papier IWR-Bench vor, einen neuartigen Benchmark zur Bewertung der Fähigkeiten von Large Vision-Language Models (LVLMs) bei der interaktiven Rekonstruktion von Webseiten aus Videos. IWR-Bench umfasst 113 sorgfältig kuratierte Aufgaben von 100 realen Websites, mit 1.001 Aktionen und einer Vielzahl von Interaktionskomplexitäten (z.B. Webspiele), visuellen Stilen und Domänen. In Übereinstimmung mit den Standardpraktiken der Webentwicklung enthält jede Aufgabe nicht nur Benutzerinteraktionsvideos, sondern auch alle gecrawlten statischen Assets (z.B. Bilder, Videos). Dieser Benchmark bewertet Modelle anhand von zwei grundlegenden Herausforderungen: umfassendes multimodales Schließen, um die Interaktionslogik aus Videos und Assets abzuleiten, und fortgeschrittene Codegenerierung, um diese Logik in funktionalen Code zu übersetzen. Ein Agent-as-a-Judge-Framework mit einem umfassenden Metriksystem bewertet automatisch die funktionale Korrektheit und visuelle Treue der generierten Webseiten. Umfangreiche Experimente mit 28 LVLMs offenbaren eine erhebliche Herausforderung: Das beste Modell erreicht eine Gesamtpunktzahl von nur 36,35 %, da die funktionale Korrektheit (24,39 % IFS) deutlich hinter der visuellen Treue (64,25 % VFS) zurückbleibt. Diese Ergebnisse verdeutlichen kritische Einschränkungen in der Fähigkeit aktueller Modelle, zeitliche Dynamiken zu verstehen und ereignisgesteuerte Logik zu synthetisieren, und etablieren IWR-Bench als eine herausfordernde Grenze für die Vision-Language-Forschung. Der Benchmark und der Evaluationscode werden öffentlich zugänglich gemacht. Der Code ist verfügbar unter https://github.com/L-O-I/IWR-Bench.
Reinforcement Learning (RL) hat sich als zentrales Paradigma für die Weiterentwicklung von Large Language Models (LLMs) etabliert, wobei Pre-Training und RL-Post-Training die gleiche Log-Likelihood-Formulierung teilen. Im Gegensatz dazu optimieren neuere RL-Ansätze für Diffusionsmodelle, insbesondere Denoising Diffusion Policy Optimization (DDPO), ein Ziel, das sich von den Pre-Training-Zielen unterscheidet – dem Score/Flow-Matching-Verlust. In dieser Arbeit stellen wir eine neuartige theoretische Analyse vor: DDPO ist eine implizite Form von Score/Flow-Matching mit verrauschten Zielen, was die Varianz erhöht und die Konvergenz verlangsamt. Aufbauend auf dieser Analyse führen wir Advantage Weighted Matching (AWM) ein, eine Policy-Gradient-Methode für Diffusion. Diese Methode verwendet den gleichen Score/Flow-Matching-Verlust wie das Pre-Training, um ein Ziel mit geringerer Varianz zu erreichen, und gewichtet jede Stichprobe nach ihrem Vorteil. Dadurch erhöht AWM den Einfluss von Stichproben mit hoher Belohnung und unterdrückt solche mit niedriger Belohnung, während das Modellierungsziel identisch zum Pre-Training bleibt. Dies vereinheitlicht Pre-Training und RL sowohl konzeptionell als auch praktisch, ist konsistent mit der Policy-Gradient-Theorie, reduziert die Varianz und führt zu einer schnelleren Konvergenz. Dieses einfache, aber effektive Design bringt erhebliche Vorteile mit sich: Auf den Benchmarks GenEval, OCR und PickScore liefert AWM eine bis zu 24-fache Beschleunigung gegenüber Flow-GRPO (das auf DDPO aufbaut), wenn es auf Stable Diffusion 3.5 Medium und FLUX angewendet wird, ohne die Generierungsqualität zu beeinträchtigen. Der Code ist verfügbar unter https://github.com/scxue/advantage_weighted_matching.
Strukturierte Bilder (z. B. Diagramme und geometrische Zeichnungen) stellen nach wie vor eine Herausforderung für multimodale große Sprachmodelle (MLLMs) dar, da Wahrnehmungsfehler zu fehlerhaften Schlussfolgerungen führen können. Zwischenstufige visuelle Hinweise können die Argumentation lenken; jedoch sind bestehende hinweisbasierte Methoden durch eine niedrige Bildverarbeitungsqualität und lineare, starre Argumentationsmuster eingeschränkt, was ihre Effektivität bei komplexen Aufgaben mit strukturierten Bildern begrenzt. In diesem Artikel stellen wir PixelCraft vor, ein neuartiges Multi-Agenten-System für hochwertige Bildverarbeitung und flexible visuelle Argumentation bei strukturierten Bildern. Das System besteht aus einem Dispatcher, einem Planer, einem Argumentierer, Kritikern und einer Reihe von visuellen Werkzeugagenten. Um eine hochwertige Verarbeitung zu erreichen, erstellen wir ein qualitativ hochwertiges Korpus und feintunen ein MLLM zu einem Grounding-Modell, dessen pixelgenaue Lokalisierungen mit traditionellen Computer-Vision (CV)-Algorithmen in den Werkzeugagenten integriert werden. Auf dieser Grundlage ermöglicht PixelCraft eine flexible visuelle Argumentation durch einen dynamischen dreistufigen Arbeitsablauf aus Werkzeugauswahl, Agentendiskussion und Selbstkritik. Darüber hinaus pflegt PixelCraft, im Gegensatz zu früheren linearen Argumentationsmustern, die lediglich historische Bilder anhängen, ein Bildgedächtnis, das es dem Planer ermöglicht, frühere visuelle Schritte adaptiv zu überprüfen, alternative Argumentationszweige zu erkunden und die Argumentationsbahn während der Diskussion dynamisch anzupassen. Umfangreiche Experimente mit anspruchsvollen Diagramm- und Geometrie-Benchmarks zeigen, dass PixelCraft die visuelle Argumentationsleistung fortgeschrittener MLLMs erheblich verbessert und einen neuen Standard für die Argumentation mit strukturierten Bildern setzt. Unser Code wird unter https://github.com/microsoft/PixelCraft verfügbar sein.
Das Streben nach künstlichen Agenten, die komplexe Umgebungen meistern können, hat zu bemerkenswerten Erfolgen geführt, doch gängige Methoden des tiefen verstärkenden Lernens beruhen oft auf immensen Erfahrungen und kodieren ihr Wissen undurchsichtig in den Gewichten neuronaler Netze. Wir schlagen ein alternatives Paradigma vor, in dem ein Agent durch logisches Denken und Planen lernt. Wir stellen Cogito, ergo ludo (CEL) vor, eine neuartige Agentenarchitektur, die ein großes Sprachmodell (Large Language Model, LLM) nutzt, um ein explizites, sprachbasiertes Verständnis der Mechanik seiner Umgebung und seiner eigenen Strategie zu entwickeln. Ausgehend von einem tabula rasa-Zustand ohne Vorwissen (außer dem Aktionsset) durchläuft CEL einen Zyklus aus Interaktion und Reflexion. Nach jeder Episode analysiert der Agent seine vollständige Trajektorie, um zwei parallele Lernprozesse durchzuführen: Regelinduktion, bei der er sein explizites Modell der Dynamik der Umgebung verfeinert, sowie Strategie- und Spielzusammenfassung, bei der er Erfahrungen in einen umsetzbaren strategischen Spielplan destilliert. Wir evaluieren CEL anhand verschiedener Grid-World-Aufgaben (z. B. Minesweeper, Frozen Lake und Sokoban) und zeigen, dass der CEL-Agent erfolgreich lernt, diese Spiele zu meistern, indem er ihre Regeln autonom entdeckt und effektive Strategien aus spärlichen Belohnungen entwickelt. Ablationsstudien bestätigen, dass der iterative Prozess entscheidend für nachhaltiges Lernen ist. Unsere Arbeit zeigt einen Weg hin zu allgemeineren und interpretierbaren Agenten, die nicht nur effektiv handeln, sondern auch ein transparentes und sich verbesserndes Modell ihrer Welt durch explizites Schlussfolgern aus rohen Erfahrungen aufbauen.
Die zunehmende Verbreitung von Agenten, die auf großen Sprachmodellen (LLMs) basieren und mit externen Umgebungen interagieren, hat neue Angriffsflächen für adversarische Manipulationen geschaffen. Eine große Bedrohung stellt die indirekte Prompt-Injektion dar, bei der Angreifer bösartige Anweisungen in die Ausgabe der externen Umgebung einbetten, wodurch Agenten diese als legitime Prompts interpretieren und ausführen. Während sich frühere Forschung hauptsächlich auf Plain-Text-Injektionsangriffe konzentrierte, entdecken wir eine signifikante, jedoch bisher wenig erforschte Schwachstelle: die Abhängigkeit von LLMs von strukturierten Chat-Vorlagen und ihre Anfälligkeit für kontextuelle Manipulation durch überzeugende Mehrfachdialoge. Zu diesem Zweck führen wir ChatInject ein, einen Angriff, der bösartige Nutzdaten so formatiert, dass sie native Chat-Vorlagen nachahmen und damit die inhärente Tendenz des Modells, Anweisungen zu befolgen, ausnutzt. Auf dieser Grundlage entwickeln wir eine persuasionsgetriebene Mehrfachvariante, die den Agenten über mehrere Gesprächsrunden hinweg darauf vorbereitet, ansonsten verdächtige Aktionen zu akzeptieren und auszuführen. Durch umfassende Experimente mit führenden LLMs demonstrieren wir drei kritische Erkenntnisse: (1) ChatInject erreicht signifikant höhere durchschnittliche Angriffserfolgsraten als traditionelle Prompt-Injektionsmethoden, mit einer Steigerung von 5,18 % auf 32,05 % bei AgentDojo und von 15,13 % auf 45,90 % bei InjecAgent, wobei Mehrfachdialoge besonders stark abschneiden und eine durchschnittliche Erfolgsrate von 52,33 % bei InjecAgent erreichen, (2) Chat-Vorlagen-basierte Nutzdaten zeigen eine starke Übertragbarkeit zwischen Modellen und bleiben auch bei Closed-Source-LLMs effektiv, trotz unbekannter Vorlagenstrukturen, und (3) bestehende Prompt-basierte Abwehrmechanismen sind weitgehend unwirksam gegen diesen Angriffsansatz, insbesondere gegen Mehrfachvarianten. Diese Erkenntnisse verdeutlichen Schwachstellen in aktuellen Agentensystemen.
Große Sprachmodelle (LLMs) haben zunehmende Effektivität bei Text-to-SQL-Aufgaben gezeigt. Ein eng verwandtes Problem, die Cross-System-SQL-Übersetzung (auch bekannt als SQL-to-SQL), bei der eine Abfrage, die für ein Datenbanksystem (z. B. MySQL) geschrieben wurde, in ihre Entsprechung für ein anderes System (z. B. ClickHouse) angepasst wird, ist von großer praktischer Bedeutung, bleibt jedoch weitgehend unerforscht. Bestehende SQL-Benchmarks eignen sich nicht gut für die SQL-to-SQL-Evaluierung, da sie (1) sich auf eine begrenzte Anzahl von Datenbanksystemen (oft nur SQLite) konzentrieren und (2) viele system-spezifische SQL-Dialekte (z. B. angepasste Funktionen, Datentypen und Syntaxregeln) nicht erfassen können. Daher stellen wir in diesem Artikel PARROT vor, einen praktischen und realistischen Benchmark für die Cross-System-SQL-Übersetzung. PARROT umfasst 598 Übersetzungspaare aus 38 Open-Source-Benchmarks und realen Geschäftsdiensten, die speziell dazu entwickelt wurden, das Verständnis für system-spezifische SQL-Abfragen herauszufordern (z. B. erreichen LLMs im Durchschnitt eine Genauigkeit von weniger als 38,53 %). Wir bieten auch mehrere Benchmark-Varianten an, darunter PARROT-Diverse mit 28.003 Übersetzungen (für umfangreiche Syntax-Tests) und PARROT-Simple mit 5.306 repräsentativen Beispielen (für gezielte Stresstests), die 22 produktionsreife Datenbanksysteme abdecken. Um zukünftige Forschung zu fördern, veröffentlichen wir ein öffentliches Leaderboard und den Quellcode unter: https://code4db.github.io/parrot-bench/.
Dieses Paper stellt MathBode vor, eine dynamische Diagnostik für mathematisches Denken in großen Sprachmodellen (LLMs). Anstelle von Einzelmessungen der Genauigkeit behandelt MathBode jedes parametrische Problem als System: Wir variieren einen einzelnen Parameter sinusförmig und passen die Antworten der Modellausgaben und exakten Lösungen auf die erste Harmonische an. Dies liefert interpretierbare, frequenzaufgelöste Metriken – Verstärkung (Amplitudenverfolgung) und Phase (Verzögerung) – die Bode-ähnliche Fingerabdrücke bilden. Über fünf geschlossene Problemfamilien hinweg (lineare Gleichungslösung, Verhältnis/Sättigung, Zinseszins, 2x2 lineare Systeme, ähnliche Dreiecke) deckt die Diagnostik systematisches Tiefpassverhalten und zunehmende Phasenverzögerung auf, die durch reine Genauigkeitsmessungen verborgen bleiben. Wir vergleichen mehrere Modelle mit einer symbolischen Referenz, die das Instrument kalibriert (G ≈ 1, φ ≈ 0). Die Ergebnisse unterscheiden Spitzenmodelle von mittelmäßigen Modellen hinsichtlich ihrer Dynamik und bieten ein kompaktes, reproduzierbares Protokoll, das Standard-Benchmarks durch aussagekräftige Messungen der Denkgenauigkeit und -konsistenz ergänzt. Wir stellen den Datensatz und den Code als Open Source zur Verfügung, um weitere Forschung und Verbreitung zu ermöglichen.
Einheitliche Videomodellierung, die Erzeugungs- und Verständnisfähigkeiten kombiniert, gewinnt zunehmend an Bedeutung, steht jedoch vor zwei zentralen Herausforderungen: die Wahrung der semantischen Treue während der flussbasierten Erzeugung aufgrund des Ungleichgewichts zwischen Text- und visuellen Tokens sowie die Beschränkungen der einheitlichen cross-modalen Aufmerksamkeit über den Flusspfad hinweg, und die effiziente Erweiterung von bildzentrierten MLLMs auf Videos ohne kostspieliges Neutraining. Wir präsentieren UniVid, eine einheitliche Architektur, die ein MLLM mit einem Diffusionsdecoder über einen leichtgewichtigen Adapter koppelt und sowohl das Verständnis als auch die Erzeugung von Videos ermöglicht. Wir führen die Temperatur-Modalitätsausrichtung ein, um die Einhaltung von Prompts zu verbessern, und die Pyramidenspiegelung für effizientes zeitliches Schließen durch dynamische Schlüsselbildauswahl. Umfangreiche Experimente auf Standard-Benchmarks demonstrieren Spitzenleistungen, mit einer Verbesserung von 2,2 % auf der VBench-Long-Gesamtpunktzahl im Vergleich zu EasyAnimateV5.1 sowie Genauigkeitssteigerungen von 1,0 % und 3,3 % auf MSVD-QA und ActivityNet-QA im Vergleich zu den besten vorherigen 7B-Baselines.
Große Reasoning-Modelle (LRMs) haben bemerkenswerte Fähigkeiten bei der Lösung komplexer Probleme durch Chain-of-Thought (CoT)-Reasoning demonstriert. Die mehrstufige Natur von CoT führt jedoch zu neuen Sicherheitsherausforderungen, die über die konventionelle Ausrichtung von Sprachmodellen hinausgehen. Wir identifizieren einen Fehlermodus in aktuellen Sicherheits-CoT-Tuning-Methoden: den Schneeballeffekt, bei dem geringfügige Abweichungen im Reasoning sich im Laufe des Denkprozesses verstärken und entweder zu schädlicher Compliance oder übermäßiger Verweigerung führen. Dieser Effekt rührt daher, dass Modelle darauf trainiert werden, perfekte Reasoning-Skripte nachzuahmen, ohne zu lernen, sich selbst zu korrigieren. Um diese Einschränkung zu überwinden, schlagen wir AdvChain vor, ein Ausrichtungsparadigma, das Modelle durch adversarielles CoT-Tuning dynamische Selbstkorrektur lehrt. Unsere Methode umfasst die Erstellung eines Datensatzes mit Temptation-Correction- und Hesitation-Correction-Beispielen, in denen Modelle lernen, von schädlichen Reasoning-Abweichungen und unnötigen Vorsichtsmaßnahmen zurückzukehren. Umfangreiche Experimente zeigen, dass AdvChain die Robustheit gegen Jailbreak-Angriffe und CoT-Hijacking signifikant verbessert und gleichzeitig die übermäßige Verweigerung bei harmlosen Anfragen erheblich reduziert, wodurch ein überlegener Sicherheits-Nutzen-Kompromiss erreicht wird, ohne die Reasoning-Fähigkeiten zu beeinträchtigen. Unsere Arbeit etabliert eine neue Richtung für den Aufbau robusterer und zuverlässigerer Reasoning-Modelle.
Der rasche Fortschritt von Large Multimodal Models (LMMs) und cloudbasierten KI-Agenten transformiert die Mensch-KI-Kollaboration in eine bidirektionale, multimodale Interaktion. Bestehende Codecs sind jedoch weiterhin auf unimodale, einseitige Kommunikation optimiert, was zu wiederholter Qualitätsminderung in konventionellen Komprimierungs-Übertragungs-Rekonstruktions-Pipelines führt. Um diese Einschränkung zu überwinden, schlagen wir UniMIC vor, ein einheitliches, tokenbasiertes Multimodales Interaktives Codierungs-Framework, das Edge-Geräte und Cloud-KI-Agenten verbindet. Anstatt rohe Pixel oder Klartext zu übertragen, nutzt UniMIC kompakte tokenisierte Repräsentationen als Kommunikationsmedium, wodurch eine effiziente Niedrigbitraten-Übertragung ermöglicht wird, während die Kompatibilität mit LMMs erhalten bleibt. Um die Kompression weiter zu verbessern, minimieren leichte Transformer-basierte Entropiemodelle mit szenariospezifischen Designs – generisch, maskiert und textbedingt – effektiv die Redundanz zwischen Tokens. Umfangreiche Experimente zur Text-zu-Bild-Generierung, textgesteuerten Bildinpainting, Outpainting und visuellen Fragebeantwortung zeigen, dass UniMIC erhebliche Bitrateneinsparungen erzielt und selbst bei ultra-niedrigen Bitraten (<0,05 bpp) robust bleibt, ohne die Leistung nachgelagerter Aufgaben zu beeinträchtigen. Diese Ergebnisse etablieren UniMIC als ein praktisches und zukunftsorientiertes Paradigma für die nächste Generation multimodaler interaktiver Kommunikation.
Skalierbarkeit hat die jüngsten Fortschritte im Bereich des generativen Modellierens vorangetrieben, doch ihre Prinzipien bleiben im Bereich des adversariellen Lernens weitgehend unerforscht. Wir untersuchen die Skalierbarkeit von Generative Adversarial Networks (GANs) anhand von zwei Designentscheidungen, die sich bei anderen Arten von generativen Modellen als effektiv erwiesen haben: das Training in einem kompakten latenten Raum von Variational Autoencodern und die Verwendung rein transformer-basierter Generatoren und Diskriminatoren. Das Training im latenten Raum ermöglicht eine effiziente Berechnung bei gleichzeitiger Wahrung der wahrnehmungsbezogenen Treue, und diese Effizienz passt natürlich zu einfachen Transformern, deren Leistung mit dem Rechenbudget skaliert. Aufbauend auf diesen Entscheidungen analysieren wir Fehlermodi, die auftreten, wenn GANs naiv skaliert werden. Insbesondere stellen wir Probleme wie die Unterauslastung früher Schichten im Generator und Optimierungsinstabilität bei der Skalierung des Netzwerks fest. Dementsprechend bieten wir einfache und skalierungsfreundliche Lösungen wie leichtgewichtige Zwischenüberwachung und breitenabhängige Lernratenanpassung. Unsere Experimente zeigen, dass GAT, ein rein transformer-basiertes und im latenten Raum trainiertes GAN, zuverlässig über einen weiten Bereich von Kapazitäten (S bis XL) trainiert werden kann. Darüber hinaus erreicht GAT-XL/2 mit nur 40 Epochen eine state-of-the-art Leistung bei der einstufigen, klassenbedingten Generierung (FID von 2,96) auf ImageNet-256, was 6-mal weniger Epochen als starke Baselines erfordert.
Zielorientierte, sprachgesteuerte Navigation erfordert robuste Explorationsfähigkeiten, damit Agenten in unbekannten Umgebungen zu spezifizierten Zielen navigieren können, ohne Schritt-für-Schritt-Anweisungen. Bestehende Methoden neigen dazu, ausschließlich kürzeste Pfad-Trajektorien zu nutzen, wodurch effektive Explorationspriors für das Training von Navigationsagenten fehlen. Um diese Herausforderungen zu bewältigen, präsentieren wir SID, einen zielorientierten, sprachgesteuerten Navigationsansatz mit Selbstverbessernden Demonstrationen. Konkret lernt SID zunächst einen Agenten anhand von Daten kürzester Pfade, die aus Umgebungen stammen, und nutzt diesen Agenten dann, um neuartige Explorationstrajektorien zu generieren. Diese neuartigen Rollouts liefern Demonstrationen mit stärkeren Explorationsstrategien, um einen besseren Agenten zu trainieren, der wiederum höherwertige Agentendemonstrationen für die nächste Trainingsrunde erzeugt. Wir zeigen, dass diese iterative, selbstverbessernde Pipeline problemlos auf neue Umgebungen skaliert werden kann und dass die resultierenden Demonstrationen über eine Vielzahl von sprachgesteuerten Navigationsaufgaben übertragen werden können, wodurch die Leistungsgrenze in diversen zielorientierten Navigationsaufgaben angehoben wird. Umfangreiche Experimente belegen, dass SID die Explorationsfähigkeiten und die Generalisierung von Navigationsagenten signifikant steigert. Der resultierende Agent erreicht neue State-of-the-Art-Leistungen in zielorientierten, sprachgesteuerten Navigationsaufgaben, einschließlich REVERIE und SOON, und erzielt dabei eine Erfolgsrate von 50,9 % auf den ungesehenen Validierungs-Splits von SOON, was die bisher führenden Ansätze um 13,9 % übertrifft.
Test-Driven Development (TDD) ist eine weit verbreitete Praxis in der Softwareentwicklung, bei der Entwickler Tests parallel zur Code-Implementierung erstellen und ausführen, um sicherzustellen, dass das Softwareverhalten kontinuierlich validiert und verfeinert wird. Im Zeitalter des „Vibe Coding“, bei dem Entwickler zunehmend das Schreiben von Code an große Sprachmodelle (LLMs) delegieren, indem sie hochrangige Absichten spezifizieren, wird TDD noch entscheidender, da Testfälle als ausführbare Spezifikationen dienen, die die beabsichtigte Funktionalität explizit definieren und überprüfen, über das hinaus, was natürliche Sprachbeschreibungen und Codekontext vermitteln können. Obwohl Vibe Coding unter TDD vielversprechend ist, gibt es drei Hauptherausforderungen: (1) die Auswahl eines kleinen, aber effektiven Testsuites, um die Generierungsgenauigkeit zu verbessern und die Ausführungslast zu kontrollieren, (2) die effektive Beschaffung von Kontext wie relevantem Code und (3) die systematische Nutzung von Testfeedback für eine effektive Code-Verfeinerung. Um diese Herausforderungen zu bewältigen, stellen wir TENET vor, einen LLM-Agenten zur Generierung von Funktionen in komplexen realen Repositories unter der TDD-Einstellung. TENET verfügt über drei Komponenten: (1) einen neuartigen Test-Harness-Mechanismus, der ein prägnantes Testsuite auswählt, um die Vielfalt der Zielanwendungsszenarien zu maximieren; (2) ein maßgeschneidertes Agenten-Toolset, das eine effiziente Beschaffung von relevantem Code mit interaktivem Debugging durchführt; und (3) einen reflexionsbasierten Verfeinerungs-Workflow, der iterativ Fehler analysiert, Kontext ergänzt und Code-Verfeinerungen anwendet. TENET erreicht 69,08 % und 81,77 % Pass@1 auf den Benchmarks RepoCod und RepoEval und übertrifft damit die besten agentenbasierten Baselines um 9,49 bzw. 2,17 Prozentpunkte. Darüber hinaus ist dies die erste Studie zur testgetriebenen Code-Generierung mit Repository-Level-Kontext, die untersucht, wie verschiedene Aspekte von Testsuites die Leistung von LLM-Agenten unter der TDD-Einstellung beeinflussen.
Das Verständnis, wie Large Language Models (LLMs) komplexes Denken durchführen und welche Fehlermechanismen dabei auftreten, stellt eine Herausforderung in der Interpretierbarkeitsforschung dar. Um eine messbare geometrische Analyseperspektive zu bieten, definieren wir das Konzept des Reasoning Manifolds, einer latenten niedrigdimensionalen geometrischen Struktur, die durch die internen Repräsentationen aller korrekt begründeten Generierungen gebildet wird. Diese Struktur kann als die Verkörperung der effektiven Denkpfade verstanden werden, die das Modell gelernt hat, um eine gegebene Aufgabe erfolgreich zu lösen. Basierend auf diesem Konzept entwickeln wir REMA, ein Framework, das die Ursachen von Fehlern erklärt, indem es die räumlichen Beziehungen der internen Modellrepräsentationen, die sowohl fehlerhaften als auch korrekten Denkprozessen entsprechen, quantitativ vergleicht. Konkret quantifiziert REMA zunächst die geometrische Abweichung jeder fehlerhaften Repräsentation, indem es den k-nächsten-Nachbarn-Abstand zur approximierten Mannigfaltigkeit, die durch korrekte Repräsentationen gebildet wird, berechnet und somit ein einheitliches Fehlersignal liefert. Anschließend lokalisiert es die Divergenzpunkte, an denen diese Abweichungen erstmals signifikant werden, indem es diese Abweichungsmetrik über die Schichten des Modells hinweg verfolgt und sie gegen eine Baseline interner Schwankungen aus korrekten Repräsentationen vergleicht, wodurch identifiziert wird, wo die Denkkette beginnt, vom Kurs abzuweichen. Unsere umfangreichen Experimente an verschiedenen Sprach- und multimodalen Modellen sowie Aufgaben demonstrieren die niedrigdimensionale Natur des Reasoning Manifolds und die hohe Trennbarkeit zwischen fehlerhaften und korrekten Denkrepräsentationen. Die Ergebnisse validieren auch die Effektivität des REMA-Frameworks bei der Analyse der Ursachen von Denkfehlern. Diese Forschung verbindet abstrakte Denkfehler mit messbaren geometrischen Abweichungen in Repräsentationen und eröffnet neue Wege für ein vertieftes Verständnis und die Diagnose der internen Berechnungsprozesse von Black-Box-Modellen.
Gepaarte RGB-thermische Daten sind entscheidend für die Fusion von visuellen und thermischen Sensoren sowie für Aufgaben der Cross-Modalität, einschließlich wichtiger Anwendungen wie der multimodalen Bildausrichtung und -wiederherstellung. Die Knappheit von synchronisierten und kalibrierten RGB-thermischen Bildpaaren stellt jedoch ein großes Hindernis für Fortschritte in diesen Bereichen dar. Um diese Herausforderung zu bewältigen, hat sich die RGB-zu-Thermal (RGB-T) Bildübersetzung als vielversprechende Lösung herausgestellt, die die Synthese von thermischen Bildern aus umfangreichen RGB-Datensätzen für Trainingszwecke ermöglicht. In dieser Studie schlagen wir ThermalGen vor, ein adaptives, flussbasiertes generatives Modell für die RGB-T Bildübersetzung, das eine RGB-Bildkonditionierungsarchitektur und einen stilentkoppelten Mechanismus integriert. Um ein groß angelegtes Training zu unterstützen, haben wir acht öffentliche Satelliten-Luft-, Luft- und Boden-RGB-T gepaarte Datensätze kuratiert und drei neue groß angelegte Satelliten-Luft-RGB-T Datensätze eingeführt – DJI-day, Bosonplus-day und Bosonplus-night – die zu verschiedenen Zeiten, mit verschiedenen Sensortypen und in verschiedenen geografischen Regionen aufgenommen wurden. Umfangreiche Bewertungen über mehrere RGB-T Benchmarks zeigen, dass ThermalGen eine vergleichbare oder überlegene Übersetzungsleistung im Vergleich zu bestehenden GAN-basierten und Diffusions-basierten Methoden erreicht. Nach unserem Wissen ist ThermalGen das erste RGB-T Bildübersetzungsmodell, das in der Lage ist, thermische Bilder zu synthetisieren, die signifikante Variationen in Blickwinkeln, Sensoreigenschaften und Umweltbedingungen widerspiegeln. Projektseite: http://xjh19971.github.io/ThermalGen
Künstliche Intelligenz (KI)-Systeme, insbesondere Large Language Models (LLMs), werden zunehmend für kreative Aufgaben wie die Generierung wissenschaftlicher Ideen eingesetzt, was eine Form der Generalisierung aus Trainingsdaten darstellt, die von bestehenden konzeptionellen Rahmenwerken nicht adressiert wird. Trotz ihrer Ähnlichkeit zur kompositionellen Generalisierung (CG) ist die kombinatorische Kreativität (CC) eine offene Fähigkeit. Anstatt die Genauigkeit oder Korrektheit gegenüber festen Zielen zu bewerten, was dem offenen Charakter von CC widersprechen würde, schlagen wir ein theoretisches Rahmenwerk und eine algorithmische Aufgabe vor, um die Ausgaben anhand ihrer Grade an Neuheit und Nützlichkeit zu bewerten. Darauf aufbauend leisten wir mehrere wichtige empirische Beiträge: (1) Wir gewinnen erste Einblicke in das Skalierungsverhalten der Kreativität von LLMs. (2) Wir entdecken, dass es für feste Rechenbudgets optimale Modelltiefen und -breiten für die kreative Fähigkeit gibt. (3) Wir finden, dass die Ideen-Umsetzungslücke, bei der LLMs zwar hervorragend darin sind, neue wissenschaftliche Ideen zu generieren, aber Schwierigkeiten haben, deren praktische Machbarkeit sicherzustellen, durch einen grundlegenderen Neuheit-Nützlichkeit-Kompromiss erklärt werden kann, der für Kreativitätsalgorithmen im Allgemeinen charakteristisch ist. Wichtig ist, dass dieser Kompromiss auch bei Skalierung bestehen bleibt, was Zweifel am langfristigen kreativen Potenzial von LLMs in ihrer derzeitigen Form aufwirft. Zusammen bilden unser konzeptionelles Rahmenwerk und unsere empirischen Erkenntnisse eine Grundlage für das Verständnis und die Verbesserung der Kreativität in modernen KI-Modellen und überbrücken die Lücke zwischen menschlicher und maschineller Intelligenz.
Wikipedia ist das größte offene Wissenskorpus, das weltweit weit verbreitet ist und als zentrale Ressource für das Training großer Sprachmodelle (LLMs) und retrieval-augmentierter Generationssysteme (RAG) dient. Die Sicherstellung seiner Genauigkeit ist daher von entscheidender Bedeutung. Doch wie genau ist Wikipedia, und wie können wir sie verbessern? Wir konzentrieren uns auf Inkonsistenzen, eine spezifische Art von faktischen Ungenauigkeiten, und führen die Aufgabe der korpusweiten Inkonsistenzdetektion ein. Wir präsentieren CLAIRE, ein agentenbasiertes System, das LLM-basiertes Denken mit Retrieval kombiniert, um potenziell widersprüchliche Behauptungen zusammen mit kontextuellen Beweisen für die menschliche Überprüfung aufzudecken. In einer Nutzerstudie mit erfahrenen Wikipedia-Redakteuren gaben 87,5 % an, mit CLAIRE ein höheres Vertrauen zu haben, und die Teilnehmer identifizierten 64,7 % mehr Inkonsistenzen in der gleichen Zeit. Durch die Kombination von CLAIRE mit menschlicher Annotation tragen wir WIKICOLLIDE bei, den ersten Benchmark für reale Wikipedia-Inkonsistenzen. Mithilfe von Zufallsstichproben und CLAIRE-gestützter Analyse stellen wir fest, dass mindestens 3,3 % der Fakten in der englischen Wikipedia einem anderen Fakt widersprechen, wobei sich Inkonsistenzen auf 7,3 % der FEVEROUS- und 4,0 % der AmbigQA-Beispiele auswirken. Die Bewertung starker Baselines auf diesem Datensatz zeigt erheblichen Verbesserungsbedarf: Das beste vollautomatisierte System erreicht einen AUROC von nur 75,1 %. Unsere Ergebnisse zeigen, dass Widersprüche ein messbarer Bestandteil von Wikipedia sind und dass LLM-basierte Systeme wie CLAIRE ein praktisches Werkzeug bieten können, um Redakteuren bei der Verbesserung der Wissenskonsistenz im großen Maßstab zu unterstützen.
Die Vorhersage menschlicher Mobilität ist aufgrund komplexer langfristiger Abhängigkeiten und mehrskaliger periodischer Verhaltensweisen von Natur aus schwierig. Um dies zu bewältigen, stellen wir RHYTHM (Reasoning with Hierarchical Temporal Tokenization for Human Mobility) vor, ein einheitliches Framework, das große Sprachmodelle (LLMs) als allgemeine räumlich-zeitliche Prädiktoren und Trajektorien-Analysatoren nutzt. Methodisch verwendet RHYTHM eine zeitliche Tokenisierung, um jede Trajektorie in tägliche Segmente zu unterteilen und diese als diskrete Tokens mit hierarchischer Aufmerksamkeit zu kodieren, die sowohl tägliche als auch wöchentliche Abhängigkeiten erfasst, wodurch die Sequenzlänge erheblich reduziert wird, während zyklische Informationen erhalten bleiben. Zusätzlich bereichern wir die Token-Darstellungen, indem wir vorberechnete Prompt-Embeddings für Trajektoriensegmente und Vorhersageziele über ein eingefrorenes LLM hinzufügen und diese kombinierten Embeddings wieder in das LLM-Backbone einspeisen, um komplexe Interdependenzen zu erfassen. Rechnerisch friert RHYTHM das vortrainierte LLM-Backbone ein, um die Aufmerksamkeitskomplexität und Speicherkosten zu reduzieren. Wir bewerten unser Modell im Vergleich zu state-of-the-art Methoden anhand von drei realen Datensätzen. Bemerkenswerterweise erzielt RHYTHM eine Verbesserung der Gesamtgenauigkeit um 2,4 %, eine Steigerung von 5,0 % an Wochenenden und eine Reduzierung der Trainingszeit um 24,6 %. Der Code ist öffentlich verfügbar unter https://github.com/he-h/rhythm.
Beim direkten Bearbeiten von Aufnahmen aus dem Leben haben Fotografen festgestellt, dass es zu schwierig ist, gleichzeitig sowohl das Blau als auch den Himmel zu sehen. Der Fotograf und Kurator Szarkowski hat aufschlussreich eine der bemerkenswerten Lücken zwischen allgemeinem und ästhetischem visuellen Verständnis aufgezeigt: Während sich Ersteres darauf konzentriert, das faktische Element in einem Bild (Himmel) zu identifizieren, geht Letzteres über eine solche Objektidentifikation hinaus und betrachtet es stattdessen als ästhetische Komponente – einen reinen Farbblock (Blau). Solche grundlegenden Unterscheidungen zwischen allgemeinem (Erkennung, Lokalisierung usw.) und ästhetischem (Farbe, Beleuchtung, Komposition usw.) visuellen Verständnis stellen eine erhebliche Herausforderung für Multimodale Große Sprachmodelle (MLLMs) dar. Obwohl einige aktuelle Arbeiten erste Erkundungen unternommen haben, beschränken sie sich oft auf allgemeines und grundlegendes ästhetisches Allgemeinwissen. Infolgedessen reichen sie in realen Szenarien (Abb. 1) häufig nicht aus, die umfangreiches Fachwissen erfordern – einschließlich fotografischer Techniken, Kenntnisse der Bildvor- und -nachbearbeitung und mehr –, um eine detaillierte Analyse und Beschreibung zu liefern. Um das ästhetische Verständnis von MLLMs grundlegend zu verbessern, führen wir zunächst einen neuartigen Datensatz, PhotoCritique, ein, der aus umfangreichen Diskussionen unter professionellen Fotografen und Enthusiasten stammt und sich durch seinen großen Umfang, seine Expertise und Vielfalt auszeichnet. Um dann das visuelle ästhetische Verständnis besser aus PhotoCritique zu erlernen, schlagen wir weiterhin ein neuartiges Modell, PhotoEye, vor, das einen sprachgesteuerten Multi-View-Vision-Fusionsmechanismus zur ästhetischen Bildanalyse aus mehreren Perspektiven nutzt. Schließlich präsentieren wir einen neuartigen Benchmark, PhotoBench, einen umfassenden und professionellen Benchmark für ästhetisches visuelles Verständnis. Auf bestehenden Benchmarks und PhotoBench zeigt unser Modell deutliche Vorteile gegenüber bestehenden Modellen.
Die Fähigkeit, lange Dokumente prägnant zusammenzufassen, wird im täglichen Leben aufgrund von Informationsüberflutung zunehmend wichtiger. Dennoch gibt es einen bemerkenswerten Mangel an solchen Zusammenfassungen für spanische Dokumente im Allgemeinen und insbesondere im juristischen Bereich. In dieser Arbeit präsentieren wir BOE-XSUM, einen kuratierten Datensatz, der 3.648 prägnante, leicht verständliche Zusammenfassungen von Dokumenten aus dem spanischen „Boletín Oficial del Estado“ (BOE), dem Amtsblatt des Staates, umfasst. Jeder Eintrag im Datensatz enthält eine kurze Zusammenfassung, den Originaltext und dessen Dokumenttyp-Kennzeichnung. Wir bewerten die Leistung mittelgroßer Large Language Models (LLMs), die auf BOE-XSUM feinabgestimmt wurden, und vergleichen sie mit allgemeinen generativen Modellen in einem Zero-Shot-Setting. Die Ergebnisse zeigen, dass feinabgestimmte Modelle ihre nicht spezialisierten Gegenstücke deutlich übertreffen. Besonders hervorzuheben ist, dass das leistungsstärkste Modell – BERTIN GPT-J 6B (32-Bit-Präzision) – eine Leistungssteigerung von 24 % gegenüber dem besten Zero-Shot-Modell, DeepSeek-R1, erzielt (Genauigkeiten von 41,6 % gegenüber 33,5 %).
Dieses Papier stellt BPMN Assistant vor, ein Werkzeug, das Large Language Models (LLMs) für die natürliche sprachbasierte Erstellung und Bearbeitung von BPMN-Diagrammen nutzt. Eine spezialisierte JSON-basierte Repräsentation wird als strukturierte Alternative zur direkten Handhabung von XML eingeführt, um die Genauigkeit von Prozessmodifikationen zu verbessern. Die Qualität der Prozessgenerierung wird mithilfe der Graph Edit Distance (GED) und der Relative Graph Edit Distance (RGED) bewertet, während die Bearbeitungsleistung mit einem binären Erfolgsmaßstab evaluiert wird. Die Ergebnisse zeigen, dass JSON und XML ähnliche Ähnlichkeitswerte bei der Generierung erreichen, aber JSON eine höhere Zuverlässigkeit, schnellere Verarbeitung und signifikant höhere Bearbeitungserfolgsraten bietet. Wir diskutieren zentrale Kompromisse, Einschränkungen und zukünftige Verbesserungen. Die Implementierung ist unter https://github.com/jtlicardo/bpmn-assistant verfügbar.
Wir stellen ADAM (A Diverse Archive of Mankind) vor, ein Framework zur Bewertung und Verbesserung multimodaler großer Sprachmodelle (MLLMs) im Bereich der biografischen Argumentation. Nach unserem besten Wissen ist dies die erste Arbeit, die systematisch die Fähigkeiten von LLMs in Bezug auf Biografien untersucht, eine kritische, aber bisher wenig erforschte Dimension des faktischen Wissens. Im Kern besteht ADAM aus AdamDB, einem mehrsprachigen und multimodalen Datensatz, der über 4 Millionen Personen aus verschiedenen geografischen Regionen, Zeitepochen und Berufsfeldern abdeckt, sowie AdamBench, das kognitiv strukturierte Bewertungen auf Basis der Bloom’schen Taxonomie bietet und sechs Argumentationsniveaus sowohl in Englisch als auch in Muttersprachen umfasst. Um Halluzinationen, insbesondere bei weniger bekannten Personen, zu adressieren, schlagen wir AdamRAG vor, ein retrieval-augmentiertes Generierungssystem, das speziell auf biografische Kontexte zugeschnitten ist. Experimente zeigen, dass AdamRAG Open-Source-Modelle erheblich verbessert und Closed-Source-Modelle in geringerem Maße begünstigt, wobei die größten Fortschritte bei niedrigeren Argumentationsniveaus erzielt werden. Die Bekanntheit einer Person beeinflusst die Genauigkeit stark, und multimodale Eingaben über Gesichtsbilder bieten kleinere und weniger konsistente Verbesserungen als das Retrieval. ADAM etabliert den ersten Benchmark und ein Framework für kognitiv, kulturell und multimodal fundierte biografische Bewertungen und fördert die Entwicklung mehrsprachiger, präziser und halluzinationsresistenter MLLMs.
Die Erzeugung präziser und kalibrierter Konfidenzschätzungen ist entscheidend für den Einsatz von LLMs (Large Language Models) in hochriskanten oder nutzerorientierten Anwendungen und bleibt eine offene Herausforderung. Bisherige Forschungen haben Konfidenz oft als Problem der Etablierung von „Selbsterkenntnis“ eines Modells betrachtet, d. h. der Fähigkeit eines LLMs, zu beurteilen, ob seine eigenen Antworten korrekt sind. Dieser Ansatz geht implizit davon aus, dass es privilegierte Informationen über die Korrektheit der Antwort gibt, die dem Modell selbst zugänglich sind. Unsere Experimente zeigen jedoch, dass ein LLM, das versucht, die Korrektheit seiner eigenen Ausgaben vorherzusagen, im Allgemeinen nicht besser abschneidet als ein unabhängiges LLM. Darüber hinaus stellen wir die Hypothese auf, dass ein Schlüsselfaktor für den Aufbau eines „Korrektheitsmodells“ (Correctness Model, CM) die Kenntnis der historischen Vorhersagen eines Zielmodells ist. Wir schlagen mehrere Methoden vor, um diese historische Korrektheitsinformation einzubringen und ein generalisiertes Korrektheitsmodell (Generalized Correctness Model, GCM) zu erstellen. Zunächst zeigen wir, dass GCMs anhand von Korrektheitsdaten vieler LLMs trainiert werden können und Muster für die Korrektheitsvorhersage lernen, die über Datensätze und Modelle hinweg anwendbar sind. Anschließend nutzen wir CMs als Linse, um die Quelle der Korrektheitsvorhersagefähigkeit und deren Generalisierung zu untersuchen, indem wir systematisch ihre Trainingsdaten kontrollieren und feststellen, dass die Formulierung der Antwort ein starker Prädiktor für die Korrektheit ist. Wir untersuchen weiterhin alternative Methoden zur Einbringung von Historie ohne das Training eines LLMs und finden, dass die Einbeziehung von Historie als In-Kontext-Beispiele die Korrektheitsvorhersage verbessern kann und eine nachträgliche Kalibrierung komplementäre Reduktionen des Kalibrierungsfehlers bieten kann. Wir bewerten GCMs basierend auf Qwen3-8B über 5 Modellfamilien sowie die Datensätze MMLU und TriviaQA sowie eine nachgelagerte selektive Vorhersageaufgabe und stellen fest, dass zuverlässige Konfidenzschätzung bei LLMs eine generalisierbare und modellagnostische Fähigkeit ist, die durch systematische Kodierung von Korrektheitshistorie erlernt wird, und nicht eine modellspezifische Fähigkeit, die auf Selbstreflexion beruht.
Reinforcement Learning mit stochastischer optimaler Steuerung bietet einen vielversprechenden Rahmen für die Feinabstimmung von Diffusionsmodellen, bei dem ein vortrainiertes Diffusionsmodell optimiert wird, um Pfade zu erzeugen, die zu einer belohnungsorientierten Verteilung führen. Während diese Ansätze eine Optimierung ohne Zugriff auf explizite Stichproben aus der optimalen Verteilung ermöglichen, erfordern sie das Training auf Rollouts unter dem aktuell feinabgestimmten Modell, was sie anfällig für die Verstärkung suboptimaler Trajektorien macht, die geringe Belohnungen liefern. Um diese Herausforderung zu bewältigen, führen wir TRee Search Guided TRajectory-Aware Fine-Tuning for Discrete Diffusion (TR2-D2) ein, ein neuartiges Framework, das belohnungsgesteuerte diskrete Diffusionstrajektorien mit Baumsuche optimiert, um Replay-Puffer für trajektorienbewusste Feinabstimmung zu konstruieren. Diese Puffer werden mithilfe von Monte Carlo Tree Search (MCTS) erzeugt und anschließend verwendet, um ein vortrainiertes diskretes Diffusionsmodell unter einem stochastischen optimalen Steuerungsziel feinabzustimmen. Wir validieren unser Framework anhand der Einzel- und Mehrziel-Feinabstimmung von biologischen Sequenzdiffusionsmodellen und unterstreichen die allgemeine Effektivität von TR2-D2 für zuverlässige belohnungsgesteuerte Feinabstimmung in der diskreten Sequenzerzeugung.
Videobeschreibungen bieten prägnante Momentaufnahmen von Akteuren, Objekten und Handlungen innerhalb eines Videos und sind wertvolle Ressourcen für Anwendungen wie Fragebeantwortung und Ereignislokalisierung. Die Beschaffung menschlicher Annotationen für Videobeschreibungen ist jedoch kostspielig oder sogar unpraktisch, insbesondere bei der Bearbeitung verschiedener Videodomänen. Bestehende Modelle, die auf überwachten Datensätzen trainiert wurden, stehen vor Herausforderungen bei der Leistungsbewertung über verschiedene Domänen hinweg, da sie auf referenzbasierte Bewertungsprotokolle angewiesen sind, die Ground-Truth-Beschreibungen erfordern. Diese Annahme ist unrealistisch für die Bewertung von Videos in der freien Wildbahn. Um diese Einschränkungen zu überwinden, schlagen wir ein referenzfreies Bewertungsframework vor, das keine Ground-Truth-Beschreibungen benötigt und sich auf die faktische Verankerung konzentriert, um eine genaue Bewertung der Beschreibungsqualität zu gewährleisten. Wir stellen VC-Inspector vor, einen neuartigen Bewerter für die Qualität von Videobeschreibungen, der sowohl referenzfrei als auch faktisch verankert ist. Unter Verwendung großer Sprachmodelle generieren wir Pseudo-Beschreibungen unterschiedlicher Qualität basierend auf überwachten Daten, die anschließend verwendet werden, um ein multimodales Modell (d.h. Qwen2.5-VL) als Bewerter zu trainieren. Unser Ansatz zeigt eine überlegene Übereinstimmung mit menschlichen Urteilen auf dem VATEX-Eval-Datensatz und übertrifft bestehende Methoden. Die Leistung verallgemeinert sich auch auf Bildbeschreibungsdatensätze, Flickr8K-Expert und Flickr8K-CF, wenn Bilder als 1-Frame-Videos betrachtet werden. Insgesamt bietet VC-Inspector eine skalierbare und verallgemeinerbare Lösung für die Bewertung der faktischen Genauigkeit von Videobeschreibungen und ebnet den Weg für effektivere und objektivere Bewertungsmethoden in verschiedenen Videodomänen.
In den letzten zehn Jahren haben sich die Computerlinguistik (CL) und die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) rasant weiterentwickelt, insbesondere mit dem Aufkommen von Transformer-basierten Large Language Models (LLMs). Dieser Wandel hat die Forschungsziele und -prioritäten verändert, von lexikalischen und semantischen Ressourcen hin zu Sprachmodellierung und Multimodalität. In dieser Studie verfolgen wir die Forschungstrends der italienischen CL- und NLP-Gemeinschaft durch eine Analyse der Beiträge zu CLiC-it, der wohl führenden italienischen Konferenz in diesem Bereich. Wir haben die Proceedings der ersten 10 Ausgaben der CLiC-it-Konferenz (von 2014 bis 2024) zum CLiC-it-Korpus zusammengestellt und bieten eine umfassende Analyse sowohl der Metadaten, einschließlich Herkunft, Geschlecht, Zugehörigkeiten der Autoren und mehr, als auch der Inhalte der Beiträge selbst, die verschiedene Themen behandeln. Unser Ziel ist es, der italienischen und internationalen Forschungsgemeinschaft wertvolle Einblicke in aufkommende Trends und Schlüsselentwicklungen im Laufe der Zeit zu bieten, um fundierte Entscheidungen und zukünftige Richtungen in diesem Bereich zu unterstützen.