papers.description
Das Aufkommen von agentenbasiertem Reinforcement Learning (Agentic RL) markiert einen Paradigmenwechsel gegenüber dem konventionellen Reinforcement Learning, das auf große Sprachmodelle (LLM RL) angewendet wird. Dabei werden LLMs von passiven Sequenzgeneratoren zu autonomen, entscheidungsfähigen Agenten umgedacht, die in komplexe, dynamische Umgebungen eingebettet sind. Diese Arbeit formalisiert diesen konzeptionellen Wandel, indem sie die degenerierten einstufigen Markov-Entscheidungsprozesse (MDPs) von LLM-RL den zeitlich erweiterten, teilweise beobachtbaren Markov-Entscheidungsprozessen (POMDPs) gegenüberstellt, die Agentic RL definieren. Auf dieser Grundlage schlagen wir eine umfassende zweiteilige Taxonomie vor: eine, die sich um zentrale agentische Fähigkeiten wie Planung, Werkzeugnutzung, Gedächtnis, Schlussfolgerung, Selbstverbesserung und Wahrnehmung organisiert, und eine andere, die sich auf deren Anwendungen in verschiedenen Aufgabenbereichen konzentriert. Kern unserer These ist, dass Reinforcement Learning der entscheidende Mechanismus ist, um diese Fähigkeiten von statischen, heuristischen Modulen in adaptives, robustes agentisches Verhalten zu transformieren. Um zukünftige Forschung zu unterstützen und zu beschleunigen, fassen wir die Landschaft der Open-Source-Umgebungen, Benchmarks und Frameworks in einem praktischen Kompendium zusammen. Durch die Synthese von über fünfhundert aktuellen Arbeiten skizziert diese Arbeit die Konturen dieses sich schnell entwickelnden Feldes und hebt die Chancen und Herausforderungen hervor, die die Entwicklung skalierbarer, allgemeiner KI-Agenten prägen werden.
Die Entwicklung autonomer Agenten für grafische Benutzeroberflächen (GUIs) stellt bedeutende Herausforderungen in der künstlichen Intelligenz dar. Während jüngste Fortschritte bei nativen Agentenmodellen vielversprechend waren, indem sie Wahrnehmung, logisches Denken, Handeln und Gedächtnis durch End-to-End-Lernen vereinheitlicht haben, bleiben offene Probleme in Bezug auf die Skalierbarkeit von Daten, mehrstufiges Reinforcement Learning (RL), die Beschränkungen des reinen GUI-Betriebs und die Stabilität der Umgebung bestehen. In diesem technischen Bericht stellen wir UI-TARS-2 vor, ein natives, GUI-zentriertes Agentenmodell, das diese Herausforderungen durch eine systematische Trainingsmethodik angeht: ein Daten-Flywheel für skalierbare Datengenerierung, ein stabilisiertes mehrstufiges RL-Framework, eine hybride GUI-Umgebung, die Dateisysteme und Terminals integriert, und eine einheitliche Sandbox-Plattform für groß angelegte Rollouts. Empirische Auswertungen zeigen, dass UI-TARS-2 signifikante Verbesserungen gegenüber seinem Vorgänger UI-TARS-1.5 erzielt. Bei GUI-Benchmarks erreicht es 88,2 auf Online-Mind2Web, 47,5 auf OSWorld, 50,6 auf WindowsAgentArena und 73,3 auf AndroidWorld und übertrifft damit starke Baselines wie Claude und OpenAI-Agenten. In Spielumgebungen erreicht es einen durchschnittlichen normalisierten Score von 59,8 über eine Suite von 15 Spielen – etwa 60 % der menschlichen Leistung – und bleibt wettbewerbsfähig mit führenden proprietären Modellen (z. B. OpenAI o3) auf LMGame-Bench. Darüber hinaus kann das Modell auf langfristige informationssuchende Aufgaben und Software-Engineering-Benchmarks verallgemeinern, was seine Robustheit über diverse Agentenaufgaben hinweg unterstreicht. Detaillierte Analysen der Trainingsdynamik liefern weitere Einblicke in die Erreichung von Stabilität und Effizienz bei groß angelegtem Agenten-RL. Diese Ergebnisse unterstreichen das Potenzial von UI-TARS-2, den Stand der GUI-Agenten voranzutreiben und eine starke Generalisierung auf reale interaktive Szenarien zu zeigen.
Große Sprachmodelle (LLMs) können ihre Fähigkeiten zur logischen Schlussfolgerung erheblich verbessern, indem sie mit externen Werkzeugen interagieren, ein Paradigma, das als Werkzeug-integriertes Schließen (Tool-Integrated Reasoning, TIR) bekannt ist. Die Erweiterung von TIR auf Szenarien mit mehreren Interaktionsschritten mithilfe von Verstärkendem Lernen (Reinforcement Learning, RL) wird jedoch häufig durch Instabilität im Training und Leistungseinbrüche behindert. Wir stellen fest, dass diese Instabilität hauptsächlich durch eine Verteilungsschiefe aufgrund von Rückmeldungen externer Werkzeuge verursacht wird, was zur Erzeugung von Tokens mit geringer Wahrscheinlichkeit führt. Dieses Problem verstärkt sich über aufeinanderfolgende Schritte und führt zu katastrophalen Gradientennorm-Explosionen, die den Trainingsprozess zum Scheitern bringen. Um diese Herausforderung zu bewältigen, führen wir SimpleTIR ein, einen Plug-and-Play-Algorithmus, der das Training von TIR über mehrere Schritte stabilisiert. Die Kernstrategie besteht darin, Trajektorien zu identifizieren und herauszufiltern, die leere Schritte enthalten, d.h. Schritte, die weder einen Codeblock noch eine endgültige Antwort liefern. Indem diese problematischen Trajektorien von der Politikaktualisierung ausgeschlossen werden, blockiert SimpleTIR effektiv die schädlichen Gradienten mit hoher Magnitude und stabilisiert so die Lernprozesse. Umfangreiche Experimente zeigen, dass SimpleTIR Spitzenleistungen auf anspruchsvollen Benchmarks für mathematisches Schließen erzielt und dabei den AIME24-Score von einem textbasierten Ausgangswert von 22,1 auf 50,5 steigert, wenn vom Qwen2.5-7B-Basismodell ausgegangen wird. Darüber hinaus ermöglicht SimpleTIR, indem es die Einschränkungen des überwachten Feinabstimmens vermeidet, dem Modell, vielfältige und anspruchsvolle Schließmuster wie Selbstkorrektur und Kreuzvalidierung zu entdecken.
In der Vision-Sprache-Modellierung werden Kritiker-Modelle typischerweise trainiert, um Ausgaben zu bewerten – indem sie skalare Bewertungen oder paarweise Präferenzen zuweisen –, anstatt Antworten zu generieren. Diese Trennung von Policy-Modellen, die die Antworten produzieren, ist so tief verwurzelt, dass Kritiker selten für den direkten Einsatz in der Policy in Betracht gezogen werden. In dieser Arbeit stellen wir diese Konvention in Frage. Wir schlagen vor, mit Präferenz-Labels versehene Kritiker-Datensätze in überprüfbare Trainingssignale umzuwandeln und Reinforcement Learning direkt auf ein Basis-Generativmodell anzuwenden, wodurch LLaVA-Critic-R1 entsteht – ein multimodaler Kritiker, der darauf trainiert ist, Präferenzurteile zu optimieren, während er gleichzeitig die volle Generierungsfähigkeit beibehält. Überraschenderweise erweist sich LLaVA-Critic-R1 nicht nur als ein erstklassiger Kritiker, sondern auch als ein wettbewerbsfähiges Policy-Modell – es erreicht oder übertrifft spezialisierte Reasoning-VLMs, die mit domänenspezifischen Daten trainiert wurden, in 26 visuellen Reasoning- und Verständnis-Benchmarks, mit einem durchschnittlichen Gewinn von +5,7 % gegenüber seinem Basismodell (Qwen-2.5-VL-7B). Die Erweiterung dieses Ansatzes auf bestehende starke Reasoning-VLMs führt zu LLaVA-Critic-R1+, das die Policy-Leistung weiter verbessert, ohne die Kritiker-Qualität zu opfern, und eine Spitzenleistung von 71,9 auf MMMU im 7B-Maßstab erreicht. Schließlich zeigen wir, dass die verbesserte Kritiker-Fähigkeit dem Inferenzprozess zugutekommt: Die Anwendung von Selbstkritik zur Testzeit führt zu einer durchschnittlichen Verbesserung von +13,8 % bei fünf repräsentativen Reasoning-Aufgaben ohne zusätzliches Training. Unsere Ergebnisse zeigen, dass RL-Training auf Kritiker-Daten ein einheitliches Modell hervorbringen kann, das sowohl in der Bewertung als auch in der Generierung hervorragt, und bietet einen einfachen Weg zu skalierbaren, sich selbst verbessernden multimodalen Systemen.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat Erfolge bei der Verbesserung der Fähigkeiten von LLMs zur logischen Schlussfolgerung gezeigt, bleibt jedoch auf Einzelinteraktionen ohne Werkzeugintegration beschränkt. Während neuere Ansätze des Agentenbasierten Reinforcement Learning mit Werkzeugnutzung (ARLT) entwickelt wurden, um Mehrfachinteraktionen mit Werkzeugen zu ermöglichen, erstellen bestehende Arbeiten aufgabenbezogene Codebasen, die unter Fragmentierung, Engpässen bei der synchronen Ausführung und begrenzter Erweiterbarkeit über verschiedene Domänen hinweg leiden. Diese Ineffizienzen behindern eine breitere Akzeptanz in der Community und die Innovation von Algorithmen. Wir stellen VerlTool vor, ein einheitliches und modulares Framework, das diese Einschränkungen durch systematische Designprinzipien adressiert. VerlTool bietet vier wesentliche Beiträge: (1) Upstream-Ausrichtung mit VeRL, die Kompatibilität und vereinfachte Wartung gewährleistet, (2) einheitliche Werkzeugverwaltung über standardisierte APIs, die verschiedene Modalitäten wie Codeausführung, Suche, SQL-Datenbanken und Bildverarbeitung unterstützen, (3) asynchrone Rollout-Ausführung, die durch die Beseitigung von Synchronisationsengpässen eine nahezu 2-fache Beschleunigung erreicht, und (4) eine umfassende Bewertung, die wettbewerbsfähige Leistungen über 6 ARLT-Domänen hinweg demonstriert. Unser Framework formalisiert ARLT als Mehrfachinteraktionen mit multimodalen Beobachtungstoken (Text/Bild/Video), die über die Einzelinteraktionsparadigmen von RLVR hinausgehen. Wir trainieren und bewerten Modelle für mathematische Schlussfolgerungen, Wissensfragen, SQL-Generierung, visuelle Schlussfolgerungen, Websuche und Softwareentwicklungsaufgaben und erzielen Ergebnisse, die mit spezialisierten Systemen vergleichbar sind, während wir eine einheitliche Trainingsinfrastruktur bereitstellen. Die modulare Plugin-Architektur ermöglicht eine schnelle Integration von Werkzeugen, die nur leichte Python-Definitionen erfordern, was den Entwicklungsaufwand erheblich reduziert und eine skalierbare Grundlage für die Forschung zu werkzeuggestütztem RL bietet. Unser Code ist unter https://github.com/TIGER-AI-Lab/verl-tool quelloffen verfügbar.
Video Multimodal Large Language Models (Video-MLLMs) haben bemerkenswerte Fortschritte im Bereich des Videoverständnisses erzielt. Dennoch bleiben sie anfällig für Halluzinationen, die Inhalte erzeugen, die inkonsistent mit oder unabhängig von den Videoeingaben sind. Bisherige Benchmarks für Video-Halluzinationen konzentrieren sich hauptsächlich auf Kurzvideos. Sie führen Halluzinationen auf Faktoren wie starke Sprachprioritäten, fehlende Frames oder durch den visuellen Encoder eingeführte Vision-Sprache-Bias zurück. Obwohl diese Ursachen tatsächlich die meisten Halluzinationen in Kurzvideos erklären, vereinfachen sie die Ursachen von Halluzinationen dennoch zu stark. Manchmal generieren Modelle falsche Ausgaben, jedoch mit korrekter Frame-Level-Semantik. Wir bezeichnen diese Art von Halluzination als Semantic Aggregation Hallucination (SAH), die während des Prozesses der Aggregation von Frame-Level-Semantik in Event-Level-Semantikgruppen entsteht. Da SAH in langen Videos aufgrund der erhöhten semantischen Komplexität über mehrere Ereignisse hinweg besonders kritisch wird, ist es entscheidend, die Ursachen dieser Art von Halluzination zu trennen und gründlich zu untersuchen. Um die oben genannten Probleme anzugehen, führen wir ELV-Halluc ein, den ersten Benchmark, der sich speziell mit Halluzinationen in langen Videos befasst und eine systematische Untersuchung von SAH ermöglicht. Unsere Experimente bestätigen die Existenz von SAH und zeigen, dass sie mit zunehmender semantischer Komplexität ansteigt. Zudem stellen wir fest, dass Modelle bei sich schnell ändernder Semantik anfälliger für SAH sind. Darüber hinaus diskutieren wir potenzielle Ansätze zur Minderung von SAH. Wir zeigen, dass die Strategie der Positionskodierung zur Linderung von SAH beiträgt und setzen zusätzlich die DPO-Strategie ein, um die Fähigkeit des Modells zur Unterscheidung von Semantik innerhalb und zwischen Ereignissen zu verbessern. Um dies zu unterstützen, erstellen wir einen Datensatz mit 8K adversariellen Datenpaaren und erzielen Verbesserungen sowohl bei ELV-Halluc als auch bei Video-MME, einschließlich einer erheblichen Reduzierung der SAH-Rate um 27,7 %.
Hochwertig annotierte Daten sind entscheidend für das Training präziser Dokumentkonvertierungsmodelle, insbesondere in Domänen mit komplexen Formaten wie Tabellen, Formeln und mehrspaltigem Text. Allerdings ist die manuelle Annotation sowohl kostspielig als auch zeitaufwendig, während die automatische Beschriftung mit bestehenden Modellen oft an Genauigkeit bei der Bewältigung solcher anspruchsvollen Szenarien mangelt. Folglich kann das Training von Schülermodellen durch die Destillation von Ausgaben aus Lehrermodellen deren Leistung in realen Anwendungen erheblich einschränken. In diesem Artikel schlagen wir ein vollständig automatisiertes, destillationsfreies Framework vor, das aus zwei Phasen besteht, um hochwertige Datensätze und Modelle für die Dokumentextraktion zu erstellen, die in der Lage sind, diverse Dokumentformate und -layouts zu verarbeiten. In der ersten Phase führen wir eine Methode zur Erzeugung groß angelegter, diverser synthetischer Daten ein, die es einem Modell ermöglicht, Schlüsselelemente in einem einheitlichen Format mit starker Anfangsleistung zu extrahieren. In der zweiten Phase präsentieren wir einen Selbstverbesserungsansatz, der das Modell, das zunächst auf synthetischen Daten trainiert wurde, weiter an reale Dokumente anpasst. Konkret verwenden wir zunächst das feinabgestimmte Modell, um reale Dokumente zu annotieren, wenden dann eine Reihe von Filterstrategien an, um die Qualität der Annotationen zu überprüfen, und trainieren schließlich das Modell auf dem verifizierten Datensatz neu. Durch iteratives Wiederholen dieses Prozesses verbessern wir schrittweise sowohl die Konvertierungsfähigkeiten des Modells als auch die Qualität der generierten Daten. Wir trainieren ein öffentliches POINTS-1.5-Modell, um POINTS-Reader zu erhalten, das viele bestehende öffentliche und proprietäre Modelle vergleichbarer oder größerer Größe übertrifft. Unser Modell ist verfügbar unter https://github.com/Tencent/POINTS-Reader.
Mit dem Fortschritt großer Sprachmodelle (LLMs) in Bezug auf Konversations- und Denkfähigkeiten ist ihre praktische Anwendung im Gesundheitswesen zu einem zentralen Forschungsschwerpunkt geworden. Es besteht jedoch eine deutliche Lücke zwischen der Leistung medizinischer LLMs in statischen Benchmarks wie dem USMLE und ihrem Nutzen in der klinischen Entscheidungsfindung in der Praxis. Diese Diskrepanz entsteht, weil traditionelle Prüfungen die dynamische, interaktive Natur medizinischer Konsultationen nicht erfassen. Um diese Herausforderung zu bewältigen, führen wir ein neuartiges dynamisches Verifikationsframework ein, das über statische Antwortprüfer hinausgeht und ein groß angelegtes, hochpräzises interaktives Reinforcement-Learning-System etabliert. Unser Framework besteht aus zwei Schlüsselkomponenten: einem Patientensimulator, der realistische klinische Umgebungen anhand anonymisierter medizinischer Aufzeichnungen erzeugt, und einem klinischen Bewertungsrastergenerator, der dynamisch mehrdimensionale Bewertungsmetriken erstellt. Auf dieser Grundlage entwickeln wir Baichuan-M2, ein medizinisches augmentiertes Denkmodell mit 32 Milliarden Parametern, das durch eine mehrstufige Reinforcement-Learning-Strategie mit einem verbesserten Group Relative Policy Optimization (GRPO)-Algorithmus trainiert wurde. Auf HealthBench evaluiert, übertrifft Baichuan-M2 alle anderen Open-Source-Modelle und die meisten fortschrittlichen Closed-Source-Modelle und erreicht eine Punktzahl von über 32 im anspruchsvollen HealthBench Hard-Benchmark – ein Wert, der zuvor nur von GPT-5 übertroffen wurde. Unsere Arbeit zeigt, dass robuste dynamische Verifikationssysteme entscheidend sind, um die Fähigkeiten von LLMs mit praktischen klinischen Anwendungen in Einklang zu bringen, und etabliert eine neue Pareto-Front im Leistungs-Parameter-Trade-Off für den Einsatz medizinischer KI.
Die Transformer-Architektur, die auf dem Selbstaufmerksamkeitsmechanismus basiert, hat sich als De-facto-Standard für Sequenzmodellierungsaufgaben etabliert. Ihr zentrales Berechnungsprimitiv skaliert jedoch quadratisch mit der Sequenzlänge (O(N^2)), was einen erheblichen Engpass bei der Verarbeitung langer Kontexte darstellt. In diesem Artikel schlagen wir das Gated Associative Memory (GAM)-Netzwerk vor, eine neuartige, vollständig parallele Architektur für die Sequenzmodellierung, die eine lineare Komplexität (O(N)) in Bezug auf die Sequenzlänge aufweist. Der GAM-Block ersetzt die Selbstaufmerksamkeitsschicht durch zwei parallele Pfade: eine kausale Faltung, um lokalen, positionsabhängigen Kontext effizient zu erfassen, und einen parallelen assoziativen Speichermechanismus, um globale, inhaltsbasierte Muster zu modellieren. Diese Pfade werden dynamisch durch einen Gating-Mechanismus fusioniert, wodurch das Modell in der Lage ist, lokale und globale Informationen für jedes Token flexibel zu kombinieren. Wir implementieren GAM von Grund auf und führen eine umfassende vergleichende Analyse gegen ein Standard-Transformer-Modell und einen modernen linearen Baseline (Mamba) auf dem WikiText-2-Benchmark sowie gegen den Transformer auf dem TinyStories-Datensatz durch. Unsere Experimente zeigen, dass GAM durchweg schneller ist, beide Baselines in Bezug auf die Trainingsgeschwindigkeit übertrifft und eine überlegene oder wettbewerbsfähige finale Validierungsperplexität über alle Datensätze hinweg erreicht, was es als vielversprechende und effiziente Alternative für die Sequenzmodellierung etabliert.
In den letzten Jahren hat die Entwicklung von Large Language Models (LLMs) erhebliche Fortschritte gemacht, wodurch ihre Fähigkeiten auf multimodale Aufgaben durch Multimodal Large Language Models (MLLMs) erweitert wurden. Dennoch bleibt das Verständnis von Videos aufgrund ihrer dynamischen und informationsreichen Natur eine herausfordernde Domäne. Bestehende Modelle kämpfen mit dem Kompromiss zwischen räumlicher Auflösung und zeitlicher Abdeckung bei der Verarbeitung von Videoinhalten. Wir stellen Keye-VL-1.5 vor, das grundlegende Herausforderungen im Videoverständnis durch drei zentrale Innovationen adressiert. Erstens führen wir eine neuartige Slow-Fast-Video-Kodierungsstrategie ein, die Rechenressourcen dynamisch basierend auf der Ähnlichkeit zwischen den Bildern zuweist. Dabei werden Schlüsselbilder mit signifikanten visuellen Veränderungen in höherer Auflösung verarbeitet (Slow-Pfad), während relativ statische Bilder mit erhöhter zeitlicher Abdeckung in niedrigerer Auflösung behandelt werden (Fast-Pfad). Zweitens implementieren wir eine progressive vierstufige Vor-Trainingsmethodik, die die Kontextlänge des Modells systematisch von 8K auf 128K Tokens erweitert, wodurch die Verarbeitung längerer Videos und komplexerer visueller Inhalte ermöglicht wird. Drittens entwickeln wir eine umfassende Nach-Trainings-Pipeline, die sich auf die Verbesserung des logischen Denkens und die Ausrichtung an menschlichen Präferenzen konzentriert. Diese beinhaltet einen 5-stufigen Chain-of-Thought-Datenkonstruktionsprozess, iteratives GSPO-basiertes Reinforcement Learning mit progressiver Prompt-Hinweisgebung für schwierige Fälle und Alignment-Training. Durch umfangreiche Bewertungen auf öffentlichen Benchmarks und rigorose interne menschliche Bewertungen zeigt Keye-VL-1.5 signifikante Verbesserungen gegenüber bestehenden Modellen, insbesondere bei Aufgaben zum Videoverständnis, während es auf allgemeinen multimodalen Benchmarks wettbewerbsfähige Leistungen beibehält.
Große Sprachmodelle erfordern oft kostspielige Optimierungsverfahren, wie beispielsweise Reinforcement Learning, um komplexe Denkaufgaben zu meistern. Diese Arbeit zeigt, dass die Fähigkeit zum logischen Denken, sobald sie erlernt wurde, als kompakter Aufgabenvektor extrahiert und zwischen Modellen übertragen werden kann. Wir verwenden zwei öffentlich verfügbare, identisch initialisierte Qwen2.5-Modelle, von denen eines mit Supervised Fine-Tuning (SFT) und das andere mit Group Relative Policy Optimization (GRPO) auf demselben Datensatz feinabgestimmt wurde. Daraus extrahieren wir einen Denkvektor: v_{reason} = theta_{GRPO} - theta_{SFT}. Wir nehmen an, dass dieser Vektor die durch Reinforcement Learning vermittelte Denkfähigkeit erfasst, während gemeinsames Wissen aus dem SFT-Prozess herausgefiltert wird. Wenn dieser Vektor durch einfache arithmetische Operationen zu kompatiblen, instruktionsfeinabgestimmten Modellen hinzugefügt wird, verbessert er konsistent die Leistung über diverse Denkbenchmarks hinweg: GSM8K (+4,9 %), HumanEval (+4,3 %), SciQ (+1,7 %) und BigBenchHard (+12,3 % für das 1,5B-Modell). Die Leistungsverbesserungen bleiben auch unter adversen Bedingungen bestehen. Umgekehrt führt das Subtrahieren des Vektors zu einer signifikanten Leistungsverschlechterung (-11,8 % bei GSM8K), was den starken Beitrag des Vektors zu den Denkfähigkeiten des Modells verdeutlicht. Diese Arbeit zeigt, wie Denkfähigkeiten, die typischerweise durch teures Training entwickelt werden, aus bestehenden Open-Source-Modellen extrahiert und durch einfache Tensorarithmetik wiederverwendet werden können, was eine praktische Möglichkeit bietet, Modelle durch die Wiederverwendung früherer Recheninvestitionen zu verbessern.
Das Nachträning großer Sprachmodelle (LMs) priorisiert oft Genauigkeit und Hilfsbereitschaft auf Kosten der Diversität. Dies erzeugt eine Spannung: Während das Nachträning die Antwortqualität verbessert, schärft es auch die Ausgabeverteilungen und reduziert die Bandbreite der Ideen, was die Nützlichkeit von LMs in kreativen und explorativen Aufgaben wie Brainstorming, Geschichtenerzählen oder Problemlösung einschränkt. Wir begegnen dieser Herausforderung mit Diversity-Aware Reinforcement Learning (DARLING), einem Framework, das gleichzeitig Antwortqualität und semantische Diversität optimiert. Im Kern führt DARLING eine gelernte Partitionierungsfunktion ein, um Diversität über oberflächliche lexikalische Variationen hinaus zu messen. Dieses Diversitätssignal wird dann mit einem Qualitätsbelohnungssignal während des Online-Reinforcement-Learnings kombiniert, wodurch Modelle dazu angeregt werden, Ausgaben zu generieren, die sowohl hochwertig als auch einzigartig sind. Experimente über mehrere Modellfamilien und -größen hinweg zeigen, dass DARLING zwei Regime verallgemeinert: nicht verifizierbare Aufgaben (Befolgen von Anweisungen und kreatives Schreiben) und verifizierbare Aufgaben (Wettbewerbsmathematik). Bei fünf Benchmarks im ersten Setting übertrifft DARLING durchgängig Qualitäts-only-RL-Baselines und erzeugt Ausgaben, die gleichzeitig von höherer Qualität und Neuartigkeit sind. Im zweiten Setting erreicht DARLING höhere Pass@1 (Lösungsqualität) und Pass@k (Lösungsvielfalt). Am auffälligsten ist, dass die explizite Optimierung für Diversität die Exploration im Online-RL katalysiert, was sich in höherwertigen Antworten manifestiert.
Jüngste Fortschritte im Bereich des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) haben große Sprachmodelle (LLMs) in die Lage versetzt, anspruchsvolle Aufgaben wie Mathematik und Programmierung zu bewältigen. RLVR nutzt verifizierbare Ergebnisbelohnungen, um die Politikoptimierung zu steuern, wodurch LLMs in der Lage sind, die Qualität ihrer Ausgaben auf fundierte und zuverlässige Weise kontinuierlich zu verbessern. Trotz seines Potenzials stellt das RLVR-Paradigma erhebliche Herausforderungen dar, da bestehende Methoden oft unter spärlichen Belohnungssignalen und instabilen Politikgradienten-Updates leiden, insbesondere bei RL-basierten Ansätzen. Um diese Herausforderungen zu bewältigen, schlagen wir PACS vor, ein neuartiges RLVR-Framework, das eine implizite Kopplung von Actor und Critic über ein überwachtes Lernframework erreicht. Indem wir die Ergebnisbelohnung als vorhersagbares Label behandeln, reformulieren wir das RLVR-Problem in eine überwachte Lernaufgabe über eine durch das Politikmodell parametrisierte Bewertungsfunktion, die mit Hilfe des Kreuzentropieverlusts optimiert wird. Eine detaillierte Gradientenanalyse zeigt, dass diese überwachte Formulierung den klassischen Politikgradienten-Update inhärent wiederherstellt, während sie gleichzeitig die Rollen von Actor und Critic implizit koppelt, was zu stabilerem und effizienterem Training führt. Bei der Bewertung anspruchsvoller mathematischer Aufgaben übertrifft PACS starke RLVR-Baselines wie PPO und GRPO und erzielt eine überlegene Leistung in der Argumentation. Beispielsweise erreicht PACS 59,78 % bei pass@256 auf AIME 2025, was Verbesserungen von 13,32 und 14,36 Punkten gegenüber PPO und GRPO darstellt. Dieses einfache, aber leistungsstarke Framework bietet einen vielversprechenden Ansatz für das Post-Training von LLMs mit verifizierbaren Belohnungen. Unser Code und unsere Daten sind als Open Source unter https://github.com/ritzz-ai/PACS verfügbar.
Dieses Papier bietet eine Vereinfachung der Architektur und des Loss-Designs von OpenVision, um dessen Trainings effizienz zu steigern. In Anlehnung an frühere Vision-Language-Pretraining-Arbeiten wie CapPa und AIMv2 sowie moderne multimodale Designs wie LLaVA sind unsere Änderungen unkompliziert: Wir entfernen den Text-Encoder (und damit den kontrastiven Loss) und behalten nur den Captioning-Loss als rein generatives Trainingssignal bei. Wir nennen diese neue Version OpenVision 2. Die ersten Ergebnisse sind vielversprechend: Trotz dieser Vereinfachung erreicht OpenVision 2 wettbewerbsfähige Leistungen im Vergleich zum ursprünglichen Modell auf einer breiten Palette von multimodalen Benchmarks, während gleichzeitig sowohl die Trainingszeit als auch der Speicherverbrauch erheblich reduziert werden. Beispielsweise reduziert es mit ViT-L/14 die Trainingszeit um etwa das 1,5-fache (von 83h auf 57h) und den Speicherverbrauch um etwa das 1,8-fache (von 24,5 GB auf 13,8 GB, was gleichzeitig die maximale Batch-Größe von 2k auf 8k erhöht). Diese überlegene Trainings effizienz ermöglicht es uns auch, weit über den größten in OpenVision verwendeten Vision-Encoder hinauszugehen und mehr als 1 Milliarde Parameter zu erreichen. Wir sind fest davon überzeugt, dass dieses leichte, rein generative Paradigma für die zukünftige Entwicklung von Vision-Encodern in multimodalen Foundation-Modellen überzeugend ist.
Video Compositing kombiniert Live-Action-Aufnahmen, um Videoproduktionen zu erstellen, und stellt eine entscheidende Technik in der Videoproduktion und Filmherstellung dar. Traditionelle Workflows erfordern einen hohen Arbeitsaufwand und die Zusammenarbeit von Experten, was zu langen Produktionszyklen und hohen Personalkosten führt. Um dieses Problem zu lösen, automatisieren wir diesen Prozess mit generativen Modellen, was als generatives Video Compositing bezeichnet wird. Diese neue Aufgabe zielt darauf ab, Identitäts- und Bewegungsinformationen von Vordergrundvideos auf adaptive Weise in ein Zielvideo zu integrieren, sodass Benutzer die Größe, Bewegungsbahn und andere Attribute der dynamischen Elemente im finalen Video anpassen können. Konkret haben wir eine neuartige Diffusion Transformer (DiT)-Pipeline basierend auf dessen intrinsischen Eigenschaften entwickelt. Um die Konsistenz des Zielvideos vor und nach der Bearbeitung zu gewährleisten, haben wir einen leichtgewichtigen DiT-basierten Hintergrundbewahrungszweig mit maskierter Token-Injektion überarbeitet. Um dynamische Elemente aus anderen Quellen zu übernehmen, wurde ein DiT-Fusionsblock mit vollständiger Selbstaufmerksamkeit vorgeschlagen, zusammen mit einer einfachen, aber effektiven Vordergrundaugmentierung für das Training. Zudem haben wir für die Fusion von Hintergrund- und Vordergrundvideos mit unterschiedlichen Layouts basierend auf Benutzersteuerung eine neuartige Positionseinbettung entwickelt, die als Extended Rotary Position Embedding (ERoPE) bezeichnet wird. Schließlich haben wir einen Datensatz mit 61.000 Videosets für unsere neue Aufgabe, VideoComp, kuratiert. Dieser Datensatz umfasst vollständige dynamische Elemente und hochwertige Zielvideos. Experimente zeigen, dass unsere Methode das generative Video Compositing effektiv realisiert und bestehende Lösungen in Bezug auf Qualität und Konsistenz übertrifft.
Die jüngste Entwicklung von Large Language Models (LLMs) wurde von einer Vielzahl neuer Ideen und Methoden begleitet, die darauf abzielen, den Verlust von Deep-Learning-Modellen besser zu optimieren. Die Behauptungen dieser Methoden sind vielfältig: von schnellerer Konvergenz bis hin zur Unabhängigkeit von bestimmten Hyperparametern. Die unterschiedlichen experimentellen Protokolle, die zur Validierung dieser Behauptungen verwendet werden, erschweren jedoch den direkten Vergleich zwischen den Methoden. Diese Studie präsentiert eine umfassende Bewertung aktueller Optimierungstechniken in standardisierten LLM-Vortrainingsszenarien, wobei systematisch Modellgröße, Batch-Größe und Trainingsdauer variiert werden. Durch sorgfältige Abstimmung jeder Methode bieten wir Praktikern Leitlinien, welcher Optimierer für welches Szenario am besten geeignet ist. Für Forscher hebt unsere Arbeit vielversprechende Richtungen für zukünftige Optimierungsforschung hervor. Schließlich hoffen wir, dass unsere Bemühungen durch die Veröffentlichung unseres Codes und die vollständige Reproduzierbarkeit aller Experimente die Entwicklung und rigorose Bewertung zukünftiger Methoden unterstützen können.
Reinforcement Learning from Verifiable Rewards (RLVR) hat sich als vielversprechendes Framework zur Verbesserung der Fähigkeiten großer Sprachmodelle im Bereich des logischen Denkens etabliert. Allerdings leiden bestehende Ansätze wie GRPO häufig unter dem Problem von Null-Gradienten. Dieses Problem entsteht hauptsächlich durch feste Clipping-Grenzen für Token-Level-Wahrscheinlichkeitsverhältnisse und die Standardisierung identischer Belohnungen, was zu ineffektiven Gradientenupdates und einer unzureichenden Nutzung generierter Antworten führen kann. In dieser Arbeit schlagen wir Dynamic Clipping Policy Optimization (DCPO) vor, das eine dynamische Clipping-Strategie einführt, die die Clipping-Grenzen basierend auf token-spezifischen Prior-Wahrscheinlichkeiten adaptiv anpasst, um die Token-Level-Exploration zu verbessern, sowie eine glatte Vorteilsstandardisierungstechnik, die Belohnungen über kumulative Trainingsschritte standardisiert, um die effektive Nutzung generierter Antworten auf Antwortebene zu steigern. DCPO erzielte state-of-the-art Leistung auf vier Benchmarks basierend auf vier verschiedenen Modellen. Insbesondere erreichte DCPO einen Avg@1 von 46,7 unter Greedy-Decoding und einen Avg@32 von 38,8 unter 32-facher Stichprobenziehung auf dem AIME24-Benchmark, wobei es sowohl DAPO (36,7/31,6) als auch GRPO (36,7/32,1) auf dem Qwen2.5-Math-7B-Modell übertraf. Auf dem AIME25-Benchmark basierend auf Qwen2.5-14B erreichte DCPO eine Leistung von (23,3/19,0), wobei es GRPO (13,3/10,5) und DAPO (20,0/15,3) übertraf. Darüber hinaus erzielte DCPO eine durchschnittliche Verbesserung von 28 % im nicht-null Vorteil gegenüber GRPO in vier Modellen, verdoppelte die Trainingsleistung gegenüber DAPO und reduzierte das Token-Clipping-Verhältnis im Vergleich zu GRPO und DAPO um eine Größenordnung, während es eine überlegene Leistung erzielte. Diese Ergebnisse unterstreichen die Effektivität von DCPO bei der effizienteren Nutzung generierter Daten für Reinforcement Learning in großen Sprachmodellen.
GUI-Agenten, die von LLMs (Large Language Models) angetrieben werden, zeigen vielversprechende Ansätze bei der Interaktion mit diversen digitalen Umgebungen. Unter diesen bieten Videospiele aufgrund ihrer vielfältigen Benutzeroberflächen ein wertvolles Testfeld, wobei Adventure-Spiele zusätzliche Herausforderungen durch komplexe, narrativ gesteuerte Interaktionen darstellen. Bestehende Spiel-Benchmarks weisen jedoch eine mangelnde Diversität auf und bewerten Agenten selten hinsichtlich der Vollendung ganzer Handlungsstränge. Um dies zu adressieren, führen wir FlashAdventure ein, einen Benchmark aus 34 Flash-basierten Adventure-Spielen, der darauf abzielt, die Vollendung vollständiger Handlungsbögen zu testen und die Beobachtungs-Verhaltens-Lücke zu überwinden: die Herausforderung, frühere Spielinformationen zu behalten und darauf zu reagieren. Wir schlagen außerdem CUA-as-a-Judge vor, einen automatisierten Spielbewertungsmechanismus, sowie COAST, ein agentenbasiertes Framework, das Langzeitgedächtnis für Hinweise nutzt, um sequenzielle Aufgaben besser zu planen und zu lösen. Experimente zeigen, dass aktuelle GUI-Agenten Schwierigkeiten mit vollständigen Handlungsbögen haben, während COAST die Abschlussrate von Meilensteinen verbessert, indem es die Beobachtungs-Verhaltens-Lücke überbrückt. Dennoch deutet eine deutliche Diskrepanz zwischen Menschen und den leistungsstärksten Agenten darauf hin, dass weitere Forschungsanstrengungen erforderlich sind, um diese Kluft zu verringern.
Guardian-Modelle werden verwendet, um die Ausgaben von nutzerorientierten Chatbots zu überwachen und zu moderieren, indem sie Schutzmaßnahmen durchsetzen und unerwünschtes Verhalten erkennen. Standard-Guardian-Modelle wie LlamaGuard identifizieren vordefinierte, statische Kategorien von Schäden. Wir schlagen dynamische Guardian-Modelle vor, die Texte basierend auf benutzerdefinierten Richtlinien bewerten, wodurch sie für verschiedene Anwendungsbereiche nützlich sind, die von Standard-Guardian-Modellen nicht abgedeckt werden. Unsere dynamischen Guardian-Modelle können zur schnellen Erkennung von Richtlinienverstößen oder in Kombination mit Chain-of-Thought-Reasoning eingesetzt werden, das die Modellausgaben artikuliert und begründet. Unsere dynamischen Guardian-Modelle erreichen die Erkennungsgenauigkeit statischer Modelle für statische Schadenskategorien, während sie Verstöße gegen freiformulierte Richtlinien mit einer Genauigkeit identifizieren, die der von fortschrittlichen Reasoning-Modellen vergleichbar ist, jedoch in einem Bruchteil der Zeit.
Vektor-Einbettungen wurden in den letzten Jahren mit einer stetig wachsenden Anzahl von Retrieval-Aufgaben betraut, wobei ein aufkeimender Trend zu ihrer Verwendung für Reasoning, Befolgen von Anweisungen, Programmieren und mehr zu beobachten ist. Diese neuen Benchmarks fordern Einbettungen dazu auf, für jede Art von Abfrage und jedes mögliche Relevanzkonzept zu funktionieren. Während frühere Arbeiten auf theoretische Grenzen von Vektor-Einbettungen hingewiesen haben, besteht die weit verbreitete Annahme, dass diese Schwierigkeiten ausschließlich auf unrealistische Abfragen zurückzuführen sind und dass solche, die es nicht sind, durch bessere Trainingsdaten und größere Modelle überwunden werden können. In dieser Arbeit zeigen wir, dass wir auf diese theoretischen Grenzen in realistischen Szenarien mit extrem einfachen Abfragen stoßen können. Wir verknüpfen bekannte Ergebnisse aus der Lerntheorie und zeigen, dass die Anzahl der top-k Teilmengen von Dokumenten, die als Ergebnis einer Abfrage zurückgegeben werden können, durch die Dimension der Einbettung begrenzt ist. Wir zeigen empirisch, dass dies auch dann zutrifft, wenn wir uns auf k=2 beschränken und direkt auf dem Testset mit frei parametrisierten Einbettungen optimieren. Anschließend erstellen wir einen realistischen Datensatz namens LIMIT, der Modelle auf der Grundlage dieser theoretischen Ergebnisse stresstestet, und beobachten, dass selbst state-of-the-art Modelle bei diesem Datensatz scheitern, obwohl die Aufgabe einfach ist. Unsere Arbeit zeigt die Grenzen von Einbettungsmodellen unter dem bestehenden Einzelvektor-Paradigma auf und fordert zukünftige Forschung dazu auf, Methoden zu entwickeln, die diese grundlegende Einschränkung überwinden können.
Große Sprachmodelle (LLMs) sind hervorragend darin, synthetische Daten zu generieren, aber die Sicherstellung ihrer Qualität und Vielfalt bleibt eine Herausforderung. Wir schlagen Genetic Prompt vor, ein neuartiges Framework, das genetische Algorithmen mit LLMs kombiniert, um die synthetische Datengenerierung zu erweitern. Unser Ansatz behandelt semantische Textattribute als Gensequenzen und nutzt das LLM, um Crossover- und Mutationsoperationen zu simulieren. Dieser genetische Prozess verbessert die Datenqualität und -vielfalt, indem er neuartige Attributkombinationen erzeugt, was zu synthetischen Verteilungen führt, die näher an realen Daten liegen. Um die Elternauswahl zu optimieren, integrieren wir außerdem ein aktives Lernschema, das den Suchraum für die Nachkommen erweitert. Unsere Experimente zu mehreren NLP-Aufgaben zeigen mehrere wichtige Erkenntnisse: Genetic Prompt übertrifft nicht nur die aktuellen State-of-the-Art-Baselines deutlich, sondern zeigt auch eine robuste Leistung über verschiedene Generator-Modellgrößen und -skalen hinweg. Darüber hinaus demonstrieren wir, dass die Fusion unserer synthetischen Daten mit dem ursprünglichen Trainingsdatensatz die Leistung nachgelagerter Modelle signifikant steigert, insbesondere in Szenarien mit Klassenungleichgewicht. Unsere Ergebnisse bestätigen, dass Genetic Prompt eine effektive Methode zur Erzeugung hochwertiger synthetischer Daten für eine Vielzahl von NLP-Anwendungen ist.
Die medizinische Bildsuche ist entscheidend für klinische Entscheidungsfindungen und translationale Forschung, wobei sie auf diskriminative visuelle Darstellungen angewiesen ist. Dennoch bleiben aktuelle Methoden fragmentiert, da sie auf separate Architekturen und Trainingsstrategien für 2D-, 3D- und videobasierte medizinische Daten zurückgreifen. Dieser modalitätsspezifische Ansatz behindert die Skalierbarkeit und hemmt die Entwicklung einheitlicher Darstellungen. Um einheitliches Lernen zu ermöglichen, haben wir einen groß angelegten hybriden Datensatz mit 867.653 medizinischen Bildproben kuratiert, darunter 2D-Röntgenaufnahmen und Ultraschallbilder, RGB-Endoskopievideos und 3D-CT-Scans. Mit diesem Datensatz trainieren wir M3Ret, einen einheitlichen visuellen Encoder ohne jegliche modalitätsspezifische Anpassung. Es lernt erfolgreich übertragbare Darstellungen mithilfe sowohl generativer (MAE) als auch kontrastiver (SimDINO) selbstüberwachter Lernparadigmen (SSL). Unser Ansatz setzt einen neuen Maßstab für die Zero-Shot-Bild-zu-Bild-Suche über alle einzelnen Modalitäten hinweg und übertrifft starke Baselines wie DINOv3 und den textüberwachten BMC-CLIP. Bemerkenswerterweise entsteht eine starke cross-modale Ausrichtung ohne gepaarte Daten, und das Modell generalisiert auf ungesehene MRI-Aufgaben, obwohl es während des Vortrainings nie MRI-Daten gesehen hat, was die Generalisierbarkeit rein visueller Selbstüberwachung auf ungesehene Modalitäten demonstriert. Umfassende Analysen bestätigen weiterhin die Skalierbarkeit unseres Frameworks über Modell- und Datengrößen hinweg. Diese Ergebnisse liefern ein vielversprechendes Signal an die medizinische Bildgebungsgemeinschaft und positionieren M3Ret als einen Schritt hin zu Foundation-Modellen für visuelle SSL im multimodalen Verständnis medizinischer Bilder.
AdamW ist seit langem der dominierende Optimierer beim Pretraining von Sprachmodellen, trotz zahlreicher Behauptungen, dass alternative Optimierer eine Beschleunigung um das 1,4- bis 2-fache bieten. Wir gehen davon aus, dass zwei methodische Mängel faire Vergleiche erschwert und die praktische Übernahme behindert haben: (i) ungleiche Hyperparameterabstimmung und (ii) begrenzte oder irreführende Evaluierungssetups. Um diese beiden Probleme zu adressieren, führen wir eine systematische Studie von zehn Deep-Learning-Optimierern über vier Modellgrößen (0,1B-1,2B Parameter) und Daten-zu-Modell-Verhältnisse (1-8x das Chinchilla-Optimum) durch. Wir stellen fest, dass faire und informative Vergleiche eine rigorose Hyperparameterabstimmung und Evaluierungen über eine Reihe von Modellgrößen und Daten-zu-Modell-Verhältnissen erfordern, die am Ende des Trainings durchgeführt werden. Erstens können optimale Hyperparameter für einen Optimierer für einen anderen suboptimal sein, was eine blinde Hyperparameterübertragung unfair macht. Zweitens ist die tatsächliche Beschleunigung vieler vorgeschlagener Optimierer gegenüber gut abgestimmten Baselines geringer als behauptet und nimmt mit der Modellgröße auf nur 1,1x für 1,2B-Parameter-Modelle ab. Drittens kann der Vergleich von Zwischencheckpoints vor Erreichen der Ziel-Trainingsbudgets irreführend sein, da sich die Rangfolge zwischen zwei Optimierern während des Trainings aufgrund der Lernratenabnahme umkehren kann. Durch unsere gründliche Untersuchung stellen wir fest, dass alle schnellsten Optimierer wie Muon und Soap Matrizen als Vorkonditionierer verwenden – sie multiplizieren Gradienten mit Matrizen anstatt mit skalarwertigen Einträgen. Die Beschleunigung von matrixbasierten Optimierern ist jedoch umgekehrt proportional zur Modellgröße und nimmt von 1,4x gegenüber AdamW für 0,1B-Parameter-Modelle auf lediglich 1,1x für 1,2B-Parameter-Modelle ab.
Große Sprachmodelle (LLMs) erreichen Spitzenleistungen in vielen Benchmarks, doch bleibt unklar, ob dieser Erfolg auf echtes Denken oder auf Mustererkennung zurückzuführen ist. Aus kognitionswissenschaftlicher Perspektive ist ein informativer Test, ob Modelle eine unbekannte Sprache durch explizites metasprachliches deduktives Lernen meistern können, ein Paradigma, bei dem menschliche Lernende zuverlässig grammatikalische Systeme durch metasprachliches Denken verinnerlichen können. Wir gehen dieser Frage mit Camlang nach, einer neu konstruierten Sprache, die natürliche, aber bisher nicht belegte Merkmalskombinationen aufweist. Camlang besteht aus zwei expliziten Ressourcen, einem Grammatikbuch und einem zweisprachigen Wörterbuch, die das Erlernen einer Zweitsprache durch Erwachsene über explizite Grammatikregeln und lexikalische Nachschlagearbeit widerspiegeln und es uns ermöglichen, Fehler in Morphosyntax, lexikalischer Semantik und satzbezogenem Denken zu unterscheiden. Menschliche Experimente zeigen, dass diese Ressourcen ausreichen, damit Teilnehmer Camlang erlernen und Camlang-Aufgaben erfolgreich lösen können. Um die Evaluation zu operationalisieren, adaptieren wir CommonsenseQA in Camlang und schaffen damit Camlang-CSQA-v0, die erste Aufgabe in einer umfassenderen Suite, bei der das Lösen von Fragen die Anwendung von Grammatikregeln und lexikalischen Zuordnungen erfordert. Experimentelle Ergebnisse zeigen, dass GPT-5 eine Genauigkeit von 98 % EM in Englisch, aber nur 47 % in Camlang erreicht, weit unter der menschlichen Leistung von 87 %, während andere state-of-the-art LLMs noch schlechter abschneiden. Menschliche Überprüfung zeigt weiterhin, dass die meisten Erfolge der Modelle auf oberflächlicher lexikalischer Anpassung beruhen, während GPT-5 in begrenztem Umfang eine aufkeimende metasprachliche Bewusstheit zeigt, jedoch keine systematische grammatikalische Beherrschung wie beim Menschen. Camlang etabliert ein kognitiv fundiertes Evaluationsparadigma, das grundlegende Lücken zwischen aktuellen Modellen und menschlicher metasprachlicher Kompetenz aufdeckt.
Tiefgehende Forschungstools gehören zu den wirkungsvollsten und am häufigsten anzutreffenden agentenbasierten Systemen der heutigen Zeit. Wir stellen jedoch fest, dass jeder bisher eingeführte tiefgehende Forschungsagent fest kodiert ist, um eine bestimmte Forschungsstrategie mit einem festgelegten Satz von Werkzeugen durchzuführen. Wir stellen Universal Deep Research (UDR) vor, ein generalistisches agentenbasiertes System, das sich um jedes Sprachmodell herumlegt und es dem Benutzer ermöglicht, eigene vollständig individuelle tiefgehende Forschungsstrategien zu erstellen, zu bearbeiten und zu verfeinern, ohne dass zusätzliches Training oder Feinabstimmung erforderlich ist. Um die Allgemeingültigkeit unseres Systems zu demonstrieren, statten wir UDR mit beispielhaften minimalen, umfangreichen und intensiven Forschungsstrategien aus und bieten eine Benutzeroberfläche, um das Experimentieren mit dem System zu erleichtern.
Wir präsentieren ViSTA-SLAM als ein Echtzeit-monokulares visuelles SLAM-System, das ohne die Notwendigkeit von Kameraintrinsiken arbeitet und somit breit anwendbar für verschiedene Kamerakonfigurationen ist. Im Kern des Systems wird ein leichtgewichtiges symmetrisches Zwei-Bild-Assoziationsmodell (STA) als Frontend eingesetzt, das gleichzeitig relative Kameraposen schätzt und lokale Punktkarten aus nur zwei RGB-Bildern regressiert. Dieser Entwurf reduziert die Modellkomplexität erheblich, wobei die Größe unseres Frontends nur 35 % der vergleichbaren state-of-the-art Methoden beträgt, während gleichzeitig die Qualität der in der Pipeline verwendeten Zwei-Bild-Constraints verbessert wird. Im Backend konstruieren wir einen speziell entworfenen Sim(3)-Pose-Graphen, der Schleifenschlüsse integriert, um akkumulierten Drift zu adressieren. Umfangreiche Experimente zeigen, dass unser Ansatz sowohl in der Kameranachverfolgung als auch in der Qualität der dichten 3D-Rekonstruktion im Vergleich zu aktuellen Methoden überlegene Leistung erzielt. Github-Repository: https://github.com/zhangganlin/vista-slam
Mit der rasanten Weiterentwicklung von Vision-Language-Modellen (VLMs) haben GUI-basierte mobile Agenten eine zentrale Entwicklungsrichtung für intelligente mobile Systeme eingenommen. Allerdings stehen bestehende Agentenmodelle weiterhin vor erheblichen Herausforderungen bei der Ausführung realer Aufgaben, insbesondere in Bezug auf Genauigkeit und Effizienz. Um diese Einschränkungen zu überwinden, schlagen wir MobiAgent vor, ein umfassendes mobiles Agentensystem, das aus drei Kernkomponenten besteht: den MobiMind-Serien-Agentenmodellen, dem AgentRR-Beschleunigungsframework und der MobiFlow-Benchmarking-Suite. Darüber hinaus haben wir, in Anerkennung der Tatsache, dass die Fähigkeiten aktueller mobiler Agenten noch durch die Verfügbarkeit hochwertiger Daten begrenzt sind, eine KI-gestützte agile Datenerfassungspipeline entwickelt, die die Kosten für manuelle Annotationen erheblich reduziert. Im Vergleich zu allgemeinen LLMs und spezialisierten GUI-Agentenmodellen erzielt MobiAgent Spitzenleistungen in realen mobilen Szenarien.
Visuelle autoregressive Modelle (VAR) haben sich kürzlich als vielversprechende Klasse von generativen Modellen etabliert, die in Text-zu-Bild-Generierungsaufgaben eine Leistung erzielen, die mit der von Diffusionsmodellen vergleichbar ist. Während die bedingte Generierung bereits umfassend erforscht wurde, ist die Fähigkeit, promptgesteuerte Bildbearbeitung ohne zusätzliches Training durchzuführen, ebenso entscheidend, da sie zahlreiche praktische Anwendungen in der realen Welt unterstützt. Diese Arbeit untersucht die Text-zu-Bild-Bearbeitungsfähigkeiten von VAR durch die Einführung von Visual AutoRegressive Inverse Noise (VARIN), der ersten auf Rauschinversion basierenden Bearbeitungstechnik, die explizit für VAR-Modelle entwickelt wurde. VARIN nutzt eine neuartige Pseudo-Inverse-Funktion für das Argmax-Sampling, genannt Location-aware Argmax Inversion (LAI), um inverse Gumbel-Rauschen zu erzeugen. Diese inversen Rauschen ermöglichen eine präzise Rekonstruktion des Quellbildes und erleichtern gezielte, kontrollierbare Bearbeitungen, die mit textuellen Prompts abgestimmt sind. Umfangreiche Experimente zeigen, dass VARIN Quellbilder effektiv gemäß spezifizierter Prompts modifiziert, während es gleichzeitig den ursprünglichen Hintergrund und strukturelle Details signifikant bewahrt, wodurch seine Wirksamkeit als praktischer Bearbeitungsansatz validiert wird.
Die Umwandlung von natürlichen Sprachanfragen in SQL-Abfragen stellt eine entscheidende Herausforderung sowohl in der Industrie als auch in der Wissenschaft dar, mit dem Ziel, den Zugang zu Datenbanken und groß angelegten Anwendungen zu verbessern. Diese Arbeit untersucht, wie In-Context-Lernen und Chain-of-Thought genutzt werden können, um eine robuste Lösung für Text-to-SQL-Systeme zu entwickeln. Wir schlagen SQL-of-Thought vor: ein Multi-Agenten-Framework, das die Text2SQL-Aufgabe in Schema-Linking, Unterproblemidentifikation, Abfrageplangenerierung, SQL-Generierung und eine geführte Korrekturschleife zerlegt. Im Gegensatz zu früheren Systemen, die sich ausschließlich auf ausführungsbasierte statische Korrektur verlassen, führen wir eine taxonomiegesteuerte dynamische Fehlermodifikation ein, die durch In-Context-Lernen informiert wird. SQL-of-Thought erzielt state-of-the-art Ergebnisse auf dem Spider-Datensatz und seinen Varianten, indem es eine geführte Fehlertaxonomie mit einer auf logischem Denken basierenden Abfrageplanung kombiniert.
Diese Arbeit identifiziert anisotrope Parameterverteilungen als eine grundlegende Barriere für das Training großer Sprachmodelle (LLMs) mit niedrigbitiger Quantisierung: Einige dominante Singulärwerte erzeugen breite numerische Bereiche, die mit der inhärenten Verzerrung der blockweisen Quantisierung in Konflikt stehen. Diese Verzerrung bewahrt überproportional hohe Werte, während kleinere Werte verworfen werden, was zu Trainingsinstabilität und geringer Modellleistung führt. Diese Arbeit stellt Metis vor, ein Trainingsframework, das (i) spektrale Zerlegung mit zufälliger Einbettung kombiniert, um dominante Komponenten effizient von langen Schwänzen zu trennen und breite Verteilungen in quantisierungsfreundliche enge Bereiche zu komprimieren; (ii) adaptive Lernraten im Spektralbereich verwendet, um unterrepräsentierte Richtungen zu verstärken und diverse, für die Leistung kritische Merkmale besser zu erfassen; und (iii) einen Dual-Range-Regularisierer einsetzt, der numerische Präzision und Parameterbereichsverteilung gemeinsam einschränkt, um stabiles, unverzerrtes Training mit niedriger Bitanzahl zu gewährleisten. Mit Metis übertrifft FP8-Training FP32-Baselines, und FP4-Training erreicht eine Genauigkeit, die mit FP32 vergleichbar ist, und ebnet den Weg für robustes und skalierbares LLM-Training unter fortgeschrittener niedrigbitiger Quantisierung. Die Code-Implementierung für Metis ist verfügbar unter: https://github.com/typename-yyf/Metis-quantization.
Wir präsentieren die Flavors of Moonshine, eine Sammlung kleiner automatischer Spracherkennungsmodelle (ASR), die speziell für eine Reihe von unterrepräsentierten Sprachen entwickelt wurden. Die vorherrschende Meinung besagt, dass mehrsprachige ASR-Modelle monolinguale Modelle übertreffen, indem sie phonetische Ähnlichkeiten zwischen Sprachen nutzen. Wir stellen diese Annahme in Frage und zeigen, dass für hinreichend kleine Modelle (27M Parameter) das Training monolingualer Systeme auf einer sorgfältig ausbalancierten Mischung aus hochwertigen, von Menschen annotierten, pseudo-annotierten und synthetischen Daten eine deutlich überlegene Leistung erzielt. Im Durchschnitt erreichen unsere Modelle Fehlerraten, die 48 % niedriger sind als die des vergleichbar großen Whisper Tiny-Modells, übertreffen das 9-mal größere Whisper Small-Modell und erreichen in den meisten Fällen die Leistung des 28-mal größeren Whisper Medium-Modells oder übertreffen sie. Diese Ergebnisse setzen neue Maßstäbe für Modelle dieser Größe und ermöglichen eine präzise Spracherkennung auf Endgeräten für Sprachen, die bisher nur begrenzt unterstützt wurden. Wir veröffentlichen die Moonshine-Modelle für Arabisch, Chinesisch, Japanisch, Koreanisch, Ukrainisch und Vietnamesisch unter einer freizügigen Open-Source-Lizenz.
Eine präzise Segmentierung von Organen und Tumoren in CT- und MRT-Aufnahmen ist entscheidend für die Diagnose, Behandlungsplanung und Krankheitsüberwachung. Während Deep Learning die automatisierte Segmentierung vorangetrieben hat, bleiben die meisten Modelle aufgabenspezifisch und weisen eine mangelnde Generalisierbarkeit über Modalitäten und Institutionen hinweg auf. Vision Foundation Models (FMs), die auf Milliarden von natürlichen Bildern vortrainiert wurden, bieten leistungsstarke und übertragbare Repräsentationen. Die Anpassung dieser Modelle an die medizinische Bildgebung steht jedoch vor zwei zentralen Herausforderungen: (1) Das ViT-Backbone der meisten Foundation Models schneidet bei der Segmentierung medizinischer Bilder immer noch schlechter ab als spezialisierte CNNs, und (2) die große Domänenlücke zwischen natürlichen und medizinischen Bildern begrenzt die Übertragbarkeit. Wir stellen MedDINOv3 vor, ein einfaches und effektives Framework zur Anpassung von DINOv3 an die medizinische Segmentierung. Zunächst untersuchen wir einfache ViTs und entwerfen eine effektive Architektur mit mehrstufiger Token-Aggregation. Anschließend führen wir ein domänenadaptives Vortraining auf CT-3M durch, einer kuratierten Sammlung von 3,87 Millionen axialen CT-Schnitten, unter Verwendung eines mehrstufigen DINOv3-Rezepts, um robuste dichte Merkmale zu erlernen. MedDINOv3 erreicht oder übertrifft die state-of-the-art Leistung über vier Segmentierungs-Benchmarks hinweg und demonstriert das Potenzial von Vision Foundation Models als einheitliche Backbones für die medizinische Bildsegmentierung. Der Code ist unter https://github.com/ricklisz/MedDINOv3 verfügbar.
Große Sprachmodelle (LLMs) können unbeabsichtigt gesellschaftliche Vorurteile widerspiegeln, die in ihren Trainingsdaten vorhanden sind, was zu schädlichen oder voreingenommenen Ausgaben führt. Im indischen Kontext zeigen unsere empirischen Auswertungen über eine Reihe von Modellen, dass Vorurteile in Bezug auf Kaste und Religion besonders ausgeprägt sind. Dennoch sind die meisten bestehenden Strategien zur Minderung dieser Vorurteile westlich geprägt und berücksichtigen diese lokalen Nuancen nicht. Wir schlagen AMBEDKAR vor, ein Rahmenwerk, das von der egalitären Vision von Dr. B. R. Ambedkar, dem Architekten der indischen Verfassung, inspiriert ist, um die Ausgaben von LLMs in Richtung Fairness, Neutralität und Inklusion gemäß den Artikeln 14 bis 17 zu lenken. Unser Ansatz führt eine verfassungsbewusste Dekodierungsschicht ein, die von der KI-Verfassung Indiens geleitet wird und nur zur Inferenzzeit angewendet wird, ohne dass Parameter des Basismodells aktualisiert werden. Wir integrieren einen spekulativen Dekodierungsalgorithmus, der kastenbezogene und gemeinschaftliche Vorurteile während der Generierung proaktiv reduziert. Diese Minderungsschicht arbeitet direkt innerhalb des Dekodierungsprozesses, vermeidet Änderungen an den Modellinterna und senkt die mit dem erneuten Training verbundenen Rechen- und Infrastrukturkosten. Wir interpretieren spekulative Dekodierung nicht nur als Effizienzwerkzeug, sondern als Mechanismus für Fairness. In diesem Rahmenwerk fungiert ein kleines Sprachmodell (SLM) als potenziell voreingenommener Generator, während ein verfassungsgeleitetes großes Sprachmodell (LLM) als Prüfer dient. Anstatt die Generierung zu beschleunigen, erzwingt das LLM vorurteilsresistente Trajektorien in den Ausgaben des SLM. Diese Rollenumkehr führt zu einem Paradigma der Fairness durch Spekulation. Unser Ansatz führt zu einer absoluten Reduktion der Vorurteile um bis zu 26,41 Prozent im Vergleich zur Basislinie. Unser Quellcode, Datensätze und Ergebnisse sind verfügbar unter https://anonymous.4open.science/r/AMBEDKAR-983B/.
Prompt-Sensitivität, die sich auf das Phänomen bezieht, bei dem Paraphrasierung (d.h. die Wiederholung von etwas Geschriebenem oder Gesprochenem mit anderen Worten) zu erheblichen Veränderungen in der Leistung von großen Sprachmodellen (LLMs) führt, wurde weithin als eine zentrale Einschränkung von LLMs akzeptiert. In dieser Arbeit greifen wir dieses Thema erneut auf und fragen: Ist die häufig berichtete hohe Prompt-Sensitivität tatsächlich eine inhärente Schwäche von LLMs, oder handelt es sich weitgehend um ein Artefakt der Evaluierungsprozesse? Um diese Frage zu beantworten, evaluieren wir systematisch 7 LLMs (z.B. die GPT- und Gemini-Familie) über 6 Benchmarks hinweg, einschließlich sowohl Multiple-Choice- als auch offener Aufgaben auf 12 verschiedenen Prompt-Vorlagen. Wir stellen fest, dass ein Großteil der Prompt-Sensitivität auf heuristischen Evaluierungsmethoden beruht, einschließlich Log-Likelihood-Bewertung und starrer Antwortabgleichung, die oft semantisch korrekte Antworten, die durch alternative Formulierungen wie Synonyme oder Paraphrasen ausgedrückt werden, übersehen. Wenn wir LLM-as-a-Judge-Evaluierungen verwenden, beobachten wir eine erhebliche Reduzierung der Leistungsvarianz und eine durchweg höhere Korrelation in den Modellrankings über verschiedene Prompts hinweg. Unsere Ergebnisse deuten darauf hin, dass moderne LLMs robuster gegenüber Prompt-Vorlagen sind als bisher angenommen, und dass die Prompt-Sensitivität eher ein Artefakt der Evaluierung als ein Fehler in den Modellen sein könnte.
Traditionelle Ausrichtungsmethoden für große visuelle und sprachliche Modelle (Large Vision and Language Models, LVLMs) stützen sich hauptsächlich auf von Menschen kuratierte Präferenzdaten. Von Menschen generierte Präferenzdaten sind kostspielig; maschinell erzeugte Präferenzdaten sind in ihrer Qualität begrenzt; und selbstüberwachte Präferenzdaten führen oft zu Halluzinationen. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Panel-of-Peers-Lernframework vor, das von der kollaborativen Lernweise unter Menschen inspiriert ist. Dieser Ansatz nutzt ein Panel von LVLMs, die jeweils ihre kollektiven Ausgaben bewerten und durch einen iterativen Selbstverbesserungsprozess voneinander lernen. Durch die Simulation eines Peer-Review-Systems generieren, bewerten und verfeinern unsere Modelle Ausgaben in Reaktion auf einen kuratierten Satz von Eingabeaufforderungen, wodurch eine lernfördernde Umgebung im Klassenzimmer nachgeahmt wird. Wir zeigen, dass diese Methodik die Modellleistung verbessert, ohne umfangreiche, von Menschen annotierte Datensätze zu benötigen. Unsere Experimente zeigen signifikante Verbesserungen über mehrere Benchmarks hinweg und demonstrieren das Potenzial von Peer-Evaluierungen als skalierbare Alternative zur selbstüberwachten Ausrichtung. Insbesondere zeigen wir, dass Panel-of-Peers die durchschnittliche Punktzahl auf fünfzehn Benchmarks von 48 % auf 57 % erhöht.
Fairness in Recommender-Systemen (RS) wird üblicherweise in Gruppenfairness und individuelle Fairness kategorisiert. Es gibt jedoch kein etabliertes wissenschaftliches Verständnis der Beziehung zwischen diesen beiden Fairness-Typen, da frühere Arbeiten zu beiden Typen unterschiedliche Bewertungsmaßstäbe oder Bewertungsziele verwendet haben, was einen angemessenen Vergleich der beiden nicht ermöglichte. Infolgedessen ist derzeit nicht bekannt, wie die Erhöhung eines Fairness-Typs den anderen beeinflussen könnte. Um diese Lücke zu schließen, untersuchen wir die Beziehung zwischen Gruppen- und individueller Fairness durch einen umfassenden Vergleich von Bewertungsmaßstäben, die für beide Fairness-Typen verwendet werden können. Unsere Experimente mit 8 Durchläufen über 3 Datensätze zeigen, dass Empfehlungen, die für Gruppen sehr fair sind, für Einzelpersonen sehr unfair sein können. Unsere Erkenntnis ist neu und nützlich für RS-Praktiker, die die Fairness ihrer Systeme verbessern möchten. Unser Code ist verfügbar unter: https://github.com/theresiavr/stairway-to-fairness.
Trotz seines großen Potenzials wird die virtuelle Anprobe-Technologie durch zwei wesentliche Herausforderungen an der praktischen Anwendung gehindert: die Unfähigkeit aktueller Methoden, Multi-Referenz-Outfit-Kompositionen (einschließlich Kleidungsstücken und Accessoires) zu unterstützen, und ihre erhebliche Ineffizienz, die durch die redundante Neuberechnung von Referenzmerkmalen in jedem Denoising-Schritt verursacht wird. Um diese Herausforderungen zu bewältigen, schlagen wir FastFit vor, ein hochgeschwindigkeitsfähiges Multi-Referenz-Virtual-Try-On-Framework, das auf einer neuartigen cachefähigen Diffusionsarchitektur basiert. Durch den Einsatz eines Semi-Attention-Mechanismus und den Ersatz traditioneller Zeitschritt-Embeddings durch Klassen-Embeddings für Referenzartikel entkoppelt unser Modell die Referenzmerkmalcodierung vollständig vom Denoising-Prozess mit vernachlässigbarem Parameteroverhead. Dies ermöglicht es, Referenzmerkmale nur einmal zu berechnen und verlustfrei über alle Schritte hinweg wiederzuverwenden, wodurch der Effizienzengpass grundlegend durchbrochen und eine durchschnittliche Beschleunigung um das 3,5-fache gegenüber vergleichbaren Methoden erreicht wird. Darüber hinaus führen wir DressCode-MR ein, einen neuen groß angelegten Datensatz, um die Forschung zu komplexen Multi-Referenz-Virtual-Try-Ons zu erleichtern. Er umfasst 28.179 Sätze hochwertiger, gepaarter Bilder, die fünf Schlüsselkategorien abdecken (Oberteile, Hosen, Kleider, Schuhe und Taschen) und durch eine Pipeline von Expertenmodellen und menschlicher Feedback-Verfeinerung erstellt wurden. Umfangreiche Experimente auf den Datensätzen VITON-HD, DressCode und unserem DressCode-MR zeigen, dass FastFit die besten Methoden in Bezug auf wichtige Treue-Metriken übertrifft und dabei seinen erheblichen Vorteil in der Inferenzeffizienz bietet.
Das Lernen mit Punktwolken, insbesondere auf selbstüberwachte Weise ohne manuelle Labels, hat aufgrund seines potenziellen Nutzens in einer Vielzahl von Anwendungen zunehmend Aufmerksamkeit in den Bereichen Computer Vision und maschinelles Lernen erhalten. Die meisten bestehenden generativen Ansätze für selbstüberwachtes Lernen mit Punktwolken konzentrieren sich darauf, maskierte Punkte aus sichtbaren Punkten innerhalb einer einzelnen Ansicht wiederherzustellen. Da ein Zwei-Ansichten-Vortrainingsparadigma von Natur aus größere Vielfalt und Varianz einführt, könnte es somit anspruchsvolleres und informativeres Vortraining ermöglichen. Inspiriert davon untersuchen wir das Potenzial des Zwei-Ansichten-Lernens in diesem Bereich. In diesem Artikel schlagen wir Point-PQAE vor, ein kreuzrekonstruktives generatives Paradigma, das zunächst zwei entkoppelte Punktwolken/Ansichten erzeugt und dann eine aus der anderen rekonstruiert. Um dieses Ziel zu erreichen, entwickeln wir erstmals einen Crop-Mechanismus zur Erzeugung von Punktwolkenansichten und schlagen weiterhin eine neuartige Positionskodierung vor, um die 3D-Relativposition zwischen den beiden entkoppelten Ansichten darzustellen. Die Kreuzrekonstruktion erhöht die Schwierigkeit des Vortrainings im Vergleich zur Selbstrekonstruktion erheblich, wodurch unsere Methode bisherige Einzelmodalitäts-Selbstrekonstruktionsmethoden im selbstüberwachten 3D-Lernen übertrifft. Konkret übertrifft sie die Selbstrekonstruktions-Baseline (Point-MAE) um 6,5 %, 7,0 % und 6,7 % in drei Varianten von ScanObjectNN mit dem Mlp-Linear-Evaluationsprotokoll. Der Code ist verfügbar unter https://github.com/aHapBean/Point-PQAE.
Die feinkörnige Objekterkennung in anspruchsvollen visuellen Domänen, wie beispielsweise der Schadensbewertung von Fahrzeugen, stellt selbst für menschliche Experten eine beträchtliche Herausforderung dar, die zuverlässig zu bewältigen ist. Während DiffusionDet den Stand der Technik durch bedingtes Denoising-Diffusion vorangetrieben hat, bleibt seine Leistung durch die lokale Merkmalskonditionierung in kontextabhängigen Szenarien begrenzt. Wir adressieren diese grundlegende Einschränkung durch die Einführung von Context-Aware Fusion (CAF), das Cross-Attention-Mechanismen nutzt, um globalen Szenenkontext direkt mit lokalen Vorschlagsmerkmalen zu integrieren. Der globale Kontext wird mithilfe eines separaten, dedizierten Encoders generiert, der umfassende Umweltinformationen erfasst und es jedem Objektvorschlag ermöglicht, ein szenenweites Verständnis zu berücksichtigen. Unser Framework verbessert das generative Erkennungsparadigma erheblich, indem es jedem Objektvorschlag ermöglicht, umfassende Umweltinformationen zu berücksichtigen. Experimentelle Ergebnisse zeigen eine Verbesserung gegenüber den aktuellsten Modellen auf dem CarDD-Benchmark und setzen neue Leistungsstandards für die kontextbewusste Objekterkennung in feinkörnigen Domänen.