papers.description
Während autonome Softwareentwicklungs-Agenten (SWE-Agenten) die Programmierparadigmen neu gestalten, leiden sie derzeit unter einer "Closed-World"-Beschränkung: Sie versuchen, Fehler von Grund auf oder nur unter Verwendung des lokalen Kontexts zu beheben und ignorieren dabei die immense historische menschliche Erfahrung, die auf Plattformen wie GitHub verfügbar ist. Der Zugang zu dieser "Open-World"-Erfahrung wird durch die unstrukturierte und fragmentierte Natur realer Issue-Tracking-Daten erschwert. In diesem Artikel stellen wir MemGovern vor, einen Framework, der entwickelt wurde, um Rohdaten von GitHub zu verwalten und in handlungsorientiertes Erfahrungsgedächtnis für Agenten umzuwandeln. MemGovern setzt Experience Governance ein, um menschliche Erfahrung in agentenfreundliche Experience Cards umzuwandeln, und führt eine agentische Experience-Suche-Strategie ein, die eine logikgesteuerte Abfrage menschlicher Expertise ermöglicht. Durch die Erstellung von 135.000 verwalteten Experience Cards erzielt MemGovern eine signifikante Leistungssteigerung und verbessert die Lösungsrate im SWE-bench Verified um 4,65%. Als Plug-in-Ansatz bietet MemGovern eine Lösung für eine agentenfreundliche Gedächtnisinfrastruktur.
Wir stellen Solar Open vor, ein zweisprachiges Mixture-of-Experts-Sprachmodell mit 102 Milliarden Parametern für unterversorgte Sprachen. Solar Open demonstriert eine systematische Methodik zur Entwicklung wettbewerbsfähiger LLMs durch die Bewältigung von drei miteinander verbundenen Herausforderungen. Erstens synthetisieren wir 4,5 Billionen Tokens hochwertiger, domänenspezifischer und RL-orientierter Daten, um trotz Datenknappheit für unterversorgte Sprachen effektiv trainieren zu können. Zweitens orchestrieren wir diese Daten durch einen progressiven Lehrplan, der Zusammensetzung, Qualitätsschwellenwerte und Domänenabdeckung über 20 Billionen Tokens hinweg gemeinsam optimiert. Drittens wenden wir unseren vorgeschlagenen SnapPO-Framework für effiziente Optimierung an, um Reasoning-Fähigkeiten durch skalierbares Reinforcement Learning zu ermöglichen. In Benchmarks für Englisch und Koreanisch erzielt Solar Open wettbewerbsfähige Leistungen und unterstreicht die Wirksamkeit dieser Methodik für die KI-Entwicklung in unterversorgten Sprachen.
Bestehende Benchmarks für Langzeitgedächtnis verwenden meist mehrteilige Dialoge oder synthetische Nutzerverläufe, was die Retrieval-Leistung zu einem unvollkommenen Indikator für das Personenverständnis macht. Wir stellen \BenchName vor, einen öffentlich verfügbaren Benchmark, der auf langen autobiografischen Erzählungen basiert, in denen Handlungen, Kontext und innere Gedanken dichte Beweise für die Ableitung stabiler Motivationen und Entscheidungsprinzipien liefern. \BenchName rekonstruiert jede Erzählung in einen rückblendenbewussten, zeitverankerten Strom und evaluiert Modelle mit evidenzverknüpften Fragen, die faktisches Erinnern, subjektive Zustandsattribution und prinzipienbasiertes Schlussfolgern abdecken. Über verschiedene narrative Quellen hinweg verbessern retrieval-gestützte Systeme hauptsächlich die faktische Genauigkeit, während Fehler bei zeitlich verankerten Erklärungen und höherwertigen Inferenzen bestehen bleiben – was den Bedarf an Gedächtnismechanismen jenseits von Retrieval unterstreicht. Unsere Daten sind unter KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench} verfügbar.
Der jüngste Paradigmenwechsel hin zu großen Reasoning-Modellen (LRMs) als autonome Agenten hat die Nachfrage nach anspruchsvollen, mehrstufigen Werkzeugnutzungsfähigkeiten verstärkt. Bisher sind bestehende Datensätze und Datengenerierungsansätze jedoch durch statische, vordefinierte Werkzeugsets eingeschränkt, die sich nicht auf die Komplexität einer ergebnisoffenen Mensch-Agenten-Kollaboration skalieren lassen. Um dies zu beheben, entwickelten wir zunächst einen Rahmen für die automatisierte, aufgabenorientierte Generierung mehrstufiger Dialoge im großen Maßstab, der einen LRM-basierten Simulator nutzt, um dynamisch hochwertige, domänenspezifische Werkzeuge zur Lösung bestimmter Aufgaben zu generieren. Wir beobachten jedoch, dass ein rein aufgabenorientiertes Design oft zu "rein aufgabenlösenden" Verläufen führt, bei denen der Agent das Ziel mit minimaler Interaktion erreicht und somit nicht die umfangreichen, mehrstufigen Konversationen realer Szenarien erzeugt. Um diese Lücke zu schließen, wenden wir uns einem benutzerorientierten Simulationsparadigma zu. Indem wir die Aufgabengenerierung von einem dedizierten Benutzersimulator entkoppeln, der menschliche Verhaltensregeln nachahmt – wie schrittweise Anfragestellung und turnusmäßiges Feedback – ermöglichen wir authentischere, erweiterte Mehrfachdialoge, die die iterative Natur realer Problemlösungsprozesse widerspiegeln. Unsere Generierungspipeline fungiert als vielseitiges Plug-and-Play-Modul, das die Generierung von jedem Zustand aus starten kann und so eine hohe Skalierbarkeit bei der Erzeugung umfangreicher Werkzeugnutzungsdaten gewährleistet. Darüber hinaus ermöglicht die Bewältigung mehrerer Aufgaben innerhalb eines einzigen Verlaufs die Erzeugung eines hochverdichteten Datensatzes, der die vielschichtigen Anforderungen realer Mensch-Agenten-Interaktionen widerspiegelt.
Die Entwicklung intelligenter Agenten mit geschickter Manipulationsfähigkeit ist entscheidend für die Realisierung menschenähnlicher Automatisierung sowohl in der Robotik als auch in digitalen Umgebungen. Bisherige GUI-Agenten basieren jedoch auf diskreten Klick-Vorhersagen (x,y), was freie, geschlossene Trajektorien (z.B. das Ziehen eines Fortschrittsbalkens) verhindert, die kontinuierliche, unmittelbare Wahrnehmung und Anpassung erfordern. In dieser Arbeit entwickeln wir ShowUI-π, das erste flussbasierte generative Modell als geschickte GUI-Hand, mit folgenden Entwurfsmerkmalen: (i) Vereinheitlichte diskret-kontinuierliche Aktionen, die diskrete Klicks und kontinuierliches Ziehen in einem gemeinsamen Modell integrieren und flexible Anpassung über diverse Interaktionsmodi hinweg ermöglichen; (ii) Flussbasierte Aktionsgenerierung für die Ziehmodellierung, die inkrementelle Cursor-Anpassungen aus kontinuierlichen visuellen Beobachtungen via eines leichten Aktions-Experten vorhersagt und so glatte, stabile Trajektorien gewährleistet; (iii) Zieh-Trainingsdaten und Benchmark, bei dem wir manuell 20K Ziehtrajektorien über fünf Domänen (z.B. PowerPoint, Adobe Premiere Pro) sammeln und synthetisieren und ScreenDrag einführen, einen Benchmark mit umfassenden Online- und Offline-Evaluierungsprotokollen zur Bewertung der Ziehfähigkeiten von GUI-Agenten. Unsere Experimente zeigen, dass proprietäre GUI-Agenten auf ScreenDrag weiterhin Schwierigkeiten haben (z.B. erzielt Operator 13,27 Punkte und der beste Gemini-2.5-CUA erreicht 22,18). Im Gegensatz dazu erreicht ShowUI-π 26,98 Punkte mit nur 450M Parametern, was sowohl die Schwierigkeit der Aufgabe als auch die Effektivität unseres Ansatzes unterstreicht. Wir hoffen, dass diese Arbeit GUI-Agenten hin zu einer menschenähnlichen, geschickten Steuerung in der digitalen Welt voranbringt. Der Code ist verfügbar unter https://github.com/showlab/showui-pi.
Komplexes logisches Schließen in werkzeuggestützten Agenten-Frameworks ist inhärent langfristig angelegt, was dazu führt, dass sich Argumentationspfade und flüchtige Werkzeugartefakte ansammeln und den begrenzten Arbeitskontext großer Sprachmodelle überlasten. Ohne explizite Gedächtnismechanismen unterbricht eine solche Anhäufung die logische Kontinuität und untergräbt die Aufgabenausrichtung. Dies positioniert Gedächtnis nicht als nebensächlichen Effizienzaspekt, sondern als Kernkomponente zur Aufrechterhaltung kohärenten, zielgerichteten Schließens über lange Horizonte. Wir schlagen MemoBrain vor, ein exekutives Gedächtnismodell für werkzeuggestützte Agenten, das ein abhängigkeitsbewusstes Gedächtnis über Argumentationsschritte hinweg aufbaut und dabei bedeutsame Zwischenzustände sowie ihre logischen Beziehungen erfasst. MemoBrain agiert als Copilot neben dem schlussfolgernden Agenten, organisiert den Argumentationsfortschritt ohne die Ausführung zu blockieren und verwaltet den Arbeitskontext aktiv. Konkret entfernt es ungültige Schritte, faltet abgeschlossene Teilpfade zusammen und bewahrt unter einem festen Kontextbudget eine kompakte, hochrelevante Argumentationsrückgratstruktur. Gemeinsam ermöglichen diese Mechanismen eine explizite kognitive Kontrolle über Argumentationsverläufe anstelle einer passiven Kontextanhäufung. Wir evaluieren MemoBrain anspruchsvollen Langzeittests, darunter GAIA, WebWalker und BrowseComp-Plus, und zeigen konsistente Verbesserungen gegenüber starken Baseline-Modellen.
Reinforcement Learning hat die Leistung von LLM-Agenten bei Aufgaben mit überprüfbaren Ergebnissen erheblich verbessert, stößt jedoch nach wie vor an Grenzen bei offenen Agentenaufgaben mit großen Lösungsräumen (z.B. komplexe Reiseplanung). Aufgrund des Fehlens objektiver Ground-Truth für diese Aufgaben stützen sich aktuelle RL-Algorithmen weitgehend auf Belohnungsmodelle, die einzelnen Antworten skalare Scores zuweisen. Wir behaupten, dass eine solche punktuelle Bewertung unter einem inhärenten Diskriminierungszusammenbruch leidet: Das Belohnungsmodell hat Schwierigkeiten, subtile Vorteile zwischen verschiedenen Trajektorien zu unterscheiden, was dazu führt, dass die Scores innerhalb einer Gruppe in einen engen Bereich komprimiert werden. Folglich wird das effektive Belohnungssignal von Rauschen aus dem Belohnungsmodell dominiert, was zu Optimierungsstagnation führt. Um dies zu adressieren, schlagen wir ArenaRL vor, ein Reinforcement-Learning-Paradigma, das von der punktuellen Skalarbewertung zur relativen Rangfolge innerhalb von Gruppen wechselt. ArenaRL führt einen prozessbasierten paarweisen Evaluierungsmechanismus ein, der mehrstufige Bewertungsraster verwendet, um Trajektorien feinkörnige relative Scores zuzuweisen. Zusätzlich konstruieren wir eine interne adversarische Arena und entwickeln ein turnierbasiertes Ranking-Schema, um stabile Vorteilssignale zu erhalten. Empirische Ergebnisse bestätigen, dass das eingebaute gesetzte K.-o.-System eine nahezu äquivalente Genauigkeit bei der Vorteilsschätzung wie vollständige paarweise Vergleiche mit O(N²)-Komplexität erreicht, während es mit nur O(N)-Komplexität arbeitet und somit eine optimale Balance zwischen Effizienz und Präzision schafft. Darüber hinaus adressieren wir den Mangel an vollständigen Benchmark-Zyklen für offene Agenten, indem wir Open-Travel und Open-DeepResearch entwickeln – zwei hochwertige Benchmarks mit einer umfassenden Pipeline, die SFT, RL-Training und multidimensionale Evaluation abdeckt. Umfangreiche Experimente zeigen, dass ArenaRL Standard-RL-Baselines erheblich übertrifft und es LLM-Agenten ermöglicht, robustere Lösungen für komplexe reale Aufgaben zu generieren.
Wir stellen die Ministral-3-Serie vor, eine Familie parameter-effizienter dichter Sprachmodelle, die für rechen- und speicherbeschränkte Anwendungen konzipiert sind. Sie ist in drei Modellgrößen erhältlich: 3B, 8B und 14B Parameter. Für jede Modellgröße veröffentlichen wir drei Varianten: ein vortrainiertes Basismodell für allgemeine Zwecke, ein instruktionsfeinabgestimmtes Modell und ein Reasoning-Modell für komplexe Problemlösungen. Zudem präsentieren wir unsere Methode zur Ableitung der Ministral-3-Modelle durch Cascade Distillation, eine iterative Ausdünnung mit anschließendem Weiterraining mittels Distillationstechnik. Alle Modelle verfügen über Bildverständnisfähigkeiten und stehen unter der Apache-2.0-Lizenz.
Autonome Agenten auf Basis von Large Language Models (LLMs) entwickeln sich rasant weiter, um mehrstufige Aufgaben zu bewältigen, doch die Gewährleistung ihrer Vertrauenswürdigkeit bleibt eine kritische Herausforderung. Eine grundlegende Säule dieser Vertrauenswürdigkeit ist die Kalibrierung, die sich auf die Fähigkeit eines Agenten bezieht, ein Konfidenzmaß auszudrücken, das zuverlässig seine tatsächliche Leistung widerspiegelt. Während Kalibrierung für statische Modelle gut etabliert ist, sind ihre Dynamiken in werkzeugintegrierten, agentenbasierten Workflows noch wenig erforscht. In dieser Arbeit untersuchen wir systematisch die verbalisierte Kalibrierung in Werkzeug nutzenden Agenten und decken eine grundlegende Konfidenz-Dichotomie auf, die durch den Werkzeugtyp bedingt ist. Konkret identifiziert unsere Pilotstudie, dass Evidenzwerkzeuge (z.B. Websuche) aufgrund inhärenter Rauschens in abgerufenen Informationen systematisch starke Überkonfidenz verursachen, während Verifikationswerkzeuge (z.B. Code-Interpreter) durch deterministisches Feedback die Schlussfolgerungen verankern und Fehlkalibrierung mildern können. Um die Kalibrierung über verschiedene Werkzeugtypen hinweg robust zu verbessern, schlagen wir ein Reinforcement-Learning(RL)-Feintuning-Framework vor, das gleichzeitig die Aufgabengenauigkeit und die Kalibrierung optimiert, unterstützt durch einen ganzheitlichen Benchmark von Belohnungsdesigns. Wir zeigen, dass unsere trainierten Agenten nicht nur eine überlegene Kalibrierung erreichen, sondern auch eine robuste Generalisierung von lokalen Trainingsumgebungen auf verrauschte Web-Szenarien und auf verschiedene Domänen wie mathematisches Reasoning aufweisen. Unsere Ergebnisse unterstreichen die Notwendigkeit domainspezifischer Kalibrierungsstrategien für Werkzeug nutzende Agenten. In einem breiteren Sinne legt diese Arbeit eine Grundlage für die Entwicklung selbstbewusster Agenten, die Unsicherheit in risikoreichen, realen Einsätzen zuverlässig kommunizieren können.
Video-Objeksegmentierungsmethoden wie SAM2 erzielen durch speicherbasierte Architekturen hohe Leistung, haben jedoch bei großen Blickwinkeländerungen Schwierigkeiten aufgrund ihrer Abhängigkeit von Erscheinungsmerkmalen. Traditionelle 3D-Instanzsegmentierungsmethoden adressieren Blickwinkelkonsistenz, erfordern aber Kameraposen, Tiefenkarten und aufwändige Vorverarbeitung. Wir stellen 3AM vor, eine Trainingszeit-Erweiterung, die 3D-wahrnehmbare Merkmale von MUSt3R in SAM2 integriert. Unser leichtgewichtiger Feature-Merger fusioniert mehrstufige MUSt3R-Merkmale, die implizite geometrische Korrespondenz kodieren. In Kombination mit SAM2s Erscheinungsmerkmalen erreicht das Modell eine geometriekonsistente Erkennung, die auf räumlicher Position und visueller Ähnlichkeit basiert. Wir schlagen eine sichtfeldbewusste Abtaststrategie vor, die sicherstellt, dass Bilder räumlich konsistente Objektregionen erfassen, um zuverlässiges 3D-Korrespondenzlernen zu ermöglichen. Entscheidend ist, dass unsere Methode zur Inferenzzeit nur RGB-Eingaben benötigt, ohne Kameraposen oder Vorverarbeitung. Auf anspruchsvollen Datensätzen mit großer Basislinienbewegung (ScanNet++, Replica) übertrifft 3AM SAM2 und Erweiterungen deutlich und erreicht 90,6 % IoU und 71,7 % Positive IoU auf ScanNet++s ausgewähltem Subset, was einer Verbesserung gegenüber state-of-the-art VOS-Methoden um +15,9 bzw. +30,4 Punkte entspricht. Projektseite: https://jayisaking.github.io/3AM-Page/
Retrieval Augmented Generation steht vor einem Zielkonflikt: Das Verketten von Dokumenten in einem langen Prompt ermöglicht zwar Multi-Dokumenten-Abgleich, erzeugt jedoch Prefill-Engpässe, während die separate Kodierung von Dokumenten-KV-Caches Geschwindigkeit bietet, aber die inter-dokumentarische Interaktion unterbricht. Wir schlagen Parallel Context-of-Experts Decoding (Pced) vor, ein trainingsfreies Framework, das die Evidenzaggregation vom Aufmerksamkeitsmechanismus auf den Decodierungsprozess verlagert. Pced behandelt abgerufene Dokumente als isolierte "Experten", synchronisiert deren Vorhersagen durch eine neuartige abrufbasierte kontrastive Decodierregel, die Experten-Logits gegen die Modell-Priorität gewichtet. Dieser Ansatz stellt die Fähigkeiten zum Multi-Dokumenten-Abgleich wieder her, ohne eine gemeinsame Aufmerksamkeit über Dokumente hinweg zu konstruieren.
Retrieval-Augmented Generation (RAG)-Pipelines müssen Herausforderungen bewältigen, die über eine einfache Einzeldokumenten-Rückgewinnung hinausgehen, wie die Interpretation visueller Elemente (Tabellen, Diagramme, Bilder), die Synthese von Informationen über mehrere Dokumente hinweg und die Bereitstellung einer genauen Quellenverankerung. Bestehende Benchmarks erfassen diese Komplexität nicht ausreichend, da sie sich oft auf Textdaten, das Verständnis einzelner Dokumente oder die isolierte Bewertung von Retrieval und Generierung konzentrieren. Wir stellen ViDoRe v3 vor, einen umfassenden multimodalen RAG-Benchmark mit mehrtypigen Abfragen über visuell anspruchsvolle Dokumentenkorpora. Er umfasst 10 Datensätze aus verschiedenen Fachdomänen, bestehend aus ~26.000 Dokumentenseiten, die mit 3.099 menschlich verifizierten Abfragen verknüpft sind, jeweils verfügbar in 6 Sprachen. Durch 12.000 Stunden manueller Annotationsarbeit liefern wir hochwertige Annotationen für Retrieval-Relevanz, Bounding-Box-Lokalisierung und verifizierte Referenzantworten. Unsere Evaluation modernster RAG-Pipelines zeigt, dass visuelle Retriever textbasierten überlegen sind, Late-Interaction-Modelle und textuelles Re-Ranking die Leistung erheblich verbessern sowie hybride oder rein visuelle Kontexte die Qualität der Antwortgenerierung steigern. Allerdings haben aktuelle Modelle nach wie vor Schwierigkeiten mit nicht-textuellen Elementen, offenen Abfragen und feinkörniger visueller Verankerung. Um Fortschritte bei der Bewältigung dieser Herausforderungen zu fördern, wird der Benchmark unter einer kommerziell freizügigen Lizenz unter https://hf.co/vidore veröffentlicht.
Jüngste Fortschritte bei Diffusions-Transformatoren (DiTs) haben neue Maßstäbe in der Bildgenerierung gesetzt, bleiben jedoch aufgrund ihrer hohen Rechen- und Speicherkosten für den Einsatz auf Endgeräten unpraktikabel. In dieser Arbeit stellen wir ein effizientes DiT-Framework vor, das für mobile Geräte und Edge-Devices entwickelt wurde und Transformator-ähnliche Generierungsqualität unter strengen Ressourcenbeschränkungen erreicht. Unser Entwurf kombiniert drei Schlüsselkomponenten. Erstens schlagen wir eine kompakte DiT-Architektur mit einem adaptiven global-lokalen Sparse-Attention-Mechanismus vor, der globale Kontextmodellierung und lokale Detailerhaltung in Einklang bringt. Zweitens entwickeln wir ein elastisches Trainingsframework, das Sub-DiTs unterschiedlicher Kapazitäten innerhalb eines einheitlichen Supernetzes gemeinsam optimiert, sodass ein einzelnes Modell die Inferenzeffizienz dynamisch an verschiedene Hardware anpassen kann. Schließlich entwickeln wir „Knowledge-Guided Distribution Matching Distillation“, eine Schritt-für-Schritt-Distillationspipeline, die das DMD-Ziel mit Wissenstransfer von Lehrer-Modellen mit wenigen Schritten integriert und so hochpräzise Echtzeit-Generierung (z.B. in 4 Schritten) für den Einsatz auf Endgeräten ermöglicht. Zusammengenommen ermöglichen diese Beiträge skalierbare, effiziente und hochwertige Diffusionsmodelle für den Einsatz auf verschiedenster Hardware.
Trotz der rasanten Fortschritte bei Videogenerierungsmodellen ist die Rolle von Daten für die Beeinflussung von Bewegung kaum verstanden. Wir stellen Motive (MOTIon attribution for Video gEneration) vor, einen bewegungszentrierten, gradientenbasierten Datenattribuierungsrahmen, der sich auf moderne, große, hochwertige Videodatensätze und -modelle skalieren lässt. Wir nutzen dies, um zu untersuchen, welche Fine-Tuning-Clips die zeitliche Dynamik verbessern oder verschlechtern. Motive isoliert zeitliche Dynamik von statischem Erscheinungsbild durch bewegungsgewichtete Verlustmasken, was eine effiziente und skalierbare bewegungsspezifische Einflussberechnung ermöglicht. Bei Text-zu-Video-Modellen identifiziert Motive Clips, die Bewegung stark beeinflussen, und leitet die Datenkuratierung, die zeitliche Konsistenz und physikalische Plausibilität verbessert. Mit Motive-ausgewählten Hochinflusssdaten verbessert unsere Methode sowohl die Bewegungsglätte als auch den Dynamikgrad auf VBench und erreicht eine menschliche Präferenz-Rate von 74,1 % im Vergleich zum vortrainierten Basismodell. Unseres Wissens ist dies der erste Rahmen, der Bewegung anstelle des visuellen Erscheinungsbildes in videogenerierenden Modellen attribuiert und dies zur Kuratierung von Fine-Tuning-Daten nutzt.
VLA-Modelle haben ein vielversprechendes Potenzial in der embodied Navigation gezeigt, indem sie Wahrnehmung und Planung vereinen und dabei die starken Generalisierungsfähigkeiten großer VLM erben. Die meisten bestehenden VLA-Modelle stützen sich jedoch auf reaktive Abbildungen direkt von Beobachtungen zu Aktionen, wodurch ihnen die expliziten Schlussfolgerungsfähigkeiten und das persistente Gedächtnis fehlen, die für komplexe, langfristige Navigationsaufgaben erforderlich sind. Um diese Herausforderungen zu bewältigen, schlagen wir VLingNav vor, ein VLA-Modell für embodied Navigation, das auf sprachlich gesteuerter Kognition basiert. Erstens führen wir, inspiriert von der Dual-Prozess-Theorie der menschlichen Kognition, einen adaptiven Chain-of-Thought-Mechanismus ein, der explizites Schlussfolgern nur bei Bedarf dynamisch auslöst. Dies ermöglicht es dem Agenten, fließend zwischen schneller, intuitiver Ausführung und langsamer, bewusster Planung zu wechseln. Zweitens entwickeln wir zur Bewältigung langfristiger räumlicher Abhängigkeiten ein visuell gestütztes linguistisches Gedächtnismodul, das ein persistentes, cross-modales semantisches Gedächtnis aufbaut. Dies befähigt den Agenten, vergangene Beobachtungen abzurufen, um wiederholte Exploration zu vermeiden, und Bewegungstrends für dynamische Umgebungen abzuleiten. Für das Training haben wir Nav-AdaCoT-2.9M konstruiert, den bisher größten embodied Navigationsdatensatz mit Reasoning-Annotationen, angereichert mit adaptiven CoT-Annotationen, die ein Reasoning-Paradigma induzieren, das sowohl anpasst, wann gedacht wird, als auch worüber gedacht wird. Darüber hinaus integrieren wir eine Phase des Online-Reinforcement-Learnings mit expertengeführter Lenkung, die es dem Modell ermöglicht, reine Imitationslernverfahren zu übertreffen und robustere, selbst-explorierte Navigationsverhalten zu erlernen. Umfangreiche Experimente belegen, dass VLingNav state-of-the-art Leistung in einer Vielzahl von embodied Navigations-Benchmarks erreicht. Bemerkenswerterweise überträgt sich VLingNav in Zero-Shot-Manier auf reale Robotikplattformen, führt verschiedene Navigationsaufgaben aus und demonstriert eine starke domänen- und aufgabenübergreifende Generalisierung.
Die steuerbare Ersetzung von Videofiguren mit einer benutzerdefinierten Identität bleibt aufgrund des Mangels an gepaarten Videodaten eine herausfordernde Aufgabe. Bisherige Arbeiten stützten sich überwiegend auf rekonstruktionsbasierte Paradigmen, die segmentierte Masken für jedes Einzelbild und explizite strukturelle Führungsinformationen (z.B. Skelett, Tiefe) erfordern. Diese Abhängigkeit schränkt jedoch ihre Generalisierbarkeit in komplexen Szenarien mit Verdeckungen, Figuren-Objekt-Interaktionen, ungewöhnlichen Posen oder schwierigen Lichtverhältnissen stark ein, was häufig zu visuellen Artefakten und zeitlichen Inkonsistenzen führt. In diesem Artikel stellen wir MoCha vor, ein bahnbrechendes Framework, das diese Einschränkungen umgeht, indem es nur eine einzige beliebige Einzelbildmaske benötigt. Um die multimodale Eingabebedingung effektiv anzupassen und die Gesichtsidentität zu verbessern, führen wir eine bedingungsabhängige RoPE ein und setzen eine RL-basierte Nachtrainingsphase ein. Darüber hinaus schlagen wir zur Bewältigung der Knappheit an qualifizierten gepaarten Trainingsdaten eine umfassende Datenkonstruktionspipeline vor. Konkret entwerfen wir drei spezialisierte Datensätze: einen hochwertig gerenderten Datensatz, der mit Unreal Engine 5 (UE5) erstellt wurde, einen ausdrucksgesteuerten Datensatz, der durch aktuelle Porträtanimationstechniken synthetisiert wird, und einen augmentierten Datensatz, der aus bestehenden Video-Masken-Paaren abgeleitet wird. Umfangreiche Experimente belegen, dass unsere Methode vorhandene state-of-the-art-Verfahren erheblich übertrifft. Wir werden den Code veröffentlichen, um die weitere Forschung zu erleichtern. Weitere Einzelheiten finden Sie auf unserer Projektseite: orange-3dv-team.github.io/MoCha
Die Verbesserung der reasoning-Fähigkeiten großer Sprachmodelle (LLMs) stützt sich weitgehend auf iteratives Selbsttraining mit modellgenerierten Daten. Obwohl bestehende Ansätze effektiv die Genauigkeit steigern, verstärken sie primär erfolgreiche reasoning-Pfade und verursachen dadurch erhebliche Kalibrierungskosten: Modelle werden übermäßig selbstsicher und verlieren die Fähigkeit, Unsicherheit zu repräsentieren. Dieses Versagen wurde als eine Form des Model Collapse in der Alignment-Forschung charakterisiert, bei der sich die prädiktiven Verteilungen zu Punkt-Schätzern mit geringer Varianz degenerieren. Wir adressieren dieses Problem, indem wir reasoning-Training als epistemisches Lernproblem neu definieren, bei dem Modelle nicht nur lernen müssen, wie man schlussfolgert, sondern auch, wann ihrem reasoning vertraut werden sollte. Wir schlagen epistemisch kalibriertes reasoning (EpiCaR) als Trainingsziel vor, das reasoning-Leistung und Kalibrierung gemeinsam optimiert, und instanziieren es innerhalb eines iterativen Supervised Fine-Tuning-Frameworks unter Verwendung expliziter Selbstevaluationssignale. Experimente mit Llama-3- und Qwen-3-Modellfamilien demonstrieren, dass unser Ansatz Pareto-Superiorität gegenüber Standard-Baselines sowohl in Genauigkeit als auch Kalibrierung erreicht, insbesondere bei Modellen mit hinreichender reasoning-Kapazität (z.B. 3B+). Dieses Framework generalisiert effektiv auf OOD-mathematisches reasoning (GSM8K) und Code-Generierung (MBPP). Letztendlich ermöglicht unser Ansatz eine 3-fache Reduktion des Inferenz-Rechenaufwands, indem er die K=30-Leistung von STaR mit nur K=10 Stichproben in leistungsfähigen Modellen erreicht.
Reinforcement Learning with Verifiable Rewards (RLVR) hat sich zu einem Standardparadigma für das Schließen in Large Language Models entwickelt. Die Optimierung allein auf die Korrektheit der Endantwort führt Modelle jedoch oft in eine ziellose, weitschweifige Exploration, bei der sie sich auf exhaustive Trial-and-Error-Taktiken anstelle von strukturierter Planung zur Lösungsfindung verlassen. Während heuristische Einschränkungen wie Längenbestrafungen Weitschweifigkeit reduzieren können, kürzen sie oft essentielle Denkschritte ab, was zu einem schwierigen Kompromiss zwischen Effizienz und Verifizierbarkeit führt. In diesem Artikel argumentieren wir, dass diskriminative Fähigkeit eine Voraussetzung für effiziente Generierung ist: Indem ein Modell lernt, gültige Lösungen zu unterscheiden, kann es ein Führungssignal internalisieren, das den Suchraum beschneidet. Wir schlagen JudgeRLVR vor, ein Zwei-Stufen-Paradigma des Urteilens-und-dann-Generierens. In der ersten Stufe trainieren wir das Modell darauf, Lösungsantworten mit verifizierbaren Ergebnissen zu beurteilen. In der zweiten Stufe feintunen wir dasselbe Modell mit herkömmlichem, generierendem RLVR, initialisiert vom Urteilsmodell. Im Vergleich zu herkömmlichem RLVR unter Verwendung derselben Mathematik-Trainingsdaten erzielt JudgeRLVR für Qwen3-30B-A3B einen besseren Kompromiss zwischen Qualität und Effizienz: Im domäneninternen Mathematikbereich erreicht es einen durchschnittlichen Genauigkeitsgewinn von etwa +3,7 Punkten bei einer um -42 % reduzierten durchschnittlichen Generierungslänge; in domänenexternen Benchmarks zeigt es eine durchschnittliche Genauigkeitsverbesserung von etwa +4,5 Punkten, was eine verbesserte Generalisierungsfähigkeit demonstriert.
Mit dem raschen Fortschritt in der Bildgenerierung hat die visuelle Textbearbeitung mittels natürlicher Sprachbefehle zunehmend an Bedeutung gewonnen. Die größte Herausforderung dieser Aufgabe besteht darin, die Anweisung und das Referenzbild vollständig zu verstehen und daraufhin einen visuellen Text zu erzeugen, der stilistisch mit dem Bild übereinstimmt. Bisherige Methoden umfassen oft komplexe Schritte zur Spezifikation von Textinhalt und -attributen wie Schriftgröße, Farbe und Layout, ohne die stilistische Konsistenz mit dem Referenzbild zu berücksichtigen. Um dieses Problem zu lösen, schlagen wir UM-Text vor – ein einheitliches multimodales Modell für Kontextverständnis und visuelle Textbearbeitung durch natürliche Sprachbefehle. Konkret führen wir ein Visuelles Sprachmodell (VLM) ein, das die Anweisung und das Referenzbild verarbeitet, um Textinhalt und Layout präzise an die Kontextinformationen anzupassen. Für die Generierung präziser und harmonischer visueller Textbilder schlagen wir zudem den UM-Encoder vor, der Einbettungen verschiedener Konditionsinformationen kombiniert – wobei die Kombination automatisch durch das VLM basierend auf der Eingabeanweisung konfiguriert wird. Während des Trainings führen wir einen regionalen Konsistenzverlust ein, um eine effektivere Überwachung der Glyphengenerierung im latenten und RGB-Raum zu ermöglichen, und entwerfen eine maßgeschneiderte Dreistufen-Trainingsstrategie zur weiteren Steigerung der Modellleistung. Zusätzlich stellen wir UM-DATA-200K bereit, einen umfangreichen Datensatz visueller Textbilder aus diversen Szenarien für das Modelltraining. Umfangreiche qualitative und quantitative Ergebnisse auf mehreren öffentlichen Benchmarks belegen, dass unsere Methode state-of-the-art Leistung erzielt.
Dieses Paper stellt VideoLoom vor, ein einheitliches Video Large Language Model (Video LLM) für gemeinsames räumlich-zeitliches Verständnis. Um die Entwicklung feinkörniger räumlicher und zeitlicher Lokalisierungsfähigkeiten zu fördern, haben wir LoomData-8.7k zusammengestellt, einen menschenzentrierten Videodatensatz mit zeitlich verankerten und räumlich lokalisierten Beschreibungen. Damit erzielt VideoLoom state-of-the-art oder äußerst wettbewerbsfähige Leistungen in einer Vielzahl von räumlichen und zeitlichen Benchmarks (z.B. 63,1 J&F bei ReVOS für Referring Video Object Segmentation und 48,3 R1@0,7 bei Charades-STA für Temporal Grounding). Zusätzlich führen wir LoomBench ein, einen neuartigen Benchmark, der zeitliche, räumliche und kompositionelle Video-Frage-Paare umfasst und eine umfassende Bewertung von Video LLMs aus verschiedenen Blickwinkeln ermöglicht. Zusammengenommen bieten diese Beiträge eine universelle und effektive Lösung für das gemeinsame räumlich-zeitliche Videoverständnis und setzen damit einen neuen Standard in der multimodalen Intelligenz.
Text-to-Visualization (Text2Vis)-Systeme übersetzen natürliche Sprachabfragen über tabellarische Daten in präzise Antworten und ausführbare Visualisierungen. Während proprietäre Large Language Models (LLMs) funktionalen Code generieren, weisen die resultierenden Diagramme oft mangelnde semantische Übereinstimmung und Klarheit auf – Eigenschaften, die erst nach der Ausführung bewertet werden können. Open-Source-Modelle schneiden noch schlechter ab und erzeugen häufig nicht ausführbare oder visuell minderwertige Ergebnisse. Obwohl überwachtes Fine-Tuning die Code-Ausführbarkeit verbessern kann, steigert es nicht die allgemeine Visualisierungsqualität, da herkömmliche SFT-Verluste kein Feedback nach der Ausführung erfassen können. Um diese Lücke zu schließen, schlagen wir RL-Text2Vis vor, das erste Reinforcement-Learning-Framework für Text2Vis-Generierung. Basierend auf Group Relative Policy Optimization (GRPO) nutzt unsere Methode eine neuartige multi-objective Belohnungsfunktion, die textuelle Genauigkeit, Code-Gültigkeit und Visualisierungsqualität unter Verwendung von Feedback nach der Ausführung gemeinsam optimiert. Durch das Training von Qwen2.5-Modellen (7B und 14B) erzielt RL-Text2Vis eine relative Verbesserung der Diagrammqualität um 22 % gegenüber GPT-4o auf dem Text2Vis-Benchmark und steigert die Code-Ausführungsrate von 78 % auf 97 % im Vergleich zur Zero-Shot-Baseline. Unsere Modelle übertreffen starke Zero-Shot- und überwachte Baseline-Modelle signifikant und zeigen zudem robuste Generalisierung auf out-of-domain-Datensätze wie VIS-Eval und NVBench. Diese Ergebnisse etablieren GRPO als effektive Strategie für strukturiertes, multimodales Reasoning in der Visualisierungsgenerierung. Unser Code ist unter https://github.com/vis-nlp/RL-Text2Vis verfügbar.
Diskrete Motion-Tokenisierung hat kürzlich ermöglicht, dass Large Language Models (LLMs) als vielseitige Backbones für das Verständnis von Bewegung und für Bewegungs-Sprach-Relationierung dienen können. Bestehende Pipelines entkoppeln jedoch typischerweise die Motion-Quantisierung vom semantischen Embedding-Lernen und verbinden diese lediglich über Token-IDs. Dieser Ansatz vermag die intrinsische Geometrie des Bewegungsraums nicht effektiv mit dem Embedding-Raum in Einklang zu bringen, was die Fähigkeit des LLM zur nuancierten Bewegungsrelationierung beeinträchtigt. Wir vertreten die Auffassung, dass eine Abstimmung dann am effektivsten ist, wenn beide Modalitäten eine einheitliche geometrische Basis teilen. Daher stellen wir, anstatt das LLM zu zwingen, die komplexe Geometrie zwischen Motion-Tokens von Grund auf neu zu rekonstruieren, ein neuartiges Framework vor, das explizit Orthogonalität sowohl im Motion-Codebook als auch im LLM-Embedding-Raum erzwingt und so sicherstellt, dass sich ihre relationalen Strukturen natürlich spiegeln. Konkret setzen wir einen Decoder-only-Quantizer mit Gumbel-Softmax für differenzierbares Training und ausgewogene Codebook-Nutzung ein. Um die Modalitäten zu verbinden, verwenden wir eine sparse Projektion, die Motion-Codes unter Wahrung der Orthogonalität in den LLM-Embedding-Raum abbildet. Abschließend erzwingt ein zweistufiger Orthonormalisierungs-Regularisierungsplan weiche Constraints während des Tokenizer-Trainings und des LLM-Fine-Tunings, um die geometrische Ausrichtung ohne Beeinträchtigung der semantischen Anpassung aufrechtzuerhalten. Umfangreiche Experimente auf HumanML3D belegen, dass unser Framework eine Leistungssteigerung von 20 % gegenüber aktuellen State-of-the-Art-Methoden erzielt, was validiert, dass eine einheitliche geometrische Basis das LLM effektiv für nuancierte Bewegungsrelationierung befähigt.
Große Sprachmodelle (LLMs) werden zunehmend in realen Faktenprüfungssystemen eingesetzt, doch bestehende Evaluationen konzentrieren sich überwiegend auf die Behauptungsverifikation und vernachlässigen den umfassenderen Faktenprüfungs-Workflow, einschließlich Behauptungsextraktion und Evidenzrecherche. Dieser eingeschränkte Fokus verhindert, dass aktuelle Benchmarks systematische Reasoning-Fehler, faktische blinde Flecken und Robustheitsgrenzen moderner LLMs aufdecken. Um diese Lücke zu schließen, präsentieren wir FactArena, einen vollständig automatisierten Arena-artigen Evaluationsrahmen, der eine umfassende, stufenweise Benchmarking von LLMs über die komplette Faktenprüfungspipeline hinweg durchführt. FactArena integriert drei Schlüsselkomponenten: (i) einen LLM-gesteuerten Faktenprüfungsprozess, der die Behauptungszerlegung, Evidenzrecherche via tool-augmentierter Interaktionen und begründungsbasierte Urteilsvorhersage standardisiert; (ii) einen Arena-artigen Bewertungsmechanismus, geleitet von konsolidierten Referenzrichtlinien, um verzerrungsfreie und konsistente paarweise Vergleiche über heterogene Bewerter-Agenten hinweg sicherzustellen; und (iii) ein Arena-gesteuertes Behauptungs-Evolutionsmodul, das adaptiv anspruchsvollere und semantisch kontrollierte Behauptungen generiert, um die faktische Robustheit von LLMs über feste Ausgangsdaten hinaus zu testen. Über 16 state-of-the-art LLMs aus sieben Modellfamilien hinweg erzeugt FactArena stabile und interpretierbare Rangfolgen. Unsere Analysen zeigen weiterhin signifikante Diskrepanzen zwischen statischer Behauptungsverifikationsgenauigkeit und end-to-end Faktenprüfungskompetenz auf und unterstreichen die Notwendigkeit holistischer Evaluation. Der vorgeschlagene Rahmen bietet ein skalierbares und vertrauenswürdiges Paradigma zur Diagnose des faktischen Reasoning von LLMs, zur Lenkung zukünftiger Modellentwicklung und zur Förderung des zuverlässigen Einsatzes von LLMs in sicherheitskritischen Faktenprüfungsanwendungen.