Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jede Agenten-Interaktion erzeugt ein Next-State-Signal, nämlich die Antwort des Nutzers, die Werkzeugausgabe, die Terminal- oder GUI-Zustandsänderung, die auf jede Aktion folgt. Dennoch nutzt kein bestehendes agentenbasiertes RL-System dieses Signal als lebendige, online Lernquelle. Wir stellen OpenClaw-RL vor, ein Framework, das auf einer einfachen Beobachtung basiert: Next-State-Signale sind universell, und die Policy kann von allen gleichzeitig lernen. Persönliche Konversationen, Terminal-Ausführungen, GUI-Interaktionen, SWE-Aufgaben und Werkzeugaufruf-Spuren sind keine separaten Trainingsprobleme. Es sind alles Interaktionen, die genutzt werden können, um dieselbe Policy in derselben Schleife zu trainieren. Next-State-Signale kodieren zwei Formen von Information: evaluative Signale, die anzeigen, wie gut die Aktion war und als skalare Belohnungen durch einen PRM-Judge extrahiert werden; und direktive Signale, die anzeigen, wie die Aktion hätte anders sein sollen und durch Hindsight-Guided On-Policy Distillation (OPD) gewonnen werden. Wir extrahieren textuelle Hinweise aus dem Folgezustand, konstruieren einen erweiterten Lehrer-Kontext und bieten Token-level direktionale Vorteils-Supervision, die aussagekräftiger ist als jede skalare Belohnung. Durch das asynchrone Design verarbeitet das Modell live Anfragen, der PRM-Judge bewertet laufende Interaktionen und der Trainer aktualisiert die Policy gleichzeitig, ohne jeglichen Koordinationsaufwand zwischen ihnen. Angewendet auf persönliche Agenten ermöglicht OpenClaw-RL einem Agenten, sich allein durch die Nutzung zu verbessern, indem konversationelle Signale aus Nutzer-Nachfragen, Korrekturen und explizitem Feedback gewonnen werden. Angewendet auf allgemeine Agenten unterstützt dieselbe Infrastruktur skalierbares RL über Terminal-, GUI-, SWE- und Werkzeugaufruf-Szenarien hinweg, wo wir zusätzlich den Nutzen von Prozessbelohnungen demonstrieren. Code: https://github.com/Gen-Verse/OpenClaw-RL
K-Means wurde historisch primär als Offline-Verarbeitungsprimitive positioniert, die typischerweise zur Datensatzorganisation oder Embedding-Vorverarbeitung eingesetzt wird, anstatt als First-Class-Komponente in Online-Systemen. In dieser Arbeit betrachten wir diesen klassischen Algorithmus neu durch die Linse moderner KI-Systemgestaltung und ermöglichen K-Means als Online-Primitive. Wir weisen darauf hin, dass bestehende GPU-Implementierungen von K-Means nach wie vor grundlegend durch Low-Level-Systembeschränkungen und nicht durch theoretische algorithmische Komplexität limitiert werden. Insbesondere leidet der Zuordnungsschritt (Assignment Stage) unter einem schwerwiegenden E/A-Engpass (I/O-Bottleneck), der auf die massive explizite Materialisierung der N-mal-K-Distanzmatrix im High-Bandwidth-Memory (HBM) zurückzuführen ist. Gleichzeitig wird der Zentroiden-Aktualisierungsschritt (Centroid Update Stage) erheblich durch hardwarebedingte Schreibkonflikte (Atomic Write Contention) beeinträchtigt, die durch unregelmäßige, streuende (Scatter-style) Token-Aggregationen verursacht werden. Um diese Leistungslücke zu schließen, schlagen wir flash-kmeans vor, eine E/A-bewusste (IO-aware) und kontentionsfreie K-Means-Implementierung für moderne GPU-Workloads. Flash-kmeans führt zwei zentrale Kernel-Level-Innovationen ein: (1) FlashAssign, das die Distanzberechnung mit einer Online-Argmin-Operation fusioniert, um die Zwischenspeicher-Materialisierung vollständig zu umgehen; (2) Sort-Inverse-Update, das explizit eine inverse Abbildung konstruiert, um hochkontentionierte atomare Streuoperationen (Atomic Scatters) in hochbandbreitige, segmentlokale Reduktionen (Segment-level Localized Reductions) umzuwandeln. Darüber hinaus integrieren wir Algorithmus-System-Co-Designs, einschließlich chunked-stream overlap und cache-aware compile heuristics, um die praktische Einsatzfähigkeit sicherzustellen. Umfangreiche Evaluierungen auf NVIDIA H200 GPUs zeigen, dass flash-kmeans eine bis zu 17,9-fache Ende-zu-Ende-Beschleunigung gegenüber den besten Baseline-Verfahren erreicht und dabei branchenübliche Bibliotheken wie cuML und FAISS um das 33-fache bzw. über 200-fache übertrifft.
Mit der zunehmenden Leistungsfähigkeit verkörperter Modelle werden Menschen in Zukunft an ihrem Arbeitsplatz oder zu Hause mit mehreren verkörperten KI-Agenten zusammenarbeiten. Um eine bessere Kommunikation zwischen menschlichen Nutzern und dem Multi-Agenten-System zu gewährleisten, ist es entscheidend, eingehende Informationen von Agenten parallel zu interpretieren und für jede Anfrage den entsprechenden Kontext heranzuziehen. Zu den bestehenden Herausforderungen gehören die effektive Komprimierung und Übermittlung großer Mengen individueller sensorischer Eingaben in Form von Video sowie die korrekte Aggregation mehrerer egozentrischer Videos zum Aufbau eines systemweiten Gedächtnisses. In dieser Arbeit definieren wir zunächst formal ein neuartiges Problem: das Verständnis mehrerer langfristiger egozentrischer Videos, die gleichzeitig von verkörperten Agenten aufgezeichnet wurden. Um die Forschung in diese Richtung zu fördern, stellen wir MultiAgent-EgoQA (MA-EgoQA) vor, einen Benchmark, der entwickelt wurde, um bestehende Modelle in unserem Szenario systematisch zu evaluieren. MA-EgoQA bietet 1.700 Fragen, die spezifisch für mehrere egozentrische Datenströme sind und fünf Kategorien abdecken: soziale Interaktion, Aufgabenkoordination, Theory-of-Mind, zeitliches Schlussfolgern und Umweltinteraktion. Wir schlagen weiterhin ein einfaches Baseline-Modell für MA-EgoQA namens EgoMAS vor, das gemeinsamen Speicher über verkörperte Agenten hinweg und agentenbasierte dynamische Abfrage nutzt. Durch umfassende Evaluation verschiedener Baseline-Modelle und von EgoMAS auf MA-EgoQA stellen wir fest, dass aktuelle Ansätze nicht in der Lage sind, mehrere egozentrische Ströme effektiv zu verarbeiten, was die Notwendigkeit zukünftiger Fortschritte im systemweiten Verständnis über die Agenten hinweg unterstreicht. Der Code und der Benchmark sind unter https://ma-egoqa.github.io verfügbar.
LLM-basierte Text-Embedder kodieren typischerweise den semantischen Inhalt ihrer Eingabe. Einbettungsaufgaben erfordern jedoch die Abbildung unterschiedlicher Eingaben auf ähnliche Ausgaben. Üblicherweise wird diese Eingabe-Ausgabe-Problematik durch das Training von Embedding-Modellen mit gepaarten Daten mittels Contrastive Learning adressiert. In dieser Arbeit schlagen wir einen neuartigen, selbstüberwachten Ansatz namens LLM2Vec-Gen vor, der ein anderes Paradigma verfolgt: Anstatt die Eingabe zu kodieren, lernen wir, die potenzielle Antwort des Modells zu repräsentieren. Konkret fügen wir dem Vokabular des LLM trainierbare Sonder-Tokens hinzu, hängen diese an die Eingabe an und optimieren sie so, dass sie die Antwort des LLM in einer festen Sequenzlänge repräsentieren. Das Training wird durch die eigene Vervollständigung der Abfrage durch das LLM sowie einen unbeaufsichtigten Embedding-Teacher geleitet, der Distillationsziele bereitstellt. Diese Formulierung hilft, die Lücke zwischen Eingabe und Ausgabe zu überbrücken und überträgt LLM-Fähigkeiten wie Sicherheitsausrichtung (Safety Alignment) und logisches Denken auf Embedding-Aufgaben. Entscheidend ist, dass das LLM-Backbone eingefroren bleibt und das Training nur unbeaufsichtigte Abfragen erfordert. LLM2Vec-Gen erzielt state-of-the-art Leistung im selbstüberwachten Bereich auf dem Massive Text Embedding Benchmark (MTEB) und verbessert sich um 9,3 % gegenüber dem besten unbeaufsichtigten Embedding-Teacher. Wir beobachten außerdem eine Reduzierung des Abrufs schädlicher Inhalte um bis zu 43,2 % und eine Verbesserung der Reasoning-Fähigkeiten bei Embedding-Aufgaben um 29,3 %. Schließlich sind die gelernten Einbettungen interpretierbar und können in Text decodiert werden, um ihren semantischen Inhalt offenzulegen.
Low-Rank-Adapter (LoRAs) sind eine parameter-effiziente Feinabstimmungstechnik, die trainierbare Low-Rang-Matrizen in vortrainierte Modelle injiziert, um diese an neue Aufgaben anzupassen. Mixture-of-LoRAs-Modelle erweitern neuronale Netze effizient, indem sie jede Schichteingabe an eine kleine Teilmenge spezialisierter LoRAs der Schicht weiterleiten. Bestehende Mixture-of-LoRAs-Router weisen jedem LoRA ein gelerntes Routing-Gewicht zu, um ein End-to-End-Training des Routers zu ermöglichen. Trotz ihrer empirischen Aussichtsfähigkeit beobachten wir in der Praxis, dass die Routing-Gewichte typischerweise extrem unausgeglichen über die LoRAs verteilt sind, wobei oft nur ein oder zwei LoRAs die Routing-Gewichte dominieren. Dies begrenzt im Wesentlichen die Anzahl der effektiven LoRAs und behindert somit die Ausdruckskraft bestehender Mixture-of-LoRAs-Modelle erheblich. In dieser Arbeit führen wir diese Schwäche auf die Natur der erlernbaren Routing-Gewichte zurück und überdenken das grundlegende Design des Routers. Um dieses kritische Problem zu adressieren, schlagen wir einen neuen Router-Entwurf vor, den wir Reinforcement Routing for Mixture-of-LoRAs (ReMix) nennen. Unsere Schlüsselidee ist die Verwendung von nicht-erlernbaren Routing-Gewichten, um sicherzustellen, dass alle aktiven LoRAs gleichermaßen effektiv sind, ohne dass ein LoRA die Routing-Gewichte dominiert. Allerdings können unsere Router aufgrund der nicht-erlernbaren Routing-Gewichte nicht direkt über Gradientenabstieg trainiert werden. Daher schlagen wir weiterhin einen unverzerrten Gradientenschätzer für den Router vor, indem wir die Reinforce-Leave-One-Out (RLOO)-Technik anwenden, wobei wir den Überwachungsverlust als Belohnung und den Router als Policy im Reinforcement Learning betrachten. Unser Gradientenschätzer ermöglicht es auch, die Trainingsrechenleistung zu skalieren, um die Vorhersageleistung unseres ReMix zu steigern. Umfangreiche Experimente belegen, dass unser vorgeschlagenes ReMix state-of-the-art parameter-effiziente Feinabstimmungsmethoden bei einer vergleichbaren Anzahl aktivierter Parameter signifikant übertrifft.
Obwohl große Sprachmodelle (LLMs) über starke Fähigkeiten im logischen Denken verfügen, wird ihre Leistung bei komplexen Aufgaben häufig durch die Grenzen ihres internen Wissens eingeschränkt. Ein vielversprechender Ansatz zur Überwindung dieser Herausforderung ist die Erweiterung dieser Modelle um externe Werkzeuge – wie Python-Interpreter für mathematische Berechnungen oder Suchmaschinen zum Abruf faktischer Informationen. Die Fähigkeit dieser Modelle, diese Werkzeuge effektiv zu nutzen, bleibt jedoch eine erhebliche Herausforderung. Bestehende Methoden basieren typischerweise auf Cold-Start-Pipelines, die mit supervised Fine-Tuning (SFT) beginnen und darauf mit Reinforcement Learning (RL) aufbauen. Diese Ansätze erfordern oft große Mengen an gelabelten Daten für das SFT, deren Annotation oder Synthese kostspielig ist. In dieser Arbeit schlagen wir In-Context Reinforcement Learning (ICRL) vor, ein reines RL-Framework, das den Bedarf an SFT durch den Einsatz von Few-Shot-Prompting während der Rollout-Phase des RL beseitigt. Konkret führt ICRL In-Context-Beispiele in den Rollout-Prompts ein, um dem Modell die Nutzung externer Werkzeuge beizubringen. Darüber hinaus wird die Anzahl der In-Context-Beispiele mit fortschreitendem Training schrittweise reduziert, bis schließlich eine Zero-Shot-Umgebung erreicht wird, in der das Modell lernt, Werkzeuge eigenständig aufzurufen. Wir führen umfangreiche Experimente mit einer Reihe von Benchmarks für logisches Denken und Werkzeugnutzung durch. Die Ergebnisse zeigen, dass ICRL state-of-the-art Leistung erzielt und sich damit als skalierbare, dateneffiziente Alternative zu traditionellen SFT-basierten Pipelines erweist.
Diffusion Transformer (DiTs) haben sich als führendes Grundgerüst für die Videogenerierung etabliert, doch ihre quadratischen Aufmerksamkeitskosten bleiben ein Hauptengpass. Sparsame Aufmerksamkeit (Sparse Attention) reduziert diese Kosten, indem nur eine Teilmenge der Aufmerksamkeitsblöcke berechnet wird. Bisherige Methoden lassen jedoch oft die übrigen Blöcke weg, was zu Informationsverlust führt, oder stützen sich auf trainierte Prädiktoren zur Approximation, was Trainingsaufwand und eine potenzielle Verschiebung der Ausgabeverteilung mit sich bringt. In dieser Arbeit zeigen wir, dass die fehlenden Beiträge ohne Training wiederhergestellt werden können: Nach semantischem Clustering weisen Schlüssel und Werte innerhalb jedes Blocks eine hohe Ähnlichkeit auf und können durch eine kleine Menge von Clusterzentroiden gut zusammengefasst werden. Basierend auf dieser Beobachtung führen wir SVG-EAR ein, einen parameterfreien linearen Kompensationszweig, der das Zentroid zur Approximation übersprungener Blöcke und zur Wiederherstellung ihrer Beiträge nutzt. Während die Zentroiden-Kompensation für die meisten Blöcke genau ist, kann sie bei einer kleinen Teilmenge versagen. Standard-Sparsamkeitsverfahren wählen Blöcke typischerweise anhand von Aufmerksamkeitswerten aus, die anzeigen, wo das Modell seine Aufmerksamkeitsmasse platziert, nicht aber, wo der Approximationsfehler am größten wäre. Daher führt SVG-EAR einen fehlerbewussten Routing-Mechanismus (Error-Aware Routing) durch: Eine leichte Prüfkomponente (Probe) schätzt den Kompensationsfehler für jeden Block, und wir berechnen exakt die Blöcke mit dem höchsten Fehler-Kosten-Verhältnis, während wir übersprungene Blöcke kompensieren. Wir liefern theoretische Garantien, die den Rekonstruktionsfehler der Aufmerksamkeit mit der Clustering-Qualität in Beziehung setzen, und zeigen empirisch, dass SVG-EAR das Qualitäts-Effizienz-Verhältnis verbessert und den Durchsatz bei gleicher Generierungsqualität in Video-Diffusionsaufgaben steigert. Insgesamt etabliert SVG-EAR eine klare Pareto-Grenze gegenüber früheren Ansätzen und erreicht bis zu 1,77-fache bzw. 1,93-fache Beschleunigungen bei gleichzeitiger Beibehaltung von PSNR-Werten von bis zu 29,759 bzw. 31,043 auf Wan2.2 und HunyuanVideo.
LLMs, die in dynamischen realen Kontexten operieren, stoßen häufig auf Wissen, das sich kontinuierlich weiterentwickelt oder schrittweise neu herausbildet. Um präzise und effektiv zu bleiben, müssen Modelle neu eintreffende Informationen ad hoc adaptieren. Wir führen Online Adaptation to Continual Knowledge Streams (OAKS) ein, um diese Fähigkeit zu evaluieren, und etablieren damit einen Benchmark für Online-Adaption über stetig aktualisierte Wissensströme. Konkret ist der Benchmark als eine Abfolge feingranularer Kontextabschnitte strukturiert, in denen sich Fakten über Zeitintervalle hinweg dynamisch verändern. OAKS umfasst zwei Datensätze: OAKS-BABI und OAKS-Novel, in denen sich einzelne Fakten über mehrere Kontextabschnitte hinweg mehrfach wandeln. Diese Datensätze enthalten dichte Annotationen, um zu messen, ob Modelle Änderungen korrekt nachverfolgen. Bei der Evaluation von 14 Modellen mit unterschiedlichen Inferenzansätzen zeigen sich erhebliche Limitationen bestehender Methoden. Sowohl state-of-the-art-Modelle als auch agentenbasierte Gedächtnissysteme scheitern an einer robusten Adaption in OAKS; sie weisen Verzögerungen im Zustands-Tracking und eine Anfälligkeit für Ablenkung in Streaming-Umgebungen auf.
Prompt-Highlighting lenkt große Sprachmodelle so, dass sie benutzerdefinierte Textabschnitte während der Generierung priorisieren. Eine zentrale Herausforderung besteht darin, Steuerungsrichtungen zu extrahieren, die den Unterschied zwischen relevanten und irrelevanten Kontexten erfassen, anstatt gemeinsame strukturelle Muster beider Kategorien. Wir schlagen PRISM-Δ (Projektionsbasierte Relevanz-informierte Steuerungsmethode) vor, das die Differenz zwischen positiven und negativen Kreuzkovarianzmatrizen zerlegt, um diskriminative Energie zu maximieren und gleichzeitig gemeinsame Richtungen zu eliminieren. Jeder Attention-Head erhält ein kontinuierliches Softplus-Gewicht, das schwachen, aber nützlichen Köpfen erlaubt, mit reduzierter Stärke beizutragen. Das Framework erstreckt sich natürlich auf Value-Repräsentationen und erfasst damit Signal aus dem Inhaltskanal, das reine Key-Methoden ungenutzt lassen. Über vier Benchmarks und fünf Modelle hinweg übertrifft oder erreicht PRISM-Δ die beste bestehende Methode in 19 von 20 Konfigurationen, mit relativen Gewinnen von bis zu +10,6 %, und halbiert gleichzeitig die Flüssigkeitskosten der Steuerung. PRISM-Δ skaliert auch für Retrieval mit langem Kontext und übertrifft die beste bestehende Methode um bis zu +4,8 % relativen Gewinn. PRISM-Δ ist mit FlashAttention kompatibel und fügt vernachlässigbaren Speichermehraufwand hinzu.
Bestehende Video-Personalisierungsmethoden bewahren die visuelle Ähnlichkeit, behandeln jedoch Video und Audio separat. Ohne Zugang zur visuellen Szene können Audiomodelle Geräusche nicht mit den Handlungen auf dem Bildschirm synchronisieren; und da klassische Stimmklon-Modelle nur auf einer Referenzaufnahme basieren, kann ein Text-Prompt weder Sprechstil noch akustische Umgebung beeinflussen. Wir schlagen ID-LoRA (Identity-Driven In-Context LoRA) vor, welches das Erscheinungsbild und die Stimme einer Person gemeinsam in einem einzigen Modell generiert und es einem Text-Prompt, einem Referenzbild und einer kurzen Audiospur ermöglicht, beide Modalitäten gemeinsam zu steuern. ID-LoRA adaptiert das LTX-2 Joint Audio-Video Diffusion Backbone mittels parameter-effizientem In-Context LoRA und ist, unseres Wissens nach, die erste Methode, die visuelles Erscheinungsbild und Stimme in einem einzigen Generierungsschritt personalisiert. Zwei Herausforderungen ergeben sich dabei. Referenz- und Generierungstokens teilen sich denselben Positionskodierungsraum, was sie schwer unterscheidbar macht; wir adressieren dies mit negativen temporalen Positionen, die Referenztokens in einen disjunkten RoPE-Bereich platzieren, während ihre interne temporale Struktur erhalten bleibt. Sprechercharakteristiken neigen auch dazu, während des Denoising verwässert zu werden; wir führen Identity Guidance ein, eineClassifier-Free Guidance-Variante, die sprecherspezifische Merkmale verstärkt, indem sie Vorhersagen mit und ohne Referenzsignal kontrastiert. In Human-Preference-Studien wird ID-LoRA von 73 % der Annotatoren Kling 2.6 Pro hinsichtlich Stimmähnlichkeit und von 65 % hinsichtlich Sprechstil vorgezogen. In Cross-Environment-Szenarien verbessert sich die Sprecherähnlichkeit um 24 % gegenüber Kling, wobei die Lücke mit zunehmender Abweichung der Bedingungen größer wird. Eine vorläufige Nutzerstudie deutet zudem darauf hin, dass die gemeinsame Generierung eine nützliche induktive Verzerrung für physikalisch fundierte Klangsynthese bietet. ID-LoRA erzielt diese Ergebnisse mit nur ~3.000 Trainingspaaren auf einer einzelnen GPU. Code, Modelle und Daten werden veröffentlicht.
Auf Reinforcement Learning (RL) trainierte Agenten auf Basis großer Sprachmodelle (Large Language Models, LLMs) haben ein hohes Potenzial für komplexe interaktive Aufgaben gezeigt. Herkömmliche RL-Paradigmen begünstigen jedoch statische Problemlösung gegenüber kontinuierlicher Anpassung: Agenten konvergieren häufig zu suboptimalen Strategien aufgrund unzureichender Exploration, während erlerntes Wissen implizit in Parametern verbleibt anstatt explizit abrufbar zu sein, was effektives Lernen aus Erfahrung limitiert. Um diese Einschränkungen zu adressieren, führen wir RetroAgent ein, ein Online-RL-Framework, das Agenten befähigt, komplexe interaktive Umgebungen nicht nur durch Lösen, sondern durch Evolution zu meistern. Konkret verfügt RetroAgent über einen Self-Reflection-Mechanismus mit Rückblick (Hindsight), der duale intrinsische Rückmeldung erzeugt: (1) intrinsische numerische Rückmeldung, die inkrementellen Teillösungsfortschritt im Vergleich zu vorherigen Versuchen verfolgt und vielversprechende Explorationen belohnt, und (2) intrinsische Sprachrückmeldung, die wiederverwendbare Lektionen in einen Speicherpuffer destilliert. Dieser wird über unsere vorgeschlagene Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB)-Strategie abgerufen, die Relevanz, Nützlichkeit und Exploration abwägt, um vergangene Erfahrungen effektiv zu nutzen. Umfangreiche Experimente mit zwei Modellfamilien über vier anspruchsvolle agentenbasierte Aufgaben zeigen, dass RetroAgent bestehende Methoden signifikant übertrifft und State-of-the-Art-Ergebnisse erzielt – z.B. übertrifft es mit Group Relative Policy Optimization (GRPO) trainierte Agenten um +18,3 % auf ALFWorld, +15,4 % auf WebShop, +27,1 % auf Sokoban und +8,9 % auf MineSweeper – bei gleichzeitig starker Anpassungsfähigkeit zur Testzeit und Generalisierung auf Out-of-Distribution-Szenarien.
Wenn MLLMs bei visuellen Aufgaben in den Bereichen Naturwissenschaften, Technologie, Ingenieurwesen und Mathematik (STEM) versagen, stellt sich eine grundlegende Frage: Liegt dies an Wahrnehmungsdefiziten oder an Einschränkungen im logischen Schlussfolgern? Durch eine systematische Skalierungsanalyse, bei der Wahrnehmungs- und Reasoning-Komponenten unabhängig voneinander skaliert werden, gewinnen wir eine entscheidende Erkenntnis: Die Skalierung der Wahrnehmung übertrifft durchgängig die Skalierung des Reasonings. Dies zeigt, dass die Wahrnehmung der eigentliche begrenzende Faktor für die aktuelle visuelle STEM-Reasoning-Fähigkeit ist. Motiviert durch diese Erkenntnis konzentriert sich unsere Arbeit auf die systematische Verbesserung der Wahrnehmungsfähigkeiten von MLLMs, indem Code als leistungsstarkes Wahrnehmungsmedium etabliert wird – ausführbarer Code bietet präzise Semantik, die sich natürlich mit der strukturierten Natur von STEM-Visualisierungen deckt. Konkret konstruieren wir ICC-1M, einen großen Datensatz, der 1M Bild-Beschreibung-Code-Tripel umfasst und dieses Code-als-Wahrnehmung-Paradigma durch zwei komplementäre Ansätze realisiert: (1) Code-gestützte Beschreibungserzeugung behandelt ausführbaren Code als Grundwahrheit für Bildbeschreibungen und eliminiert die Halluzinationen, die bestehenden Wissensdistillationsmethoden inhärent sind; (2) STEM-Bild-zu-Code-Übersetzung veranlasst Modelle, Rekonstruktionscode zu generieren, und mildert so die Mehrdeutigkeit natürlicher Sprache zur Wahrnehmungsverbesserung. Um dieses Paradigma zu validieren, führen wir weiterhin STEM2Code-Eval ein, einen neuartigen Benchmark, der die visuelle Wahrnehmung in STEM-Domänen direkt evaluiert. Im Gegensatz zu bestehenden Arbeiten, die sich auf die Problemlösungsgenauigkeit als Stellvertretermetrik stützen, die nur das aufgabenrelevante Verständnis misst, erfordert unser Benchmark ein umfassendes visuelles Verständnis durch die Generierung von ausführbarem Code zur Bildrekonstruktion und bietet so eine deterministische und verifizierbare Bewertung. Code ist verfügbar unter https://github.com/TongkunGuan/Qwen-CodePercept.
Bei Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist die Konstruktion einer robusten Advantage-Baseline entscheidend für Policy-Gradienten, da sie das Policy-Modell effektiv dabei anleitet, gewünschte Verhaltensweisen zu verstärken. Jüngste Forschung hat Generalist Value Models (wie z.B. V₀) eingeführt, die eine vortrainierte Wertschätzung erreichen, indem sie Modellfähigkeiten explizit im Kontext kodieren und so die synchrone Aktualisierung des Wertmodells zusammen mit dem Policy-Modell überflüssig machen. In diesem Beitrag schlagen wir V₀.₅ vor, das die Baseline, die von einem solchen Wertmodell (als Prior fungierend) vorhergesagt wird, adaptiv mit dem empirischen Mittelwert aus spärlichen Rollouts fusioniert. Dies konstruiert eine robuste Baseline, die Recheneffizienz mit extrem geringer Varianz in Einklang bringt. Konkret führen wir einen statistischen Echtzeittest und eine dynamische Budgetzuweisung ein. Dies balanciert die hohe Varianz, die durch spärliche Stichprobenentnahme verursacht wird, mit der systematischen Verzerrung (oder Halluzinationen), die dem Prior des Wertmodells inhärent ist, aus. Durch die Konstruktion eines Hypothesentests, der die Zuverlässigkeit des Priors in Echtzeit bewertet, weist das System bei Bedarf dynamisch zusätzliches Rollout-Budget zu. Dieser Mechanismus minimiert den mittleren quadratischen Fehler (MSE) des Baseline-Schätzers und gewährleistet stabile Policy-Gradienten, selbst bei extremer Sparsity mit einer Gruppengröße von 4. Umfangreiche Auswertungen über sechs mathematische Reasoning-Benchmarks zeigen, dass V₀.₅ GRPO und DAPO signifikant übertrifft, schnellere Konvergenz erreicht und eine Leistungssteigerung von über 10 % erzielt.
Große Sprachmodelle (LLMs) werden zunehmend im gesamten wissenschaftlichen Arbeitsablauf eingesetzt, unter anderem zum Verfassen von Peer-Review-Berichten. Viele KI-generierte Gutachten sind jedoch oberflächlich und bieten zu wenig konkrete Handlungsempfehlungen, sodass Autor:innen ohne umsetzbare Anleitungen bleiben. Diese Lücke adressiert die vorliegende Arbeit. Wir schlagen RbtAct vor, das auf die Generierung von handlungsorientiertem Review-Feedback abzielt und dabei die bestehende Erwiderung auf Gutachten (Rebuttal) in den Mittelpunkt des Lernprozesses stellt. Rebuttals zeigen, welche Gutachterkommentare zu konkreten Überarbeitungen oder spezifischen Plänen führten und welche nur verteidigt wurden. Aufbauend auf dieser Erkenntnis nutzen wir Rebuttals als implizite Supervision, um einen Feedback-Generator direkt auf Handlungsorientierung zu optimieren. Um dieses Ziel zu unterstützen, schlagen wir eine neue Aufgabe vor: die perspektivenkonditionierte, segmentbezogene Generierung von Review-Feedback. Dabei muss das Modell einen einzelnen fokussierten Kommentar auf Basis des vollständigen Papers und einer spezifizierten Perspektive, wie z.B. Experimente oder Verständlichkeit, erzeugen. Zudem erstellen wir einen großen Datensatz namens RMR-75K, der Review-Segmente den Rebuttal-Segmenten zuordnet, die auf sie eingehen, ergänzt um Perspektiven-Labels und Impact-Kategorien, die die Umsetzung durch die Autor:innen klassifizieren. Anschließend trainieren wir das Llama-3.1-8B-Instruct-Modell mittels supervised Fine-Tuning auf Review-Segmenten, gefolgt von einer Präferenzoptimierung mit aus Rebuttals abgeleiteten Paaren. Experimente mit menschlichen Expert:innen und LLM-as-a-Judge zeigen konsistent Verbesserungen in der Handlungsorientierung und Spezifität gegenüber starken Baseline-Modellen bei gleichzeitiger Beibehaltung von Fundierung und Relevanz.
Große Sprachmodelle (LLMs) erhalten typischerweise vielfältiges natürliches Sprachfeedback durch Interaktion mit ihrer Umgebung. Allerdings stützen sich aktuelle Reinforcement-Learning (RL)-Algorithmen ausschließlich auf skalare Belohnungen, wodurch die reichhaltigen Informationen im NL-Feedback ungenutzt bleiben und eine ineffiziente Exploration resultiert. In dieser Arbeit schlagen wir GOLF vor, ein RL-Framework, das explizit gruppenbasiertes Sprachfeedback nutzt, um gezielte Exploration durch umsetzbare Verfeinerungen zu steuern. GOLF aggregiert zwei komplementäre Feedbackquellen: (i) externe Kritiken, die Fehler aufzeigen oder gezielte Korrekturen vorschlagen, und (ii) Versuche innerhalb der Gruppe, die alternative Teilideen und diverse Fehlermuster liefern. Diese gruppenbasierten Feedbacks werden aggregiert, um hochwertige Verfeinerungen zu erzeugen, die adaptiv als Off-Policy-Gerüste in das Training eingebracht werden, um gezielte Guidance in Regionen mit spärlicher Belohnung zu bieten. Gleichzeitig optimiert GOLF die Generierung und Verfeinerung innerhalb eines einheitlichen RL-Zyklus gemeinsam und schafft so einen sich selbst verstärkenden Kreislauf, der beide Fähigkeiten kontinuierlich verbessert. Experimente auf sowohl verifizierbaren als auch nicht-verifizierbaren Benchmarks zeigen, dass GOLF eine überlegene Leistung und Explorationseffizienz erreicht und dabei eine 2,2-fache Verbesserung der Probeneffizienz im Vergleich zu RL-Methoden erzielt, die ausschließlich mit skalaren Belohnungen trainiert wurden. Der Code ist verfügbar unter https://github.com/LuckyyySTA/GOLF.
Diffusion Transformer haben einen neuen State-of-the-Art in der Bildsynthese etabliert, doch die hohen iterativen Berechnungskosten beim Sampling behindern ihren praktischen Einsatz erheblich. Während bestehende Beschleunigungsmethoden sich oft auf die zeitliche Domäne konzentrieren, übersehen sie die erhebliche räumliche Redundanz, die dem generativen Prozess innewohnt – globale Strukturen entstehen lange bevor feinkörnige Details ausgeformt sind. Die einheitliche Berechnungsbehandlung aller räumlichen Regionen stellt eine kritische Ineffizienz dar. In diesem Artikel stellen wir Just-in-Time (JiT) vor, ein neuartiges, trainingsfreies Framework, das diese Herausforderung durch Beschleunigung in der räumlichen Domäne adressiert. JiT formuliert eine räumlich approximative generative gewöhnliche Differentialgleichung (ODE), die die Entwicklung des vollständigen latenten Zustands auf Basis von Berechnungen einer dynamisch ausgewählten, spärlichen Teilmenge von Anker-Tokens antreibt. Um nahtlose Übergänge zu gewährleisten, wenn neue Tokens zur Erweiterung der Dimensionen des latenten Zustands integriert werden, schlagen wir einen deterministischen Mikro-Flow vor – eine einfache und effektive ODE mit endlicher Zeit, die sowohl strukturelle Kohärenz als auch statistische Korrektheit beibehält. Umfangreiche Experimente mit dem state-of-the-art FLUX.1-dev-Modell demonstrieren, dass JiT eine Beschleunigung von bis zu 7x bei nahezu verlustfreier Leistung erreicht, bestehende Beschleunigungsmethoden signifikant übertrifft und einen neuen und überlegenen Kompromiss zwischen Inferenzgeschwindigkeit und Generierungstreue etabliert.
Wir schlagen ein vollautomatisches KI-System vor, das kurze komödiantische Videos ähnlich Sketchshows wie Saturday Night Live erzeugt. Ausgehend von Charakterreferenzen nutzt das System eine Population von Agenten, die lose auf realen Produktionsstudiorollen basieren und so strukturiert sind, dass sie die Qualität und Vielfalt der Ideen und Ergebnisse durch iterativen Wettbewerb, Bewertung und Verbesserung optimieren. Ein wesentlicher Beitrag ist die Einführung von LLM-Kritikern, die durch die Analyse eines Korpus von Comedy-Videos auf YouTube an die Präferenzen realer Zuschauer angepasst sind, um Humor automatisch zu bewerten. Unsere Experimente zeigen, dass unser Framework Ergebnisse liefert, die an die Qualität professionell produzierter Sketche heranreichen und gleichzeitig state-of-the-art Leistungen in der Videogenerierung demonstrieren.
Aktuelle vereinheitlichte multimodale Modelle nutzen typischerweise diskrete visuelle Tokenizer, um die Modalitätslücke zu überbrücken. Die Diskretisierung verwirft jedoch unweigerlich feinkörnige semantische Informationen, was zu suboptimalen Leistungen bei visuellen Verständnisaufgaben führt. Umgekehrt stellt die direkte Modellierung kontinuierlicher semantischer Repräsentationen (z.B. CLIP, SigLIP) erhebliche Herausforderungen an das generative Modellieren in hochdimensionalen Räumen, was zu langsamer Konvergenz und Trainingsinstabilität führt. Um dieses Dilemma zu lösen, stellen wir UniCom vor – einen vereinheitlichten Rahmen, der multimodales Verständnis und Generierung durch komprimierte kontinuierliche Repräsentationen in Einklang bringt. Wir zeigen empirisch, dass die Reduzierung der Kanaldimension für Rekonstruktion und Generierung signifikant effektiver ist als räumliches Downsampling. Dementsprechend entwerfen wir einen auf Aufmerksamkeit basierenden semantischen Kompressor, um dichte Merkmale in eine kompakte, vereinheitlichte Repräsentation zu destillieren. Des Weiteren validieren wir, dass die Transfusions-Architektur abfragebasierten Designs in Konvergenz und Konsistenz überlegen ist. Experimente belegen, dass UniCom state-of-the-art Generierungsleistung unter vereinheitlichten Modellen erreicht. Bemerkenswerterweise liefert es durch die Bewahrung reicher semantischer Priors außergewöhnliche Steuerbarkeit bei der Bildbearbeitung und bewahrt Bildkonsistenz selbst ohne Rückgriff auf VAE.
Große Sprachmodell-Agenten (LLM-Agenten) stehen bei langfristigen, mehrstufigen Aufgaben aufgrund spärlicher Belohnungssignale oft vor erheblichen Herausforderungen in der Kreditenzuordnung (Credit Assignment). Bestehende wertfreie Methoden, wie die Gruppenrelative Politikoptimierung (GRPO), stoßen auf zwei grundlegende Engpässe: ungenaue schrittweise Q-Wert-Schätzung und fehlausgerichtete Wert-Baselines für Zwischenzustände. Um diese Einschränkungen zu adressieren, führen wir HCAPO ein, den ersten Rahmen, der die retrospektive Kreditenzuordnung (Hindsight Credit Assignment) in LLM-Agenten integriert. HCAPO nutzt das LLM selbst als nachträglichen Kritiker, um schrittweise Q-Werte durch retrospektives Schlussfolgern zu verfeinern. Darüber hinaus ergänzt der mehrskalige Vorteilsmechanismus von HCAPO effektiv die ungenauen Wert-Baselines bei kritischen Entscheidungszuständen. Evaluationen über drei anspruchsvolle Benchmarks, einschließlich WebShop und ALFWorld, zeigen, dass HCAPO durchweg state-of-the-art RL-Methoden übertrifft. Bemerkenswerterweise erzielt HCAPO eine Steigerung der Erfolgsrate um 7,7 % auf WebShop und um 13,8 % auf ALFWorld im Vergleich zu GRPO unter Verwendung des Qwen2.5-7B-Instruct-Modells. Diese Ergebnisse deuten darauf hin, dass HCAPO die Explorationseffizienz erheblich steigert, präzise Entscheidungsfindung fördert und Skalierbarkeit in komplexen, langfristigen Aufgaben gewährleistet.
Sparse Autoencoder können lokalisieren, wo Konzepte in Sprachmodellen verortet sind, aber nicht, wie diese bei mehrstufigen Schlussfolgerungen interagieren. Wir schlagen Causale Konzeptgraphen (CCG) vor: einen gerichteten azyklischen Graphen über spärliche, interpretierbare latente Merkmale, dessen Kanten erlernte kausale Abhängigkeiten zwischen Konzepten erfassen. Wir kombinieren aufgabenkonditionierte sparse Autoencoder zur Konzeptentdeckung mit DAGMA-artigem differenzierbarem Strukturlernen zur Graph-Rekonstruktion und führen den Causal Fidelity Score (CFS) ein, um zu bewerten, ob graphgesteuerte Interventionen größere Downstream-Effekte hervorrufen als zufällige. Auf ARC-Challenge, StrategyQA und LogiQA mit GPT-2 Medium erzielt CCG über fünf Seeds (n=15 gepaarte Durchläufe) einen CFS=5.654±0.625 und übertrifft damit ROME-artige Tracing-Verfahren (3.382±0.233), rein SAE-basierte Rangfolgen (2.479±0.196) und eine Zufallsbasis (1.032±0.034), mit p<0.0001 nach Bonferroni-Korrektur. Die erlernten Graphen sind spärlich (5-6\% Kantendichte), domänenspezifisch und stabil über Seeds hinweg.
Die letzte Schicht neuronaler Sprachmodelle projiziert Ausgabemerkmale der Dimension D auf Logits in der Dimension V, der Größe des Vokabulars, wobei in der Regel D ≪ V gilt. Diese Diskrepanz ist dafür bekannt, das Risiko einer begrenzten Ausdrucksfähigkeit in neuronalen Sprachmodellen zu erhöhen und einen sogenannten Softmax-Flaschenhals zu verursachen. Wir zeigen, dass der Softmax-Flaschenhals nicht nur ein Ausdrucksfähigkeits-, sondern auch ein Optimierungsflaschenhals ist. Die Rückpropagation V-dimensionaler Gradienten durch eine lineare Schicht mit Rang D induziert eine unvermeidbare Kompression, welche das Trainingsfeedback für die überwiegende Mehrheit der Parameter verändert. Wir präsentieren eine theoretische Analyse dieses Phänomens und messen empirisch, dass 95–99 % der Gradientennorm durch die Ausgabeschicht unterdrückt werden, was zu stark suboptimalen Aktualisierungsrichtungen führt. Durch kontrollierte Vortrainingsexperimente zeigen wir, dass der Gradientenflaschenhals triviale Muster unerlernbar macht und die Trainingsdynamik von großen Sprachmodellen erheblich beeinflusst. Wir argumentieren, dass dieser inhärente Mangel unabhängig von der Modellarchitektur zu Ineffizienzen beim Training in großem Maßstab beiträgt und die Notwendigkeit neuer Designs für den Sprachmodell-Kopf aufzeigt.
Multimodale große Sprachmodelle (MM-LLMs) haben starke Leistungen im Verständnis medizinischer Bilder und im klinischen Denken gezeigt. Neuere medizinische Agentensysteme erweitern diese um Werkzeugnutzung und Multi-Agenten-Kollaboration, was komplexe Entscheidungsfindung ermöglicht. Diese Systeme stützen sich jedoch fast vollständig auf hochmoderne Frontier-Modelle (z.B. GPT), deren API-basierte Bereitstellung hohe Kosten, hohe Latenz und Datenschutzrisiken mit sich bringt, die den Anforderungen an On-Premise-Kliniklösungen entgegenstehen. Wir stellen Meissa vor, ein leichtgewichtiges medizinisches MM-LLM mit 4B Parametern, das Agenten-Fähigkeiten offline verfügbar macht. Anstatt statische Antworten nachzuahmen, lernt Meissa sowohl, wann es eine externe Interaktion einleiten soll (Strategieauswahl), als auch, wie es eine mehrstufige Interaktion ausführt (Strategieausführung), indem es strukturierte Trajektorien aus Frontier-Modellen destilliert. Konkret schlagen wir vor: (1) Vereinheitlichte Trajektorienmodellierung: Trajektorien (Ableitungs- und Aktionsspuren) werden innerhalb eines einzigen Zustand-Aktion-Beobachtungs-Formalismus dargestellt, was es einem Modell ermöglicht, sich über heterogene medizinische Umgebungen zu verallgemeinern. (2) Drei-stufige stratifizierte Supervision: Die eigenen Fehler des Modells lösen eine progressive Eskalation vom direkten Schlussfolgern hin zu werkzeuggestützter und Multi-Agenten-Interaktion aus, wodurch explizit eine schwierigkeitsbewusste Strategieauswahl erlernt wird. (3) Prospektiv-retrospektive Supervision: Die Paarung explorativer Vorwärtsspuren mit rückblickend rationalisierten Ausführungsspuren ermöglicht stabiles Lernen effektiver Interaktionsrichtlinien. Trainiert mit 40.000 kuratierten Trajektorien, übertrifft oder erreicht Meissa proprietäre Frontier-Agenten in 10 von 16 Bewertungsszenarien über 13 medizinische Benchmarks hinweg, die Radiologie, Pathologie und klinisches Denken abdecken. Mit über 25x weniger Parametern als typische Frontier-Modelle wie Gemini-3 arbeitet Meissa vollständig offline und weist eine 22x niedrigere End-to-End-Latenz im Vergleich zur API-basierten Bereitstellung auf. Daten, Modelle und Umgebungen sind unter https://github.com/Schuture/Meissa veröffentlicht.
Die Erzeugung von Musik, die zeitlich mit Videoevents übereinstimmt, stellt für bestehende Text-zu-Musik-Modelle eine Herausforderung dar, da ihnen eine feingranulare zeitliche Steuerung fehlt. Wir stellen V2M-Zero vor, einen Zero-Pair-Video-zu-Musik-Generierungsansatz, der zeitlich abgestimmte Musik für Videos ausgibt. Unsere Methode wird durch eine zentrale Beobachtung motiviert: Temporale Synchronisation erfordert die Übereinstimmung von *wann* und *wie stark* sich etwas ändert, nicht *was* sich ändert. Während sich musikalische und visuelle Ereignisse semantisch unterscheiden, weisen sie eine gemeinsame zeitliche Struktur auf, die unabhängig innerhalb jeder Modalität erfasst werden kann. Wir erfassen diese Struktur durch Ereigniskurven, die aus intra-modaler Ähnlichkeit mittels vortrainierter Musik- und Video-Encoder berechnet werden. Indem sie zeitliche Veränderungen innerhalb jeder Modalität unabhängig messen, bieten diese Kurven vergleichbare Repräsentationen über Modalitäten hinweg. Dies ermöglicht eine einfache Trainingsstrategie: Feinabstimmung eines Text-zu-Musik-Modells auf Musik-Ereigniskurven, gefolgt vom Ersetzen durch Video-Ereigniskurven während der Inferenz – ohne Cross-Modal-Training oder gepaarte Daten. Auf OES-Pub, MovieGenBench-Music und AIST++ erzielt V2M-Zero erhebliche Verbesserungen gegenüber Baseline-Modellen mit gepaarten Daten: 5–21 % höhere Audioqualität, 13–15 % bessere semantische Übereinstimmung, 21–52 % verbesserte temporale Synchronisation und 28 % höhere Beat-Abstimmung bei Tanzvideos. Wir finden ähnliche Ergebnisse in einem groß angelegten subjektiven Hörtest mit Crowd-Sourcing. Insgesamt bestätigen unsere Ergebnisse, dass zeitliche Abstimmung durch Modalitäts-interne Merkmale anstelle von gepaarter cross-modaler Supervision effektiv für die Video-zu-Musik-Generierung ist. Ergebnisse sind verfügbar unter https://genjib.github.io/v2m_zero/.
Reinforcement Learning mit Verifizierbaren Belohnungen (RLVR) hat die Reasoning-Fähigkeit von Large Language Models (LLMs) erheblich verbessert. Jedoch stützt sich RLVR ausschließlich auf Endantworten als Ergebnisbelohnungen und vernachlässigt die Korrektheit der Zwischenschritte im Reasoning. Das Training mit solchen Prozess-falschen aber Ergebnis-korrekten Rollouts kann zu Halluzinationen und Antwortkopieren führen, was die Generalisierungsfähigkeit und Robustheit des Models erheblich beeinträchtigt. Um dieses Problem zu adressieren, integrieren wir einen Contrastive Learning Mechanismus in die Policy Optimization (CLIPO), um den RLVR-Prozess zu verallgemeinern. Durch die Optimierung eines Contrastive Loss über erfolgreiche Rollouts lenkt CLIPO das LLM dahin, die invariante Struktur zu erfassen, die allen korrekten Reasoning-Pfaden gemeinsam ist. Dies bietet eine robustere Regularisierung über Trajektorien hinweg als die ursprüngliche Einzelpfad-Überwachung in RLVR, mildert effektiv Inkonsistenzen auf Reasoning-Schritt-Ebene und unterdrückt halluzinatorische Artefakte. In Experimenten verbessert CLIPO durchgängig mehrere RLVR-Baselines über diverse Reasoning-Benchmarks hinweg und zeigt einheitliche Verbesserungen in Generalisierung und Robustheit für die Policy-Optimierung von LLMs. Unser Code und Trainingsrezepte sind verfügbar unter https://github.com/Qwen-Applications/CLIPO.
Video-Generative-Modelle (VGMs), die auf groß angelegten Internetdaten vortrainiert wurden, können zeitlich kohärente Rollout-Videos erzeugen, die reichhaltige Objektdynamiken erfassen und damit eine überzeugende Grundlage für Zero-Shot-Robotermanipulation bieten. Allerdings erzeugen VGMs oft physikalisch unplausible Rollouts, und die Umwandlung ihrer Pixelraum-Bewegungen in Roboteraktionen durch geometrisches Retargeting führt zudem zu kumulativen Fehlern durch ungenaue Tiefenschätzung und Keypoint-Tracking. Um diese Herausforderungen zu bewältigen, stellen wir vor, ein datenfreies Framework, das die Ausgaben von VGMs mit kompositionellen Constraints abgleicht, die zur Inferenzzeit von Vision-Language-Modellen (VLMs) generiert werden. Die zentrale Erkenntnis ist, dass VLMs eine zu VGMs komplementäre Fähigkeit bieten: strukturiertes räumliches Reasoning, das die physikalischen Constraints identifizieren kann, die für den Erfolg und die Sicherheit der Manipulationsausführung entscheidend sind. Gegeben eine Sprachinstruktion nutzt ein VLM, um automatisch einen Satz kompositioneller Constraints zu extrahieren, die aufgabenspezifische Anforderungen erfassen. Diese werden dann in zwei Stufen angewendet: (1) constraint-gesteuerte Rollout-Selektion, die einen Batch von VGM-Rollouts bewertet und filtert, um den physikalisch plausibelsten Kandidaten beizubehalten, und (2) constraint-basierte Trajektorienoptimierung, die den ausgewählten Rollout als Initialisierung nutzt und die Roboter-Trajektorie unter dem gleichen Constraint-Satz verfeinert, um Retargeting-Fehler zu korrigieren. Wir evaluieren an sechs Real-Roboter-Manipulationsaufgaben, die präzise, constraint-sensitive Ausführung erfordern, und steigern die Gesamterfolgsrate um 43,3\%-Punkte gegenüber der stärksten Baseline ohne jegliche aufgabenspezifischen Trainingsdaten.
Personalisierte KI-Assistenten müssen auf langfristige Benutzererinnerungen zugreifen und diese verarbeiten, die sich natürlicherweise über mehrere Modalitäten und Quellen wie Bilder, Videos und E-Mails erstrecken. Bisherige Benchmarks für Langzeitgedächtnisse konzentrieren sich jedoch hauptsächlich auf Dialogverläufe und erfassen keine realistischen, persönlichen Bezüge, die in gelebten Erfahrungen verwurzelt sind. Wir stellen ATM-Bench vor, den ersten Benchmark für multimodale, multiquellen-basierte Frage-Antwort-Systeme zum personalisierten referenziellen Gedächtnis. ATM-Bench umfasst etwa vier Jahre datenschutzkonformer persönlicher Gedächtnisdaten sowie von Menschen annotierte Frage-Antwort-Paare mit belegten Gedächtnisnachweisen. Dies schließt Abfragen ein, die das Auflösen persönlicher Referenzen, Multi-Evidenz-Schlussfolgerungen aus mehreren Quellen und den Umgang mit widersprüchlichen Evidenzen erfordern. Wir schlagen Schema-Guided Memory (SGM) vor, um Gedächtniselemente aus verschiedenen Quellen strukturell darzustellen. In Experimenten implementieren wir 5 state-of-the-art Gedächtnissysteme zusammen mit einem standardmäßigen RAG-Baseline und evaluieren Varianten mit verschiedenen Techniken zur Gedächtnisaufnahme, -abfrage und Antwortgenerierung. Wir stellen fest, dass die Leistung auf dem ATM-Bench-Hard-Datensatz gering ist (unter 20 % Genauigkeit) und dass SGM die Leistung im Vergleich zu Descriptive Memory, das in früheren Arbeiten häufig verwendet wird, verbessert. Code verfügbar unter: https://github.com/JingbiaoMei/ATM-Bench
Jüngste Fortschritte im Multi-Agenten-Reinforcement-Learning, insbesondere Policy-Space Response Oracles (PSRO), haben die Berechnung approximativer spieltheoretischer Gleichgewichte in zunehmend komplexen Domänen ermöglicht. Diese Methoden beruhen jedoch auf Deep-Reinforcement-Learning-Orakeln, die `Blackbox'-Neuronale-Netzwerk-Policies erzeugen, was ihre Interpretation, Vertrauenswürdigkeit und Fehlersuche erschwert. Wir stellen Code-Space Response Oracles (CSRO) vor, ein neuartiges Framework, das diese Herausforderung adressiert, indem es RL-Orakel durch Large Language Models (LLMs) ersetzt. CSRO formuliert die Best-Response-Berechnung als Code-Generierungsaufgabe um und veranlasst ein LLM, Policies direkt als menschenlesbaren Code zu generieren. Dieser Ansatz liefert nicht nur inhärent interpretierbare Policies, sondern nutzt auch das vortrainierte Wissen des LLM, um komplexe, menschenähnliche Strategien zu entdecken. Wir untersuchen mehrere Möglichkeiten, ein LLM-basiertes Orakel zu konstruieren und zu verbessern: Zero-Shot-Prompting, iterative Verfeinerung und AlphaEvolve, ein verteiltes, LLM-basiertes evolutionäres System. Wir demonstrieren, dass CSRO eine mit Baseline-Methoden vergleichbare Leistung erzielt und gleichzeitig eine vielfältige Menge an erklärbaren Policies produziert. Unsere Arbeit bietet eine neue Perspektive auf Multi-Agenten-Lernen, indem sie den Fokus von der Optimierung undurchsichtiger Policy-Parameter auf die Synthese interpretierbaren algorithmischen Verhaltens verlagert.
Eine präzise, dichte Tiefenschätzung ist entscheidend für die Roboterwahrnehmung, doch handelsübliche Sensoren liefern aufgrund von Hardwarebeschränkungen oft spärliche oder unvollständige Messungen. Bestehende RGBD-Fusionierungsmethoden zur Tiefenvervollständigung lernen Prior-Wissen, das gemeinsam von der Trainings-RGB-Verteilung und spezifischen Tiefenmustern abhängt, was die Domänenverallgemeinerung und Robustheit gegenüber verschiedenen Tiefenmustern einschränkt. Jüngste Ansätze nutzen monokulare Tiefenschätzungsmodelle (MDE), um domänenübergreifende geometrische Priors einzuführen, doch aktuelle Zwei-Stufen-Integrationsstrategien, die auf expliziter relativer-zu-metrischer Ausrichtung basieren, verursachen zusätzlichen Rechenaufwand und führen zu strukturellen Verzerrungen. Daher stellen wir Any2Full vor, ein einstufiges, domänenübergreifendes und musterunabhängiges Framework, das die Vervollständigung als Skalen-Prompt-Adaption eines vortrainierten MDE-Modells neu formuliert. Um unterschiedliche Sparsitätsgrade der Tiefe und unregelmäßige räumliche Verteilungen zu adressieren, entwerfen wir einen skalensensitiven Prompt-Encoder. Dieser extrahiert Skalenhinweise aus spärlichen Eingaben zu einheitlichen Skalen-Prompts, die das MDE-Modell zu global skalenskonsistenten Vorhersagen führen, während seine geometrischen Priors erhalten bleiben. Umfangreiche Experimente zeigen, dass Any2Full überlegene Robustheit und Effizienz erreicht. Es übertrifft OMNI-DC um 32,2 % im durchschnittlichen AbsREL und erzielt eine 1,4-fache Beschleunigung gegenüber PriorDA mit demselben MDE-Backbone, wodurch ein neues Paradigma für universelle Tiefenvervollständigung etabliert wird. Codes und Checkpoints sind verfügbar unter https://github.com/zhiyuandaily/Any2Full.
Vision-Language-Models (VLMs) verbinden visuelle Wahrnehmung mit sprachlichem Denken. Im Bereich des Autonomen Fahrens (AD) hat diese Synergie Vision-Language-Action (VLA)-Modelle ermöglicht, die hochgradiges multimodales Verständnis in Fahrverhalten übersetzen, typischerweise dargestellt als zukünftige Trajektorien. Bislang erzeugen bestehende VLA-Modelle jedoch hauptsächlich generische, kollisionsfreie Trajektorien. Über Kollisionsvermeidung hinaus ist die Anpassung an verschiedene Fahrstile (z. B. sportlich, komfortabel) für personalisiertes Fahren entscheidend. Zudem behandeln viele Methoden die Trajektoriengenerierung als naive Token-Vorhersage, was kinematisch nicht umsetzbare Aktionen erzeugen kann. Um diese Einschränkungen zu adressieren, stellen wir StyleVLA vor, ein physikinformiertes VLA-Framework zur Erzeugung diverser und physikalisch plausibler Fahrverhalten. Wir führen einen hybriden Loss ein, der eine kinematische Konsistenzbedingung mit einem kontinuierlichen Regressions-Head kombiniert, um die Trajektorienrealisierbarkeit zu verbessern. Für das Training von StyleVLA, basierend auf Qwen3-VL-4B, erstellten wir einen großangelegten Instruktionsdatensatz mit über 1.200 Szenarien, 76.000 Bird's-Eye-View (BEV)- und 42.000 First-Person-View (FPV)-Stichproben, einschließlich Ground-Truth-Trajektorien für fünf Fahrstile und natürlichsprachlicher Anweisungen. Experimente zeigen, dass unser 4B-Parameter-modell StyleVLA proprietäre Modelle (z. B. Gemini-3-Pro) und state-of-the-art VLA-Modelle signifikant übertrifft. Gemessen an einem zusammengesetzten Fahr-Score, der Erfolgsrate, physikalische Realisierbarkeit und Stiltreue bewertet, erzielt StyleVLA 0,55 für BEV und 0,51 für FPV, verglichen mit 0,32 bzw. 0,35 für Gemini-3-Pro. Diese Ergebnisse zeigen, dass ein spezialisiertes, physikinformiertes, leichtgewichtiges Modell Closed-Source-Modelle bei domänenspezifischen Aufgaben übertreffen kann.