papers.description
Gedächtnissysteme sind Schlüsselkomponenten, die KI-Systemen wie LLMs und KI-Agenten langfristiges Lernen und nachhaltige Interaktion ermöglichen. Allerdings zeigen diese Systeme während der Gedächtnisspeicherung und -abfrage häufig Gedächtnishalluzinationen, einschließlich Erfindungen, Fehlern, Widersprüchen und Auslassungen. Bisherige Bewertungen von Gedächtnishalluzinationen erfolgen primär über End-to-End-Fragebeantwortung, was es schwierig macht, den operationalen Stadium innerhalb des Gedächtnissystems zu lokalisieren, in dem Halluzinationen entstehen. Um dies zu adressieren, führen wir den Hallucination in Memory Benchmark (HaluMem) ein, den ersten Halluzinationsbewertungsmaßstab auf Operationsebene, der speziell für Gedächtnissysteme entwickelt wurde. HaluMem definiert drei Bewertungsaufgaben (Gedächtnisextraktion, Gedächtnisaktualisierung und Gedächtnisfragebeantwortung), um Halluzinationsverhalten über verschiedene Interaktionsstadien hinweg umfassend aufzuzeigen. Zur Unterstützung der Bewertung erstellen wir nutzerzentrierte, mehrschrittige Mensch-KI-Interaktionsdatensätze, HaluMem-Medium und HaluMem-Long. Beide umfassen etwa 15.000 Gedächtnispunkte und 3.500 Mehrtyp-Fragen. Die durchschnittliche Dialoglänge pro Nutzer erreicht 1.500 bzw. 2.600 Turns, mit Kontextlängen von über 1 Million Tokens, was die Bewertung von Halluzinationen über verschiedene Kontextskalen und Aufgabenkomplexitäten hinweg ermöglicht. Empirische Studien auf Basis von HaluMem zeigen, dass bestehende Gedächtnissysteme dazu neigen, Halluzinationen während der Extraktions- und Aktualisierungsphasen zu generieren und anzuhäufen, die anschließend Fehler in die Fragebeantwortungsphase weiterleiten. Zukünftige Forschung sollte sich auf die Entwicklung interpretierbarer und eingeschränkter Gedächtnisoperationsmechanismen konzentrieren, die Halluzinationen systematisch unterdrücken und die Gedächtniszuverlässigkeit verbessern.
Jüngste Fortschritte bei Deep-Research-Agents zeigen vielversprechende Ansätze für autonome Wissenskonstruktion durch dynamisches Reasoning über externe Quellen. Bisherige Ansätze beruhen jedoch auf einem monokontextuellen Paradigma, das alle Informationen in einem einzigen, sich erweiternden Kontextfenster akkumuliert. Dies führt zu Kontextüberlastung und Rauschkontamination, die ihre Wirksamkeit bei langfristigen Aufgaben einschränken. Wir stellen IterResearch vor, ein neuartiges iteratives Deep-Research-Paradigma, das langfristige Forschung als Markov-Entscheidungsprozess mit strategischer Arbeitsbereichsrekonstruktion reformuliert. Durch die Führung eines sich entwickelnden Berichts als Gedächtnis und die regelmäßige Synthese von Erkenntnissen bewahrt unser Ansatz eine konsistente Reasoning-Fähigkeit über beliebige Erkundungstiefen hinweg. Wir entwickeln weiterhin Efficiency-Aware Policy Optimization (EAPO), ein Reinforcement-Learning-Framework, das effiziente Exploration durch geometrische Belohnungsdiskontierung fördert und stabile verteilte Training durch adaptives Downsampling ermöglicht. Umfangreiche Experimente zeigen, dass IterResearch substantiale Verbesserungen gegenüber bestehenden Open-Source-Agents erzielt, mit einem durchschnittlichen Zuwachs von +14,5 Prozentpunkten über sechs Benchmarks hinweg, und die Lücke zu führenden proprietären Systemen verkleinert. Bemerkenswerterweise zeigt unser Paradigma ein beispielloses Interaktionsskalierungsverhalten, das sich bis zu 2048 Interaktionen erstreckt mit dramatischen Leistungssteigerungen (von 3,5 % auf 42,5 %), und dient als effektive Prompting-Strategie, die führende Modelle um bis zu 19,2 Prozentpunkte gegenüber ReAct bei langfristigen Aufgaben verbessert. Diese Ergebnisse positionieren IterResearch als vielseitige Lösung für langfristiges Reasoning, die sowohl als trainierter Agent als auch als Prompting-Paradigma für Frontier-Modelle effektiv ist.
Aktuelle Reasoning-First-Modelle (z.B. OpenAI o1, DeepSeek R1) haben ein wiederauflebendes Interesse an RLVR (Reinforcement Learning from Verifier Feedback) ausgelöst. Dennoch werden die Fortschritte von mathematischen Anwendungen (z.B. AIME) dominiert, während die Code-Generierung für Competitive Programming untererforscht bleibt und der Datenkuratierung weniger Aufmerksamkeit geschenkt wird als dem RL-Algorithmen-Design. Wir untersuchen, wie RLVR-Datensätze (d.h. RL-Prompts) konstruiert werden können, und stellen praktische Trainingstechniken vor, die eine hohe Leistung bei der Code-Generierung für Competitive Programming erzielen. Unsere Pipeline beginnt mit supervidiertem Fein-Tuning (SFT), das aus starken Open-Source-Modellen destilliert und mit allgemeinen sowie reasoning-intensiven Daten angereichert wird. Anschließend folgt RL einem zweistufigen Prozess mit ausführbaren, testfallgesteuerten Belohnungen: Zuerst wird das Training an einem großen, gleichmäßig verteilten Satz von Competitive-Programming-Problemen mit Group Relative Policy Optimization (GRPO) durchgeführt, mit 8 Rollouts pro Prompt und einem relativ kurzen Antwortgenerierungsfenster (z.B. 32k während SFT und 24k in dieser Stufe), um die Entropie zu erhöhen und Wiederholungen sowie Kürzungen zu vermeiden. Zweitens führen wir Pre-GRPO durch: Updates an einem kleinen, hochwertigen Satz anspruchsvoller Probleme mit einem großen Rollout-Budget (64 Rollouts pro Prompt) unter einem Hard-Focus-Curriculum, das die schwierigsten Instanzen während des gesamten Trainings kontinuierlich beibehält. Wir implementieren unsere Methode auf Qwen2.5-32B und evaluieren auf LeetCode und Codeforces Weekly Contests, um Datenlecks zu vermeiden. Das resultierende Modell erzielt state-of-the-art Leistung unter Modellen ähnlicher Größe und ist vergleichbar mit führenden Systemen wie DeepSeek v3.1 und Doubao-1.5-Thinking. Wir untersuchen auch Skalierungstrends und beobachten eine starke RL-Skalierung an einem internen großskaligen MoE-Modell (Mixture of Experts). Unsere Studie destilliert prägnante Best Practices für Datenkuratierung, Entropieerweiterung und Curriculum-Design in RLVR für die Code-Generierung im Competitive Programming.
Wir stellen die STATION vor, eine Open-World-Multi-Agenten-Umgebung, die ein miniaturisiertes wissenschaftliches Ökosystem modelliert. Durch ihre erweiterten Kontextfenster können Agenten in der Station lange wissenschaftliche Prozesse durchlaufen, die das Lesen von Artikeln ihrer Kollegen, das Formulieren von Hypothesen, das Einreichen von Code, das Durchführen von Analysen und das Veröffentlichen von Ergebnissen umfassen. Entscheidend ist, dass es kein zentrales System zur Koordination ihrer Aktivitäten gibt – die Agenten sind frei, ihre eigenen Aktionen zu wählen und ihre eigenen Narrative innerhalb der Station zu entwickeln. Experimente zeigen, dass KI-Agenten in der Station auf einer Vielzahl von Benchmarks, von Mathematik über Computerbiologie bis hin zu maschinellem Lernen, neue state-of-the-art Leistungen erzielen und dabei insbesondere AlphaEvolve im Bereich der Kreispackung übertreffen. Es entsteht ein reiches Geflecht von Narrativen, während die Agenten unabhängige Forschung betreiben, mit Kollegen interagieren und auf einer kumulativen Geschichte aufbauen. Aus diesen emergenten Narrativen entstehen neuartige Methoden auf organische Weise, wie beispielsweise ein neuer dichteadaptiver Algorithmus zur scRNA-seq-Batch-Integration. Die Station markiert einen ersten Schritt hin zu autonomer wissenschaftlicher Entdeckung, die durch emergentes Verhalten in einer Open-World-Umgebung angetrieben wird, und repräsentiert ein neues Paradigma, das über rigide Optimierung hinausgeht.
Wir stellen PhysWorld vor, einen Rahmen, der Roboterlernen durch Videogenerierung mittels physikalischer Weltmodellierung ermöglicht. Aktuelle Videogenerierungsmodelle können fotorealistische visuelle Demonstrationen aus Sprachbefehlen und Bildern synthetisieren und bieten somit eine leistungsstarke, aber bisher wenig genutzte Trainingssignalquelle für die Robotik. Die direkte Übertragung von Pixelbewegungen aus generierten Videos auf Roboter vernachlässigt jedoch die Physik, was häufig zu ungenauen Manipulationen führt. PhysWorld adressiert diese Einschränkung durch die Kopplung von Videogenerierung mit physikalischer Weltrekonstruktion. Ausgehend von einem einzelnen Bild und einem Aufgabenbefehl generiert unsere Methode aufgabenkonditionierte Videos und rekonstruiert die zugrundeliegende physikalische Welt aus den Videos. Die generierten Videobewegungen werden durch objekzentriertes residuales bestärkendes Lernen mit dem physikalischen Weltmodell in physikalisch korrekte Aktionen überführt. Diese Synergie wandelt implizite visuelle Anleitungen in physikalisch ausführbare Roboterbahnen um, macht die Erfassung realer Roboterdaten überflüssig und ermöglicht null-shot-verallgemeinerbare robotische Manipulation. Experimente zu verschiedenen realen Aufgaben zeigen, dass PhysWorld die Manipulationsgenauigkeit im Vergleich zu früheren Ansätzen erheblich verbessert. Weitere Einzelheiten finden Sie unter https://pointscoder.github.io/PhysWorld_Web/{die Projektwebseite}.
Text-to-Image-Modelle haben sich rasant von einfachen kreativen Werkzeugen zu professionellen Systemen entwickelt und dabei ein bisher unerreichtes Niveau an Bildqualität und Realismus erreicht. Dennoch sind die meisten Modelle darauf trainiert, kurze Prompts in detaillierte Bilder abzubilden, was eine Lücke zwischen spärlicher Texteingabe und reichhaltiger visueller Ausgabe schafft. Diese Diskrepanz verringert die Steuerbarkeit, da Modelle fehlende Details oft willkürlich ergänzen, was zu einer Verzerrung hin zu durchschnittlichen Nutzerpräferenzen führt und die Präzision für den professionellen Einsatz einschränkt. Wir begegnen dieser Einschränkung, indem wir das erste Open-Source-Text-to-Image-Modell mit langen, strukturierten Bildbeschreibungen trainieren, wobei jede Trainingsstichprobe mit demselben Satz feinkörniger Attribute annotiert ist. Dieser Entwurf maximiert die Ausdrucksabdeckung und ermöglicht eine entflochtene Steuerung visueller Faktoren. Um lange Beschreibungen effizient zu verarbeiten, schlagen wir DimFusion vor, einen Fusionsmechanismus, der Zwischentoken eines schlanken LLM integriert, ohne die Tokenlänge zu erhöhen. Wir führen zudem das Evaluierungsprotokoll „Text-as-a-Bottleneck Reconstruction“ (TaBR) ein. Indem bewertet wird, wie gut reale Bilder durch einen Beschreibungs- und Generierungszyklus rekonstruiert werden können, misst TaBR Steuerbarkeit und Ausdrucksstärke direkt, selbst für sehr lange Beschreibungen, bei denen bestehende Evaluierungsmethoden versagen. Abschließend demonstrieren wir unsere Beiträge durch das Training des großskaligen Modells FIBO, das unter Open-Source-Modellen state-of-the-art Prompt-Alignment erreicht. Die Modellgewichte sind öffentlich verfügbar unter https://huggingface.co/briaai/FIBO.
Sparse Mixture-of-Experts (MoE) haben sich in jüngsten großen Sprachmodellen weitgehend durchgesetzt, da sie die Modellkapazität effizient erweitern können, ohne die Inferenzkosten zu erhöhen. Allerdings zeigen Evaluationen auf einer Vielzahl von Downstream-Aufgaben eine konsistente Suboptimalität der Router in bestehenden MoE-LLMs auf, was zu einer erheblichen Leistungslücke (z.B. 10-20 % in der Genauigkeit) gegenüber dem optimalen Routing führt. In diesem Artikel zeigen wir, dass eine Abstimmung der Mannigfaltigkeit der Routing-Gewichte mit der der Aufgaben-Einbettung diese Lücke wirksam verringern und die Generalisierungsleistung von MoE-LLMs verbessern kann. Unsere Methode, "Routing Manifold Alignment (RoMA)", führt einen zusätzlichen Mannigfaltigkeits-Regularisierungsterm in das Post-Training-Ziel ein und erfordert nur ein leichtgewichtiges Fine-Tuning der Router (bei gefrorenen anderen Parametern). Konkret ermutigt die Regularisierung die Routing-Gewichte jeder Stichprobe, sich denen ihrer erfolgreichen Nachbarn (deren Routing-Gewichte zu korrekten Antworten führen) in einem Aufgaben-Einbettungsraum anzunähern. Folglich werden Stichproben mit ähnlichen Aufgaben ähnliche Expertenauswahlen über die Schichten hinweg teilen. Der Aufbau solcher Bindungen zwischen Aufgaben und Experten über verschiedene Stichproben hinweg ist entscheidend für eine bessere Generalisierung. Darüber hinaus demonstriert RoMA den Vorteil einer Vereinheitlichung des Aufgabenverständnisses (durch Einbettungsmodelle) mit der Lösungsgenerierung (durch MoE-LLMs). In Experimenten fine-tunen wir die Router in OLMoE, DeepSeekMoE und Qwen3-MoE mit RoMA. Evaluationen auf diversen Benchmarks und umfangreiche Vergleiche mit Baseline-Methoden zeigen die erheblichen Verbesserungen, die RoMA bringt.
Als zentrale Medien für menschliche Interaktion und Informationsaustausch stellen soziale Netzwerkdienste (SNS) einzigartige Herausforderungen für große Sprachmodelle (LLMs) dar: heterogene Workloads, sich schnell verändernde Normen und Slang sowie mehrsprachige, kulturell diverse Korpora, die starke Distributionsverschiebungen verursachen. Überwachtes Feintuning (SFT) kann Modelle spezialisieren, löst jedoch häufig einen „Wippeffekt“ zwischen Verbesserungen innerhalb der Trainingsverteilung und Robustheit außerhalb dieser aus, insbesondere bei kleineren Modellen. Um diese Herausforderungen zu bewältigen, stellen wir RedOne 2.0 vor, ein auf SNS ausgerichtetes LLM, das mit einem progressiven, RL-priorisierten Nachtrainingsparadigma für schnelle und stabile Anpassung trainiert wurde. Die Pipeline besteht aus drei Stufen: (1) Exploratives Lernen an kuratierten SNS-Korpora, um eine anfängliche Ausrichtung zu etablieren und systematische Schwächen zu identifizieren; (2) Gezieltes Feintuning, das SFT selektiv auf die diagnostizierten Lücken anwendet, während ein geringer Anteil allgemeiner Daten beigemischt wird, um Vergessen entgegenzuwirken; und (3) Verfeinerndes Lernen, das RL erneut mit SNS-zentrierten Signalen anwendet, um Verbesserungen zu konsolidieren und Zielkonflikte zwischen Aufgaben auszugleichen. In verschiedenen Aufgaben über drei Kategorien hinweg erzielt unser Modell im 4B-Maßstab durchschnittliche Verbesserungen von etwa 2,41 Punkten gegenüber dem suboptimalen 7B-Baseline-Modell. Zusätzlich erreicht RedOne 2.0 einen durchschnittlichen Leistungszuwachs von etwa 8,74 Punkten gegenüber dem Basismodell mit weniger als der Hälfte der Daten, die die SFT-zentrierte Methode RedOne benötigt, was eine überlegene Dateneffizienz und Stabilität bei kompakten Größen belegt. Insgesamt etabliert RedOne 2.0 eine wettbewerbsfähige, kosteneffektive Baseline für domänenspezifische LLMs im SNS-Szenario und erweitert die Fähigkeiten, ohne Robustheit zu opfern.
Die Lösung komplexer Aufgaben erfordert in der Regel, dass große Sprachmodelle (LLMs) lange, mehrstufige Denkketten generieren. Frühere Arbeiten haben gezeigt, dass die Überprüfung der Korrektheit einzelner Denkschritte die Leistung und Effizienz von LLMs bei solchen Aufgaben weiter verbessern und die Interpretierbarkeit der Lösungen erhöhen kann. Bestehende Verifikationsansätze wie Process Reward Models (PRMs) sind jedoch entweder rechenintensiv, auf bestimmte Domänen beschränkt oder erfordern umfangreiche menschliche oder modellgenerierte Annotationen. Daher schlagen wir eine leichtgewichtige Alternative zur schrittweisen Überprüfung von Reasoning-Ketten vor, die auf datengestützten Unsicherheitswerten basiert. Wir trainieren transformerbasierte Unsicherheitsquantifizierungs-Module (UHeads), die die internen Zustände eines eingefrorenen LLMs nutzen, um dessen Unsicherheit während der Generierung von Denkschritten abzuschätzen. Der Ansatz ist vollautomatisch: Ziel-Labels werden entweder von einem anderen, größeren LLM (z.B. DeepSeek R1) oder auf selbstüberwachte Weise vom ursprünglichen Modell selbst generiert. UHeads sind sowohl effektiv als auch leichtgewichtig und enthalten weniger als 10 Millionen Parameter. In mehreren Domänen, darunter Mathematik, Planung und allgemeine Wissensfragen, erreichen sie eine gleichwertige oder sogar bessere Leistung als PRMs, die bis zu 810-mal größer sind. Unsere Ergebnisse deuten darauf hin, dass die internen Zustände von LLMs deren Unsicherheit kodieren und als zuverlässige Signale für die Reasoning-Verifikation dienen können, was eine vielversprechende Richtung für skalierbare und generalisierbare introspektive LLMs eröffnet.
Jüngste Fortschritte bei tiefenrekurrenten Sprachmodellen zeigen, dass Rekurrenz den Trainingsrechenaufwand und die Parameteranzahl vom Testzeit-Rechenaufwand entkoppeln kann. In dieser Arbeit untersuchen wir, wie sich bestehende vortrainierte nicht-rekurrente Sprachmodelle in tiefenrekurrente Modelle umwandeln lassen. Wir stellen fest, dass der Einsatz eines Curriculums mit zunehmender Rekurrenz zur Steigerung der effektiven Modelltiefe im Trainingsverlauf die Leistung erhält und gleichzeitig die gesamten Rechenkosten senkt. In unseren Experimenten auf mathematischem Gebiet beobachten wir, dass die Umwandlung vortrainierter Modelle in rekurrente Modelle bei gegebenem Rechenbudget zu besseren Ergebnissen führt als ein einfaches Nachtrainieren des ursprünglichen nicht-rekurrenten Sprachmodells.
Das Soft-Thinking-Paradigma für das Reasoning großer Sprachmodelle (LLM) kann in einigen Szenarien das konventionelle diskret-tokenbasierte Chain-of-Thought (CoT)-Reasoning übertreffen, was seinen Forschungs- und Anwendungswert unterstreicht. Allerdings lässt sich das diskret-tokenbasierte CoT-Reasoning durch Policy-Optimierungsalgorithmen wie Group Relative Policy Optimization (GRPO) verstärken, während die Erweiterung des Soft-Thinking-Ansatzes mittels Reinforcement Learning (RL) nach wie vor eine Herausforderung darstellt. Diese Schwierigkeit resultiert aus der Komplexität, Stochastizität in Soft-Thinking-Tokens einzubringen und entsprechende Soft-Thinking-Policies zu aktualisieren. Infolgedessen schneiden frühere Versuche, Soft-Thinking mit GRPO zu kombinieren, typischerweise schlechter ab als ihre diskret-tokenbasierten GRPO-Pendants. Um das volle Potenzial von Soft-Thinking auszuschöpfen, stellt dieser Beitrag einen neuartigen Policy-Optimierungsalgorithmus namens SofT-GRPO vor, um LLMs unter dem Soft-Thinking-Reasoning-Paradigma zu verstärken. SofT-GRPO injiziert Gumbel-Rauschen in Logits, nutzt die Gumbel-Softmax-Technik, um Soft-Thinking-Tokens außerhalb des vortrainierten Embedding-Raums zu vermeiden, und verwendet den Reparameterisierungs-Trick im Policy Gradient. Wir führen Experimente mit Basis-LLMs von 1,5 bis 7 Milliarden Parametern durch. Die Ergebnisse zeigen, dass SofT-GRPO es Soft-Thinking-LLMs ermöglicht, diskret-tokenbasiertes GRPO bei Pass@1 geringfügig (+0,13 % im Durchschnitt) zu übertreffen, während bei Pass@32 ein deutlicher Anstieg (+2,19 % im Durchschnitt) zu verzeichnen ist. Codes und Gewichte sind verfügbar unter https://github.com/zz1358m/SofT-GRPO-master.
Das Aufkommen multimodaler großer Sprachmodelle (MLLMs) hat die KI-Fähigkeiten auf visuelle Modalitäten ausgeweitet, doch bestehende Evaluierungsbenchmarks beschränken sich weiterhin auf das Verständnis einzelner Videos und übersehen dabei den kritischen Bedarf an Multi-Video-Verständnis in realen Szenarien (z.B. Sportanalysen und autonomes Fahren). Um diese bedeutende Lücke zu schließen, stellen wir MVU-Eval vor, die erste umfassende Benchmark zur Bewertung des Multi-Video-Verständnisses für MLLMs. Konkret bewertet unser MVU-Eval hauptsächlich acht Kernkompetenzen durch 1.824 sorgfältig zusammengestellte Frage-Antwort-Paare, die 4.959 Videos aus verschiedenen Domänen umfassen und sowohl grundlegende Wahrnehmungsaufgaben als auch höhere Reasoning-Aufgaben abdecken. Diese Fähigkeiten sind streng auf reale Anwendungen wie Multi-Sensor-Synthese in autonomen Systemen und perspektivenübergreifende Sportanalysen abgestimmt. Durch umfangreiche Evaluierung modernster Open-Source- und Closed-Source-Modelle zeigen wir erhebliche Leistungsunterschiede und Grenzen in der Fähigkeit aktueller MLLMs auf, Verständnis über mehrere Videos hinweg zu erbringen. Die Benchmark wird öffentlich zugänglich gemacht, um zukünftige Forschung zu fördern.
Wir stellen Reinforcement Learning (RL) mit adaptiven verifizierbaren Umgebungen (RLVE) vor, einen Ansatz, der verifizierbare Umgebungen nutzt, um Probleme prozedural zu generieren und algorithmisch überprüfbare Belohnungen zu liefern, um RL für Sprachmodelle (LMs) zu skalieren. RLVE ermöglicht es jeder verifizierbaren Umgebung, ihre Verteilung der Problem-Schwierigkeitsgrade dynamisch an die Fähigkeiten des Policy-Modells anzupassen, während das Training fortschreitet. Im Gegensatz dazu führen statische Datenverteilungen oft zu verschwindenden Lernsignalen, wenn Probleme für die Policy entweder zu einfach oder zu schwierig sind. Zur Implementierung von RLVE entwickeln wir RLVE-Gym, eine umfangreiche Sammlung von 400 verifizierbaren Umgebungen, die sorgfältig durch manuelles Environment-Engineering erstellt wurden. Mit RLVE-Gym zeigen wir, dass Environment-Skalierung, d.h. die Erweiterung der Sammlung von Trainingsumgebungen, die generalisierbaren Reasoning-Fähigkeiten konsequent verbessert. RLVE mit gemeinsamem Training über alle 400 Umgebungen in RLVE-Gym erzielt eine absolute durchschnittliche Verbesserung von 3,37 % über sechs Reasoning-Benchmarks hinweg, ausgehend von einem der stärksten 1,5B Reasoning-LMs. Im Vergleich dazu erzielt die Fortsetzung des ursprünglichen RL-Trainings dieses LMs nur einen durchschnittlichen absoluten Zuwachs von 0,49 %, obwohl mehr als die dreifache Rechenleistung verwendet wird. Wir veröffentlichen unseren Code öffentlich.
Autonome Agenten, die von Large Language Models (LLMs) angetrieben werden, haben das Schlussfolgern und Problemlösen revolutioniert, bleiben jedoch nach dem Training statisch und können sich nicht wie intelligente Wesen durch Erfahrung während des Einsatzes weiterentwickeln. Wir stellen Forward Learning with EXperience (FLEX) vor, ein gradientenfreies Lernparadigma, das LLM-Agenten ermöglicht, sich kontinuierlich durch gesammelte Erfahrung weiterzuentwickeln. Konkret fördert FLEX skalierbare und vererbbare Evolution, indem es durch kontinuierliche Reflexion über Erfolge und Misserfolge während der Interaktion mit der Umwelt eine strukturierte Erfahrungsbibliothek aufbaut. FLEX erzielt erhebliche Verbesserungen bei mathematischem Reasoning, chemischer Retrosynthese und Protein-Fitness-Vorhersage (bis zu 23 % bei AIME25, 10 % bei USPTO50k und 14 % bei ProteinGym). Wir identifizieren weiterhin ein klares Skalengesetz des Erfahrungswachstums und das Phänomen der Erfahrungsvererbung zwischen Agenten – ein Schritt hin zu skalierbarer und vererbbarer kontinuierlicher Agentenentwicklung. Projektseite: https://flex-gensi-thuair.github.io.
Wir stellen llama-embed-nemotron-8b vor, ein Open-Weights-Textembedding-Modell, das ab dem 21. Oktober 2025 state-of-the-art Leistung auf dem Multilingual Massive Text Embedding Benchmark (MMTEB) Leaderboard erzielt. Während aktuelle Modelle eine starke Leistung zeigen, sind deren Trainingsdaten oder Methoden oft nicht vollständig offengelegt. Unser Ziel ist es, dies zu adressieren, indem wir ein vollständig quelloffenes Modell entwickeln, dessen Gewichte sowie detaillierte Ablationsstudien öffentlich zugänglich machen und die kuratierten Trainingsdatensätze bereitzustellen planen. Unser Modell zeigt eine überlegene Leistung in allen wichtigen Embedding-Aufgaben – einschließlich Retrieval, Klassifikation und semantischer Textähnlichkeit (STS) – und überzeugt insbesondere in anspruchsvollen multilingualen Szenarien, wie etwa ressourcenarmen Sprachen und cross-lingualen Setup. Diese state-of-the-art Leistung wird durch eine neuartige Datenmischung von 16,1 Millionen Query-Dokument-Paaren erreicht, aufgeteilt in 7,7 Millionen Beispiele aus öffentlichen Datensätzen und 8,4 Millionen synthetisch generierte Beispiele von verschiedenen Open-Weight-LLMs. Ein wesentlicher Beitrag unserer Arbeit ist eine detaillierte Ablationsstudie, die zentrale Designentscheidungen analysiert, einschließlich eines Vergleichs von Kontrastverlust-Implementierungen, einer Bewertung von Strategien zur synthetischen Datengenerierung (SDG) und der Auswirkungen von Modellzusammenführung. Bei llama-embed-nemotron-8b handelt es sich um ein instruktionssensitives Modell, das benutzerdefinierte Anweisungen zur Leistungssteigerung für spezifische Anwendungsfälle unterstützt. Diese Kombination aus erstklassiger Leistung, breiter Anwendbarkeit und benutzerorientierter Flexibilität befähigt es, als universelle Textembedding-Lösung zu dienen.
Die Erzeugung editierbarer 3D-CAD-Modelle aus natürlicher Sprache bleibt eine Herausforderung, da bestehende Text-zu-CAD-Systeme entweder Netze erzeugen oder auf knappe Entwurfsverlaufsdaten angewiesen sind. Wir stellen NURBGen vor, das erste Framework zur direkten Erzeugung hochpräziser 3D-CAD-Modelle aus Text unter Verwendung von Non-Uniform Rational B-Splines (NURBS). Dazu fine-tunen wir ein großes Sprachmodell (LLM), um Freitexte in JSON-Repräsentationen zu übersetzen, die NURBS-Oberflächenparameter enthalten (d.h. Kontrollpunkte, Knotenvektoren, Grade und rationale Gewichte), die mit Python direkt in das BRep-Format konvertiert werden können. Wir schlagen weiterhin eine hybride Repräsentation vor, die unbeschnittene NURBS mit analytischen Primitiven kombiniert, um beschnittene Flächen und degenerierte Bereiche robuster zu behandeln und gleichzeitig die Token-Komplexität zu reduzieren. Zusätzlich führen wir partABC ein, einen kuratierten Teil des ABC-Datensatzes, der aus einzelnen CAD-Komponenten besteht und mit detaillierten Beschriftungen durch eine automatisierte Annotationspipeline versehen ist. NURBGen zeigt eine hohe Leistungsfähigkeit bei diversen Eingabeaufforderungen und übertrifft bisherige Methoden in geometrischer Präzision und Maßhaltigkeit, was durch Expertenbewertungen bestätigt wird. Code und Datensatz werden öffentlich zugänglich gemacht.
Reinforcement Learning (RL) wird oft zugeschrieben, die Fähigkeiten von Sprachmodellen zum Schlussfolgern und zur Generalisierung zu verbessern, auf Kosten einer Verschlechterung des memorierten Wissens. Wir stellen diese Darstellung infrage, indem wir beobachten, dass RL-optimierte Modelle durchweg ihre Basis- und supervised-fine-tuning (SFT)-Pendants bei reinen Wissensabrufaufgaben übertreffen, insbesondere bei solchen, die das Durchqueren von hierarchischem, strukturiertem Wissen erfordern (z.B. medizinische Codes). Wir stellen die Hypothese auf, dass diese Gewinne nicht auf neu erworbenen Daten beruhen, sondern auf verbesserten prozeduralen Fähigkeiten, bestehende Wissenshierarchien innerhalb der Modellparameter zu navigieren und darin zu suchen. Um diese Hypothese zu stützen, zeigen wir, dass strukturiertes Prompting, das SFT-Modelle explizit durch hierarchisches Durchqueren führt, den größten Teil der Leistungslücke wiederherstellt (Reduktion von 24 Prozentpunkten auf 7 Prozentpunkte auf MedConceptsQA für DeepSeek-V3/R1). Wir stellen weiter fest, dass, obwohl Prompting die Endantwort-Genauigkeit verbessert, RL-optimierte Modelle eine überlegene Fähigkeit behalten, korrekte prozedurale Pfade bei Tiefenabrufaufgaben abzurufen. Schließlich zeigt unsere schichtenweise Analyse interner Aktivierungen, dass während faktische Repräsentationen (z.B. Aktivierungen für die Aussage "Code 57.95 bezieht sich auf Harnwegsinfektion") eine hohe Kosinusähnlichkeit zwischen SFT- und RL-Modellen aufweisen, sich Abfragerepräsentationen (z.B. "Was ist Code 57.95") merklich unterscheiden. Dies deutet darauf hin, dass RL primär verändert, wie Modelle Wissen durchqueren, und nicht die Wissensrepräsentation selbst.
Obwohl Reinforcement Learning for Verifiable Rewards (RLVR) ein leistungsfähiges Verfahren zum Training großer Reasoning-Modelle ist, birgt seine Trainingsdynamik eine kritische Herausforderung: RL-Overfitting, bei dem Modelle Trainingsbelohnungen maximieren, aber ihre Generalisierungsfähigkeit einbüßen. Unsere Analyse zeigt, dass dies durch eine Über-Spezialisierung der Policy und ein katastrophales Vergessen der während des Trainings generierten vielfältigen Lösungen verursacht wird. Standard-Optimierungsverfahren verwerfen diese wertvolle Policy-Vielfalt zwischen den Trainingsschritten. Um dieses Problem zu adressieren, führen wir RLoop ein, einen sich selbst verbessernden Rahmen, der auf iterativer Policy-Initialisierung basiert. RLoop verwandelt den Standard-Trainingsprozess in einen positiven Kreislauf: Zuerst nutzt es RL, um den Lösungsraum ausgehend von einer gegebenen Policy zu erkunden, filtert dann die erfolgreichen Trajektorien heraus, um einen Expertendatensatz zu erstellen. Dieser Datensatz wird mittels Rejection-sampling Fine-Tuning (RFT) genutzt, um die Ausgangs-Policy zu verfeinern und so einen überlegenen Startpunkt für die nächste Iteration zu schaffen. Diese Schleife aus Exploration und Exploitation durch iterative Re-Initialisierung wandelt effektiv flüchtige Policy-Variationen in robuste Leistungssteigerungen um. Unsere Experimente zeigen, dass RLoop das Vergessen mildert und die Generalisierung erheblich verbessert, indem es die durchschnittliche Genauigkeit um 9 % und pass@32 um über 15 % im Vergleich zu Standard-RL steigert.
Text-to-Image-Diffusionsmodelle liefern hochwertige Bilder, doch die Ausrichtung an menschlichen Präferenzen bleibt eine Herausforderung. Wir untersuchen diffusionsbasierte Direct Preference Optimization (DPO) für diese Modelle erneut und identifizieren eine kritische Pathologie: Eine Vergrößerung der Präferenzspanne verbessert nicht zwangsläufig die Generierungsqualität. Insbesondere kann das standardmäßige Diffusion-DPO-Ziel den Rekonstruktionsfehler sowohl der Gewinner- als auch der Verlierer-Zweige erhöhen. Folglich kann die Verschlechterung der weniger präferierten Ausgaben so stark werden, dass sogar der präferierte Zweig negativ beeinflusst wird, während die Spanne wächst. Um dies zu adressieren, führen wir Diffusion-SDPO ein, eine geschützte Aktualisierungsregel, die den Gewinner erhält, indem der Gradient des Verlierers adaptiv an dessen Ausrichtung zum Gewinner-Gradienten skaliert wird. Eine Analyse erster Ordnung ergibt einen geschlossenen Skalierungskoeffizienten, der garantiert, dass der Fehler der präferierten Ausgabe in jedem Optimierungsschritt nicht zunimmt. Unser Ansatz ist einfach, modellagnostisch, breit kompatibel mit bestehenden DPO-artigen Alignment-Frameworks und verursacht nur marginalen Rechenmehraufwand. In standardisierten Text-to-Image-Benchmarks erzielt Diffusion-SDPO durchgängig Verbesserungen gegenüber Präferenzlern-Baselines bei automatisierten Metriken für Präferenz, Ästhetik und Prompt-Ausrichtung. Der Code ist öffentlich verfügbar unter https://github.com/AIDC-AI/Diffusion-SDPO.
Der rasche Fortschritt bei großen Sprachmodellen (LLMs) hat zahlreiche Anwendungen vorangetrieben, dennoch bleibt eine effiziente Single-Batch-Inferenz für On-Device-Intelligenz entscheidend. Während FPGAs fein granulare Datenkontrolle und hohe Energieeffizienz bieten, haben aktuelle GPU-Optimierungen deren Vorteil verringert, insbesondere bei rechenarithmetik-basierten Berechnungen. Um dies zu überwinden, nutzen wir den reichlich vorhandenen On-Chip-Speicher von FPGAs, um die LLM-Inferenz durch Tabellennachschläge von einer rechenarithmetik- zu einer speicherbasierten Berechnung zu verlagern. Wir präsentieren LUT-LLM, den ersten FPGA-Beschleuniger, der die Inferenz von LLMs mit über 1 Milliarde Parametern durch vektorquantisierte Speicheroperationen ermöglicht. Unsere Analyse identifiziert die Co-Quantisierung von Aktivierungen und Gewichten als das effektivste Schema, unterstützt durch (1) bandbreitenbewusste parallele Zentroidensuche, (2) effiziente 2D-Tabellennachschläge und (3) ein räumlich-zeitliches Hybriddesign, das die Datencache-Auslastung minimiert. Implementiert auf einem AMD V80 FPGA für ein angepasstes Qwen 3 1.7B Modell, erreicht LUT-LLM eine 1,66-fach niedrigere Latenz als eine AMD MI210 und eine 1,72-fach höhere Energieeffizienz als eine NVIDIA A100, skaliert auf 32B-Modelle mit einem 2,16-fachen Effizienzgewinn gegenüber der A100.
Jüngste Fortschritte im multimodalen Reasoning wurden maßgeblich durch nicht offengelegte Datensätze und proprietäre Datensynthese-Rezepte erzielt, was Fragen dazu aufwirft, wie groß angelegte, visuell-zentrierte Reasoning-Datensätze systematisch aufgebaut werden können, insbesondere für Aufgaben, die über visuelle Mathematik hinausgehen. In dieser Arbeit stellen wir ein neues Framework zur Generierung von Reasoning-Daten vor, das verschiedene Fähigkeiten und Komplexitätsgrade mit über 1 Million hochwertiger synthetischer, visuell-zentrierter Fragen abdeckt. Der Datensatz umfasst auch Präferenzdaten und Instruktions-Prompts, die sowohl Offline- als auch Online-Reinforcement-Learning (RL) unterstützen. Unser Syntheseframework verläuft in zwei Phasen: (1) Skalierung und (2) Komplexität. Reasoning-Pfade werden anschließend durch einen zweistufigen Prozess synthetisiert, der VLMs (Vision-Language Models) und Reasoning-LLMs nutzt. Dies erzeugt CoT-Pfade (Chain-of-Thought) für VLMs, die die Vielfalt und unterschiedlichen kognitiven Verhaltensweisen fortschrittlicher Reasoning-Modelle erfassen. Bemerkenswerterweise zeigen wir, dass das Fine-Tuning von Qwen2.5-VL-7B auf unseren Daten alle Open-Data-Baselines in allen evaluierten visuell-zentrierten Benchmarks übertrifft und sogar starke Closed-Data-Modelle wie MiMo-VL-7B-RL auf V* Bench, CV-Bench und MMStar-V übertrumpft. Vielleicht am überraschendsten ist, dass unsere Daten trotz ihres rein visuell-zentrierten Charakters positiv auf rein textbasiertes Reasoning (MMLU-Pro) und Audio-Reasoning (MMAU) übertragbar sind, was ihre Effektivität demonstriert. Ebenso beobachten wir trotz des Fehlens von Videos oder verkörperten (embodied) visuellen Daten bemerkenswerte Verbesserungen bei der Auswertung auf einem Benchmark für verkörperte Frage-Antwort-Systeme mit einzelnen Belegen (NiEH). Schließlich nutzen wir unsere Daten, um die gesamte VLM-Nachtrainings-Pipeline zu analysieren. Unsere empirische Analyse hebt hervor, dass (i) SFT (Supervised Fine-Tuning) auf hochwertigen Daten mit nicht-linearen Reasoning-Pfaden entscheidend für effektives Online-RL ist, (ii) gestuftes Offline-RL die Leistung von Online-RL erreicht, dabei aber den Rechenaufwand reduziert, und (iii) sorgfältiges SFT auf hochwertigen Daten die domänenübergreifende, cross-modale Transferleistung erheblich verbessern kann.
KI-Agenten, die in der Lage sind, Benutzeroberflächen zu steuern, haben das Potenzial, die menschliche Interaktion mit digitalen Geräten zu revolutionieren. Um diesen Wandel zu beschleunigen, sind zwei grundlegende Bausteine unerlässlich: hochwertige Datensätze, die es Agenten ermöglichen, komplexe und für Menschen relevante Ziele zu erreichen, sowie robuste Evaluierungsmethoden, die Forschern und Praktikern eine rasche Verbesserung der Agentenleistung erlauben. In diesem Artikel stellen wir DigiData vor, einen groß angelegten, hochwertigen, diversen und multimodalen Datensatz, der für das Training mobiler Steuerungsagenten konzipiert ist. Im Gegensatz zu bestehenden Datensätzen, deren Ziele aus unstrukturierten Interaktionen abgeleitet werden, wird DigiData durch eine umfassende Erkundung von App-Funktionen sorgfältig konstruiert, was zu einer größeren Vielfalt und höherer Zielkomplexität führt. Zusätzlich präsentieren wir DigiData-Bench, einen Benchmark zur Bewertung mobiler Steuerungsagenten anhand realer komplexer Aufgaben. Wir zeigen, dass die häufig verwendete Schrittgenauigkeitsmetrik unzureichend ist, um mobile Steuerungsagenten zuverlässig zu bewerten, und schlagen als rigorose Alternativen dynamische Evaluierungsprotokolle und KI-gestützte Bewertungen vor. Unsere Beiträge zielen darauf ab, die Entwicklung mobiler Steuerungsagenten erheblich voranzutreiben und den Weg für intuitivere und effektivere Mensch-Gerät-Interaktionen zu ebnen.
Aufgrund ihrer Fähigkeit, natürliche Sprachbefehle zu befolgen, gewinnen Vision-Language-Action (VLA)-Modelle im Bereich der embodied AI zunehmend an Bedeutung, nachdem ihre Vorläufer – LLMs und VLMs – bereits weitreichende Erfolge erzielt haben. In diesem Beitrag diskutieren wir zehn wesentliche Meilensteine in der laufenden Entwicklung von VLA-Modellen: Multimodalität, logisches Schließen, Daten, Evaluation, generalisierte Handlungsausführung über verschiedene Roboter hinweg, Effizienz, Ganzkörperkoordination, Sicherheit, Agenten und Koordination mit Menschen. Darüber hinaus erörtern wir die aufkommenden Trends der Nutzung von räumlichem Verständnis, der Modellierung von Weltdynamiken, des Post-Trainings und der Datensynthese – allesamt mit dem Ziel, diese Meilensteine zu erreichen. Durch diese Diskussionen hoffen wir, die Aufmerksamkeit auf Forschungsrichtungen zu lenken, die die Entwicklung von VLA-Modellen hin zu einer breiteren Akzeptanz beschleunigen könnten.
Musikinduziertes Malen ist eine einzigartige künstlerische Praxis, bei der visuelle Kunstwerke unter dem Einfluss von Musik geschaffen werden. Die Bewertung, ob ein Gemälde die inspirierende Musik treu widerspiegelt, stellt eine anspruchsvolle perzeptive Beurteilungsaufgabe dar. Bestehende Methoden stützen sich primär auf Emotionserkennungsmodelle, um die Ähnlichkeit zwischen Musik und Gemälde zu bewerten, doch solche Modelle führen erhebliches Rauschen ein und übersehen breitere perzeptive Hinweise jenseits der Emotion. Um diese Einschränkungen zu adressieren, schlagen wir einen neuartigen Rahmen zur Bewertung musikinduzierter Malerei vor, der direkt die perzeptive Kohärenz zwischen Musik und visueller Kunst modelliert. Wir führen MPD ein, den ersten großangelegten Datensatz von Musik-Gemälde-Paaren, der von Domain-Experten auf Basis perzeptiver Kohärenz annotiert wurde. Um mehrdeutige Fälle besser handhaben zu können, erfassen wir zusätzlich paarweise Präferenzannotationen. Aufbauend auf diesem Datensatz präsentieren wir MPJudge, ein Modell, das Musikmerkmale über einen modulationsbasierten Fusionsmechanismus in einen visuellen Encoder integriert. Um effektiv aus mehrdeutigen Fällen zu lernen, setzen wir Direct Preference Optimization für das Training ein. Umfangreiche Experimente belegen, dass unsere Methode bestehende Ansätze übertrifft. Qualitative Ergebnisse zeigen weiterhin, dass unser Modell musikrelevante Regionen in Gemälden genauer identifiziert.
Video Anomaly Understanding (VAU) zielt darauf ab, eine detaillierte Interpretation und semantische Erfassung anomaler Ereignisse in Videos zu liefern und adressiert damit die Einschränkungen traditioneller Methoden, die sich lediglich auf die Detektion und Lokalisierung von Anomalien konzentrieren. Bisherige Ansätze vernachlässigen jedoch oft die tieferliegenden kausalen Beziehungen und Interaktionen zwischen Objekten, die für das Verständnis anomaler Verhaltensweisen entscheidend sind. In diesem Artikel stellen wir VADER vor, ein LLM-gesteuertes Framework für Video Anomaly unDErstanding, das Relationsmerkmale von Objekten in Keyframes mit visuellen Hinweisen integriert, um das Anomalieverständnis aus Videos zu verbessern. Konkret wendet VADER zunächst einen Anomalie-Scorer an, um anomalienspezifische Scores pro Frame zu vergeben, gefolgt von einer Context-AwarE Sampling (CAES)-Strategie, um den kausalen Kontext jedes anomalen Ereignisses zu erfassen. Ein Relation Feature Extractor und ein COntrastive Relation Encoder (CORE) modellieren gemeinsam dynamische Objektinteraktionen und erzeugen kompakte Relationsrepräsentationen für nachgelagerte Reasoning-Aufgaben. Diese visuellen und relationalen Hinweise werden mit LLMs integriert, um detaillierte, kausal fundierte Beschreibungen zu generieren und robuste, anomalierelevante Frage-Antwort-Systeme zu unterstützen. Experimente auf mehreren realen VAU-Benchmarks zeigen, dass VADER in den Aufgaben Anomaliebeschreibung, -erklärung und kausales Reasoning durchweg starke Ergebnisse erzielt und damit den State-of-the-Art im Bereich der erklärbaren Videoanomalieanalyse voranbringt.
Wir stellen DIMO vor, einen generativen Ansatz, der in der Lage ist, diverse 3D-Bewegungen für beliebige Objekte aus einem einzelnen Bild zu erzeugen. Der Kern unserer Arbeit besteht darin, die reichhaltigen Priori-Informationen vortrainierter Videomodelle zu nutzen, um gemeinsame Bewegungsmuster zu extrahieren und diese in einen gemeinsamen niedrigdimensionalen latenten Raum einzubetten. Konkret generieren wir zunächst mehrere Videos desselben Objekts mit unterschiedlichen Bewegungen. Anschließend betten wir jede Bewegung in einen latenten Vektor ein und trainieren einen gemeinsamen Bewegungsdecoder, um die Verteilung von Bewegungen zu erlernen, die durch eine strukturierte und kompakte Bewegungsrepräsentation – nämlich neuronale Trajektorien von Schlüsselpunkten – dargestellt wird. Die kanonischen 3D-Gaußschen werden dann durch diese Schlüsselpunkte gesteuert und fusioniert, um die Geometrie und das Erscheinungsbild zu modellieren. Zur Inferenzzeit können wir mit dem gelernten latenten Raum sofort diverse 3D-Bewegungen in einem einzigen Vorwärtsdurchlauf abtasten und mehrere interessante Anwendungen unterstützen, darunter 3D-Bewegungsinterpolation und sprachgesteuerte Bewegungserzeugung. Unsere Projektseite ist verfügbar unter https://linzhanm.github.io/dimo.
Die Optimierung der Leistung groß angelegter Software-Repositorys erfordert Expertise in Code-Analyse und Softwareentwicklung (SWE), um die Laufzeit zu reduzieren und gleichzeitig die Programmkorrektheit zu erhalten. Die meisten Benchmarks konzentrieren sich jedoch darauf, was zu beheben ist, anstatt darauf, wie Code zu optimieren ist. Wir stellen SWE-fficiency vor, einen Benchmark zur Bewertung leistungsorientierter Optimierung auf Repository-Ebene mit realen Workloads. Unsere Testsuite umfasst 498 Aufgaben aus neun weit verbreiteten Data-Science-, Machine-Learning- und HPC-Repositorys (z.B. numpy, pandas, scipy): Ausgehend von einer vollständigen Codebasis und einer langsamen Arbeitslast muss ein Agent Code-Semantik analysieren, Engpässe und relevante Tests lokalisieren sowie einen Patch erstellen, der die Expertenbeschleunigung erreicht oder übertrifft und gleichfalls alle Unit Tests besteht. Um diese "Wie-zu-beheben"-Evaluation zu ermöglichen, extrahiert unsere automatisierte Pipeline Performance-Verbesserungen aus GitHub-Pull-Requests durch Keyword-Filterung, statische Analyse, Coverage-Tools und Ausführungsvalidierung, um sowohl Experten-Beschleunigungsbaselines zu bestätigen als auch relevante Repository-Unit-Tests zu identifizieren. Die empirische Auswertung modernster Agenten zeigt erhebliche Leistungsdefizite: Im Durchschnitt erreichen Agenten weniger als 0,15x der Expertenbeschleunigung. Sie scheitern bei der Lokalisierung von Optimierungspotenzialen, der übergreifenden Analyse von Funktionsausführungen und der Wahrung der Korrektheit in ihren Änderungsvorschlägen. Wir veröffentlichen den Benchmark und die zugehörige Datenpipeline, um Forschung zu automatisierter Performance-Optimierung und langfristiger Software-Analyse zu fördern.
Obwohl Vision-Language-Modelle (VLMs), die nachträglich mit Reinforcement Learning (RL) trainiert wurden, beeindruckende allgemeine Reasoning-Fähigkeiten zeigen, beschränkt sich ihre Evaluation oft auf sprachdominante Aufgaben (z.B. Mathematik). Dies wirft eine kritische Frage auf: Kann das nachträgliche RL-Training tatsächlich die inhärente Fähigkeitsgrenze eines Basis-VLM erweitern, insbesondere für visuell-zentrierte räumliche Aufgaben, bei denen es anfänglich versagt? Um dies zu untersuchen, stellen wir Ariadne vor, ein Framework, das synthetische Labyrinthe für mehrstufiges räumliches Reasoning nutzt, wobei die Aufgabenschwierigkeit (z.B. Pfadlänge, Abbiegungen) präzise gesteuert wird. Wir nutzen diese kontrollierbare Umgebung, um VLMs mit Reinforcement Learning mit Verifizierten Belohnungen (RLVR) in einem schwierigkeitsbasierten Curriculum zu trainieren. Überraschenderweise erreicht das VLM nach dem RLVR-Training eine Genauigkeit von über 50 % auf einem Problemset, bei dem das Basismodell 0 % erreichte, was demonstriert, dass unser Ansatz die anfängliche Fähigkeitsgrenze des Modells erweitert. Um die Praxistauglichkeit zu bewerten, evaluieren wir die Out-of-Distribution (OOD)-Generalisierung auf praktischen Benchmarks. Obwohl nur auf synthetischen Labyrinth-Beispielen trainiert, erzielt Ariadne signifikante Zero-Shot-Verbesserungen von durchschnittlich 16 % auf MapBench (z.B. Museumsnavigation) und 24 % auf ReasonMap (U-Bahn-Umstiegsaufgaben). Diese Ergebnisse bestätigen, dass unsere Methode nicht nur die fundamentalen Grenzen des Modells erweitert, sondern auch seine Generalisierung auf praktisches räumliches Reasoning verbessert. Wir räumen ein, dass unsere Studie aufgrund der Undurchsichtigkeit der Vortrainingsdaten auf die Nachtrainingsphase beschränkt ist, und hoffen, dass unsere Forschung weitere Arbeiten zu spezialisierter, fähigkeitserweiternder Alignment-Methoden anregt.
Emotionserkennung in Konversationen (ERC) ist eine entscheidende Aufgabe zum Verständnis menschlicher Emotionen und zur Ermöglichung natürlicher Mensch-Computer-Interaktion. Obwohl Large Language Models (LLMs) kürzlich großes Potenzial auf diesem Gebiet gezeigt haben, bleibt ihre Fähigkeit, die intrinsischen Verbindungen zwischen expliziten und impliziten Emotionen zu erfassen, begrenzt. Wir schlagen einen neuartigen ERC-Trainingsframework vor, PRC-Emo, der Prompt-Engineering, Demonstrations-Retrieval und Curriculum Learning integriert, mit dem Ziel zu untersuchen, ob LLMs effektiv Emotionen in Gesprächskontexten wahrnehmen können. Konkret entwerfen wir emotionssensitive Prompt-Vorlagen basierend auf expliziten und impliziten emotionalen Hinweisen, um das Modell besser beim Verständnis der psychologischen Zustände des Sprechers zu lenken. Wir konstruieren das erste dedizierte Demonstrations-Retrieval-Repository für ERC, das Trainingsbeispiele aus weit verbreiteten Datensätzen sowie hochwertige, von LLMs generierte und manuell verifizierte Dialogbeispiele enthält. Darüber hinaus führen wir eine Curriculum-Learning-Strategie in den LoRA-Feinabstimmungsprozess ein, die gewichtete emotionale Verschiebungen zwischen Äußerungen desselben Sprechers und verschiedener Sprecher integriert, um Schwierigkeitsgrade für Dialogbeispiele zuzuweisen, die dann in einer von einfach zu schwierig aufsteigenden Trainingssequenz angeordnet werden. Experimentelle Ergebnisse auf zwei Benchmark-Datensätzen – IEMOCAP und MELD – zeigen, dass unsere Methode eine neue State-of-the-Art (SOTA)-Leistung erreicht, was die Wirksamkeit und Generalisierbarkeit unseres Ansatzes zur Verbesserung LLM-basierten emotionalen Verstehens demonstriert.
Große Sprachmodelle (LLMs) haben kürzlich beeindruckende Ergebnisse in der Spracherkennung über mehrere Modalitäten hinweg erzielt, einschließlich auditiver Spracherkennung (ASR), visueller Spracherkennung (VSR) und audiovisueller Spracherkennung (AVSR). Trotz dieser Fortschritte behandeln aktuelle LLM-basierte Ansätze typischerweise jede Aufgabe unabhängig, trainieren separate Modelle, die den Rechen- und Bereitstellungsressourcenverbrauch erhöhen und dabei potenzielle übergreifende Synergien verpassen. Sie verlassen sich zudem auf eine Komprimierung mit festen Token-Raten, was die Flexibilität bei der Abwägung von Genauigkeit und Effizienz einschränkt. Diese Einschränkungen unterstreichen die Notwendigkeit eines einheitlichen Frameworks, das ASR, VSR und AVSR unterstützen und elastische Inferenz ermöglichen kann. Zu diesem Zweck präsentieren wir Omni-AVSR, ein vereinheitlichtes audiovisuelles LLM, das effizientes Training mit multipler Granularität mit parameter-effizienter Adaptierung kombiniert. Konkret adaptieren wir das Matrjoschka-Repräsentationslernparadigma, um effizient über mehrere auditive und visuelle Granularitäten hinweg zu trainieren und dessen inhärenten Trainingsressourcenverbrauch zu reduzieren. Darüber hinaus untersuchen wir drei LoRA-basierte Strategien zur Adaptierung des Backbone-LLMs, die gemeinsame und aufgabenspezifische Spezialisierung in Balance halten. Experimente auf LRS2 und LRS3 zeigen, dass Omni-AVSR eine vergleichbare oder überlegene Genauigkeit gegenüber state-of-the-art Baseline-Modellen erreicht, während ein einzelnes Modell mit erheblich geringerem Trainings- und Bereitstellungsressourcenverbrauch trainiert wird. Das Modell bleibt zudem robust unter akustischem Rauschen, und wir analysieren sein Skalierungsverhalten mit zunehmender LLM-Größe, was Einblicke in den Kompromiss zwischen Leistung und Effizienz bietet.