ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Mutarjim: Fortschritt in der bidirektionalen Arabisch-Englisch-Übersetzung mit einem kleinen Sprachmodell
Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model

May 23
ByKhalil Hennara, Muhammad Hreden, Mohamed Motaism Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
220
7

Wir stellen Mutarjim vor, ein kompaktes, aber leistungsstarkes Sprachmodell für die bidirektionale arabisch-englische Übersetzung. Während großskalige LLMs beeindruckende Fortschritte bei Aufgaben der natürlichen Sprachverarbeitung, einschließlich maschineller Übersetzung, gezeigt haben, haben auch kleinere Modelle Potenzial. Basierend auf dieser Erkenntnis entwickelten wir Mutarjim auf der Grundlage von Kuwain-1.5B, einem Sprachmodell, das speziell für Arabisch und Englisch optimiert ist. Trotz seiner bescheidenen Größe übertrifft Mutarjim viel größere Modelle in mehreren etablierten Benchmarks, was durch einen optimierten zweiphasigen Trainingsansatz und einen sorgfältig kuratierten, hochwertigen Trainingskorpus erreicht wird. Experimentelle Ergebnisse zeigen, dass Mutarjim mit Modellen konkurriert, die bis zu 20-mal größer sind, und dabei die Rechenkosten und Trainingsanforderungen erheblich reduziert. Wir stellen außerdem Tarjama-25 vor, einen neuen Benchmark, der die Einschränkungen bestehender arabisch-englischer Benchmarking-Datensätze wie Domänenengpässe, kurze Satzlängen und eine englisch-quellenbasierte Verzerrung überwinden soll. Tarjama-25 umfasst 5.000 von Experten überprüfte Satzpaare und deckt ein breites Spektrum von Domänen ab, wodurch ein umfassenderes und ausgewogeneres Bewertungsframework geboten wird. Bemerkenswerterweise erzielt Mutarjim auf der Aufgabe Englisch-zu-Arabisch in Tarjama-25 Spitzenleistungen und übertrifft sogar deutlich größere und proprietäre Modelle wie GPT-4o mini. Wir veröffentlichen Tarjama-25 öffentlich, um zukünftige Forschung zu unterstützen und die Bewertung arabisch-englischer Übersetzungssysteme voranzutreiben.

2

Verlagerung der KI-Effizienz von der modellzentrierten zur datenzentrierten Kompression
Shifting AI Efficiency From Model-Centric to Data-Centric Compression

May 25
ByXuyang Liu, Zichen Wen, Shaobo Wang, Junjie Chen, Zhishan Tao, Yubo Wang, Xiangqi Jin, Chang Zou, Yiyu Wang, Chenfei Liao, Xu Zheng, Honggang Chen, Weijia Li, Xuming Hu, Conghui He, Linfeng Zhang
144
6

Die rasante Weiterentwicklung von großen Sprachmodellen (LLMs) und multimodalen LLMs (MLLMs) hat historisch auf einer modellzentrierten Skalierung basiert, bei der die Parameteranzahl von Millionen auf Hunderte von Milliarden erhöht wurde, um Leistungssteigerungen zu erzielen. Da wir jedoch die hardwarebedingten Grenzen der Modellgröße erreichen, hat sich der dominierende Rechenengpass grundlegend auf die quadratischen Kosten der Selbstaufmerksamkeit über lange Token-Sequenzen verlagert, die nun durch ultra-lange Textkontexte, hochauflösende Bilder und längere Videos angetrieben werden. In diesem Positionspapier argumentieren wir, dass sich der Forschungsschwerpunkt für effiziente KI von der modellzentrierten Kompression zur datenzentrierten Kompression verschiebt. Wir positionieren die Token-Kompression als neue Grenze, die die KI-Effizienz durch die Reduzierung der Token-Anzahl während des Modelltrainings oder der Inferenz verbessert. Durch eine umfassende Analyse untersuchen wir zunächst die jüngsten Entwicklungen in der KI mit langen Kontexten in verschiedenen Domänen und etablieren einen einheitlichen mathematischen Rahmen für bestehende Strategien zur Modell-Effizienz, um zu demonstrieren, warum die Token-Kompression einen entscheidenden Paradigmenwechsel bei der Bewältigung der Overhead-Kosten langer Kontexte darstellt. Anschließend überprüfen wir systematisch die Forschungslandschaft der Token-Kompression, analysieren ihre grundlegenden Vorteile und identifizieren ihre überzeugenden Vorzüge in verschiedenen Szenarien. Darüber hinaus bieten wir eine detaillierte Analyse der aktuellen Herausforderungen in der Token-Kompressionsforschung und skizzieren vielversprechende zukünftige Richtungen. Letztlich zielt unsere Arbeit darauf ab, eine neue Perspektive auf die KI-Effizienz zu bieten, bestehende Forschung zu synthetisieren und innovative Entwicklungen zu katalysieren, um die Herausforderungen zu bewältigen, die zunehmende Kontextlängen für den Fortschritt der KI-Gemeinschaft darstellen.

3

Alchemist: Öffentliche Text-zu-Bild-Daten in generatives Gold verwandeln
Alchemist: Turning Public Text-to-Image Data into Generative Gold

May 25
ByValerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin
84
4

Das Pre-Training stattet Text-zu-Bild (T2I)-Modelle mit umfangreichem Weltwissen aus, doch dies allein reicht oft nicht aus, um eine hohe ästhetische Qualität und Ausrichtung zu erreichen. Folglich ist das überwachte Feinabstimmen (Supervised Fine-Tuning, SFT) entscheidend für die weitere Verfeinerung. Seine Wirksamkeit hängt jedoch stark von der Qualität des Feinabstimmungsdatensatzes ab. Bestehende öffentliche SFT-Datensätze zielen häufig auf enge Domänen ab (z. B. Anime oder spezifische Kunststile), und die Erstellung hochwertiger, allgemeiner SFT-Datensätze bleibt eine große Herausforderung. Aktuelle Kuratierungsmethoden sind oft kostspielig und haben Schwierigkeiten, wirklich einflussreiche Beispiele zu identifizieren. Diese Herausforderung wird zusätzlich durch die Knappheit öffentlicher, allgemeiner Datensätze erschwert, da führende Modelle häufig auf große, proprietäre und schlecht dokumentierte interne Daten angewiesen sind, was den breiteren Forschungsfortschritt behindert. Dieses Papier stellt eine neuartige Methodik zur Erstellung allgemeiner SFT-Datensätze vor, indem ein vortrainiertes generatives Modell als Schätzer für hochwirksame Trainingsbeispiele genutzt wird. Wir wenden diese Methodik an, um Alchemist zu konstruieren und zu veröffentlichen, einen kompakten (3.350 Beispiele) aber äußerst effektiven SFT-Datensatz. Experimente zeigen, dass Alchemist die generative Qualität von fünf öffentlichen T2I-Modellen erheblich verbessert, während Vielfalt und Stil erhalten bleiben. Zusätzlich veröffentlichen wir die Gewichte der feinabgestimmten Modelle für die Öffentlichkeit.

4

BizFinBench: Ein geschäftsorientierter, realitätsnaher Finanzbenchmark zur Bewertung von LLMs
BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs

May 26
ByGuilong Lu, Xuntao Guo, Rongjunchen Zhang, Wenqiao Zhu, Ji Liu
64
4

Große Sprachmodelle (LLMs) glänzen bei allgemeinen Aufgaben, doch die Bewertung ihrer Zuverlässigkeit in logikintensiven, präzisionskritischen Bereichen wie Finanzen, Recht und Gesundheitswesen bleibt eine Herausforderung. Um dies zu adressieren, stellen wir BizFinBench vor, den ersten Benchmark, der speziell zur Bewertung von LLMs in realen finanziellen Anwendungen entwickelt wurde. BizFinBench besteht aus 6.781 gut annotierten Anfragen in Chinesisch, die fünf Dimensionen abdecken: numerische Berechnung, logisches Schlussfolgern, Informationsextraktion, Vorhersageerkennung und wissensbasierte Fragebeantwortung, gruppiert in neun fein granulierte Kategorien. Der Benchmark umfasst sowohl objektive als auch subjektive Metriken. Wir führen zudem IteraJudge ein, eine neuartige Methode zur Bewertung von LLMs, die Verzerrungen reduziert, wenn LLMs als Bewerter in objektiven Metriken dienen. Wir evaluieren 25 Modelle, darunter sowohl proprietäre als auch Open-Source-Systeme. Umfangreiche Experimente zeigen, dass kein Modell in allen Aufgaben dominiert. Unsere Bewertung offenbart deutliche Fähigkeitsmuster: (1) Bei der numerischen Berechnung führen Claude-3.5-Sonnet (63,18) und DeepSeek-R1 (64,04), während kleinere Modelle wie Qwen2.5-VL-3B (15,92) deutlich zurückliegen; (2) Beim logischen Schlussfolgern dominieren proprietäre Modelle (ChatGPT-o3: 83,58, Gemini-2.0-Flash: 81,15), wobei Open-Source-Modelle bis zu 19,49 Punkte zurückliegen; (3) Bei der Informationsextraktion ist die Leistungsspanne am größten, mit DeepSeek-R1 bei 71,46 und Qwen3-1.7B bei 11,23; (4) Bei der Vorhersageerkennung ist die Leistungsvarianz minimal, wobei die besten Modelle zwischen 39,16 und 50,00 punkten. Wir stellen fest, dass aktuelle LLMs routinemäßige Finanzanfragen kompetent bewältigen, jedoch mit komplexen Szenarien, die übergreifendes Konzeptverständnis erfordern, zu kämpfen haben. BizFinBench bietet einen rigorosen, geschäftsorientierten Benchmark für zukünftige Forschung. Der Code und der Datensatz sind verfügbar unter https://github.com/HiThink-Research/BizFinBench.

5

Verkörperte Agenten treffen auf Personalisierung: Untersuchung der Speichernutzung für personalisierte Unterstützung
Embodied Agents Meet Personalization: Exploring Memory Utilization for Personalized Assistance

May 22
ByTaeyoon Kwon, Dongwook Choi, Sunghwan Kim, Hyojun Kim, Seungjun Moon, Beong-woo Kwak, Kuan-Hao Huang, Jinyoung Yeo
52
2

Verkörperte Agenten, die durch große Sprachmodelle (LLMs) unterstützt werden, haben in Aufgaben zur Umordnung von Haushaltsgegenständen starke Leistungen gezeigt. Diese Aufgaben konzentrieren sich jedoch hauptsächlich auf Einzelinteraktionen mit vereinfachten Anweisungen, die die Herausforderungen der Bereitstellung sinnvoller Unterstützung für Benutzer nicht wirklich widerspiegeln. Um personalisierte Unterstützung zu bieten, müssen verkörperte Agenten die einzigartige Semantik verstehen, die Benutzer der physischen Welt zuweisen (z. B. Lieblingstasse, Morgenroutine), indem sie die vorherige Interaktionsgeschichte nutzen, um dynamische, realweltliche Anweisungen zu interpretieren. Dennoch ist die Effektivität verkörperter Agenten bei der Nutzung von Gedächtnis für personalisierte Unterstützung weitgehend unerforscht. Um diese Lücke zu schließen, präsentieren wir MEMENTO, ein Bewertungsrahmen für personalisierte verkörperte Agenten, der darauf abzielt, die Fähigkeiten zur Gedächtnisnutzung umfassend zu bewerten, um personalisierte Unterstützung zu bieten. Unser Rahmenwerk besteht aus einem zweistufigen Prozess zur Gedächtnisbewertung, der es ermöglicht, die Auswirkungen der Gedächtnisnutzung auf die Aufgabenleistung zu quantifizieren. Dieser Prozess ermöglicht die Bewertung des Verständnisses der Agenten für personalisiertes Wissen in Aufgaben zur Umordnung von Gegenständen, indem er sich auf dessen Rolle bei der Zielinterpretation konzentriert: (1) die Fähigkeit, Zielobjekte basierend auf persönlicher Bedeutung (Objektsemantik) zu identifizieren, und (2) die Fähigkeit, Objekt-Standort-Konfigurationen aus konsistenten Benutzermustern, wie Routinen (Benutzermuster), abzuleiten. Unsere Experimente mit verschiedenen LLMs zeigen erhebliche Einschränkungen bei der Gedächtnisnutzung, wobei selbst Spitzenmodelle wie GPT-4o einen Leistungsabfall von 30,5 % erfahren, wenn sie auf mehrere Gedächtnisinhalte verweisen müssen, insbesondere bei Aufgaben, die Benutzermuster betreffen. Diese Erkenntnisse, zusammen mit unseren detaillierten Analysen und Fallstudien, bieten wertvolle Einblicke für zukünftige Forschungen zur Entwicklung effektiverer personalisierter verkörperter Agenten. Projektwebsite: https://connoriginal.github.io/MEMENTO

6

Enigmata: Skalierung des logischen Denkens in großen Sprachmodellen mit synthetischen, überprüfbaren Rätseln
Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles

May 26
ByJiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang
46
1

Große Sprachmodelle (LLMs) wie OpenAI's o1 und DeepSeek's R1 übertreffen sich bei fortgeschrittenen Denkaufgaben wie Mathematik und Programmierung durch Reinforcement Learning mit überprüfbaren Belohnungen (RLVR), haben jedoch noch Schwierigkeiten mit Rätseln, die von Menschen ohne Domänenwissen gelöst werden können. Wir stellen Enigmata vor, die erste umfassende Suite, die speziell zur Verbesserung der Rätsel-Fähigkeiten von LLMs entwickelt wurde. Sie umfasst 36 Aufgaben in sieben Kategorien, jede mit 1) einem Generator, der unbegrenzte Beispiele mit kontrollierbarem Schwierigkeitsgrad erzeugt, und 2) einem regelbasierten Verifizierer für die automatische Bewertung. Dieses Generator-Verifizierer-Design unterstützt skalierbares, multi-task RL-Training, detaillierte Analysen und nahtlose RLVR-Integration. Wir schlagen außerdem Enigmata-Eval vor, einen rigorosen Benchmark, und entwickeln optimierte multi-task RLVR-Strategien. Unser trainiertes Modell, Qwen2.5-32B-Enigmata, übertrifft konsequent o3-mini-high und o1 bei Rätsel-Benchmarks wie Enigmata-Eval, ARC-AGI (32,8%) und ARC-AGI 2 (0,6%). Es generalisiert auch gut auf domänenübergreifende Rätsel-Benchmarks und mathematisches Denken, mit geringen Kompromissen bei der Multi-Tasking-Fähigkeit. Wenn es auf größeren Modellen wie Seed1.5-Thinking (20B aktivierte Parameter und 200B Gesamtparameter) trainiert wird, steigern die Rätseldaten von Enigmata die Spitzenleistung bei fortgeschrittenen mathematischen und STEM-Denkaufgaben wie AIME (2024-2025), BeyondAIME und GPQA (Diamond), was die guten Generalisierungsvorteile von Enigmata zeigt. Diese Arbeit bietet einen einheitlichen, kontrollierbaren Rahmen zur Förderung des logischen Denkens in LLMs. Die Ressourcen dieser Arbeit finden Sie unter https://seed-enigmata.github.io.

7

PATS: Prozessbasierter adaptiver Denkmoduswechsel
PATS: Process-Level Adaptive Thinking Mode Switching

May 25
ByYi Wang, Junxiao Liu, Shimao Zhang, Jiajun Chen, Shujian Huang
46
2

Aktuelle Large-Language-Modelle (LLMs) verwenden in der Regel eine feste Denkstrategie, entweder einfach oder komplex, für alle Fragen, unabhängig von deren Schwierigkeitsgrad. Diese Vernachlässigung der Variation in der Aufgaben- und Denkprozesskomplexität führt zu einem Ungleichgewicht zwischen Leistung und Effizienz. Bestehende Methoden versuchen, ein trainingsfreies Systemwechseln zwischen schnellem und langsamem Denken zu implementieren, um Probleme unterschiedlicher Schwierigkeit zu bewältigen, sind jedoch durch grobgranulare Strategieanpassungen auf Lösungsebene eingeschränkt. Um dieses Problem zu lösen, schlagen wir ein neuartiges Denkparadigma vor: Process-Level Adaptive Thinking Mode Switching (PATS), das es LLMs ermöglicht, ihre Denkstrategie dynamisch basierend auf der Schwierigkeit jedes Schritts anzupassen und so das Gleichgewicht zwischen Genauigkeit und Recheneffizienz zu optimieren. Unser Ansatz integriert Process Reward Models (PRMs) mit Beam Search und beinhaltet progressives Moduswechseln sowie Strafmechanismen für schlechte Schritte. Experimente auf diversen mathematischen Benchmarks zeigen, dass unsere Methode hohe Genauigkeit bei moderatem Token-Verbrauch erreicht. Diese Studie unterstreicht die Bedeutung einer prozessbasierten, schwierigkeitsbewussten Anpassung der Denkstrategie und bietet wertvolle Einblicke in effiziente Inferenz für LLMs.

8

ARM: Adaptives Reasoning-Modell
ARM: Adaptive Reasoning Model

May 26
BySiye Wu, Jian Xie, Yikai Zhang, Aili Chen, Kai Zhang, Yu Su, Yanghua Xiao
45
6

Während große Reasoning-Modelle eine starke Leistung bei komplexen Aufgaben zeigen, fehlt ihnen die Fähigkeit, die Verwendung von Reasoning-Tokens basierend auf der Aufgabenschwierigkeit anzupassen. Dies führt oft zum „Overthinking“-Problem – übermäßiges und unnötiges Reasoning – das, obwohl es durch menschliches Eingreifen zur Kontrolle des Token-Budgets potenziell gemildert werden kann, dennoch grundsätzlich dem Ziel der vollständig autonomen KI widerspricht. In dieser Arbeit schlagen wir das Adaptive Reasoning Model (ARM) vor, ein Reasoning-Modell, das in der Lage ist, basierend auf der jeweiligen Aufgabe geeignete Reasoning-Formate adaptiv auszuwählen. Diese Formate umfassen drei effiziente – Direkte Antwort, Kurze CoT und Code – sowie ein elaborierteres Format, Lange CoT. Um ARM zu trainieren, führen wir Ada-GRPO ein, eine Anpassung des Group Relative Policy Optimization (GRPO), das das Problem des Formatkollapses im traditionellen GRPO adressiert. Ada-GRPO ermöglicht es ARM, eine hohe Token-Effizienz zu erreichen, wobei die Tokens im Durchschnitt um 30 % und bis zu 70 % reduziert werden, während die Leistung vergleichbar mit dem Modell bleibt, das ausschließlich auf Lange CoT angewiesen ist. Darüber hinaus verbessert es nicht nur die Inferenzeffizienz durch reduzierte Token-Generierung, sondern bringt auch eine 2-fache Beschleunigung im Training. Neben dem standardmäßigen Adaptiven Modus unterstützt ARM zwei zusätzliche Reasoning-Modi: 1) Instruktionsgesteuerter Modus, der es Benutzern ermöglicht, das Reasoning-Format explizit über spezielle Tokens anzugeben – ideal, wenn das geeignete Format für eine Reihe von Aufgaben bekannt ist. 2) Konsensgesteuerter Modus, der die Ausgaben der drei effizienten Formate aggregiert und im Falle von Unstimmigkeiten auf Lange CoT zurückgreift, wobei die Leistung mit höherem Token-Verbrauch priorisiert wird.

9

Entschlüsselung der trajektorienunterstützten LLM-Argumentation: Eine Optimierungsperspektive
Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective

May 26
ByJunnan Liu, Hongwei Liu, Linchen Xiao, Shudong Liu, Taolin Zhang, Zihan Ma, Songyang Zhang, Kai Chen
36
2

Wir schlagen einen neuartigen Rahmen vor, um die Fähigkeiten großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung aus der Perspektive des Meta-Lernens zu verstehen. Indem wir Denkpfade als pseudo-Gradientenabstiegs-Updates der Parameter des LLMs konzeptualisieren, identifizieren wir Parallelen zwischen dem logischen Denken von LLMs und verschiedenen Meta-Lern-Paradigmen. Wir formalisieren den Trainingsprozess für Aufgaben des logischen Denkens als ein Meta-Lern-Setup, bei dem jede Frage als individuelle Aufgabe behandelt wird und Denkpfade als innere Schleifenoptimierung zur Anpassung der Modellparameter dienen. Nach dem Training auf einer Vielzahl von Fragen entwickelt das LLM grundlegende Fähigkeiten zur logischen Schlussfolgerung, die auf zuvor unbekannte Fragen verallgemeinert werden können. Umfangreiche empirische Auswertungen untermauern die starke Verbindung zwischen dem logischen Denken von LLMs und Meta-Lernen und untersuchen mehrere Fragen von erheblichem Interesse aus der Perspektive des Meta-Lernens. Unsere Arbeit verbessert nicht nur das Verständnis des logischen Denkens von LLMs, sondern liefert auch praktische Erkenntnisse zur Verbesserung dieser Modelle durch etablierte Meta-Lern-Techniken.

10

B-Score: Erkennung von Verzerrungen in großen Sprachmodellen anhand der Antwortverläufe
B-score: Detecting biases in large language models using response history

May 24
ByAn Vo, Mohammad Reza Taesiri, Daeyoung Kim, Anh Totti Nguyen
30
2

Große Sprachmodelle (LLMs) zeigen oft starke Verzerrungen, beispielsweise gegenüber Frauen oder zugunsten der Zahl 7. Wir untersuchen, ob LLMs in der Lage sind, weniger verzerrte Antworten zu liefern, wenn sie ihre vorherigen Antworten auf dieselbe Frage in einem mehrschrittigen Dialog einsehen können. Um zu verstehen, welche Arten von Fragen stärker verzerrte Antworten provozieren, testen wir LLMs anhand eines von uns vorgeschlagenen Fragesets, das neun Themen umfasst und drei Kategorien zugeordnet ist: (1) Subjektiv; (2) Zufällig; und (3) Objektiv. Interessanterweise können sich LLMs in einem mehrschrittigen Dialog selbst „entzerren“, wenn sie Fragen beantworten, die eine zufällige, unvoreingenommene Antwort erfordern. Darüber hinaus schlagen wir den B-Score vor, eine neuartige Metrik, die effektiv Verzerrungen bei subjektiven, zufälligen, einfachen und schwierigen Fragen erkennen kann. Auf den Datensätzen MMLU, HLE und CSQA verbessert die Nutzung des B-Scores die Verifikationsgenauigkeit von LLM-Antworten (d. h. das Akzeptieren korrekter und das Ablehnen falscher Antworten) erheblich im Vergleich zur Verwendung verbalisierter Konfidenzscores oder der Häufigkeit von Einzelantworten allein. Code und Daten sind verfügbar unter: https://b-score.github.io.

11

Ersatzsignale aus Format und Länge: Reinforcement Learning zur Lösung mathematischer Probleme ohne Referenzantworten
Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers

May 26
ByRihui Xin, Han Liu, Zecheng Wang, Yupeng Zhang, Dianbo Sui, Xiaolin Hu, Bingning Wang
30
2

Große Sprachmodelle haben bemerkenswerte Erfolge bei Aufgaben der natürlichen Sprachverarbeitung erzielt, wobei Reinforcement Learning eine Schlüsselrolle bei der Anpassung an spezifische Anwendungen spielt. Die Beschaffung von Ground-Truth-Antworten für das Training von LLMs in der mathematischen Problemlösung ist jedoch oft schwierig, kostspielig und manchmal unmöglich. Diese Forschung untersucht die Nutzung von Format und Länge als Ersatzsignale, um LLMs für die mathematische Problemlösung zu trainieren, ohne auf traditionelle Ground-Truth-Antworten angewiesen zu sein. Unsere Studie zeigt, dass eine Belohnungsfunktion, die sich ausschließlich auf die Formatkorrektheit konzentriert, in frühen Phasen Leistungsverbesserungen erzielen kann, die mit dem Standard-GRPO-Algorithmus vergleichbar sind. In Anerkennung der Grenzen von reinen Formatbelohnungen in späteren Phasen integrieren wir längenbasierte Belohnungen. Der daraus resultierende GRPO-Ansatz, der Format-Längen-Ersatzsignale nutzt, übertrifft in bestimmten Szenarien sogar die Leistung des Standard-GRPO-Algorithmus, der auf Ground-Truth-Antworten angewiesen ist, und erreicht eine Genauigkeit von 40,0 % auf AIME2024 mit einem 7B-Basismodell. Durch systematische Exploration und Experimente bietet diese Forschung nicht nur eine praktische Lösung für das Training von LLMs zur Lösung mathematischer Probleme und zur Reduzierung der Abhängigkeit von umfangreichen Ground-Truth-Datensammlungen, sondern enthüllt auch den Kern, warum unser labelfreier Ansatz erfolgreich ist: Das Basismodell ist wie ein ausgezeichneter Schüler, der bereits mathematische und logische Denkfähigkeiten beherrscht, aber bei der Prüfung schlecht abschneidet. Es muss lediglich gute Antwortgewohnheiten entwickeln, um hervorragende Ergebnisse in Prüfungen zu erzielen, mit anderen Worten, um die Fähigkeiten freizusetzen, die es bereits besitzt.

12

Lernen zu argumentieren ohne externe Belohnungen
Learning to Reason without External Rewards

May 26
ByXuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song
29
2

Das Training großer Sprachmodelle (LLMs) für komplexes logisches Denken durch Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) ist effektiv, jedoch durch die Abhängigkeit von kostspieliger, domänenspezifischer Überwachung eingeschränkt. Wir untersuchen Reinforcement Learning aus interner Rückmeldung (RLIF), ein Framework, das es LLMs ermöglicht, aus intrinsischen Signalen zu lernen, ohne externe Belohnungen oder annotierte Daten. Wir stellen Intuitor vor, eine RLIF-Methode, die das eigene Vertrauen eines Modells, bezeichnet als Selbstsicherheit, als einzigen Belohnungssignal verwendet. Intuitor ersetzt externe Belohnungen in der Gruppenrelativen Politikoptimierung (GRPO) durch Selbstsicherheitswerte, wodurch vollständig unüberwachtes Lernen ermöglicht wird. Experimente zeigen, dass Intuitor die Leistung von GRPO auf mathematischen Benchmarks erreicht, während es eine überlegene Generalisierung auf domänenübergreifende Aufgaben wie Code-Generierung erzielt, ohne goldene Lösungen oder Testfälle zu benötigen. Unsere Ergebnisse zeigen, dass intrinsische Modellsignale effektives Lernen über verschiedene Domänen hinweg antreiben können und eine skalierbare Alternative zu RLVR für autonome KI-Systeme bieten, bei denen überprüfbare Belohnungen nicht verfügbar sind. Der Code ist verfügbar unter https://github.com/sunblaze-ucb/Intuitor.

13

Flex-Judge: Einmal Denken, Überall Bewerten
Flex-Judge: Think Once, Judge Anywhere

May 24
ByJongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun
27
2

Menschlich generierte Belohnungssignale sind entscheidend, um generative Modelle mit menschlichen Präferenzen in Einklang zu bringen und sowohl das Training als auch die Bewertungen zur Inferenzzeit zu steuern. Während große Sprachmodelle (LLMs), die als Proxy-Bewerter eingesetzt werden – sogenannte LLM-as-a-Judge – die Kosten für manuelle Annotationen erheblich reduzieren, benötigen sie in der Regel umfangreiche, modalitätsspezifische Trainingsdaten und können sich nicht gut über diverse multimodale Aufgaben hinweg verallgemeinern. In diesem Artikel stellen wir Flex-Judge vor, ein multimodales Bewertermodell, das durch textbasierte Argumentation geleitet wird und minimale textuelle Argumentationsdaten nutzt, um robust über mehrere Modalitäten und Bewertungsformate hinweg zu verallgemeinern. Unsere zentrale Intuition ist, dass strukturierte textuelle Argumentationserklärungen inhärent verallgemeinerbare Entscheidungsmuster kodieren, die einen effektiven Transfer auf multimodale Bewertungen, z. B. mit Bildern oder Videos, ermöglichen. Empirische Ergebnisse zeigen, dass Flex-Judge, obwohl es mit deutlich weniger Textdaten trainiert wurde, eine wettbewerbsfähige oder überlegene Leistung im Vergleich zu state-of-the-art kommerziellen APIs und umfangreich trainierten multimodalen Bewertern erzielt. Besonders hervorzuheben ist, dass Flex-Judge eine breite Wirkung in Modalitäten wie Molekülen zeigt, wo umfassende Bewertungsbenchmarks rar sind, was seinen praktischen Wert in ressourcenbeschränkten Domänen unterstreicht. Unser Framework hebt textbasierte Argumentationsüberwachung als eine leistungsstarke, kosteneffiziente Alternative zu traditionellen, annotationsintensiven Ansätzen hervor und trägt wesentlich zur Skalierbarkeit multimodaler Modelle als Bewerter bei.

14

Können MLLMs mich nach Hause führen? Eine Benchmark-Studie zur feinkörnigen visuellen Argumentation anhand von Verkehrsnetzplänen
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps

May 24
BySicheng Feng, Song Wang, Shuyi Ouyang, Lingdong Kong, Zikai Song, Jianke Zhu, Huan Wang, Xinchao Wang
26
3

Multimodale große Sprachmodelle (MLLMs) haben in jüngster Zeit bedeutende Fortschritte bei visuellen Aufgaben erzielt, einschließlich semantischer Szenenverständnis und Text-Bild-Ausrichtung, wobei Reasoning-Varianten die Leistung bei komplexen Aufgaben in den Bereichen Mathematik und Logik verbessern. Ihre Fähigkeiten bei Reasoning-Aufgaben, die ein feinkörniges visuelles Verständnis erfordern, wurden jedoch bisher unzureichend bewertet. Um diese Lücke zu schließen, stellen wir ReasonMap vor, einen Benchmark, der entwickelt wurde, um das feinkörnige visuelle Verständnis und die räumlichen Reasoning-Fähigkeiten von MLLMs zu bewerten. ReasonMap umfasst hochauflösende Verkehrsnetzpläne aus 30 Städten in 13 Ländern und beinhaltet 1.008 Frage-Antwort-Paare, die zwei Fragetypen und drei Vorlagen abdecken. Darüber hinaus haben wir eine zweistufige Evaluationspipeline entwickelt, die die Korrektheit und Qualität der Antworten angemessen bewertet. Umfassende Bewertungen von 15 populären MLLMs, einschließlich sowohl Basis- als auch Reasoning-Varianten, zeigen ein kontraintuitives Muster: Bei Open-Source-Modellen übertreffen Basismodelle die Reasoning-Varianten, während bei Closed-Source-Modellen der umgekehrte Trend zu beobachten ist. Zudem verschlechtert sich die Leistung im Allgemeinen, wenn visuelle Eingaben maskiert werden, was darauf hindeutet, dass MLLMs zwar Vorwissen nutzen können, um einige Fragen zu beantworten, feinkörnige visuelle Reasoning-Aufgaben jedoch weiterhin echte visuelle Wahrnehmung für eine starke Leistung erfordern. Unsere Benchmark-Studie bietet neue Einblicke in das visuelle Reasoning und trägt dazu bei, die Lücke zwischen Open-Source- und Closed-Source-Modellen zu untersuchen.

15

MOOSE-Chem2: Erforschung der Grenzen von LLMs bei der feingranularen wissenschaftlichen Hypothesenentdeckung durch hierarchische Suche
MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search

May 25
ByZonglin Yang, Wanhao Liu, Ben Gao, Yujie Liu, Wei Li, Tong Xie, Lidong Bing, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
23
2

Große Sprachmodelle (LLMs) haben Potenzial bei der Automatisierung der wissenschaftlichen Hypothesengenerierung gezeigt, doch bestehende Ansätze liefern hauptsächlich grobkörnige Hypothesen, denen kritische methodische und experimentelle Details fehlen. Wir führen die neuartige Aufgabe der feinkörnigen wissenschaftlichen Hypothesenentdeckung ein und definieren sie formal. Diese umfasst die Generierung detaillierter, experimentell umsetzbarer Hypothesen aus groben initialen Forschungsrichtungen. Wir formulieren dies als kombinatorisches Optimierungsproblem und untersuchen die oberen Grenzen der Fähigkeit von LLMs, dieses Problem zu lösen, wenn sie maximal genutzt werden. Insbesondere untersuchen wir vier grundlegende Fragen: (1) wie man die internen Heuristiken eines LLMs am besten nutzen kann, um die feinkörnige Hypothese zu formulieren, die es selbst als die vielversprechendste unter allen möglichen Hypothesen, die es generieren könnte, bewerten würde – basierend auf seiner eigenen internen Bewertung – und damit eine latente Belohnungslandschaft über den Hypothesenraum definiert; (2) ob solche von LLMs als besser bewertete Hypothesen eine stärkere Übereinstimmung mit Ground-Truth-Hypothesen aufweisen; (3) ob die Gestaltung der Belohnungslandschaft mithilfe eines Ensembles verschiedener LLMs mit ähnlicher Kapazität bessere Ergebnisse liefert als die Definition mit wiederholten Instanzen des stärksten LLMs unter ihnen; und (4) ob ein Ensemble identischer LLMs eine zuverlässigere Belohnungslandschaft bietet als ein einzelnes LLM. Um diese Fragen zu beantworten, schlagen wir eine hierarchische Suchmethode vor, die schrittweise Details in die Hypothese einbringt und integriert, wobei sie von allgemeinen Konzepten zu spezifischen experimentellen Konfigurationen fortschreitet. Wir zeigen, dass dieser hierarchische Prozess die Belohnungslandschaft glättet und eine effektivere Optimierung ermöglicht. Empirische Auswertungen auf einem neuen Benchmark von Experten-annotierten feinkörnigen Hypothesen aus der aktuellen chemischen Literatur zeigen, dass unsere Methode durchweg starke Baselines übertrifft.

16

Lebenslange Sicherheitsausrichtung für Sprachmodelle
Lifelong Safety Alignment for Language Models

May 26
ByHaoyu Wang, Zeyu Qin, Yifei Zhao, Chao Du, Min Lin, Xueqian Wang, Tianyu Pang
23
1

LLMs haben beeindruckende Fortschritte gemacht, doch ihre zunehmenden Fähigkeiten machen sie auch anfällig für hochflexible Jailbreaking-Angriffe, die darauf abzielen, die Sicherheitsausrichtung zu umgehen. Während sich viele bestehende Verteidigungsmechanismen auf bekannte Angriffsarten konzentrieren, ist es entscheidender, LLMs auf unbekannte Angriffe vorzubereiten, die während des Einsatzes auftreten können. Um dies zu adressieren, schlagen wir ein Framework für lebenslange Sicherheitsausrichtung vor, das es LLMs ermöglicht, sich kontinuierlich an neue und sich entwickelnde Jailbreaking-Strategien anzupassen. Unser Framework führt einen Wettbewerb zwischen zwei Komponenten ein: einem Meta-Angreifer, der darauf trainiert ist, aktiv neue Jailbreaking-Strategien zu entdecken, und einem Verteidiger, der darauf trainiert ist, diesen zu widerstehen. Um den Meta-Angreifer effektiv vorzubereiten, nutzen wir zunächst die GPT-4o-API, um Schlüsselinformationen aus einer umfangreichen Sammlung von Forschungsarbeiten im Zusammenhang mit Jailbreaking zu extrahieren. Durch iteratives Training erreicht der Meta-Angreifer der ersten Iteration eine Angriffserfolgsrate (ASR) von 73 % auf RR und eine Transfer-ASR von 57 % auf LAT, wobei nur Einzelzugriffsangriffe verwendet werden. Gleichzeitig verbessert der Verteidiger kontinuierlich seine Robustheit und reduziert schließlich die Erfolgsrate des Meta-Angreifers auf nur 7 %, was eine sicherere und zuverlässigere Bereitstellung von LLMs in offenen Umgebungen ermöglicht. Der Code ist verfügbar unter https://github.com/sail-sg/LifelongSafetyAlignment.

17

ModernGBERT: Ein ausschließlich deutschsprachiges 1B Encoder-Modell, das von Grund auf trainiert wurde
ModernGBERT: German-only 1B Encoder Model Trained from Scratch

May 19
ByAnton Ehrmanntraut, Julia Wunderle, Jan Pfister, Fotis Jannidis, Andreas Hotho
22
2

Trotz der Dominanz von Decoder-only-Sprachmodellen bleiben Encoder für ressourcenbeschränkte Anwendungen entscheidend. Wir stellen ModernGBERT (134M, 1B) vor, eine vollständig transparente Familie deutscher Encoder-Modelle, die von Grund auf trainiert wurden und architektonische Innovationen von ModernBERT integrieren. Um die praktischen Kompromisse beim Training von Encodern von Grund auf zu bewerten, präsentieren wir auch LL\"aMmlein2Vec (120M, 1B, 7B), eine Familie von Encodern, die aus deutschen Decoder-only-Modellen über LLM2Vec abgeleitet wurden. Wir benchmarken alle Modelle in den Bereichen Natural Language Understanding, Text-Embedding und Langzeitkontext-Rationalität, was einen kontrollierten Vergleich zwischen dedizierten Encodern und konvertierten Decodern ermöglicht. Unsere Ergebnisse zeigen, dass ModernGBERT 1B sowohl in Bezug auf die Leistung als auch auf die Parameter-Effizienz bisherige State-of-the-Art deutsche Encoder sowie über LLM2Vec adaptierte Encoder übertrifft. Alle Modelle, Trainingsdaten, Checkpoints und Code sind öffentlich verfügbar und fördern das deutsche NLP-Ökosystem mit transparenten, leistungsstarken Encoder-Modellen.

18

Hybrides Neuronales-MPM für interaktive Fluidsimulationen in Echtzeit
Hybrid Neural-MPM for Interactive Fluid Simulations in Real-Time

May 25
ByJingxuan Xu, Hong Huang, Chuhang Zou, Manolis Savva, Yunchao Wei, Wuyang Chen
20
3

Wir schlagen ein neuronales Physiksystem für Echtzeit- und interaktive Fluidsimulationen vor. Traditionelle physikbasierte Methoden sind zwar präzise, aber rechenintensiv und leiden unter Latenzproblemen. Neuere maschinelle Lernmethoden reduzieren die Rechenkosten bei gleichzeitiger Wahrung der Genauigkeit; dennoch erfüllen die meisten weiterhin nicht die Latenzanforderungen für den Echtzeiteinsatz und bieten keine Unterstützung für interaktive Anwendungen. Um diese Lücke zu schließen, führen wir eine neuartige hybride Methode ein, die numerische Simulation, neuronale Physik und generative Steuerung integriert. Unsere neuronale Physik verfolgt gleichzeitig eine Simulation mit geringer Latenz und hoher physikalischer Genauigkeit, indem sie einen Rückfallmechanismus auf klassische numerische Löser einsetzt. Darüber hinaus entwickeln wir einen diffusionsbasierten Controller, der mithilfe einer umgekehrten Modellierungsstrategie trainiert wird, um externe dynamische Kraftfelder zur Fluidmanipulation zu erzeugen. Unser System zeigt robuste Leistung in verschiedenen 2D/3D-Szenarien, Materialtypen und Hindernisinteraktionen und erreicht Echtzeitsimulationen mit hohen Bildraten (11~29 % Latenz), während es die Fluidsteuerung durch benutzerfreundliche Freihandskizzen ermöglicht. Wir präsentieren einen bedeutenden Schritt hin zu praktischen, kontrollierbaren und physikalisch plausiblen Fluidsimulationen für Echtzeit- und interaktive Anwendungen. Wir versprechen, sowohl die Modelle als auch die Daten nach der Annahme zu veröffentlichen.

19

Jodi: Vereinheitlichung von visueller Generierung und Verständnis durch gemeinsame Modellierung
Jodi: Unification of Visual Generation and Understanding via Joint Modeling

May 25
ByYifeng Xu, Zhenliang He, Meina Kan, Shiguang Shan, Xilin Chen
20
2

Visuelle Erzeugung und Verständnis sind zwei tief miteinander verbundene Aspekte der menschlichen Intelligenz, wurden jedoch traditionell in der maschinellen Lernforschung als separate Aufgaben behandelt. In diesem Artikel stellen wir Jodi vor, ein Diffusionsframework, das visuelle Erzeugung und Verständnis vereint, indem es das Bildbereich und mehrere Labelbereiche gemeinsam modelliert. Konkret basiert Jodi auf einem linearen Diffusionstransformer in Kombination mit einem Rollenwechselmechanismus, der es ermöglicht, drei spezifische Aufgabentypen auszuführen: (1) gemeinsame Erzeugung, bei der das Modell gleichzeitig Bilder und mehrere Labels generiert; (2) kontrollierte Erzeugung, bei der Bilder basierend auf beliebigen Kombinationen von Labels erzeugt werden; und (3) Bildwahrnehmung, bei der mehrere Labels gleichzeitig aus einem gegebenen Bild vorhergesagt werden können. Darüber hinaus präsentieren wir den Joint-1.6M-Datensatz, der 200.000 hochwertige Bilder aus öffentlichen Quellen, automatisch generierte Labels für 7 visuelle Bereiche und LLM-generierte Bildbeschreibungen enthält. Umfangreiche Experimente zeigen, dass Jodi sowohl in Erzeugungs- als auch in Verständnisaufgaben hervorragende Leistungen erbringt und eine starke Erweiterbarkeit auf eine breitere Palette visueller Bereiche aufweist. Der Code ist verfügbar unter https://github.com/VIPL-GENUN/Jodi.

20

StructEval: Benchmarking der Fähigkeiten von LLMs zur Erzeugung struktureller Ausgaben
StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs

May 26
ByJialin Yang, Dongfu Jiang, Lipeng He, Sherman Siu, Yuxuan Zhang, Disen Liao, Zhuofeng Li, Huaye Zeng, Yiming Jia, Haozhe Wang, Benjamin Schneider, Chi Ruan, Wentao Ma, Zhiheng Lyu, Yifei Wang, Yi Lu, Quy Duc Do, Ziyan Jiang, Ping Nie, Wenhu Chen
19
1

Da Large Language Models (LLMs) zunehmend in Softwareentwicklungs-Workflows integriert werden, ist ihre Fähigkeit, strukturierte Ausgaben zu generieren, von entscheidender Bedeutung geworden. Wir stellen StructEval vor, einen umfassenden Benchmark zur Bewertung der Fähigkeiten von LLMs, sowohl nicht-renderbare (JSON, YAML, CSV) als auch renderbare (HTML, React, SVG) strukturierte Formate zu erzeugen. Im Gegensatz zu früheren Benchmarks bewertet StructEval systematisch die strukturelle Treue über verschiedene Formate hinweg durch zwei Paradigmen: 1) Generierungsaufgaben, bei denen strukturierte Ausgaben aus natürlichen Sprachaufforderungen erzeugt werden, und 2) Konvertierungsaufgaben, bei denen zwischen strukturierten Formaten übersetzt wird. Unser Benchmark umfasst 18 Formate und 44 Arten von Aufgaben, mit neuartigen Metriken für Formatkonformität und strukturelle Korrektheit. Die Ergebnisse zeigen erhebliche Leistungsunterschiede; selbst state-of-the-art Modelle wie o1-mini erreichen nur einen durchschnittlichen Score von 75,58, während Open-Source-Alternativen etwa 10 Punkte dahinter zurückbleiben. Wir stellen fest, dass Generierungsaufgaben schwieriger sind als Konvertierungsaufgaben und die Erstellung korrekter visueller Inhalte schwieriger ist als die Generierung von rein textbasierten Strukturen.

21

Omni-R1: Verstärkendes Lernen für omnimodales Denken durch Zwei-System-Kollaboration
Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration

May 26
ByHao Zhong, Muzhi Zhu, Zongze Du, Zheng Huang, Canyu Zhao, Mingyu Liu, Wen Wang, Hao Chen, Chunhua Shen
19
1

Langfristige Video-Audio-Analyse und feinkörniges Pixelverständnis stellen widersprüchliche Anforderungen an omnimodale Modelle: Dichte zeitliche Abdeckung erfordert viele niedrigauflösende Frames, während präzise Verankerung hochauflösende Eingaben benötigt. Wir bewältigen diesen Zielkonflikt mit einer Zwei-System- Architektur: Ein Globales Analyse-System wählt informative Keyframes aus und formuliert die Aufgabe mit geringem räumlichen Aufwand neu, während ein Detailverständnis-System die Pixelgenaue Verankerung auf den ausgewählten hochauflösenden Ausschnitten durchführt. Da die „optimale“ Auswahl und Neuformulierung von Keyframes mehrdeutig und schwer zu überwachen ist, formulieren wir sie als Reinforcement Learning (RL)-Problem und präsentieren Omni-R1, ein end-to-end RL-Framework, das auf Group Relative Policy Optimization basiert. Omni-R1 trainiert das Globale Analyse-System durch hierarchische Belohnungen, die durch Online-Zusammenarbeit mit dem Detailverständnis-System erzielt werden, wobei nur eine Epoche RL auf kleinen Aufgabenaufteilungen erforderlich ist. Experimente auf zwei anspruchsvollen Benchmarks, nämlich Referring Audio-Visual Segmentation (RefAVS) und Reasoning Video Object Segmentation (REVOS), zeigen, dass Omni-R1 nicht nur starke überwachte Baselines übertrifft, sondern auch spezialisierte State-of-the-Art-Modelle übertrifft, während es die Generalisierung außerhalb der Domäne erheblich verbessert und multimodale Halluzinationen reduziert. Unsere Ergebnisse zeigen die erste erfolgreiche Anwendung von RL auf groß angelegte omnimodale Analyse und heben einen skalierbaren Weg hin zu universellen Foundation- Modellen hervor.

22

Reinforcement Fine-Tuning stärkt die Fähigkeit zum logischen Denken in multimodalen Large Language Models.
Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models

May 24
ByHaoyuan Sun, Jiaqi Wu, Bo Xia, Yifu Luo, Yifei Zhao, Kai Qin, Xufei Lv, Tiantian Zhang, Yongzhe Chang, Xueqian Wang
18
3

Im Jahr 2025, an einem kritischen Punkt in der Verfolgung von Künstlicher Allgemeiner Intelligenz (AGI), hat das Reinforcement Fine-Tuning (RFT) ein erhebliches Potenzial bei der Verbesserung der Denkfähigkeit großer Sprachmodelle (LLMs) gezeigt und zur Entwicklung von Spitzenmodellen der KI wie OpenAI-o1 und DeepSeek-R1 geführt. Darüber hinaus hat die effiziente Anwendung von RFT zur Steigerung der Denkfähigkeit multimodaler großer Sprachmodelle (MLLMs) breite Aufmerksamkeit in der Fachgemeinschaft erregt. In diesem Positionspapier argumentieren wir, dass Reinforcement Fine-Tuning die Denkfähigkeit multimodaler großer Sprachmodelle stärkt. Zunächst geben wir eine detaillierte Einführung in die grundlegenden Hintergrundkenntnisse, die Forscher in diesem Bereich kennen sollten. Darüber hinaus fassen wir die Verbesserungen von RFT bei der Stärkung der Denkfähigkeit von MLLMs sorgfältig in fünf Schlüsselpunkten zusammen: diverse Modalitäten, diverse Aufgaben und Domänen, bessere Trainingsalgorithmen, umfangreiche Benchmarks und florierende Engineering-Frameworks. Schließlich schlagen wir fünf vielversprechende Forschungsrichtungen vor, die die Gemeinschaft in Betracht ziehen könnte. Wir hoffen, dass dieses Positionspapier wertvolle Einblicke in die Gemeinschaft an diesem entscheidenden Stadium der Weiterentwicklung hin zu AGI bietet. Eine Zusammenfassung der Arbeiten zu RFT für MLLMs ist verfügbar unter https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.

23

REARANK: Reasoning Re-ranking Agent mittels Reinforcement Learning
REARANK: Reasoning Re-ranking Agent via Reinforcement Learning

May 26
ByLe Zhang, Bo Wang, Xipeng Qiu, Siva Reddy, Aishwarya Agrawal
18
2

Wir präsentieren REARANK, einen listenbasierten Reasoning-Reranking-Agenten, der auf einem großen Sprachmodell (LLM) basiert. REARANK führt explizites Reasoning durch, bevor es das Reranking vornimmt, was sowohl die Leistung als auch die Interpretierbarkeit deutlich verbessert. Durch den Einsatz von Reinforcement Learning und Datenaugmentierung erzielt REARANK erhebliche Verbesserungen gegenüber Baseline-Modellen in gängigen Information-Retrieval-Benchmarks, wobei bemerkenswerterweise nur 179 annotierte Proben benötigt werden. Aufbauend auf Qwen2.5-7B zeigt unser REARANK-7B eine Leistung, die mit GPT-4 sowohl in domänenspezifischen als auch domänenübergreifenden Benchmarks vergleichbar ist und GPT-4 sogar in reasoning-intensiven BRIGHT-Benchmarks übertrifft. Diese Ergebnisse unterstreichen die Effektivität unseres Ansatzes und zeigen, wie Reinforcement Learning die Reasoning-Fähigkeiten von LLMs im Reranking verbessern kann.

24

Diskrete Markov-Brücke
Discrete Markov Bridge

May 26
ByHengli Li, Yuxuan Wang, Song-Chun Zhu, Ying Nian Wu, Zilong Zheng
17
2

Diskrete Diffusion hat sich kürzlich als vielversprechendes Paradigma in der Modellierung diskreter Daten herausgestellt. Bisherige Methoden basieren jedoch typischerweise auf einer festen Übergangsmatrix während des Trainings, was nicht nur die Ausdrucksfähigkeit latenter Repräsentationen, eine grundlegende Stärke von Variationsmethoden, einschränkt, sondern auch den gesamten Designraum begrenzt. Um diese Einschränkungen zu überwinden, schlagen wir Discrete Markov Bridge vor, ein neuartiges Framework, das speziell für das Lernen diskreter Repräsentationen entwickelt wurde. Unser Ansatz basiert auf zwei Schlüsselkomponenten: Matrix Learning und Score Learning. Wir führen eine rigorose theoretische Analyse durch, in der wir formale Leistungsgarantien für Matrix Learning etablieren und die Konvergenz des gesamten Frameworks beweisen. Darüber hinaus analysieren wir die Raumkomplexität unserer Methode und gehen dabei auf praktische Einschränkungen ein, die in früheren Studien identifiziert wurden. Umfangreiche empirische Auswertungen bestätigen die Wirksamkeit des vorgeschlagenen Discrete Markov Bridge, das auf dem Text8-Datensatz eine Evidence Lower Bound (ELBO) von 1,38 erreicht und damit etablierte Baselines übertrifft. Darüber hinaus zeigt das vorgeschlagene Modell eine wettbewerbsfähige Leistung auf dem CIFAR-10-Datensatz, die mit den Ergebnissen von bildspezifischen Generierungsansätzen vergleichbar ist.

25

Welche Datenattribute fördern mathematisches und programmtechnisches Denken? Eine Untersuchung mittels Einflussfunktionen
Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions

May 26
BySiqi Kou, Qingyuan Tian, Hanwen Xu, Zihao Zeng, Zhijie Deng
16
1

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im Bereich Mathematik und Programmieren gezeigt, die oft durch Nachschulung anhand von Gedankenketten (Chain-of-Thoughts, CoTs) stärkerer Modelle weiter verbessert werden. Bisherige Strategien zur Erstellung solcher Trainingsdaten basieren jedoch überwiegend auf Heuristiken, was die Generalisierbarkeit einschränkt und die subtilen Nuancen in den Daten nicht erfasst. Um diese Einschränkungen zu überwinden, nutzen wir Einflussfunktionen, um die Fähigkeit von LLMs im Bereich Mathematik und Programmieren systematisch auf einzelne Trainingsbeispiele, Sequenzen und Tokens zurückzuführen. Dies ermöglicht tiefere Einblicke in effektive Datenmerkmale. Unsere Einflussbasierte Reasoning-Attribution (Infra) deckt nicht-triviale, domänenübergreifende Effekte zwischen Mathematik- und Programmieraufgaben auf: Hochschwierige Mathematikbeispiele verbessern sowohl das mathematische als auch das programmiertechnische Denken, während niedrigschwierige Programmieraufgaben das programmiertechnische Denken am effektivsten fördern. Basierend auf diesen Erkenntnissen führen wir eine einfache, aber effektive Strategie zur Neugewichtung von Datensätzen ein, indem wir die Aufgabenschwierigkeit umkehren. Dies verdoppelt die Genauigkeit bei AIME24 von 10 % auf 20 % und steigert die Genauigkeit bei LiveCodeBench von 33,8 % auf 35,3 % für Qwen2.5-7B-Instruct. Darüber hinaus zeigt unsere feingranulare Attribution, dass explorative Verhaltensweisen auf Sequenzebene die Denkleistung sowohl in Mathematik als auch im Programmieren verbessern und dass die Einflussmuster auf Tokenebene für mathematisches und programmiertechnisches Denken unterschiedlich sind: Erstere bevorzugen logische Verbindungselemente in natürlicher Sprache, während Letztere strukturelle Syntax betonen.

26

Vibe-Coding vs. Agentisches Coding: Grundlagen und praktische Implikationen agentischer KI
Vibe Coding vs. Agentic Coding: Fundamentals and Practical Implications of Agentic AI

May 26
ByRanjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee
15
2

Diese Übersicht bietet eine umfassende Analyse zweier aufkommender Paradigmen in der KI-gestützten Softwareentwicklung: Vibe Coding und Agentic Coding. Beide Ansätze nutzen große Sprachmodelle (LLMs), unterscheiden sich jedoch grundlegend in Bezug auf Autonomie, Architekturdesign und die Rolle des Entwicklers. Vibe Coding betont intuitive, menschzentrierte Interaktion durch promptbasierte, konversationelle Workflows, die Ideenfindung, Experimentieren und kreative Exploration unterstützen. Im Gegensatz dazu ermöglicht Agentic Coding autonome Softwareentwicklung durch zielgerichtete Agenten, die in der Lage sind, Aufgaben zu planen, auszuführen, zu testen und zu iterieren, mit minimalem menschlichem Eingreifen. Wir schlagen eine detaillierte Taxonomie vor, die konzeptionelle Grundlagen, Ausführungsmodelle, Feedback-Schleifen, Sicherheitsmechanismen, Debugging-Strategien und reale Werkzeugökosysteme umfasst. Durch vergleichende Workflow-Analysen und 20 detaillierte Anwendungsfälle zeigen wir, wie Vibe-Systeme in der frühen Prototypenentwicklung und Bildung gedeihen, während Agentic-Systeme in der Unternehmensautomatisierung, Codebase-Refaktorierung und CI/CD-Integration hervorstechen. Wir untersuchen weiterhin aufkommende Trends in hybriden Architekturen, bei denen natürliche Sprachschnittstellen mit autonomen Ausführungspipelines gekoppelt werden. Schließlich skizzieren wir eine zukünftige Roadmap für agentische KI, die die Infrastruktur für vertrauenswürdige, erklärbare und kollaborative Systeme beschreibt. Unsere Erkenntnisse deuten darauf hin, dass erfolgreiche KI-Softwareentwicklung nicht auf der Wahl eines Paradigmas beruht, sondern auf der Harmonisierung ihrer Stärken innerhalb eines einheitlichen, menschzentrierten Entwicklungslebenszyklus.

27

Verschachteltes Schließen für große Sprachmodelle durch Verstärkungslernen
Interleaved Reasoning for Large Language Models via Reinforcement Learning

May 26
ByRoy Xie, David Qiu, Deepak Gopinath, Dong Lin, Yanchao Sun, Chong Wang, Saloni Potdar, Bhuwan Dhingra
15
4

Langkettige Denkprozesse (Chain-of-Thought, CoT) verbessern die Fähigkeiten großer Sprachmodelle (Large Language Models, LLM) zur logischen Schlussfolgerung erheblich. Die umfangreichen Denkspuren führen jedoch zu Ineffizienzen und einer erhöhten Zeit bis zum ersten Token (Time-to-First-Token, TTFT). Wir schlagen ein neuartiges Trainingsparadigma vor, das Verstärkungslernen (Reinforcement Learning, RL) nutzt, um LLMs bei der Bearbeitung von Multi-Hop-Fragen dazu anzuleiten, Denken und Antworten zu verschachteln. Wir beobachten, dass Modelle von Natur aus die Fähigkeit besitzen, verschachteltes Denken durchzuführen, was durch RL weiter verbessert werden kann. Wir führen eine einfache, aber effektive regelbasierte Belohnung ein, um korrekte Zwischenschritte zu fördern, wodurch das Policy-Modell durch die Nutzung von Zwischensignalen, die während des verschachtelten Denkens erzeugt werden, auf korrekte Denkpfade gelenkt wird. Umfangreiche Experimente, die über fünf verschiedene Datensätze und drei RL-Algorithmen (PPO, GRPO und REINFORCE++) durchgeführt wurden, zeigen konsistente Verbesserungen gegenüber dem traditionellen Denken-Antworten-Ansatz, ohne dass externe Tools erforderlich sind. Insbesondere reduziert unser Ansatz die TTFT im Durchschnitt um über 80 % und verbessert die Pass@1-Genauigkeit um bis zu 19,3 %. Darüber hinaus zeigt unsere Methode, die ausschließlich auf Frage-Antwort- und logischen Schlussfolgerungsdatensätzen trainiert wurde, eine starke Generalisierungsfähigkeit auf komplexe Schlussfolgerungsdatensätze wie MATH, GPQA und MMLU. Zusätzlich führen wir eine detaillierte Analyse durch, um mehrere wertvolle Erkenntnisse zur bedingten Belohnungsmodellierung zu gewinnen.

28

AdaCtrl: Auf dem Weg zu adaptivem und steuerbarem Reasoning durch schwierigkeitsbewusstes Budgeting
AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting

May 24
ByShijue Huang, Hongru Wang, Wanjun Zhong, Zhaochen Su, Jiazhan Feng, Bowen Cao, Yi R. Fung
15
2

Moderne große Reasoning-Modelle zeigen beeindruckende Problemlösungsfähigkeiten durch den Einsatz ausgefeilter Reasoning-Strategien. Allerdings haben sie oft Schwierigkeiten, Effizienz und Effektivität in Einklang zu bringen, und erzeugen häufig unnötig lange Reasoning-Ketten für einfache Probleme. In dieser Arbeit schlagen wir AdaCtrl vor, ein neuartiges Framework, das sowohl eine schwierigkeitsabhängige adaptive Zuweisung des Reasoning-Budgets als auch eine explizite Benutzerkontrolle über die Reasoning-Tiefe unterstützt. AdaCtrl passt die Reasoning-Länge dynamisch basierend auf der selbst eingeschätzten Problemschwierigkeit an und ermöglicht es Benutzern gleichzeitig, das Budget manuell zu steuern, um entweder Effizienz oder Effektivität zu priorisieren. Dies wird durch eine zweistufige Trainingspipeline erreicht: eine anfängliche Cold-Start-Fine-Tuning-Phase, um die Fähigkeit zur Selbsteinschätzung der Schwierigkeit und zur Anpassung des Reasoning-Budgets zu vermitteln, gefolgt von einer schwierigkeitsabhängigen Reinforcement-Learning-(RL)-Phase, die die adaptiven Reasoning-Strategien des Modells verfeinert und seine Schwierigkeitseinschätzungen basierend auf seinen sich entwickelnden Fähigkeiten während des Online-Trainings kalibriert. Um eine intuitive Benutzerinteraktion zu ermöglichen, entwerfen wir explizite Längen-Trigger-Tags, die als natürliche Schnittstelle für die Budgetkontrolle fungieren. Empirische Ergebnisse zeigen, dass AdaCtrl die Reasoning-Länge basierend auf der geschätzten Schwierigkeit anpasst. Im Vergleich zum Standard-Training-Baseline, der ebenfalls Fine-Tuning und RL beinhaltet, erzielt es Leistungsverbesserungen und reduziert gleichzeitig die Antwortlänge um 10,06 % und 12,14 % auf den anspruchsvolleren AIME2024- und AIME2025-Datensätzen, die ein ausgefeiltes Reasoning erfordern, und um 62,05 % und 91,04 % auf den MATH500- und GSM8K-Datensätzen, bei denen prägnantere Antworten ausreichen. Darüber hinaus ermöglicht AdaCtrl eine präzise Benutzerkontrolle über das Reasoning-Budget, um maßgeschneiderte Antworten für spezifische Anforderungen zu liefern.

29

MLR-Bench: Bewertung von KI-Agenten in offener maschineller Lernforschung
MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research

May 26
ByHui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Yufei He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi
14
1

Jüngste Fortschritte bei KI-Agenten haben ihr wachsendes Potenzial gezeigt, wissenschaftliche Entdeckungen voranzutreiben und zu unterstützen. In dieser Arbeit stellen wir MLR-Bench vor, einen umfassenden Benchmark zur Bewertung von KI-Agenten in der offenen Forschung des maschinellen Lernens. MLR-Bench umfasst drei Schlüsselkomponenten: (1) 201 Forschungsaufgaben, die aus Workshops von NeurIPS, ICLR und ICML stammen und verschiedene ML-Themen abdecken; (2) MLR-Judge, ein automatisiertes Bewertungsframework, das LLM-basierte Gutachter mit sorgfältig gestalteten Bewertungskriterien kombiniert, um die Forschungsqualität zu beurteilen; und (3) MLR-Agent, ein modularer Agentenrahmen, der in der Lage ist, Forschungsaufgaben in vier Phasen zu bearbeiten: Ideengenerierung, Vorschlagsformulierung, Experimentierung und Artikelverfassung. Unser Framework unterstützt sowohl die schrittweise Bewertung über diese verschiedenen Forschungsphasen hinweg als auch die End-to-End-Bewertung des finalen Forschungsartikels. Anschließend verwenden wir MLR-Bench, um sechs fortschrittliche LLMs und einen fortgeschrittenen Code-Agenten zu bewerten. Dabei stellen wir fest, dass LLMs zwar effektiv kohärente Ideen und gut strukturierte Artikel generieren können, aktuelle Code-Agenten jedoch häufig (z. B. in 80 % der Fälle) fabrizierte oder nicht validierte experimentelle Ergebnisse liefern – was ein erhebliches Hindernis für die wissenschaftliche Zuverlässigkeit darstellt. Wir validieren MLR-Judge durch menschliche Bewertungen, die eine hohe Übereinstimmung mit Experten-Gutachtern zeigen, und unterstützen damit sein Potenzial als skalierbares Tool für die Forschungsbewertung. Wir stellen MLR-Bench als Open-Source zur Verfügung, um der Community zu helfen, KI-Forschungsagenten zu benchmarken, zu diagnostizieren und zu verbessern, hin zu vertrauenswürdiger und transparenter wissenschaftlicher Entdeckung.

30

Die Suche nach effizientem Schließen: Ein datenzentrierter Benchmark für CoT-Destillation
The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation

May 24
ByRuichen Zhang, Rana Muhammad Shahroz Khan, Zhen Tan, Dawei Li, Song Wang, Tianlong Chen
14
3

Datenzentrierte Destillation, einschließlich Datenaugmentierung, -auswahl und -mischung, bietet einen vielversprechenden Weg zur Erstellung kleinerer, effizienterer Schüler-Large Language Models (LLMs), die starke Fähigkeiten zur logischen Schlussfolgerung beibehalten. Es fehlt jedoch noch ein umfassender Benchmark, um die Auswirkungen jedes Destillationsansatzes systematisch zu bewerten. Dieses Papier stellt DC-CoT vor, den ersten datenzentrierten Benchmark, der die Datenmanipulation bei der Chain-of-Thought (CoT)-Destillation aus methodischer, modell- und datenbezogener Perspektive untersucht. Unter Verwendung verschiedener Lehrermodelle (z. B. o4-mini, Gemini-Pro, Claude-3.5) und Schülerarchitekturen (z. B. 3B, 7B Parameter) bewerten wir rigoros die Auswirkungen dieser Datenmanipulationen auf die Leistung der Schülermodelle über mehrere logische Schlussfolgerungsdatensätze hinweg, mit einem Fokus auf In-Distribution (IID)- und Out-of-Distribution (OOD)-Generalisierung sowie domänenübergreifenden Transfer. Unsere Ergebnisse sollen umsetzbare Erkenntnisse liefern und Best Practices für die Optimierung der CoT-Destillation durch datenzentrierte Techniken etablieren, um letztendlich die Entwicklung zugänglicherer und leistungsfähigerer Modelle zur logischen Schlussfolgerung zu erleichtern. Der Datensatz ist unter https://huggingface.co/datasets/rana-shahroz/DC-COT zu finden, während unser Code unter https://anonymous.4open.science/r/DC-COT-FF4C/ geteilt wird.

31

WHISTRESS: Anreicherung von Transkriptionen durch Satzbetonungserkennung
WHISTRESS: Enriching Transcriptions with Sentence Stress Detection

May 25
ByIddo Yosha, Dorin Shteyman, Yossi Adi
13
2

Gesprochene Sprache vermittelt Bedeutung nicht nur durch Worte, sondern auch durch Intonation, Emotion und Betonung. Satzbetonung, die Hervorhebung bestimmter Wörter innerhalb eines Satzes, ist entscheidend für die Vermittlung der Sprecherabsicht und wurde in der Linguistik ausführlich untersucht. In dieser Arbeit stellen wir WHISTRESS vor, einen alignierungsfreien Ansatz zur Verbesserung von Transkriptionssystemen mit Satzbetonungserkennung. Zur Unterstützung dieser Aufgabe schlagen wir TINYSTRESS-15K vor, ein skalierbares, synthetisches Trainingsdatenmaterial für die Aufgabe der Satzbetonungserkennung, das aus einem vollständig automatisierten Datensatz-Erstellungsprozess resultiert. Wir trainieren WHISTRESS auf TINYSTRESS-15K und bewerten es gegen mehrere wettbewerbsfähige Baselines. Unsere Ergebnisse zeigen, dass WHISTRESS bestehende Methoden übertrifft, während es während des Trainings oder der Inferenz keine zusätzlichen Eingabeprioritäten benötigt. Bemerkenswerterweise zeigt WHISTRESS trotz des Trainings auf synthetischen Daten eine starke Zero-Shot-Generalisierung über diverse Benchmarks hinweg. Projektseite: https://pages.cs.huji.ac.il/adiyoss-lab/whistress.

32

Speichereffizientes visuelles autoregressives Modellieren mit skalensensitiver KV-Cache-Komprimierung
Memory-Efficient Visual Autoregressive Modeling with Scale-Aware KV Cache Compression

May 26
ByKunjun Li, Zigeng Chen, Cheng-Yen Yang, Jenq-Neng Hwang
13
2

Das Visual Autoregressive (VAR) Modell hat aufgrund seines innovativen Ansatzes zur Vorhersage auf der nächsten Skala erhebliche Aufmerksamkeit erregt, was zu deutlichen Verbesserungen in Effizienz, Skalierbarkeit und Zero-Shot-Generalisierung führt. Dennoch führt die in VAR inhärente Methode von grob zu fein zu einem exponentiellen Wachstum des KV-Caches während der Inferenz, was erheblichen Speicherverbrauch und Rechenredundanz verursacht. Um diese Engpässe zu adressieren, stellen wir ScaleKV vor, ein neuartiges KV-Cache-Kompressionsframework, das speziell für VAR-Architekturen entwickelt wurde. ScaleKV nutzt zwei kritische Beobachtungen: unterschiedliche Cache-Anforderungen über die Transformer-Schichten hinweg und unterschiedliche Aufmerksamkeitsmuster auf verschiedenen Skalen. Basierend auf diesen Erkenntnissen kategorisiert ScaleKV die Transformer-Schichten in zwei funktionale Gruppen: Drafters und Refiners. Drafters zeigen eine verteilte Aufmerksamkeit über mehrere Skalen hinweg und benötigen daher eine größere Cache-Kapazität. Im Gegensatz dazu konzentrieren Refiners die Aufmerksamkeit auf die aktuelle Token-Map, um lokale Details zu verarbeiten, was folglich eine deutlich reduzierte Cache-Kapazität erfordert. ScaleKV optimiert die Multi-Scale-Inferenzpipeline, indem es skalen-spezifische Drafters und Refiners identifiziert und so eine differenzierte Cache-Verwaltung ermöglicht, die auf jede Skala zugeschnitten ist. Die Evaluierung auf der state-of-the-art Text-zu-Bild-VAR-Modellfamilie, Infinity, zeigt, dass unser Ansatz den benötigten KV-Cache-Speicher effektiv auf 10 % reduziert, während die Pixelgenauigkeit erhalten bleibt.

33

Erledigt ist besser als perfekt: Effizientes Schließen durch strukturierte Mehrschritt-Zerlegung freisetzen
Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition

May 26
ByZihao Zeng, Xuyao Huang, Boxiu Li, Hao Zhang, Zhijie Deng
13
2

Große Reasoning-Modelle (LRMs) werden dafür kritisiert, dass sie übermäßig lange Denkketten (Chain-of-Thought, CoT) benötigen, um die endgültige Antwort abzuleiten, was zu hoher Latenz beim ersten Token und insgesamt führt. Typischerweise vermischt die CoT von LRMs mehrere Denkeinheiten; jede Einheit versucht, eine mögliche Antwort auf die ursprüngliche Anfrage zu erzeugen. Daher liegt die naheliegende Idee zur Effizienzsteigerung darin, die Anzahl der Einheiten zu reduzieren. Allerdings macht die Tatsache, dass die Denkeinheiten in der herkömmlichen CoT nicht explizit verwaltet werden können, dies zu einer Herausforderung. Dieses Paper stellt Multi-Turn Decomposition (MinD) vor, um die herkömmliche CoT in eine Sequenz expliziter, strukturierter und turn-basierter Interaktionen zu decodieren und so die Lücke zu schließen. In MinD liefert das Modell eine mehrstufige Antwort auf die Anfrage, wobei jede Stufe eine Denkeinheit umfasst und eine entsprechende Antwort liefert. Die nachfolgenden Stufen können die Denkprozesse und Antworten der vorherigen Stufen reflektieren, überprüfen, revidieren oder alternative Ansätze erkunden. Dies ermöglicht nicht nur eine schnellere Antwortlieferung, sondern auch eine explizite Kontrolle über den iterativen Denkprozess (d.h., Benutzer können den Prozess an jeder Stufe anhalten oder fortsetzen). Wir folgen einem Paradigma aus Supervised Fine-Tuning (SFT) und anschließendem Reinforcement Learning (RL), um MinD zu realisieren. Zunächst formulieren wir die Ausgaben eines LRMs in mehrstufige Formate um, indem wir ein weiteres LLM anweisen, und trainieren dann das LRM mit diesen Daten. Da wir beobachten, dass das trainierte Modell tendenziell sogar mehr Tokens verbraucht als das ursprüngliche (wahrscheinlich weil die mehrstufigen Formate zusätzliche Antwort-Tokens einführen), plädieren wir dafür, RL-Algorithmen wie GRPO zu nutzen, um korrekte Ausgaben mit weniger Stufen zu priorisieren. Auf dem MATH-Datensatz mit R1-Distill-Modellen trainiert, kann MinD eine Reduktion der Ausgabe-Tokens und der Zeit bis zum ersten Token (TTFT) von bis zu ~70 % erreichen, während es eine wettbewerbsfähige Leistung auf Reasoning-Benchmarks wie MATH-500, AIME24, AMC23 und GPQA-Diamond beibehält.

34

G1: Bootstrapping von Wahrnehmungs- und Denkfähigkeiten eines Vision-Sprache-Modells durch Reinforcement Learning
G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

May 19
ByLiang Chen, Hongcheng Gao, Tianyu Liu, Zhiqi Huang, Flood Sung, Xinyu Zhou, Yuxin Wu, Baobao Chang
13
2

Vision-Language Models (VLMs) glänzen in vielen direkten multimodalen Aufgaben, haben jedoch Schwierigkeiten, diese Fähigkeiten in effektive Entscheidungsfindung in interaktiven, visuell reichhaltigen Umgebungen wie Spielen zu übertragen. Diese „Wissen-Handeln“-Lücke schränkt ihr Potenzial als autonome Agenten erheblich ein, da führende VLMs oft in einfachen Spielen schlecht abschneiden. Um dies zu adressieren, stellen wir VLM-Gym vor, eine kuratierte Reinforcement-Learning (RL)-Umgebung, die diverse visuelle Spiele mit einheitlichen Schnittstellen und anpassbarer, kompositioneller Schwierigkeit bietet, speziell entwickelt für skalierbares Multi-Game-Parallel-Training. Mit VLM-Gym trainieren wir G0-Modelle mittels reinem RL-gesteuertem Selbstentwicklungsprozess, die emergente Wahrnehmungs- und Denkmuster demonstrieren. Um die Herausforderungen durch die Spielvielfalt weiter zu mildern, entwickeln wir G1-Modelle. G1 integriert eine wahrnehmungsgesteuerte Kaltstartphase vor dem RL-Feintuning. Unsere resultierenden G1-Modelle übertreffen konsequent ihre Lehrer in allen Spielen und übertreffen führende proprietäre Modelle wie Claude-3.7-Sonnet-Thinking. Systematische Analysen offenbaren eine interessante Erkenntnis: Wahrnehmungs- und Denkfähigkeiten bootstrappen sich gegenseitig während des RL-Trainingsprozesses. Der Quellcode, einschließlich VLM-Gym und RL-Training, wird unter https://github.com/chenllliang/G1 veröffentlicht, um zukünftige Forschung zur Weiterentwicklung von VLMs als fähige interaktive Agenten zu fördern.

35

WINA: Gewichtsbasierte Neuronaktivierung zur Beschleunigung der Inferenz großer Sprachmodelle
WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference

May 26
BySihan Chen, Dan Zhao, Jongwoo Ko, Colby Banbury, Huiping Zhuang, Luming Liang, Tianyi Chen
11
2

Die steigenden Rechenanforderungen großer Sprachmodelle (LLMs) machen effiziente Inferenz- und Aktivierungsstrategien zunehmend kritisch. Während aktuelle Ansätze wie Mixture-of-Experts (MoE) selektive Aktivierung nutzen, jedoch spezialisiertes Training erfordern, bieten trainingsfreie spärliche Aktivierungsmethoden durch ihren Plug-and-Play-Ansatz breitere Anwendbarkeit und überlegene Ressourceneffizienz. Viele bestehende Methoden verlassen sich jedoch ausschließlich auf die Größen der verborgenen Zustände, um die Aktivierung zu bestimmen, was zu hohen Approximationsfehlern und suboptimaler Inferenzgenauigkeit führt. Um diese Einschränkungen zu adressieren, schlagen wir WINA (Weight Informed Neuron Activation) vor, ein neuartiges, einfaches und trainingsfreies spärliches Aktivierungsframework, das sowohl die Größen der verborgenen Zustände als auch die spaltenweisen ℓ₂-Normen der Gewichtsmatrizen gemeinsam berücksichtigt. Wir zeigen, dass dies zu einer Sparsifizierungsstrategie führt, die optimale Approximationsfehlergrenzen mit theoretisch engeren Garantien als bestehende Techniken erreicht. Empirisch übertrifft WINA auch state-of-the-art Methoden (z. B. TEAL) um bis zu 2,94 % in der durchschnittlichen Leistung bei gleichen Sparsitätsniveaus über eine Vielzahl von LLM-Architekturen und Datensätzen hinweg. Diese Ergebnisse positionieren WINA als eine neue Leistungsgrenze für trainingsfreie spärliche Aktivierung in der LLM-Inferenz, die trainingsfreie spärliche Aktivierungsmethoden vorantreibt und eine robuste Baseline für effiziente Inferenz setzt. Der Quellcode ist unter https://github.com/microsoft/wina verfügbar.

36

Force Prompting: Videogenerationsmodelle können physikbasierte Steuersignale erlernen und verallgemeinern
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

May 26
ByNate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal, Evan Luo, Deqing Sun, Chen Sun
11
2

Jüngste Fortschritte bei Video-Generierungsmodellen haben das Interesse an Weltmodellen geweckt, die realistische Umgebungen simulieren können. Während Navigation bereits gut erforscht wurde, bleiben physikalisch bedeutsame Interaktionen, die reale Kräfte nachahmen, weitgehend unerforscht. In dieser Arbeit untersuchen wir die Verwendung physikalischer Kräfte als Steuersignal für die Video-Generierung und schlagen Kraft-Prompts vor, die es Benutzern ermöglichen, mit Bildern sowohl durch lokalisierte Punktkräfte, wie das Berühren einer Pflanze, als auch durch globale Windkraftfelder, wie Wind, der auf Stoff wirkt, zu interagieren. Wir zeigen, dass diese Kraft-Prompts Videos ermöglichen, realistisch auf physikalische Steuersignale zu reagieren, indem sie das visuelle und Bewegungs-Prior des ursprünglich vortrainierten Modells nutzen, ohne dabei auf 3D-Assets oder Physik-Simulatoren während der Inferenz zurückzugreifen. Die Hauptherausforderung bei der Kraft-Prompting liegt in der Schwierigkeit, hochwertige gepaarte Kraft-Video-Trainingsdaten zu erhalten, sowohl in der realen Welt aufgrund der Schwierigkeit, Kraftsignale zu erfassen, als auch bei synthetischen Daten aufgrund von Einschränkungen in der visuellen Qualität und Domänenvielfalt von Physik-Simulatoren. Unsere zentrale Erkenntnis ist, dass Video-Generierungsmodelle bemerkenswert gut generalisieren können, wenn sie an die Bedingung durch physikalische Kräfte aus Videos, die mit Blender synthetisiert wurden, angepasst werden, selbst mit begrenzten Demonstrationen weniger Objekte. Unsere Methode kann Videos generieren, die Kräfte über diverse Geometrien, Umgebungen und Materialien hinweg simulieren. Wir versuchen auch, die Quelle dieser Generalisierung zu verstehen und führen Ablationen durch, die zwei Schlüsselelemente offenbaren: visuelle Vielfalt und die Verwendung spezifischer Text-Schlüsselwörter während des Trainings. Unser Ansatz wird mit nur etwa 15.000 Trainingsbeispielen für einen einzigen Tag auf vier A100-GPUs trainiert und übertrifft bestehende Methoden in Bezug auf Kraftadhärenz und physikalische Realismus, wodurch Weltmodelle näher an realen physikalischen Interaktionen gebracht werden. Wir veröffentlichen alle Datensätze, Code, Gewichte und interaktive Video-Demos auf unserer Projektseite.

37

Hartes Negatives Kontrastives Lernen für feinkörniges geometrisches Verständnis in großen multimodalen Modellen
Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

May 26
ByKai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li
11
1

Durch die Nutzung von kontrastiv trainierten visuellen Encodern auf groß angelegten natürlichen Szenenbildern haben Large Multimodal Models (LMMs) bemerkenswerte Leistungen in verschiedenen visuellen Wahrnehmungsaufgaben erzielt. Die inhärenten Grenzen des kontrastiven Lernens auf der Grundlage von zusammengefassten Beschreibungen schränken jedoch grundlegend die Fähigkeiten der Modelle in Bezug auf sorgfältiges logisches Denken ein, insbesondere in entscheidenden Szenarien der geometrischen Problemlösung. Um das geometrische Verständnis zu verbessern, schlagen wir ein neuartiges Framework für kontrastives Lernen mit harten Negativbeispielen für den visuellen Encoder vor, das bildbasiertes kontrastives Lernen unter Verwendung von generierungsbasierten harten Negativbeispielen, die durch Störung des Diagrammgenerierungscodes erstellt werden, und textbasiertes kontrastives Lernen mit regelbasierten Negativbeispielen, die aus modifizierten geometrischen Beschreibungen abgeleitet werden, sowie retrieval-basierten Negativbeispielen, die auf der Ähnlichkeit von Bildunterschriften ausgewählt werden, kombiniert. Wir trainieren CLIP mit unserer Methode des starken negativen Lernens, genannt MMCLIP (Multimodal Math CLIP), und trainieren anschließend ein LMM für die Lösung geometrischer Probleme. Experimente zeigen, dass unser trainiertes Modell, MMGeoLM, andere Open-Source-Modelle auf drei geometrischen Reasoning-Benchmarks deutlich übertrifft. Selbst mit einer Größe von 7B kann es leistungsstarke Closed-Source-Modelle wie GPT-4o konkurrieren. Wir untersuchen weiterhin die Auswirkungen verschiedener Methoden zur Konstruktion von Negativbeispielen und die Anzahl der Negativbeispiele auf die geometrische Reasoning-Leistung von LMM, was zu fruchtbaren Erkenntnissen führt. Der Code und der Datensatz sind unter https://github.com/THU-KEG/MMGeoLM verfügbar.

38

STAR-R1: Räumliche Transformationslogik durch Verstärkung multimodaler LLMs
STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs

May 21
ByZongzhao Li, Zongyang Ma, Mingze Li, Songyou Li, Yu Rong, Tingyang Xu, Ziqi Zhang, Deli Zhao, Wenbing Huang
10
2

Multimodale Large Language Models (MLLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Aufgaben gezeigt, liegen jedoch in Bezug auf räumliches Denken deutlich hinter dem Menschen zurück. Wir untersuchen diese Lücke durch Transformation-Driven Visual Reasoning (TVR), eine anspruchsvolle Aufgabe, die die Identifikation von Objekttransformationen über Bilder unter variierenden Blickwinkeln erfordert. Während traditionelles Supervised Fine-Tuning (SFT) in cross-view-Szenarien keine kohärenten Denkpfade erzeugen kann, leidet spärlich belohntes Reinforcement Learning (RL) unter ineffizienter Exploration und langsamer Konvergenz. Um diese Einschränkungen zu überwinden, schlagen wir STAR-R1 vor, ein neuartiges Framework, das ein einstufiges RL-Paradigma mit einem fein abgestimmten Belohnungsmechanismus speziell für TVR kombiniert. Konkret belohnt STAR-R1 teilweise Korrektheit, während es übermäßige Enumeration und passive Untätigkeit bestraft, wodurch effiziente Exploration und präzises Denken ermöglicht werden. Umfassende Auswertungen zeigen, dass STAR-R1 in allen 11 Metriken state-of-the-art Leistungen erzielt und SFT in cross-view-Szenarien um 23 % übertrifft. Weitere Analysen offenbaren das anthropomorphe Verhalten von STAR-R1 und unterstreichen seine einzigartige Fähigkeit, alle Objekte zu vergleichen, um das räumliche Denken zu verbessern. Unsere Arbeit liefert entscheidende Erkenntnisse für die Weiterentwicklung der Forschung zu MLLMs und Denkmodellen. Die Codes, Modellgewichte und Daten werden unter https://github.com/zongzhao23/STAR-R1 öffentlich verfügbar sein.

39

InfantAgent-Next: Ein multimodaler Generalist-Agent für automatisierte Computerinteraktion
InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction

May 16
ByBin Lei, Weitai Kang, Zijian Zhang, Winson Chen, Xi Xie, Shan Zuo, Mimi Xie, Ali Payani, Mingyi Hong, Yan Yan, Caiwen Ding
10
2

Dieses Papier stellt InfantAgent-Next vor, einen generalistischen Agenten, der in der Lage ist, multimodal mit Computern zu interagieren, einschließlich Text, Bildern, Audio und Video. Im Gegensatz zu bestehenden Ansätzen, die entweder komplexe Workflows um ein einzelnes großes Modell herum aufbauen oder lediglich Workflow-Modularität bieten, integriert unser Agent werkzeugbasierte und rein visuelle Agenten in einer hochgradig modularen Architektur. Dies ermöglicht es verschiedenen Modellen, gemeinsam entkoppelte Aufgaben schrittweise zu lösen. Unsere Allgemeingültigkeit wird dadurch demonstriert, dass wir nicht nur rein visuell basierte Benchmarks der realen Welt (z. B. OSWorld), sondern auch allgemeinere oder werkzeugintensive Benchmarks (z. B. GAIA und SWE-Bench) bewerten können. Insbesondere erreichen wir eine Genauigkeit von 7,27 % auf OSWorld, was höher ist als bei Claude-Computer-Use. Die Codes und Evaluierungsskripte sind unter https://github.com/bin123apple/InfantAgent quelloffen verfügbar.

40

LLaDA 1.5: Varianzreduzierte Präferenzoptimierung für große Sprachdiffusionsmodelle
LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models

May 25
ByFengqi Zhu, Rongzhen Wang, Shen Nie, Xiaolu Zhang, Chunwei Wu, Jun Hu, Jun Zhou, Jianfei Chen, Yankai Lin, Ji-Rong Wen, Chongxuan Li
9
2

Während Masked Diffusion Models (MDMs) wie LLaDA ein vielversprechendes Paradigma für Sprachmodellierung darstellen, wurde bisher relativ wenig Aufwand in die Ausrichtung dieser Modelle an menschlichen Präferenzen mittels Reinforcement Learning investiert. Die Herausforderung ergibt sich hauptsächlich aus der hohen Varianz in den auf der Evidence Lower Bound (ELBO) basierenden Wahrscheinlichkeitsschätzungen, die für die Präferenzoptimierung erforderlich sind. Um dieses Problem zu lösen, schlagen wir Variance-Reduced Preference Optimization (VRPO) vor, ein Framework, das die Varianz von ELBO-Schätzern formal analysiert und Grenzen für sowohl die Verzerrung als auch die Varianz der Präferenzoptimierungsgradienten ableitet. Auf dieser theoretischen Grundlage aufbauend führen wir unverzerrte Varianzreduktionsstrategien ein, einschließlich optimaler Monte-Carlo-Budgetzuweisung und antithetischer Stichprobenziehung, die die Leistung der MDM-Ausrichtung erheblich verbessern. Wir demonstrieren die Wirksamkeit von VRPO, indem wir es auf LLaDA anwenden, und das resultierende Modell, LLaDA 1.5, übertrifft seinen rein auf Supervised Fine-Tuning (SFT) basierenden Vorgänger konsistent und signifikant in mathematischen (GSM8K +4.7), Code- (HumanEval +3.0, MBPP +1.8) und Ausrichtungs-Benchmarks (IFEval +4.0, Arena-Hard +4.3). Darüber hinaus zeigt LLaDA 1.5 eine äußerst wettbewerbsfähige mathematische Leistung im Vergleich zu starken Sprach-MDMs und ARMs. Projektseite: https://ml-gsai.github.io/LLaDA-1.5-Demo/.

41

Von Dutzenden Stunden zu Zehntausenden: Skalierung der Rückübersetzung für Spracherkennung
From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition

May 22
ByTianduo Wang, Lu Xu, Wei Lu, Shanbo Cheng
9
2

Jüngste Fortschritte in der automatischen Spracherkennung (Automatic Speech Recognition, ASR) wurden maßgeblich durch umfangreiche Sprachkorpora vorangetrieben. Die Erweiterung der Abdeckung auf diverse Sprachen mit begrenzten Ressourcen bleibt jedoch eine beträchtliche Herausforderung. Dieses Papier stellt Speech Back-Translation vor, eine skalierbare Pipeline, die mehrsprachige ASR-Modelle verbessert, indem große Textkorpora mithilfe von verfügbaren Text-zu-Sprache-Modellen (Text-to-Speech, TTS) in synthetische Sprache umgewandelt werden. Wir zeigen, dass bereits einige Dutzend Stunden transkribierter realer Sprache ausreichen, um TTS-Modelle effektiv zu trainieren, die synthetische Sprache in einem Umfang von mehreren hundert Mal der ursprünglichen Menge bei hoher Qualität erzeugen können. Um die Qualität der synthetischen Sprache zu bewerten, entwickeln wir ein auf Verständlichkeit basierendes Bewertungsframework und legen klare Schwellenwerte fest, ab denen synthetische Daten das ASR-Training verbessern. Mit Speech Back-Translation erzeugen wir mehr als 500.000 Stunden synthetischer Sprache in zehn Sprachen und setzen das Vortraining von Whisper-large-v3 fort, wodurch wir durchschnittliche Reduktionen der Transkriptionsfehler von über 30\% erreichen. Diese Ergebnisse unterstreichen die Skalierbarkeit und Effektivität von Speech Back-Translation zur Verbesserung mehrsprachiger ASR-Systeme.

42

Dynamische Risikobewertungen für offensive Cybersicherheitsagenten
Dynamic Risk Assessments for Offensive Cybersecurity Agents

May 23
ByBoyi Wei, Benedikt Stroebl, Jiacen Xu, Joie Zhang, Zhou Li, Peter Henderson
8
2

Foundation Models werden zunehmend bessere autonome Programmierer, was die Aussicht eröffnet, dass sie auch gefährliche offensive Cyber-Operationen automatisieren könnten. Aktuelle Audits von Frontier-Modellen untersuchen die Cybersicherheitsrisiken solcher Agenten, aber die meisten berücksichtigen nicht die Freiheitsgrade, die Angreifern in der realen Welt zur Verfügung stehen. Insbesondere mit starken Verifizierern und finanziellen Anreizen sind Agenten für offensive Cybersicherheit anfällig für iterative Verbesserungen durch potenzielle Angreifer. Wir argumentieren, dass Bewertungen ein erweitertes Bedrohungsmodell im Kontext der Cybersicherheit berücksichtigen sollten, das die unterschiedlichen Freiheitsgrade betont, die ein Angreifer in zustandsbehafteten und zustandslosen Umgebungen innerhalb eines festen Rechenbudgets besitzen kann. Wir zeigen, dass selbst mit einem relativ kleinen Rechenbudget (8 H100 GPU-Stunden in unserer Studie) Angreifer die Cybersicherheitsfähigkeit eines Agenten auf InterCode CTF um mehr als 40 % im Vergleich zur Baseline verbessern können – ohne jegliche externe Unterstützung. Diese Ergebnisse unterstreichen die Notwendigkeit, das Cybersicherheitsrisiko von Agenten auf dynamische Weise zu bewerten, um ein repräsentativeres Bild des Risikos zu zeichnen.

43

Starke Membership-Inference-Angriffe auf umfangreiche Datensätze und (mäßig) große Sprachmodelle
Strong Membership Inference Attacks on Massive Datasets and (Moderately) Large Language Models

May 24
ByJamie Hayes, Ilia Shumailov, Christopher A. Choquette-Choo, Matthew Jagielski, George Kaissis, Katherine Lee, Milad Nasr, Sahra Ghalebikesabi, Niloofar Mireshghallah, Meenatchi Sundaram Mutu Selva Annamalai, Igor Shilov, Matthieu Meeus, Yves-Alexandre de Montjoye, Franziska Boenisch, Adam Dziedzic, A. Feder Cooper
7
2

State-of-the-art-Mitgliedschafts-Inferenzangriffe (MIAs) erfordern typischerweise das Training vieler Referenzmodelle, was es schwierig macht, diese Angriffe auf große vortrainierte Sprachmodelle (LLMs) zu skalieren. Infolgedessen hat sich die bisherige Forschung entweder auf schwächere Angriffe gestützt, die das Training von Referenzmodellen vermeiden (z. B. Fine-Tuning-Angriffe), oder auf stärkere Angriffe, die auf kleinere Modelle und Datensätze angewendet wurden. Schwächere Angriffe haben sich jedoch als brüchig erwiesen – sie erreichen nahezu willkürliche Erfolgsraten – und Erkenntnisse aus starken Angriffen in vereinfachten Settings lassen sich nicht auf die heutigen LLMs übertragen. Diese Herausforderungen haben eine wichtige Frage aufgeworfen: Sind die in früheren Arbeiten beobachteten Einschränkungen auf die Angriffsdesign-Entscheidungen zurückzuführen, oder sind MIAs grundsätzlich bei LLMs unwirksam? Wir gehen dieser Frage nach, indem wir LiRA – einen der stärksten MIAs – auf GPT-2-Architekturen mit 10M bis 1B Parametern skalieren und Referenzmodelle auf über 20B Tokens aus dem C4-Datensatz trainieren. Unsere Ergebnisse erweitern das Verständnis von MIAs auf LLMs in drei entscheidenden Aspekten: (1) starke MIAs können bei vortrainierten LLMs erfolgreich sein; (2) ihre Wirksamkeit bleibt jedoch in praktischen Anwendungen begrenzt (z. B. AUC<0,7); und (3) die Beziehung zwischen dem Erfolg von MIAs und verwandten Datenschutzmetriken ist nicht so eindeutig, wie frühere Arbeiten nahegelegt haben.

44

DoctorAgent-RL: Ein Multi-Agenten-Kollaboratives Reinforcement-Learning-System für Mehrschrittige Klinische Dialoge
DoctorAgent-RL: A Multi-Agent Collaborative Reinforcement Learning System for Multi-Turn Clinical Dialogue

May 26
ByYichun Feng, Jiawei Wang, Lu Zhou, Yixue Li
7
2

Große Sprachmodelle (LLMs) haben hervorragende Fähigkeiten im Bereich der biomedizinischen Frage-Antwort-Systeme gezeigt, doch ihre Anwendung in realen klinischen Konsultationen steht weiterhin vor zentralen Herausforderungen. Bestehende Systeme basieren auf einem einseitigen Informationsübertragungsmodus, bei dem Patienten ihre Symptome in einer einzigen Runde vollständig beschreiben müssen, was zu unspezifischen Diagnoseempfehlungen führt, wenn die Beschwerden vage sind. Traditionelle mehrstufige Dialogmethoden, die auf überwachtem Lernen basieren, sind durch statische, datengetriebene Paradigmen eingeschränkt, weisen mangelnde Generalisierbarkeit auf und haben Schwierigkeiten, klinische Schlüsselinformationen intelligent zu extrahieren. Um diese Einschränkungen zu überwinden, schlagen wir DoctorAgent-RL vor, ein auf Reinforcement Learning (RL) basierendes Multi-Agenten-Kollaborationsframework, das medizinische Konsultationen als dynamischen Entscheidungsprozess unter Unsicherheit modelliert. Der Arzt-Agent optimiert kontinuierlich seine Fragestrategie innerhalb des RL-Frameworks durch mehrstufige Interaktionen mit dem Patienten-Agent und passt seinen Informationserfassungspfad dynamisch basierend auf umfassenden Belohnungen des Konsultationsbewerters an. Dieser RL-Feinabstimmungsmechanismus ermöglicht es LLMs, autonom Interaktionsstrategien zu entwickeln, die der klinischen Logik entsprechen, anstatt oberflächlich Muster in bestehenden Dialogdaten nachzuahmen. Bemerkenswert ist, dass wir MTMedDialog konstruiert haben, den ersten englischsprachigen mehrstufigen medizinischen Konsultationsdatensatz, der Patienteninteraktionen simulieren kann. Experimente zeigen, dass DoctorAgent-RL bestehende Modelle sowohl in der mehrstufigen Argumentationsfähigkeit als auch in der endgültigen Diagnoseleistung übertrifft und damit praktischen Wert bei der Unterstützung klinischer Konsultationen demonstriert. https://github.com/JarvisUSTC/DoctorAgent-RL

45

Das Coverage-Prinzip: Ein Rahmenwerk zum Verständnis von kompositioneller Generalisierung
The Coverage Principle: A Framework for Understanding Compositional Generalization

May 26
ByHoyeon Chang, Jinho Park, Hanseul Cho, Sohee Yang, Miyoung Ko, Hyeonbin Hwang, Seungpil Won, Dohaeng Lee, Youbin Ahn, Minjoon Seo
7
1

Große Sprachmodelle glänzen bei der Mustererkennung, scheitern jedoch oft an systematischer kompositioneller Generalisierung. Wir schlagen das Coverage-Prinzip vor: ein datenzentriertes Framework, das zeigt, dass Modelle, die sich hauptsächlich auf Mustererkennung für kompositionelle Aufgaben verlassen, nicht zuverlässig über die Substitution von Fragmenten hinaus generalisieren können, die in denselben Kontexten identische Ergebnisse liefern. Wir demonstrieren, dass dieses Framework eine starke Vorhersagekraft für die Generalisierungsfähigkeiten von Transformern besitzt. Erstens leiten wir ab und bestätigen empirisch, dass die für Zwei-Hop-Generalisierung erforderlichen Trainingsdaten mindestens quadratisch mit der Größe des Tokensatzes wachsen und die Effizienz der Trainingsdaten sich bei einer 20-fachen Parameterskalierung nicht verbessert. Zweitens zeigen wir für kompositionelle Aufgaben mit Pfadmehrdeutigkeit, bei denen eine Variable die Ausgabe über mehrere Berechnungspfade beeinflusst, dass Transformer kontextabhängige Zustandsrepräsentationen lernen, die sowohl die Leistung als auch die Interoperabilität untergraben. Drittens verbessert die Chain-of-Thought-Supervision die Effizienz der Trainingsdaten für Multi-Hop-Aufgaben, kämpft jedoch weiterhin mit Pfadmehrdeutigkeit. Schließlich skizzieren wir eine mechanismenbasierte Taxonomie, die drei Arten der Generalisierung in neuronalen Netzen unterscheidet: strukturbasiert (begrenzt durch Coverage), eigenschaftsbasiert (Nutzung algebraischer Invarianzen) und geteilter Operator (durch Wiederverwendung von Funktionen). Diese konzeptionelle Linse kontextualisiert unsere Ergebnisse und zeigt, wo neue architektonische Ideen benötigt werden, um systematische Kompositionalität zu erreichen. Insgesamt bietet das Coverage-Prinzip eine einheitliche Perspektive zum Verständnis kompositionellen Denkens und unterstreicht die Notwendigkeit grundlegender architektonischer oder Trainingsinnovationen, um echte systematische Kompositionalität zu erreichen.

46

Hybride latente Argumentation durch Reinforcement Learning
Hybrid Latent Reasoning via Reinforcement Learning

May 24
ByZhenrui Yue, Bowen Jin, Huimin Zeng, Honglei Zhuang, Zhen Qin, Jinsung Yoon, Lanyu Shang, Jiawei Han, Dong Wang
6
2

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben latentes Denken als vielversprechende Alternative zum autoregressiven Denken eingeführt. Durch die interne Berechnung mit verborgenen Zuständen aus vorherigen Schritten profitiert latentes Denken von informativeren Merkmalen, anstatt einen diskreten Pfad der Gedankenkette (Chain-of-Thought, CoT) zu samplen. Dennoch sind latente Denkansätze oft nicht mit LLMs kompatibel, da ihr kontinuierliches Paradigma mit der diskreten Natur der autoregressiven Generierung in Konflikt steht. Darüber hinaus stützen sich diese Methoden auf CoT-Spuren für das Training und nutzen somit die inhärenten Denkmuster von LLMs nicht aus. In dieser Arbeit untersuchen wir latentes Denken, indem wir die intrinsischen Fähigkeiten von LLMs durch Reinforcement Learning (RL) nutzen. Zu diesem Zweck führen wir die Hybrid Reasoning Policy Optimization (HRPO) ein, einen RL-basierten hybriden latenten Denkansatz, der (1) vorherige verborgene Zustände mit einem lernbaren Gating-Mechanismus in gesamplete Tokens integriert und (2) das Training überwiegend mit Token-Embeddings initialisiert, während schrittweise mehr verborgene Merkmale einbezogen werden. Dieses Design bewahrt die generativen Fähigkeiten von LLMs und fördert hybrides Denken unter Verwendung sowohl diskreter als auch kontinuierlicher Repräsentationen. Darüber hinaus führt die hybride HRPO durch Token-Sampling Stochastizität in das latente Denken ein, wodurch RL-basierte Optimierung ohne die Notwendigkeit von CoT-Trajektorien ermöglicht wird. Umfangreiche Evaluierungen über diverse Benchmarks zeigen, dass HRPO frühere Methoden sowohl bei wissens- als auch denkintensiven Aufgaben übertrifft. Darüber hinaus bleiben mit HRPO trainierte LLMs interpretierbar und zeigen interessante Verhaltensweisen wie mehrsprachige Muster und kürzere Abschlusslängen, was das Potenzial unseres RL-basierten Ansatzes unterstreicht und Einblicke für zukünftige Arbeiten im Bereich des latenten Denkens bietet.

47

Neubewertung der Sampling-Kriterien im Reinforcement Learning für LLM-Reasoning: Eine Perspektive der Kompetenz-Schwierigkeits-Ausrichtung
Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

May 23
ByDeyang Kong, Qi Guo, Xiangyu Xi, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
6
2

Reinforcement Learning zeigt Potenzial bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle, ist jedoch aufgrund der geringen Stichprobeneffizienz während der Rollout-Phase schwer skalierbar. Bestehende Methoden versuchen, die Effizienz durch die Planung von Problemen basierend auf deren Schwierigkeitsgrad zu verbessern. Diese Ansätze leiden jedoch unter instabilen und verzerrten Schätzungen des Schwierigkeitsgrads von Problemen und erfassen nicht die Übereinstimmung zwischen der Modellkompetenz und dem Schwierigkeitsgrad während des RL-Trainings, was zu suboptimalen Ergebnissen führt. Um diese Einschränkungen zu überwinden, stellt diese Arbeit das Competence-Difficulty Alignment Sampling (CDAS) vor, das eine genaue und stabile Schätzung des Schwierigkeitsgrads von Problemen durch die Aggregation historischer Leistungsunterschiede ermöglicht. Anschließend wird die Modellkompetenz quantifiziert, um adaptiv Probleme auszuwählen, deren Schwierigkeitsgrad mit der aktuellen Kompetenz des Modells übereinstimmt, wobei ein Fixpunktsystem verwendet wird. Experimentelle Ergebnisse über eine Reihe anspruchsvoller mathematischer Benchmarks zeigen, dass CDAS sowohl in Bezug auf Genauigkeit als auch Effizienz erhebliche Verbesserungen erzielt. CDAS erreicht die höchste durchschnittliche Genauigkeit im Vergleich zu den Baselines und weist signifikante Geschwindigkeitsvorteile gegenüber Dynamic Sampling auf, einer konkurrenzfähigen Strategie in DAPO, die 2,33-mal langsamer ist als CDAS.

48

Eine peinlich einfache Verteidigung gegen LLM-Zerstörungsangriffe
An Embarrassingly Simple Defense Against LLM Abliteration Attacks

May 25
ByHarethah Abu Shairah, Hasan Abed Al Kader Hammoud, Bernard Ghanem, George Turkiyyah
6
2

Große Sprachmodelle (LLMs) werden typischerweise so ausgerichtet, dass sie Sicherheitsrichtlinien einhalten, indem sie schädliche Anweisungen ablehnen. Ein kürzlich entdeckter Angriff, genannt Abliteration, isoliert und unterdrückt die einzelne latente Richtung, die hauptsächlich für das Ablehnungsverhalten verantwortlich ist, und ermöglicht es dem Modell, unethische Inhalte zu generieren. Wir schlagen eine Verteidigungsstrategie vor, die die Art und Weise, wie Modelle Ablehnungen generieren, verändert. Wir erstellen einen erweiterten Ablehnungsdatensatz, der schädliche Aufforderungen mit einer vollständigen Antwort enthält, die den Grund für die Ablehnung rechtfertigt. Anschließend feintunen wir Llama-2-7B-Chat und Qwen2.5-Instruct (1,5B und 3B Parameter) auf unserem erweiterten Ablehnungsdatensatz und bewerten die resultierenden Systeme anhand einer Reihe von schädlichen Aufforderungen. In unseren Experimenten behalten die Modelle mit erweiterter Ablehnung hohe Ablehnungsraten bei, die höchstens um 10 % sinken, während die Ablehnungsraten der Basismodelle nach der Abliteration um 70-80 % sinken. Eine umfassende Bewertung von Sicherheit und Nutzen zeigt, dass das Feintuning mit erweiterter Ablehnung den Abliterationsangriff neutralisiert, während die allgemeine Leistung erhalten bleibt.

49

"Überdenken" Sie das Reranking von Textpassagen nicht: Ist logisches Schließen wirklich notwendig?
Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary?

May 22
ByNour Jedidi, Yung-Sung Chuang, James Glass, Jimmy Lin
6
2

Mit dem zunehmenden Erfolg von Reasoning-Modellen bei komplexen Aufgaben der natürlichen Sprachverarbeitung haben Forscher in der Information-Retrieval-(IR)-Community begonnen zu untersuchen, wie ähnliche Reasoning-Fähigkeiten in Passagen-Reranker integriert werden können, die auf Large Language Models (LLMs) basieren. Diese Methoden verwenden typischerweise ein LLM, um einen expliziten, schrittweisen Reasoning-Prozess zu erzeugen, bevor eine endgültige Relevanzvorhersage getroffen wird. Aber verbessert Reasoning tatsächlich die Genauigkeit des Rerankings? In diesem Artikel gehen wir dieser Frage tiefer auf den Grund, indem wir die Auswirkungen des Reasoning-Prozesses untersuchen, indem wir Reasoning-basierte punktweise Reranker (ReasonRR) mit standardmäßigen, nicht-reasoning-basierten punktweisen Rerankern (StandardRR) unter identischen Trainingsbedingungen vergleichen. Dabei stellen wir fest, dass StandardRR im Allgemeinen besser abschneidet als ReasonRR. Aufbauend auf dieser Beobachtung untersuchen wir dann die Bedeutung des Reasoning für ReasonRR, indem wir dessen Reasoning-Prozess deaktivieren (ReasonRR-NoReason), und stellen fest, dass ReasonRR-NoReason überraschenderweise effektiver ist als ReasonRR. Bei der Untersuchung der Ursache dieses Ergebnisses zeigen unsere Erkenntnisse, dass Reasoning-basierte Reranker durch den Reasoning-Prozess des LLMs eingeschränkt werden, der es zu polarisierten Relevanzbewertungen drängt und somit die partielle Relevanz von Passagen nicht berücksichtigt, ein entscheidender Faktor für die Genauigkeit von punktweisen Rerankern.

50

Beschleunigung des Nash-Lernens aus menschlichem Feedback durch Mirror Prox
Accelerating Nash Learning from Human Feedback via Mirror Prox

May 26
ByDaniil Tiapkin, Daniele Calandriello, Denis Belomestny, Eric Moulines, Alexey Naumov, Kashif Rasul, Michal Valko, Pierre Menard
6
2

Traditionelles Reinforcement Learning from Human Feedback (RLHF) stützt sich oft auf Belohnungsmodelle, die häufig Präferenzstrukturen wie das Bradley-Terry-Modell annehmen, welche die Komplexität realer menschlicher Präferenzen (z. B. Intransitivität) möglicherweise nicht genau erfassen. Nash Learning from Human Feedback (NLHF) bietet eine direktere Alternative, indem es das Problem als die Suche nach einem Nash-Gleichgewicht eines durch diese Präferenzen definierten Spiels formuliert. In dieser Arbeit stellen wir Nash Mirror Prox (Nash-MP) vor, einen Online-NLHF-Algorithmus, der das Mirror-Prox-Optimierungsschema nutzt, um eine schnelle und stabile Konvergenz zum Nash-Gleichgewicht zu erreichen. Unsere theoretische Analyse zeigt, dass Nash-MP eine letztiterative lineare Konvergenz zum beta-regularierten Nash-Gleichgewicht aufweist. Insbesondere beweisen wir, dass die KL-Divergenz zur optimalen Politik mit einer Rate der Ordnung (1+2beta)^{-N/2} abnimmt, wobei N die Anzahl der Präferenzabfragen ist. Wir zeigen weiterhin eine letztiterative lineare Konvergenz für die Exploitability-Lücke und gleichmäßig für die Span-Halbnorm der Log-Wahrscheinlichkeiten, wobei alle diese Raten unabhängig von der Größe des Aktionsraums sind. Darüber hinaus schlagen wir eine approximative Version von Nash-MP vor und analysieren sie, bei der proximale Schritte mithilfe stochastischer Politikgradienten geschätzt werden, wodurch der Algorithmus näher an Anwendungen heranrückt. Schließlich erläutern wir eine praktische Implementierungsstrategie zur Feinabstimmung großer Sprachmodelle und präsentieren Experimente, die ihre wettbewerbsfähige Leistung und Kompatibilität mit bestehenden Methoden demonstrieren.

51

Position: Mechanistische Interpretierbarkeit sollte die Merkmalskonsistenz in SAEs priorisieren
Position: Mechanistic Interpretability Should Prioritize Feature Consistency in SAEs

May 26
ByXiangchen Song, Aashiq Muhamed, Yujia Zheng, Lingjing Kong, Zeyu Tang, Mona T. Diab, Virginia Smith, Kun Zhang
5
1

Sparse Autoencoder (SAEs) sind ein wichtiges Werkzeug in der mechanistischen Interpretierbarkeit (MI), um Aktivierungen in neuronalen Netzwerken in interpretierbare Merkmale zu zerlegen. Das Bestreben, einen kanonischen Satz von Merkmalen zu identifizieren, wird jedoch durch die beobachtete Inkonsistenz der gelernten SAE-Merkmale über verschiedene Trainingsläufe hinweg erschwert, was die Zuverlässigkeit und Effizienz der MI-Forschung untergräbt. Dieses Positionspapier argumentiert, dass die mechanistische Interpretierbarkeit die Merkmalskonsistenz in SAEs priorisieren sollte – die zuverlässige Konvergenz zu äquivalenten Merkmalssätzen über unabhängige Läufe hinweg. Wir schlagen vor, den Pairwise Dictionary Mean Correlation Coefficient (PW-MCC) als praktische Metrik zur Operationalisierung der Konsistenz zu verwenden, und zeigen, dass hohe Werte (0,80 für TopK-SAEs bei LLM-Aktivierungen) mit geeigneten architektonischen Entscheidungen erreichbar sind. Unsere Beiträge umfassen die Darlegung der Vorteile einer Priorisierung der Konsistenz; die Bereitstellung einer theoretischen Grundlage und synthetischen Validierung mithilfe eines Modellorganismus, die den PW-MCC als zuverlässigen Proxy für die Wiederherstellung der Grundwahrheit bestätigt; und die Erweiterung dieser Erkenntnisse auf reale LLM-Daten, bei denen eine hohe Merkmalskonsistenz stark mit der semantischen Ähnlichkeit der gelernten Merkmalserklärungen korreliert. Wir fordern einen gemeinschaftlichen Wandel hin zur systematischen Messung der Merkmalskonsistenz, um einen robusten kumulativen Fortschritt in der MI zu fördern.

52

Überbrückung von überwachtem Lernen und bestärkendem Lernen im mathematischen Denken
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

May 23
ByHuayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang
4
2

Reinforcement Learning (RL) hat eine zentrale Rolle beim jüngsten Anstieg der mathematischen Fähigkeiten von LLMs gespielt, indem es Selbstverbesserung durch binäre Verifikationssignale ermöglicht. Im Gegensatz dazu wird Supervised Learning (SL) selten für solches verifikationsgesteuertes Training in Betracht gezogen, hauptsächlich aufgrund seiner starken Abhängigkeit von Referenzantworten und seiner Unfähigkeit, Fehler zu reflektieren. In dieser Arbeit stellen wir die vorherrschende Ansicht in Frage, dass Selbstverbesserung ausschließlich RL vorbehalten ist, und schlagen Negative-aware Fine-Tuning (NFT) vor – einen überwachten Ansatz, der es LLMs ermöglicht, ihre Fehler zu reflektieren und autonom ohne externe Lehrer zu verbessern. Beim Online-Training verwirft NFT selbstgenerierte negative Antworten nicht, sondern konstruiert eine implizite Negativpolitik, um sie zu modellieren. Diese implizite Politik wird mit demselben positiven LLM parametrisiert, das wir auf positiven Daten optimieren möchten, wodurch eine direkte Politikoptimierung für alle Generationen der LLMs ermöglicht wird. Wir führen Experimente mit 7B- und 32B-Modellen in mathematischen Denkaufgaben durch. Die Ergebnisse zeigen durchweg, dass NFT durch die zusätzliche Nutzung von negativem Feedback die SL-Baselines wie Rejection Sampling Fine-Tuning deutlich übertrifft und führende RL-Algorithmen wie GRPO und DAPO erreicht oder sogar übertrifft. Darüber hinaus demonstrieren wir, dass NFT und GRPO im strengen On-Policy-Training tatsächlich äquivalent sind, obwohl sie aus völlig unterschiedlichen theoretischen Grundlagen stammen. Unsere Experimente und theoretischen Erkenntnisse überbrücken die Lücke zwischen SL- und RL-Methoden in binären Feedback-Lernsystemen.

53

GLEAM: Erlernen einer generalisierbaren Explorationsstrategie für aktives Mapping in komplexen 3D-Innenraumszenen
GLEAM: Learning Generalizable Exploration Policy for Active Mapping in Complex 3D Indoor Scenes

May 26
ByXiao Chen, Tai Wang, Quanyi Li, Tao Huang, Jiangmiao Pang, Tianfan Xue
4
1

Die generalisierbare aktive Kartierung in komplexen unbekannten Umgebungen bleibt eine entscheidende Herausforderung für mobile Roboter. Bestehende Methoden, die durch unzureichende Trainingsdaten und konservative Erkundungsstrategien eingeschränkt sind, zeigen eine begrenzte Generalisierbarkeit über Szenen mit unterschiedlichen Layouts und komplexer Konnektivität hinweg. Um skalierbares Training und zuverlässige Evaluierung zu ermöglichen, führen wir GLEAM-Bench ein, den ersten groß angelegten Benchmark, der für generalisierbare aktive Kartierung entwickelt wurde und 1.152 diverse 3D-Szenen aus synthetischen und real gescannten Datensätzen umfasst. Auf dieser Grundlage aufbauend schlagen wir GLEAM vor, eine einheitliche generalisierbare Erkundungsstrategie für die aktive Kartierung. Ihre überlegene Generalisierbarkeit resultiert hauptsächlich aus unseren semantischen Repräsentationen, langfristig navigierbaren Zielen und randomisierten Strategien. Sie übertrifft state-of-the-art Methoden deutlich und erreicht eine Abdeckung von 66,50 % (+9,49 %) mit effizienten Trajektorien und verbesserter Kartierungsgenauigkeit in 128 ungesehenen komplexen Szenen. Projektseite: https://xiao-chen.tech/gleam/.

54

EquivPruner: Steigerung von Effizienz und Qualität in LLM-basierter Suche durch Aktionsreduzierung
EquivPruner: Boosting Efficiency and Quality in LLM-Based Search via Action Pruning

May 22
ByJiawei Liu, Qisi Chen, Jianshu Zhang, Quan Liu, Defu Lian
3
5

Große Sprachmodelle (LLMs) zeichnen sich durch komplexe Schlussfolgerungen mittels Suchalgorithmen aus, doch leiden aktuelle Strategien oft unter einem hohen Token-Verbrauch aufgrund redundanter Exploration semantisch äquivalenter Schritte. Bestehende Methoden zur semantischen Ähnlichkeit haben Schwierigkeiten, solche Äquivalenzen in domänenspezifischen Kontexten wie mathematischem Denken präzise zu identifizieren. Um dies zu adressieren, schlagen wir EquivPruner vor, einen einfachen, aber effektiven Ansatz, der semantisch äquivalente Aktionen während der LLM-Schlussfolgerungssuche identifiziert und entfernt. Wir stellen außerdem MathEquiv vor, den ersten von uns erstellten Datensatz für die Äquivalenz mathematischer Aussagen, der das Training eines leichtgewichtigen Äquivalenzdetektors ermöglicht. Umfangreiche Experimente über verschiedene Modelle und Aufgaben hinweg zeigen, dass EquivPruner den Token-Verbrauch erheblich reduziert, die Such effizienz verbessert und oft auch die Genauigkeit der Schlussfolgerungen erhöht. Beispielsweise reduzierte EquivPruner bei der Anwendung auf Qwen2.5-Math-7B-Instruct auf GSM8K den Token-Verbrauch um 48,1\% und verbesserte gleichzeitig die Genauigkeit. Unser Code ist verfügbar unter https://github.com/Lolo1222/EquivPruner.

55

FLAME-MoE: Eine transparente End-to-End-Forschungsplattform für Mixture-of-Experts-Sprachmodelle
FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models

May 26
ByHao Kang, Zichun Yu, Chenyan Xiong
3
1

Aktuelle große Sprachmodelle wie Gemini-1.5, DeepSeek-V3 und Llama-4 setzen zunehmend auf Mixture-of-Experts (MoE)-Architekturen, die durch die Aktivierung nur eines Bruchteils des Modells pro Token ein starkes Effizienz-Leistungs-Verhältnis bieten. Dennoch fehlt akademischen Forschern bisher eine vollständig offene, end-to-end MoE-Plattform, um Skalierung, Routing und das Verhalten von Experten zu untersuchen. Wir stellen FLAME-MoE vor, ein vollständig quelloffenes Forschungssystem, das aus sieben Decoder-only-Modellen besteht, die von 38M bis 1,7B aktiven Parametern reichen. Die Architektur – 64 Experten mit Top-8-Gating und 2 gemeinsamen Experten – spiegelt eng moderne produktive LLMs wider. Alle Trainingsdaten-Pipelines, Skripte, Protokolle und Checkpoints sind öffentlich verfügbar, um reproduzierbare Experimente zu ermöglichen. In sechs Evaluierungsaufgaben verbessert FLAME-MoE die durchschnittliche Genauigkeit um bis zu 3,4 Punkte im Vergleich zu dichten Baselines, die mit identischen FLOPs trainiert wurden. Durch die vollständige Transparenz der Trainingsspuren präsentieren wir erste Analysen, die zeigen, dass (i) Experten zunehmend auf bestimmte Token-Teilmengen spezialisiert sind, (ii) Koaktivierungsmatrizen spärlich bleiben, was eine vielfältige Nutzung der Experten widerspiegelt, und (iii) das Routing-Verhalten früh im Training stabilisiert wird. Der gesamte Code, Trainingsprotokolle und Modell-Checkpoints sind unter https://github.com/cmu-flame/FLAME-MoE verfügbar.

56

Architektonische Hintertüren für den Datendiebstahl innerhalb von Batches und die Manipulation der Modellinferenz
Architectural Backdoors for Within-Batch Data Stealing and Model Inference Manipulation

May 23
ByNicolas Küchler, Ivan Petrov, Conrad Grobler, Ilia Shumailov
3
2

Seit fast einem Jahrzehnt untersucht die akademische Gemeinschaft Backdoors in neuronalen Netzen, wobei der Schwerpunkt hauptsächlich auf Klassifizierungsaufgaben lag, bei denen Angreifer die Modellvorhersage manipulieren. Obwohl diese Angriffe, die die Vorhersage verändern, nachweislich bösartig sind, blieb die unmittelbare reale Auswirkung solcher Angriffe unklar. In diesem Artikel stellen wir eine neuartige und deutlich potentere Klasse von Backdoors vor, die auf jüngsten Fortschritten bei architektonischen Backdoors aufbaut. Wir zeigen, wie diese Backdoors speziell entwickelt werden können, um batched Inference, eine gängige Technik zur Hardwareauslastung, auszunutzen, was die Manipulation und den Diebstahl von Benutzerdaten in großem Maßstab ermöglicht. Indem sie den Batching-Prozess ins Visier nehmen, erleichtern diese architektonischen Backdoors den Informationsabfluss zwischen gleichzeitigen Benutzeranfragen und ermöglichen es Angreifern, die Modellantworten, die an andere Benutzer innerhalb desselben Batches gerichtet sind, vollständig zu kontrollieren. Mit anderen Worten: Ein Angreifer, der die Modellarchitektur ändern kann, kann die Modelleingaben und -ausgaben anderer Benutzer innerhalb desselben Batches festlegen und stehlen. Wir zeigen, dass solche Angriffe nicht nur machbar, sondern auch alarmierend effektiv sind, leicht in verbreitete Modellarchitekturen eingeschleust werden können und eine wirklich bösartige Bedrohung für die Privatsphäre der Benutzer und die Systemintegrität darstellen. Entscheidend ist, dass wir zur Abwehr dieser neuen Klasse von Schwachstellen eine deterministische Abschwächungsstrategie vorschlagen, die formale Garantien gegen diesen neuen Angriffsvektor bietet, im Gegensatz zu früheren Arbeiten, die sich auf Large Language Models verließen, um die Backdoors zu finden. Unsere Abschwächungsstrategie verwendet einen neuartigen Information Flow Control-Mechanismus, der den Modellgraphen analysiert und die Nicht-Interferenz zwischen verschiedenen Benutzereingaben innerhalb desselben Batches nachweist. Mit unserer Abschwächungsstrategie führen wir eine groß angelegte Analyse von Modellen durch, die über Hugging Face gehostet werden, und finden über 200 Modelle, die (unbeabsichtigte) Informationslecks zwischen Batcheinträgen aufgrund der Verwendung von dynamischer Quantisierung einführen.

57

Auf dem Weg zu einer ganzheitlichen Bewertung großer Audio-Sprach-Modelle: Eine umfassende Übersicht
Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey

May 21
ByChih-Kai Yang, Neo S. Ho, Hung-yi Lee
3
2

Mit den Fortschritten bei großen Audio-Sprachmodellen (Large Audio-Language Models, LALMs), die große Sprachmodelle (Large Language Models, LLMs) um auditive Fähigkeiten erweitern, wird erwartet, dass diese Modelle universelle Kompetenz in verschiedenen auditiven Aufgaben zeigen. Obwohl zahlreiche Benchmarks entstanden sind, um die Leistung von LALMs zu bewerten, bleiben sie fragmentiert und es fehlt an einer strukturierten Taxonomie. Um diese Lücke zu schließen, führen wir eine umfassende Untersuchung durch und schlagen eine systematische Taxonomie für die Bewertung von LALMs vor, die diese basierend auf ihren Zielen in vier Dimensionen kategorisiert: (1) Allgemeine auditive Wahrnehmung und Verarbeitung, (2) Wissen und logisches Denken, (3) Dialogorientierte Fähigkeiten und (4) Fairness, Sicherheit und Vertrauenswürdigkeit. Wir bieten detaillierte Übersichten innerhalb jeder Kategorie und heben Herausforderungen in diesem Bereich hervor, wobei wir Einblicke in vielversprechende zukünftige Richtungen geben. Nach bestem Wissen ist dies die erste Untersuchung, die sich speziell auf die Bewertung von LALMs konzentriert und klare Leitlinien für die Community bietet. Wir werden die Sammlung der untersuchten Arbeiten veröffentlichen und aktiv pflegen, um die fortlaufenden Fortschritte in diesem Bereich zu unterstützen.

58

UFT: Vereinheitlichung von überwachtem und verstärkendem Feintuning
UFT: Unifying Supervised and Reinforcement Fine-Tuning

May 22
ByMingyang Liu, Gabriele Farina, Asuman Ozdaglar
3
3

Das Nachtraining hat seine Bedeutung bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs) unter Beweis gestellt. Die primären Methoden des Nachtrainings lassen sich in überwachte Feinabstimmung (Supervised Fine-Tuning, SFT) und verstärkende Feinabstimmung (Reinforcement Fine-Tuning, RFT) kategorisieren. SFT ist effizient und gut geeignet für kleine Sprachmodelle, kann jedoch zu Überanpassung führen und die Denkfähigkeiten größerer Modelle einschränken. Im Gegensatz dazu führt RFT in der Regel zu einer besseren Generalisierung, hängt jedoch stark von der Stärke des Basismodells ab. Um die Grenzen von SFT und RFT zu überwinden, schlagen wir Unified Fine-Tuning (UFT) vor, ein neuartiges Nachtrainingsparadigma, das SFT und RFT in einen einzigen, integrierten Prozess vereint. UFT ermöglicht es dem Modell, effektiv Lösungen zu erkunden, während es informative Überwachungssignale einbezieht, und überbrückt so die Lücke zwischen dem Auswendiglernen und dem Denken, die den bestehenden Methoden zugrunde liegt. Bemerkenswerterweise übertrifft UFT sowohl SFT als auch RFT im Allgemeinen, unabhängig von der Modellgröße. Darüber hinaus beweisen wir theoretisch, dass UFT den inhärenten exponentiellen Komplexitätsengpass von RFT durchbricht, und zeigen erstmals, dass einheitliches Training die Konvergenz bei langfristigen Denkaufgaben exponentiell beschleunigen kann.

59

Sehen heißt Glauben, aber wie sehr? Eine umfassende Analyse der verbalisierten Kalibrierung in Vision-Sprache-Modellen
Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models

May 26
ByWeihao Xuan, Qingcheng Zeng, Heli Qi, Junjue Wang, Naoto Yokoya
3
1

Die Quantifizierung von Unsicherheit ist entscheidend, um die Zuverlässigkeit und Vertrauenswürdigkeit moderner KI-Systeme zu bewerten. Unter den bestehenden Ansätzen hat sich verbalisierte Unsicherheit, bei der Modelle ihr Vertrauen durch natürliche Sprache ausdrücken, als eine leichtgewichtige und interpretierbare Lösung in großen Sprachmodellen (LLMs) etabliert. Ihre Wirksamkeit in visuell-sprachlichen Modellen (VLMs) ist jedoch noch unzureichend erforscht. In dieser Arbeit führen wir eine umfassende Bewertung der verbalisierten Zuversicht in VLMs durch, die drei Modellkategorien, vier Aufgabenbereiche und drei Bewertungsszenarien umfasst. Unsere Ergebnisse zeigen, dass aktuelle VLMs oft eine bemerkenswerte Fehlkalibrierung über verschiedene Aufgaben und Einstellungen hinweg aufweisen. Insbesondere visuelle Denkmodelle (d.h. Denken mit Bildern) zeigen durchweg eine bessere Kalibrierung, was darauf hindeutet, dass modalspezifisches Denken entscheidend für eine zuverlässige Unsicherheitsschätzung ist. Um die Kalibrierungsherausforderungen weiter zu adressieren, führen wir Visual Confidence-Aware Prompting ein, eine zweistufige Prompting-Strategie, die die Zuversichtsausrichtung in multimodalen Einstellungen verbessert. Insgesamt unterstreicht unsere Studie die inhärente Fehlkalibrierung in VLMs über verschiedene Modalitäten hinweg. Im weiteren Sinne betonen unsere Ergebnisse die grundlegende Bedeutung von Modalitätsausrichtung und Modelltreue für die Weiterentwicklung zuverlässiger multimodaler Systeme.

60

Fehlertypisierung für intelligentere Belohnungen: Verbesserung von Prozess-Belohnungsmodellen durch fehlerbewusste hierarchische Überwachung
Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision

May 26
ByTej Deep Pala, Panshul Sharma, Amir Zadeh, Chuan Li, Soujanya Poria
3
2

Große Sprachmodelle (LLMs) neigen zu Halluzinationen, insbesondere bei mehrstufigen und schlussfolgerungsintensiven Aufgaben wie der Lösung mathematischer Probleme. Während Ergebnis-Belohnungsmodelle nur die endgültigen Antworten überprüfen, bewerten Prozess-Belohnungsmodelle (PRMs) jeden Zwischenschritt, um die Generierung in Richtung kohärenter Lösungen zu lenken. Wir stellen PathFinder-PRM vor, ein neuartiges hierarchisches, fehlerbewusstes diskriminatives PRM, das zunächst mathematische und Konsistenzfehler in jedem Schritt klassifiziert und dann diese feingranularen Signale kombiniert, um die Korrektheit des Schritts zu schätzen. Um PathFinder-PRM zu trainieren, haben wir einen Datensatz mit 400.000 Proben erstellt, indem wir das menschlich annotierte PRM800K-Korpus und die RLHFlow Mistral-Traces mit dreidimensionalen schrittbezogenen Labels angereichert haben. Auf PRMBench erreicht PathFinder-PRM einen neuen State-of-the-Art-PRMScore von 67,7 und übertrifft damit den bisherigen Bestwert (65,5) bei dreimal weniger Daten. Bei der Anwendung auf belohnungsgesteuerte Greedy-Suche erzielt unser Modell einen prm@8-Wert von 48,3, was einer Steigerung von +1,5 Punkten gegenüber der stärksten Baseline entspricht. Diese Ergebnisse zeigen, dass die entkoppelte Fehlererkennung und Belohnungsschätzung nicht nur die feingranulare Fehlererkennung verbessert, sondern auch das end-to-end, belohnungsgesteuerte mathematische Denken bei höherer Dateneffizienz erheblich steigert.

61

DiSA: Diffusionsschritt-Temperung in der autoregressiven Bildgenerierung
DiSA: Diffusion Step Annealing in Autoregressive Image Generation

May 26
ByQinyu Zhao, Jaskirat Singh, Ming Xu, Akshay Asthana, Stephen Gould, Liang Zheng
3
1

Eine zunehmende Anzahl von autoregressiven Modellen, wie MAR, FlowAR, xAR und Harmon, setzen Diffusionssampling ein, um die Qualität der Bildgenerierung zu verbessern. Diese Strategie führt jedoch zu einer geringen Inferenzeffizienz, da es in der Regel 50 bis 100 Schritte erfordert, um ein Token durch Diffusion zu sampeln. In diesem Artikel wird untersucht, wie dieses Problem effektiv gelöst werden kann. Unsere zentrale Motivation besteht darin, dass, je mehr Token während des autoregressiven Prozesses generiert werden, die nachfolgenden Token stärker eingeschränkten Verteilungen folgen und somit leichter zu sampeln sind. Um dies intuitiv zu erklären: Wenn ein Modell einen Teil eines Hundes generiert hat, müssen die verbleibenden Token den Hund vervollständigen und sind daher stärker eingeschränkt. Empirische Belege stützen unsere Motivation: In späteren Generierungsphasen können die nächsten Token gut durch ein mehrschichtiges Perzeptron vorhergesagt werden, weisen eine geringe Varianz auf und folgen geradlinigeren Denoising-Pfaden von Rauschen zu Token. Basierend auf dieser Erkenntnis führen wir Diffusionsschritt-Annealing (DiSA) ein, eine trainingsfreie Methode, die schrittweise weniger Diffusionsschritte verwendet, je mehr Token generiert werden, z. B. 50 Schritte am Anfang und eine schrittweise Reduzierung auf 5 Schritte in späteren Phasen. Da DiSA aus unserer spezifischen Erkenntnis zur Diffusion in autoregressiven Modellen abgeleitet ist, ergänzt es bestehende Beschleunigungsmethoden, die ausschließlich für Diffusion entwickelt wurden. DiSA kann mit nur wenigen Codezeilen in bestehenden Modellen implementiert werden und erreicht, obwohl einfach, eine 5-10-fach schnellere Inferenz für MAR und Harmon sowie eine 1,4-2,5-fach schnellere Inferenz für FlowAR und xAR, bei gleichbleibender Generierungsqualität.

62

TAGS: Ein Framework für Generalisten-Spezialisten zur Testzeit mit abrufgestützter Argumentation und Verifizierung
TAGS: A Test-Time Generalist-Specialist Framework with Retrieval-Augmented Reasoning and Verification

May 23
ByJianghao Wu, Feilong Tang, Yulong Li, Ming Hu, Haochen Xue, Shoaib Jameel, Yutong Xie, Imran Razzak
2
2

Jüngste Fortschritte wie Chain-of-Thought-Prompting haben die Leistung großer Sprachmodelle (LLMs) im Bereich des Zero-Shot-Medical-Reasonings erheblich verbessert. Allerdings bleiben Prompting-basierte Methoden oft oberflächlich und instabil, während feinabgestimmte medizinische LLMs unter schlechter Generalisierung bei Verteilungsverschiebungen und begrenzter Anpassungsfähigkeit an unbekannte klinische Szenarien leiden. Um diese Einschränkungen zu überwinden, präsentieren wir TAGS, ein Testzeit-Framework, das einen breitfähigen Generalisten mit einem domänenspezifischen Spezialisten kombiniert, um komplementäre Perspektiven zu bieten, ohne dass eine Feinabstimmung des Modells oder Parameteraktualisierungen erforderlich sind. Um diesen Generalist-Spezialist-Denkprozess zu unterstützen, führen wir zwei Hilfsmodule ein: einen hierarchischen Retrieval-Mechanismus, der mehrstufige Beispiele bereitstellt, indem Beispiele basierend auf semantischer und Begründungsebene-Ähnlichkeit ausgewählt werden, und einen Zuverlässigkeitsbewerter, der die Konsistenz der Argumentation bewertet, um die endgültige Antwortaggregation zu steuern. TAGS erzielt starke Leistungen über neun MedQA-Benchmarks hinweg, steigert die Genauigkeit von GPT-4o um 13,8 %, DeepSeek-R1 um 16,8 % und verbessert ein Standard-7B-Modell von 14,1 % auf 23,9 %. Diese Ergebnisse übertreffen mehrere feinabgestimmte medizinische LLMs, ohne dass Parameteraktualisierungen vorgenommen wurden. Der Code wird unter https://github.com/JianghaoWu/TAGS verfügbar sein.

63

MOLE: Metadatenextraktion und -validierung in wissenschaftlichen Artikeln mittels LLMs
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs

May 26
ByZaid Alyafeai, Maged S. Al-Shaibani, Bernard Ghanem
2
1

Die Extraktion von Metadaten ist entscheidend für die Katalogisierung und Erhaltung von Datensätzen, ermöglicht eine effektive Forschungsentdeckung und Reproduzierbarkeit, insbesondere angesichts des derzeit exponentiellen Wachstums in der wissenschaftlichen Forschung. Während Masader (Alyafeai et al., 2021) die Grundlage für die Extraktion einer Vielzahl von Metadatenattributen aus wissenschaftlichen Artikeln arabischer NLP-Datensätze geschaffen hat, ist es stark auf manuelle Annotation angewiesen. In diesem Artikel stellen wir MOLE vor, ein Framework, das Large Language Models (LLMs) nutzt, um automatisch Metadatenattribute aus wissenschaftlichen Artikeln zu extrahieren, die Datensätze von Sprachen außer Arabisch abdecken. Unsere schema-gesteuerte Methodik verarbeitet gesamte Dokumente in mehreren Eingabeformaten und integriert robuste Validierungsmechanismen für konsistente Ausgaben. Zusätzlich führen wir einen neuen Benchmark ein, um den Forschungsfortschritt bei dieser Aufgabe zu bewerten. Durch systematische Analysen der Kontextlänge, Few-Shot-Learning und der Integration von Web-Browsing zeigen wir, dass moderne LLMs vielversprechende Ergebnisse bei der Automatisierung dieser Aufgabe liefern, was den Bedarf für weitere zukünftige Verbesserungen unterstreicht, um eine konsistente und zuverlässige Leistung zu gewährleisten. Wir veröffentlichen den Code: https://github.com/IVUL-KAUST/MOLE und den Datensatz: https://huggingface.co/datasets/IVUL-KAUST/MOLE für die Forschungsgemeinschaft.

64

Der pragmatische Verstand der Maschinen: Die Entstehung pragmatischer Kompetenz in großen Sprachmodellen nachzeichnen
The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models

May 24
ByKefan Yu, Qingcheng Zeng, Weihao Xuan, Wanxin Li, Jingyi Wu, Rob Voigt
2
2

Aktuelle große Sprachmodelle (LLMs) haben aufkommende Fähigkeiten in Aufgaben der sozialen Intelligenz gezeigt, einschließlich der Auflösung von Implikaturen (Sravanthi et al. (2024)) und der Theory-of-Mind-Reasoning (Shapira et al. (2024)), die beide ein erhebliches pragmatisches Verständnis erfordern. Wie LLMs diese Kompetenz während des Trainingsprozesses erwerben, bleibt jedoch weitgehend unklar. In dieser Arbeit stellen wir ALTPRAG vor, einen Datensatz, der auf dem pragmatischen Konzept der Alternativen basiert und entwickelt wurde, um zu bewerten, ob LLMs in verschiedenen Trainingsphasen subtile Sprecherabsichten korrekt ableiten können. Jede Instanz kombiniert zwei kontextuell angemessene, aber pragmatisch unterschiedliche Fortsetzungen, was eine feinkörnige Bewertung sowohl der pragmatischen Interpretation als auch des kontrastiven Denkens ermöglicht. Wir evaluieren systematisch 22 LLMs über wichtige Trainingsphasen hinweg: Pre-Training, überwachtes Fein-Tuning (SFT) und Präferenzoptimierung, um die Entwicklung der pragmatischen Kompetenz zu untersuchen. Unsere Ergebnisse zeigen, dass selbst Basismodelle eine bemerkenswerte Sensibilität für pragmatische Hinweise aufweisen, die sich mit zunehmender Modell- und Datenmenge kontinuierlich verbessert. Darüber hinaus tragen SFT und RLHF zu weiteren Fortschritten bei, insbesondere im kognitiv-pragmatischen Denken. Diese Erkenntnisse unterstreichen die pragmatische Kompetenz als eine emergente und kompositionelle Eigenschaft des LLM-Trainings und bieten neue Einblicke für die Ausrichtung von Modellen an menschlichen Kommunikationsnormen.

65

InstructPart: Aufgabenorientierte Teilesegmentierung mit Instruktionslogik
InstructPart: Task-Oriented Part Segmentation with Instruction Reasoning

May 23
ByZifu Wan, Yaqi Xie, Ce Zhang, Zhiqiu Lin, Zihan Wang, Simon Stepputtis, Deva Ramanan, Katia Sycara
2
2

Große multimodale Basismodelle, insbesondere in den Bereichen Sprache und Vision, haben verschiedene Aufgaben wie Robotik, autonomes Fahren, Informationsbeschaffung und Verankerung erheblich vorangetrieben. Viele dieser Modelle betrachten Objekte jedoch als unteilbar und übersehen dabei die Komponenten, aus denen sie bestehen. Das Verständnis dieser Komponenten und ihrer zugehörigen Affordanzen liefert wertvolle Einblicke in die Funktionalität eines Objekts, was grundlegend für die Ausführung einer Vielzahl von Aufgaben ist. In dieser Arbeit stellen wir einen neuartigen Benchmark für die reale Welt vor, InstructPart, der handbeschriftete Segmentierungsannotationen von Teilen und aufgabenorientierte Anweisungen enthält, um die Leistung aktueller Modelle beim Verstehen und Ausführen von Aufgaben auf Teilebene in alltäglichen Kontexten zu bewerten. Durch unsere Experimente zeigen wir, dass die aufgabenorientierte Teilesegmentierung auch für state-of-the-art Vision-Language-Modelle (VLMs) eine herausfordernde Aufgabe bleibt. Neben unserem Benchmark stellen wir eine einfache Baseline vor, die durch Feinabstimmung mit unserem Datensatz eine zweifache Leistungssteigerung erzielt. Mit unserem Datensatz und Benchmark möchten wir die Forschung zur aufgabenorientierten Teilesegmentierung fördern und die Anwendbarkeit von VLMs in verschiedenen Bereichen wie Robotik, virtueller Realität, Informationsbeschaffung und anderen verwandten Feldern verbessern. Projektwebsite: https://zifuwan.github.io/InstructPart/.

66

EgoZero: Robotisches Lernen mit Smart Glasses
EgoZero: Robot Learning from Smart Glasses

May 26
ByVincent Liu, Ademi Adeniji, Haotian Zhan, Raunaq Bhirangi, Pieter Abbeel, Lerrel Pinto
2
1

Trotz jüngster Fortschritte in der allgemeinen Robotik hinken Roboterrichtlinien immer noch weit hinter den grundlegenden menschlichen Fähigkeiten in der realen Welt zurück. Menschen interagieren ständig mit der physischen Welt, doch diese reichhaltige Datenquelle bleibt in der Robotik weitgehend ungenutzt. Wir schlagen EgoZero vor, ein minimales System, das robuste Manipulationsrichtlinien aus menschlichen Demonstrationen lernt, die mit den Project Aria Smart Glasses aufgezeichnet wurden, und ohne Roboter-Daten. EgoZero ermöglicht: (1) die Extraktion vollständiger, roboterausführbarer Aktionen aus wilden, egozentrischen menschlichen Demonstrationen, (2) die Komprimierung menschlicher visueller Beobachtungen in morphologie-agnostische Zustandsdarstellungen und (3) das Lernen von geschlossenen Regelkreisen, die morphologisch, räumlich und semantisch generalisieren. Wir setzen EgoZero-Richtlinien auf einem Greifarm-Roboter Franka Panda ein und demonstrieren einen Null-Shot-Transfer mit einer Erfolgsrate von 70 % über 7 Manipulationsaufgaben und nur 20 Minuten Datenerfassung pro Aufgabe. Unsere Ergebnisse deuten darauf hin, dass menschliche Daten aus der realen Welt als skalierbare Grundlage für das Lernen von Robotern in der realen Welt dienen können – und den Weg für eine Zukunft mit reichlich, vielfältigen und naturalistischen Trainingsdaten für Roboter ebnen. Code und Videos sind unter https://egozero-robot.github.io verfügbar.

67

MMIG-Bench: Auf dem Weg zu einer umfassenden und erklärbaren Bewertung von Multi-Modalen Bildgenerierungsmodellen
MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models

May 26
ByHang Hua, Ziyun Zeng, Yizhi Song, Yunlong Tang, Liu He, Daniel Aliaga, Wei Xiong, Jiebo Luo
2
2

Aktuelle multimodale Bildgeneratoren wie GPT-4o, Gemini 2.0 Flash und Gemini 2.5 Pro zeichnen sich durch ihre Fähigkeit aus, komplexe Anweisungen zu befolgen, Bilder zu bearbeiten und die Konsistenz von Konzepten zu bewahren. Dennoch werden sie noch immer durch getrennte Toolkits evaluiert: Text-zu-Bild (T2I)-Benchmarks, denen die multimodale Konditionierung fehlt, und maßgeschneiderte Bildgenerierungs-Benchmarks, die kompositionelle Semantik und Allgemeinwissen vernachlässigen. Wir schlagen MMIG-Bench vor, einen umfassenden Multi-Modalen Bildgenerierungs-Benchmark, der diese Aufgaben vereint, indem er 4.850 reich annotierte Textprompts mit 1.750 Multi-Ansichts-Referenzbildern über 380 Themenbereiche, darunter Menschen, Tiere, Objekte und künstlerische Stile, kombiniert. MMIG-Bench ist mit einem dreistufigen Bewertungsrahmen ausgestattet: (1) Low-Level-Metriken für visuelle Artefakte und Identitätserhaltung von Objekten; (2) der neuartige Aspect Matching Score (AMS): eine VQA-basierte Mid-Level-Metrik, die eine fein abgestimmte Prompt-Bild-Ausrichtung liefert und eine starke Korrelation mit menschlichen Bewertungen zeigt; und (3) High-Level-Metriken für Ästhetik und menschliche Präferenzen. Mit MMIG-Bench benchmarken wir 17 state-of-the-art Modelle, darunter Gemini 2.5 Pro, FLUX, DreamBooth und IP-Adapter, und validieren unsere Metriken mit 32.000 menschlichen Bewertungen, was tiefgreifende Einblicke in Architektur und Datendesign liefert. Wir werden den Datensatz und den Evaluationscode veröffentlichen, um eine rigorose, einheitliche Bewertung zu fördern und zukünftige Innovationen in der multimodalen Bildgenerierung zu beschleunigen.

68

Option-bewusster zeitlich abstrahierter Wert für offline zielbedingtes bestärkendes Lernen
Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning

May 19
ByHongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon
1
2

Offline zielbedingtes Reinforcement Learning (GCRL) bietet ein praktisches Lernparadigma, bei dem zielerreichende Strategien aus umfangreichen, ungelabelten (belohnungsfreien) Datensätzen trainiert werden, ohne zusätzliche Interaktion mit der Umgebung. Dennoch kämpft Offline-GCRL weiterhin mit langfristigen Aufgaben, selbst bei jüngsten Fortschritten, die hierarchische Policy-Strukturen wie HIQL verwenden. Durch die Identifizierung der Ursache dieser Herausforderung ergeben sich folgende Erkenntnisse: Erstens entstehen Leistungsengpässe hauptsächlich aus der Unfähigkeit der übergeordneten Policy, geeignete Teilziele zu generieren. Zweitens wird beim Lernen der übergeordneten Policy im langfristigen Regime das Vorzeichen des Vorteilssignals häufig falsch. Daher argumentieren wir, dass die Verbesserung der Wertfunktion, um ein klares Vorteilssignal für das Lernen der übergeordneten Policy zu erzeugen, entscheidend ist. In diesem Artikel schlagen wir eine einfache, aber effektive Lösung vor: Option-aware Temporally Abstracted Value Learning, kurz OTA, das zeitliche Abstraktion in den Temporal-Difference-Lernprozess integriert. Durch die Anpassung der Wertaktualisierung, um optionenbewusst zu sein, verkürzt das vorgeschlagene Lernschema den effektiven Zeithorizont und ermöglicht bessere Vorteilsschätzungen selbst im langfristigen Regime. Experimentell zeigen wir, dass die mit der OTA-Wertfunktion extrahierte übergeordnete Policy starke Leistungen bei komplexen Aufgaben aus OGBench, einem kürzlich vorgeschlagenen Offline-GCRL-Benchmark, erzielt, einschließlich Labyrinthnavigation und visuellen Roboter-Manipulationsumgebungen.

69

Textuelle Steuerungsvektoren können das visuelle Verständnis in multimodalen großen Sprachmodellen verbessern.
Textual Steering Vectors Can Improve Visual Understanding in Multimodal Large Language Models

May 20
ByWoody Haosheng Gan, Deqing Fu, Julian Asilis, Ollie Liu, Dani Yogatama, Vatsal Sharan, Robin Jia, Willie Neiswanger
1
2

Steuerungsmethoden haben sich als effektive und zielgerichtete Werkzeuge erwiesen, um das Verhalten von großen Sprachmodellen (LLMs) zu lenken, ohne deren Parameter zu verändern. Multimodale große Sprachmodelle (MLLMs) profitieren jedoch derzeit nicht von denselben Techniken, was teilweise auf ihre Neuheit und architektonische Vielfalt zurückzuführen ist. Inspiriert von dieser Lücke untersuchen wir, ob MLLMs mithilfe von Vektoren gesteuert werden können, die aus ihrem textbasierten LLM-Rückgrat abgeleitet werden, und zwar über spärliche Autoencoder (SAEs), Mean Shift und lineare Sonden. Wir stellen fest, dass die textbasierte Steuerung die multimodale Genauigkeit über verschiedene MLLM-Architekturen und visuelle Aufgaben hinweg konsequent verbessert. Insbesondere steigert Mean Shift die Genauigkeit bei räumlichen Beziehungen auf CV-Bench um bis zu +7,3 % und die Zählgenauigkeit um bis zu +3,3 %, wobei es Prompting übertrifft und eine starke Generalisierung auf Out-of-Distribution-Datensätze zeigt. Diese Ergebnisse unterstreichen textbasierte Steuerungsvektoren als einen leistungsstarken und effizienten Mechanismus zur Verbesserung der Verankerung in MLLMs mit minimalem zusätzlichen Datenerfassungs- und Rechenaufwand.

70

Die Geburt des Wissens: Emergente Merkmale über Zeit, Raum und Skala in großen Sprachmodellen
The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models

May 26
ByShashata Sawmya, Micah Adler, Nir Shavit
1
2

Diese Arbeit untersucht die Entstehung interpretierbarer kategorialer Merkmale in großen Sprachmodellen (LLMs) und analysiert deren Verhalten über Trainingszeitpunkte (Zeit), Transformer-Schichten (Raum) und unterschiedliche Modellgrößen (Skala) hinweg. Mithilfe von spärlichen Autoencodern für mechanistische Interpretierbarkeit identifizieren wir, wann und wo spezifische semantische Konzepte innerhalb neuronaler Aktivierungen entstehen. Die Ergebnisse zeigen klare zeitliche und skalenabhängige Schwellenwerte für die Entstehung von Merkmalen über mehrere Domänen hinweg. Bemerkenswerterweise offenbart die räumliche Analyse unerwartete semantische Reaktivierung, bei der Merkmale aus frühen Schichten in späteren Schichten wieder auftreten, was gängige Annahmen über die Repräsentationsdynamik in Transformer-Modellen infrage stellt.

May 26
May 27
May 28