HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

42 papers found

Web-Shepherd: Fortschritte bei PRMs zur Stärkung von Web-Agenten
Web-Shepherd: Advancing PRMs for Reinforcing Web Agents

May 21

ByHyungjoo Chae, Sunghwan Kim, Junhee Cho, Seungone Kim, Seungjun Moon, Gyeom Hwangbo, Dongha Lim, Minjin Kim, Yeonjun Hwang, Minju Gwak, Dongwook Choi, Minseok Kang, Gwanhoon Im, ByeongUng Cho, Hyojun Kim, Jun Hee Han, Taeyoon Kwon, Minju Kim, Beong-woo Kwak, Dongjin Kang, Jinyoung Yeo

104

Web-Navigation ist ein einzigartiges Anwendungsgebiet, das viele repetitive Aufgaben des realen Lebens automatisieren kann und gleichzeitig eine Herausforderung darstellt, da es langfristige sequenzielle Entscheidungsfindung erfordert, die über typische Aufgaben multimodaler großer Sprachmodelle (MLLMs) hinausgeht. Dennoch gab es bislang keine spezialisierten Belohnungsmodelle für Web-Navigation, die sowohl während des Trainings als auch zur Testzeit eingesetzt werden können. Trotz der Bedeutung von Geschwindigkeit und Kosteneffizienz haben frühere Arbeiten MLLMs als Belohnungsmodelle verwendet, was erhebliche Einschränkungen für den realen Einsatz mit sich bringt. Um dies zu adressieren, schlagen wir in dieser Arbeit das erste Prozess-Belohnungsmodell (PRM) namens Web-Shepherd vor, das Web-Navigationspfade auf Schrittebene bewerten kann. Um dies zu erreichen, erstellen wir zunächst die WebPRM Collection, einen umfangreichen Datensatz mit 40.000 Schritt-für-Schritt-Präferenzpaaren und annotierten Checklisten, die verschiedene Domänen und Schwierigkeitsgrade abdecken. Darüber hinaus führen wir WebRewardBench ein, den ersten Meta-Evaluierungs-Benchmark zur Bewertung von PRMs. In unseren Experimenten beobachten wir, dass unser Web-Shepherd im Vergleich zur Verwendung von GPT-4o auf WebRewardBench eine um etwa 30 Punkte bessere Genauigkeit erzielt. Des Weiteren erreichen wir bei Tests auf WebArena-lite, bei denen GPT-4o-mini als Policy und Web-Shepherd als Verifizierer eingesetzt wird, eine um 10,9 Punkte bessere Leistung bei 10 % geringeren Kosten im Vergleich zur Verwendung von GPT-4o-mini als Verifizierer. Unser Modell, der Datensatz und der Code sind öffentlich unter LINK verfügbar.

MMaDA: Multimodale Große Diffusions-Sprachmodelle
MMaDA: Multimodal Large Diffusion Language Models

May 21

ByLing Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang

Wir stellen MMaDA vor, eine neuartige Klasse von multimodalen Diffusions-Grundmodellen, die darauf ausgelegt sind, überragende Leistungen in verschiedenen Bereichen wie textbasiertem Denken, multimodalem Verständnis und Text-zu-Bild-Generierung zu erzielen. Der Ansatz zeichnet sich durch drei wesentliche Innovationen aus: (i) MMaDA verwendet eine einheitliche Diffusionsarchitektur mit einer gemeinsamen probabilistischen Formulierung und einer modalitätsunabhängigen Gestaltung, wodurch der Bedarf an modalitätsspezifischen Komponenten entfällt. Diese Architektur gewährleistet eine nahtlose Integration und Verarbeitung verschiedener Datentypen. (ii) Wir implementieren eine gemischte Long Chain-of-Thought (CoT)-Feinabstimmungsstrategie, die ein einheitliches CoT-Format über verschiedene Modalitäten hinweg kuratiert. Durch die Ausrichtung der Denkprozesse zwischen textuellen und visuellen Domänen erleichtert diese Strategie das Cold-Start-Training für die finale Verstärkungslernphase (RL) und verbessert somit die Fähigkeit des Modells, komplexe Aufgaben von Beginn an zu bewältigen. (iii) Wir schlagen UniGRPO vor, einen einheitlichen, auf Policy-Gradienten basierenden RL-Algorithmus, der speziell für Diffusions-Grundmodelle entwickelt wurde. Durch die Nutzung diversifizierter Belohnungsmodellierung vereinheitlicht UniGRPO das Post-Training sowohl für Denk- als auch für Generierungsaufgaben und gewährleistet konsistente Leistungsverbesserungen. Experimentelle Ergebnisse zeigen, dass MMaDA-8B als einheitliches multimodales Grundmodell starke Generalisierungsfähigkeiten aufweist. Es übertrifft leistungsstarke Modelle wie LLaMA-3-7B und Qwen2-7B im textbasierten Denken, überragt Show-o und SEED-X im multimodalen Verständnis und übertrifft SDXL und Janus in der Text-zu-Bild-Generierung. Diese Erfolge unterstreichen die Effektivität von MMaDA bei der Überbrückung der Lücke zwischen Pre-Training und Post-Training innerhalb einheitlicher Diffusionsarchitekturen und bieten einen umfassenden Rahmen für zukünftige Forschung und Entwicklung. Wir stellen unseren Code und die trainierten Modelle unter folgender Adresse als Open Source zur Verfügung: https://github.com/Gen-Verse/MMaDA

Skalierungsgesetz für Quantisierungsbewusstes Training
Scaling Law for Quantization-Aware Training

May 20

ByMengzhao Chen, Chaoyi Zhang, Jing Liu, Yutao Zeng, Zeyue Xue, Zhiheng Liu, Yunshui Li, Jin Ma, Jie Huang, Xun Zhou, Ping Luo

Große Sprachmodelle (LLMs) erfordern erhebliche Rechen- und Speicherressourcen, was Herausforderungen bei der Bereitstellung mit sich bringt. Quantisierungsbewusstes Training (QAT) adressiert diese Herausforderungen, indem es die Modellpräzision reduziert, während die Leistung erhalten bleibt. Das Skalierungsverhalten von QAT, insbesondere bei 4-Bit-Präzision (W4A4), ist jedoch nicht gut verstanden. Bestehende QAT-Skalierungsgesetze ignorieren oft Schlüsselfaktoren wie die Anzahl der Trainings-Tokens und die Quantisierungsgranularität, was ihre Anwendbarkeit einschränkt. Dieses Papier schlägt ein einheitliches Skalierungsgesetz für QAT vor, das den Quantisierungsfehler als Funktion der Modellgröße, des Trainingsdatenvolumens und der Quantisierungsgruppengröße modelliert. Durch 268 QAT-Experimente zeigen wir, dass der Quantisierungsfehler mit zunehmender Modellgröße abnimmt, aber mit mehr Trainings-Tokens und gröberer Quantisierungsgranularität ansteigt. Um die Quellen des W4A4-Quantisierungsfehlers zu identifizieren, zerlegen wir ihn in Gewichts- und Aktivierungskomponenten. Beide Komponenten folgen dem allgemeinen Trend des W4A4-Quantisierungsfehlers, jedoch mit unterschiedlichen Sensitivitäten. Insbesondere steigt der Gewichtsquantisierungsfehler schneller mit mehr Trainings-Tokens an. Eine weitere Analyse zeigt, dass der Aktivierungsquantisierungsfehler in der FC2-Schicht, verursacht durch Ausreißer, der primäre Engpass des W4A4-QAT-Quantisierungsfehlers ist. Durch die Anwendung von gemischter Präzisionsquantisierung zur Behebung dieses Engpasses demonstrieren wir, dass Gewichts- und Aktivierungsquantisierungsfehler auf ähnliche Niveaus konvergieren können. Zusätzlich übersteigt der Gewichtsquantisierungsfehler mit mehr Trainingsdaten schließlich den Aktivierungsquantisierungsfehler, was darauf hindeutet, dass die Reduzierung des Gewichtsquantisierungsfehlers in solchen Szenarien ebenfalls wichtig ist. Diese Erkenntnisse bieten wichtige Einblicke für die Verbesserung der QAT-Forschung und -Entwicklung.

Diffusion vs. autoregressive Sprachmodelle: Eine Perspektive auf Text-Embeddings
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective

May 21

BySiyue Zhang, Yilun Zhao, Liyuan Geng, Arman Cohan, Anh Tuan Luu, Chen Zhao

Große Sprachmodelle (LLM)-basierte Embedding-Modelle, die von umfangreichem Pre-Training und Post-Training profitieren, haben begonnen, BERT- und T5-basierte Modelle bei allgemeinen Text-Embedding-Aufgaben wie der Dokumentenrecherche zu übertreffen. Eine grundlegende Einschränkung von LLM-Embeddings liegt jedoch in der unidirektionalen Aufmerksamkeit, die während des autoregressiven Pre-Trainings verwendet wird, was sich nicht mit der bidirektionalen Natur von Text-Embedding-Aufgaben deckt. Aus diesem Grund schlagen wir die Verwendung von Diffusions-Sprachmodellen für Text-Embeddings vor, motiviert durch ihre inhärente bidirektionale Architektur und ihren jüngsten Erfolg, LLMs insbesondere bei Aufgaben, die logisches Denken erfordern, zu erreichen oder zu übertreffen. Wir präsentieren die erste systematische Studie des Diffusions-Sprach-Embedding-Modells, das das LLM-basierte Embedding-Modell bei der Langdokumentenrecherche um 20 %, bei der logikintensiven Recherche um 8 % und bei der befehlsfolgenden Recherche um 2 % übertrifft und auf traditionellen Text-Embedding-Benchmarks wettbewerbsfähige Leistungen erzielt. Unsere Analyse bestätigt, dass bidirektionale Aufmerksamkeit entscheidend für die Kodierung des globalen Kontexts in langen und komplexen Texten ist.

UniVG-R1: Universelle visuelle Verankerung mit Verstärkungslernen und Reasoning-Leitfaden
UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning

May 20

BySule Bai, Mingxing Li, Yong Liu, Jing Tang, Haoji Zhang, Lei Sun, Xiangxiang Chu, Yansong Tang

Traditionelle Methoden zur visuellen Verankerung konzentrieren sich hauptsächlich auf Szenarien mit Einzelbildern und einfachen textuellen Referenzen. Die Erweiterung dieser Methoden auf reale Szenarien, die implizite und komplexe Anweisungen beinhalten, insbesondere in Verbindung mit mehreren Bildern, stellt jedoch erhebliche Herausforderungen dar. Dies ist vor allem auf den Mangel an fortgeschrittenen Fähigkeiten zur Schlussfolgerung in diversen multimodalen Kontexten zurückzuführen. In dieser Arbeit zielen wir darauf ab, die praktischere universelle Verankerungsaufgabe zu adressieren, und schlagen UniVG-R1 vor, ein durch Schlussfolgerungen geleitetes multimodales großes Sprachmodell (MLLM) für die universelle visuelle Verankerung, das die Fähigkeiten zur Schlussfolgerung durch Reinforcement Learning (RL) in Kombination mit Cold-Start-Daten verbessert. Konkret konstruieren wir zunächst einen hochwertigen Chain-of-Thought (CoT) Verankerungsdatensatz, der mit detaillierten Schlussfolgerungsketten annotiert ist, um das Modell über überwachtes Fein-Tuning auf korrekte Schlussfolgerungspfade zu lenken. Anschließend führen wir regelbasiertes Reinforcement Learning durch, um das Modell dazu zu ermutigen, korrekte Schlussfolgerungsketten zu identifizieren und dadurch seine Fähigkeiten zur Schlussfolgerung zu fördern. Darüber hinaus identifizieren wir eine Schwierigkeitsverzerrung, die durch die Häufigkeit einfacher Proben im Verlauf des RL-Trainings entsteht, und schlagen eine schwierigkeitsbewusste Gewichtungsanpassungsstrategie vor, um die Leistung weiter zu stärken. Experimentelle Ergebnisse demonstrieren die Wirksamkeit von UniVG-R1, das auf MIG-Bench eine Spitzenleistung erzielt und eine Verbesserung von 9,1 % gegenüber der vorherigen Methode erreicht. Darüber hinaus zeigt unser Modell eine starke Generalisierbarkeit, mit einer durchschnittlichen Verbesserung von 23,4 % in der Zero-Shot-Leistung über vier Bild- und Video-Schlussfolgerungs-Verankerungs-Benchmarks hinweg. Die Projektseite kann unter https://amap-ml.github.io/UniVG-R1-page/ aufgerufen werden.

Effizientes Agententraining für die Computernutzung
Efficient Agent Training for Computer Use

May 20

ByYanheng He, Jiahe Jin, Pengfei Liu

Die Skalierung hochwertiger Trajektoriendaten war lange Zeit ein entscheidender Engpass bei der Entwicklung von menschenähnlichen Computer-Nutzungsagenten. Wir stellen PC Agent-E vor, ein effizientes Framework für das Training von Agenten, das die Abhängigkeit von groß angelegten menschlichen Demonstrationen erheblich reduziert. Ausgehend von nur 312 menschlich annotierten Computer-Nutzungstrajektorien verbesserten wir die Datenqualität weiter, indem wir vielfältige Aktionsentscheidungen mit Claude 3.7 Sonnet synthetisierten. Auf diesen angereicherten Trajektorien trainiert, erzielte unser PC Agent-E-Modell eine bemerkenswerte relative Verbesserung von 141 % und übertraf dabei den starken Claude 3.7 Sonnet mit erweitertem Denken auf WindowsAgentArena-V2, einem verbesserten Benchmark, den wir ebenfalls veröffentlicht haben. Darüber hinaus zeigt PC Agent-E eine starke Generalisierbarkeit auf verschiedene Betriebssysteme in OSWorld. Unsere Ergebnisse deuten darauf hin, dass leistungsstarke Computer-Nutzungsfähigkeiten durch eine kleine Menge hochwertiger Trajektoriendaten stimuliert werden können.

Diese Zeit ist anders: Eine Beobachtbarkeitsperspektive auf Zeitreihen-Foundation-Modelle
This Time is Different: An Observability Perspective on Time Series Foundation Models

May 20

ByBen Cohen, Emaad Khwaja, Youssef Doubli, Salahidine Lemaachi, Chris Lettieri, Charles Masson, Hugo Miccinilli, Elise Ramé, Qiqi Ren, Afshin Rostamizadeh, Jean Ogier du Terrail, Anna-Monica Toon, Kan Wang, Stephan Xie, David Asker, Ameet Talwalkar, Othmane Abou-Amal

Wir stellen Toto vor, ein Foundation-Modell für Zeitreihenvorhersagen mit 151 Millionen Parametern. Toto verwendet eine moderne Decoder-only-Architektur, die durch architektonische Innovationen ergänzt wird, um spezifische Herausforderungen in multivariaten Beobachtbarkeits-Zeitreihendaten zu bewältigen. Das Pre-Training-Korpus von Toto besteht aus einer Mischung von Beobachtbarkeitsdaten, offenen Datensätzen und synthetischen Daten und ist 4-10 Mal größer als das führender Zeitreihen-Foundation-Modelle. Zusätzlich führen wir BOOM ein, einen groß angelegten Benchmark, der 350 Millionen Beobachtungen über 2.807 reale Zeitreihen umfasst. Sowohl für Toto als auch für BOOM stammen die Beobachtbarkeitsdaten ausschließlich aus der Telemetrie und internen Beobachtbarkeitsmetriken von Datadog. Umfangreiche Evaluierungen zeigen, dass Toto sowohl auf BOOM als auch auf etablierten allgemeinen Zeitreihenvorhersage-Benchmarks state-of-the-art-Leistungen erzielt. Die Modellgewichte, Inferenz-Codes und Evaluierungsskripte von Toto sowie die Daten und Evaluierungscodes von BOOM sind alle als Open Source unter der Apache 2.0-Lizenz verfügbar unter https://huggingface.co/Datadog/Toto-Open-Base-1.0 und https://github.com/DataDog/toto.

Lernen Sie effizient zu schlussfolgern mit adaptiver belohnungsbasierter Längenformung
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping

May 21

ByWei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He

Große Reasoning-Modelle (LRMs) haben bemerkenswerte Fähigkeiten bei der Lösung komplexer Probleme durch Reinforcement Learning (RL) gezeigt, insbesondere durch die Generierung langer Reasoning-Traces. Diese umfangreichen Ausgaben weisen jedoch oft erhebliche Redundanzen auf, was die Effizienz von LRMs einschränkt. In diesem Artikel untersuchen wir RL-basierte Ansätze zur Förderung der Reasoning-Effizienz. Konkret stellen wir zunächst ein einheitliches Framework vor, das verschiedene effiziente Reasoning-Methoden durch die Linse der längenbasierten Reward-Shaping-Formulierung darstellt. Aufbauend auf dieser Perspektive schlagen wir eine neuartige Length-bAsed StEp Reward-Shaping-Methode (LASER) vor, die eine Stufenfunktion als Belohnung verwendet, die durch eine Ziel-Länge gesteuert wird. LASER übertrifft bisherige Methoden und erreicht ein überlegenes Pareto-optimales Gleichgewicht zwischen Leistung und Effizienz. Anschließend erweitern wir LASER basierend auf zwei zentralen Intuitionen: (1) Das Reasoning-Verhalten des Modells entwickelt sich während des Trainings, was Belohnungsspezifikationen erfordert, die ebenfalls adaptiv und dynamisch sind; (2) Anstatt kürzere oder längere Chains of Thought (CoT) einheitlich zu fördern, postulieren wir, dass längenbasierte Reward-Shaping schwierigkeitsbewusst sein sollte, d.h., es sollte lange CoTs stärker für einfache Abfragen bestrafen. Dieser Ansatz soll eine Kombination aus schnellem und langsamem Denken ermöglichen, was zu einem besseren Gesamtkompromiss führt. Die resultierende Methode wird als LASER-D (Dynamic and Difficulty-aware) bezeichnet. Experimente auf DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B und DeepSeek-R1-Distill-Qwen-32B zeigen, dass unser Ansatz sowohl die Reasoning-Leistung als auch die Effizienz der Antwortlänge signifikant verbessert. Beispielsweise erzielen LASER-D und seine Variante eine Verbesserung von +6.1 auf AIME2024 bei gleichzeitiger Reduzierung der Token-Nutzung um 63%. Weitere Analysen zeigen, dass unsere RL-basierte Kompression prägnantere Reasoning-Muster mit weniger redundanten „Selbstreflexionen“ erzeugt. Ressourcen sind unter https://github.com/hkust-nlp/Laser verfügbar.

Vid2World: Entwicklung von Video-Diffusionsmodellen zu interaktiven Weltmodellen
Vid2World: Crafting Video Diffusion Models to Interactive World Models

May 20

BySiqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long

Weltmodelle, die Übergänge basierend auf historischen Beobachtungen und Aktionssequenzen vorhersagen, haben großes Potenzial gezeigt, um die Dateneffizienz bei sequenziellen Entscheidungsprozessen zu verbessern. Allerdings erfordern bestehende Weltmodelle oft umfangreiches domänenspezifisches Training und erzeugen dennoch niedrigauflösende, grobe Vorhersagen, was ihre Anwendbarkeit in komplexen Umgebungen einschränkt. Im Gegensatz dazu haben Video-Diffusionsmodelle, die auf großen, internetweiten Datensätzen trainiert wurden, beeindruckende Fähigkeiten bei der Erzeugung hochwertiger Videos demonstriert, die vielfältige reale Dynamiken erfassen. In dieser Arbeit präsentieren wir Vid2World, einen allgemeinen Ansatz, um vortrainierte Video-Diffusionsmodelle in interaktive Weltmodelle zu übertragen und zu nutzen. Um die Lücke zu schließen, führt Vid2World eine Kausalisation eines vortrainierten Video-Diffusionsmodells durch, indem dessen Architektur und Trainingsziel so gestaltet werden, dass eine autoregressive Generierung ermöglicht wird. Darüber hinaus wird ein kausaler Aktionsleitmechanismus eingeführt, um die Aktionssteuerbarkeit im resultierenden interaktiven Weltmodell zu verbessern. Umfangreiche Experimente in den Bereichen Roboter-Manipulation und Spielsimulation zeigen, dass unsere Methode einen skalierbaren und effektiven Ansatz bietet, um hochleistungsfähige Video-Diffusionsmodelle in interaktive Weltmodelle umzuwandeln.

Konstruktion einer 3D-Stadt aus einem einzelnen Bild
Constructing a 3D Town from a Single Image

May 21

ByKaizhi Zheng, Ruijian Zhang, Jing Gu, Jie Yang, Xin Eric Wang

Die Erfassung detaillierter 3D-Szenen erfordert in der Regel teure Ausrüstung, Multi-View-Daten oder arbeitsintensive Modellierung. Daher spielt eine leichtgewichtige Alternative, die komplexe 3D-Szenen aus einem einzigen Draufsichtsbild generiert, eine wesentliche Rolle in realen Anwendungen. Während aktuelle 3D-Generierungsmodelle auf Objektebene bemerkenswerte Ergebnisse erzielt haben, führt ihre Erweiterung auf die Generierung vollständiger Szenen oft zu inkonsistenter Geometrie, Layout-Halluzinationen und qualitativ minderwertigen Meshes. In dieser Arbeit stellen wir 3DTown vor, ein trainingsfreies Framework, das darauf ausgelegt ist, realistische und kohärente 3D-Szenen aus einer einzigen Draufsicht zu synthetisieren. Unser Ansatz basiert auf zwei Prinzipien: regionsbasierte Generierung zur Verbesserung der Bild-zu-3D-Ausrichtung und Auflösung sowie raumbewusstes 3D-Inpainting, um globale Szenenkohärenz und hochwertige Geometriegenerierung sicherzustellen. Konkret zerlegen wir das Eingabebild in überlappende Regionen und generieren jede mithilfe eines vortrainierten 3D-Objekterzeugers, gefolgt von einem maskierten rectified flow-Inpainting-Prozess, der fehlende Geometrie auffüllt und gleichzeitig die strukturelle Kontinuität bewahrt. Dieser modulare Ansatz ermöglicht es uns, Auflösungsengpässe zu überwinden und die räumliche Struktur zu bewahren, ohne 3D-Aufsicht oder Feinabstimmung zu benötigen. Umfangreiche Experimente in verschiedenen Szenen zeigen, dass 3DTown state-of-the-art Baselines wie Trellis, Hunyuan3D-2 und TripoSG in Bezug auf Geometriequalität, räumliche Kohärenz und Texturtreue übertrifft. Unsere Ergebnisse demonstrieren, dass hochwertige 3D-Stadtgenerierung aus einem einzigen Bild mit einem prinzipienbasierten, trainingsfreien Ansatz möglich ist.

Wann weiterdenken: Adaptives Umschalten des Denkmodus für effizientes Schließen
When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning

May 21

ByXiaoyun Zhang, Jingqing Ruan, Xing Ma, Yawen Zhu, Haodong Zhao, Hao Li, Jiansong Chen, Ke Zeng, Xunliang Cai

Große Reasoning-Modelle (LRMs) erzielen bemerkenswerte Leistungen durch lange Reasoning-Ketten, verursachen jedoch oft übermäßigen Rechenaufwand aufgrund redundanten Reasonings, insbesondere bei einfachen Aufgaben. In dieser Arbeit quantifizieren wir systematisch die oberen Grenzen von LRMs sowohl im Long-Thinking- als auch im No-Thinking-Modus und decken das Phänomen des „Internen Selbstwiederherstellungsmechanismus“ auf, bei dem Modelle das Reasoning implizit während der Antwortgenerierung ergänzen. Aufbauend auf dieser Erkenntnis schlagen wir Adaptive Self-Recovery Reasoning (ASRR) vor, ein Framework, das unnötiges Reasoning unterdrückt und implizite Wiederherstellung ermöglicht. Durch die Einführung einer genauigkeitsbewussten Längenbelohnungsregulierung weist ASRR den Reasoning-Aufwand adaptiv entsprechend der Schwierigkeit der Aufgabe zu und erreicht so hohe Effizienz mit vernachlässigbarem Leistungsverlust. Experimente über mehrere Benchmarks und Modelle hinweg zeigen, dass ASRR im Vergleich zu GRPO den Reasoning-Budget um bis zu 32,5 % (1,5B) und 25,7 % (7B) reduziert, bei minimalem Genauigkeitsverlust (1,2 % und 0,6 % pass@1), und die Harmlosigkeitsraten auf Sicherheits-Benchmarks signifikant steigert (bis zu +21,7 %). Unsere Ergebnisse unterstreichen das Potenzial von ASRR für effizientes, adaptives und sichereres Reasoning in LRMs.

lmgame-Bench: Wie gut sind LLMs im Spielen von Spielen?
lmgame-Bench: How Good are LLMs at Playing Games?

May 21

ByLanxiang Hu, Mingjia Huo, Yuxuan Zhang, Haoyang Yu, Eric P. Xing, Ion Stoica, Tajana Rosing, Haojian Jin, Hao Zhang

Das Spielen von Videospielen erfordert Wahrnehmung, Gedächtnis und Planung – genau die Fähigkeiten, die moderne Large Language Model (LLM)-Agenten beherrschen sollen. Wir untersuchen die zentralen Herausforderungen bei der Verwendung beliebter Videospiele zur Bewertung moderner LLMs und stellen fest, dass das direkte Einbinden von LLMs in Spiele keine effektive Evaluierung ermöglicht, und zwar aus drei Gründen: brüchige visuelle Wahrnehmung, Prompt-Sensitivität und potenzielle Datenkontamination. Wir stellen lmgame-Bench vor, um Spiele in zuverlässige Evaluierungen zu verwandeln. lmgame-Bench umfasst eine Sammlung von Plattform-, Puzzle- und narrativen Spielen, die über eine einheitliche Gym-style API bereitgestellt werden und mit leichtgewichtigen Wahrnehmungs- und Gedächtnisstrukturen kombiniert sind. Es wurde entwickelt, um Prompt-Varianz zu stabilisieren und Kontamination zu entfernen. Anhand von 13 führenden Modellen zeigen wir, dass lmgame-Bench herausfordernd ist, aber dennoch eine gute Unterscheidung zwischen den Modellen ermöglicht. Korrelationsanalysen zeigen, dass jedes Spiel eine einzigartige Kombination von Fähigkeiten untersucht, die oft isoliert an anderer Stelle getestet werden. Interessanterweise überträgt sich das Durchführen von Reinforcement Learning auf einem einzelnen Spiel aus lmgame-Bench sowohl auf ungesehene Spiele als auch auf externe Planungsaufgaben. Unser Evaluierungscode ist verfügbar unter https://github.com/lmgame-org/GamingAgent/lmgame-bench.

Soft Thinking: Das Erschließen des Schlussfolgerungspotenzials von LLMs im kontinuierlichen Konzeptraum
Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space

May 21

ByZhen Zhang, Xuehai He, Weixiang Yan, Ao Shen, Chenyang Zhao, Shuohang Wang, Yelong Shen, Xin Eric Wang

Die menschliche Kognition beinhaltet typischerweise das Denken in abstrakten, fließenden Konzepten, anstatt strikt diskrete linguistische Tokens zu verwenden. Aktuelle Reasoning-Modelle sind jedoch darauf beschränkt, innerhalb der Grenzen der menschlichen Sprache zu operieren, indem sie diskrete Token-Embeddings verarbeiten, die feste Punkte im semantischen Raum repräsentieren. Diese diskrete Beschränkung begrenzt die Ausdruckskraft und das maximale Potenzial solcher Reasoning-Modelle, was oft zu einer unvollständigen Erkundung von Reasoning-Pfaden führt, da Standard-Chain-of-Thought (CoT)-Methoden darauf basieren, pro Schritt einen Token zu sammeln. In dieser Arbeit stellen wir Soft Thinking vor, eine trainingsfreie Methode, die menschliches „weiches“ Reasoning nachahmt, indem sie weiche, abstrakte Konzept-Tokens in einem kontinuierlichen Konzeptraum erzeugt. Diese Konzept-Tokens werden durch eine wahrscheinlichkeitsgewichtete Mischung von Token-Embeddings erstellt, die den kontinuierlichen Konzeptraum bilden, wodurch fließende Übergänge und reichhaltigere Repräsentationen ermöglicht werden, die traditionelle diskrete Grenzen überschreiten. Im Wesentlichen fasst jeder erzeugte Konzept-Token mehrere Bedeutungen aus verwandten diskreten Tokens zusammen und erkundet implizit verschiedene Reasoning-Pfade, um effektiv zur richtigen Antwort zu gelangen. Empirische Auswertungen auf diversen mathematischen und Programmier-Benchmarks zeigen durchweg die Effektivität und Effizienz von Soft Thinking, wobei die Pass@1-Genauigkeit um bis zu 2,48 Punkte verbessert wird, während gleichzeitig der Token-Verbrauch um bis zu 22,4 % im Vergleich zu Standard-CoT reduziert wird. Qualitative Analysen zeigen weiterhin, dass die Ausgaben von Soft Thinking hochgradig interpretierbar und lesbar bleiben, was das Potenzial von Soft Thinking unterstreicht, den inhärenten Engpass des diskret sprachbasierten Reasonings zu überwinden. Der Code ist verfügbar unter https://github.com/eric-ai-lab/Soft-Thinking.

Lernen zu schlussfolgern durch Mixture-of-Thought für logisches Denken
Learning to Reason via Mixture-of-Thought for Logical Reasoning

May 21

ByTong Zheng, Lichang Chen, Simeng Han, R. Thomas McCoy, Heng Huang

Menschen nutzen auf natürliche Weise mehrere Denkmodalitäten, um zu lernen und logische Probleme zu lösen, d.h. verschiedene Darstellungsformate wie natürliche Sprache, Code und symbolische Logik. Im Gegensatz dazu arbeiten die meisten bestehenden LLM-basierten Ansätze während des Trainings mit einer einzigen Denkmodalität, typischerweise natürlicher Sprache. Obwohl einige Methoden die Auswahl oder Erweiterung von Modalitäten zur Inferenzzeit untersucht haben, bleibt der Trainingsprozess modalitätsblind, was die Synergie zwischen den Modalitäten einschränkt. Um diese Lücke zu schließen, schlagen wir Mixture-of-Thought (MoT) vor, ein Framework, das LLMs ermöglicht, über drei komplementäre Modalitäten zu schließen: natürliche Sprache, Code und eine neu eingeführte symbolische Modalität, die Wahrheitstabelle, die logische Fälle systematisch aufzählt und wichtige Fehlermodi beim Schlussfolgern in natürlicher Sprache teilweise abmildert. MoT verwendet ein zweiphasiges Design: (1) selbstentwickelndes MoT-Training, das gemeinsam aus gefilterten, selbstgenerierten Begründungen über verschiedene Modalitäten lernt; und (2) MoT-Inferenz, die die Synergie der drei Modalitäten voll ausschöpft, um bessere Vorhersagen zu treffen. Experimente auf logischen Denkbenchmarks, einschließlich FOLIO und ProofWriter, zeigen, dass unser MoT-Framework durchweg und signifikant starke LLM-Baselines mit Einzelmodalitäts-Ketten-von-Gedanken-Ansätzen übertrifft und einen durchschnittlichen Genauigkeitsgewinn von bis zu +11,7 Prozentpunkten erzielt. Weitere Analysen zeigen, dass unser MoT-Framework sowohl die Trainings- als auch die Inferenzphasen begünstigt; dass es besonders effektiv bei schwierigeren logischen Denkproblemen ist; und dass verschiedene Modalitäten komplementäre Stärken beitragen, wobei das Schlussfolgern mit Wahrheitstabellen hilft, wichtige Engpässe in der natürlichen Sprachinferenz zu überwinden.

VerifyBench: Benchmarking referenzbasierter Belohnungssysteme für große Sprachmodelle
VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models

May 21

ByYuchen Yan, Jin Jiang, Zhenbang Ren, Yijun Li, Xudong Cai, Yang Liu, Xin Xu, Mengdi Zhang, Jian Shao, Yongliang Shen, Jun Xiao, Yueting Zhuang

Große Reasoning-Modelle wie OpenAI o1 und DeepSeek-R1 haben bemerkenswerte Leistungen im Bereich des logischen Schließens erzielt. Ein zentraler Bestandteil ihres Trainings ist die Einbindung von überprüfbaren Belohnungen im Rahmen des Reinforcement Learning (RL). Allerdings bewerten bestehende Belohnungs-Benchmarks keine referenzbasierten Belohnungssysteme, was Forschern nur ein begrenztes Verständnis der Genauigkeit der in RL verwendeten Verifizierer ermöglicht. In diesem Artikel führen wir zwei Benchmarks ein, VerifyBench und VerifyBench-Hard, die darauf abzielen, die Leistung referenzbasierter Belohnungssysteme zu bewerten. Diese Benchmarks wurden durch sorgfältige Datensammlung und -kuratierung sowie anschließende manuelle Annotation erstellt, um eine hohe Qualität sicherzustellen. Aktuelle Modelle zeigen auf beiden Benchmarks noch erheblichen Verbesserungsbedarf, insbesondere kleinere Modelle. Darüber hinaus führen wir eine umfassende Analyse der Evaluierungsergebnisse durch, die Einblicke in das Verständnis und die Entwicklung referenzbasierter Belohnungssysteme bietet. Unsere vorgeschlagenen Benchmarks dienen als effektive Werkzeuge, um die Entwicklung der Genauigkeit von Verifizierern und die Reasoning-Fähigkeiten von Modellen, die über RL in Reasoning-Aufgaben trainiert werden, zu unterstützen.

Überlegungen zu Priors: Vertrauenswürdiges Schließen großer Sprachmodelle auf Wissensgraphen
Deliberation on Priors: Trustworthy Reasoning of Large Language Models on Knowledge Graphs

May 21

ByJie Ma, Ning Qu, Zhitao Gao, Rui Xing, Jun Liu, Hongbin Pei, Jiang Xie, Linyun Song, Pinghui Wang, Jing Tao, Zhou Su

Wissensgraphen-basierte, retrieval-augmentierte Generierung zielt darauf ab, Halluzinationen in großen Sprachmodellen (LLMs), die durch unzureichendes oder veraltetes Wissen verursacht werden, zu reduzieren. Bisherige Methoden schöpfen jedoch oft das in Wissensgraphen (KGs) enthaltene Vorwissen nicht vollständig aus, insbesondere deren strukturelle Informationen sowie explizite oder implizite Einschränkungen. Erstere können die Zuverlässigkeit der Schlussfolgerungen von LLMs verbessern, während Letztere die Verlässlichkeit der Antwortgenerierung erhöhen können. Motiviert durch diese Erkenntnisse schlagen wir ein vertrauenswürdiges Schlussfolgerungsframework vor, genannt Deliberation over Priors (DP), das die in KGs enthaltenen Vorinformationen umfassend nutzt. Konkret verwendet DP eine progressive Wissensdestillationsstrategie, die strukturelle Vorinformationen durch eine Kombination aus überwachtem Feinabstimmen und Kahneman-Tversky-Optimierung in LLMs integriert, wodurch die Zuverlässigkeit der Relationenpfadgenerierung verbessert wird. Darüber hinaus setzt unser Framework eine Reasoning-Introspection-Strategie ein, die LLMs dazu anleitet, verfeinerte Schlussfolgerungsüberprüfungen auf Basis extrahierter Einschränkungsvorinformationen durchzuführen, um die Verlässlichkeit der Antwortgenerierung sicherzustellen. Umfangreiche Experimente auf drei Benchmark-Datensätzen zeigen, dass DP neue Spitzenleistungen erzielt, insbesondere eine Verbesserung von 13 % bei Hit@1 auf dem ComplexWebQuestions-Datensatz, und hochgradig vertrauenswürdige Antworten generiert. Wir führen zudem verschiedene Analysen durch, um die Flexibilität und Praktikabilität zu bestätigen. Der Code ist verfügbar unter https://github.com/reml-group/Deliberation-on-Priors.

RLVR-World: Training von Weltmodellen mit Reinforcement Learning
RLVR-World: Training World Models with Reinforcement Learning

May 20

ByJialong Wu, Shaofeng Yin, Ningya Feng, Mingsheng Long

Weltmodelle prognostizieren Zustandsübergänge als Reaktion auf Aktionen und werden zunehmend in verschiedenen Modalitäten entwickelt. Standardtrainingsziele wie die Maximum-Likelihood-Schätzung (MLE) stehen jedoch oft im Widerspruch zu den aufgabenbezogenen Zielen von Weltmodellen, wie z.B. Metriken für Übergangsprognosen wie Genauigkeit oder wahrgenommene Qualität. In diesem Artikel stellen wir RLVR-World vor, ein einheitliches Framework, das Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) nutzt, um Weltmodelle direkt für solche Metriken zu optimieren. Obwohl die Modellierung von Weltmodellen als autoregressive Vorhersage von tokenisierten Sequenzen formuliert wird, bewertet RLVR-World Metriken der dekodierten Vorhersagen als verifizierbare Belohnungen. Wir zeigen erhebliche Leistungssteigerungen bei sprach- und videobasierten Weltmodellen in verschiedenen Bereichen, einschließlich Textspielen, Webnavigation und Robotersteuerung. Unsere Arbeit zeigt, dass RLVR über die jüngsten Fortschritte bei Reasoning-Sprachmodellen hinaus ein vielversprechendes Post-Training-Paradigma bietet, um den Nutzen von generativen Modellen insgesamt zu verbessern.

dKV-Cache: Der Cache für Diffusions-Sprachmodelle
dKV-Cache: The Cache for Diffusion Language Models

May 21

ByXinyin Ma, Runpeng Yu, Gongfan Fang, Xinchao Wang

Diffusion Language Models (DLMs) gelten als vielversprechende Konkurrenten zu autoregressiven Sprachmodellen. Allerdings waren Diffusion Language Models lange Zeit durch langsame Inferenz eingeschränkt. Eine zentrale Herausforderung besteht darin, dass ihre nicht-autoregressive Architektur und bidirektionale Aufmerksamkeit den Key-Value-Cache ausschließen, der die Dekodierung beschleunigt. Wir adressieren diesen Engpass durch einen KV-Cache-ähnlichen Mechanismus, den verzögerten KV-Cache, für den Denoising-Prozess von DLMs. Unser Ansatz wird durch die Beobachtung motiviert, dass verschiedene Tokens unterschiedliche Repräsentationsdynamiken während des Diffusionsprozesses aufweisen. Entsprechend schlagen wir eine verzögerte und bedingte Caching-Strategie für Key- und Value-Zustände vor. Wir entwerfen zwei komplementäre Varianten, um Key und Value schrittweise zu cachen: (1) dKV-Cache-Decode, das eine nahezu verlustfreie Beschleunigung bietet und sogar die Leistung bei langen Sequenzen verbessert, was darauf hindeutet, dass bestehende DLMs kontextuelle Informationen während der Inferenz möglicherweise nicht ausreichend nutzen. (2) dKV-Cache-Greedy, das ein aggressives Caching mit reduzierter Lebensdauer aufweist und höhere Beschleunigungen mit quadratischer Zeitkomplexität auf Kosten eines gewissen Leistungsverlusts erreicht. dKV-Cache erzielt schließlich eine 2- bis 10-fache Beschleunigung in der Inferenz und verringert damit die Lücke zwischen ARs und DLMs erheblich. Wir evaluieren unseren dKV-Cache anhand mehrerer Benchmarks und erzielen Beschleunigungen in allgemeinem Sprachverständnis, mathematischen und Code-Generierungs-Benchmarks. Experimente zeigen, dass der Cache auch in DLMs verwendet werden kann, sogar in trainingsfreier Weise mit aktuellen DLMs.

Seien Sie vorsichtig beim Fine-Tuning von Open-Source-LLMs: Ihre Fine-Tuning-Daten könnten heimlich gestohlen werden!
Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!

May 21

ByZhexin Zhang, Yuhao Sun, Junxiao Yang, Shiyao Cui, Hongning Wang, Minlie Huang

Das Feinabstimmen von Open-Source-Large-Language-Models (LLMs) mit proprietären Daten ist mittlerweile eine gängige Praxis für nachgelagerte Entwickler, um aufgaben-spezifische LLMs zu erhalten. Überraschenderweise decken wir ein neues und besorgniserregendes Risiko im Zusammenhang mit dieser Praxis auf: Der Ersteller der Open-Source-LLMs kann später die privaten Feinabstimmungsdaten durch einfaches Backdoor-Training extrahieren, wobei lediglich ein Black-Box-Zugriff auf das feinabgestimmte nachgelagerte Modell erforderlich ist. Unsere umfassenden Experimente, die über 4 häufig verwendete Open-Source-Modelle mit 3B bis 32B Parametern und 2 nachgelagerten Datensätzen durchgeführt wurden, zeigen, dass die Extraktionsleistung erstaunlich hoch sein kann: In praktischen Szenarien können bis zu 76,3 % der nachgelagerten Feinabstimmungsdaten (Abfragen) aus insgesamt 5.000 Proben perfekt extrahiert werden, und die Erfolgsrate kann in idealeren Szenarien auf 94,9 % ansteigen. Wir untersuchen auch eine detektionsbasierte Verteidigungsstrategie, stellen jedoch fest, dass sie mit verbesserten Angriffen umgangen werden kann. Insgesamt unterstreichen wir die Dringlichkeit dieses neu identifizierten Datenbruchrisikos beim Feinabstimmen, und wir hoffen, dass weitere Folgestudien den Fortschritt bei der Bewältigung dieses besorgniserregenden Risikos vorantreiben können. Der Code und die Daten, die in unseren Experimenten verwendet wurden, sind unter https://github.com/thu-coai/Backdoor-Data-Extraction veröffentlicht.

IA-T2I: Internet-augmentierte Text-zu-Bild-Generierung
IA-T2I: Internet-Augmented Text-to-Image Generation

May 21

ByChuanhao Li, Jianwen Sun, Yukang Feng, Mingliang Zhai, Yifan Chang, Kaipeng Zhang

Aktuelle Text-zu-Bild (T2I)-Generierungsmodelle erzielen vielversprechende Ergebnisse, scheitern jedoch in Szenarien, in denen das im Textprompt implizierte Wissen unsicher ist. Beispielsweise würde ein im Februar veröffentlichtes T2I-Modell Schwierigkeiten haben, ein geeignetes Poster für einen Film zu generieren, der im April Premiere hat, da die Charakterdesigns und Stile für das Modell unsicher sind. Um dieses Problem zu lösen, schlagen wir ein internetgestütztes Text-zu-Bild-Generierungsframework (IA-T2I) vor, das T2I-Modelle durch die Bereitstellung von Referenzbildern dazu befähigt, solches unsicheres Wissen zu klären. Konkret wird ein aktives Retrieval-Modul entwickelt, um basierend auf dem gegebenen Textprompt zu bestimmen, ob ein Referenzbild benötigt wird; ein hierarchisches Bildauswahlmodul wird eingeführt, um das am besten geeignete Bild, das von einer Bildsuchmaschine zurückgegeben wird, zu finden und das T2I-Modell zu verbessern; ein Selbstreflexionsmechanismus wird vorgestellt, um das generierte Bild kontinuierlich zu bewerten und zu verfeinern, um eine treue Ausrichtung an dem Textprompt sicherzustellen. Um die Leistung des vorgeschlagenen Frameworks zu bewerten, sammeln wir einen Datensatz namens Img-Ref-T2I, in dem Textprompts drei Arten von unsicherem Wissen enthalten: (1) bekannt, aber selten. (2) unbekannt. (3) mehrdeutig. Darüber hinaus erstellen wir sorgfältig einen komplexen Prompt, um GPT-4o bei der Präferenzbewertung zu leiten, was sich als ähnlich genau wie die menschliche Präferenzbewertung erwiesen hat. Experimentelle Ergebnisse demonstrieren die Effektivität unseres Frameworks, das GPT-4o in der menschlichen Bewertung um etwa 30 % übertrifft.

DiCo: Revitalisierung von ConvNets für skalierbare und effiziente Diffusionsmodellierung
DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling

May 16

ByYuang Ai, Qihang Fan, Xuefeng Hu, Zhenheng Yang, Ran He, Huaibo Huang

Diffusion Transformer (DiT), ein vielversprechendes Diffusionsmodell für die visuelle Generierung, zeigt beeindruckende Leistungen, verursacht jedoch erheblichen Rechenaufwand. Interessanterweise zeigt die Analyse vortrainierter DiT-Modelle, dass globales Self-Attention oft redundant ist und hauptsächlich lokale Muster erfasst – was das Potenzial für effizientere Alternativen aufzeigt. In diesem Papier untersuchen wir Faltung (Convolution) als alternativen Baustein für den Aufbau effizienter und ausdrucksstarker Diffusionsmodelle. Die naive Ersetzung von Self-Attention durch Faltung führt jedoch typischerweise zu einer Verschlechterung der Leistung. Unsere Untersuchungen führen diese Leistungslücke auf die höhere Kanalredundanz in ConvNets im Vergleich zu Transformern zurück. Um dies zu beheben, führen wir einen kompakten Kanal-Attentionsmechanismus ein, der die Aktivierung vielfältigerer Kanäle fördert und dadurch die Merkmalsvielfalt verbessert. Dies führt zu Diffusion ConvNet (DiCo), einer Familie von Diffusionsmodellen, die vollständig aus standardmäßigen ConvNet-Modulen aufgebaut sind und starke generative Leistungen mit erheblichen Effizienzgewinnen bieten. Bei klassenspezifischen ImageNet-Benchmarks übertrifft DiCo frühere Diffusionsmodelle sowohl in der Bildqualität als auch in der Generierungsgeschwindigkeit. Bemerkenswerterweise erreicht DiCo-XL einen FID von 2,05 bei 256x256 Auflösung und 2,53 bei 512x512, mit einer 2,7-fachen bzw. 3,1-fachen Beschleunigung gegenüber DiT-XL/2. Darüber hinaus erreicht unser größtes Modell, DiCo-H, mit 1B Parametern einen FID von 1,90 auf ImageNet 256x256 – ohne zusätzliche Überwachung während des Trainings. Code: https://github.com/shallowdream204/DiCo.

Wie sollten wir die Sicherheit großer Reasoning-Modelle verbessern: Eine empirische Studie
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study

May 21

ByZhexin Zhang, Xian Qi Loye, Victor Shea-Jay Huang, Junxiao Yang, Qi Zhu, Shiyao Cui, Fei Mi, Lifeng Shang, Yingkang Wang, Hongning Wang, Minlie Huang

Große Reasoning-Modelle (LRMs) haben bemerkenswerte Erfolge bei reasoning-intensiven Aufgaben wie Mathematik und Programmierung erzielt. Ihre verbesserten Reasoning-Fähigkeiten führen jedoch nicht zwangsläufig zu einer besseren Sicherheitsleistung – und können diese in einigen Fällen sogar verschlechtern. Dies wirft eine wichtige Forschungsfrage auf: Wie können wir die Sicherheit von LRMs verbessern? In diesem Artikel präsentieren wir eine umfassende empirische Studie darüber, wie die Sicherheit von LRMs durch Supervised Fine-Tuning (SFT) verbessert werden kann. Unsere Untersuchung beginnt mit einer unerwarteten Beobachtung: Die direkte Destillation sicherer Antworten aus DeepSeek-R1 führt nicht zu einer signifikanten Verbesserung der Sicherheit. Wir analysieren dieses Phänomen und identifizieren drei zentrale Fehlermuster, die dazu beitragen. Anschließend zeigen wir, dass die explizite Berücksichtigung dieser Probleme während des Daten-Destillationsprozesses zu erheblichen Sicherheitsverbesserungen führen kann. Als Nächstes untersuchen wir, ob ein langer und komplexer Reasoning-Prozess notwendig ist, um Sicherheit zu erreichen. Interessanterweise stellen wir fest, dass die Verwendung kurzer oder vorlagenbasierter Reasoning-Prozesse eine vergleichbare Sicherheitsleistung erzielen kann – und dass diese für Modelle deutlich einfacher zu erlernen sind als komplexere Reasoning-Ketten. Diese Erkenntnisse regen zu einer tieferen Reflexion über die Rolle des Reasonings bei der Gewährleistung von Sicherheit an. Schließlich stellen wir fest, dass die Einbeziehung von Mathematik-Reasoning-Daten während des Sicherheits-Fine-Tunings hilfreich ist, um Sicherheit und Überverweigerung auszugleichen. Insgesamt hoffen wir, dass unsere empirische Studie ein umfassenderes Bild zur Verbesserung der Sicherheit von LRMs liefern kann. Der Code und die Daten, die in unseren Experimenten verwendet wurden, sind unter https://github.com/thu-coai/LRM-Safety-Study veröffentlicht.

BARREL: Grenzbewusstes Reasoning für faktenbasierte und zuverlässige LRMs
BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs

May 18

ByJunxiao Yang, Jinzhe Tu, Haoran Liu, Xiaoce Wang, Chujie Zheng, Zhexin Zhang, Shiyao Cui, Caishun Chen, Tiantian He, Hongning Wang, Yew-Soon Ong, Minlie Huang

Jüngste Fortschritte bei Large Reasoning Models (LRMs) haben beeindruckende Fähigkeiten im mathematischen und logischen Denken gezeigt. Allerdings geben aktuelle LRMs selten Unwissenheit zu oder antworten mit „Ich weiß es nicht“. Stattdessen liefern sie oft falsche Antworten, während sie unangemessenes Selbstvertrauen zeigen, was Bedenken hinsichtlich ihrer faktischen Zuverlässigkeit aufwirft. In dieser Arbeit identifizieren wir zwei pathologische Denkmuster, die durch Überdenken gekennzeichnet sind und zu übermütigen und falschen Antworten beitragen: Last-Minute-Raten und Gedankenspiralen. Um diese Probleme anzugehen, schlagen wir BARREL vor – ein neuartiges Framework, das präzises und grenzbewusstes faktisches Denken fördert. Unsere Experimente zeigen, dass BARREL-Training die Zuverlässigkeit von DeepSeek-R1-Distill-Llama-8B von 39,33 % auf 61,48 % steigert, während es eine Genauigkeit erreicht, die mit Modellen vergleichbar ist, die auf von R1 generierten Denkdaten feinabgestimmt wurden. Diese Ergebnisse zeigen, dass unsere Pilotstudie inspirierend ist, um zuverlässigere und faktenbasierte System-2-LRMs zu entwickeln.

Textgenerierung jenseits der diskreten Token-Stichprobenentnahme
Text Generation Beyond Discrete Token Sampling

May 20

ByYufan Zhuang, Liyuan Liu, Chandan Singh, Jingbo Shang, Jianfeng Gao

Bei der standardmäßigen autoregressiven Generierung sagt ein großes Sprachmodell (LLM) die nächste Token-Verteilung voraus, zieht ein diskretes Token und verwirft dann die Verteilung, wobei nur das gezogene Token als neue Eingabe weitergegeben wird. Um die umfangreichen Informationen dieser Verteilung zu bewahren, schlagen wir Mixture of Inputs (MoI) vor, eine trainingsfreie Methode für die autoregressive Generierung. Nachdem ein Token gemäß dem Standardparadigma generiert wurde, konstruieren wir eine neue Eingabe, die das generierte diskrete Token mit der zuvor verworfenen Token-Verteilung kombiniert. Konkret verwenden wir eine Bayes'sche Schätzmethode, die die Token-Verteilung als Prior, das gezogene Token als Beobachtung behandelt und den konventionellen One-Hot-Vektor durch die kontinuierliche Posterior-Erwartung als neue Modelleingabe ersetzt. MoI ermöglicht es dem Modell, während des gesamten Generierungsprozesses eine reichhaltigere interne Repräsentation beizubehalten, was zu einer verbesserten Textqualität und besseren Fähigkeiten im logischen Schlussfolgern führt. Bei mathematischem Denken, Code-Generierung und PhD-Level-Frage-Antwort-Aufgaben verbessert MoI durchgängig die Leistung über mehrere Modelle hinweg, darunter QwQ-32B, Nemotron-Super-49B, Gemma-3-27B und DAPO-Qwen-32B, ohne zusätzliches Training und mit vernachlässigbarem Rechenaufwand.

ConvSearch-R1: Verbesserung der Abfragereformulierung für konversationelle Suche durch Reasoning mittels Reinforcement Learning
ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning

May 21

ByChangtai Zhu, Siyin Wang, Ruijun Feng, Kai Song, Xipeng Qiu

Konversationelle Suchsysteme erfordern eine effektive Handhabung von kontextabhängigen Anfragen, die oft Mehrdeutigkeit, Auslassungen und Koreferenz enthalten. Conversational Query Reformulation (CQR) begegnet dieser Herausforderung, indem diese Anfragen in eigenständige Formen transformiert werden, die für Standard-Retriever geeignet sind. Allerdings leiden bestehende CQR-Ansätze unter zwei kritischen Einschränkungen: einer hohen Abhängigkeit von kostspieliger externer Überwachung durch menschliche Annotationen oder große Sprachmodelle sowie einer unzureichenden Abstimmung zwischen dem Umformulierungsmodell und den nachgelagerten Retrievern. Wir präsentieren ConvSearch-R1, das erste selbstgesteuerte Framework, das die Abhängigkeit von externer Umformulierungsüberwachung vollständig eliminiert, indem es Reinforcement Learning nutzt, um die Umformulierung direkt durch Retrieval-Signale zu optimieren. Unser neuartiger zweistufiger Ansatz kombiniert Self-Driven Policy Warm-Up, um das Cold-Start-Problem durch retrieval-gesteuerte Selbst-Distillation zu lösen, gefolgt von Retrieval-Guided Reinforcement Learning mit einem speziell entwickelten Rank-Incentive-Reward-Shaping-Mechanismus, der das Sparsity-Problem in konventionellen Retrieval-Metriken adressiert. Umfangreiche Experimente auf den Datensätzen TopiOCQA und QReCC zeigen, dass ConvSearch-R1 bisherige State-of-the-Art-Methoden deutlich übertrifft und eine Verbesserung von über 10 % auf dem anspruchsvollen TopiOCQA-Datensatz erreicht, während kleinere 3B-Parameter-Modelle ohne jegliche externe Überwachung verwendet werden.

AutoMat: Automatisierte Rekonstruktion von Kristallstrukturen aus Mikroskopieaufnahmen durch agentenbasierten Werkzeugeinsatz
AutoMat: Enabling Automated Crystal Structure Reconstruction from Microscopy via Agentic Tool Use

May 19

ByYaotian Yang, Yiwen Tang, Yizhe Chen, Xiao Chen, Jiangjie Qiu, Hao Xiong, Haoyu Yin, Zhiyao Luo, Yifei Zhang, Sijia Tao, Wentao Li, Qinghua Zhang, Yuqiang Li, Wanli Ouyang, Bin Zhao, Xiaonan Wang, Fei Wei

Maschinelles Lernen-basierte interatomare Potentiale und Kraftfelder hängen kritisch von präzisen atomaren Strukturen ab, doch solche Daten sind aufgrund der begrenzten Verfügbarkeit experimentell aufgelöster Kristalle rar. Obwohl atomauflösende Elektronenmikroskopie eine potenzielle Quelle für Strukturdaten bietet, bleibt die Umwandlung dieser Bilder in simulationsfähige Formate arbeitsintensiv und fehleranfällig, was einen Engpass für das Modelltraining und die Validierung darstellt. Wir stellen AutoMat vor, eine End-to-End, agentenunterstützte Pipeline, die automatisch Rastertransmissionselektronenmikroskopie (STEM)-Bilder in atomare Kristallstrukturen umwandelt und deren physikalische Eigenschaften vorhersagt. AutoMat kombiniert musteradaptive Rauschunterdrückung, physikgeleitete Template-Rekonstruktion, symmetriebewusste atomare Rekonstruktion, schnelle Relaxation und Eigenschaftsvorhersage via MatterSim sowie koordinierte Orchestrierung über alle Stufen hinweg. Wir schlagen den ersten dedizierten STEM2Mat-Bench für diese Aufgabe vor und bewerten die Leistung anhand von Gitter-RMSD, Bildungsenergie-MAE und Strukturübereinstimmungsrate. Durch die Orchestrierung externer Tool-Aufrufe ermöglicht AutoMat einem textbasierten LLM, in diesem Bereich Vision-Sprach-Modelle zu übertreffen und geschlossene Schlussfolgerungen über die gesamte Pipeline hinweg zu erreichen. In groß angelegten Experimenten mit über 450 Strukturproben übertrifft AutoMat bestehende multimodale Large Language Models und Tools deutlich. Diese Ergebnisse validieren sowohl AutoMat als auch STEM2Mat-Bench und markieren einen wichtigen Schritt hin zur Überbrückung von Mikroskopie und atomarer Simulation in der Materialwissenschaft. Der Code und der Datensatz sind öffentlich verfügbar unter https://github.com/yyt-2378/AutoMat und https://huggingface.co/datasets/yaotianvector/STEM2Mat.

Vorherige Prompt-Engineering für Reinforcement Fine-Tuning
Prior Prompt Engineering for Reinforcement Fine-Tuning

May 20

ByPittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul

Diese Arbeit untersucht das Prior Prompt Engineering (pPE) im Kontext des Reinforcement Fine-Tunings (RFT), bei dem Sprachmodelle (LMs) durch Belohnungssignale dazu angeregt werden, Verhaltensweisen zu zeigen, die die Leistung maximieren. Während sich die bestehende RFT-Forschung hauptsächlich auf Algorithmen, Reward Shaping und Datenkuratierung konzentriert hat, bleibt die Gestaltung des Prior Prompts – der Anweisungen, die während des Trainings an Anfragen angehängt werden, um Verhaltensweisen wie schrittweises Denken zu fördern – weitgehend unerforscht. Wir untersuchen, ob unterschiedliche pPE-Ansätze LMs dazu führen können, nach dem RFT unterschiedliche Verhaltensweisen zu internalisieren. Inspiriert vom Inference-Time Prompt Engineering (iPE) übersetzen wir fünf repräsentative iPE-Strategien – schrittweises Denken, Planung, codebasiertes Denken, Wissensabruf und die Nutzung von Null-Beispielen – in entsprechende pPE-Ansätze. Wir experimentieren mit Qwen2.5-7B unter Verwendung jedes dieser pPE-Ansätze und bewerten dann die Leistung auf in-domain und out-of-domain Benchmarks (z. B. AIME2024, HumanEval+ und GPQA-Diamond). Unsere Ergebnisse zeigen, dass alle pPE-trainierten Modelle ihre iPE-unterstützten Gegenstücke übertreffen, wobei der Null-Beispiel-pPE-Ansatz den größten durchschnittlichen Leistungszuwachs und die höchste Verbesserung bei AIME2024 und GPQA-Diamond erzielt und den häufig verwendeten schrittweisen Denkansatz übertrifft. Darüber hinaus zeigen wir durch die Anpassung eines Verhaltensklassifizierungsrahmens, dass unterschiedliche pPE-Strategien den resultierenden Modellen unterschiedliche Verhaltensstile vermitteln. Diese Erkenntnisse positionieren pPE als eine leistungsstarke, jedoch noch wenig erforschte Dimension für RFT.

Biasbewertung ohne manuelle Testdatensätze: Eine Konzeptrepräsentationsperspektive für LLMs
Evaluate Bias without Manual Test Sets: A Concept Representation Perspective for LLMs

May 21

ByLang Gao, Kaiyang Wan, Wei Liu, Chenxi Wang, Zirui Song, Zixiang Xu, Yanbo Wang, Veselin Stoyanov, Xiuying Chen

Bias in großen Sprachmodellen (LLMs) beeinträchtigt deren Zuverlässigkeit und Fairness erheblich. Wir konzentrieren uns auf eine häufige Form von Bias: Wenn zwei Referenzkonzepte im Konzeptraum des Modells, wie beispielsweise Sentimentpolaritäten (z. B. „positiv“ und „negativ“), asymmetrisch mit einem dritten Zielkonzept, wie einem Bewertungsaspekt, korreliert sind, zeigt das Modell unbeabsichtigte Verzerrungen. Zum Beispiel sollte das Verständnis von „Essen“ nicht in Richtung eines bestimmten Sentiments verzerrt sein. Bestehende Methoden zur Bias-Bewertung untersuchen Verhaltensunterschiede von LLMs, indem sie gelabelte Daten für verschiedene soziale Gruppen erstellen und die Modellantworten über diese hinweg messen – ein Prozess, der erheblichen menschlichen Aufwand erfordert und nur eine begrenzte Anzahl sozialer Konzepte erfasst. Um diese Einschränkungen zu überwinden, schlagen wir BiasLens vor, ein testsetfreies Bias-Analyse-Framework, das auf der Struktur des Vektorraums des Modells basiert. BiasLens kombiniert Concept Activation Vectors (CAVs) mit Sparse Autoencoders (SAEs), um interpretierbare Konzeptrepräsentationen zu extrahieren, und quantifiziert Bias, indem es die Variation in der Ähnlichkeit der Repräsentation zwischen dem Zielkonzept und jedem der Referenzkonzepte misst. Selbst ohne gelabelte Daten zeigt BiasLens eine starke Übereinstimmung mit traditionellen Bias-Bewertungsmetriken (Spearman-Korrelation r > 0,85). Darüber hinaus deckt BiasLens Formen von Bias auf, die mit bestehenden Methoden schwer zu erkennen sind. Beispielsweise kann in simulierten klinischen Szenarien der Versicherungsstatus eines Patienten dazu führen, dass das LLM verzerrte diagnostische Bewertungen erstellt. Insgesamt bietet BiasLens ein skalierbares, interpretierbares und effizientes Paradigma für die Bias-Entdeckung und ebnet den Weg zur Verbesserung von Fairness und Transparenz in LLMs.

Die unvernünftige Wirksamkeit der Entropieminimierung beim LLM-Schlussfolgern
The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

May 21

ByShivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng

Die Entropieminimierung (EM) trainiert das Modell, noch mehr Wahrscheinlichkeitsmasse auf seine zuversichtlichsten Ausgaben zu konzentrieren. Wir zeigen, dass dieses einfache Ziel allein, ohne jegliche annotierte Daten, die Leistung großer Sprachmodelle (LLMs) bei anspruchsvollen Aufgaben in Mathematik, Physik und Programmierung erheblich verbessern kann. Wir untersuchen drei Ansätze: (1) EM-FT minimiert die Token-Entropie ähnlich wie beim Instruction Finetuning, jedoch auf unmarkierten Ausgaben, die vom Modell selbst stammen; (2) EM-RL: Reinforcement Learning mit negativer Entropie als einziger zu maximierender Belohnung; (3) EM-INF: Logit-Anpassung zur Inferenzzeit, um die Entropie ohne Trainingsdaten oder Parameteraktualisierungen zu reduzieren. Bei Qwen-7B erreicht EM-RL, ohne jegliche annotierte Daten, vergleichbare oder bessere Leistung als starke RL-Baselines wie GRPO und RLOO, die auf 60.000 annotierten Beispielen trainiert wurden. Darüber hinaus ermöglicht EM-INF Qwen-32B, die Leistung proprietärer Modelle wie GPT-4o, Claude 3 Opus und Gemini 1.5 Pro auf dem anspruchsvollen SciCode-Benchmark zu erreichen oder zu übertreffen, während es 3-mal effizienter ist als Selbstkonsistenz und sequenzielle Verfeinerung. Unsere Ergebnisse zeigen, dass viele vortrainierte LLMs bisher unterschätzte Fähigkeiten zur logischen Schlussfolgerung besitzen, die allein durch Entropieminimierung effektiv aktiviert werden können, ohne annotierte Daten oder sogar Parameteraktualisierungen.

RL Tango: Gemeinsame Verstärkung von Generator und Verifizierer für Sprachlogik
RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning

May 21

ByKaiwen Zha, Zhengqi Gao, Maohao Shen, Zhang-Wei Hong, Duane S. Boning, Dina Katabi

Reinforcement Learning (RL) hat sich kürzlich als vielversprechender Ansatz zur Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens erwiesen, wobei ein LLM-Generator als Policy fungiert, die von einem Verifizierer (Belohnungsmodell) gesteuert wird. Allerdings verwenden aktuelle RL-Nachtrainingsmethoden für LLMs typischerweise Verifizierer, die entweder festgelegt sind (regelbasiert oder eingefrorene vortrainierte Modelle) oder diskriminativ durch überwachtes Feinabstimmen (SFT) trainiert werden. Solche Ansätze sind anfällig für Reward Hacking und generalisieren schlecht über ihre Trainingsverteilungen hinaus. Um diese Einschränkungen zu überwinden, schlagen wir Tango vor, ein neuartiges Framework, das RL nutzt, um sowohl einen LLM-Generator als auch einen Verifizierer in einem verschachtelten Verfahren gleichzeitig zu trainieren. Eine zentrale Innovation von Tango ist sein generativer, prozessbasierter LLM-Verifizierer, der durch RL trainiert wird und sich gemeinsam mit dem Generator weiterentwickelt. Wichtig ist, dass der Verifizierer ausschließlich auf der Grundlage von Ergebnisverifikationskorrektheitsbelohnungen trainiert wird, ohne explizite prozessbasierte Annotationen zu benötigen. Dieser generativ durch RL trainierte Verifizierer zeigt eine verbesserte Robustheit und überlegene Generalisierungsfähigkeit im Vergleich zu deterministischen oder SFT-trainierten Verifizierern und fördert eine effektive gegenseitige Verstärkung mit dem Generator. Umfangreiche Experimente zeigen, dass beide Komponenten von Tango Spitzenergebnisse unter Modellen im 7B/8B-Maßstab erzielen: Der Generator erreicht Bestwerte in fünf wettbewerbsorientierten mathematischen Benchmarks und vier anspruchsvollen domänenübergreifenden Denkaufgaben, während der Verifizierer im ProcessBench-Datensatz führend ist. Bemerkenswert ist, dass beide Komponenten insbesondere bei den schwierigsten mathematischen Denkproblemen erhebliche Verbesserungen zeigen. Der Code ist verfügbar unter: https://github.com/kaiwenzha/rl-tango.

BLEUBERI: BLEU erweist sich als überraschend effektive Belohnung für die Befolgung von Anweisungen.
BLEUBERI: BLEU is a surprisingly effective reward for instruction following

May 16

ByYapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer

Belohnungsmodelle sind zentral für die Ausrichtung von LLMs an menschlichen Präferenzen, aber sie sind kostspielig zu trainieren, da sie groß angelegte, von Menschen annotierte Präferenzdaten und leistungsstarke vortrainierte LLM-Backbones erfordern. Gleichzeitig wirft die zunehmende Verfügbarkeit von hochwertigen synthetischen Datensätzen zur Befolgung von Anleitungen die Frage auf: Können einfachere, referenzbasierte Metriken als praktikable Alternativen zu Belohnungsmodellen während der RL-basierten Ausrichtung dienen? In diesem Artikel zeigen wir zunächst, dass BLEU, eine grundlegende String-Matching-Metrik, überraschenderweise starke Belohnungsmodelle in der Übereinstimmung mit menschlichen Präferenzen auf allgemeinen Datensätzen zur Befolgung von Anleitungen erreicht. Basierend auf dieser Erkenntnis entwickeln wir BLEUBERI, eine Methode, die zunächst herausfordernde Anweisungen identifiziert und dann Group Relative Policy Optimization (GRPO) anwendet, wobei BLEU direkt als Belohnungsfunktion verwendet wird. Wir demonstrieren, dass mit BLEUBERI trainierte Modelle mit Modellen, die über RL mit Belohnungsmodellen trainiert wurden, auf vier anspruchsvollen Benchmarks zur Befolgung von Anleitungen und drei verschiedenen Basissprachmodellen konkurrieren können. Eine menschliche Bewertung unterstützt weiterhin, dass die Qualität der BLEUBERI-Modellausgaben auf dem Niveau derjenigen von mit Belohnungsmodellen ausgerichteten Modellen liegt. Darüber hinaus generieren BLEUBERI-Modelle Ausgaben, die faktenbasierter sind als die konkurrierender Methoden. Insgesamt zeigen wir, dass bei Zugriff auf hochwertige Referenzausgaben (leicht über bestehende Datensätze zur Befolgung von Anleitungen oder synthetische Datengenerierung erhältlich), String-Matching-basierte Metriken kostengünstige, aber effektive Stellvertreter für Belohnungsmodelle während der Ausrichtung sind. Wir veröffentlichen unseren Code und unsere Daten unter https://github.com/lilakk/BLEUBERI.

Audio Jailbreak: Ein umfassender Open-Benchmark für das Jailbreaking großer Audio-Sprachmodelle
Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

May 21

ByZirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen

Der Aufstieg von Large Audio Language Models (LAMs) birgt sowohl Potenzial als auch Risiken, da ihre Audioausgaben schädliche oder unethische Inhalte enthalten können. Allerdings fehlt es in der aktuellen Forschung an einer systematischen, quantitativen Bewertung der Sicherheit von LAMs, insbesondere gegenüber Jailbreak-Angriffen, die aufgrund der zeitlichen und semantischen Natur von Sprache eine Herausforderung darstellen. Um diese Lücke zu schließen, führen wir AJailBench ein, den ersten Benchmark, der speziell zur Bewertung von Jailbreak-Schwachstellen in LAMs entwickelt wurde. Wir beginnen mit der Erstellung von AJailBench-Base, einem Datensatz von 1.495 adversarischen Audio-Prompts, die 10 politikverletzende Kategorien abdecken und aus textuellen Jailbreak-Angriffen mithilfe realistischer Text-zu-Sprache-Synthese konvertiert wurden. Mit diesem Datensatz bewerten wir mehrere state-of-the-art LAMs und zeigen, dass keine durchgängige Robustheit gegenüber Angriffen aufweisen. Um die Jailbreak-Tests weiter zu stärken und realistischere Angriffsbedingungen zu simulieren, schlagen wir eine Methode zur Erzeugung dynamischer adversarischer Varianten vor. Unser Audio Perturbation Toolkit (APT) wendet gezielte Verzerrungen in den Bereichen Zeit, Frequenz und Amplitude an. Um die ursprüngliche Jailbreak-Absicht zu bewahren, setzen wir eine semantische Konsistenzbedingung durch und verwenden Bayesian Optimization, um effizient nach subtilen und hochwirksamen Perturbationen zu suchen. Dies führt zu AJailBench-APT, einem erweiterten Datensatz optimierter adversarischer Audio-Beispiele. Unsere Ergebnisse zeigen, dass selbst kleine, semantisch erhaltene Perturbationen die Sicherheitsleistung führender LAMs erheblich reduzieren können, was die Notwendigkeit robusterer und semantisch bewusster Abwehrmechanismen unterstreicht.

VARD: Effizientes und dichtes Feinabstimmen von Diffusionsmodellen mit wertbasiertem Reinforcement Learning
VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

May 21

ByFengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan

Diffusionsmodelle haben sich als leistungsstarke generative Werkzeuge in verschiedenen Domänen etabliert, doch die Anpassung vortrainierter Modelle, um spezifische wünschenswerte Eigenschaften zu zeigen, bleibt eine Herausforderung. Während Reinforcement Learning (RL) eine vielversprechende Lösung bietet, kämpfen aktuelle Methoden damit, gleichzeitig eine stabile, effiziente Feinabstimmung zu erreichen und nicht-differenzierbare Belohnungen zu unterstützen. Darüber hinaus bietet ihre Abhängigkeit von spärlichen Belohnungen eine unzureichende Überwachung während der Zwischenschritte, was oft zu suboptimaler Generierungsqualität führt. Um diese Einschränkungen zu überwinden, sind dichte und differenzierbare Signale während des gesamten Diffusionsprozesses erforderlich. Daher schlagen wir VAlue-based Reinforced Diffusion (VARD) vor: einen neuartigen Ansatz, der zunächst eine Wertfunktion lernt, die die erwarteten Belohnungen aus Zwischenzuständen vorhersagt, und diese Wertfunktion anschließend mit KL-Regularisierung verwendet, um eine dichte Überwachung während des gesamten Generierungsprozesses zu ermöglichen. Unsere Methode bleibt in der Nähe des vortrainierten Modells, ermöglicht jedoch eine effektive und stabile Training über Backpropagation. Experimentelle Ergebnisse zeigen, dass unser Ansatz eine bessere Trajektorienführung ermöglicht, die Trainingseffizienz verbessert und die Anwendbarkeit von RL auf Diffusionsmodelle erweitert, die für komplexe, nicht-differenzierbare Belohnungsfunktionen optimiert sind.

HumaniBench: Ein menschenzentrierter Rahmenwerk zur Evaluierung großer multimodaler Modelle
HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

May 16

ByShaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

Große multimodale Modelle (LMMs) übertreffen mittlerweile auf vielen Vision-Language-Benchmarks, haben jedoch weiterhin Schwierigkeiten mit menschenzentrierten Kriterien wie Fairness, Ethik, Empathie und Inklusivität, die entscheidend für die Ausrichtung an menschlichen Werten sind. Wir stellen HumaniBench vor, einen ganzheitlichen Benchmark mit 32.000 realen Bild-Frage-Paaren, die über eine skalierbare GPT4o-unterstützte Pipeline annotiert und umfassend von Fachexperten überprüft wurden. HumaniBench bewertet sieben Prinzipien der Human Centered AI (HCAI): Fairness, Ethik, Verständnis, logisches Denken, sprachliche Inklusivität, Empathie und Robustheit, über sieben verschiedene Aufgaben hinweg, darunter offene und geschlossene visuelle Frage-Antwort-Systeme (VQA), mehrsprachige QA, visuelle Verankerung, empathische Bildbeschreibung und Robustheitstests. Die Bewertung von 15 state-of-the-art LMMs (sowohl Open-Source als auch proprietäre Modelle) zeigt, dass proprietäre Modelle im Allgemeinen führend sind, obwohl Robustheit und visuelle Verankerung weiterhin Schwachstellen darstellen. Einige Open-Source-Modelle haben ebenfalls Schwierigkeiten, Genauigkeit mit der Einhaltung menschenzentrierter Prinzipien in Einklang zu bringen. HumaniBench ist der erste Benchmark, der gezielt um HCAI-Prinzipien herum entwickelt wurde. Er bietet eine rigorose Testumgebung zur Diagnose von Ausrichtungslücken und zur Führung von LMMs hin zu einem Verhalten, das sowohl präzise als auch sozial verantwortungsvoll ist. Datensatz, Annotationsanweisungen und Evaluationscode sind verfügbar unter: https://vectorinstitute.github.io/HumaniBench

WebNovelBench: Platzierung von LLM-Romanautoren in der Webroman-Verteilung
WebNovelBench: Placing LLM Novelists on the Web Novel Distribution

May 20

ByLeon Lin, Jun Zheng, Haidong Wang

Die robuste Bewertung der Fähigkeiten von Large Language Models (LLMs) zur Erstellung langformatiger Geschichten bleibt eine erhebliche Herausforderung, da bestehende Benchmarks oft den notwendigen Umfang, die Vielfalt oder objektive Maßstäbe vermissen lassen. Um dies zu adressieren, führen wir WebNovelBench ein, einen neuartigen Benchmark, der speziell für die Bewertung der Generierung langformatiger Romane entwickelt wurde. WebNovelBench nutzt einen umfangreichen Datensatz von über 4.000 chinesischen Webromanen und formuliert die Bewertung als eine Synopsis-zu-Geschichte-Generierungsaufgabe. Wir schlagen ein vielschichtiges Rahmenwerk vor, das acht narrative Qualitätsdimensionen umfasst, die automatisch über einen LLM-as-Judge-Ansatz bewertet werden. Die Bewertungen werden mithilfe der Hauptkomponentenanalyse aggregiert und in einen Prozentrang im Vergleich zu von Menschen verfassten Werken abgebildet. Unsere Experimente zeigen, dass WebNovelBench effektiv zwischen von Menschen geschriebenen Meisterwerken, populären Webromanen und LLM-generierten Inhalten unterscheidet. Wir bieten eine umfassende Analyse von 24 state-of-the-art LLMs, ordnen ihre Geschichtenerzählfähigkeiten ein und geben Einblicke für zukünftige Entwicklungen. Dieser Benchmark bietet eine skalierbare, reproduzierbare und datengetriebene Methodik zur Bewertung und Weiterentwicklung der LLM-gestützten narrativen Generierung.

BanditSpec: Adaptives spekulatives Decodieren mittels Bandit-Algorithmen
BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms

May 21

ByYunlong Hou, Fengzhuo Zhang, Cunxiao Du, Xuan Zhang, Jiachun Pan, Tianyu Pang, Chao Du, Vincent Y. F. Tan, Zhuoran Yang

Spekulative Dekodierung hat sich als beliebte Methode zur Beschleunigung der Inferenz von Large Language Models (LLMs) etabliert, während deren überlegene Textgenerierungsleistung erhalten bleibt. Bisherige Methoden verwenden entweder eine feste spekulative Dekodierungskonfiguration unabhängig von den Präfix-Tokens oder trainieren Entwurfsmodelle offline oder online, um sie an den Kontext anzupassen. Dieses Papier schlägt ein trainingsfreies Online-Lernframework vor, das die Konfiguration der Hyperparameter für die spekulative Dekodierung adaptiv während der Texterzeugung auswählt. Wir formulieren dieses Hyperparameter-Auswahlproblem zunächst als ein Multi-Armed Bandit Problem und stellen ein allgemeines spekulatives Dekodierungsframework, BanditSpec, vor. Darüber hinaus werden zwei bandit-basierte Hyperparameter-Auswahlalgorithmen, UCBSpec und EXP3Spec, entworfen und im Hinblick auf eine neuartige Größe, die Stoppzeit-Regret, analysiert. Wir begrenzen diesen Regret sowohl unter stochastischen als auch unter adversariellen Belohnungseinstellungen. Durch die Ableitung eines informationstheoretischen Unmöglichkeitsergebnisses wird gezeigt, dass die Regret-Leistung von UCBSpec bis auf universelle Konstanten optimal ist. Schließlich demonstrieren umfangreiche empirische Experimente mit LLaMA3 und Qwen2, dass unsere Algorithmen im Vergleich zu bestehenden Methoden effektiv sind und der Durchsatz nahe am besten Hyperparameter-Orakel in simulierten realen LLM-Serverszenarien mit diversen Eingabeaufforderungen liegt.

PiFlow: Prinzipienorientierte wissenschaftliche Entdeckung durch Multi-Agenten-Kollaboration
PiFlow: Principle-aware Scientific Discovery with Multi-Agent Collaboration

May 21

ByYingming Pu, Tao Lin, Hongyu Chen

Multi-Agent-Systeme (MAS) auf Basis von Large Language Models (LLMs) zeigen bemerkenswertes Potenzial für wissenschaftliche Entdeckungen. Bisherige Ansätze automatisieren jedoch oft die wissenschaftliche Entdeckung mithilfe vordefinierter Workflows, denen Rationalitätsbeschränkungen fehlen. Dies führt häufig zu ziellosem Hypothesenbilden und einem mangelnden Zusammenhang zwischen Hypothesen und Belegen, was die systematische Unsicherheitsreduzierung behindert. Die Überwindung dieser Einschränkungen erfordert grundlegend eine systematische Unsicherheitsreduzierung. Wir stellen PiFlow vor, ein informationstheoretisches Framework, das die automatisierte wissenschaftliche Entdeckung als ein strukturiertes Problem der Unsicherheitsreduzierung behandelt, das von Prinzipien (z. B. wissenschaftlichen Gesetzen) geleitet wird. In Bewertungen über drei verschiedene wissenschaftliche Domänen hinweg – der Entdeckung von Nanomaterialstrukturen, Biomolekülen und Supraleiterkandidaten mit gezielten Eigenschaften – verbessert unsere Methode die Entdeckungseffizienz erheblich, was sich in einer Steigerung der Fläche unter der Kurve (AUC) der Eigenschaftswerte gegenüber den Erkundungsschritten um 73,55 % widerspiegelt, und erhöht die Lösungsqualität um 94,06 % im Vergleich zu einem einfachen Agentensystem. Insgesamt dient PiFlow als Plug-and-Play-Methode und etabliert einen neuartigen Paradigmenwechsel in der hocheffizienten automatisierten wissenschaftlichen Entdeckung, wodurch der Weg für robustere und beschleunigte KI-gestützte Forschung geebnet wird. Der Code ist öffentlich auf unserem GitHub verfügbar: https://github.com/amair-lab/PiFlow.

Skalierung und Verbesserung von LLM-basiertem AVSR: Ein Ansatz mit spärlicher Mischung von Projektoren
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

May 20

ByUmberto Cappellazzo, Minsu Kim, Stavros Petridis, Daniele Falavigna, Alessio Brutti

Audio-Visual Speech Recognition (AVSR) erhöht die Robustheit in lauten Umgebungen durch die Integration visueller Hinweise. Während neuere Fortschritte Large Language Models (LLMs) in AVSR integrieren, behindern deren hohe Rechenkosten den Einsatz in ressourcenbeschränkten Umgebungen. Um dies zu adressieren, schlagen wir Llama-SMoP vor, ein effizientes Multimodales LLM, das ein Sparse Mixture of Projectors (SMoP)-Modul verwendet, um die Modellkapazität zu skalieren, ohne die Inferenzkosten zu erhöhen. Durch die Einbindung von spärlich geschalteten Mixture-of-Experts (MoE)-Projektoren ermöglicht Llama-SMoP die Verwendung kleinerer LLMs bei gleichbleibend starker Leistung. Wir untersuchen drei SMoP-Konfigurationen und zeigen, dass Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), das modalitätsspezifische Router und Experten verwendet, eine überlegene Leistung bei ASR-, VSR- und AVSR-Aufgaben erzielt. Ablationsstudien bestätigen seine Effektivität in Bezug auf Expertenaktivierung, Skalierbarkeit und Rauschrobustheit.

Effizienz ohne Kompromisse – Redundanz in der Berechnung von LMM reduzieren
Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM

May 21

ByPenghao Wu, Lewei Lu, Ziwei Liu

Große multimodale Modelle glänzen bei multimodalen Aufgaben, stehen jedoch aufgrund des übermäßigen Rechenaufwands für visuelle Tokens vor erheblichen rechnerischen Herausforderungen. Im Gegensatz zu Token-Reduktionsmethoden, die sich auf Redundanz auf Token-Ebene konzentrieren, identifizieren und untersuchen wir die Redundanz auf Rechenebene bei visuellen Tokens, um sicherzustellen, dass keine Informationsverluste entstehen. Unsere zentrale Erkenntnis ist, dass visuelle Tokens aus dem vortrainierten visuellen Encoder nicht unbedingt alle aufwendigen Operationen (z. B. Self-Attention, FFNs) in decoder-only LMMs benötigen und mit geeigneten Designs leichter verarbeitet werden könnten. Wir haben eine Reihe von Experimenten entworfen, um die visuell bedingte Rechenredundanz zu entdecken und schrittweise zu reduzieren. Basierend auf unseren Erkenntnissen schlagen wir ProxyV vor, einen neuartigen Ansatz, der Proxy-Vision-Tokens nutzt, um die Rechenlast auf die ursprünglichen visuellen Tokens zu verringern. ProxyV steigert die Effizienz, ohne die Leistung zu beeinträchtigen, und kann sogar bemerkenswerte Leistungssteigerungen in Szenarien mit moderateren Effizienzverbesserungen erzielen. Darüber hinaus wird die Flexibilität von ProxyV durch die Kombination mit Token-Reduktionsmethoden zur weiteren Steigerung der Effizienz demonstriert. Der Code wird unter dieser URL https://github.com/penghao-wu/ProxyV öffentlich zugänglich gemacht.

MultiHal: Multilingualer Datensatz zur wissensgraphenbasierten Bewertung von Halluzinationen in großen Sprachmodellen
MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations

May 20

ByErnests Lavrinovics, Russa Biswas, Katja Hose, Johannes Bjerva

Große Sprachmodelle (LLMs) weisen inhärente Einschränkungen in Bezug auf Wahrhaftigkeit und Faktizität auf, die gemeinhin als Halluzinationen bezeichnet werden. Es wurden mehrere Benchmarks entwickelt, die eine Testumgebung für die Bewertung der Faktizität im Kontext englischsprachiger Datensätze bieten, wobei sie sich auf zusätzliche informative Kontexte wie Weblinks oder Textpassagen stützen, jedoch die verfügbaren strukturierten Faktenressourcen ignorieren. In diesem Zusammenhang wurden Wissensgraphen (KGs) als nützliches Hilfsmittel zur Minderung von Halluzinationen identifiziert, da sie eine strukturierte Möglichkeit bieten, Fakten über Entitäten und ihre Beziehungen mit minimalem linguistischen Aufwand darzustellen. Wir schließen die Lücke fehlender KG-Pfade und Mehrsprachigkeit für die faktische Sprachmodellierung innerhalb der bestehenden Halluzinationsbewertungs-Benchmarks und schlagen einen KG-basierten, mehrsprachigen und multihop Benchmark namens MultiHal vor, der für die Bewertung generativer Texte konzipiert ist. Im Rahmen unserer Datenerfassungspipeline haben wir 140.000 KG-Pfade aus offenen Wissensgraphen extrahiert, aus denen wir verrauschte KG-Pfade entfernt und eine hochwertige Teilmenge von 25.900 kuratiert haben. Unsere Baseline-Auswertung zeigt eine absolute Skalenerhöhung von etwa 0,12 bis 0,36 Punkten für den semantischen Ähnlichkeits-Score in KG-RAG gegenüber herkömmlichen Frage-Antwort-Systemen über mehrere Sprachen und Modelle hinweg, was das Potenzial der KG-Integration demonstriert. Wir gehen davon aus, dass MultiHal zukünftige Forschungen zu mehreren graphenbasierten Aufgaben zur Minderung von Halluzinationen und Faktenüberprüfung fördern wird.

In-Context-Learning verbessert die Spracherkennung durch menschenähnliche Anpassung an Sprecher und Sprachvarianten
In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties

May 20

ByNathan Roll, Calbert Graham, Yuka Tatsumi, Kim Tien Nguyen, Meghan Sumner, Dan Jurafsky

Menschliche Zuhörer passen sich problemlos an unbekannte Sprecher und Sprachvarianten durch Exposition an, aber erstrecken sich diese Anpassungsvorteile auch auf modernste gesprochene Sprachmodelle? Wir stellen ein skalierbares Framework vor, das In-Context-Learning (ICL) in Phi-4 Multimodal durch verschachtelte Aufgabenprompts und Audio-Text-Paare ermöglicht, und finden heraus, dass bereits 12 Beispieläußerungen (~50 Sekunden) zur Inferenzzeit die Wortfehlerraten im Durchschnitt über diverse englische Korpora um relative 19,7 % (1,2 Prozentpunkte) reduzieren. Diese Verbesserungen sind am deutlichsten bei ressourcenarmen Varianten, wenn der Kontext und der Zielsprecher übereinstimmen, und wenn mehr Beispiele bereitgestellt werden – obwohl die Skalierung unseres Verfahrens abnehmende Grenzerträge in Bezug auf die Kontextlänge zeigt. Insgesamt stellen wir fest, dass unser neuartiges ICL-Anpassungsschema (1) ein ähnliches Leistungsprofil wie menschliche Zuhörer aufweist und (2) konsistente Verbesserungen der Robustheit der automatischen Spracherkennung (ASR) über diverse Sprecher und Sprachhintergründe hinweg demonstriert. Während die Anpassung im Großen und Ganzen erfolgreich ist, bleiben für bestimmte Varianten signifikante Lücken bestehen, die zeigen, wo aktuelle Modelle noch hinter der menschlichen Flexibilität zurückbleiben. Wir veröffentlichen unsere Prompts und den Code auf GitHub.

Sprachspezifisches Wissen: Wissen Modelle in X mehr als in Englisch?
Language Specific Knowledge: Do Models Know Better in X than in English?

May 21

ByIshika Agarwal, Nimet Beyza Bozdag, Dilek Hakkani-Tür

Code-Switching ist ein häufiges Phänomen, bei dem zwischen verschiedenen Sprachen innerhalb derselben Äußerung, Gedanken oder Konversation gewechselt wird. Wir stellen die These auf, dass Menschen Code-Switching betreiben, weil sie sich bei bestimmten Themen und Domänen in einer Sprache wohler fühlen als in einer anderen. Mit dem Aufkommen von wissensintensiven Sprachmodellen stellen wir uns die naheliegende Frage: Könnten Modelle in manchen Sprachen mehr Wissen zu bestimmten Themen besitzen? Noch wichtiger: Könnten wir das logische Denken verbessern, indem wir die Sprache ändern, in der das Denken stattfindet? Wir prägen den Begriff Language Specific Knowledge (LSK), um dieses Phänomen zu beschreiben. Da ethnische Kulturen oft parallel zu verschiedenen Sprachen entstehen, verwenden wir kulturspezifische Datensätze (die Wissen über kulturelle und soziale Verhaltensnormen enthalten). Wir stellen fest, dass Sprachmodelle bei der Chain-of-Thought-Reasoning in manchen Sprachen besser abschneiden können als in Englisch, manchmal sogar in ressourcenarmen Sprachen. In Verbindung mit früheren Arbeiten, die zeigen, dass semantische Ähnlichkeit nicht mit repräsentativer Ähnlichkeit gleichzusetzen ist, vermuten wir, dass kulturspezifische Texte in den entsprechenden Sprachen häufiger vorkommen, wodurch spezifisches Wissen nur in bestimmten „Experten“-Sprachen vorhanden ist. Motiviert durch unsere ersten Ergebnisse entwickeln wir eine einfache Methodik namens LSKExtractor, um das sprachspezifische Wissen in einem Sprachmodell zu bewerten und es während der Inferenz zu nutzen. Wir präsentieren unsere Ergebnisse anhand verschiedener Modelle und Datensätze und zeigen eine durchschnittliche relative Verbesserung der Genauigkeit um 10 %. Unsere Forschung trägt zur Open-Source-Entwicklung von Sprachmodellen bei, die inklusiver und besser an die kulturellen und linguistischen Kontexte angepasst sind, in denen sie eingesetzt werden.