papers.title

papers.description

Qwen3 Technischer Bericht
Qwen3 Technical Report

May 14

ByAn Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, Zihan Qiu

318

In dieser Arbeit präsentieren wir Qwen3, die neueste Version der Qwen-Modellfamilie. Qwen3 umfasst eine Reihe von großen Sprachmodellen (LLMs), die entwickelt wurden, um Leistung, Effizienz und mehrsprachige Fähigkeiten voranzutreiben. Die Qwen3-Serie beinhaltet Modelle sowohl mit dichter Architektur als auch mit Mixture-of-Expert (MoE)-Architektur, mit Parametergrößen von 0,6 bis 235 Milliarden. Eine zentrale Innovation in Qwen3 ist die Integration eines Denkmodus (für komplexe, mehrstufige Schlussfolgerungen) und eines Nicht-Denkmodus (für schnelle, kontextgesteuerte Antworten) in ein einheitliches Framework. Dadurch entfällt die Notwendigkeit, zwischen verschiedenen Modellen zu wechseln – wie beispielsweise chat-optimierten Modellen (z.B. GPT-4o) und spezialisierten Schlussfolgerungsmodellen (z.B. QwQ-32B) – und ermöglicht einen dynamischen Moduswechsel basierend auf Benutzeranfragen oder Chat-Vorlagen. Gleichzeitig führt Qwen3 einen Denkbudget-Mechanismus ein, der es Benutzern ermöglicht, Rechenressourcen während der Inferenz adaptiv zuzuweisen und so Latenz und Leistung basierend auf der Aufgabenkomplexität auszubalancieren. Darüber hinaus reduzieren wir durch die Nutzung des Wissens der Flaggschiff-Modelle die erforderlichen Rechenressourcen für den Aufbau kleinerer Modelle erheblich, während wir deren hoch wettbewerbsfähige Leistung sicherstellen. Empirische Auswertungen zeigen, dass Qwen3 state-of-the-art Ergebnisse in diversen Benchmarks erzielt, einschließlich Aufgaben in Code-Generierung, mathematischem Schlussfolgern, Agentenaufgaben usw., und dabei mit größeren MoE-Modellen und proprietären Modellen konkurriert. Im Vergleich zu seinem Vorgänger Qwen2.5 erweitert Qwen3 die mehrsprachige Unterstützung von 29 auf 119 Sprachen und Dialekte und verbessert so die globale Zugänglichkeit durch verbesserte Fähigkeiten im cross-lingualen Verständnis und der Generierung. Um Reproduzierbarkeit und gemeinschaftsgetriebene Forschung und Entwicklung zu fördern, sind alle Qwen3-Modelle öffentlich unter der Apache-2.0-Lizenz zugänglich.

GuardReasoner-VL: Schutz von VLMs durch verstärktes Reasoning
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

May 16

ByYue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi

Um die Sicherheit von VLMs zu verbessern, stellt dieses Papier ein neuartiges, auf logischem Denken basierendes VLM-Schutzmodell namens GuardReasoner-VL vor. Die Kernidee besteht darin, das Schutzmodell dazu anzuregen, bewusst zu überlegen, bevor es Moderationsentscheidungen trifft, und dies durch Online-Reinforcement-Learning (RL) zu erreichen. Zunächst erstellen wir GuardReasoner-VLTrain, ein Korpus mit 123.000 Beispielen und 631.000 Denkschritten, der Text-, Bild- und Text-Bild-Eingaben umfasst. Basierend darauf initialisieren wir die Denkfähigkeit unseres Modells durch Supervised Fine-Tuning (SFT). Darüber hinaus verbessern wir das Denken in Bezug auf Moderation durch Online-RL. Konkret führen wir zur Erhöhung der Vielfalt und Schwierigkeit der Beispiele eine Ablehnungsstichprobe durch, gefolgt von einer Datenanreicherung durch die vorgeschlagene sicherheitsbewusste Datenverkettung. Zusätzlich verwenden wir einen dynamischen Clipping-Parameter, um in frühen Phasen Exploration und in späteren Phasen Exploitation zu fördern. Um Leistung und Token-Effizienz auszugleichen, entwerfen wir eine längenbewusste Sicherheitsbelohnung, die Genauigkeit, Format und Token-Kosten integriert. Umfangreiche Experimente demonstrieren die Überlegenheit unseres Modells. Bemerkenswerterweise übertrifft es den Zweitplatzierten im Durchschnitt um 19,27 % im F1-Score. Wir veröffentlichen die Daten, den Code und die Modelle (3B/7B) von GuardReasoner-VL unter https://github.com/yueliu1999/GuardReasoner-VL/.

Visuelle Planung: Denken wir nur mit Bildern
Visual Planning: Let's Think Only with Images

May 16

ByYi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) und ihren multimodalen Erweiterungen (MLLMs) haben das maschinelle Denken über verschiedene Aufgaben hinweg erheblich verbessert. Diese Modelle stützen sich jedoch überwiegend auf reinen Text als Medium, um Denkprozesse auszudrücken und zu strukturieren, selbst wenn visuelle Informationen vorhanden sind. In dieser Arbeit argumentieren wir, dass Sprache nicht immer die natürlichste oder effektivste Modalität für das Denken ist, insbesondere bei Aufgaben, die räumliche und geometrische Informationen beinhalten. Motiviert durch diese Erkenntnis schlagen wir ein neues Paradigma vor, das sogenannte Visual Planning, das Planung durch rein visuelle Darstellungen ermöglicht, unabhängig von Text. In diesem Paradigma wird die Planung über Sequenzen von Bildern ausgeführt, die schrittweise Schlussfolgerungen im visuellen Bereich kodieren, ähnlich wie Menschen zukünftige Handlungen skizzieren oder visualisieren. Wir stellen ein neuartiges Reinforcement-Learning-Framework vor, Visual Planning via Reinforcement Learning (VPRL), das durch GRPO für das Nachtraining großer Vision-Modelle gestärkt wird und zu erheblichen Verbesserungen bei der Planung in einer Auswahl repräsentativer visueller Navigationsaufgaben führt, darunter FrozenLake, Maze und MiniBehavior. Unser Visual-Planning-Paradigma übertrifft alle anderen Planungsvarianten, die das Denken ausschließlich im Textraum durchführen. Unsere Ergebnisse etablieren Visual Planning als eine praktikable und vielversprechende Alternative zur sprachbasierten Denkweise und eröffnen neue Wege für Aufgaben, die von intuitiver, bildbasierter Schlussfolgerung profitieren.

MMLongBench: Effektive und umfassende Bewertung von Vision-Sprache-Modellen mit langem Kontext
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

May 15

ByZhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman

Die rasche Erweiterung der Kontextfenster in großen Vision-Sprache-Modellen hat zur Entstehung von langkontextfähigen Vision-Sprache-Modellen (LCVLMs) geführt, die in der Lage sind, Hunderte von Bildern mit verschachtelten Text-Tokens in einem einzigen Vorwärtsdurchlauf zu verarbeiten. In dieser Arbeit stellen wir MMLongBench vor, den ersten Benchmark, der eine vielfältige Sammlung von langkontextfähigen Vision-Sprache-Aufgaben abdeckt, um LCVLMs effektiv und umfassend zu evaluieren. MMLongBench besteht aus 13.331 Beispielen, die fünf verschiedene Kategorien von Downstream-Aufgaben abdecken, wie z. B. Visual RAG und Many-Shot ICL. Es bietet auch eine breite Abdeckung von Bildtypen, einschließlich verschiedener natürlicher und synthetischer Bilder. Um die Robustheit der Modelle gegenüber unterschiedlichen Eingabelängen zu bewerten, werden alle Beispiele in fünf standardisierten Eingabelängen (8K-128K Tokens) über ein cross-modales Tokenisierungsschema bereitgestellt, das Bild-Patches und Text-Tokens kombiniert. Durch eine umfassende Benchmarking-Analyse von 46 Closed-Source- und Open-Source-LCVLMs liefern wir eine detaillierte Analyse der aktuellen langkontextfähigen Vision-Sprache-Fähigkeiten der Modelle. Unsere Ergebnisse zeigen, dass: i) die Leistung bei einer einzelnen Aufgabe ein schwacher Indikator für die gesamte langkontextfähige Fähigkeit ist; ii) sowohl Closed-Source- als auch Open-Source-Modelle bei langkontextfähigen Vision-Sprache-Aufgaben vor Herausforderungen stehen, was auf erheblichen Verbesserungsbedarf hinweist; iii) Modelle mit stärkerer Fähigkeit zum logischen Denken tendenziell eine bessere langkontextfähige Leistung zeigen. Durch die breite Aufgabenabdeckung, verschiedene Bildtypen und strenge Längenkontrolle bietet MMLongBench die fehlende Grundlage für die Diagnose und Weiterentwicklung der nächsten Generation von LCVLMs.

Gruppendenken: Mehrere gleichzeitig agierende Reasoning-Agenten, die auf Token-Ebene granular zusammenarbeiten
Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity

May 16

ByChan-Jan Hsu, Davide Buffelli, Jamie McGowan, Feng-Ting Liao, Yi-Chang Chen, Sattar Vakili, Da-shan Shiu

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Stärke des Denkens durch selbstgenerierte Gedankenketten demonstriert. Mehrere Denkagenten können zusammenarbeiten, um die gemeinsame Denkqualität über individuelle Ergebnisse hinaus zu steigern. Solche Agenten interagieren jedoch typischerweise in einem wechselseitigen Modus, wobei erhöhte Latenz gegen verbesserte Qualität eingetauscht wird. In diesem Artikel schlagen wir Group Think vor – ein einzelnes LLM, das als mehrere gleichzeitige Denkagenten oder Denker agiert. Mit gemeinsamer Sichtbarkeit in den partiellen Generierungsfortschritt der anderen führt Group Think ein neues Paradigma des gleichzeitigen Denkens ein, bei dem mehrere Denkpfade dynamisch aufeinander auf Token-Ebene reagieren. Beispielsweise kann ein Denkstrang seine Generierung mitten im Satz ändern, wenn er feststellt, dass ein anderer Strang besser positioniert ist, fortzufahren. Diese fein abgestimmte, tokenbasierte Zusammenarbeit ermöglicht es Group Think, redundantes Denken zu reduzieren und die Qualität zu verbessern, während gleichzeitig die Latenz deutlich verringert wird. Darüber hinaus ermöglicht seine gleichzeitige Natur eine effiziente Nutzung von ungenutzten Rechenressourcen, was es besonders geeignet für Edge-Inferenz macht, wo sehr kleine Batch-Größen oft lokale GPUs unterauslasten. Wir geben eine einfache und verallgemeinerbare Modifikation an, die es jedem bestehenden LLM ermöglicht, Group Think auf einer lokalen GPU durchzuführen. Wir präsentieren auch eine Bewertungsstrategie, um die Denklatenz zu benchmarken, und zeigen empirisch Latenzverbesserungen mit Open-Source-LLMs, die nicht explizit für Group Think trainiert wurden. Wir hoffen, dass diese Arbeit den Weg für zukünftige LLMs ebnet, um anspruchsvolleres und effizienteres kollaboratives Verhalten für eine höhere Generierungsqualität zu zeigen.

Einfache halbüberwachte Wissensdistillation aus Vision-Sprache-Modellen mittels texttt{D}ualer-texttt{H}ead texttt{O}ptimierung
Simple Semi-supervised Knowledge Distillation from Vision-Language Models via texttt{D}ual-texttt{H}ead texttt{O}ptimization

May 12

BySeongjae Kang, Dong Bok Lee, Hyungjoon Jang, Sung Ju Hwang

Vision-Language-Modelle (VLMs) haben bemerkenswerte Erfolge bei vielfältigen Aufgaben erzielt, indem sie umfangreiche textuelle Informationen mit minimal annotierten Daten nutzen. Die Bereitstellung solcher großen Modelle bleibt jedoch eine Herausforderung, insbesondere in ressourcenbeschränkten Umgebungen. Wissensdistillation (KD) bietet eine bewährte Lösung für dieses Problem; jedoch beinhalten aktuelle KD-Ansätze für VLMs oft mehrstufiges Training oder zusätzliche Feinabstimmung, was den Rechenaufwand und die Optimierungskomplexität erhöht. In diesem Artikel schlagen wir \texttt{D}ual-\texttt{H}ead \texttt{O}ptimization (\texttt{DHO}) vor – ein einfaches, aber effektives KD-Framework, das Wissen von VLMs auf kompakte, aufgaben spezifische Modelle in semi-überwachten Settings überträgt. Konkret führen wir duale Vorhersageköpfe ein, die unabhängig von annotierten Daten und Lehrer-Vorhersagen lernen, und schlagen vor, ihre Ausgaben während der Inferenz linear zu kombinieren. Wir beobachten, dass DHO Gradientenkonflikte zwischen überwachten und Distillationssignalen mildert und dadurch effektiveres Feature-Lernen ermöglicht als Single-Head-KD-Baselines. Infolgedessen zeigen umfangreiche Experimente, dass DHO Baselines über mehrere Domänen und fein granulierte Datensätze hinweg konsequent übertrifft. Insbesondere auf ImageNet erreicht es state-of-the-art Leistung, verbessert die Genauigkeit um 3 % bzw. 0,1 % bei 1 % und 10 % annotierten Daten, während weniger Parameter verwendet werden.

Mergenetic: Eine einfache Bibliothek zur Zusammenführung evolutionärer Modelle
Mergenetic: a Simple Evolutionary Model Merging Library

May 16

ByAdrian Robert Minut, Tommaso Mencattini, Andrea Santilli, Donato Crisostomi, Emanuele Rodolà

Das Modell-Merging ermöglicht es, die Fähigkeiten bestehender Modelle in ein neues zu kombinieren – nachträglich und ohne zusätzliches Training. Dies hat es aufgrund seiner geringen Kosten und der Verfügbarkeit von Bibliotheken, die das Merging auf Consumer-GPUs unterstützen, zunehmend populär gemacht. Aktuelle Arbeiten zeigen, dass die Kombination von Merging mit evolutionären Algorithmen die Leistung steigern kann, aber es gibt derzeit kein Framework, das flexible Experimente mit solchen Strategien bei Sprachmodellen unterstützt. Wir stellen Mergenetic vor, eine Open-Source-Bibliothek für evolutionäres Modell-Merging. Mergenetic ermöglicht die einfache Zusammensetzung von Merging-Methoden und evolutionären Algorithmen, während es leichtgewichtige Fitness-Schätzer integriert, um die Evaluationskosten zu reduzieren. Wir beschreiben sein Design und zeigen, dass Mergenetic mit bescheidenen Hardware-Ressourcen wettbewerbsfähige Ergebnisse über verschiedene Aufgaben und Sprachen hinweg erzielt.

Multi-Token-Vorhersage benötigt Register
Multi-Token Prediction Needs Registers

May 15

ByAnastasios Gerontopoulos, Spyros Gidaris, Nikos Komodakis

Die Vorhersage mehrerer Tokens hat sich als vielversprechendes Ziel zur Verbesserung des Vortrainings von Sprachmodellen erwiesen, doch ihre Vorteile haben sich nicht konsistent auf andere Anwendungen wie das Feinabstimmen übertragen lassen. In diesem Artikel schlagen wir MuToR vor, einen einfachen und effektiven Ansatz zur Vorhersage mehrerer Tokens, der lernbare Register-Tokens in die Eingabesequenz einfügt, von denen jeder für die Vorhersage zukünftiger Ziele verantwortlich ist. Im Vergleich zu bestehenden Methoden bietet MuToR mehrere entscheidende Vorteile: Es führt nur eine vernachlässigbare Anzahl zusätzlicher Parameter ein, erfordert keine architektonischen Änderungen – was die Kompatibilität mit vorgefertigten vortrainierten Sprachmodellen sicherstellt – und bleibt mit dem Next-Token-Vortrainingsziel abgestimmt, was es besonders gut für das überwachte Feinabstimmen geeignet macht. Darüber hinaus unterstützt es auf natürliche Weise skalierbare Vorhersagehorizonte. Wir demonstrieren die Wirksamkeit und Vielseitigkeit von MuToR in einer Reihe von Anwendungsfällen, einschließlich überwachtem Feinabstimmen, parameter-effizientem Feinabstimmen (PEFT) und Vortraining, bei anspruchsvollen generativen Aufgaben in den Bereichen Sprache und Bildverarbeitung. Unser Code wird unter folgender Adresse verfügbar sein: https://github.com/nasosger/MuToR.

Verbesserung der Assembler-Code-Leistung mit großen Sprachmodellen durch Reinforcement Learning
Improving Assembly Code Performance with Large Language Models via Reinforcement Learning

May 16

ByAnjiang Wei, Tarun Suresh, Huanmi Tan, Yinglun Xu, Gagandeep Singh, Ke Wang, Alex Aiken

Große Sprachmodelle (LLMs) haben eine starke Leistung bei einer Vielzahl von Programmieraufgaben gezeigt, doch ihr Potenzial für die Code-Optimierung bleibt weitgehend unerforscht. Diese Arbeit untersucht, ob LLMs die Leistung von Assembler-Code optimieren können, wo eine feinkörnige Kontrolle über die Ausführung Verbesserungen ermöglicht, die in Hochsprachen schwer auszudrücken sind. Wir präsentieren ein Reinforcement-Learning-Framework, das LLMs mit Proximal Policy Optimization (PPO) trainiert, geleitet durch eine Belohnungsfunktion, die sowohl die funktionale Korrektheit, validiert durch Testfälle, als auch die Ausführungsleistung im Vergleich zum industrieüblichen Compiler gcc -O3 berücksichtigt. Zur Unterstützung dieser Studie führen wir einen Benchmark mit 8.072 realen Programmen ein. Unser Modell, Qwen2.5-Coder-7B-PPO, erreicht eine Testbestehungsrate von 96,0 % und eine durchschnittliche Beschleunigung von 1,47x gegenüber der gcc -O3-Basislinie und übertrifft damit alle 20 anderen evaluierten Modelle, einschließlich Claude-3.7-sonnet. Diese Ergebnisse deuten darauf hin, dass Reinforcement Learning das Potenzial von LLMs freisetzen kann, um als effektive Optimierer für die Leistung von Assembler-Code zu dienen.

MPS-Prover: Fortschritt im schrittweisen Theorembeweis durch Multi-Perspektiven-Suche und Datenkuratierung
MPS-Prover: Advancing Stepwise Theorem Proving by Multi-Perspective Search and Data Curation

May 16

ByZhenwen Liang, Linfeng Song, Yang Li, Tao Yang, Feng Zhang, Haitao Mi, Dong Yu

Das Automatisierte Theorembeweisen (ATP) in formalen Sprachen bleibt eine gewaltige Herausforderung in der KI, die strenge logische Deduktion und die Navigation durch riesige Suchräume erfordert. Während große Sprachmodelle (LLMs) vielversprechende Leistungen gezeigt haben, leiden bestehende schrittweise Beweiser oft unter voreingenommener Suchführung, was zu Ineffizienzen und suboptimalen Beweisstrategien führt. Dieses Papier stellt den Multi-Perspective Search Prover (MPS-Prover) vor, ein neuartiges schrittweises ATP-System, das entwickelt wurde, um diese Einschränkungen zu überwinden. MPS-Prover integriert zwei Schlüsselinnovationen: eine hocheffektive Strategie zur Nachbearbeitung von Trainingsdaten, die etwa 40 % der redundanten Trainingsdaten entfernt, ohne die Leistung zu beeinträchtigen, und einen mehrperspektivischen Baum-Suchmechanismus. Diese Suche kombiniert ein gelerntes Kritikermodell mit strategisch entworfenen heuristischen Regeln, um die Taktikauswahl zu diversifizieren, das Feststecken in unproduktiven Zuständen zu verhindern und die Robustheit der Suche zu erhöhen. Umfangreiche Auswertungen zeigen, dass MPS-Prover auf mehreren anspruchsvollen Benchmarks, einschließlich miniF2F und ProofNet, Spitzenleistungen erzielt und dabei frühere Modelle mit 7B Parametern übertrifft. Darüber hinaus zeigen unsere Analysen, dass MPS-Prover deutlich kürzere und vielfältigere Beweise im Vergleich zu bestehenden schrittweisen und gesamten Beweismethoden generiert, was seine Effizienz und Wirksamkeit unterstreicht. Unsere Arbeit erweitert die Fähigkeiten des formalen Denkens auf Basis von LLMs und bietet einen robusten Rahmen sowie eine umfassende Analyse für die Entwicklung leistungsfähigerer Theorembeweiser.

MatTools: Benchmarking von großen Sprachmodellen für Werkzeuge in der Materialwissenschaft
MatTools: Benchmarking Large Language Models for Materials Science Tools

May 16

BySiyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen

Große Sprachmodelle (LLMs) werden zunehmend auf Fragestellungen der Materialwissenschaft angewendet, einschließlich Literaturverständnis, Eigenschaftsvorhersage, Materialentdeckung und Legierungsdesign. Gleichzeitig wurde eine Vielzahl physikbasierter Berechnungsansätze entwickelt, mit denen Materialeigenschaften berechnet werden können. Hier schlagen wir eine Benchmark-Anwendung vor, um die Fähigkeit von LLMs zu bewerten, Materialwissenschaftsfragen durch die Generierung und sichere Ausführung von Codes basierend auf solchen physikbasierten Materialwissenschaftspaketen zu beantworten. MatTools basiert auf zwei komplementären Komponenten: einem Frage-Antwort (QA)-Benchmark für Materialsimulationstools und einem Benchmark für die reale Anwendung von Tools. Wir haben eine automatisierte Methode entwickelt, um effizient Beispiele für die reale Nutzung von Materialwissenschaftstools zu sammeln. Der QA-Benchmark, abgeleitet aus der pymatgen (Python Materials Genomics)-Codebasis und Dokumentation, umfasst 69.225 QA-Paare, die die Fähigkeit eines LLMs bewerten, Materialwissenschaftstools zu verstehen. Der reale Benchmark enthält 49 Aufgaben (138 Unteraufgaben), die die Generierung von funktionalem Python-Code für die Berechnung von Materialeigenschaften erfordern. Unsere Bewertung verschiedener LLMs liefert drei zentrale Erkenntnisse: (1) Generalisten übertreffen Spezialisten; (2) KI versteht KI; und (3) Einfacher ist besser. MatTools bietet einen standardisierten Rahmen zur Bewertung und Verbesserung der Fähigkeiten von LLMs für Anwendungen von Materialwissenschaftstools und erleichtert die Entwicklung effektiverer KI-Systeme für die Materialwissenschaft und allgemeine wissenschaftliche Forschung.

Skalierbares Schließen kann die Faktentreue in großen Sprachmodellen verbessern.
Scaling Reasoning can Improve Factuality in Large Language Models

May 16

ByMike Zhang, Johannes Bjerva, Russa Biswas

Aktuelle Studien zu den Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Schließens haben vielversprechende Verbesserungen der Modellleistung gezeigt, indem ein ausgedehnter Denkprozess und zusätzliche Rechenressourcen während der Inferenz genutzt wurden, insbesondere bei Aufgaben, die mathematisches Schließen betreffen (Muennighoff et al., 2025). Es bleibt jedoch unklar, ob längere Schließketten die faktische Genauigkeit grundsätzlich verbessern, insbesondere über mathematische Kontexte hinaus. In dieser Arbeit untersuchen wir das Schließen von LLMs in komplexen, offenen Frage-Antwort-Szenarien (QA) eingehend. Zunächst extrahieren wir Schließspuren aus fortschrittlichen, großskaligen Schließmodellen (QwQ-32B und DeepSeek-R1-671B) und feintunen anschließend eine Vielzahl von Modellen, die von kleineren, instruktionsoptimierten Varianten bis hin zu größeren Architekturen auf Basis von Qwen2.5 reichen. Um die Schließspuren zu bereichern, integrieren wir faktische Informationen aus Wissensgraphen in Form von Pfaden in unsere Schließspuren. Unser experimenteller Aufbau umfasst vier Baseline-Ansätze und sechs verschiedene instruktionsoptimierte Modelle, die anhand eines Benchmarks von sechs Datensätzen mit über 22.600 Fragen evaluiert werden. Insgesamt führen wir 168 Experimente durch und analysieren etwa 1,7 Millionen Schließspuren. Unsere Ergebnisse zeigen, dass kleinere Schließmodelle innerhalb eines einzelnen Durchlaufs deutliche Verbesserungen in der faktischen Genauigkeit im Vergleich zu ihren ursprünglichen instruktionsoptimierten Gegenstücken erzielen. Darüber hinaus zeigt unsere Analyse, dass die Hinzufügung von Rechen- und Token-Ressourcen während der Testphase die faktische Genauigkeit konsistent um 2–8 % verbessert, was die Wirksamkeit der Skalierung während der Testphase zur Leistungssteigerung und damit zur Verbesserung der Schließgenauigkeit in offenen QA-Aufgaben weiter bestätigt. Wir stellen alle experimentellen Artefakte für weitere Forschungen zur Verfügung.

InstanceGen: Bildgenerierung mit Instanz-spezifischen Anweisungen
InstanceGen: Image Generation with Instance-level Instructions

May 8

ByEtai Sella, Yanir Kleiman, Hadar Averbuch-Elor

Trotz rasanter Fortschritte in den Fähigkeiten generativer Modelle haben vortrainierte Text-zu-Bild-Modelle nach wie vor Schwierigkeiten, die Semantik komplexer Eingabeaufforderungen zu erfassen, die mehrere Objekte und instanzspezifische Attribute kombinieren. Infolgedessen wächst das Interesse an der Integration zusätzlicher struktureller Beschränkungen, typischerweise in Form von groben Begrenzungsrahmen, um den Generierungsprozess in solch anspruchsvollen Fällen besser zu steuern. In dieser Arbeit gehen wir den Ansatz der strukturellen Führung einen Schritt weiter, indem wir die Beobachtung machen, dass zeitgenössische Bildgenerierungsmodelle direkt eine plausible feingranulare strukturelle Initialisierung liefern können. Wir schlagen eine Technik vor, die diese bildbasierte strukturelle Führung mit instanzspezifischen Anweisungen auf Basis von LLMs (Large Language Models) kombiniert, wodurch Ausgabebilder entstehen, die allen Teilen der Texteingabe entsprechen, einschließlich Objektanzahlen, instanzspezifischen Attributen und räumlichen Beziehungen zwischen Instanzen.

Menschen erwarten Rationalität und Kooperation von LLM-Gegnern in strategischen Spielen.
Humans expect rationality and cooperation from LLM opponents in strategic games

May 16

ByDarija Barak, Miguel Costa-Gomes

Da Large Language Models (LLMs) zunehmend in unsere sozialen und wirtschaftlichen Interaktionen integriert werden, müssen wir unser Verständnis vertiefen, wie Menschen auf LLMs in strategischen Situationen reagieren. Wir präsentieren die Ergebnisse des ersten kontrollierten, monetär incentivierten Laborexperiments, das Unterschiede im menschlichen Verhalten in einem Multiplayer-p-Beauty-Contest gegen andere Menschen und LLMs untersucht. Wir verwenden ein Within-Subject-Design, um das Verhalten auf individueller Ebene zu vergleichen. Wir zeigen, dass in diesem Umfeld menschliche Probanden signifikant niedrigere Zahlen wählen, wenn sie gegen LLMs spielen als gegen Menschen, was hauptsächlich auf die erhöhte Prävalenz von „Null“-Nash-Gleichgewichtsentscheidungen zurückzuführen ist. Diese Verschiebung wird hauptsächlich von Probanden mit hoher strategischer Denkfähigkeit angetrieben. Probanden, die die Null-Nash-Gleichgewichtsentscheidung wählen, begründen ihre Strategie mit der wahrgenommenen Denkfähigkeit der LLMs und, überraschenderweise, ihrer Neigung zur Kooperation. Unsere Ergebnisse liefern grundlegende Einblicke in die Multiplayer-Interaktion zwischen Mensch und LLM in Simultaneous-Choice-Spielen, decken Heterogenitäten sowohl im Verhalten der Probanden als auch in ihren Überzeugungen über das Spielverhalten der LLMs auf und deuten auf wichtige Implikationen für das Mechanismusdesign in gemischten Mensch-LLM-Systemen hin.

GIE-Bench: Auf dem Weg zu einer fundierten Bewertung für textgesteuerte Bildbearbeitung
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

May 16

ByYusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan

Die Bearbeitung von Bildern mithilfe natürlicher Sprachanweisungen hat sich zu einer intuitiven und ausdrucksstarken Methode zur Modifikation visueller Inhalte entwickelt; dennoch bleibt die Bewertung der Leistung solcher Modelle eine Herausforderung. Bisherige Evaluierungsansätze stützen sich oft auf Bild-Text-Ähnlichkeitsmetriken wie CLIP, denen es an Präzision mangelt. In dieser Arbeit stellen wir einen neuen Benchmark vor, der darauf abzielt, textgesteuerte Bildbearbeitungsmodelle auf fundiertere Weise entlang zweier kritischer Dimensionen zu bewerten: (i) funktionale Korrektheit, die über automatisch generierte Multiple-Choice-Fragen überprüft wird, ob die beabsichtigte Änderung erfolgreich umgesetzt wurde; und (ii) die Erhaltung des Bildinhalts, die sicherstellt, dass nicht-zielgerichtete Bildbereiche visuell konsistent bleiben, indem eine objektbewusste Maskierungstechnik und ein Bewertungssystem zur Erhaltung eingesetzt werden. Der Benchmark umfasst über 1000 hochwertige Bearbeitungsbeispiele aus 20 verschiedenen Inhaltskategorien, die jeweils mit detaillierten Bearbeitungsanweisungen, Evaluierungsfragen und räumlichen Objektmasken annotiert sind. Wir führen eine groß angelegte Studie durch, in der GPT-Image-1, das neueste Flaggschiff im Bereich der textgesteuerten Bildbearbeitung, mit mehreren state-of-the-art Bearbeitungsmodellen verglichen wird, und validieren unsere automatischen Metriken anhand menschlicher Bewertungen. Die Ergebnisse zeigen, dass GPT-Image-1 in puncto Anweisungsgenauigkeit führend ist, jedoch oft irrelevante Bildbereiche übermäßig verändert, was einen zentralen Zielkonflikt im aktuellen Modellverhalten aufzeigt. GIE-Bench bietet einen skalierbaren, reproduzierbaren Rahmen, um die präzisere Bewertung textgesteuerter Bildbearbeitung voranzutreiben.

Lernen der dichten Handkontaktschätzung aus unausgeglichenen Daten
Learning Dense Hand Contact Estimation from Imbalanced Data

May 16

ByDaniel Sungho Jung, Kyoung Mu Lee

Hände sind entscheidend für die menschliche Interaktion, und das Verständnis des Kontakts zwischen Händen und der Welt kann ein umfassendes Verständnis ihrer Funktion fördern. In letzter Zeit gibt es eine wachsende Anzahl von Datensätzen zur Handinteraktion, die die Interaktion mit Objekten, anderen Händen, Szenen und dem Körper abdecken. Trotz der Bedeutung der Aufgabe und der zunehmend hochwertigen Daten bleibt die Frage, wie man die dichte Handkontaktschätzung effektiv lernen kann, weitgehend unerforscht. Es gibt zwei Hauptherausforderungen beim Lernen der dichten Handkontaktschätzung. Erstens gibt es ein Klassenungleichgewichtsproblem in Handkontaktdatensätzen, bei dem die Mehrheit der Proben keinen Kontakt aufweist. Zweitens weisen Handkontaktdatensätze ein räumliches Ungleichgewichtsproblem auf, bei dem der Großteil des Handkontakts in den Fingerspitzen auftritt, was die Generalisierung auf Kontakte in anderen Handregionen erschwert. Um diese Probleme zu lösen, präsentieren wir ein Framework, das die dichte HAnd COntact-Schätzung (HACO) aus unausgewogenen Daten lernt. Um das Klassenungleichgewichtsproblem zu beheben, führen wir ein ausgewogenes Kontaktsampling ein, das aus mehreren Sampling-Gruppen aufbaut und Proben zieht, die die diversen Kontaktstatistiken sowohl für Kontakt- als auch für Nicht-Kontakt-Proben fair repräsentieren. Darüber hinaus schlagen wir zur Lösung des räumlichen Ungleichgewichtsproblems den vertex-level class-balanced (VCB) Loss vor, der die räumlich variierende Kontaktverteilung berücksichtigt, indem der Beitrag jedes Vertex zum Verlust basierend auf seiner Kontakthäufigkeit im Datensatz separat gewichtet wird. Dadurch lernen wir effektiv, die dichte Handkontaktschätzung mit groß angelegten Handkontaktdaten vorherzusagen, ohne unter Klassen- und räumlichen Ungleichgewichtsproblemen zu leiden. Die Codes werden veröffentlicht.

CheXGenBench: Ein einheitlicher Benchmark für die Authentizität, den Datenschutz und die Nutzbarkeit synthetischer Thorax-Röntgenaufnahmen
CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs

May 15

ByRaman Dutt, Pedro Sanchez, Yongchen Yao, Steven McDonagh, Sotirios A. Tsaftaris, Timothy Hospedales

Wir stellen CheXGenBench vor, ein rigoroses und vielseitiges Evaluierungsframework für die synthetische Erzeugung von Thorax-Röntgenbildern, das gleichzeitig die Bildtreue, Datenschutzrisiken und klinische Nützlichkeit über state-of-the-art Text-zu-Bild-Generierungsmodelle hinweg bewertet. Trotz rasanter Fortschritte in der generativen KI für reale Bilddaten wurden Evaluierungen im medizinischen Bereich durch methodische Inkonsistenzen, veraltete Architekturvergleiche und getrennte Bewertungskriterien behindert, die selten den praktischen klinischen Wert synthetischer Proben berücksichtigen. CheXGenBench überwindet diese Einschränkungen durch standardisierte Datenpartitionierung und ein einheitliches Evaluierungsprotokoll, das über 20 quantitative Metriken umfasst, welche die Generierungsqualität, potenzielle Datenschutzschwachstellen und die klinische Anwendbarkeit in nachgelagerten Prozessen systematisch über 11 führende Text-zu-Bild-Architekturen analysieren. Unsere Ergebnisse zeigen kritische Ineffizienzen in den bestehenden Evaluierungsprotokollen auf, insbesondere bei der Bewertung der generativen Bildtreue, was zu inkonsistenten und wenig aussagekräftigen Vergleichen führt. Unser Framework etabliert einen standardisierten Benchmark für die medizinische KI-Community, der objektive und reproduzierbare Vergleiche ermöglicht und die nahtlose Integration sowohl bestehender als auch zukünftiger Generierungsmodelle erleichtert. Zusätzlich veröffentlichen wir einen hochwertigen, synthetischen Datensatz, SynthCheX-75K, der 75.000 Röntgenbilder umfasst, die von dem leistungsstärksten Modell (Sana 0.6B) in unserem Benchmark generiert wurden, um weitere Forschungen in diesem kritischen Bereich zu unterstützen. Durch CheXGenBench setzen wir einen neuen State-of-the-art und veröffentlichen unser Framework, Modelle und den SynthCheX-75K-Datensatz unter https://raman1121.github.io/CheXGenBench/.

Vereinheitlichung von Segment Anything in der Mikroskopie mit multimodalen großen Sprachmodellen
Unifying Segment Anything in Microscopy with Multimodal Large Language Model

May 16

ByManyu Li, Ruian He, Zixian Zhang, Weimin Tan, Bo Yan

Die präzise Segmentierung von Regionen von Interesse in biomedizinischen Bildern hat einen erheblichen Wert in der Bildanalyse. Obwohl mehrere Foundation-Modelle für die biomedizinische Segmentierung derzeit hervorragende Leistungen auf bestimmten Datensätzen erzielen, zeigen sie typischerweise suboptimale Leistungen auf Daten aus unbekannten Domänen. Wir führen diesen Mangel auf den fehlenden Vision-Language-Wissenshintergrund vor der Segmentierung zurück. Multimodale Large Language Models (MLLMs) bringen herausragende Verständnis- und Schlussfolgerungsfähigkeiten für multimodale Aufgaben mit sich, was uns dazu inspiriert, MLLMs zu nutzen, um Vision-Language-Knowledge (VLK) einzubringen und dadurch Vision-Modelle zu befähigen, überlegene Generalisierungsfähigkeiten auf domänenübergreifenden Datensätzen zu demonstrieren. In diesem Artikel schlagen wir vor, MLLMs zu verwenden, um SAM beim Lernen von mikroskopischen domänenübergreifenden Daten zu leiten, wodurch Segment Anything in Microscopy vereinheitlicht wird, genannt uLLSAM. Konkret schlagen wir das Vision-Language Semantic Alignment (VLSA)-Modul vor, das VLK in das Segment Anything Model (SAM) einbringt. Wir stellen fest, dass sich die Leistung von SAM nach dem Erhalt globaler VLK-Prompts deutlich verbessert, es jedoch Defizite in der Wahrnehmung von Grenzkonturen gibt. Daher schlagen wir zusätzlich Semantic Boundary Regularization (SBR) vor, um SAM zu unterstützen. Unsere Methode erzielt Leistungssteigerungen von 7,71 % in Dice und 12,10 % in SA über 9 domäneninterne mikroskopische Datensätze und erreicht damit state-of-the-art Leistungen. Unsere Methode zeigt auch Verbesserungen von 6,79 % in Dice und 10,08 % in SA über 10 domänenübergreifende Datensätze und demonstriert starke Generalisierungsfähigkeiten. Der Code ist verfügbar unter https://github.com/ieellee/uLLSAM.

Vom Kompromiss zur Synergie: Ein vielseitiges symbiotisches Wasserzeichen-Framework für große Sprachmodelle
From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models

May 15

ByYidan Wang, Yubing Ren, Yanan Cao, Binxing Fang

Der Aufstieg von Large Language Models (LLMs) hat die Bedenken hinsichtlich des Missbrauchs von KI-generierten Texten verstärkt, wodurch das Wasserzeichenverfahren eine vielversprechende Lösung darstellt. Hauptströmungen von Wasserzeichenverfahren für LLMs lassen sich in zwei Kategorien einteilen: logits-basierte und sampling-basierte Verfahren. Allerdings beinhalten aktuelle Verfahren Kompromisse zwischen Robustheit, Textqualität und Sicherheit. Um dies zu mildern, integrieren wir logits-basierte und sampling-basierte Verfahren und nutzen ihre jeweiligen Stärken, um Synergien zu erzielen. In diesem Artikel schlagen wir ein vielseitiges symbiotisches Wasserzeichenframework mit drei Strategien vor: seriell, parallel und hybrid. Das hybride Framework bettet Wasserzeichen adaptiv unter Verwendung von Token-Entropie und semantischer Entropie ein und optimiert so das Gleichgewicht zwischen Erkennbarkeit, Robustheit, Textqualität und Sicherheit. Darüber hinaus validieren wir unseren Ansatz durch umfassende Experimente mit verschiedenen Datensätzen und Modellen. Die experimentellen Ergebnisse zeigen, dass unsere Methode bestehende Baselines übertrifft und state-of-the-art (SOTA) Leistung erzielt. Wir glauben, dass dieses Framework neue Einblicke in diverse Wasserzeichenparadigmen bietet. Unser Code ist verfügbar unter https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}.

Verbesserung der Inferenzzeit-Optimierung für den Stiltransfer von Vokaleffekten mit einem Gaußschen Prior
Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior

May 16

ByChin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Wei-Hsiang Liao, Yuki Mitsufuji, György Fazekas

Style Transfer mit Inferenzzeit-Optimierung (ST-ITO) ist ein neuer Ansatz zur Übertragung der angewandten Effekte eines Referenz-Audios auf einen Roh-Audio-Track. Es optimiert die Effektparameter, um die Distanz zwischen den Style-Embeddings des verarbeiteten Audios und der Referenz zu minimieren. Diese Methode behandelt jedoch alle möglichen Konfigurationen gleich und verlässt sich ausschließlich auf den Embedding-Raum, was zu unrealistischen oder verzerrten Ergebnissen führen kann. Wir beheben dieses Problem durch die Einführung eines Gaußschen Priors, der aus einem Vocal-Preset-Datensatz, DiffVox, über den Parameterraum abgeleitet wird. Die resultierende Optimierung entspricht einer Maximum-a-Posteriori-Schätzung. Bewertungen zur Übertragung von Vocaleffekten auf dem MedleyDB-Datensatz zeigen signifikante Verbesserungen in den Metriken im Vergleich zu Baseline-Methoden, einschließlich eines blinden Audioeffekt-Schätzers, Nearest-Neighbour-Ansätzen und unkalibriertem ST-ITO. Die vorgeschlagene Kalibrierung reduziert den mittleren quadratischen Fehler der Parameter um bis zu 33 % und passt den Referenzstil besser an. Subjektive Bewertungen mit 16 Teilnehmern bestätigen die Überlegenheit unserer Methode, insbesondere in Szenarien mit begrenzten Daten. Diese Arbeit zeigt, wie die Einbindung von Vorwissen zur Inferenzzeit die Übertragung von Audioeffekten verbessert und den Weg für effektivere und realistischere Audioverarbeitungssysteme ebnet.

papers.title

papers.description

Qwen3 Technischer Bericht
Qwen3 Technical Report

May 14

318

GuardReasoner-VL: Schutz von VLMs durch verstärktes Reasoning
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

May 16

ByYue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi

Visuelle Planung: Denken wir nur mit Bildern
Visual Planning: Let's Think Only with Images

May 16

ByYi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić

MMLongBench: Effektive und umfassende Bewertung von Vision-Sprache-Modellen mit langem Kontext
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

May 15

ByZhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman