HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

40 papers found

Neugestaltung von Mixture-of-Experts-Routern mit Mannigfaltigkeits-Potenziteration
Redesign Mixture-of-Experts Routers with Manifold Power Iteration

Jun 10

BySonghao Wu, Ang Lv, Ruobing Xie, Yankai Lin

Der Router ist die grundlegende Komponente von Mixture-of-Experts-Modellen. Als Experten-Proxys berechnen die Zeilen der Router-Matrix ihre Ähnlichkeit mit den MoE-Eingaben, um zu bestimmen, welche Teilmenge der Experten aktiviert wird. Idealerweise ist jede Router-Zelle so konzipiert, dass sie die Experten-Matrix in diesen repräsentativen Vektor kodiert, sodass ihr Skalarprodukt mit dem Token die Token-Experten-Affinität besser widerspiegeln kann. Es gibt jedoch keine Gestaltungsprinzipien, die diese Kondensierung erzwingen. In diesem Papier schlagen wir vor, jede Router-Zelle mit der hauptsächlichen singulären Richtung des zugehörigen Experten auszurichten, da diese Richtung die ausdrucksstärkste mathematische Beschreibung einer Matrix liefert. Basierend auf diesem Prinzip schlagen wir eine Neugestaltung des Routers mittels Manifold Power Iteration (MPI) vor. Konkret führt dies ein "Power-then-Retract"-Paradigma ein, bei dem ein Potenzierungsschritt auf die Router-Gewichte angewendet wird, gefolgt von einer Retraktion, um eine Normbedingung aufzuerlegen, die sowohl Effizienz als auch Stabilität gewährleistet. Theoretisch zeigen wir, dass MPI die Router-Zellen zur Konvergenz in Richtung der hauptsächlichen singulären Richtungen der zugehörigen Experten treibt. Empirisch trainieren wir MoE-Modelle in Größenordnungen von 1B bis 11B Parametern vor, um zu bestätigen, dass diese Ausrichtung effektivere MoE-Modelle ermöglicht.

Zu generalistischer autonomer Forschung durch Hypothesenbaumverfeinerung
Toward Generalist Autonomous Research via Hypothesis-Tree Refinement

Jun 10

ByJiajie Jin, Yuyang Hu, Kai Qiu, Qi Dai, Chong Luo, Guanting Dong, Xiaoxi Li, Tong Zhao, Xiaolong Ma, Gongrui Zhang, Zhirong Wu, Bei Liu, Zhengyuan Yang, Linjie Li, Lijuan Wang, Hongjin Qian, Yutao Zhu, Zhicheng Dou

Der wissenschaftliche Fortschritt hängt von einer wiederholten Schleife aus Exploration, Experimentation und Abstraktion ab. Forschende testen mögliche Richtungen, interpretieren die Belege und tragen die gewonnenen Erkenntnisse in spätere Versuche hinein. Wir untersuchen, wie ein KI-Agent diese Schleife über lange Zeiträume hinweg autonom durchlaufen kann. Wir stellen Arbor vor, ein allgemeines Framework für autonome Forschung, das einen langlebigen Koordinator, kurzlebige Ausführer und die Hypothesenbaumverfeinerung (Hypothesis Tree Refinement, HTR) kombiniert – einen persistenten Baum, der Hypothesen, Artefakte, Belege und destillierte Erkenntnisse über die Zeit hinweg verknüpft. Der Koordinator steuert die globale Forschungsstrategie über den Baum, während Ausführer einzelne Hypothesen in isolierten Arbeitsbäumen umsetzen und testen. Sobald Ergebnisse zurückkommen, aktualisiert Arbor den Baum, gibt wiederverwendbare Erkenntnisse weiter, verfeinert die Suchfront und nimmt bestätigte Verbesserungen auf. Dieses Design verwandelt autonome Forschung von einer Abfolge lokaler Versuche in einen kumulativen Prozess, in dem Strategie, Durchführung und Belege über die Zeit hinweg weitergetragen werden. Wir evaluieren Arbor unter Autonomer Optimierung (Autonomous Optimization, AO), einem operationellen Rahmen, in dem ein Agent ein anfängliches Forschungsartefakt durch iterative Experimentation ohne schrittweise menschliche Aufsicht verbessert. In sechs realen Forschungsaufgaben aus den Bereichen Modelltraining, Harness-Engineering und Datensynthese erzielt Arbor das beste zurückgehaltene Ergebnis in allen sechs Aufgaben und erreicht dabei mehr als das 2,5-fache des durchschnittlichen relativen Gewinns auf den zurückgehaltenen Daten von Codex und Claude Code bei gleicher Aufgabenschnittstelle und gleichem Ressourcenbudget. Auf MLE-Bench Lite erreicht Arbor 86,36 % Any Medal mit GPT-5.5, dem stärksten Ergebnis in unserem Vergleich.

Agentisches Umgebungsengineering für Große Sprachmodelle: Eine Übersicht über Umgebungsmodellierung, Synthese, Evaluierung und Anwendung
Agentic Environment Engineering for Large Language Models: A Survey of Environment Modeling, Synthesis, Evaluation, and Application

Jun 10

ByJiachun Li, Zhuoran Jin, Tianyi Men, Yupu Hao, Kejian Zhu, Lingshuai Wang, Dongqi Huang, Longxiang Wang, Shengjia Hua, Lu Wang, Jinshan Gao, Hongbang Yuan, Ruilin Xu, Kang Liu, Jun Zhao

Umgebungen dienen als interaktive Systeme für auf großen Sprachmodellen (LLMs) basierende Agenten in verschiedenen Szenarien und spielen eine entscheidende Rolle bei der kontinuierlichen Weiterentwicklung der Modellfähigkeiten. Trotz dieser Bedeutung fehlt es in der bisherigen Forschung an einer systematischen Kategorisierung und tiefgehenden Analyse. Diese Arbeit untersucht systematisch die aktuelle Forschung zu agentischen Umgebungen aus der Perspektive des Lebenszyklus des Umgebungsengineerings und behandelt deren Modellierung, Synthese, Bewertung und Anwendung. Konkret werden zunächst repräsentative Umgebungen aus den Perspektiven von acht Attributen und acht Domänen vorgestellt, wobei ihre Entwicklungspfade detailliert analysiert und ihre Kernfähigkeiten hervorgehoben werden. Zweitens werden für die automatisierte Umgebungssynthese zwei Paradigmen eingeführt, nämlich die symbolische und die neuronale Synthese. Die Arbeit zeigt zudem verschiedene Methoden zur Umgebungsbewertung innerhalb jedes Paradigmas auf. Drittens werden die entsprechenden Umgebungsanwendungen aus der Perspektive der Agent-Umgebung-Koevolution diskutiert. Insbesondere werden die primären Pfade der Agentenevolution in dynamischen Umgebungen aus vier komplementären Perspektiven charakterisiert: gedächtniszentrierte Erfahrungsevolution, orchestrierungszentrierte Workflow-Evolution, trajektorienzentrierte Offline-Evolution und explorationszentrierte Online-Evolution. Zudem werden drei Paradigmen der Umgebungsevolution identifiziert: neuronal getriebene, schwierigkeitsgetriebene und skalierungsgetriebene Ansätze. Abschließend werden mehrere vielversprechende zukünftige Richtungen diskutiert, darunter Environment-as-a-Service, Multi-Agenten-Umgebungen und neural-symbolische Umgebungen.

Claw-SWE-Bench: Ein Benchmark zur Bewertung von OpenClaw-artigen Agenten-Frameworks für Programmieraufgaben
Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

Jun 10

ByMengyu Zheng, Kai Han, Boxun Li, Haiyang Xu, Yuchuan Tian, Wei He, Hang Zhou, Jianyuan Guo, Hailin Hu, Lin Ma, Chao Xu, Guohao Dai, Lixue Xia, Yunchao Wei, Yunhe Wang, Yu Wang

Allzweck-Agenten wie OpenClaw werden zunehmend als autonome Werkzeugnutzer eingesetzt, doch ihre Programmierfähigkeit lässt sich unter SWE-bench nur schwer messen: Ein generischer Agent erfüllt von sich aus nicht den sauberen Docker-Arbeitsbereich, den Patch und den Vorhersagevertrag, die für die Bewertung erforderlich sind. Wir stellen Claw-SWE-Bench vor, einen mehrsprachigen SWE-bench-artigen Benchmark und Adapter-Protokoll, das heterogene Agent-Harnesses (sogenannte Claws) unter fairen Bedingungen vergleichbar macht, einschließlich eines festgelegten Prompts, Laufzeitbudgets, Arbeitsbereichsvertrags, Patchextraktionsverfahrens und Evaluators. Der vollständige Benchmark umfasst 350 GitHub-Issue-Lösungsinstanzen in 8 Sprachen und 43 Repositorys, die aus SWE-bench-Multilingual und SWE-bench-Verified-Mini nach einer Bereinigung um zukünftige Commits stammen. Wir veröffentlichen außerdem Claw-SWE-Bench Lite für eine schnellere Validierung – eine Teilmenge von 80 Instanzen, die durch ein kostenbewusstes, rangbewusstes Verfahren über 17 Kalibrierungsspalten ausgewählt wurde. Im vollständigen Benchmark erreicht OpenClaw mit einem minimalen Direct-Diff-Adapter nur 19,1 % Pass@1, während der vollständige Adapter mit dem gleichen GLM 5.1-Backbone 73,4 % erreicht – was zeigt, dass das Adapter-Design entscheidend ist, um OpenClaw-artige Harnesses für Programmieraufgaben effektiv zu befähigen. Über einen OpenClaw-mal-neun-Modell-Durchlauf und einen Fünf-Claw-mal-zwei-Modell-Durchlauf hinweg ändert die Modellwahl Pass@1 um 29,4 Prozentpunkte und die Harness-Wahl um 27,4 Prozentpunkte bei festen Modellen; Systeme mit ähnlicher Genauigkeit können sich in den gesamten API-Kosten erheblich unterscheiden. Claw-SWE-Bench behandelt daher Harness- und Kostenabrechnung als erstklassige Achsen der SWE-artigen Bewertung von Programmieragenten und bietet sowohl einen vollständigen Benchmark als auch einen kostengünstigen Referenzsatz für reproduzierbare Vergleiche. Die Daten sind verfügbar unter https://github.com/opensquilla/claw-swe-bench und https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.

Jenseits skalarer Belohnungen durch Verinnerlichung von Reasoning in Score-Verteilungen
Beyond Scalar Rewards by Internalizing Reasoning into Score Distributions

Jun 8

ByXin Jin, Huanqia Cai, Zhen Li, Zechao Zhan, Dengyang Jiang, Aiming Hao, Yuming Jiang, Chunle Guo, Peng Gao, Ming-Ming Cheng, Steven C. H. Hoi

Belohnungsmodelle sind zentral für das Post-Training von Text-zu-Bild-Modellen, doch visuelle Präferenz ist subjektiv und wird besser als Verteilung über Rubrikbewertungen repräsentiert denn als deterministischer Skalar. Existierende skalare, Bewertungs-Token- und paarweise Belohnungsmodelle komprimieren Unsicherheit und feinkörnige Bewertungsunterschiede übermäßig, während auf Reasoning basierende generative Belohnungen robustere Urteile liefern, aber teuer in der Bereitstellung und schwer als direkte Optimierungssignale zu nutzen sind. Wir schlagen Z-Reward vor, ein Lehrer-Schüler-Belohnungsmodellierungsframework, das reasoning-intensives Urteilen von effizienter Belohnungsbereitstellung entkoppelt. Der Lehrer ist ein großes VLM, das Reasoning verwendet, um rubric-konforme Bewertungsverteilungen abzuleiten, und wird mit Group-wise Direct Score Optimization (GDSO) trainiert, das Policy-Gradient-Belohnungen aus Verteilungserwartungen mit direkter punktweiser und paarweiser Überwachung von Bewertungsverteilungen und Bewertungsabständen kombiniert. Der Schüler wird mit Reasoning-Internalized Score Distillation (RISD) trainiert, das die reasoning-bedingte Bewertungsverteilung des Lehrers in ein kompaktes VLM überträgt, ohne zur Inferenzzeit explizite Reasoning-Ketten zu benötigen. Auf unserem intern annotierten Evaluationsdatensatz erreicht der 27B-GDSO-Lehrer eine menschliche Präferenzgenauigkeit von 89,6 % und übertrifft damit SFT, RewardDance und GRPO, während der 9B-RISD-Schüler 88,6 % erreicht, den OPD-Baseline übertrifft und dem größeren Lehrer nahekommt. Wir zeigen weiterhin, dass Z-Reward als differenzierbares Belohnungssignal für die Text-zu-Bild-Optimierung dienen kann, was eine Nettoverbesserung der menschlichen Präferenz um 41,3 % gegenüber der SFT-Baseline ergibt.

TRL-Bench: Standardisierung der paradigmenübergreifenden Repräsentationsebenen-Evaluierung von Tabellen-Encodern
TRL-Bench: Standardizing Cross-Paradigm Representation-Level Evaluation of Tabular Encoders

Jun 8

ByWei Pang, Xiangru Jian, Hehan Li, Zhixuan Yu, Alex Xue, Jinyang Li, Zhengyuan Dong, Xinjian Zhao, Hao Xu, Chao Zhang, Reynold Cheng, M. Tamer Özsu, Tianshu Yu

Tabellarische Encoder werden üblicherweise innerhalb aufgabenspezifischer End-to-End-Pipelines evaluiert, sodass Modelle aus unterschiedlichen Trainingsparadigmen selbst dann schwer direkt vergleichbar sind, wenn sie auf ähnlichen tabellarischen Signalen operieren. Wir führen TRL-Bench ein, einen Benchmark für multi-granulares tabellarisches Repräsentationslernen (TRL), der eine standardisierte paradigmenübergreifende Evaluierung auf Repräsentationsebene ermöglicht: Jeder Encoder exportiert Zeilen-, Spalten- oder Tabellen-Embeddings über die jeweilige unterstützte Schnittstelle, und gemeinsame leichte Köpfe testen diese in drei Suiten – TRL-CTbench (Spalte/Tabelle), TRL-Rbench (Zeile) und TRL-DLTE (kompositionelle Data-Lake-Tabellenanreicherung, die alle drei Granularitätsebenen umfasst). Zur Unterstützung dieses standardisierten Settings veröffentlichen wir kuratierte Benchmark-Assets und Aufgabenumformulierungen, darunter 50 OpenML-Tabellen mit 123 verifizierten Zielvariablen, 16 Neuformulierungen von Zeilenpaarverknüpfungen und einen 47.772-Tabellen-DLTE-See, der aus 1.379 übergeordneten Tabellen abgeleitet wurde. Basierend auf 20 Modellen und 16 Aufgaben zeigt TRL-Bench, dass die Encoderqualität, sobald die nachgelagerten Bedingungen standardisiert sind, fähigkeitsspezifisch ist und nicht durch eine einzige Rangliste erfasst werden kann. In TRL-CTbench führen generische Text-Encoder häufig bei Aufgaben mit starkem Oberflächentextsignal, während tabellarische Spezialisten dort punkten, wo ihr Vorhersageziel mit der Aufgabe übereinstimmt. In TRL-Rbench begünstigen Vorhersagen innerhalb einer Tabelle und tabelleübergreifende Verknüpfungen unterschiedliche Trainingsregime, wobei die atomare Verknüpfungsleistung stark mit der Zeilenabgleichsstufe von DLTE-Pipelines korreliert. In TRL-DLTE kombinieren die stärksten Pipelines fähigkeitsangepasste Spezialisten anstatt einen einzelnen Encoder wiederzuverwenden, und die beste End-to-End-Qualität hängt von einer nicht-additiven kompositorischen Passung ab und nicht allein vom marginalen Rang pro Stufe. TRL-Bench stellt ein gemeinsames Protokoll zur Messung wiederverwendbarer Signale in exportierten tabellarischen Repräsentationen unter gemeinsamen nachgelagerten Bedingungen bereit. Code und Daten: https://github.com/LOGO-CUHKSZ/TRL-Bench

Überlegen, dann erneut überlegen: Querschnittliches Wiederbetrachten verbessert räumliches Denken
Reason, Then Re-reason: Cross-view Revisiting Improves Spatial Reasoning

Jun 10

ByChaofan Ma, Zhenjie Mao, Yuhuan Yang, Fanqin Zeng, Yue Shi, Yingjie Zhou, Xiaofeng Cao, Jiangchao Yao

Räumliches Denken anhand egozentrischer Videos ist von Natur aus anspruchsvoll, da die beobachtbaren Belege durch die Kameratrajektorie eingeschränkt sind. Bestehende Verfahren stützen sich auf Einzel-Inferenz und zwingen Modelle dazu, geometrische Ambiguitäten eher durch semantische Priors als durch überprüfbare Evidenz aufzulösen. Wir argumentieren, dass räumliches Denken revisierbar sein sollte: Schlussfolgerungen, die unter begrenzter Evidenz gezogen werden, sollten offen für Revision bleiben, sobald komplementäre Blickwinkel verfügbar werden. Ausgehend von dieser Erkenntnis schlagen wir Reason, then Re-reason (ReRe) vor – ein trainingsfreies Inferenzzeit-Framework mit zwei Phasen: In der Reason-Phase bildet ein MLLM eine räumliche Hypothese aus dem Originalvideo; in der Re-reason-Phase verifiziert oder revidiert es die Hypothese durch Beobachtung eines synthetisierten Neu-Blickwinkel-Videos. Um effektives kreuzperspektivisches Überprüfen zu ermöglichen, entwickeln wir eine Geometrie-zu-Video-Pipeline, die strategisch komplementäre Neu-Blickwinkel aus vorhergesagter 3D-Geometrie rendert. Diese Perspektiven zeichnen sich durch eine erhöhte, schräge Ansicht mit szenenübergreifender Abdeckung aus, während sie die native Videoschnittstelle des MLLM ohne architektonische Anpassungen bewahren. Umfangreiche Auswertungen auf VSI-Bench und STI-Bench zeigen, dass ReRe die Leistung Open-Source-basierter MLLMs erheblich steigert, sodass sie mit proprietären Spitzenmodellen konkurrieren können. Projektseite: https://zhenjiemao.github.io/ReRe/

DeNovoSWE: Skalierung von Langzeithorizont-Umgebungen zur Generierung vollständiger Repositories von Grund auf
DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch

Jun 9

ByJiale Zhao, Guoxin Chen, Fanzhe Meng, Wayne Xin Zhao, Ruihua Song, Ji-Rong Wen, Kai Jia

Da die Fähigkeiten von auf großen Sprachmodellen (LLMs) basierenden Code-Agenten immer weiter voranschreiten, erweitert sich ihre erwartete Rolle von der lokalen Fehlerbehebung in bestehenden Codebasen hin zur Architektur und Implementierung vollständiger Software-Repositories auf der Grundlage von hochrangigen Spezifikationen. Das Training von Agenten für solche langfristigen Softwareentwicklungsaufgaben bleibt jedoch schwierig, da nur wenige groß angelegte, verifizierbare Daten zur Generierung vollständiger Repositories verfügbar sind. In diesem Artikel stellen wir DeNovoSWE vor, einen groß angelegten Datensatz zur Generierung vollständiger Repositories. DeNovoSWE umfasst 4.818 qualitativ hochwertige Instanzen, bei denen jede Instanz die Generierung eines vollständigen Repositories aus einer Dokumentation erfordert. Unser Datensatz wird automatisch durch einen sorgfältig entworfenen, in einer Sandbox ausgeführten agentischen Workflow erstellt, was eine skalierbare Kuratierung ohne manuelle Annotation ermöglicht. DeNovoSWE basiert auf der Philosophie von "Teile und herrsche" sowie Kritik und Reparatur. Um die Datenqualität und -vielfalt auszugleichen, führen wir zudem eine schwierigkeitsbewusste Trajektorien-Filterstrategie ein. Das Fine-Tuning von Qwen3-30B-A3B auf DeNovoSWE verbessert die langfristige SWE-Leistung erheblich und steigert seine Punktzahl auf dem anspruchsvollen BeyondSWE-Doc2Repo-Benchmark von 5,8% auf 47,2%.

World Pilot: Steuerung von Vision-Language-Action-Modellen mit Welt-Aktions-Prioren
World Pilot: Steering Vision-Language-Action Models with World-Action Priors

Jun 10

ByZefu Lin, Rongxu Cui, Junjia Xu, Xiaojuan Jin, Wenling Li, Lue Fan, Zhaoxiang Zhang

Vision-Language-Action (VLA)-Modelle erben semantische Verankerung aus groß angelegtem Vortraining und erbringen bei Manipulationsaufgaben innerhalb der Verteilungsgrenzen kompetente Leistungen. Diese Verankerung basiert jedoch auf statischen Bild-Text-Paaren, während Manipulation ein kontinuierlicher, kontaktintensiver Prozess ist, dessen Dynamik dieses Vortraining nicht erfassen kann. Wir präsentieren World Pilot, ein VLA-Framework, das die Politik durch Prioren aus einem World-Action-Modell (WAM) erweitert, die über zwei komplementäre Pfade in die Entscheidungskette eingebunden werden. Latent Steering konditioniert die Wahrnehmungsschicht auf ein Szenenentwicklungs-Latent, und Action Steering liefert eine antizipierte Trajektorie als Bewegungs-Prior für den Aktionsgenerator. Zusammen statten die beiden Prioren das VLA mit einer antizipierten Sicht auf die Szene und einem bewegungsbezogenen Hinweis auf Trajektorienebene neben seiner semantischen Konditionierung aus, und der Szenenentwicklungs-Prior bleibt auch dann wirksam, wenn er von einem videovortrainierten Weltmodell bereitgestellt wird, das nicht aktions-nachtrainiert wurde. World Pilot erreicht eine Gesamterfolgsrate von 84,7 % auf dem LIBERO-Plus Nullschuss-OOD-Benchmark und die höchste Erfolgsrate in jeder realen Robotikumgebung über vier Manipulationsaufgaben hinweg, mit den größten Abständen bei Verschiebungen von Blickwinkel, Geometrie, deformierbarem Zustand und Pose. Projekt-Website: https://world-pilot.github.io/

Über subquadratische Architekturen: Von Anwendungen zu Prinzipien
On Subquadratic Architectures: From Applications to Principles

Jun 10

ByAnamaria-Roberta Hartl, Levente Zólyomi, David Stap, Pieter-Jan Hoedt, Niklas Schmidinger, Lukas Hauzenberger, Sebastian Böck, Günter Klambauer, Sepp Hochreiter

Transformer dominieren die moderne Sequenzmodellierung, aber ihre quadratische Aufmerksamkeit verursacht erhebliche Rechenkosten. Subquadratische Architekturen bieten eine skalierbare Alternative. Es bleibt jedoch unklar, welche Entwürfe die effektivsten Sequenzmodelle hervorbringen. Wir vergleichen drei führende Ansätze: xLSTM, Mamba-2 und Gated DeltaNet. Wir evaluieren diese Modelle an Aufgaben mit komplexen Abhängigkeiten: (1) Code-Modell-Vortraining, (2) Destillation von Code-Modellen aus großen Sprachmodellen und (3) Vortraining von Zeitreihen-Grundlagenmodellen. In all diesen Szenarien liefert xLSTM die insgesamt stärkste Leistung. Um den Vorteil von xLSTM zu erklären, präsentieren wir eine einheitliche Formulierung und analysieren die zugrunde liegenden architektonischen Mechanismen, wobei wir uns auf Zustandsverfolgung und Gedächtnisdynamik konzentrieren. Unsere Ergebnisse zeigen, dass xLSTM durch seinen Gating-Mechanismus eine flexiblere und stabilere Gedächtniskorrektur ermöglicht. Wir untermauern diese Erkenntnisse anhand kontrollierter synthetischer Längengeneralisierungsaufgaben. Insgesamt deuten unsere Ergebnisse darauf hin, dass die Gewinne von xLSTM bei komplexen Aufgaben auf einer robusten Zustandsverfolgung und -akkumulation beruhen.

ComBench: Ein Benchmark für rigorose Beweisführung und konstruktive Realisierung in der Kombinatorik auf Olympiadeniveau
ComBench: A Benchmark for Rigorous Proof Reasoning and Constructive Realization in Olympiad-Level Combinatorics

Jun 9

ByShunkai Zhang, Haoran Zhang, Yun Luo, Qianjia Cheng, Haodi Lei, Yizhuo Li, Runzhe Zhan, Zhilin Wang, Bangjie Xu, Yucheng Su, Xinmiao Han, Xiaoye Qu, Dongrui Liu, Zhouchen Lin, Yu Qiao, Ning Ding, Yafu Li, Yu Cheng

Kombinatorik ist zentral für die Lösung mathematischer Probleme auf Olympiade-Niveau und erfordert tiefgehendes diskretes Denken, kreative Konstruktionen sowie rigorose strukturelle Einsichten. Neuere Erkenntnisse deuten darauf hin, dass selbst die stärksten heutigen Grenzmodelle im Bereich der Olympiade-Kombinatorik uneinheitlich bleiben, was eine Lücke im kreativen mathematischen Denken offenbart. Wir stellen ComBench vor, einen Benchmark für Kombinatorik auf Olympiade-Niveau zur Bewertung und Diagnose der kombinatorischen Denkfähigkeiten großer Sprachmodelle. ComBench umfasst 100 von Menschen annotierte Wettbewerbsprobleme, die um zwei komplementäre Bereiche organisiert sind: analysezentrierte Probleme, die hauptsächlich rigorose mathematische Argumente erfordern, und konstruktionszentrierte Probleme, die zusätzlich zu Korrektheitsbegründungen explizite Konstruktionen verlangen. Das Bewertungsprotokoll kombiniert leitfadengestützte Bewertung von Beweisen mit deterministischer Überprüfung von Konstruktionen, wobei Fälle aufgedeckt werden, in denen Beweisqualität und Konstruktionsgültigkeit auseinandergehen. Experimente mit offenen und geschlossenen Spitzenmodellen zeigen, dass ComBench bei weitem nicht ausgeschöpft ist: Das stärkste Modell erreicht 65,4 % Gesamtdurchschnitt und 75,3 % insgesamt Best@4. Wir stellen ferner fest, dass rigoroses Beweisdenken und konstruktive Umsetzung unterschiedliche Fähigkeiten sind: Kimi-K2.6 liegt bei der analysezentrierten Beweisbewertung hinter GPT-5.5 zurück, übertrifft es jedoch beim konstruktionszentrierten Best@4, während Existenz- und Konstruktionsprobleme durchgängig die schwierigsten bei repräsentativen Spitzenmodellen bleiben.

InternVideo3: Agentifizierung von Grundlagenmodellen mit multimodalem kontextuellem Denken
InternVideo3: Agentify Foundation Models with Multimodal Contextual Reasoning

Jun 10

ByZiang Yan, Sheng Xia, Jiashuo Yu, Yue Wu, Tianxiang Jiang, Songze Li, Kanghui Tian, Yicheng Xu, Yinan He, Kai Chen, Limin Wang, Yu Qiao, Yi Wang

Die jüngsten Fortschritte bei Foundation-Modellen haben sich hin zu agentischem Verhalten entwickelt, das mehrstufiges Denken und die Nutzung von Werkzeugen umfasst. Open-Source-Bemühungen konzentrieren sich jedoch hauptsächlich auf textdominierte Umgebungen, sodass langfristige multimodale Aufgaben wenig erforscht sind. Diese Lücke zeigt sich insbesondere bei Videoaufgaben, die ein anhaltendes zeitliches Verständnis und iterative Interaktion erfordern. Wir stellen InternVideo3 vor, ein Framework, das diese Fähigkeiten durch Multimodales Kontextuelles Denken (Multimodal Contextual Reasoning, MCR) verbessert. MCR behandelt das Verständnis als einen geschlossenen Kreislaufprozess über einen gemeinsamen, sich entwickelnden Kontext, der Beobachtungen, Anweisungen, Denkschritte, Werkzeugaktionen und Gedächtnis umfasst. Dadurch wird das Verständnis langer Videos als Evidenzakkumulation und -verifikation betrachtet. Um Effizienz zu gewährleisten, führen wir die Multimodale Multi-Head Latent Attention (M^2LA) ein, eine token-erhaltende Reparametrisierung, die KV-Cache-Zustände komprimiert und gleichzeitig den gesamten Token-Strom beibehält. Unser gestuftes Training umfasst fortgesetztes Pre-Training, kurz-zu-lang überwachtes Fine-Tuning, regelbasiertes Reinforcement Learning und On-Policy Distillation. Experimente zeigen, dass InternVideo3 bei Benchmarks wie Video-MME, MLVU und EgoSchema eine hohe Leistung erzielt. Weiterhin instanziieren wir das Modell als Video-Agent mit Retrieval-Werkzeugen, was ein robustes, evidenzbasiertes Verhalten demonstriert. Unsere Ergebnisse deuten darauf hin, dass effiziente Kontexthandhabung und geschlossenes Denken entscheidend sind, um offene multimodale Modelle für langfristige visuell verankerte Agenten anzupassen.

Grammatik-beschränkte Dekodierung kann LLMs jailbreaken, um schädlichen Code zu generieren.
Grammar-Constrained Decoding Can Jailbreak LLMs into Generating Malicious Code

Jun 10

ByYitong Zhang, Shiteng Lu, Jia Li

Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend zur Codegenerierung eingesetzt, was die Sorge aufkommen lässt, dass sie missbraucht werden könnten, um bösartigen Code zu erzeugen. Gleichzeitig hat sich die grammatikbeschränkte Dekodierung (Grammar-Constrained Decoding, GCD) etabliert, um die Zuverlässigkeit von LLM-generiertem Code durch die Durchsetzung syntaktischer Gültigkeit zu verbessern. In dieser Arbeit decken wir ein kontraintuitives Risiko auf: Diese auf Zuverlässigkeit ausgerichtete Technik selbst kann zur Angriffsfläche werden. Wir identifizieren einen neuen Jailbreak-Angriff namens CodeSpear, der GCD ausnutzt, um LLMs zur Erzeugung schädlichen Codes zu veranlassen. Unsere Experimente zeigen, dass bereits die Anwendung einer harmlosen Code-Grammatikbeschränkung LLMs effektiv jailbreaken kann. Um dieser Sicherheitslücke zu begegnen, schlagen wir CodeShield vor, einen Sicherheitsausrichtungsansatz, der sicheres Verhalten selbst unter von Angreifern kontrollierten Grammatikbeschränkungen robust bewahrt. CodeShield richtet das Modell in der Code-Modalität aus, indem es ihm beibringt, unter GCD Honigtopf-Code zu erzeugen. Ein solcher Code ist semantisch harmlos (setzt die böswillige Anfrage nicht um) und strukturell vielfältig (erschwert die Unterdrückung durch Grammatikverschärfung). Gleichzeitig bewahrt CodeShield weiterhin Ablehnungen in natürlicher Sprache, wenn natürliche Sprache verfügbar ist. Experimente mit zehn gängigen LLMs über vier Benchmarks hinweg zeigen, dass CodeSpear repräsentative Jailbreak-Baselines übertrifft und die Angriffserfolgsrate im Durchschnitt um mehr als 30 Prozentpunkte steigert. CodeShield stellt die Sicherheit unter CodeSpear wieder her, während der Nutzen für harmlose Anwendungen erhalten bleibt. Unsere Ergebnisse offenbaren ein grundlegendes Risiko von GCD und mahnen zu verstärkter Aufmerksamkeit für dessen potenzielle Sicherheitsimplikationen.

Überwindung von Entropieschranken: Beschleunigung des RL-Trainings durch MTP mit Verwerfungsstichproben
Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling

Jun 10

ByYucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, An Yang, Bowen Yu, Bo Zheng, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou

Bestärkendes Lernen (RL) ist zu einer Schlüsselkomponente in modernen großen Sprachmodellen geworden, doch die Rollout-Phase bleibt der entscheidende Engpass in RL-Trainingspipelines. Obwohl die Multi-Token-Vorhersage (MTP) eine natürliche Lösung zur Beschleunigung von Rollouts durch spekulatives Decodieren bietet, haben viele Studien beobachtet, dass die MTP-Akzeptanzraten während des RL-Trainings erheblich abnehmen, was zu einer begrenzten Beschleunigungsleistung führt. Um diesen Engpass zu adressieren, stellen wir Bebop vor, eine systematische Studie von MTP im Post-Training von LLMs, und bieten praktische Rezepte zur Integration von MTP in groß angelegte RL-Pipelines. Zunächst zeigen wir, dass die MTP-Akzeptanzrate grundlegend durch die Schwankung der Modellentropie begrenzt wird, die einen klaren negativen linearen Zusammenhang mit dem Anstieg der Entropie in der RL-Phase aufweist. Zweitens zeigen wir, dass probabilistisches Zurückweisungsstichproben die durch Entropie im RL verursachte Störung im Vergleich zu gierigem Draft-Sampling weitgehend mildert. Wir stellen weiterhin fest, dass die konventionellen MTP-Trainingsziele (Kreuzentropie oder KL) in solchen Umgebungen suboptimal sind, und schlagen daher einen neuartigen End-to-End-TV-Verlust vor, der direkt die Akzeptanzrate des mehrstufigen Zurückweisungsstichproben optimiert, was zu einer Verbesserung der Akzeptanzrate um etwa 10 % führt, mit Akzeptanzraten von bis zu 95 % und zusätzlichen Inferenzdurchsatzsteigerungen von bis zu 25 % bei mathematischen Argumentations-, Codegenerierungs- und agentischen Aufgaben. Drittens testen wir verschiedene Online-MTP-Trainingsstrategien während des RL und zeigen, dass das Pre-RL-MTP-Training mit e2e-TV-Verlust und Zurückweisungsstichproben eine konsistente Akzeptanzrate und Beschleunigung während des gesamten RL erreicht, wodurch die Notwendigkeit kostspieliger Online-MTP-Aktualisierungen entfällt. Wir liefern umfangreiche Experimente und Analysen, die unsere Ergebnisse validieren. Die experimentellen Ergebnisse zeigen, dass unsere Methode eine bis zu 1,8-fache End-to-End-Beschleunigung im asynchronen RL-Training der Modelle Qwen3.5, Qwen3.6 und Qwen3.7 erreicht.

TRACE: Ein einheitliches Rahmenwerk zur Zuweisung von Rollout-Budgets für effizientes agentisches Reinforcement Learning
TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning

Jun 9

ByHeming Zou, Qi Wang, Yun Qu, Yuhang Jiang, Lizhou Cai, Yixiu Mao, Ru Peng, Xin Xu, Weijie Liu, Kai Yang, Saiyong Yang, Xiangyang Ji

Verstärkungslernen mit überprüfbaren Belohnungen (RLVR) ist ein vielversprechender Ansatz zur Verbesserung von Denkfähigkeit und agentischem Verhalten in großen Sprachmodellen. Allerdings wird die rollout-intensive Politikoptimierung oft durch unzureichenden Belohnungskontrast eingeschränkt, der entsteht, wenn übermäßig einfache oder komplexe Prompts Feedback mit geringer Varianz erzeugen und wenn ergebnisbasierte Belohnungen jeder Entscheidung in einem mehrschrittigen Rollout dieselbe abschließende Bewertung zuweisen. Bisherige Bemühungen konzentrierten sich darauf, verfügbare Rollout-Ressourcen vielversprechenden Prompts zuzuweisen, doch sie nutzen den Informationsgehalt der Stichproben nur auf Prompt-Ebene und vernachlässigen die Variation des Informationsgehalts auf Präfixebene zwischen den Schritten innerhalb desselben Rollouts. Diese Arbeit befasst sich mit mehrschrittigem agentischem RL, indem jeder ReAct-artige Denk-Aktions-Beobachtungs-Schritt als semantisch eigenständiger Knoten modelliert wird, was die Budgetzuweisung von Prompt-Wurzeln auf Schritt-Präfixe mit weiteren Fortsetzungen ausdehnt, wodurch natürlich baumstrukturierte Rollouts entstehen. Wir führen Tree Rollout Allocation for Contrastive Exploration (TRACE) ein, ein einheitliches Rollout-Zuweisungsframework, das den Belohnungskontrast innerhalb eines festen Stichprobenbudgets verbessert. Technisch gesehen weist TRACE das Rollout-Budget sowohl Prompt-Wurzeln als auch Zwischenpräfixen zu, die am wahrscheinlichsten gemischte abschließende Belohnungen erzielen. Ein gemeinsam genutzter, verallgemeinerbarer Prädiktor schätzt aus Präfixhistorien die bedingte Erfolgswahrscheinlichkeit an diesen Ankerpunkten, um diese Zuweisung zu steuern. Die resultierende adaptive Baumstruktur bereichert das ergebnisbasierte Feedback und verstärkt das Signal zur Politikaktualisierung. Empirisch erzielt TRACE wettbewerbsfähige Leistung und Effizienzgewinne bei typischen agentischen Benchmarks, z. B. eine Verbesserung der durchschnittlichen Genauigkeit von Qwen3-14B bei Multi-Hop-Fragenbeantwortung um 2,8 Punkte gegenüber wettbewerbsfähigen Basislinien bei gleichen Stichprobenkosten.

Umleiten, nicht Entfernen: Wiederherstellbares visuelles Token-Routing für Visuell-Sprach-Modelle
Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models

Jun 10

ByCheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu

Sprach-Bild-Modelle (VLMs) projizieren Bilder in Hunderte bis Tausende visuelle Tokens, was die Dekoder-Inferenz sowohl hinsichtlich der Aufmerksamkeitsberechnung als auch des KV-Cache-Speichers teuer macht. Bestehende Methoden zur Reduktion visueller Tokens folgen weitgehend einem Rangfolge-und-Entfernen-Paradigma: Sie bewerten visuelle Tokens, behalten eine kompakte Teilmenge und verwerfen die übrigen dauerhaft. Wir zeigen, dass diese irreversible Aktion anfällig ist, da die Bedeutung visueller Tokens mit der Tiefe des Dekoders variiert; Tokens, die in einer frühen Stufe niedrig eingestuft werden, können in späteren Schichten relevant werden, insbesondere für grounding-sensitive Abfragen. Wir schlagen Reroute vor, ein trainingsfreies Plug-in, das das Entfernen durch wiederherstellbares Routing ersetzt. In jeder Routing-Stufe durchlaufen ausgewählte visuelle Tokens die Dekoder-Blöcke, während zurückgestellte Tokens die Stufe umgehen und bei der nächsten Routing-Entscheidung wieder in den Kandidatenpool eintreten. Reroute verwendet bestehende Aufmerksamkeits-Score-Rangfolgeregeln und stufenweise Zeitpläne wieder, wobei die theoretische TFLOPs- und KV-Cache-Budget-Klasse der Pruning-Methode, die es ergänzt, erhalten bleibt. In FastV-, PDrop- und Nüwa-Varianten auf LLaVA-1.5- und Qwen-Backbones verbessert Reroute das Grounding bei aggressiver Token-Reduktion bei gleichbleibender allgemeiner VQA-Leistung. Diese Ergebnisse legen nahe, dass die Reduktion visueller Tokens in VLMs nicht nur als irreversibles Pruning, sondern auch als wiederherstellbares Routing betrachtet werden sollte. Der Code ist hier zu finden: https://github.com/elmma/mllm-reroute/

ICA Lens: Interpretation von Sprachmodellen ohne Training eines weiteren Wörterbuchs
ICA Lens: Interpreting Language Models Without Training Another Dictionary

Jun 10

BySida Liu, Feijiang Han

Das Auffinden interpretierbarer Richtungen in Sprachmodell-Repräsentationen ist entscheidend für das Verständnis und die Kontrolle des Modellverhaltens. Spärliche Autoencoder (SAEs) sind zum Standardwerkzeug für diesen Zweck geworden, aber ihre Verwendung als standardmäßige erste Linse erfordert oft das Trainieren, Speichern und Evaluieren großer übervollständiger Wörterbücher. Dieser Engpass schränkt die schnelle Exploration ein und wirft eine grundlegende Frage auf: Wie viel interpretierbare Struktur ist bereits aus der Aktivierungsgeometrie sichtbar, bevor ein weiteres neuronales Wörterbuch trainiert wird? Unsere Intuition ist einfach: Viele interpretierbare Richtungen sind token-selektiv, und diese Richtungen sollten weniger gaußsch aussehen als zufällige Richtungen. Daher greifen wir auf die unabhängige Komponentenanalyse (ICA) zurück, eine klassische Methode zur Auffindung nicht-gaußscher Richtungen, als kompakte Linse für die Interpretierbarkeit von Sprachmodellen. Wir stellen fest, dass ICA für die LLM-Interpretierbarkeit unterschätzt wurde, da frühere Anwendungen oft auf Standard-ICA-Implementierungen beruhten, die bei LLM-Aktivierungen instabil sind und denen systematische Werkzeuge zur Inspektion und Evaluierung der gefundenen Richtungen fehlten. Um diese Lücken zu schließen, führen wir ICALens ein, den ersten praktischen Arbeitsablauf für eine stabile, effiziente und nachvollziehbare ICA-Analyse von LLM-Repräsentationen. Es kombiniert eine optimierte GPU-parallele FastICA-Pipeline mit LLM-spezifischen Stabilitätsrezepten und einer verbesserten Anpassungsdiagnostik, wodurch eine effiziente und zuverlässige schichtweise Analyse ermöglicht wird. Für GPT-2 Small, Gemma 2 2B und Qwen 3.5 2B Base stellt ICALens effizient kompakte, für Menschen interpretierbare Richtungen ohne schichtweises gradientenbasiertes Wörterbuchtraining bereit. Auf SAEBench ist ICA konkurrenzfähig mit öffentlichen SAEs beim spärlichen Probing und übertrifft diese bei gezielter Sondenperturbation mit kleinen bis mittleren Budgets. Diese Ergebnisse deuten darauf hin, dass ICA nicht als schwache Basislinie betrachtet werden sollte, sondern als effiziente und komplementäre erste Linse zur Erkundung von Sprachmodell-Repräsentationen.

EvoTrainer: Ko-Evolution von LLM-Policies und Trainings-Harnischen für autonomes agentisches Reinforcement Learning
EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning

Jun 2

ByGuhong Chen, Yingcheng Shi, Yongbin Li, Binhua Li, Xander Xu, Hu Wei, Shiwen Ni, Min Yang, Jieping Ye

Autonomes LLM-Training wird oft als Rezeptsuche verstanden, wobei der Trainingsrahmen weitgehend statisch bleibt. Diese Einschränkung tritt beim agentenbasierten RL besonders zutage, wo wechselnde Engpässe und skalare Belohnungen verschiedene Fehlermodi überdecken. Wir stellen EvoTrainer vor, ein autonomes Trainingsframework, das durch empirische Rückmeldungen LLM-Richtlinien und trainingsseitige Rahmen ko-evolviert: Es diagnostiziert Evidenz auf Rolloutebene, überarbeitet Diagnostiken, führt Rücktests von Interventionen durch und sammelt wiederverwendbare Fähigkeiten. Evaluiert auf mathematischem Reasoning, Codegenerierung im Wettbewerbsprogrammierumfeld und Softwareentwicklung auf Repository-Ebene erreicht oder übertrifft EvoTrainer die von Menschen entwickelten RL-Referenzen bei gleicher Datenlage, Codebasis und Evaluierungsprotokoll; der größte Zugewinn zeigt sich bei langfristigem agentischem SWE. Trajektorienanalysen belegen, dass beibehaltene Strategien domänenübergreifend divergieren, sich entwickelnde Diagnostiken die Beförderung ungültiger, hoch bewerteter Zweige verhindern und wiederverwendbare Fähigkeiten spätere Suchvorgänge prägen. Autonomes LLM-RL sollte über die Rezeptsuche hinausgehen und sich der gemeinsamen Evolution von Richtlinien und den sie interpretierenden Trainingsrahmen zuwenden.

Embodied-R1.5: Evolution der physikalischen Intelligenz durch verkörperte Grundlagenmodelle
Embodied-R1.5: Evolving Physical Intelligence via Embodied Foundation Models

Jun 9

ByYifu Yuan, Yaoting Huang, Xianze Yao, Yutong Li, Shuoheng Zhang, Linqi Han, Pengyi Li, Jiangeng Sun, Wenting Jia, Zhao Zhang, Yuhao Liu, Ruihao Liao, Yucheng Hu, Qiyu Wu, Yuxiao Li, Zibin Dong, Fei Ni, Yan Zheng, Shuyang Gu, Yi Ma, Hongyao Tang, Han Hu, Jianye Hao

Wir stellen Embodied-R1.5 vor, ein einheitliches Embodied Foundation Model (EFM), das umfassende verkörperte Reasoning-Fähigkeiten – darunter verkörperte Kognition, Aufgabenplanung, Korrektur und Zeigen – innerhalb einer einzigen Architektur in Richtung allgemeiner physischer Intelligenz integriert. Durch die Nutzung von drei automatisierten Datenkonstruktionspipelines, um die Datenabdeckung kritischer Fähigkeiten deutlich zu erweitern, bauen wir ein groß angelegtes Datensystem mit über 15 Mrd. Tokens auf und entwerfen ein mehrfachaufgaben-ausbalanciertes RL-Rezept, um heterogene Aufgabenkonflikte abzumildern. Darüber hinaus führen wir ein Planner-Grounder-Corrector (PGC) Closed-Loop-Framework ein, das es einem einzelnen Modell ermöglicht, langfristige Aufgaben autonom auszuführen und selbstständig zu korrigieren. Mit nur 8 Mrd. Parametern erreicht Embodied-R1.5 SOTA bei 16 von 24 verkörperten VLM-Benchmarks und übertrifft führende Modelle wie Gemini-Robotics-ER-1.5 und GPT-5.4. Dank der internalisierten verkörperten Fähigkeiten kann Embodied-R1.5 mit nur geringen Datenmengen zu einem VLA feinabgestimmt werden und übertrifft führende VLA-Modelle wie π_{0.5} bei vier gängigen Manipulations-Benchmark-Suiten. Wir führen zudem umfangreiche Zero-Shot-Experimente mit echten Robotern durch und validieren die Leistung bei der Befolgung von Anweisungen, der Verankerung von Affordanzen, der Manipulation gelenkiger Objekte sowie komplexen langfristigen Aufgaben – und demonstrieren so eine starke Generalisierung auf die physische Welt. Wir veröffentlichen Modellgewichte, Datensätze, Trainingscode sowie EmbodiedEvalKit, ein auf verkörperte Aufgaben zugeschnittenes Evaluierungs-Framework, um die zukünftige Forschung an EFMs zu fördern.

Überprüfbare Umgebungen sind LEGO-Steine: Rekursive Komposition zur Verallgemeinerung des Denkens
Verifiable Environments Are LEGO Bricks: Recursive Composition for Reasoning Generalization

Jun 10

ByHao Xiang, Qiaoyu Tang, Le Yu, Yaojie Lu, Xianpei Han, Ben He, Le Sun, Bowen Yu, Peng Wang, Hongyu Lin, Dayiheng Liu

Verstärkungslernen (RL) mit verifizierbaren Umgebungen hat sich als wirkungsvoller Ansatz zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) erwiesen. Während frühere Arbeiten zeigen, dass eine Skalierung der Umgebungsanzahl die RL-Leistung verbessert, unterliegen bestehende manuelle oder individuelle Konstruktionsmethoden linearen Skalierungsgrenzen, was eine skalierbare Reasoning-Generalization behindert. In diesem Papier wird RACES (Recursive Automated Composition for Environment Scaling) vorgestellt, ein Framework, das verifizierbare Umgebungen als zusammensetzbare Bausteine konzeptualisiert, die rekursiv zusammengefügt werden können. Die zentrale Erkenntnis ist, dass, wenn der Wertebereich (Ausgabetyp) einer Umgebung mit dem Definitionsbereich (Eingabetyp) einer anderen übereinstimmt, diese automatisch zu einer neuen verifizierbaren Umgebung fusioniert werden können, was eine rekursive Zusammensetzung ermöglicht. RACES wird mit 300 individuellen Umgebungen implementiert und definiert eine Reihe von Kompositionsoperatoren (SEQUENTIAL, PARALLEL, SORT und SELECT), die diverse Reasoning-Muster induzieren. Umfangreiche Experimente zeigen, dass RL-Training auf diesen zusammengesetzten Umgebungen konsequent die Reasoning-Generalization verbessert. Insbesondere verbessert RACES DeepSeek-R1-Distill-Qwen-14B um durchschnittlich 3,1 Punkte (von 48,2 auf 51,3) und steigert die Leistung von Qwen3-14B von 58,8 auf 61,1 bei sechs Benchmarks, die während der Konstruktion der Trainingsumgebungen nicht gesehen wurden. Darüber hinaus erreicht RACES mit nur 50 Basisumgebungen eine vergleichbare Leistung wie das Training auf 300 individuellen Umgebungen, was eine erhebliche Effizienz bei der Umgebungsnutzung demonstriert.

Weltmodell-Selbstdestillation: Training von Weltmodellen zur Lösung allgemeiner Aufgaben
World Model Self-Distillation: Training World Models to Solve General Tasks

Jun 10

BySebastian Stapf, Pablo Acuaviva Huertos, Aram Davtyan, Paolo Favaro

Vortrainierte Videogeneratoren sind vielversprechende visuelle Weltmodelle, die emergierende Fähigkeiten zur Aufgabenlösung aufweisen; ihre Abhängigkeit von detaillierten Textbeschreibungen schränkt jedoch ihren direkten Einsatz für Planung und Entscheidungsfindung ein. Bestehende Ansätze verlagern diese Schlussfolgerung entweder auf Sprach- oder Vision-Language-Modelle oder basieren auf überwachtem Feintuning mit gepaarten aufgabenbezogenen Ausführungsvideos, deren Erhebung kostspielig und deren Skalierung schwierig ist. Wir schlagen ein skalierbares Framework vor, das die Aufgabenlösungsfähigkeit solcher Modelle durch die Kombination von Selbstdestillation und bestärkendem Lernen herausfordert. Ausgehend von einem unbeschrifteten Szenenbild generiert ein Vision-Language-Modell eine Kandidatenaufgabe und eine detaillierte Schritt-für-Schritt-Lösung. Die Lösung konditioniert einen vortrainierten Videodiffusionsmodell, den Demonstrator; wir destillieren sein Verhalten in einen Executor, der nur durch das Bild und einen kurzen Aufgabenprompt konditioniert wird. Dadurch wird Ausführungswissen von beschriftungsgesteuerter Generierung auf instruktionskonditionierte Aufgabenlösung übertragen, ohne dass kuratierte Aufgaben-Video-Supervision erforderlich ist. Wir verbessern den Executor weiter durch bestärkendes Lernen aus VLM-Rückmeldungen und nutzen dabei die Asymmetrie zwischen der Beurteilung, ob ein abgetastetes Video eine Aufgabe erfüllt, und der Generierung der Lösung. Experimente mit unserem WorldTasks-Benchmark und dem DreamGen-Robotik-Benchmark zeigen, dass der Executor den Demonstrator unter unserem VLM-basierten Evaluationsprotokoll übertrifft und sich konkurrenzfähig auf robotische Aufgaben übertragen lässt.

Durchbrechen der Blase: Asynchrones Pipeline-Parallel-Training mit beschränkter Gewichtsinistenz
Breaking the Bubble: Asynchronous Pipeline Parallel Training with Bounded Weight Inconsistency

Jun 5

ByItay Elam, Eliron Rahimi, Avi Mendelson, Chaim Baskin

Pipeline-Parallelismus ist für das Training großer neuronaler Netze unerlässlich, doch bestehende Scheduling-Strategien erfordern Kompromisse zwischen Durchsatz, Speicherbedarf und Optimierungskonsistenz. Synchrone Pipelines gewährleisten Konsistenz der Vorwärts-/Rückwärtsgewichte, leiden jedoch unter Leerlaufzeiten (Bubbles); asynchrone Pipelines beseitigen Bubbles, führen aber zu einer Verschiebung der Gewichtsversionen, was typischerweise Mechanismen zur Gewichtszwischenspeicherung (Weight Stashing), Vorhersage oder Korrektur erforderlich macht. Wir stellen PACI (Pipeline Asynchronous training with Controlled Inconsistency) vor, eine bubble-freie asynchrone Pipeline-Methode, die die Vorwärts-/Rückwärts-Versionsdrift ohne Weight Stashing, Vorhersage, zusätzliche Parameterkopien oder globale Synchronisation begrenzt. Die Kernidee besteht darin, lokale Gradientenakkumulation als Versionskontrollmechanismus zu nutzen: Indem die Entwicklung der Parameterversion im Verhältnis zur Pipeline-Verzögerung verlangsamt wird, begrenzt PACI die Anzahl der Optimierer-Updates, die ein Mikro-Batch durchläuft, während die Auslastung im stationären Zustand erhalten bleibt. Im Pretraining von GPT-ähnlichen Sprachmodellen erreicht PACI die Stabilität und finale Perplexität des synchronen 1F1B-Flush, behält den gleichen Spitzenspeicherbedarf bei, erzielt einen voll ausgelasteten Pipeline-Durchsatz und verbessert die Zeit bis zur Zielgenauigkeit um bis zu das 1,69-Fache im Vergleich zur schnellsten Flush-Baseline. Diese Ergebnisse zeigen, dass Vorwärts-/Rückwärts-Inkonsistenz nicht eliminiert werden muss: Wird sie explizit begrenzt, kann sie sicher gegen erhebliche Effizienzsteigerungen eingetauscht werden.

i1: Ein einfaches und vollständig offenes Rezept für leistungsstarke Text-zu-Bild-Modelle
i1: A Simple and Fully Open Recipe for Strong Text-to-Image Models

Jun 9

ByBoya Zeng, Tianze Luo, Shu Pu, Jucheng Shen, Taiming Lu, Gabriel Sarch, Zhuang Liu

Diffusionsmodelle haben konsequent Fortschritte in der Text-zu-Bild-Generierung vorangetrieben. Es ist jedoch schwierig, die jüngsten Fortschritte auf bestimmte Modellierungs- und Datenentscheidungen zurückzuführen: hochmoderne Open-Weight-Modelle bieten nur begrenzte Ablationen und legen ihre Trainingsdaten und vollständigen Trainingsdetails nicht offen. Die Forschungsgemeinschaft benötigt vollständig offene Modelle (Gewichte, Daten und Code) als Grundlage für weitere Forschung; dennoch bleiben bestehende vollständig offene Modelle in der Leistung deutlich hinter führenden Modellen zurück. In diesem Projekt führen wir eine systematische Untersuchung der Modellierungs- und Datendesignentscheidungen beim Training und der Inferenz von Text-zu-Bild-Diffusion mit über 300 kontrollierten Experimenten durch, die insgesamt über 700.000 TPU-v6e-Stunden umfassen. Unsere Experimente heben mehrere empirische Erkenntnisse (z. B. dass gleiche Gewichtung eine starke Standardeinstellung für das Mischen kuratierter Datensätze ist) und einfache Designentscheidungen (z. B. dass größere Text-Encoder-Adapter die Leistung mit minimalem zusätzlichem Parameteraufwand verbessern) für das Training leistungsstarker Modelle hervor. Geleitet von diesen Erkenntnissen trainieren wir i1, ein Text-zu-Bild-Diffusionsmodell mit 3 Milliarden Parametern, das ausschließlich öffentlich verfügbare Datensätze verwendet. i1 ist mit führenden Modellen auf fünf repräsentativen Benchmarks (GenEval, DPG, PRISM, CVTG-2K und LongText) konkurrenzfähig und übertrifft das beste bestehende vollständig offene Modell im Durchschnitt um 29,5 absolute Prozentpunkte. Wir stellen die i1-Checkpoints, den Trainings- und Inferenzcode sowie die Datenverarbeitungspipeline zur Verfügung. Zusammen legen unsere Ergebnisse und das i1-Rezept eine praktische Grundlage für zukünftige offene Forschung an Text-zu-Bild-Diffusionsmodellen. Unser Code ist verfügbar unter https://github.com/zlab-princeton/i1.

ReVision: Skalierung von Computernutzungsagenten durch temporale visuelle Redundanzreduktion
ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

Jun 5

ByAmirhossein Abaskohi, Yuhang He, Peter West, Giuseppe Carenini, Pranit Chawla, Vibhav Vineet

Computer-Nutzungs-Agenten (CNAs) stützen sich auf visuelle Beobachtungen grafischer Benutzeroberflächen, wobei jeder Screenshot in eine große Anzahl visueller Token kodiert wird. Mit zunehmender Länge der Interaktionstrajektorien steigen die Token-Kosten rapide an, was die Menge an Historie begrenzt, die unter festen Kontext- und Rechenbudgets integriert werden kann. Dies hat dazu geführt, dass die Nutzung von Historie im Gegensatz zu anderen Domänen keine oder nur sehr begrenzte Leistungsverbesserungen bringt. Wir beheben diese Ineffizienz durch die Einführung von ReVision, das verwendet wird, um multimodale Sprachmodelle auf Trajektorien zu trainieren, bei denen redundante visuelle Patches mithilfe eines gelernten Patch-Selektors entfernt werden, der Patch-Repräsentationen über aufeinanderfolgende Screenshots hinweg vergleicht, während die vom Modell benötigte räumliche Struktur erhalten bleibt. Über drei Benchmarks hinweg – OSWorld, WebTailBench und AgentNetBench – reduziert ReVision bei der Verarbeitung von Trajektorien mit 5 Historie-Screenshots unter Verwendung von Qwen2.5-VL-7B die Token-Nutzung im Durchschnitt um 46 %, während die Erfolgsrate gegenüber der Baseline ohne Verwerfung um 3 % gesteigert wird. Dies stellt einen klaren Effizienzgewinn dar, der es Agenten ermöglicht, längere Trajektorien mit weniger Token zu verarbeiten. Mit dieser verbesserten Effizienz betrachten wir die Rolle der Historie in CNAs neu und stellen fest, dass die Leistung weiter steigt, wenn bei Entfernung von Redundanz mehr vergangene Beobachtungen einbezogen werden.

POISE: Positionsbewusste, nicht erkennbare Fähigkeitsinjektion bei LLM-Agenten
POISE: Position-Aware Undetectable Skill Injection on LLM Agents

Jun 6

ByHaochang Hao, Dehai Min, Zhifang Zhang, Yunbei Zhang, Miao Xu, Yingqiang Ge, Lu Cheng

Agent-Fähigkeiten bieten einen leichten Mechanismus zur Erweiterung allgemeiner Agenten, aber ihr offenes Format macht sie anfällig für Skill-Poisoning-Angriffe. Ein praktisch gefährlicher Einschleusungsversuch muss unsichtbar bleiben: Wenn die Ausführung der Nutzlast die legitime Aufgabe des Nutzers zum Scheitern bringt, lädt das resultierende Fehlersignal zur Überprüfung des Skills ein. Wir bewerten Angriffe daher anhand der Angriffserfolgsrate, die erfordert, dass die eingeschleuste Nutzlast ausgeführt wird und die Benutzeraufgabe im selben Durchlauf dennoch ihren Verifizierer besteht. Bisherige Skill-Poisoning-Angriffe stehen unter dieser Betrachtungsweise vor einem Zielkonflikt zwischen Zuverlässigkeit und Tarnung: YAML-Header-Injektionen werden zuverlässig geladen, sind aber leicht zu inspizieren, während getarntere Body-Injektionen, die explizite bösartige Befehle im Skill-Text platzieren, weniger zuverlässig sind, da aus dem Kontext gerissene Befehle die Skepsis des Agenten wecken. Wir stellen POISE vor, einen positionsbewussten Angriff, der den Auslöser zu einer einzigen, harmlos erscheinenden Body-Anweisung komprimiert, diese an einer geeigneten Position platziert und einen kontextbewussten Generator nutzt, um sie mit nahegelegenen Setup- oder Voraussetzungsschritten zu verschmelzen. Auf Skill-Inject mit codex+gpt-5.2 erreicht POISE eine ASR von 89,3 %, 28,0 Prozentpunkte über einer zufällig platzierten Body-Baseline und 2,6 Prozentpunkte über einer reinen YAML-Baseline, während der Tarnungsvorteil der Body-Platzierung erhalten bleibt. Diese Tarnung ist der entscheidende Vorteil: Da legitime Skill-Bodies natürlicherweise privilegierte Tool-Operationen erfordern, sind LLM-Scanner überempfindlich und kennzeichnen im Durchschnitt über vier Bewerter und beide Benchmarks hinweg fälschlicherweise 74,6 % der sauberen Skills als verdächtig. POISE fügt sich in diese Fehlalarme ein und führt nur bei 5,6 % der vergifteten Varianten zu einer neuen Hochrisikowarnung gegenüber ihrer sauberen Baseline, was aktuelle statische Abwehrmaßnahmen unwirksam macht.

Zeitreihen-Grundlagenmodell-Einbettungen zur Schätzung der Restnutzungsdauer
Time-Series Foundation Model Embeddings for Remaining Useful Life Estimation

Jun 10

ByAmir El-Ghoussani, Michele De Vita, Ronald Naumann, Valiseios Belagiannis

Die Vorhersage der Restnutzungsdauer (RUL) ist für die industrielle vorausschauende Instandhaltung essenziell, doch viele lernbasierte Ansätze sind auf umfangreiches Feature-Engineering oder große, annotierte Datensätze angewiesen, um aufgabenspezifische Sequenzmodelle zu trainieren. In dieser Arbeit stellen wir einen leichtgewichtigen Lernansatz vor, bei dem wir ein eingefrorenes, vorab trainiertes Zeitreihen-Grundlagenmodell (TSFM) nutzen und es mit einem kleinen Regressionskopf zur RUL-Schätzung aus multivariaten Sensorströmen kombinieren. Konkret verwenden wir Chronos-2 als eingefrorenes Rückgrat, um Kontextfenster-Merkmale zu extrahieren, und trainieren ein leichtgewichtiges neuronales Regressionsnetzwerk für die RUL-Vorhersage. Experimente mit realen industriellen Sensordaten von zwei Gerätetypen zeigen, dass Chronos-2-Merkmale bei gleichem Vorverarbeitungs- und Bewertungsprotokoll durchgängig gegenüber rekursiven, konvolutionalen, Transformer-basierten und Gradienten-Boosting-Baselines verbessert werden. Darüber hinaus analysieren wir den Einfluss der Kontextlänge und stellen fest, dass die Leistung mit längeren Verläufen signifikant zunimmt – ein Hinweis darauf, dass TSFM-Repräsentationen eine praktische und dateneffiziente Alternative für die RUL-Schätzung in industriellen Umgebungen darstellen.

DRIFT: Ein Residual-Flow-Adapter zur Dekodierung kontinuierlicher Ausgaben in Bild-Text-Modellen
DRIFT: A Residual Flow Adapter for Decoding Continuous Outputs in Vision-Language Models

Jun 4

ByZhuoming Liu, Jinhong Lin, Kwan Man Cheng, Lin Zhang, Shayok Bagchi, Yin Li

Viele moderne Vision-Language-Modelle (VLMs) basieren auf autoregressiver Dekodierung diskreter Token. Während textbasierte Ausgabeschnittstellen skalierbares Vortraining und starke Zero-Shot-Generalisierung über verschiedene Aufgaben hinweg ermöglichen, sind sie schlecht für Probleme geeignet, die präzise kontinuierliche Ausgaben erfordern, wie z. B. die Lokalisierung zeitlicher Grenzen von Ereignissen oder die Erzeugung von Robotersteuerungsaktionen. Um dieser Herausforderung zu begegnen, schlagen wir DRIFT vor, ein allgemeines Framework zur Anpassung vortrainierter VLMs an kontinuierliche Dekodierungsaufgaben. DRIFT kombiniert einen Basisprädiktor, der eine grobe Schätzung der Zielausgabe liefert, mit einem generativen Verfeinerungsmodul auf Basis von Flow Matching, das die Vorhersage iterativ verbessert. Diese Residuenformulierung wandelt das generative Modellierungsproblem von der Erlernung einer globalen Ausgabeverteilung hin zur Modellierung einer lokalisierten Residuenverteilung um einen starken Prior um, was die Optimierung erheblich vereinfacht. Wir evaluieren DRIFT sowohl auf Wahrnehmungs- als auch auf Planungsaufgaben, einschließlich visuellem Grounding und Robotersteuerung. Über mehrere Aufgaben und Architekturen hinweg, die MLLMs, VLAs und WAMs umfassen, übertrifft DRIFT durchgängig eine starke Menge von regressions- und generativebasierten Lösungen.

Feintuning multimodaler LLMs mit ART: Kunstbasiertes Verstärkungstraining
Fine-tuning Multi-modal LLMs with ART: Art-based Reinforcement Training

Jun 10

ByMichal Chudoba, Sergey Alyaev, Petra Galuscakova, Tomasz Wiktorski

Es gibt zwei hauptsächliche Techniken des parametereffizienten Feintunings (PEFT) für große Sprachmodelle (LLMs). Während die Niedrigrangige Adaption (Low-Rank Adaptation, LoRA) zusätzliche Gewichte zwischen den LLM-Schichten einführt, führt das weiche Prompting (Soft Prompting) zusätzliche feintuningspezifische Roh-Token in die Eingabe eines LLMs ein. Beide erfordern jedoch eine Modifikation der Berechnungsgraphen vorkompilierter, voroptimierter LLMs. Daher wird keine der beiden in Hochdurchsatz-Engines wie vLLM vollständig unterstützt. Wir schlagen Feintuning mittels ART (kunstbasiertes Verstärkungstraining) vor. Die Methode injiziert Informationen in ein eingefrorenes multimodales Großsprachmodell (MLLM), indem sie nur dessen rohe visuelle Eingabe optimiert, und ermöglicht so den Soft-Token-Ansatz auf vorkompilierten Berechnungsgraphen. Sie basiert auf der Rückpropagierung von Gradienten zurück in ein einfaches Pixelarray und unterstützt somit jedes Feintuning-Ziel. Darüber hinaus kann die optimierte visuelle Eingabe als aufgabenrelevante Computerkunstwerke stilisiert werden. Die Wirksamkeit des Ansatzes wird für verschiedene Größen einer populären offenen Qwen-Architektur sowie für mehrere textbasierte Benchmarks bestätigt. Insbesondere erreicht ART eine Genauigkeit, die mit LoRA bei Mathematik- und strukturierten Werkzeugnutzungs-Benchmarks konkurrieren kann.

Große Sprachmodelle sind übermäßig selbstsicher in ihren eigenen Antworten.
Large Language Models Are Overconfident in Their Own Responses

Jun 2

ByMario Sanz-Guerrero, Manuel Mager, Katharina von der Wense

Frühere Arbeiten haben gezeigt, dass instruktionsabgestimmte große Sprachmodelle (Large Language Models, LLMs) weniger gut kalibriert sind als ihre zugrunde liegenden vortrainierten Pendants. Über den Effekt der häufig verwendeten Chat-Vorlage auf die Kalibrierung von konversationellen LLMs ist jedoch wenig bekannt. In dieser Arbeit untersuchen wir die Mechanismen, die zu dieser Fehlkalibrierung führen, indem wir die Effekte des Nachtrainingsalgorithmus und des Chat-Formats entkoppeln. Wir stellen fest, dass Instruktionsabstimmung zwar grundlegend die Kalibrierung beeinträchtigt, die Chat-Vorlage das Problem jedoch durch einen „Besitzer-Bias“ verschärft – Modelle sind deutlich überzeugter von ihren eigenen Antworten als von identischen Antworten, die von einem Benutzer stammen. Umfangreiche Experimente mit sechs aktuellen Open-Weight-LLMs, drei Benchmark-Datensätzen und drei Methoden zur Ermittlung der Konfidenz zeigen, dass Modelle ihren eigenen Antworten bis zu 26 % höhere Konfidenz zuweisen. Aufbauend auf dieser Erkenntnis schlagen wir eine einfache Inferenzzeit-Strategie vor: die Antwort des Modells während der Konfidenzermittlung als Benutzereingabe zu rahmen. Dieser Ansatz reduziert Überkonfidenz signifikant und verbessert die Kalibrierung um bis zu 26 %, ohne dass ein Nachtraining erforderlich ist, und verringert so die Kluft zwischen Basis- und instruktionsabgestimmten Modellen.

Lius: Instruktive Linguistik basierend auf einem Übersetzungsmodell mittels kontinuierlicher Instruktionsoptimierung im Kupang-Malaiischen
Lius: Translation Model Based Instructional Lingustic Using Continual Instruction Tuning In Kupang Malay

Jun 10

ByJoanito Agili Lopo, Yunita Sari, Guntur Budi Herwanto

Große Sprachmodelle (Large Language Models, LLMs) bieten neues Potenzial für Übersetzungsaufgaben, zeigen jedoch häufig Leistungseinbußen bei der Verarbeitung ressourcenarmer Sprachen. Um diese Einschränkung zu adressieren, schlagen wir einen Ansatz zur Feinabstimmung von LLMs auf eine ressourcenarme Sprache, Kupang-Malaiisch, vor. Unser Ansatz umfasst die Entwicklung eines Satzes von Instruktionen unter Nutzung expliziter lexikalischer und semantischer Merkmale aus einem zweisprachigen Wörterbuch sowie die Einführung des Kontinuierlichen Instruktionstunings (Continual Instruction Tuning, CIT), eines Trainingsparadigmas, das iteratives instrukationsbasiertes Training ermöglicht. Experimentelle Ergebnisse zeigen, dass unser Modell namens Lius im Vergleich zu standardmäßig instrukationstunierten Modellen bemerkenswerte Verbesserungen erzielt, indem es diese um 4-6 Punkte übertrifft und sowohl neuronale Maschinenübersetzungsmodelle (Neural Machine Translation, NMT) als auch mehrsprachige LLM-Modelle um 10-13 Punkte bei mehreren Evaluierungsmetriken übertrifft. Diese Ergebnisse unterstreichen das Potenzial unseres Ansatzes, die Abhängigkeit von groß angelegten parallelen Daten in der Übersetzung ressourcenarmer Sprachen zu verringern.

Adaptive Multi-Auflösungs-Kompression von prozeduralem Wissen für große Sprachmodelle
Adaptive Multi-Resolution Procedural Knowledge Compression for Large Language Models

Jun 10

ByChangyue Wang, Weihang Su, Qingyao Ai, Yichen Tang, Runzhong Qiao, Xuancheng Li, Min Zhang, Yiqun Liu

Große Sprachmodelle (Large Language Models, LLMs) werden häufig eingesetzt, um komplexe Aufgaben mit autonomen Arbeitsabläufen zu bewältigen. In letzter Zeit haben sich wiederverwendbare Fähigkeiten in natürlicher Sprache als ein verbreitetes Paradigma etabliert, um prozedurales Wissen in LLM-Anwendungen einzubringen. Da populäre Fähigkeiten oft wiederholt aufgerufen werden, erhöht das Einfügen ihres vollständigen Textes in jeden Kontext die Prefill-Kosten und die Latenz erheblich. Während Textkomprimierungstechniken das Potenzial haben, dieses Problem zu lösen, sind die meisten vorhandenen Methoden darauf ausgelegt, Faktenwissen in Dokumenten zu komprimieren, nicht jedoch prozedurales Wissen, was sie für die Komprimierung von Fähigkeiten unzureichend macht. In diesem Artikel argumentieren wir, dass eine effektive Methode zur Fähigkeitenkomprimierung folgende Anforderungen erfüllen sollte: 1) die logischen Abhängigkeiten zwischen Arbeitsabläufen und Werkzeugprotokollen bewahren, 2) eine leichte, offline-Komprimierung für häufig aktualisierte Community-Fähigkeiten ermöglichen und 3) an unterschiedliche Komplexitäten von Fähigkeiten anpassbar sein. Um dies zu adressieren, stellen wir SKIM (SKIll coMpression) vor, ein adaptives Multi-Resolution-Soft-Token-Komprimierungsframework für prozedurale Fähigkeiten. Abhängig von der Komplexität jeder Fähigkeit erzeugt SKIM unterschiedliche Anzahlen von Soft-Tokens, die nicht nur die Effizienz der LLM-Inferenz verbessern, sondern auch die Wirksamkeit der Fähigkeitsnutzung bewahren. Experimente zeigen, dass SKIM Fähigkeiten auf 30 bis 60 Prozent ihrer ursprünglichen Tokenlänge komprimiert und dabei die Aufgabenleistung besser bewahrt als bestehende Komprimierungsmethoden. Wir haben unseren Code unter https://github.com/bebr2/SKIM veröffentlicht.

Aufbau sozialer Weltmodelle mit großen Sprachmodellen
Building Social World Models with Large Language Models

Jun 9

ByHaofei Yu, Yining Zhao, Guanyu Lin, Jiaxuan You

Das Verständnis und die Vorhersage, wie sich soziale Überzeugungen als Reaktion auf Ereignisse – von politischen Veränderungen bis hin zu wissenschaftlichen Durchbrüchen – entwickeln, bleibt eine grundlegende Herausforderung in den Sozialwissenschaften. Angesichts des allgemeinen Wissens und der sozialen Intelligenz von LLMs stellen wir die Frage: Können LLMs die Dynamik sozialer Überzeugungen nach sozialen Ereignissen modellieren? In dieser Arbeit führen wir das Konzept des Social World Model (SWM) ein, ein allgemeines Rahmenwerk, das erfassen soll, wie sich soziale Überzeugungen als Reaktion auf bedeutende Ereignisse entwickeln. SWM lernt Zustandsübergangsfunktionen für soziale Überzeugungen, indem es zeitliche Muster in sozialen Daten extrahiert und die untere Evidenzschranke optimiert – ohne die Notwendigkeit expliziter menschlicher Annotationen, die Ereignisse mit Überzeugungsänderungen verknüpfen, oder teurer Zensusdaten. Zur Evaluierung von SWM führen wir einen Benchmark, SWM-bench, ein, der auf realen Prognosemärkten basiert, konkret Kalshi und Polymarket. SWM-bench umfasst über 12.000 Datenpunkte für Aufgaben zur Vorhersage sozialer Überzeugungen in verschiedenen Bereichen wie Politik, Finanzen und Kryptowährung. Unsere experimentellen Ergebnisse zeigen, dass SWM Zeitreihen-Basismodelle deutlich übertrifft, auf Kalshi-Daten dem Stand der Technik entspricht und auf Polymarket-Daten wettbewerbsfähige Leistung erbringt, während es interpretierbare Einblicke in die zugrundeliegenden Mechanismen der Dynamik sozialer Überzeugungen bietet.

Zur vielfältigen wissenschaftlichen Hypothesensuche mit großen Sprachmodellen
Towards Diverse Scientific Hypothesis Search with Large Language Models

Jun 9

ByHaorui Wang, Parshin Shojaee, Kazem Meidani, Kunyang Sun, José Miguel Hernández-Lobato, Teresa Head-Gordon, Jiajun He, Chandan K. Reddy, Chao Zhang, Yuanqi Du

Große Sprachmodelle (LLMs) werden zunehmend zur Beschleunigung wissenschaftlicher Entdeckungen eingesetzt, zuletzt bei anspruchsvollen Aufgaben wie der Generierung valider wissenschaftlicher Hypothesen. In vielen Entdeckungsszenarien besteht das Ziel jedoch nicht darin, eine einzelne beste Hypothese zu identifizieren, da die Validierung verrauscht und teuer sein kann und Wissenschaftler von einem Satz hochwertiger Alternativhypothesen profitieren, die gegen nachgelagerte Unsicherheiten bei den besten Lösungen absichern. Dennoch neigen häufig verwendete evolutionäre Suchrezepte dazu, in der Hypothesengenerierung Optimierung über Exploration zu priorisieren, und der resultierende Selektionsdruck während des Suchprozesses führt zu einem Diversitätskollaps. Motiviert durch diese Einschränkungen formulieren wir die Hypothesensuche als ein Stichprobenproblem, bei dem das Ziel darin besteht, unter einem festen Validierungsbudget effizient vielfältige, qualitativ hochwertige Hypothesen zu erzeugen. Aufbauend auf dieser Perspektive schlagen wir \ours vor, ein evolutionäres Framework, das vom klassischen Parallel-Tempering-Algorithmus inspiriert ist, Hypothesen auf mehreren Temperaturniveaus durchsucht und einen prinzipienbasierten Informationsaustausch zwischen den Temperaturen ermöglicht, um die Exploration zu verbessern, ohne die Konvergenz zu stören. In Bereichen wie der Molekularentdeckung, der Gleichungsentdeckung und der Algorithmenentdeckung verbessert unser Ansatz durchgängig sowohl die Hypothesenqualität als auch die Diversität bei gleichem Validierungsbudget und erzeugt Kandidaten, die auch bei aufwändigeren nachgelagerten computergestützten Validierungen robust bleiben.

APEX: Ein netzwerknatives Zeitreihen-Basismodell zur Prognose und Anomalieerkennung für drahtlose Edge-Operationen
APEX: A Network-Native Time-Series Foundation Model for Forecasting and Anomaly Detection for Wireless Edge Operations

Jun 10

BySwadhin Pradhan, Niloo Bahadori, Peiman Amini

Allgemeine grundlegende Zeitreihenmodelle übertragen sich nur schlecht auf Telemetriedaten drahtloser Netzwerke, deren Signale stoßartig, null-inflatiert und schichtübergreifend gekoppelt sind. Wir stellen APEX vor, einen netzwerknativen Decoder-Transformer zur Prognose von Unternehmens-AP-Telemetrie, und evaluieren ihn anhand der DHCP-Verschlechterung als repräsentativer Netzwerkaufgabe. APEX wird auf 10-kanaliger multivariater Telemetrie von ca. 4.500 produktiven WLAN-Netzwerken (ca. 100.000 AP-Zeitreihen, 34 Metriken pro AP) vortrainiert und ist als APEX-Large (269 M Parameter, Cloud) und APEX-Edge (10,5 M Parameter, Edge) verfügbar. Auf einem 192-Schritte (4-Tage)-Benchmark zur DHCP-Verschlechterung reduziert APEX-Large den MAE um 18 % gegenüber der stärksten Foundation-Modell-Baseline (Toto) und um 38 % gegenüber SARIMA, bei einem F1-Wert von 0,93 für die Anomalieerkennung, während APEX-Edge eine subsekundige, datenschutzschützende Inferenz auf AP-ähnlicher Edge-Hardware ermöglicht. Diese Ergebnisse deuten darauf hin, dass netzwerknatives Vortraining eine praktikable Grundlage für proaktiven drahtlosen Betrieb darstellt.

τ-Rec: Ein verifizierbarer Benchmark für agentische Empfehlungssysteme
τ-Rec: A Verifiable Benchmark for Agentic Recommender Systems

Jun 8

ByBharath Sivaram Narasimhan, Karthik R Narasimhan

Während sich Recommender-Systeme hin zu agentischen, mehrschrittigen dialogischen Schnittstellen entwickeln, haben Evaluationsparadigmen nur schwer Schritt gehalten. Aktuelle Benchmarks stützen sich oft auf „LLM-als-Richter“-Evaluationen, die Subjektivität, hohe Kosten und Inkonsistenz mit sich bringen. Wir stellen τ-Rec vor, einen Benchmark für agentische Recommender-Systeme, der subjektive Evaluation durch überprüfbare Belohnungen und einen offenlegungsmarkierten Elizitationsmechanismus (RTE) ersetzt, der kontrolliert, wie Aufgabenbeschränkungen im Dialog sichtbar werden. Indem Agenten anhand strukturierter Katalogprädikate getestet werden und eine Pass^k-Zuverlässigkeitsmetrik verwendet wird, bietet τ-Rec einen systematischen Test für konsistentes Schlussfolgern. Unsere Evaluation von neun Konfigurationen über fünf Modellfamilien hinweg – GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B und GPT-5 mini – offenbart eine steile Zuverlässigkeitsklippe, bei der selbst das beste Modell nur etwa 57 % bei Pass^1 und etwa 38 % bei Pass^4 erreicht, was eine kritische Lücke im aktuellen Einsatz dialogischer Agenten aufzeigt. Der gesamte Code und alle Daten sind öffentlich zugänglich unter https://github.com/nbharaths/tau-rec.

Können Generalisten-Agenten die Datenkuratierung automatisieren?
Can Generalist Agents Automate Data Curation?

Jun 2

ByFeiyang Kang, Hanze Li, Adam Nguyen, Mahavir Dabas, Jiaqi W. Ma, Frederic Sala, Dawn Song, Ruoxi Jia

Die Kuratierung von Trainingsdaten gehört zu den folgenreichsten, aber auch arbeitsintensivsten Teilen der modernen KI-Entwicklung: Praktiker iterieren wiederholt, indem sie Datenrichtlinien vorschlagen, umsetzen, evaluieren und auf der Grundlage verrauschter Benchmark-Rückmeldungen überarbeiten. Wir untersuchen, ob universelle Codierungsagenten diese Datakurierungsschleife automatisieren können. Wir führen *Curation-Bench* ein, einen agentenzentrierten Benchmark, der das Modell, das Training-Rezept und die Evaluationssuite festlegt, während Agenten Kommandozeilenzugriff erhalten, um Daten zu inspizieren, Richtlinien umzusetzen, sie an eine festgelegte Trainings-/Evaluationspipeline zu übermitteln und zu überarbeiten. In einer Instanz des Instruktions-Tunings für Vision und Sprache erreichen unveränderte Agenten innerhalb von zehn Iterationen starke publizierte Datenauswahl-Basislinien. Die Analyse der Trajektorien offenbart jedoch eine anhaltende *Ausführungs-Forschungslücke*: Agenten stimmen hauptsächlich lokale Policy-Varianten ab, anstatt neue Policy-Familien zu erkunden – selbst wenn sie Strategieanleitungen und Paper-Referenzen erhalten. Gestelle, die von jeder Iteration verlangen, eine frühere Methode zu zitieren, zu instantiieren und anzupassen, verlagern Agenten hin zu methodengeleiteter Erkundung. Der gestützte Agent setzt – ohne menschlichen Design-Input – eigenständig eine Datenauswahl-Policy zusammen, die starke publizierte Basislinien bei einem Zehntel ihres Datenbudgets übertrifft. Insgesamt können aktuelle Agenten die Kurierungsschleife betreiben, aber zuverlässige Datenforschung erfordert gestützte Methodenanpassung, nicht nur offene Aufforderungen allein. Code und Benchmark sind als Open Source verfügbar.

Destillation von LLM-Feedback für das Theorembeweisen mit Lean
Distilling LLM Feedback for Lean Theorem Proving

May 29

ByGaetan Narozniak, Gérard Biau, Rémi Munos, Ahmad Rammal, Pierre Marion

Das Nachtraining für Modelle für logisches Schließen kombiniert typischerweise überwachtes Feintuning mit bestärkendem Lernen mit verifizierbaren Belohnungen, am häufigsten mit GRPO. Allerdings leidet dieser Algorithmus unter spärlichen Belohnungen, eingeschränkter Exploration und Modenkollaps. Aufbauend auf aktuellen Arbeiten zur Selbst-Destillation schlagen wir Feedback-Destillation vor, eine Trainingsmethode, bei der das Modell auf Tokenebene trainiert wird, seine eigene, durch privilegiertes Feedback eines Sprachmodells konditionierte Verteilung nachzubilden. Feedback-Destillation bietet Überwachung auf Tokenebene und kann externes Wissen einbringen. Bei der Evaluierung unserer Methode für Lean4-Theorembeweise stellen wir fest, dass Feedback-Destillation eine größere Vielfalt in generierten Trajektorien beibehält als GRPO, was zu einer höheren Policy-Entropie und besserem pass@k-Scaling führt. Die beiden Methoden sind komplementär: das Initialisieren von GRPO mit einem Feedback-Destillation-Checkpoint übertrifft jede der beiden Methoden einzeln. Alles in allem deuten unsere Ergebnisse auf einen vielversprechenden Weg hin, das Nachtraining für komplexes logisches Schließen zu verbessern.

FlowLet: Bedingte 3D-Gehirn-MRT-Synthese mittels Wavelet Flow Matching
FlowLet: Conditional 3D Brain MRI Synthesis using Wavelet Flow Matching

Jun 8

ByDanilo Danese, Angela Lombardi, Matteo Attimonelli, Giuseppe Fasano, Tommaso Di Noia

Die Magnetresonanztomographie (MRT) des Gehirns spielt eine zentrale Rolle bei der Untersuchung der neurologischen Entwicklung, des Alterns und von Krankheiten. Eine wichtige Anwendung ist die Vorhersage des Hirnalters (Brain Age Prediction, BAP), bei der anhand von MRT-Daten das biologische Hirnalter einer Person geschätzt wird. Effektive BAP-Modelle erfordern große, diverse und altersausgewogene Datensätze, während bestehende 3D-MRT-Datensätze demografisch verzerrt sind, was Fairness und Generalisierbarkeit einschränkt. Die Erhebung neuer Daten ist kostspielig und ethisch limitiert, was generative Datenaugmentation motiviert. Aktuelle generative Methoden basieren oft auf latenten Diffusionsmodellen, die in erlernten niedrigdimensionalen latenten Räumen arbeiten, um den Speicherbedarf volumetrischer MRT-Daten zu bewältigen. Diese Methoden sind jedoch meist rechenintensiv bei der Inferenz, können aufgrund latenter Kompression Artefakte einführen und werden selten auf das Alter konditioniert, was die BAP-Leistung beeinträchtigt. In dieser Arbeit schlagen wir FlowLet vor, ein konditioniertes generatives Framework, das alterskonditionierte 3D-MRTs synthetisiert, indem es Flussabgleich (Flow Matching) in einer invertierbaren 3D-Wavelet-Domäne nutzt, was Rekonstruktionsartefakte vermeidet und den Rechenaufwand reduziert. Experimente zeigen, dass FlowLet mit wenigen Abtastschritten hochtreue Volumina erzeugt. Das Training von BAP-Modellen mit von FlowLet generierten Daten verbessert die Leistung für unterrepräsentierte Altersgruppen, und eine regionsbasierte Analyse bestätigt die Erhaltung anatomischer Strukturen.

Auf welchen Modellen basieren unsere Modelle? Eine Prüfung unsichtbarer Abhängigkeiten in modernen LLMs
Which Models Are Our Models Built On? Auditing Invisible Dependencies in Modern LLMs

Jun 10

BySanjay Adhikesaven, Haoxiang Sun, Sewon Min

Moderne LLM-Trainingspipelines verlassen sich zunehmend auf andere Modelle, um Daten zu generieren, Korpora zu filtern, Ausgaben zu bewerten und Entwicklungsentscheidungen zu leiten. Diese Abhängigkeiten sind rekursiv: Ein Modell kann von einem vorgelagerten Artefakt abhängen, dessen eigene Abhängigkeiten nur in separaten Releases und Artefakten dokumentiert sind. Infolgedessen ist die vollständige Abhängigkeitsstruktur über heterogene öffentliche Artefakte fragmentiert, wobei Komplexität und rekursive Tiefe die Fähigkeit des Menschen, diese nachzuverfolgen, bei Weitem übersteigen. Wir stellen ModSleuth vor, ein agentisches System, das LLM-Abhängigkeitsgraphen aus öffentlichen Artefakten rekursiv mit quellengestützten Belegen rekonstruiert. Wir stellen fest, dass die größte Herausforderung nicht mehr die Informationsextraktion ist, sondern die Definition, was eine Abhängigkeit darstellt, und die Abstimmung von Artefaktverweisen über inkonsistente Dokumentationen hinweg. Wir begegnen diesen Herausforderungen durch eine Formalisierung, die direkte und indirekte Abhängigkeiten unterscheidet, heterogene Pipeline-Rollen durch operationszentrierte Beziehungen darstellt und Artefaktidentitäten über Namen, Versionen und Repositorien hinweg auflöst. Durch die Anwendung von ModSleuth auf vier an öffentlichen Artefakten reiche LLM-Veröffentlichungen erfassen wir 1.060 quellgeprüfte Abhängigkeiten und konstruieren großangelegte Abhängigkeitsgraphen der modernen LLM-Entwicklung. Diese Graphen offenbaren mehrstufige Lizenzverpflichtungen, Trainings-Evaluations-Kopplungen, Diskrepanzen zwischen veröffentlichten und während des Trainings verwendeten Artefakten sowie Dokumentationsinkonsistenzen, die andernfalls schwer aufzudecken wären. Wir veröffentlichen ModSleuth und die resultierenden Abhängigkeitsgraphen, um eine transparente Analyse der zunehmend komplexen Ökosysteme zu unterstützen, die modernen LLMs zugrunde liegen.

SparDA: Sparse entkoppelte Aufmerksamkeit für effiziente LLM-Inferenz mit langem Kontext
SparDA: Sparse Decoupled Attention for Efficient Long-Context LLM Inference

Jun 3

ByYaosheng Fu, Guangxuan Xiao, Xin Dong, Song Han, Oreste Villa

Sparse Attention reduziert Rechenaufwand und Speicherbandbreite bei der Inferenz von LLMs mit langen Kontexten. Es bleiben jedoch zwei zentrale Herausforderungen bestehen: (1) Die KV-Cache-Kapazität wächst weiterhin mit der Sequenzlänge, und das Auslagern auf die CPU führt zu einem PCIe-Transfer-Engpass; (2) der Sparse-Selektionsschritt selbst behält eine O(T²)-Komplexität und kann bei langen Kontexten den dominierenden Kostenfaktor der Attention darstellen. Wir schlagen SparDA vor, eine entkoppelte Sparse-Attention-Architektur, die eine vierte schichtweise Projektion, den Forecast, neben Query, Key und Value einführt. Der Forecast prognostiziert die KV-Blöcke, die von der nächsten Schicht benötigt werden, und ermöglicht so eine vorausschauende Selektion, die das CPU-zu-GPU-Prefetch mit der Ausführung der aktuellen Schicht überlappt. Da der Forecast von der Attention-Query entkoppelt ist, verwendet unsere GQA-Implementierung einen Forecast-Kopf pro GQA-Gruppe, was den Selektionsaufwand im Vergleich zum ursprünglichen Multi-Head-Selektor reduziert. SparDA fügt weniger als 0,5 % Parameter hinzu und trainiert nur die Forecast-Projektionen, indem es die Aufmerksamkeitsverteilung des ursprünglichen Selektors nachahmt. Auf zwei sparse-vortrainierten 8B-Modellen erreicht SparDA eine vergleichbare oder leicht verbesserte Genauigkeit und erzielt bis zu 1,25-fachen Prefill-Speedup sowie 1,7-fachen Decode-Speedup gegenüber der Sparse-Attention-Offload-Baseline. Durch die Ermöglichung größerer nutzbarer Batch-Größen auf einer einzelnen GPU erreicht SparDA zudem einen bis zu 5,3-fach höheren Decode-Durchsatz als die Sparse-Baseline ohne Offload. Unser Quellcode ist verfügbar unter https://github.com/NVlabs/SparDA.