HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

48 papers found

Schritt 3.5 Flash: Eröffnung von Grenzbereich-Intelligenz mit 11 Milliarden aktiven Parametern
Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

Feb 11

ByAilin Huang, Ang Li, Aobo Kong, Bin Wang, Binxing Jiao, Bo Dong, Bojun Wang, Boyu Chen, Brian Li, Buyun Ma, Chang Su, Changxin Miao, Changyi Wan, Chao Lou, Chen Hu, Chen Xu, Chenfeng Yu, Chengting Feng, Chengyuan Yao, Chunrui Han, Dan Ma, Dapeng Shi, Daxin Jiang, Dehua Ma, Deshan Sun, Di Qi, Enle Liu, Fajie Zhang, Fanqi Wan, Guanzhe Huang, Gulin Yan, Guoliang Cao, Guopeng Li, Han Cheng, Hangyu Guo, Hanshan Zhang, Hao Nie, Haonan Jia, Haoran Lv, Hebin Zhou, Hekun Lv, Heng Wang, Heung-Yeung Shum, Hongbo Huang, Hongbo Peng, Hongyu Zhou, Hongyuan Wang, Houyong Chen, Huangxi Zhu, Huimin Wu, Huiyong Guo, Jia Wang, Jian Zhou, Jianjian Sun, Jiaoren Wu, Jiaran Zhang, Jiashu Lv, Jiashuo Liu, Jiayi Fu, Jiayu Liu, Jie Cheng, Jie Luo, Jie Yang, Jie Zhou, Jieyi Hou, Jing Bai, Jingcheng Hu, Jingjing Xie, Jingwei Wu, Jingyang Zhang, Jishi Zhou, Junfeng Liu, Junzhe Lin, Ka Man Lo, Kai Liang, Kaibo Liu, Kaijun Tan, Kaiwen Yan, Kaixiang Li, Kang An, Kangheng Lin, Lei Yang, Liang Lv, Liang Zhao, Liangyu Chen, Lieyu Shi, Liguo Tan, Lin Lin, Lina Chen, Luck Ma, Mengqiang Ren, Michael Li, Ming Li, Mingliang Li, Mingming Zhang, Mingrui Chen, Mitt Huang, Na Wang, Peng Liu, Qi Han, Qian Zhao, Qinglin He, Qinxin Du, Qiuping Wu, Quan Sun, Rongqiu Yang, Ruihang Miao, Ruixin Han, Ruosi Wan, Ruyan Guo, Shan Wang, Shaoliang Pang, Shaowen Yang, Shengjie Fan, Shijie Shang, Shiliang Yang, Shiwei Li, Shuangshuang Tian, Siqi Liu, Siye Wu, Siyu Chen, Song Yuan, Tiancheng Cao, Tianchi Yue, Tianhao Cheng, Tianning Li, Tingdan Luo, Wang You, Wei Ji, Wei Yuan, Wei Zhang, Weibo Wu, Weihao Xie, Wen Sun, Wenjin Deng, Wenzhen Zheng, Wuxun Xie, Xiangfeng Wang, Xiangwen Kong, Xiangyu Liu, Xiangyu Zhang, Xiaobo Yang, Xiaojia Liu, Xiaolan Yuan, Xiaoran Jiao, Xiaoxiao Ren, Xiaoyun Zhang, Xin Li, Xin Liu, Xin Wu, Xing Chen, Xingping Yang, Xinran Wang, Xu Zhao, Xuan He, Xuanti Feng, Xuedan Cai, Xuqiang Zhou, Yanbo Yu, Yang Li, Yang Xu, Yanlin Lai, Yanming Xu, Yaoyu Wang, Yeqing Shen, Yibo Zhu, Yichen Lv, Yicheng Cao, Yifeng Gong, Yijing Yang, Yikun Yang, Yin Zhao, Yingxiu Zhao, Yinmin Zhang, Yitong Zhang, Yixuan Zhang, Yiyang Chen, Yongchi Zhao, Yongshen Long, Yongyao Wang, Yousong Guan, Yu Zhou, Yuang Peng, Yuanhao Ding, Yuantao Fan, Yuanzhen Yang, Yuchu Luo, Yudi Zhao, Yue Peng, Yueqiang Lin, Yufan Lu, Yuling Zhao, Yunzhou Ju, Yurong Zhang, Yusheng Li, Yuxiang Yang, Yuyang Chen, Yuzhu Cai, Zejia Weng, Zetao Hong, Zexi Li, Zhe Xie, Zheng Ge, Zheng Gong, Zheng Zeng, Zhenyi Lu, Zhewei Huang, Zhichao Chang, Zhiguo Huang, Zhiheng Hu, Zidong Yang, Zili Wang, Ziqi Ren, Zixin Zhang, Zixuan Wang

189

Wir stellen Step 3.5 Flash vor, ein sparsames Mixture-of-Experts (MoE)-Modell, das agentenbasierte Spitzenintelligenz mit Recheneffizienz verbindet. Unser Fokus liegt auf dem, was beim Aufbau von Agenten am wichtigsten ist: präzises logisches Denken sowie schnelle und zuverlässige Ausführung. Step 3.5 Flash kombiniert eine 196B-Parameter-Basis mit 11B aktiven Parametern für effiziente Inferenz. Es wurde durch verschachtelte 3:1 Sliding-Window/Full-Attention und Multi-Token-Prediction (MTP-3) optimiert, um die Latenz und Kosten mehrstufiger Agenteninteraktionen zu reduzieren. Um Spitzenintelligenz zu erreichen, haben wir ein skalierbares Reinforcement-Learning-Framework entwickelt, das verifizierbare Signale mit Präferenzfeedback kombiniert und dabei auch bei groß angelegtem Off-Policy-Training stabil bleibt, wodurch eine konsistente Selbstverbesserung in Mathematik, Code und Werkzeugnutzung ermöglicht wird. Step 3.5 Flash zeigt starke Leistungen in Agenten-, Programmier- und Mathematikaufgaben und erzielt 85,4 % auf IMO-AnswerBench, 86,4 % auf LiveCodeBench-v6 (2024.08-2025.05), 88,2 % auf tau2-Bench, 69,0 % auf BrowseComp (mit Kontextmanagement) und 51,0 % auf Terminal-Bench 2.0 – vergleichbar mit Spitzenmodellen wie GPT-5.2 xHigh und Gemini 3.0 Pro. Durch die Neudefinition der Effizienzgrenze bietet Step 3.5 Flash eine hochverdichtete Grundlage für den Einsatz anspruchsvoller Agenten in realen industriellen Umgebungen.

VidVec: Freischaltung von Video-MLLM-Embeddings für die Video-Text-Retrieval
VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval

Feb 8

ByIssar Tzachor, Dvir Samuel, Rami Ben-Ari

122

Aktuelle Studien haben generative multimodale Large Language Models (MLLMs) zu Embedding-Extraktoren für Vision-Aufgaben adaptiert, typischerweise durch Fine-Tuning, um universelle Repräsentationen zu erzeugen. Ihre Leistung bei Videos bleibt jedoch hinter der von Video Foundation Models (VFMs) zurück. In diesem Beitrag konzentrieren wir uns darauf, MLLMs für Video-Text-Embeddings und -Retrieval zu nutzen. Wir führen zunächst eine systematische schichtweise Analyse durch, die zeigt, dass intermediate (vorab trainierte) MLLM-Schichten bereits substantiale aufgabenrelevante Informationen kodieren. Gestützt auf diese Erkenntnis demonstrieren wir, dass die Kombination von Embeddings aus Zwischenschichten mit einem kalibrierten MLLM-Head starke Zero-Shot-Retrieval-Leistung ohne jegliches Training erzielt. Aufbauend auf diesen Ergebnissen führen wir eine leichtgewichtige textbasierte Alignment-Strategie ein, die dichte Videobeschreibungen auf kurze Zusammenfassungen abbildet und das Lernen aufgabenbezogener Video-Text-Embeddings ohne visuelle Supervision ermöglicht. Bemerkenswerterweise übertrifft unsere Methode ohne jegliches Fine-Tuning über Text hinaus aktuelle Verfahren, oft mit erheblichem Abstand, und erzielt state-of-the-art Ergebnisse in gängigen Video-Retrieval-Benchmarks.

GENIUS: Generative Fluid Intelligence Evaluation Suite
GENIUS: Generative Fluid Intelligence Evaluation Suite

Feb 11

ByRuichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen, Haodong Li, Renrui Zhang, Xinyu Wei, Guopeng Li, Wenshan Wu, Wentao Zhang

Einheitliche multimodale Modelle (UMMs) haben bemerkenswerte Fortschritte in der visuellen Generierung gezeigt. Bisherige Benchmarks bewerten jedoch überwiegend kristallisierte Intelligenz, die auf dem Abruf von angesammeltem Wissen und erlernten Schemata basiert. Dieser Fokus übersieht generative fluide Intelligenz (GFI): die Fähigkeit, Muster zu induzieren, durch Restriktionen zu schlussfolgern und sich spontan an neue Szenarien anzupassen. Um diese Fähigkeit rigoros zu bewerten, führen wir GENIUS (GEN Fluid Intelligence EvalUation Suite) ein. Wir formalisieren GFI als eine Synthese aus drei Grundfähigkeiten. Diese umfassen das Induzieren impliziter Muster (z.B. das Erschließen personalisierter visueller Präferenzen), das Ausführen ad-hoc-Restriktionen (z.B. die Visualisierung abstrakter Metaphern) und die Anpassung an kontextuelles Wissen (z.B. die Simulation kontraintuitiver Physik). Gemeinsam fordern diese Grundfähigkeiten Modelle heraus, Probleme zu lösen, die vollständig im unmittelbaren Kontext verankert sind. Unsere systematische Evaluation von 12 repräsentativen Modellen zeigt erhebliche Leistungsdefizite bei diesen Aufgaben. Entscheidend ist, dass unsere diagnostische Analyse diese Fehlermodi entwirrt. Sie zeigt, dass die Defizite von einem begrenzten Kontextverständnis herrühren und nicht von unzureichender intrinsischer Generierungsfähigkeit. Um diese Lücke zu schließen, schlagen wir eine trainierungsfreie Attention-Interventionsstrategie vor. Letztlich etabliert GENIUS einen rigorosen Standard für GFI und leitet das Feld über die Wissensnutzung hinaus hin zu dynamischem, allgemeinem Schlussfolgern. Unser Datensatz und Code werden veröffentlicht unter: https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.

PhyCritic: Multimodale Kritiker-Modelle für physikalische KI
PhyCritic: Multimodal Critic Models for Physical AI

Feb 11

ByTianyi Xiong, Shihao Wang, Guilin Liu, Yi Dong, Ming Li, Heng Huang, Jan Kautz, Zhiding Yu

Mit der rasanten Entwicklung großer multimodaler Modelle sind zuverlässige Bewertungs- und Kritikmodelle unerlässlich geworden für die offene Bewertung und Präferenzabstimmung, da sie paarweise Präferenzen, numerische Bewertungen und erklärende Begründungen zur Beurteilung modellgenerierter Antworten liefern. Bisherige Kritikmodelle werden jedoch primär in allgemeinen visuellen Domänen trainiert, wie etwa Bildbeschreibung oder Bildfragebeantwortung, wodurch physikalische KI-Aufgaben, die Wahrnehmung, kausales Schließen und Planung umfassen, weitgehend unerforscht bleiben. Wir stellen PhyCritic vor, ein multimodales Kritikmodell, das für physikalische KI durch eine zweistufige RLVR-Pipeline optimiert wurde: eine Initialisierungsphase für physikalische Fähigkeiten, die die physikalisch orientierte Wahrnehmung und Schlussfolgerung verbessert, gefolgt von einem selbstreferenziellen Feinabgleich des Kritikmodells, bei dem der Kritiker zunächst seine eigene Vorhersage als interne Referenz generiert, bevor er Kandidatenantworten bewertet. Dies verbessert die Urteilsstabilität und physikalische Korrektheit. Sowohl auf physikalischen als auch auf allgemeinen multimodalen Bewertungs-Benchmarks erzielt PhyCritic deutliche Leistungssteigerungen gegenüber Open-Source-Baselines und verbessert, wenn es als Policymodell eingesetzt wird, weiterhin die Wahrnehmung und das Schlussfolgern in physikalisch fundierten Aufgaben.

ASA: Trainingsfreie Repräsentationsentwicklung für werkzeugaufrufende Agenten
ASA: Training-Free Representation Engineering for Tool-Calling Agents

Feb 4

ByYoujin Wang, Run Zhou, Rong Fu, Shuaishuai Cao, Hongwei Zeng, Jiaxuan Lu, Sicheng Fan, Jiaqiao Zhao, Liangming Pan

Die Anpassung von LLM-Agenten an domänenspezifische Tool-Aufrufe bleibt bei sich entwickelnden Schnittstellen bemerkenswert spröde. Prompt- und Schema-Engineering ist einfach einzusetzen, aber oft anfällig bei Distributionsverschiebungen und strengen Parsern, während kontinuierliches, parameter-effizientes Fine-Tuning die Zuverlässigkeit auf Kosten von Training, Wartung und potenziellem Vergessen verbessert. Wir identifizieren einen kritischen Lazy-Agent-Fehlermodus, bei dem die Tool-Notwendigkeit nahezu perfekt aus Mid-Layer-Aktivierungen decodierbar ist, das Modell jedoch konservativ beim Wechsel in den Tool-Modus bleibt – was eine Repräsentations-Verhaltens-Lücke offenbart. Wir schlagen den Activation Steering Adapter (ASA) vor, einen trainingsfreien Inferenzzeit-Controller, der einen Single-Shot-Mid-Layer-Eingriff durchführt und Tool-Domänen über einen router-konditionierten Mix von Steuerungsvektoren ansteuert, mit einer probe-geführten signierten Gate-Funktion zur Verstärkung echter Intentionen bei Unterdrückung falscher Trigger. Auf MTU-Bench mit Qwen2.5-1.5B verbessert ASA die strikte Tool-Use-F1 von 0,18 auf 0,50 und reduziert die False-Positive-Rate von 0,15 auf 0,05, bei Nutzung von nur ca. 20 KB portabler Assets und ohne Gewichtsaktualisierungen.

Auf dem Weg zur autonomen mathematischen Forschung
Towards Autonomous Mathematics Research

Feb 10

ByTony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao, Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong

Jüngste Fortschritte bei Fundamentalen Modellen haben zu Denksystemen geführt, die auf dem Niveau einer Goldmedaille bei der Internationalen Mathematik-Olympiade operieren können. Der Übergang vom wettbewerbsorientierten Problemlösen zur professionellen Forschung erfordert jedoch die Navigation durch umfangreiche Literatur und die Konstruktion langfristiger Beweise. In dieser Arbeit stellen wir Aletheia vor, einen mathematischen Forschungsagenten, der iterativ Lösungen end-to-end in natürlicher Sprache generiert, verifiziert und überarbeitet. Konkret wird Aletheia von einer fortschrittlichen Version von Gemini Deep Think für anspruchsvolle Denkprobleme angetrieben, einem neuartigen Skalierungsgesetz zur Inferenzzeit, das über Olympiade-Niveau hinausgeht, sowie intensivem Werkzeugeinsatz, um die Komplexitäten mathematischer Forschung zu bewältigen. Wir demonstrieren die Fähigkeiten von Aletheia anhand von Olympiade-Problemen bis hin zu Promotionsübungen und insbesondere durch mehrere Meilensteine der KI-gestützten mathematischen Forschung: (a) ein Forschungsartikel (Feng26), der vollständig ohne menschliches Eingreifen von einer KI generiert wurde, um bestimmte Strukturkonstanten in der arithmetischen Geometrie, sogenannte Eigengewichte, zu berechnen; (b) ein Forschungsartikel (LeeSeo26), der die Mensch-KI-Kollaboration beim Beweis von Schranken für Systeme wechselwirkender Teilchen, sogenannte unabhängige Mengen, demonstriert; und (c) eine umfangreiche semi-autonome Evaluation (Feng et al., 2026a) von 700 offenen Problemen in Bloom's Erdos Conjectures Database, einschließlich autonomer Lösungen für vier offene Fragen. Um der Öffentlichkeit ein besseres Verständnis der Entwicklungen im Bereich KI und Mathematik zu ermöglichen, schlagen wir vor, Standardstufen zur Quantifizierung von Autonomie und Neuheit KI-gestützter Ergebnisse zu kodifizieren. Wir schließen mit Reflexionen über die Mensch-KI-Kollaboration in der Mathematik.

Wann zu merken und wann aufzuhören: Gated Recurrent Memory für Schlussfolgerungen in langen Kontexten
When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

Feb 11

ByLeheng Sheng, Yongtao Zhang, Wenchang Ma, Yaorui Shi, Ting Huang, Xiang Wang, An Zhang, Ke Shen, Tat-Seng Chua

Während das Schließen von Schlussfolgerungen über lange Kontexte für viele praktische Anwendungen entscheidend ist, stellt es nach wie vor eine Herausforderung für große Sprachmodelle (LLMs) dar, da deren Leistung mit zunehmender Kontextlänge abnimmt. Der kürzlich vorgestellte Ansatz MemAgent hat versucht, dies zu lösen, indem der Kontext abschnittsweise in einer RNN-ähnlichen Schleife verarbeitet und ein textueller Speicher für die finale Beantwortung aktualisiert wird. Diese naive wiederkehrende Speicheraktualisierung weist jedoch zwei entscheidende Nachteile auf: (i) Der Speicher kann schnell anwachsen, da er auch bei evidenzfreien Abschnitten undiskriminiert aktualisiert wird; und (ii) der Schleifenmechanismus besitzt keine Austrittsfunktion, was zu unnötigen Berechnungen führt, selbst nachdem bereits ausreichend Evidenz gesammelt wurde. Um diese Probleme zu adressieren, schlagen wir GRU-Mem vor, das zwei textgesteuerte Gates für ein stabileres und effizienteres Schließen von Schlussfolgerungen über lange Kontexte integriert. Konkret aktualisiert sich der Speicher in GRU-Mem nur, wenn das Update-Gate geöffnet ist, und die wiederkehrende Schleife wird sofort verlassen, sobald das Exit-Gate geöffnet ist. Um dem Modell diese Fähigkeiten zu verleihen, führen wir zwei Belohnungssignale, r^{update} und r^{exit}, innerhalb eines End-to-End-Reinforcement-Learnings ein, die korrektes Update- bzw. Exit-Verhalten belohnen. Experimente auf verschiedenen Aufgaben zum Schließen von Schlussfolgerungen über lange Kontexte demonstrieren die Wirksamkeit und Effizienz von GRU-Mem, das den ursprünglichen MemAgent im Allgemeinen übertrifft und dabei eine bis zu 400 % schnellere Inferenzgeschwindigkeit erreicht.

TimeChat-Captioner: Erstellung von Skripten für Multiszenen-Videos mit zeitbewussten und strukturellen Audio-Visuellen Beschreibungen
TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

Feb 9

ByLinli Yao, Yuancheng Wei, Yaojie Zhang, Lei Li, Xinlong Chen, Feifan Song, Ziyue Wang, Kun Ouyang, Yuanxin Liu, Lingpeng Kong, Qi Liu, Pengfei Wan, Kun Gai, Yuanxing Zhang, Xu Sun

Dieses Paper stellt Omni Dense Captioning vor, eine neuartige Aufgabe, die darauf abzielt, kontinuierliche, feinkörnige und strukturierte audiovisuelle Narrative mit expliziten Zeitstempeln zu generieren. Um eine dichte semantische Abdeckung zu gewährleisten, führen wir ein sechsdimensionales Strukturschema ein, um "skriptähnliche" Beschreibungen zu erstellen, die es Lesern ermöglichen, sich den Videoinhalt szenenweise lebhaft vorzustellen, ähnlich einem kinematografischen Drehbuch. Um die Forschung zu erleichtern, erstellen wir OmniDCBench, einen hochwertigen, menschlich annotierten Benchmark, und schlagen SodaM vor, eine einheitliche Metrik, die zeitbewusste Detailbeschreibungen bewertet und gleichzeitig die Unschärfe von Szenengrenzen mildert. Darüber hinaus erstellen wir einen Trainingsdatensatz, TimeChatCap-42K, und präsentieren TimeChat-Captioner-7B, eine starke Baseline, die via SFT und GRPO mit aufgabenspezifischen Belohnungen trainiert wurde. Umfangreiche Experimente zeigen, dass TimeChat-Captioner-7B state-of-the-art Leistung erzielt und Gemini-2.5-Pro übertrifft, während seine generierten dichten Beschreibungen die nachgelagerten Fähigkeiten im audiovisuellen Reasoning (DailyOmni und WorldSense) und im temporalen Grounding (Charades-STA) signifikant steigern. Alle Datensätze, Modelle und der Code werden unter https://github.com/yaolinli/TimeChat-Captioner öffentlich verfügbar gemacht.

Wie nehmen Nur-Decoder-LLMs Nutzer wahr? Ein Umdenken bei Attention-Masking für das Lernen von Nutzerrepräsentationen
How Do Decoder-Only LLMs Perceive Users? Rethinking Attention Masking for User Representation Learning

Feb 11

ByJiahao Yuan, Yike Xu, Jinyong Wen, Baokun Wang, Yang Chen, Xiaotong Lin, Wuliang Huang, Ziyi Gao, Xing Fu, Yu Cheng, Weiqiang Wang

Decoder-only Large Language Models werden zunehmend als Verhaltensencoder für das Lernen von Benutzerrepräsentationen eingesetzt, doch die Auswirkungen von Attention-Masking auf die Qualität von Benutzer-Embeddings sind noch unzureichend erforscht. In dieser Arbeit führen wir eine systematische Untersuchung von kausalen, hybriden und bidirektionalen Attention-Masks innerhalb eines einheitlichen Contrastive-Learning-Frameworks durch, das auf groß angelegten Echtweltdaten von Alipay trainiert wurde und langfristige heterogene Benutzerverhalten integriert. Um die Trainingsdynamik beim Übergang von kausaler zu bidirektionaler Attention zu verbessern, schlagen wir Gradient-Guided Soft Masking vor, ein gradientenbasiertes Pre-Warmup, das vor einem linearen Scheduler angewendet wird und die zukünftige Attention während der Optimierung schrittweise freigibt. Die Auswertung auf 9 industriellen Benchmarks zur Benutzerkognition, die Vorhersage-, Präferenz- und Marketing-Sensitivitätsaufgaben abdecken, zeigt, dass unser Ansatz im Vergleich zu kausalen, hybriden und nur scheduler-basierten Baseline-Modellen konsistent stabileres Training und qualitativ hochwertigere bidirektionale Repräsentationen liefert, während die Kompatibilität mit dem Pre-training von Decodern erhalten bleibt. Insgesamt unterstreichen unsere Ergebnisse die Bedeutung von Masking-Design und Trainingsübergängen bei der Anpassung von Decoder-only-LLMs für effektives Lernen von Benutzerrepräsentationen. Unser Code ist verfügbar unter https://github.com/JhCircle/Deepfind-GGSM.

G-LNS: Generatives Großnachbarschaftssuche für LLM-basiertes automatisches Heuristikdesign
G-LNS: Generative Large Neighborhood Search for LLM-Based Automatic Heuristic Design

Feb 9

ByBaoyun Zhao, He Wang, Liang Zeng

Während Large Language Models (LLMs) kürzlich vielversprechende Ergebnisse im Bereich des automatisierten Heuristik-Designs (Automated Heuristic Design, AHD) gezeigt haben, formulieren bestehende Ansätze AHD typischerweise um konstruktive Prioritätsregeln oder parametrisierte Lokale-Suche-Steuerungen herum. Dadurch wird der Suchraum auf feste Heuristik-Formen beschränkt. Solche Designs bieten nur begrenzte Möglichkeiten für strukturelle Exploration, was es schwierig macht, tiefe lokale Optima in komplexen kombinatorischen Optimierungsproblemen (Combinatorial Optimization Problems, COPs) zu verlassen. In dieser Arbeit schlagen wir G-LNS vor, einen generativ-evolutionären Rahmen, der LLM-basiertes AHD auf den automatischen Entwurf von Large Neighborhood Search (LNS)-Operatoren erweitert. Im Gegensatz zu früheren Methoden, die Heuristiken isoliert entwickeln, nutzt G-LNS LLMs, um eng gekoppelte Paare von Zerstörungs- und Reparatur-Operatoren ko-evolutiv zu entwickeln. Ein kooperativer Bewertungsmechanismus erfasst explizit ihre Interaktion und ermöglicht die Entdeckung komplementärer Operatorlogik, die gemeinsam eine effektive strukturelle Zerstörung und Rekonstruktion durchführt. Umfangreiche Experimente mit anspruchsvollen COP-Benchmarks, wie dem Problem des Handlungsreisenden (Traveling Salesman Problem, TSP) und kapazitätsbeschränkten Tourenplanungsproblemen (Capacitated Vehicle Routing Problem, CVRP), zeigen, dass G-LNS LLM-basierte AHD-Methoden sowie starke klassische Löser signifikant übertrifft. Die entdeckten Heuristiken erreichen nicht nur nahezu optimale Lösungen mit reduzierten Rechenbudgets, sondern zeigen auch eine robuste Generalisierung über verschiedene und ungesehene Instanzverteilungen hinweg.

FeatureBench: Benchmarking agentenbasierter Programmierung für komplexe Funktionsentwicklung
FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

Feb 11

ByQixing Zhou, Jiacheng Zhang, Haiyang Wang, Rui Hao, Jiahe Wang, Minghao Han, Yuxue Yang, Shuzhe Wu, Feiyang Pan, Lue Fan, Dandan Tu, Zhaoxiang Zhang

Von großen Sprachmodellen (LLMs) angetriebene Agenten werden in der Softwareindustrie zunehmend eingesetzt und tragen als Mitwirkende oder sogar als autonome Entwickler Code bei. Mit ihrer wachsenden Verbreitung wird es wichtig, die aktuellen Grenzen ihrer Programmierfähigkeiten zu bewerten. Bestehende benchmarks für agentenbasierte Programmierung decken jedoch nur einen begrenzten Aufgabenumfang ab, z. B. Fehlerbehebungen innerhalb eines einzelnen Pull Requests (PR), und stützen sich oft auf nicht ausführbare Bewertungen oder es fehlt ihnen an einem automatisierten Ansatz zur kontinuierlichen Aktualisierung der Testabdeckung. Um diese Probleme zu adressieren, schlagen wir FeatureBench vor, einen Benchmark, der dazu entwickelt wurde, die Leistung agentenbasierter Programmierung in end-to-end, funktionsorientierter Softwareentwicklung zu bewerten. FeatureBench integriert ein ausführungsbasiertes Bewertungsprotokoll und eine skalierbare, testgetriebene Methode, die Aufgaben mit minimalem menschlichem Aufwand automatisch aus Code-Repositories ableitet. Durch die Verfolgung von Unit-Tests entlang eines Abhängigkeitsgraphen kann unser Ansatz funktionsbezogene Programmieraufgaben identifizieren, die sich über mehrere Commits und PRs erstrecken, die über den Entwicklungszeitraum verstreut sind, und dabei gleichzeitig die einwandfreie Funktion anderer Features nach der Abtrennung sicherstellen. Mit diesem Framework haben wir in der ersten Version unseres Benchmarks 200 anspruchsvolle Testaufgaben und 3825 ausführbare Umgebungen aus 24 Open-Source-Repositories zusammengestellt. Empirische Auswertungen zeigen, dass modernste agentenbasierte Modelle wie Claude 4.5 Opus, die eine Lösungsrate von 74,4 % auf SWE-bench erreichen, bei nur 11,0 % der Aufgaben erfolgreich sind, was neue Möglichkeiten für die Weiterentwicklung agentenbasierter Programmierung eröffnet. Darüber hinaus kann FeatureBench dank unseres automatisierten Toolkits zur Aufgabensammlung leicht skaliert und im Laufe der Zeit aktualisiert werden, um Datenlecks zu mindern. Die inhärente Verifizierbarkeit der konstruierten Umgebungen macht unsere Methode auch potenziell wertvoll für das Training von Agenten.

Internalisierung von Meta-Erfahrung in das Gedächtnis zur gesteuerten Verstärkungslernens in großen Sprachmodellen
Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

Feb 10

ByShiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang, Qisheng Su, Kou Shi, Lin Chen, Zehui Chen, Feng Zhao

Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat sich als effektiver Ansatz zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) erwiesen. Trotz seiner Wirksamkeit stößt RLVR auf einen Meta-Learning-Flaschenhals: Es fehlen Mechanismen für Fehlerattribuierung und Erfahrungsverinnerlichung, die im menschlichen Lernzyklus jenseits von Übung und Verifikation intrinsisch vorhanden sind, was eine feinkörnige Kreditzuweisung und die Bildung wiederverwendbaren Wissens begrenzt. Solche wiederverwendbaren Wissensrepräsentationen, die aus vergangenen Fehlern abgeleitet werden, bezeichnen wir als Meta-Erfahrung. Auf dieser Grundlage schlagen wir Meta-Experience Learning (MEL) vor, einen neuartigen Rahmen, der selbst-destillierte Meta-Erfahrung in das parametrische Gedächtnis des Modells integriert. Aufbauend auf standardmäßigem RLVR führen wir ein zusätzliches Design ein, das die Selbstverifikationsfähigkeit des LLMs nutzt, um eine kontrastive Analyse gepaarter korrekter und inkorrekter Trajektorien durchzuführen, die genauen Bifurkationspunkte zu identifizieren, an denen Reasoning-Fehler entstehen, und diese in verallgemeinerbare Meta-Erfahrung zusammenzufassen. Die Meta-Erfahrung wird weiter in das parametrische Gedächtnis des LLMs internalisiert, indem die negative Log-Likelihood minimiert wird, was ein sprachmodelliertes Belohnungssignal induziert, das korrekte und inkorrekte Reasoning-Trajektorien überbrückt und eine effektive Wiederverwendung von Wissen ermöglicht. Experimentelle Ergebnisse zeigen, dass MEL konsistente Verbesserungen auf Benchmarks erzielt und je nach Modellgröße Steigerungen von 3,92 % bis 4,73 % bei Pass@1 bewirkt.

DataChef: Optimale Datenrezepte für die LLM-Adaption mittels Reinforcement Learning
DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Feb 11

ByYicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen

Im aktuellen Umfeld großer Sprachmodelle (LLMs) ist die Zusammenstellung groß angelegter, hochwertiger Trainingsdaten ein Haupttreiber der Modellleistung. Ein entscheidender Hebel ist das Datenrezept, das eine Datenverarbeitungspipeline zur Transformation roher Quellen in Trainingskorpora umfasst. Trotz des zunehmenden Einsatzes von LLMs zur Automatisierung einzelner Datenverarbeitungsschritte, wie Datensynthese und -filterung, bleibt das Gesamtdesign von Datenrezepten weitgehend manuell und arbeitsintensiv, was erhebliche menschliche Expertise und Iteration erfordert. Um diese Lücke zu schließen, formulieren wir eine end-to-end Generierung von Datenrezepten für die LLM-Adaption. Ausgehend von einem Ziel-Benchmark und einem Pool verfügbarer Datenquellen muss ein Modell ein vollständiges Datenrezept ausgeben, das ein Basis-LLM an die Zielaufgabe anpasst. Wir präsentieren DataChef-32B, das Online Reinforcement Learning unter Verwendung einer Proxy-Belohnungsfunktion durchführt, die die Downstream-Leistung von Kandidatenrezepten vorhersagt. Über sechs zurückgehaltene Aufgaben hinweg erzeugt DataChef-32B praktische Rezepte, die eine vergleichbare Downstream-Leistung erreichen wie von menschlichen Experten kuratierte. Besonders bemerkenswert ist, dass das Rezept von DataChef-32B Qwen3-1.7B-Base an die Mathematikdomäne anpasst und dabei 66,7 auf AIME'25 erreicht, womit es Qwen3-1.7B übertrifft. Diese Arbeit wirft ein neues Licht auf die Automatisierung des LLM-Trainings und die Entwicklung sich selbst weiterentwickelnder KI-Systeme.

ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression
ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression

Feb 11

ByAmmar Ali, Baher Mohammad, Denis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Stamatios Lefkimmiatis

Wir stellen ROCKET vor, eine trainierungsfreie Modellkomprimierungsmethode, die im Vergleich zu Faktorisierungs-, strukturierten Sparsifizierungs- und dynamischen Komprimierungs-Baselines state-of-the-art Leistung erzielt. ROCKET operiert unter einem globalen Komprimierungsbudget und umfasst zwei zentrale Innovationen: Erstens formuliert es die schichtweise Komprimierungszuweisung als ein Multiple-Choice-Rucksackproblem, wobei der optimale Komprimierungsgrad für jede Schicht ausgewählt wird, um den gesamten Rekonstruktionsfehler zu minimieren und gleichzeitig eine Zielmodellgröße einzuhalten. Zweitens führt es eine Einzelschritt-Sparse-Matrix-Faktorisierung ein, die von Dictionary-Learning inspiriert ist: Unter Verwendung nur eines kleinen Kalibrierungsdatensatzes sparsifiziert es Gewichtskoeffizienten basierend auf der Aktivierungs-Gewichts-Empfindlichkeit und aktualisiert dann das Dictionary in geschlossener Form über die Methode der kleinsten Quadrate, wodurch iterative Optimierung, Sparse Coding oder Backpropagation vollständig umgangen werden. ROCKET übertrifft bestehende Komprimierungsansätze konsistent über verschiedene Modellarchitekturen hinweg bei Komprimierungsraten von 20–50 %. Bemerkenswerterweise behält es bei 30 % Komprimierung über 90 % der Leistung des Originalmodells ohne jegliche Feinabstimmung bei. Darüber hinaus wird die Wiederherstellung substantially verbessert, wenn eine leichte Feinabstimmungsphase angewendet wird: Beispielsweise erzielt das Komprimieren von Qwen3-14B auf ein 8B-Parameter-Modell und dessen "Heilung" mit nur 30 Millionen Tokens eine Leistung, die nahezu mit der des originalen Qwen3-8B vergleichbar ist. Der Code für ROCKET ist unter github.com/mts-ai/ROCKET/tree/main verfügbar.

Online-Kausale-Kalman-Filterung für stabile und effektive Politikoptimierung
Online Causal Kalman Filtering for Stable and Effective Policy Optimization

Feb 11

ByShuo He, Lang Feng, Xin Cheng, Lei Feng, Bo An

Reinforcement Learning für große Sprachmodelle leidet unter hochvarianter Token-basierter Importance-Sampling (IS), was die Stabilität der Policy-Optimierung im großen Maßstab beeinträchtigt. Um die Stabilität zu verbessern, verwenden aktuelle Methoden typischerweise ein festes sequenzweites IS-Verhältnis für alle Tokens in einer Sequenz oder passen das IS-Verhältnis jedes Tokens separat an, wodurch die zeitliche Off-Policy-Ableitung über die Tokens einer Sequenz hinweg vernachlässigt wird. In diesem Artikel identifizieren wir zunächst empirisch, dass lokale Off-Policy-Abweichungen auf Token-Ebene strukturell inkonsistent sind, was Policy-Gradient-Updates über benachbarte Tokens hinweg verzerren und zum Trainingszusammenbruch führen kann. Um dieses Problem zu adressieren, schlagen wir Online Causal Kalman Filtering for stable and effective Policy Optimization (KPO) vor. Konkret modellieren wir das gewünschte IS-Verhältnis als einen latenten Zustand, der sich über Tokens hinweg entwickelt, und wenden einen Kalman-Filter an, um diesen Zustand online und autoregressiv basierend auf den Zuständen vergangener Tokens zu aktualisieren, unabhängig von zukünftigen Tokens. Die resultierenden gefilterten IS-Verhältnisse bewahren tokenweise lokale strukturbewusste Variationen, glätten jedoch starke Rauschspitzen effektiv und führen so zu stabileren und effektiveren Policy-Updates. Experimentell erzielt KPO auf anspruchsvollen mathematischen Reasoning-Datensätzen überlegene Ergebnisse im Vergleich zu state-of-the-art Gegenstücken.

LoopFormer: Elastisch-tiefe geloopte Transformer für latentes Schließen durch Kurzschlussmodulation
LoopFormer: Elastic-Depth Looped Transformers for Latent Reasoning via Shortcut Modulation

Feb 11

ByAhmadreza Jeddi, Marco Ciccone, Babak Taati

Looped-Transformer haben sich als effiziente und leistungsstarke Modellklasse für das logische Schließen im Sprachbereich etabliert. Jüngste Studien zeigen, dass diese Modelle bei algorithmischen und logischen Aufgaben eine hohe Leistung erzielen, was nahelegt, dass looped-Architekturen eine induktive Verzerrung hin zu latentem logischen Schließen aufweisen. Bisherige Ansätze legten die Anzahl der Schleifeniterationen während des Trainings und des Inferenzvorgangs jedoch fest, sodass die Frage offenblieb, ob diese Modelle ihre Rechentiefe flexibel an variable Rechenbudgets anpassen können. Wir stellen LoopFormer vor, einen looped-Transformer, der auf Trajektorien variabler Länge trainiert wird, um budgetkonditioniertes logisches Schließen zu ermöglichen. Unser zentraler Beitrag ist ein Shortcut-Consistency-Trainingsschema, das Trajektorien unterschiedlicher Länge abstimmt und sicherstellt, dass kürzere Schleifen informative Repräsentationen liefern, während längere Schleifen diese weiter verfeinern. LoopFormer konditioniert jede Schleife auf die aktuelle Zeit und Schrittweite, wodurch sich Repräsentationen konsistent über Trajektorien variabler Länge entwickeln können, anstatt abzudriften oder zu stagnieren. Empirisch zeigt LoopFormer eine robuste Leistung bei Sprachmodellierungs- und logischen Benchmarks, selbst unter aggressiven Rechenbeschränkungen, und skaliert gleichzeitig elegant mit zusätzlichem Budget. Diese Ergebnisse zeigen, dass looped-Transformer inhärent für adaptive Sprachmodellierung geeignet sind und einen Weg zu kontrollierbaren und budgetbewussten großen Sprachmodellen eröffnen.

GameDevBench: Bewertung agentenbasierter Fähigkeiten durch Spieleentwicklung
GameDevBench: Evaluating Agentic Capabilities Through Game Development

Feb 11

ByWayne Chi, Yixiong Fang, Arnav Yayavaram, Siddharth Yayavaram, Seth Karten, Qiuhong Anna Wei, Runkun Chen, Alexander Wang, Valerie Chen, Ameet Talwalkar, Chris Donahue

Trotz rascher Fortschritte bei Code-Agenten hinkt die Entwicklung ihrer multimodalen Gegenstücke hinterher. Eine zentrale Herausforderung ist die Knappheit von Evaluierungs-Testumgebungen, die die Komplexität der Softwareentwicklung mit der Notwendigkeit eines tiefgreifenden multimodalen Verständnisses kombinieren. Die Spieleentwicklung bietet eine solche Testumgebung, da Agenten große, komplexe Codebasen navigieren und gleichzeitig inhärent multimodale Assets wie Shader, Sprites und Animationen innerhalb einer visuellen Spielszene manipulieren müssen. Wir stellen GameDevBench vor, den ersten Benchmark zur Bewertung von Agenten für Aufgaben der Spieleentwicklung. GameDevBench besteht aus 132 Aufgaben, die aus Web- und Video-Tutorials abgeleitet wurden. Die Aufgaben erfordern ein erhebliches multimodales Verständnis und sind komplex – die durchschnittliche Lösung benötigt mehr als dreimal so viele Codezeilen und Dateiänderungen wie frühere Softwareentwicklungs-Benchmarks. Agenten haben nach wie vor Schwierigkeiten mit der Spieleentwicklung; der beste Agent löst nur 54,5 % der Aufgaben. Wir stellen eine starke Korrelation zwischen der wahrgenommenen Aufgabenschwierigkeit und der multimodalen Komplexität fest, wobei die Erfolgsquote von 46,9 % bei spielorientierten Aufgaben auf 31,6 % bei 2D-Grafikaufgaben sinkt. Um die multimodale Fähigkeit zu verbessern, führen wir zwei einfache Feedback-Mechanismen für Agenten auf Basis von Bildern und Videos ein. Trotz ihrer Einfachheit verbessern diese Methoden durchgängig die Leistung, wobei die größte Steigerung bei Claude Sonnet 4.5 von 33,3 % auf 47,7 % zu verzeichnen ist. Wir veröffentlichen GameDevBench öffentlich, um die weitere Forschung zu agentenbasierter Spieleentwicklung zu unterstützen.

Datenwiederholung übertrifft Datenskalierung beim überwachten Feinabstimmen von Long-CoT
Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

Feb 11

ByDawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano

Überwachtes Feinabstimmen (SFT) auf Chain-of-Thought-Daten ist ein wesentlicher Schritt nach dem Training für Sprachmodelle mit Reasoning-Fähigkeiten. Die herkömmliche Intuition im maschinellen Lernen legt nahe, dass Training mit einer größeren Anzahl einzigartiger Trainingsbeispiele zu besserer Generalisierung führt. Kontraintuitiv zeigen wir, dass SFT von Wiederholung profitiert: Unter einem festen Update-Budget schneidet Training über mehr Epochen auf kleineren Datensätzen besser ab als Training über eine einzelne Epoche auf größeren Datensätzen. Auf den AIME'24/25- und GPQA-Benchmarks übertrifft Olmo3-7B, das über 128 Epochen auf 400 Beispielen trainiert wurde, das äquivalente 1-Epochen-Training auf 51200 Beispielen um 12-26 Prozentpunkte, ohne zusätzlichen katastrophalen Vergessenseffekt. Wir stellen fest, dass die Token-Genauigkeit während des Trainings zuverlässig anzeigt, wann der Nutzen von Wiederholung gesättigt ist; die Verbesserungen durch zusätzliche Epochen stagnieren bei vollständiger Auswendiglernung der Daten, ein Muster, das über alle Einstellungen hinweg konsistent ist. Diese Erkenntnisse bieten einen praktischen Ansatz für Reasoning-SFT, bei dem das Skalieren der Epochen mit der Token-Genauigkeit als Abbruchkriterium das kostspielige, ungerichtete Skalieren der Datenmenge ersetzen kann. Wir stellen den Wiederholungsvorteil, bei dem vollständige Auswendiglernung mit verbesserter Generalisierung zusammenfällt, als ein neues offenes Problem für die Gemeinschaft zur Erforschung der Trainingsdynamik großer Sprachmodelle zur Diskussion.

Blockweise Vorteilsschätzung für Multi-Objective RL mit verifizierbaren Belohnungen
Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

Feb 10

ByKirill Pavlenko, Alexander Golubev, Simon Karasik, Boris Yangel

Group Relative Policy Optimization (GRPO) weist allen Tokens in einer Completion einen einzigen skalaren Vorteil zu. Bei strukturierten Generierungen mit expliziten Segmenten und Zielen koppelt dies unzusammenhängende Belohnungssignale über Segmente hinweg, was zu Zielinterferenzen und falsch zugeordneten Verdiensten führt. Wir schlagen Blockweise Vorteilsschätzung vor, eine Familie von GRPO-kompatiblen Methoden, die jedem Ziel seinen eigenen Vorteil zuweist und diesen nur auf die Tokens im entsprechenden Textblock anwendet. Dies verringert die Abhängigkeit von handgestalteten skalaren Belohnungen und skaliert natürlich auf zusätzliche Ziele. Eine zentrale Herausforderung ist die Schätzung von Vorteilen für spätere Blöcke, deren Belohnungen von gesampelten Präfixen abhängen; standardmäßige unverzerrte Ansätze erfordern rechenintensive verschachtelte Rollouts von Zwischenzuständen. Konkret führen wir einen ergebnisbedingten Referenzwert ein, der Zwischenzustandswerte nur mit gruppeninternen Statistiken approximiert, indem Stichproben nach einem präfixbasierten Zwischenergebnis stratifiziert werden. Bei Mathematikaufgaben mit Unsicherheitsschätzung mildert unsere Methode Belohnungsinterferenzen, ist mit einem modernen, belohnungsbasierten Ansatz vergleichbar und erhält Testzeitgewinne aus konfidenzgewichteten Ensembles. Im weiteren Sinne bietet sie ein modulares Rezept zur Optimierung sequenzieller Ziele in strukturierten Generierungen ohne zusätzliche Rollouts.

Das Pensieve-Paradigma: Zustandsbehaftete Sprachmodelle, die ihren eigenen Kontext beherrschen
The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

Feb 12

ByXiaoyuan Liu, Tian Liang, Dongyang Ma, Deyu Zhou, Haitao Mi, Pinjia He, Yan Wang

In der Welt von Harry Potter extrahiert Dumbledore Erinnerungen in ein Denkarium, wenn sein Geist überlastet ist, um sie später wieder abzurufen. In der Welt der KI verfügen wir zwar über das Äquivalent zum Denkarium – ausgereifte Datenbanken und Abfragesysteme –, doch unseren Modellen fehlt unerklärlicherweise der „Zauberstab“, um es zu bedienen. Sie bleiben wie ein handlungsunfähiger Dumbledore, der passiv einen manuell konstruierten Kontext als sein gesamtes Gedächtnis akzeptiert. Diese Arbeit gibt dem Modell endlich den Zauberstab in die Hand. Wir stellen StateLM vor, eine neue Klasse von Fundamentalmodelle, die mit einer internen Reasoning-Schleife zur Verwaltung ihres eigenen Zustands ausgestattet sind. Wir statten unser Modell mit einer Reihe von Gedächtniswerkzeugen aus, wie Kontextbereinigung, Dokumentenindexierung und Notizenfunktion, und trainieren es, diese Werkzeuge aktiv zu verwalten. Indem es lernt, seinen eigenen Kontext dynamisch zu gestalten, befreit sich unser Modell aus dem architektonischen Gefängnis eines festen Kontextfensters. Experimente mit verschiedenen Modellgrößen demonstrieren die Wirksamkeit von StateLM in diversen Szenarien. Bei Frage-Antwort-Aufgaben zu langen Dokumenten übertreffen StateLMs durchgängig Standard-LLMs über alle Modellgrößen hinweg; bei Chat-Memory-Aufgaben erzielen sie absolute Genauigkeitssteigerungen von 10 % bis 20 % gegenüber Standard-LLMs. Bei der anspruchsvollen Rechercheaufgabe BrowseComp-Plus wird die Leistungslücke noch deutlicher: StateLM erreicht bis zu 52 % Genauigkeit, wohingegen vergleichbare Standard-LLMs bei etwa 5 % kämpfen. Letztendlich verwandelt unser Ansatz LLMs von passiven Vorhersagemodellen in zustandsbewusste Agenten, bei denen Reasoning zu einem zustandsbehafteten und steuerbaren Prozess wird.

LiveMedBench: Ein kontaminationsfreier medizinischer Benchmark für LLMs mit automatisierter Bewertung anhand von Rubriken
LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation

Feb 10

ByZhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun

Der Einsatz von großen Sprachmodellen (LLMs) in risikoreichen klinischen Umgebungen erfordert eine rigorose und zuverlässige Evaluation. Bisherige medizinische Benchmarks sind jedoch statisch und weisen zwei kritische Einschränkungen auf: (1) Datenkontamination, bei der Testdatensätze unbeabsichtigt in Trainingskorpora gelangen und zu überhöhten Leistungsschätzungen führen, und (2) zeitliche Fehlausrichtung, die die rasche Entwicklung des medizinischen Wissens nicht abbildet. Darüber hinaus stützen sich aktuelle Bewertungsmetriken für freie klinische Denkprozesse oft entweder auf flache lexikalische Übereinstimmungen (z.B. ROUGE) oder auf subjektive LLM-as-a-Judge-Bewertungen, die beide unzureichend für die Überprüfung der klinischen Korrektheit sind. Um diese Lücken zu schließen, stellen wir LiveMedBench vor, einen kontinuierlich aktualisierten, kontaminationsfreien und kriterienbasierten Benchmark, der wöchentlich reale klinische Fälle aus Online-Medizingemeinschaften erfasst und eine strikte zeitliche Trennung von Modelltrainingsdaten gewährleistet. Wir schlagen ein Multi-Agenten-Framework zur klinischen Kuratierung vor, das Rauschdaten filtert und die klinische Integrität anhand evidenzbasierter medizinischer Prinzipien validiert. Für die Evaluation entwickeln wir ein automatisiertes, kriterienbasiertes Bewertungsframework, das Arztantworten in granulare, fallspezifische Kriterien zerlegt und eine wesentlich stärkere Übereinstimmung mit Fachärzten erreicht als LLM-as-a-Judge. Bislang umfasst LiveMedBench 2.756 reale Fälle aus 38 medizinischen Fachgebieten und mehreren Sprachen, die mit 16.702 einzigartigen Bewertungskriterien verknüpft sind. Eine umfassende Evaluation von 38 LLMs zeigt, dass sogar das leistungsstärkste Modell nur 39,2 % erreicht, und 84 % der Modelle eine Leistungsverschlechterung bei Fällen nach dem Stichtag aufweisen, was die allgegenwärtigen Risiken von Datenkontamination bestätigt. Eine Fehleranalyse identifiziert weiterhin die kontextuelle Anwendung – nicht das Faktenwissen – als dominantes Hindernis, wobei 35–48 % der Fehler auf die Unfähigkeit zurückzuführen sind, medizinisches Wissen auf patientenspezifische Einschränkungen zuzuschneiden.

ECHO-2: Ein groß angelegtes verteiltes Rollout-Framework für kosteneffizientes Reinforcement Learning
ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

Feb 2

ByJie Xiao, Meng Chen, Qingnan Ren, Jingwei Song, Jiaqi Huang, Yangshen Deng, Chris Tong, Wanyi Chen, Suli Wang, Ziqian Bi, Shuo Lu, Yiqun Duan, Xu Wang, Rymon Yu, Ween Yang, Lynn Ai, Eric Yang, Bill Shi, Song Jingwei

Verstärkendes Lernen (RL) ist eine entscheidende Phase beim Nachtraining großer Sprachmodelle (LLMs) und umfasst wiederholte Interaktion zwischen Rollout-Generierung, Belohnungsbewertung und zentralisiertem Lernen. Die Verteilung der Rollout-Ausführung bietet Möglichkeiten, kostengünstigere Inferenzressourcen zu nutzen, führt jedoch zu Herausforderungen bei der weiträumigen Koordination und Policy-Verbreitung. Wir stellen ECHO-2 vor, ein verteiltes RL-Framework für das Nachtraining mit entfernten Inferenz-Workern und nicht vernachlässigbarer Verbreitungslatenz. ECHO-2 kombiniert zentralisiertes Lernen mit verteilten Rollouts und behandelt begrenzte Policy-Veralterung als einen benutzerkontrollierbaren Parameter, was eine Überlappung von Rollout-Generierung, -Verbreitung und Training ermöglicht. Wir führen ein überlappungsbasiertes Kapazitätsmodell ein, das Trainingszeit, Verbreitungslatenz und Rollout-Durchsatz in Beziehung setzt und eine praktische Bereitstellungsregel zur Aufrechterhaltung der Lernauslastung liefert. Um Verbreitungsengpässe zu mindern und die Kosten zu senken, setzt ECHO-2 peer-gestützte Pipeline-Broadcasts und kostensensitive Aktivierung heterogener Worker ein. Experimente zum GRPO-Nachtraining von 4B- und 8B-Modellen unter realen Weitverkehrsbandbreitenbedingungen zeigen, dass ECHO-2 die Kosteneffizienz deutlich verbessert und dabei eine mit starken Baseline-Modellen vergleichbare RL-Belohnung beibehält.

Reasoning Cache: Kontinuierliche Verbesserung über lange Zeithorizonte durch kurzzeitige RL.
Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL

Feb 3

ByIan Wu, Yuxiao Qu, Amrith Setlur, Aviral Kumar

Große Sprachmodelle (LLMs), die sich kontinuierlich über ihre Trainingsbudgets hinaus verbessern können, sind in der Lage, zunehmend schwierige Probleme durch Anpassung zur Testzeit zu lösen – eine Eigenschaft, die wir als Extrapolation bezeichnen. Standardmäßiges Bestärkendes Lernen (RL) operiert jedoch über feste Problemverteilungen und Trainingsbudgets, was die Extrapolation bei Verteilungsverschiebung zur Testzeit einschränkt. Um dies zu adressieren, führen wir RC ein, einen iterativen Decodierungsalgorithmus, der die standardmäßige autoregressive Decodierung sowohl während des Trainings als auch während der Inferenz ersetzt. RC nutzt eine Asymmetrie zwischen den Antwortgenerierungs- und Zusammenfassungsfähigkeiten von LLMs aus, um Reasoning-Ketten zu konstruieren, die sich über Iterationen hinweg konsistent verbessern. Modelle, die darauf trainiert wurden, RC zu verwenden, können extrapolieren und sich kontinuierlich über Reasoning-Horizonte verbessern, die mehr als eine Größenordnung länger sind als jene, die während des Trainings gesehen wurden. Empirisch verbessert das Training eines 4B-Modells mit RC unter Verwendung eines 16k-Token-Trainingsbudgets die Leistung auf HMMT 2025 von 40 % auf nahezu 70 % mit 0,5 Mio. Tokens zur Testzeit, womit es sowohl vergleichbar große Modelle als auch viele größere Reasoning-LLMs übertrifft. Schließlich zeigen wir auch, dass mit RC trainierte Modelle vorhandene Gerüste effektiver nutzen können, um die Testzeitleistung weiter zu skalieren, aufgrund der durch das Training erlernten verbesserten zusammenfassungsbedingten Generierungsfähigkeiten.

Ex-Omni: Ermöglichung der 3D-Gesichtsanimationsgenerierung für omni-modale große Sprachmodelle
Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

Feb 6

ByHaoyu Zhang, Zhipeng Li, Yiwen Guo, Tianshu Yu

Omni-modale große Sprachmodelle (OLLMs) zielen darauf ab, multimodales Verständnis und Generierung zu vereinheitlichen, doch die Integration von Sprache mit 3D-Gesichtsanimation bleibt trotz ihrer Bedeutung für natürliche Interaktion weitgehend unerforscht. Eine zentrale Herausforderung ergibt sich aus dem Repräsentationsunterschied zwischen dem diskreten, token-basierten semantischen Schließen in LLMs und den dichten, fein granularen zeitlichen Dynamiken, die für 3D-Gesichtsbewegungen erforderlich sind, was die direkte Modellierung unter begrenzten Daten schwierig zu optimieren macht. Wir schlagen Expressive Omni (Ex-Omni) vor, ein Open-Source-omni-modales Framework, das OLLMs um sprachbegleitete 3D-Gesichtsanimation erweitert. Ex-Omni verringert die Lernschwierigkeit, indem es semantisches Schließen von zeitlicher Generierung entkoppelt, Spracheinheiten als zeitliche Gerüststruktur nutzt und einen vereinheitlichten Token-as-Query-Gated-Fusion (TQGF)-Mechanismus für kontrollierte semantische Injection einsetzt. Wir führen außerdem InstructEx ein, einen Datensatz, der darauf abzielt, die Erweiterung von OLLMs um sprachbegleitete 3D-Gesichtsanimation zu erleichtern. Umfangreiche Experimente zeigen, dass Ex-Omni wettbewerbsfähig mit bestehenden Open-Source-OLLMs abschneidet und dabei eine stabile, synchronisierte Generierung von Sprache und Gesichtsanimation ermöglicht.

EcoGym: Bewertung von LLMs für langfristiges Planen und Ausführen in interaktiven Wirtschaftssimulationen
EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

Feb 10

ByXavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan, Guibin Zhang, JinCheng Ren, Boyu Feng, Li Lu, Tieyong Zeng, Jiaheng Liu, Minghao Liu, He Zhu, Yuchen Eleanor Jiang, Wei Wang, Wangchunshu Zhou

Langfristige Planung wird allgemein als Kernfähigkeit autonomer, auf LLM basierender Agenten anerkannt; gegenwärtige Evaluierungsrahmen leiden jedoch darunter, dass sie weitgehend episodisch, domänenspezifisch oder unzureichend in persistente wirtschaftliche Dynamiken eingebettet sind. Wir stellen EcoGym vor, einen generalisierbaren Benchmark für kontinuierliches Planungs- und Ausführungs-Entscheidungsfinden in interaktiven Wirtschaftssimulationen. EcoGym umfasst drei verschiedene Umgebungen: Vending, Freelance und Operation, die in einem einheitlichen Entscheidungsprozess mit standardisierten Schnittstellen und budgetierten Aktionen über einen effektiv unbegrenzten Zeithorizont implementiert sind (1000+ Schritte bei 365-Tage-Zyklen zur Evaluation). Die Bewertung in EcoGym basiert auf geschäftsrelevanten Ergebnissen (z.B. Nettovermögen, Einkommen und DAU (tägliche aktive Nutzer)) und zielt auf langfristige strategische Kohärenz und Robustheit unter partieller Beobachtbarkeit und Stochastizität ab. Experimente mit elf führenden LLMs offenbaren eine systematische Spannung: Kein einzelnes Modell dominiert in allen drei Szenarien. Kritisch ist, dass Modelle signifikante Suboptimalität entweder in hochrangigen Strategien oder in der effizienten Ausführung von Aktionen aufweisen. EcoGym wird als offene, erweiterbare Testumgebung veröffentlicht, um eine transparente Evaluation von Agenten über lange Zeithorizonte zu ermöglichen und die Abwägung zwischen Steuerbarkeit und Nutzen in realistischen wirtschaftlichen Settings zu untersuchen.

CLI-Gym: Skalierbare Generierung von CLI-Aufgaben durch agentenbasierte Umgebungsinversion
CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

Feb 11

ByYusong Lin, Haiyang Wang, Shuzhe Wu, Lue Fan, Feiyang Pan, Sanyuan Zhao, Dandan Tu

Agentisches Programmieren erfordert, dass Agenten effektiv mit Laufzeitumgebungen interagieren, z. B. mit Kommandozeilenschnittstellen (CLI), um Aufgaben wie die Lösung von Abhängigkeitsproblemen oder die Behebung von Systemfehlern zu bewältigen. Es ist jedoch noch weitgehend unerforscht, wie solche umgebungsintensiven Aufgaben in großem Maßstab gewonnen werden können, um die Fähigkeiten von Agenten zu erweitern. Um dieses Problem zu adressieren, schlagen wir auf der Grundlage einer Analogie zwischen Dockerfile und agentischer Aufgabe vor, Agenten einzusetzen, um Umgebungsverläufe anhand von Ausführungsrückmeldungen zu simulieren und zu erkunden. Durch die Nachverfolgung der Historie einer intakten Umgebung kann deren Zustand in einen früheren mit Laufzeitfehlern invertiert werden. Daraus lässt sich eine Aufgabe ableiten, indem der fehlerhafte Zustand und die entsprechenden Fehlermeldungen zusammengefasst werden. Mit unserer Methode, genannt CLI-Gym, wurden insgesamt 1.655 umgebungsintensive Aufgaben abgeleitet, was die größte Sammlung dieser Art darstellt. Darüber hinaus erzielt unser feinabgestimmtes Modell, LiberCoder, durch kuratierte erfolgreiche Trajektorien eine deutliche absolute Verbesserung von +21,1 % (auf 46,1 %) im Terminal-Bench und übertrifft damit verschiedene starke Baseline-Modelle. Unseres Wissens ist dies die erste öffentliche Pipeline zur skalierbaren Ableitung umgebungsintensiver Aufgaben.

Stroke3D: Überführung von 2D-Strichen in geriggte 3D-Modelle mittels latenter Diffusionsmodelle
Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

Feb 10

ByRuisi Zhao, Haoren Zheng, Zongxin Yang, Hehe Fan, Yi Yang

Rigged-3D-Assets sind grundlegend für 3D-Deformation und -Animation. Allerdings stehen bestehende 3D-Generierungsmethoden vor Herausforderungen bei der Erzeugung animierbarer Geometrie, während Rigging-Techniken eine feinkörnige strukturelle Kontrolle über die Skeletterstellung vermissen lassen. Um diese Einschränkungen zu adressieren, stellen wir Stroke3D vor, ein neuartiges Framework, das direkt rigged Meshes aus Benutzereingaben erzeugt: 2D-Zeichenstrichen und einem beschreibenden Text-Prompt. Unser Ansatz etabliert eine Zwei-Stufen-Pipeline, die die Generierung unterteilt in: 1) Kontrollierbare Skelettgenerierung, bei der wir das Skeletal Graph VAE (Sk-VAE) einsetzen, um die Graphstruktur des Skeletts in einen latenten Raum zu kodieren, wo der Skeletal Graph DiT (Sk-DiT) eine Skelett-Einbettung generiert. Der Generierungsprozess wird sowohl durch den Text für die Semantik als auch durch die 2D-Striche für explizite strukturelle Kontrolle konditioniert, wobei der Decoder des VAE das finale hochwertige 3D-Skelett rekonstruiert; und 2) Verbesserte Mesh-Synthese via TextuRig und SKA-DPO, bei der wir anschließend ein texturiertes Mesh, konditioniert auf das generierte Skelett, synthetisieren. Für diese Stufe verbessern wir zunächst ein bestehendes Skelett-zu-Mesh-Modell, indem wir seine Trainingsdaten mit TextuRig erweitern: einem Datensatz von texturierten und geriggten Meshes mit Beschriftungen, der aus Objaverse-XL kuratiert wurde. Zusätzlich setzen wir eine Präferenzoptimierungsstrategie, SKA-DPO, ein, die durch einen Skelett-Mesh-Alignment-Score gesteuert wird, um die geometrische Treue weiter zu verbessern. Zusammen ermöglicht unser Framework einen intuitiveren Workflow für die Erstellung von animationsfertigen 3D-Inhalten. Nach unserem Wissenstand ist unsere Arbeit die erste, die rigged 3D-Meshes konditioniert auf benutzergezeichnete 2D-Striche generiert. Umfangreiche Experimente zeigen, dass Stroke3D plausible Skelette und hochwertige Meshes erzeugt.

Bielik Guard: Effiziente polnische Sprach-Sicherheitsklassifikatoren für die LLM-Inhaltsmoderation
Bielik Guard: Efficient Polish Language Safety Classifiers for LLM Content Moderation

Feb 8

ByKrzysztof Wróbel, Jan Maria Kowalski, Jerzy Surma, Igor Ciuciura, Maciej Szymański

Da große Sprachmodelle (LLMs) zunehmend in polnischsprachigen Anwendungen eingesetzt werden, ist der Bedarf an effizienten und präzisen Inhalts-Safety-Klassifikatoren von größter Bedeutung. Wir stellen Bielik Guard vor, eine Familie kompakter polnischsprachiger Sicherheitsklassifikatoren, die aus zwei Modellvarianten besteht: einem 0,1B-Parameter-Modell basierend auf MMLW-RoBERTa-base und einem 0,5B-Parameter-Modell basierend auf PKOBP/polish-roberta-8k. Diese Modelle, die auf einem community-annotierten Datensatz mit 6.885 polnischen Texten feinabgestimmt wurden, klassifizieren Inhalte in fünf Sicherheitskategorien: Hass/Aggression, Vulgaritäten, sexuelle Inhalte, Kriminalität und Selbstverletzung. Unsere Auswertung zeigt, dass beide Modelle in mehreren Benchmarks eine hohe Leistung erzielen. Die 0,5B-Variante bietet die beste Gesamtdiskriminationsfähigkeit mit F1-Scores von 0,791 (mikro) und 0,785 (makro) auf dem Testdatensatz, während die 0,1B-Variente eine außergewöhnliche Effizienz aufweist. Besonders hervorzuheben ist, dass Bielik Guard 0.1B v1.1 bei echten Nutzerprompts eine überlegene Präzision (77,65 %) und eine sehr niedrige Falsch-Positiv-Rate (0,63 %) erreicht und damit HerBERT-PL-Guard (31,55 % Präzision, 4,70 % FPR) trotz identischer Modellgröße übertrifft. Die Modelle sind öffentlich verfügbar und darauf ausgelegt, angemessene Reaktionen statt einfacher Inhaltsblockaden zu liefern, insbesondere bei sensiblen Kategorien wie Selbstverletzung.

QP-OneModel: Ein einheitliches generatives LLM für mehrteilige Aufgaben der Abfrageverständigung in der Xiaohongshu-Suche
QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search

Feb 10

ByJianzhao Huang, Xiaorui Huang, Fei Zhao, Yunpeng Liu, Hui Zhang, Fangcheng Shi, Congfeng Li, Zechen Sun, Yi Wu, Yao Hu, Yunhan Bai, Shaosheng Cao

Abfrageverarbeitung (Query Processing, QP) bildet die Brücke zwischen Nutzerintention und Inhaltsbereitstellung in großangelegten Suchmaschinen für soziale Netzwerkdienste (Social Network Services, SNS). Herkömmliche QP-Systeme basieren auf Pipelines isolierter diskriminativer Modelle (z.B. BERT), die unter begrenztem semantischem Verständnis und hohem Wartungsaufwand leiden. Während Large Language Models (LLMs) eine potenzielle Lösung bieten, optimieren bestehende Ansätze häufig Teilaufgaben isoliert, vernachlässigen intrinsische semantische Synergien und erfordern unabhängige Iterationen. Darüber hinaus mangelt es standardmäßigen generativen Methoden oft an Verankerung in SNS-Szenarien, sodass sie die Lücke zwischen Open-Domain-Korpora und informellen SNS-Sprachmustern nicht überbrücken können, während sie gleichzeitig Schwierigkeiten haben, strengen Geschäftsdefinitionen zu folgen. Wir stellen QP-OneModel vor, ein vereinheitlichtes generatives LLM für Multi-Task-Abfrageverständnis im SNS-Bereich. Wir reformulieren heterogene Teilaufgaben in ein vereinheitlichtes Sequenzgenerierungsparadigma und setzen eine progressive Drei-Stufen-Abgleichsstrategie ein, die in einem Multi-Reward-Verstärkungslernen gipfelt. Zusätzlich generiert QP-OneModel Intent-Beschreibungen als neuartiges hochpräzises semantisches Signal, das Downstream-Aufgaben wie Abfragereformulierung und Ranking effektiv erweitert. Offline-Auswertungen zeigen, dass QP-OneModel einen Gesamtgewinn von 7,35 % gegenüber diskriminativen Baseline-Modellen erzielt, mit signifikanten F1-Steigerungen bei NER (+9,01 %) und Term Weighting (+9,31 %). Es weist zudem eine überlegene Generalisierungsfähigkeit auf und übertrifft ein 32B-Modell bei ungesehenen Aufgaben um 7,60 % an Genauigkeit. Vollständig bei Xiaohongshu eingesetzt, bestätigen Online-A/B-Tests seinen industriellen Wert durch eine Optimierung der Retrieval-Relevanz (DCG) um 0,21 % und eine Steigerung der Nutzerbindung um 0,044 %.

Wenn der Prompt visuell wird: Vision-zentrierte Jailbreak-Angriffe auf große Bildbearbeitungsmodelle
When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

Feb 10

ByJiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang

Jüngste Fortschritte bei großen Bildbearbeitungsmodellen haben das Paradigma von textgesteuerten Befehlen hin zur Bearbeitung mit visuellen Prompts verschoben, bei der die Benutzerabsicht direkt aus visuellen Eingaben wie Markierungen, Pfeilen und visuell-textuellen Prompts abgeleitet wird. Während dieses Paradigma die Nutzbarkeit erheblich erweitert, führt es auch zu einem kritischen und bisher wenig erforschten Sicherheitsrisiko: Die Angriffsfläche selbst wird visuell. In dieser Arbeit schlagen wir den Vision-Centric Jailbreak Attack (VJA) vor, den ersten visuell-visuellen Jailbreak-Angriff, der schädliche Anweisungen ausschließlich über visuelle Eingaben übermittelt. Um diese neuartige Bedrohung systematisch zu untersuchen, führen wir IESBench ein, einen sicherheitsorientierten Benchmark für Bildbearbeitungsmodelle. Umfangreiche Experimente auf IESBench zeigen, dass VJA state-of-the-art kommerzielle Modelle effektiv kompromittiert und Angriffserfolgsraten von bis zu 80,9 % bei Nano Banana Pro und 70,1 % bei GPT-Image-1.5 erzielt. Um diese Schwachstelle zu entschärfen, schlagen wir eine trainierungsfreie Verteidigung basierend auf introspektivem multimodalen Reasoning vor, die die Sicherheit schlecht alignierter Modelle erheblich auf ein Niveau verbessert, das mit kommerziellen Systemen vergleichbar ist – ohne zusätzliche Schutzmodelle und mit vernachlässigbarem Rechenaufwand. Unsere Ergebnisse legen neue Verwundbarkeiten offen, bieten sowohl einen Benchmark als auch eine praktische Verteidigung, um fortschrittliche, sichere und vertrauenswürdige Bildbearbeitungssysteme voranzubringen. Warnung: Dieses Papier enthält anstößige Bilder, die von großen Bildbearbeitungsmodellen erstellt wurden.

Benchmarking von Large Language Models zur Wissensgraphen-Validierung
Benchmarking Large Language Models for Knowledge Graph Validation

Feb 11

ByFarzad Shami, Stefano Marchesin, Gianmaria Silvello

Wissensgraphen (KGs) speichern strukturiertes Faktenwissen durch die Verknüpfung von Entitäten mittels Beziehungen und sind für viele Anwendungen von entscheidender Bedeutung. Diese Anwendungen hängen von der faktischen Genauigkeit des KGs ab, weshalb die Überprüfung von Fakten essenziell, aber auch herausfordernd ist. Eine manuelle Überprüfung durch Experten wäre ideal, ist jedoch in großem Maßstab unpraktikabel. Automatisierte Methoden sind vielversprechend, aber noch nicht einsatzbereit für reale KGs. Große Sprachmodelle (LLMs) bieten Potenzial aufgrund ihres semantischen Verständnisses und Wissenszugriffs, doch ihre Eignung und Effektivität für die Faktenvalidierung in KGs sind weitgehend unerforscht. In diesem Artikel stellen wir FactCheck vor, einen Benchmark, der entwickelt wurde, um LLMs für die KG-Faktenvalidierung in drei Schlüsseldimensionen zu evaluieren: (1) das interne Wissen der LLMs; (2) externe Evidenz mittels Retrieval-Augmented Generation (RAG); und (3) aggregiertes Wissen unter Verwendung einer Multi-Modell-Konsensstrategie. Wir evaluierten Open-Source- und kommerzielle LLMs anhand von drei verschiedenen realen KGs. FactCheck umfasst auch einen RAG-Datensatz mit über 2 Millionen Dokumenten, der speziell für die KG-Faktenvalidierung zugeschnitten ist. Zusätzlich bieten wir eine interaktive Explorationsplattform zur Analyse von Verifizierungsentscheidungen. Die experimentellen Analysen zeigen, dass LLMs zwar vielversprechende Ergebnisse liefern, aber noch nicht ausreichend stabil und zuverlässig für den Einsatz in realen KG-Validierungsszenarien sind. Die Integration externer Evidenz durch RAG-Methoden führt zu schwankenden Leistungen und bietet inkonsistente Verbesserungen gegenüber schlankeren Ansätzen – bei höheren Rechenkosten. Ebenso übertreffen Strategien, die auf Multi-Modell-Konsens basieren, nicht konsistent einzelne Modelle, was den Mangel an einer universellen Lösung unterstreicht. Diese Ergebnisse unterstreichen weiterhin die Notwendigkeit eines Benchmarks wie FactCheck, um diese schwierige yet cruciale Aufgabe systematisch zu evaluieren und Fortschritte voranzutreiben.

Latent Thoughts Tuning: Überbrückung von Kontext und logischem Denken durch fusionierte Information in latenten Tokens
Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens

Feb 10

ByWeihao Liu, Dehai Min, Lu Cheng

Während explizite Chain-of-Thought (CoT) große Sprachmodelle (LLMs) mit starken Reasoning-Fähigkeiten ausstattet, erfordert sie, dass Modelle jeden Zwischenschritt in Text-Tokens verbalisieren, was die Gedanken des Modells auf den diskreten Vokabularraum beschränkt. Kürzlich hat sich Reasoning im kontinuierlichen latenten Raum als vielversprechende Alternative herausgestellt, das robustere Inferenz und flexiblere Berechnung jenseits diskreter Token-Einschränkungen ermöglicht. Allerdings leiden aktuelle latente Paradigmen häufig unter Feature-Collapse und Instabilität, die von Verteilungsunterschieden bei der wiederkehrenden Verwendung versteckter Zustände als Eingabe-Embeddings oder von Ausrichtungsproblemen bei der Abhängigkeit von Hilfsmodellen herrühren. Um dies zu adressieren, schlagen wir Latent Thoughts Tuning (LT-Tuning) vor, ein Framework, das neu definiert, wie latente Gedanken konstruiert und eingesetzt werden. Anstatt sich ausschließlich auf rohe versteckte Zustände zu verlassen, führt unsere Methode einen Context-Prediction-Fusion-Mechanismus ein, der kontextuelle versteckte Zustände und prädiktive semantische Führung aus dem Vokabular-Embedding-Raum gemeinsam nutzt. Kombiniert mit einer progressiven Drei-Stufen-Curriculum-Learning-Pipeline ermöglicht LT-Tuning auch das dynamische Umschalten zwischen latenten und expliziten Denkmodi. Experimente zeigen, dass unsere Methode bestehende latente Reasoning-Baselines übertrifft, Feature-Collapse wirksam abmildert und eine robuste Reasoning-Genauigkeit erreicht.

Jenseits der Korrektheit: Robuste Argumentationsfähigkeiten durch Transferlernen erwerben
Beyond Correctness: Learning Robust Reasoning via Transfer

Feb 9

ByHyunseok Lee, Soheil Abbasloo, Jihoon Tack, Jinwoo Shin

Reinforcement Learning with Verifiable Rewards (RLVR) hat kürzlich das Reasoning von LLMs gestärkt, doch sein Fokus auf die Korrektheit der endgültigen Antwort lässt eine kritische Lücke: Es gewährleistet nicht die Robustheit des Reasoning-Prozesses selbst. Wir vertreten eine einfache philosophische Auffassung: Robustes Reasoning sollte auch über den Verstand hinaus nützlich bleiben, der es hervorgebracht hat, und betrachten Reasoning als eine Form der Bedeutungsübertragung, die Kürzung, Neuinterpretation und Fortsetzung überstehen muss. Aufbauend auf diesem Prinzip führen wir Reinforcement Learning with Transferable Reward (RLTR) ein, das Robustheit durch eine Transfer-Belohnung operationalisiert, die prüft, ob ein partielles Reasoning-Präfix eines Modells ein separates Modell zur korrekten Antwort führen kann. Dies ermutigt LLMs, Reasoning zu produzieren, das stabil, interpretierbar und echt generalisierbar ist. Unser Ansatz verbessert die Sampling-Konsistenz bei gleichzeitiger Steigerung der Genauigkeit der Endantwort und erreicht vergleichbare Leistung in deutlich weniger Trainingsschritten. Beispielsweise erzielt RLTR auf MATH500 einen Zuwachs von +3,6 %-Punkten in Maj@64 im Vergleich zu RLVR und erreicht die durchschnittliche Genauigkeit von RLVR mit etwa 2,5-mal weniger Trainingsschritten – was sowohl zuverlässigeres Reasoning als auch eine deutlich höhere Sample-Effizienz bietet.

Free(): Erlernen des Vergessens in Malloc-Only-Reasoning-Modellen
Free(): Learning to Forget in Malloc-Only Reasoning Models

Feb 8

ByYilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang, Lihui Chen, Haitao Mi, Yan Wang

Reasoning-Modelle verbessern die Problemlösung durch Skalierung des Rechenaufwands zur Testzeit, stehen jedoch vor einem kritischen Paradoxon: Übermäßige Denk-Tokens verschlechtern die Leistung oftmals, anstatt sie zu verbessern. Wir führen dies auf einen grundlegenden Architekturfehler zurück: Standard-LLMs arbeiten als "Nur-Malloc"-Engines, die kontinuierlich sowohl gültige als auch redundante Schritte anhäufen, ohne einen Mechanismus zum Ausmustern veralteter Informationen. Um diesen Kreislauf zu durchbrechen, schlagen wir Free()LM vor, ein Modell, das eine intrinsische Selbstvergessensfähigkeit über das Free-Modul, einen Plug-and-Play-LoRA-Adapter, einführt. Durch iteratives Wechseln zwischen Reasoning- und Bereinigungsmodi identifiziert und entfernt Free()LM dynamisch nutzlose Kontextblöcke und bewahrt so einen kompakten und störungsfreien Zustand. Umfangreiche Experimente zeigen, dass Free()LM konsistente Verbesserungen über alle Modellgrößen hinweg (8B bis 685B) bietet. Es erzielt eine durchschnittliche Verbesserung von 3,3 % gegenüber erstklassigen Reasoning-Baselines und etabliert sogar einen neuen SOTA auf IMOanswerBench unter Verwendung von DeepSeek V3.2-Speciale. Besonders bemerkenswert ist, dass bei langfristigen Aufgaben, bei denen das Standardmodell Qwen3-235B-A22B vollständig versagt (0 % Genauigkeit), Free()LM die Leistung auf 50 % wiederherstellt. Unsere Erkenntnisse legen nahe, dass nachhaltige Intelligenz ebenso die Freiheit zu vergessen erfordert wie die Fähigkeit zu denken.

AgenticPay: Ein Multi-Agenten-LLM-Verhandlungssystem für Käufer-Verkäufer-Transaktionen
AgenticPay: A Multi-Agent LLM Negotiation System for Buyer-Seller Transactions

Feb 5

ByXianyang Liu, Shangding Gu, Dawn Song

Auf großen Sprachmodellen (LLM) basierende Agenten werden zunehmend dafür eingesetzt, autonom zu verhandeln, zu koordinieren und Transaktionen durchzuführen. Dennoch fehlen in bestehenden Benchmarks prinzipielle Settings, um die sprachvermittelte ökonomische Interaktion zwischen mehreren Agenten zu bewerten. Wir stellen AgenticPay vor, einen Benchmark und Simulationsrahmen für Verhandlungen zwischen Käufern und Verkäufern mit mehreren Agenten, die durch natürliche Sprache gesteuert werden. AgenticPay modelliert Märkte, in denen Käufer und Verkäufer über private Beschränkungen und produktabhängige Bewertungen verfügen und Vereinbarungen durch mehrrundige sprachliche Verhandlungen anstelle von rein numerischen Geboten erzielen müssen. Das Framework unterstützt eine Vielzahl von über 110 Aufgaben, die von bilateralen Verhandlungen bis hin zu Viele-zu-viele-Märkten reichen, mit strukturierter Aktionsextraktion und Metriken für Machbarkeit, Effizienz und Wohlfahrt. Das Benchmarking modernster proprietärer und Open-Weight-LLMs zeigt erhebliche Lücken in der Verhandlungsleistung auf und verdeutlicht die Herausforderungen beim langfristigen strategischen Denken. Damit etabliert sich AgenticPay als Grundlage für die Erforschung von agentenbasierter Wirtschaft und sprachbasierter Marktinteraktion. Code und Datensatz sind unter folgendem Link verfügbar: https://github.com/SafeRL-Lab/AgenticPay.

Neubewertung des Werts von Agentengenerierten Tests für LLM-basierte Softwareentwicklungsagenten
Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents

Feb 8

ByZhi Chen, Zhensu Sun, Yuling Shi, Chao Peng, Xiaodong Gu, David Lo, Lingxiao Jiang

Große Sprachmodelle (LLM) als Code-Agenten lösen zunehmend Repository-weite Probleme durch iteratives Bearbeiten von Code, Aufrufen von Tools und Validieren von Kandidaten-Patches. In diesen Workflows schreiben Agenten häufig spontan Tests, ein Paradigma, das von vielen hochplatzierten Agenten auf dem SWE-bench Leaderboard übernommen wurde. Wir beobachten jedoch, dass GPT-5.2, das fast keine neuen Tests schreibt, sogar eine mit den Top-Agenten vergleichbare Leistung erzielen kann. Dies wirft die entscheidende Frage auf, ob solche Tests die Problemlösung tatsächlich verbessern oder lediglich menschliche Testpraktiken nachahmen, während sie ein erhebliches Interaktionsbudget verbrauchen. Um die Auswirkungen von agentengeschriebenen Tests aufzudecken, präsentieren wir eine empirische Studie, die Agenten-Trajektorien über sechs state-of-the-art LLMs auf SWE-bench Verified analysiert. Unsere Ergebnisse zeigen, dass das Testschreiben zwar häufig angewendet wird, gelöste und ungelöste Aufgaben innerhalb desselben Modells jedoch ähnliche Testschreibhäufigkeiten aufweisen. Darüber hinaus dienen diese Tests typischerweise als Kanäle für beobachtendes Feedback, wobei Agenten wertoffenlegende Print-Anweisungen deutlich stärker bevorzugen als formale, auf Assertions basierende Prüfungen. Aufbauend auf diesen Erkenntnissen führen wir ein kontrolliertes Experiment durch, indem wir die Prompts von vier Agenten so anpassen, dass sie entweder mehr oder weniger Tests schreiben. Die Ergebnisse deuten darauf hin, dass Änderungen im Umfang der agentengeschriebenen Tests die Endergebnisse nicht signifikant verändern. Zusammengenommen zeigt unsere Studie, dass die aktuellen Testschreibpraktiken in autonomen Softwareentwicklungsaufgaben nur einen marginalen Nutzen bieten könnten.

GoodVibe: Security-by-Vibe für die codegenerierung mit LLMs
GoodVibe: Security-by-Vibe for LLM-Based Code Generation

Feb 11

ByMaximilian Thang, Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Jona te Lintelo, Stjepan Picek, Ahmad-Reza Sadeghi

Große Sprachmodelle (LLMs) werden zunehmend zur Code-Generierung in schnellen, informellen Entwicklungs-Workflows eingesetzt, die oft als "Vibe Coding" bezeichnet werden, wobei Geschwindigkeit und Komfort priorisiert werden und Sicherheitsanforderungen selten explizit gemacht werden. In diesem Umfeld erzeugen Modelle häufig funktional korrekten, aber unsicheren Code, was ein wachsendes Sicherheitsrisiko darstellt. Bestehende Ansätze zur Verbesserung der Codesicherheit setzen auf Full-Parameter-Fine-Tuning oder parameter-effiziente Anpassungen, die entweder kostspielig und anfällig für katastrophales Vergessen sind oder mit grober Granularität, begrenzter Interpretierbarkeit und Kontrolle operieren. Wir stellen GoodVibe vor, ein Framework auf Neuron-Ebene zur Verbesserung der Sicherheit von Code-Sprachmodellen standardmäßig. GoodVibe basiert auf der zentralen Erkenntnis, dass sicherheitsrelevantes Denken auf eine kleine Teilmenge von Neuronen lokalisiert ist. Wir identifizieren diese Neuronen mittels gradientenbasierter Attribution aus einer überwachten Sicherheitsaufgabe und führen ein neuronenselektives Fine-Tuning durch, das nur diesen sicherheitskritischen Unterraum aktualisiert. Um die Trainingskosten weiter zu senken, führen wir eine aktivierungsgesteuerte Neuron-Clustering ein, das strukturierte Aktualisierungen mit minimalem Overhead ermöglicht. Wir evaluieren GoodVibe an sechs LLMs über sicherheitskritische Programmiersprachen hinweg, einschließlich C++, Java, Swift und Go. GoodVibe verbessert die Sicherheit von generiertem Code erheblich, während die allgemeine Modell-Nützlichkeit erhalten bleibt, erreicht bis zu eine 2,5-fache Verbesserung gegenüber Basismodellen, übertrifft oder gleicht Full Fine-Tuning mit über 4.700-fach weniger trainierbaren Parametern aus und reduziert die Trainingsberechnung um mehr als das 3,6-fache im Vergleich zum parameter-effizienten Baseline (LoRA). Unsere Ergebnisse zeigen, dass Optimierung auf Neuron-Ebene einen effektiven und skalierbaren Ansatz zur Absicherung der Code-Generierung bietet, ohne Effizienz oder Allgemeingültigkeit zu opfern.

UMEM: Einheitliches Framework zur Speicherauslesung und -verwaltung für generalisierbaren Speicher
UMEM: Unified Memory Extraction and Management Framework for Generalizable Memory

Feb 11

ByYongshi Ye, Hui Jiang, Feihu Jiang, Tian Lan, Yichao Du, Biao Fu, Xiaodong Shi, Qianghuai Jia, Longyue Wang, Weihua Luo

Selbst-evolvierender Speicher dient als trainierbare Parameter für auf großen Sprachmodellen (LLMs) basierende Agenten, wobei Extraktion (das Destillieren von Erkenntnissen aus Erfahrungen) und Verwaltung (die Aktualisierung des Speicherbestands) eng koordiniert werden müssen. Bestehende Methoden optimieren vorwiegend die Speicherverwaltung, behandeln die Speicherextraktion jedoch als statischen Prozess, was zu einer schlechten Generalisierung führt, bei der Agenten instanzspezifisches Rauschen anstatt robuster Erinnerungen ansammeln. Um dies zu adressieren, schlagen wir Unified Memory Extraction and Management (UMEM) vor, einen selbst-evolvierenden Agentenrahmen, der ein großes Sprachmodell gemeinsam optimiert, um Erinnerungen simultan zu extrahieren und zu verwalten. Um eine Überanpassung an spezifische Instanzen zu mildern, führen wir Semantic Neighborhood Modeling ein und optimieren das Modell mit einem nachbarschaftsbasierten Grenznutzen-Reward mittels GRPO. Dieser Ansatz sichert die Generalisierbarkeit des Speichers, indem der Speichernutzen über Cluster semantisch verwandter Abfragen hinweg bewertet wird. Umfangreiche Experimente über fünf Benchmarks zeigen, dass UMEM hochgradig wettbewerbsfähige Baselines signifikant übertrifft und eine Verbesserung von bis zu 10,67 % in mehrstufigen interaktiven Aufgaben erreicht. Darüber hinaus weist UMEM während der kontinuierlichen Evolution eine monoton wachsende Kurve auf. Codes und Modelle werden öffentlich zugänglich gemacht.

TIC-VLA: Ein Think-in-Control-Vision-Language-Action-Modell für die Roboternavigation in dynamischen Umgebungen
TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

Feb 2

ByZhiyu Huang, Yun Zhang, Johnson Liu, Rui Song, Chen Tang, Jiaqi Ma

Roboter in dynamischen, menschenzentrierten Umgebungen müssen Sprachinstruktionen befolgen und gleichzeitig eine echtzeitfähige Reaktionskontrolle aufrechterhalten. Vision-Language-Action (VLA)-Modelle bieten einen vielversprechenden Rahmen, gehen jedoch von einer zeitlich abgestimmten Abfolge von Reasoning und Kontrolle aus, obwohl semantische Inferenz inhärent verzögert gegenüber Echtzeithandlungen erfolgt. Wir stellen Think-in-Control (TIC)-VLA vor, ein latenzbewusstes Framework, das verzögertes semantisches Reasoning während der Aktionsgenerierung explizit modelliert. TIC-VLA definiert eine verzögerte semantisch-steuerungstechnische Schnittstelle, die die Aktionsgenerierung nicht nur auf Basis aktueller Beobachtungen, sondern auch auf verzögerte visuell-sprachliche Semantikzustände und explizite Latenzmetadaten konditioniert. Dies ermöglicht es Strategien (Policies), asynchrones Reasoning zu kompensieren. Weiterhin schlagen wir eine latenzkonsistente Trainingspipeline vor, die Rückschlussverzögerungen (Reasoning Inference Delays) während des Imitationslernens und des Online-Verstärkungslernens injiziert und so das Training mit dem asynchronen Einsatz in Echtzeit in Einklang bringt. Zur Unterstützung einer realistischen Evaluation präsentieren wir DynaNav, eine physikalisch präzise, fotorealistische Simulationssuite für sprachgesteuerte Navigation in dynamischen Umgebungen. Umfangreiche Experimente in der Simulation und an einem realen Roboter zeigen, dass TIC-VLA durchgängig frühere VLA-Modelle übertrifft und dabei eine robuste Echtzeitkontrolle unter Reasoning-Latenzen von mehreren Sekunden beibehält. Projekt-Website: https://ucla-mobility.github.io/TIC-VLA/

ArcFlow: Freisetzung der 2-Schritt-Text-zu-Bild-Generierung durch hochpräzise nicht-lineare Flow-Destillation
ArcFlow: Unleashing 2-Step Text-to-Image Generation via High-Precision Non-Linear Flow Distillation

Feb 9

ByZihan Yang, Shuyuan Tu, Licheng Zhang, Qi Dai, Yu-Gang Jiang, Zuxuan Wu

Diffusionsmodelle haben eine bemerkenswerte Generierungsqualität erreicht, leiden jedoch unter erheblichen Inferenzkosten aufgrund ihrer Abhängigkeit von mehreren sequenziellen Denoising-Schritten, was aktuelle Bemühungen motiviert, diesen Inferenzprozess auf ein Few-Step-Regime zu destillieren. Bestehende Destillationsmethoden approximieren jedoch typischerweise die Trajektorie des Teacher-Modells durch lineare Abkürzungen, was es schwierig macht, deren sich ständig ändernde Tangentenrichtungen zu treffen, da sich die Geschwindigkeiten über die Zeitschritte hinweg entwickeln, was zu Qualitätseinbußen führt. Um diese Einschränkung zu adressieren, schlagen wir ArcFlow vor, ein Few-Step-Destillationsframework, das explizit nicht-lineare Flusstrajektorien zur Approximation vorab trainierter Teacher-Trajektorien einsetzt. Konkret parametrisiert ArcFlow das zugrundeliegende Geschwindigkeitsfeld der Inferenztrajektorie als eine Mischung kontinuierlicher Momentum-Prozesse. Dies ermöglicht es ArcFlow, die Geschwindigkeitsentwicklung zu erfassen und kohärente Geschwindigkeiten zu extrapolieren, um innerhalb jedes Denoising-Schritts eine kontinuierliche nicht-lineare Trajektorie zu bilden. Wichtig ist, dass diese Parametrisierung eine analytische Integration dieser nicht-linearen Trajektorie zulässt, was numerische Diskretisierungsfehler umgeht und zu einer hochpräzisen Approximation der Teacher-Trajektorie führt. Um diese Parametrisierung zu einem Few-Step-Generator zu trainieren, implementieren wir ArcFlow mittels Trajektoriendestillation auf vorab trainierten Teacher-Modellen unter Verwendung leichter Adapter. Diese Strategie gewährleistet eine schnelle, stabile Konvergenz bei gleichzeitiger Bewahrung der generativen Vielfalt und Qualität. Aufbauend auf großskaligen Modellen (Qwen-Image-20B und FLUX.1-dev) feintunt ArcFlow nur weniger als 5 % der ursprünglichen Parameter und erreicht eine 40-fache Beschleunigung mit 2 NFEs gegenüber den ursprünglichen Multi-Step-Teachern ohne signifikanten Qualitätsverlust. Experimente auf Benchmarks zeigen die Wirksamkeit von ArcFlow sowohl qualitativ als auch quantitativ.

Große Sprachlobotomie: Jailbreaking von Mixture-of-Experts durch Expertensilencing
Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing

Feb 9

ByJona te Lintelo, Lichao Wu, Stjepan Picek

Die rasche Verbreitung von Mixture-of-Experts (MoE)-Architekturen markiert einen bedeutenden Wandel bei der Implementierung von Large Language Models (LLMs). MoE-LLMs verbessern die Skalierungseffizienz, indem sie pro Token nur eine kleine Teilmenge der Parameter aktivieren, doch ihre Routing-Struktur eröffnet neue Angriffsflächen für Sicherheitslücken. Wir stellen fest, dass sicherheitskritische Verhaltensweisen in MoE-LLMs (z.B. Ablehnungen) in einer kleinen Gruppe von Experten konzentriert sind und nicht gleichmäßig verteilt werden. Aufbauend darauf entwickeln wir Large Language Lobotomy (L^3), einen trainingsfreien, architekturunabhängigen Angriff, der die Sicherheitsausrichtung kompromittiert, indem er die Routing-Dynamik der Experten ausnutzt. L^3 erlernt Routing-Muster, die mit Ablehnungsverhalten korrelieren, attribuiert Sicherheitsverhalten auf bestimmte Experten und deaktiviert adaptiv die sicherheitsrelevantesten Experten, bis schädliche Ausgaben erzeugt werden. Wir evaluieren L^3 an acht modernen Open-Source-MoE-LLMs und zeigen, dass unser adaptives Experten-Silencing die durchschnittliche Angriffserfolgsrate von 7,3 % auf 70,4 % steigert, mit Spitzenwerten bis zu 86,3 %, und dabei bisherige trainingsfreie MoE-Jailbreak-Methoden übertrifft. Darüber hinaus erfordert die Umgehung von Sicherheitsbarrieren typischerweise die Deaktivierung von weniger als 20 % der Experten pro Schicht, wobei die allgemeine Sprachfähigkeit weitgehend erhalten bleibt. Diese Ergebnisse offenbaren einen grundlegenden Zielkonflikt zwischen effizienzorientiertem MoE-Design und robuster Sicherheitsausrichtung und motivieren eine widerstandsfähigere Verteilung von Sicherheitsmechanismen in zukünftigen MoE-LLMs durch architektur- und routing-bewusste Methoden.

Gewichtsabfall verbessert die Plastizität von Sprachmodellen
Weight Decay Improves Language Model Plasticity

Feb 11

ByTessa Han, Sebastian Bordt, Hanlin Zhang, Sham Kakade

Das vorherrschende Paradigma in der Entwicklung großer Sprachmodelle (LLM) besteht darin, ein Basismodell vorzutrainieren und anschließend weiteres Training zur Verbesserung der Leistung und des Modellverhaltens durchzuführen. Hyperparameteroptimierung und Skalierungsgesetze wurden jedoch hauptsächlich aus der Perspektive des Validierungsverlusts des Basismodells untersucht, wobei die Downstream-Adaptierbarkeit vernachlässigt wurde. In dieser Arbeit untersuchen wir das Vortraining aus der Perspektive der Modellplastizität, das heißt der Fähigkeit des Basismodells, sich durch Feinabstimmung erfolgreich an Downstream-Aufgaben anzupassen. Wir konzentrieren uns auf die Rolle der Gewichtsabnahme (Weight Decay), eines wichtigen Regularisierungsparameters während des Vortrainings. Durch systematische Experimente zeigen wir, dass Modelle, die mit größeren Werten für die Gewichtsabnahme trainiert wurden, plastischer sind, was bedeutet, dass sie größere Leistungssteigerungen zeigen, wenn sie auf Downstream-Aufgaben feinabgestimmt werden. Dieses Phänomen kann zu kontraintuitiven Kompromissen führen, bei denen Basismodelle, die nach dem Vortraining schlechter abschneiden, nach der Feinabstimmung besser performen können. Eine weitere Untersuchung der mechanistischen Auswirkungen der Gewichtsabnahme auf das Modellverhalten zeigt, dass sie linear separierbare Repräsentationen fördert, Attention-Matrizen regularisiert und Overfitting auf den Trainingsdaten reduziert. Zusammenfassend zeigt diese Arbeit die Bedeutung von Bewertungsmetriken jenseits des Kreuzentropieverlusts für die Hyperparameteroptimierung und beleuchtet die vielschichtige Rolle, die ein einzelner Optimierungshyperparameter bei der Gestaltung des Modellverhaltens spielt.

Wenn Aktionen vom Kurs abweichen: Erkennung und Korrektur fehlausgerichteter Aktionen bei Computeranwendungs-Agenten
When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents

Feb 9

ByYuting Ning, Jaylen Jones, Zhehao Zhang, Chentao Ye, Weitong Ruan, Junyi Li, Rahul Gupta, Huan Sun

Computernutzungsagenten (CUAs) haben im vergangenen Jahr enorme Fortschritte gemacht, erzeugen jedoch nach wie vor häufig fehlausgerichtete Aktionen, die von der ursprünglichen Benutzerabsicht abweichen. Solche fehlausgerichteten Aktionen können durch externe Angriffe (z.B. indirekte Prompt-Injection) oder durch interne Limitierungen (z.B. fehlerhafte Schlussfolgerungen) entstehen. Sie setzen CUAs nicht nur Sicherheitsrisiken aus, sondern beeinträchtigen auch die Aufgabeneffizienz und Zuverlässigkeit. Diese Arbeit unternimmt erstmals den Versuch, die Erkennung fehlausgerichteter Aktionen in CUAs zu definieren und zu untersuchen, mit umfassender Abdeckung sowohl extern verursachter als auch intern entstehender fehlausgerichteter Aktionen. Wir identifizieren weiterhin drei häufige Kategorien im realen CUA-Einsatz und konstruieren MisActBench, einen Benchmark mit realistischen Trajektorien und humanannotierten Alignment-Labels auf Aktionsebene. Darüber hinaus schlagen wir DeAction vor, eine praktische und universelle Guardrail-Lösung, die fehlausgerichtete Aktionen vor der Ausführung erkennt und sie durch strukturiertes Feedback iterativ korrigiert. DeAction übertrifft alle bestehenden Baseline-Methoden in Offline- und Online-Evaluationen bei moderater Latenzlast: (1) Auf MisActBench übertrifft es die Baselines um über 15 Prozentpunkte absolut im F1-Score; (2) In der Online-Evaluation reduziert es die Angriffserfolgsrate unter adversen Bedingungen um über 90 %, während es die Aufgaben-Erfolgsrate in benignen Umgebungen erhält oder sogar verbessert.

Von Merkmalen zu Aktionen: Erklärbarkeit in traditionellen und agentenbasierten KI-Systemen
From Features to Actions: Explainability in Traditional and Agentic AI Systems

Feb 6

BySindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza

In den letzten zehn Jahren hat sich erklärbare KI (XAI) hauptsächlich auf die Interpretation einzelner Modellvorhersagen konzentriert, wobei nachträglich Erklärungen generiert wurden, die Eingaben und Ausgaben unter einer festen Entscheidungsstruktur in Beziehung setzen. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben agentenbasierte KI-Systeme ermöglicht, deren Verhalten sich über mehrstufige Trajektorien entfaltet. In diesen Szenarien werden Erfolg und Misserfolg durch Entscheidungssequenzen und nicht durch eine einzelne Ausgabe bestimmt. Obwohl nützlich, ist unklar, wie Erklärungsansätze, die für statische Vorhersagen konzipiert wurden, auf agentenbasierte Settings übertragen werden können, in denen sich das Verhalten über die Zeit entwickelt. In dieser Arbeit schließen wir die Lücke zwischen statischer und agentenbasierter Erklärbarkeit, indem wir attributionsbasierte Erklärungen mit spurbasierten Diagnosen in beiden Settings vergleichen. Um diesen Unterschied explizit zu machen, vergleichen wir empirisch attributionsbasierte Erklärungen aus statischen Klassifikationsaufgaben mit spurbasierten Diagnosen aus agentenbasierten Benchmarks (TAU-bench Airline und AssistantBench). Unsere Ergebnisse zeigen, dass Attributionsmethoden zwar stabile Feature-Rankings in statischen Settings erreichen (Spearman ρ=0,86), sie jedoch nicht zuverlässig zur Diagnose von Ausführungsfehlern in agentenbasierten Trajektorien angewendet werden können. Im Gegensatz dazu lokalisiert die spurgestützte Rubrikbewertung für agentenbasierte Settings konsistent Verhaltenszusammenbrüche und zeigt, dass Inkonsistenzen in der Zustandsverfolgung in fehlgeschlagenen Durchläufen 2,7-mal häufiger auftreten und die Erfolgswahrscheinlichkeit um 49 % reduzieren. Diese Erkenntnisse motivieren einen Wandel hin zu trajektorienbasierter Erklärbarkeit für agentenbasierte Systeme bei der Bewertung und Diagnose autonomen KI-Verhaltens. Ressourcen: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework

FedPS: Föderierte Datenvorverarbeitung mittels aggregierter Statistiken
FedPS: Federated data Preprocessing via aggregated Statistics

Feb 11

ByXuefeng Xu, Graham Cormode

Federated Learning (FL) ermöglicht es mehreren Parteien, gemeinsam maschinelle Lernmodelle zu trainieren, ohne Rohdaten auszutauschen. Vor dem Training müssen die Daten jedoch vorverarbeitet werden, um fehlende Werte, inkonsistente Formate und heterogene MerkmalsSkalen zu behandeln. Diese Vorverarbeitungsphase ist entscheidend für die Modellleistung, wird in der FL-Forschung jedoch weitgehend vernachlässigt. In praktischen FL-Systemen verbieten Datenschutzbeschränkungen die Zentralisierung von Rohdaten, während Kommunikationseffizienz weitere Herausforderungen für die verteilte Vorverarbeitung mit sich bringt. Wir stellen FedPS vor, einen einheitlichen Rahmen für die föderierte Datenvorverarbeitung auf Basis aggregierter Statistiken. FedPS nutzt Data-Sketching-Techniken, um lokale Datensätze effizient zusammenzufassen und gleichzeitig essentielle statistische Informationen zu bewahren. Aufbauend auf diesen Zusammenfassungen entwerfen wir föderierte Algorithmen für MerkmalsSkalierung, Kodierung, Diskretisierung und die Imputation fehlender Werte und erweitern vorverarbeitungsrelevante Modelle wie k-Means, k-Nearest-Neighbors und Bayesianische Lineare Regression für horizontale und vertikale FL-Szenarien. FedPS bietet flexible, kommunikationseffiziente und konsistente Vorverarbeitungspipelines für den praktischen FL-Einsatz.

Investition der Suche dort, wo sie sich lohnt: Wertgesteuerte strukturierte Stichprobenziehung und Optimierung für generative Empfehlungssysteme
Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation

Feb 11

ByJie Jiang, Yangru Huang, Zeyu Wang, Changping Wang, Yuling Xiong, Jun Zhang, Huan Yu

Generative Empfehlung mittels autoregressiver Modelle hat Retrieval und Ranking in einem einzigen bedingten Generierungsframework vereinheitlicht. Die Feinabstimmung dieser Modelle mit Reinforcement Learning (RL) leidet jedoch oft unter einer grundlegenden Wahrscheinlichkeits-Belohnungs-Fehlanpassung. Konventionelle, wahrscheinlichkeitsdominierte Decodierung (z.B. Beam Search) zeigt eine myopische Verzerrung hin zu lokal wahrscheinlichen Präfixen, was zwei kritische Fehler verursacht: (1) Unzureichende Exploration, bei der hochbelohnte Items in Zweigen mit geringer Wahrscheinlichkeit vorzeitig beschnitten werden und selten gesampelt werden, und (2) Vorteils-Kompression, bei der Trajektorien, die sich hochwahrscheinliche Präfixe teilen, hochkorrelierte Belohnungen mit geringer Varianz innerhalb der Gruppe erhalten, was ein schwaches vergleichendes Signal für RL liefert. Um diese Herausforderungen zu bewältigen, schlagen wir V-STAR vor, einen wertgeleiteten Sampling- und baumstrukturierten Vorteils-Reinforcement-Framework. V-STAR bildet eine sich selbst entwickelnde Schleife über zwei synergetische Komponenten. Erstens wird eine wertgeleitete effiziente Decodierung (VED) entwickelt, um entscheidende Knoten zu identifizieren und vielversprechende Präfixe selektiv zu vertiefen. Dies verbessert die Explorationseffizienz ohne erschöpfende Baumsuche. Zweitens schlagen wir Sibling-GRPO vor, das die induzierte Baumtopologie nutzt, um geschwister-relative Vorteile zu berechnen und die Lernsignale auf entscheidende Verzweigungsentscheidungen konzentriert. Umfangreiche Experimente mit Offline- und Online-Datensätzen zeigen, dass V-STAR state-of-the-art Baseline-Methoden übertrifft und unter strengen Latenzbeschränkungen eine überlegene Genauigkeit und Kandidatenmenge-Diversität liefert.

Graph-Enhanced Deep Reinforcement Learning für multikriterielles Scheduling auf nichtverwandten parallelen Maschinen
Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling

Feb 8

ByBulent Soykan, Sean Mondesire, Ghaith Rabadi, Grace Bochenek

Das Unrelated Parallel Machine Scheduling Problem (UPMSP) mit Freigabeterminen, Rüstzeiten und Berechtigungsbeschränkungen stellt eine bedeutende mehrzielige Herausforderung dar. Traditionelle Methoden haben Schwierigkeiten, die Minimierung der gesamten gewichteten Verspätung (Total Weighted Tardiness, TWT) und der gesamten Rüstzeit (Total Setup Time, TST) in Einklang zu bringen. Dieser Beitrag stellt ein Deep Reinforcement Learning Framework vor, das Proximal Policy Optimization (PPO) und ein Graph Neural Network (GNN) verwendet. Das GNN repräsentiert effektiv den komplexen Zustand von Aufträgen, Maschinen und Rüstvorgängen, was es dem PPO-Agenten ermöglicht, eine direkte Scheduling-Policy zu erlernen. Gesteuert durch eine mehrzielige Belohnungsfunktion minimiert der Agent gleichzeitig TWT und TST. Experimentelle Ergebnisse mit Benchmark-Instanzen zeigen, dass unser PPO-GNN-Agent eine Standard-Zuweisungsregel und eine Metaheuristik signifikant übertrifft und einen überlegenen Kompromiss zwischen beiden Zielen erreicht. Dies bietet eine robuste und skalierbare Lösung für komplexe Fertigungsplanung.

StealthRL: Paraphrasierungsangriffe mittels Reinforcement Learning zur Umgehung von KI-Textdetektoren durch Multi-Detektor-Evasion
StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors

Feb 9

BySuraj Ranganath, Atharv Ramesh

KI-Textdetektoren sehen sich mit einer kritischen Robustheitsherausforderung konfrontiert: adversarische Paraphrasierungsangriffe, die die Semantik bewahren, während sie die Erkennung umgehen. Wir stellen StealthRL vor, ein Reinforcement-Learning-Framework, das die Robustheit von Detektoren unter realistischen adversarischen Bedingungen Stresstests unterzieht. StealthRL trainiert eine Paraphrasierungs-Strategie gegen ein Multi-Detektor-Ensemble unter Verwendung von Group Relative Policy Optimization (GRPO) mit LoRA-Adaptern auf Qwen3-4B und optimiert eine zusammengesetzte Belohnungsfunktion, die die Umgehung der Detektoren mit dem Erhalt der Semantik in Einklang bringt. Wir evaluieren sechs Angriffsszenarien (M0-M5) gegen drei Detektor-Familien (RoBERTa, FastDetectGPT und Binoculars) am sicherheitsrelevanten Betriebspunkt mit 1 % falsch-positiver Rate. StealthRL erreicht eine nahezu Null-Erkennung (0,001 mittlere TPR@1%FPR), reduziert die mittlere AUROC von 0,74 auf 0,27 und erzielt eine Angriffserfolgsrate von 99,9 %. Entscheidend ist, dass die Angriffe auf eine während des Trainings nicht gesehene, zurückgehaltene Detektor-Familie übertragbar sind, was gemeinsame architektonische Schwachstellen anstelle detectorspezifischer Brüchigkeit offenlegt. Zusätzlich führen wir eine LLM-basierte Qualitätsbewertung mittels Likert-Scoring durch, analysieren die Detektor-Score-Verteilungen, um zu erklären, warum die Umgehung gelingt, und liefern die AUROC pro Detektor mit Bootstrap-Konfidenzintervallen. Unsere Ergebnisse decken erhebliche Robustheitslücken in der aktuellen KI-Textdetektion auf und etablieren StealthRL als ein prinzipielles adversarisches Evaluierungsprotokoll. Code und Evaluierungs-Pipeline sind öffentlich verfügbar unter https://github.com/suraj-ranganath/StealthRL.