HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

56 papers found

OPUS: Auf dem Weg zu effizienter und prinzipienbasierter Datenauswahl im Pre-training großer Sprachmodelle in jeder Iteration
OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

Feb 5

ByShaobo Wang, Xuan Ouyang, Tianyi Xu, Yuzheng Hu, Jialin Liu, Guo Chen, Tianyu Zhang, Junhao Zheng, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang

279

Da hochwertige öffentliche Texte zunehmend erschöpft sind – ein Phänomen, das als „Datenmauer“ bekannt ist – verlagert sich das Pre-Training von mehr Tokens hin zu besseren Tokens. Bisherige Methoden verlassen sich jedoch entweder auf heuristische, statische Filter, die Trainingsdynamiken ignorieren, oder verwenden dynamische, aber optimiererunabhängige Kriterien auf Basis roher Gradienten. Wir schlagen OPUS (Optimizer-induced Projected Utility Selection) vor, einen dynamischen Datenauswahlrahmen, der den Nutzen im optimiererinduzierten Aktualisierungsraum definiert. OPUS bewertet Kandidaten, indem es deren effektive Aktualisierungen, geprägt durch moderne Optimierer, auf eine Zielrichtung projiziert, die von einem stabilen, in-distribution Proxy abgeleitet wird. Um Skalierbarkeit zu gewährleisten, setzen wir die Ghost-Technik mit CountSketch für recheneffiziente Projektionen ein und Boltzmann-Sampling für Datenvielfalt, was nur einen zusätzlichen Rechenaufwand von 4,7 % verursacht. OPUS erzielt bemerkenswerte Ergebnisse über verschiedene Korpora, Qualitätsstufen, Optimierer und Modellgrößen hinweg. Beim Pre-Training von GPT-2 Large/XL auf FineWeb und FineWeb-Edu mit 30 Mrd. Tokens übertrifft OPUS industrietaugliche Baseline-Methoden und sogar das vollständige Training mit 200 Mrd. Tokens. Zudem verbessert OPUS in Kombination mit industrietauglichen statischen Filtern die Pre-Training-Effizienz weiter, selbst bei Daten geringerer Qualität. Beim fortgesetzten Pre-Training von Qwen3-8B-Base auf SciencePedia erzielt OPUS mit nur 0,5 Mrd. Tokens eine überlegene Leistung im Vergleich zum vollständigen Training mit 3 Mrd. Tokens, was deutliche Effizienzgewinne in spezialisierten Domänen demonstriert.

Code2World: Ein GUI-Weltmodell durch erzeugbaren Render-Code
Code2World: A GUI World Model via Renderable Code Generation

Feb 10

ByYuhao Zheng, Li'an Zhong, Yi Wang, Rui Dai, Kaikui Liu, Xiangxiang Chu, Linyuan Lv, Philip Torr, Kevin Qinghong Lin

168

Autonome GUI-Agenten interagieren mit Umgebungen, indem sie Oberflächen wahrnehmen und Aktionen ausführen. Als virtuelle Sandbox ermöglicht das GUI-World-Modell Agenten eine menschenähnliche Vorausschau durch aktionsbedingte Vorhersagen. Bisherige text- und pixelbasierte Ansätze erreichen jedoch kaum gleichzeitig hohe visuelle Qualität und feinkörnige strukturelle Steuerbarkeit. Hierfür schlagen wir Code2World vor, einen Vision-Language-Coder, der den nächsten visuellen Zustand durch renderbare Code-Generierung simuliert. Um das Problem der Datenknappheit zu lösen, erstellen wir AndroidCode, indem wir GUI-Trajektorien in hochwertiges HTML übersetzen und synthetisierten Code durch einen Visual-Feedback-Revisionsmechanismus verfeinern – entsteht ein Korpus mit über 80.000 hochwertigen Bildschirm-Aktions-Paaren. Um bestehende VLMs für Code-Vorhersagen anzupassen, führen wir zunächst SFT als Kaltstart für Layoutformatierung durch und wenden dann Render-Aware Reinforcement Learning an, das gerenderte Ergebnisse als Belohnungssignal nutzt, indem visuelle semantische Treue und Aktionskonsistenz erzwungen werden. Umfangreiche Experimente zeigen, dass Code2World-8B bei der nächsten UI-Vorhersage führend ist und mit konkurrenzfähigen Modellen wie GPT-5 und Gemini-3-Pro-Image mithalten kann. Bemerkenswerterweise steigert Code2World downstream Navigationserfolgsraten flexibel und verbessert Gemini-2.5-Flash um +9,5 % bei AndroidWorld-Navigation. Der Code ist verfügbar unter https://github.com/AMAP-ML/Code2World.

Technischer Bericht zu UI-Venus-1.5
UI-Venus-1.5 Technical Report

Feb 9

ByVeuns-Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang

143

GUI-Agenten haben sich als leistungsstarkes Paradigma zur Automatisierung von Interaktionen in digitalen Umgebungen etabliert, doch die gleichzeitige Erzielung breiter Allgemeingültigkeit und konsistent starker Aufgabenleistung bleibt eine Herausforderung. In diesem Bericht stellen wir UI-Venus-1.5 vor, einen vereinheitlichten, end-to-end GUI-Agenten, der für robuste Anwendungen in der realen Welt konzipiert ist. Die vorgeschlagene Modellfamilie umfasst zwei Dense-Varianten (2B und 8B) und eine Mixture-of-Experts-Variante (30B-A3B), um verschiedenen nachgelagerten Anwendungsszenarien gerecht zu werden. Im Vergleich zu unserer vorherigen Version führt UI-Venus-1.5 drei wichtige technische Fortschritte ein: (1) eine umfassende Mid-Training-Phase, die 10 Milliarden Tokens über 30+ Datensätze nutzt, um grundlegende GUI-Semantik zu etablieren; (2) Online Reinforcement Learning mit Full-Trajectory Rollouts, das die Trainingsziele mit langfristiger, dynamischer Navigation in großskaligen Umgebungen in Einklang bringt; und (3) einen einzigen vereinheitlichten GUI-Agenten, der durch Model Merging konstruiert wird und domänenspezifische Modelle (Grounding, Web und Mobile) zu einem kohäsiven Checkpoint synthetisiert. Umfangreiche Evaluationen zeigen, dass UI-Venus-1.5 neue State-of-the-Art-Leistungen auf Benchmarks wie ScreenSpot-Pro (69,6 %), VenusBench-GD (75,0 %) und AndroidWorld (77,6 %) erzielt und damit frühere starke Baselines deutlich übertrifft. Zudem demonstriert UI-Venus-1.5 robuste Navigationsfähigkeiten über eine Vielzahl chinesischer Mobile Apps hinweg und führt Benutzeranweisungen in realen Szenarien effektiv aus. Code: https://github.com/inclusionAI/UI-Venus; Modell: https://huggingface.co/collections/inclusionAI/ui-venus

Kette der Denkweise: Argumentation mit adaptiven kognitiven Modi
Chain of Mindset: Reasoning with Adaptive Cognitive Modes

Feb 10

ByTianyi Jiang, Arctanx An, Hengyi Feng, Naixin Zhai, Haodong Li, Xiaomin Yu, Jiahui Liu, Hanwen Du, Shuo Zhang, Zhi Yang, Jie Huang, Yuhua Li, Yongxin Ni, Huacan Wang, Ronghao Chen

Menschliches Problemlösen ist niemals die Wiederholung eines einzigen Denkmodus, womit wir eine bestimmte Art der kognitiven Verarbeitung meinen. Bei der Bearbeitung einer konkreten Aufgabe verlassen wir uns nicht auf einen einzelnen Denkmodus; stattdessen integrieren wir mehrere Denkmodi innerhalb eines einzigen Lösungsprozesses. Allerdings verfallen bestehende LLM-Argumentationsmethoden in eine häufige Falle: Sie wenden denselben festen Denkmodus über alle Schritte hinweg an und übersehen dabei, dass verschiedene Phasen der Lösung desselben Problems grundlegend unterschiedliche Denkmodi erfordern. Diese einseitige Annahme verhindert, dass Modelle die nächste Stufe der Intelligenz erreichen. Um diese Einschränkung zu adressieren, schlagen wir Chain of Mindset (CoM) vor, ein trainingsfreies agentenbasiertes Framework, das eine adaptive Orchestrierung von Denkmodi auf Schrittebene ermöglicht. CoM zerlegt das Schlussfolgern in vier funktional heterogene Denkmodi: Räumlich, Konvergent, Divergent und Algorithmisch. Ein Meta-Agent wählt dynamisch den optimalen Denkmodus basierend auf dem sich entwickelnden Lösungszustand aus, während ein bidirektionales Kontext-Gate den Informationsfluss zwischen den Modulen filtert, um Wirksamkeit und Effizienz zu erhalten. Experimente über sechs anspruchsvolle Benchmarks aus den Bereichen Mathematik, Code-Generierung, wissenschaftliche Frage-Antwort-Systeme und räumliches Denken zeigen, dass CoM state-of-the-art Leistung erzielt und die stärkste Baseline in der Gesamtgenauigkeit auf Qwen3-VL-32B-Instruct und Gemini-2.0-Flash um 4,96 % bzw. 4,72 % übertrifft, bei gleichzeitiger Wahrung der Effizienz des Schlussfolgerns. Unser Code ist öffentlich verfügbar unter https://github.com/QuantaAlpha/chain-of-mindset.

SkillRL: Evolution von Agenten durch rekursive fähigkeitsgestützte Verstärkungslernen
SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

Feb 9

ByPeng Xia, Jianwen Chen, Hanyang Wang, Jiaqi Liu, Kaide Zeng, Yu Wang, Siwei Han, Yiyang Zhou, Xujiang Zhao, Haifeng Chen, Zeyu Zheng, Cihang Xie, Huaxiu Yao

Große Sprachmodell-Agenten (LLM) haben beeindruckende Ergebnisse bei komplexen Aufgaben gezeigt, agieren jedoch oft isoliert und lernen nicht aus vergangenen Erfahrungen. Bestehende speicherbasierte Methoden speichern primär Roh-Trajektorien, die häufig redundant und rauschbehaftet sind. Dies verhindert, dass Agenten hochrangige, wiederverwendbare Verhaltensmuster extrahieren, die für Generalisierung entscheidend sind. In diesem Artikel schlagen wir SkillRL vor, ein Framework, das die Lücke zwischen Roh-Erfahrung und Politikverbesserung durch automatische Skill-Entdeckung und rekursive Evolution überbrückt. Unser Ansatz führt einen erfahrungsbasierten Destillationsmechanismus ein, um eine hierarchische Skill-Bibliothek (SkillBank) aufzubauen, eine adaptive Abrufstrategie für allgemeine und aufgabenspezifische Heuristiken sowie einen rekursiven Evolutionsmechanismus, der die Skill-Bibliothek ermöglicht, sich während des bestärkenden Lernens gemeinsam mit der Politik des Agenten weiterzuentwickeln. Diese Innovationen reduzieren den Token-Fußabdruck signifikant und verbessern gleichzeitig den Reasoning-Nutzen. Experimentelle Ergebnisse auf ALFWorld, WebShop und sieben suchverstärkten Aufgaben zeigen, dass SkillRL state-of-the-art Leistung erreicht, starke Baseline-Modelle um über 15,3% übertrifft und Robustheit bei steigender Aufgabenkomplexität beibehält. Code ist verfügbar unter https://github.com/aiming-lab/SkillRL.

P1-VL: Brückenschlag zwischen visueller Wahrnehmung und wissenschaftlichem Denken in Physikolympiaden
P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

Feb 10

ByYun Luo, Futing Wang, Qianjia Cheng, Fangchen Yu, Haodi Lei, Jianhao Yan, Chenxi Li, Jiacheng Chen, Yufeng Zhao, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Wenxuan Zeng, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui

Der Übergang von symbolischer Manipulation zu wissenschaftlich hochwertigem Denken stellt eine entscheidende Grenze für große Sprachmodelle (LLMs) dar, wobei die Physik als zentraler Prüfstein dient, um abstrakte Logik an die physikalische Realität zu binden. Die Physik erfordert, dass ein Modell physikalische Konsistenz mit den Gesetzen des Universums wahrt – eine Aufgabe, die grundlegend multimodale Wahrnehmung erfordert, um abstrakte Logik in der Realität zu verankern. Auf Olympiaden-Niveau sind Diagramme oft konstitutiv und nicht nur illustrativ; sie enthalten wesentliche Randbedingungen, wie etwa Grenzbedingungen und räumliche Symmetrien, die im Text fehlen. Um diese visuell-logische Lücke zu überbrücken, stellen wir P1-VL vor, eine Familie quelloffener Vision-Sprache-Modelle, die für fortgeschrittenes wissenschaftliches Denken entwickelt wurden. Unsere Methode verbindet Curriculum Reinforcement Learning, das fortschreitende Schwierigkeitssteigerung zur Stabilisierung des Post-Trainings nutzt, mit agentenbasierter Erweiterung, die iterative Selbstverifikation während der Inferenz ermöglicht. Ausgewertet auf HiPhO, einem rigorosen Benchmark mit 13 Prüfungen von 2024–2025, wird unser Flaggschiff P1-VL-235B-A22B das erste quelloffene Vision-Sprache-Modell (VLM), das 12 Goldmedaillen erringt, und erreicht state-of-the-art Leistung unter den quelloffenen Modellen. Unser agentengestütztes System erreicht global den zweiten Gesamtrang, knapp hinter Gemini-3-Pro. Über die Physik hinaus zeigt P1-VL bemerkenswerte wissenschaftliche Denkfähigkeit und Generalisierbarkeit und erzielt signifikante Vorsprünge gegenüber Basismodellen in MINT-Benchmarks. Durch die Veröffentlichung von P1-VL als Open Source leisten wir einen grundlegenden Schritt hin zu einer allgemeinen physikalischen Intelligenz, um visuelle Wahrnehmungen besser mit abstrakten physikalischen Gesetzen für maschinelle wissenschaftliche Entdeckungen in Einklang zu bringen.

Agenten-Weltmodell: Unendliche synthetische Umgebungen für agentenbasiertes bestärkendes Lernen
Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Feb 10

ByZhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He

Jüngste Fortschritte bei großen Sprachmodellen (LLM) haben autonomen Agenten die Ausführung komplexer Aufgaben ermöglicht, die mehrstufige Interaktionen mit Werkzeugen und Umgebungen erfordern. Die Skalierung eines solchen Agententrainings wird jedoch durch den Mangel an vielfältigen und zuverlässigen Umgebungen eingeschränkt. In diesem Artikel schlagen wir Agent World Model (AWM) vor, eine vollständig synthetische Pipeline zur Umgebungsgenerierung. Mit dieser Pipeline skalieren wir auf 1.000 Umgebungen, die alltägliche Szenarien abdecken, in denen Agenten mit umfangreichen Werkzeugsätzen (durchschnittlich 35 Werkzeuge pro Umgebung) interagieren und hochwertige Beobachtungen erhalten können. Bemerkenswerterweise sind diese Umgebungen codegesteuert und durch Datenbanken unterstützt, was zuverlässigere und konsistentere Zustandsübergänge bietet als durch LLMs simulierte Umgebungen. Zudem ermöglichen sie eine effizientere Agenteninteraktion im Vergleich zur Erfassung von Trajektorien aus realen Umgebungen. Um die Wirksamkeit dieser Ressource zu demonstrieren, führen wir Reinforcement Learning im großen Maßstab für mehrstufige Werkzeugnutzungs-Agenten durch. Dank der vollständig ausführbaren Umgebungen und zugänglichen Datenbankzustände können wir auch zuverlässige Belohnungsfunktionen entwerfen. Experimente mit drei Benchmarks zeigen, dass ein ausschließliches Training in synthetischen Umgebungen anstatt in benchmarkspezifischen Umgebungen eine starke Out-of-Distribution-Generalisation bewirkt. Der Code ist verfügbar unter https://github.com/Snowflake-Labs/agent-world-model.

Prisma: Spektral-bewusste block-sparse Aufmerksamkeit
Prism: Spectral-Aware Block-Sparse Attention

Feb 9

ByXinghao Wang, Pengyu Wang, Xiaoran Liu, Fangxu Liu, Jason Chu, Kai Song, Xipeng Qiu

Block-Sparse-Attention ist vielversprechend für die Beschleunigung der Pre-Filling-Phase von LLMs mit langem Kontext, doch die effiziente Identifizierung relevanter Blöcke bleibt ein Engpass. Bestehende Methoden verwenden typischerweise grobkörnige Attention als Näherung für die Blockbedeutungsschätzung, greifen aber oft auf aufwändige Token-basierte Suche oder Bewertung zurück, was zu erheblichem Auswahlaufwand führt. In dieser Arbeit führen wir die Ungenauigkeit der standardmäßigen grobkörnigen Attention mittels Mean-Pooling auf eine theoretische Ursache zurück: die Wechselwirkung zwischen Mean-Pooling und Rotary Positional Embeddings (RoPE). Wir beweisen, dass Mean-Pooling als Tiefpassfilter wirkt, der destruktive Interferenz in hochfrequenten Dimensionen verursacht und effektiv einen "blinden Fleck" für lokale Positionsinformationen (z.B. Slash-Muster) erzeugt. Um dies zu beheben, stellen wir Prism vor, einen trainierungsfreien, spektralbewussten Ansatz, der die Blockauswahl in Hochfrequenz- und Niederfrequenz-Zweige zerlegt. Durch energiebasierte Temperaturkalibrierung stellt Prism die abgeschwächten Positionssignale direkt aus den gepoolten Repräsentationen wieder her und ermöglicht so eine Blockbedeutungsschätzung mit rein blockbasierten Operationen, was die Effizienz steigert. Umfangreiche Auswertungen bestätigen, dass Prism die Genauigkeit der Voll-Attention erreicht und dabei eine bis zu 5,1-fache Beschleunigung liefert.

DLLM-Searcher: Anpassung von Diffusion Large Language Models für Suchagenten
DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents

Feb 3

ByJiahao Zhao, Shaoxuan Xu, Zhongxiang Sun, Fengqi Zhu, Jingyang Ou, Yuling Shi, Chongxuan Li, Xiao Zhang, Jun Xu

Kürzlich haben Diffusions-Großsprachmodelle (dLLMs) einzigartige Effizienzvorteile demonstriert, die durch ihren inhärent parallelen Decodierungsmechanismus und flexiblen Generierungsansatz ermöglicht werden. Unterdessen ist der praktische Einsatz von Suchagenten, trotz ihrer rasanten Entwicklung, durch eine grundlegende Einschränkung eingeschränkt, die als 1) Latenzproblem bezeichnet wird: Die serielle Ausführung von mehrstufigem Reasoning, Tool-Aufrufen und dem Warten auf Tool-Antworten innerhalb des ReAct-Agentenparadigmas verursacht eine erhebliche End-to-End-Latenz. Intuitiv können dLLMs ihre besonderen Stärken nutzen, um die operative Effizienz von Agenten unter dem ReAct-Paradigma zu optimieren. In der Praxis sehen sich bestehende dLLM-Basismodelle jedoch mit der 2) Fähigkeitsherausforderung für Agenten konfrontiert. Das bedeutet, dass existierende dLLMs bemerkenswert schwache Reasoning- und Tool-Aufruffähigkeiten aufweisen, was verhindert, dass diese Vorteile in der Praxis effektiv realisiert werden können. In diesem Artikel schlagen wir DLLM-Searcher vor, ein Optimierungsframework für dLLM-basierte Suchagenten. Um die Fähigkeitsherausforderung für Agenten zu lösen, entwerfen wir eine zweistufige Post-Training-Pipeline, die agentenbasiertes überwachtes Feintuning (Agentic SFT) und agentenbasierte varianzreduzierte Präferenzoptimierung (Agentic VRPO) umfasst, wodurch die Informationssuch- und Reasoning-Fähigkeiten des dLLM-Basismodells verbessert werden. Um das Latenzproblem zu mildern, nutzen wir den flexiblen Generierungsmechanismus von dLLMs und schlagen ein neuartiges Agentenparadigma namens Parallel-Reasoning and Acting (P-ReAct) vor. P-ReAct weist das Modell an, priorisiert Tool_Aufruf-Anweisungen zu decodieren, wodurch das Modell weiterdenken kann, während es auf die Rückmeldung des Tools wartet. Experimentelle Ergebnisse zeigen, dass DLLM-Searcher eine Leistung erzielt, die mit der主流er LLM-basierter Suchagenten vergleichbar ist, und dass P-ReAct eine Beschleunigung der Inferenz um etwa 15% bewirkt. Unser Code ist verfügbar unter https://anonymous.4open.science/r/DLLM-Searcher-553C.

Olaf-World: Ausrichtung latenter Aktionen für die Videoweltenmodellierung
Olaf-World: Orienting Latent Actions for Video World Modeling

Feb 10

ByYuxin Jiang, Yuchao Gu, Ivor W. Tsang, Mike Zheng Shou

Die Skalierung von handlungssteuerbaren Weltmodellen wird durch die Knappheit von Aktionslabels begrenzt. Während latente Aktionslernverfahren versprechen, Steuerungsschnittstellen aus ungelabelten Videos zu extrahieren, gelingt der Transfer gelernten Latenter Variablen über verschiedene Kontexte hinweg oft nicht: Sie vermischen kontextspezifische Merkmale und es fehlt ihnen an einem gemeinsamen Koordinatensystem. Dies geschieht, weil Standard-Zielfunktionen nur innerhalb jedes Clips operieren und keinen Mechanismus zur Abstimmung der Aktionssemantik über Kontexte hinweg bieten. Unsere zentrale Erkenntnis ist, dass zwar die Aktionen selbst unbeobachtet sind, ihre semantischen Effekte jedoch beobachtbar sind und als gemeinsame Referenz dienen können. Wir führen SeqΔ-REPA ein, eine sequenzielle Zielfunktion zur Ausrichtung von Steuereffekten, die integrierte latente Aktionen an zeitlichen Merkmalsdifferenzen eines eingefrorenen, selbstüberwachten Videoencoders verankert. Darauf aufbauend präsentieren wir Olaf-World, eine Pipeline, die aktionskonditionierte Videoweltenmodelle aus passiv aufgenommenen Großdaten-Videos vortrainiert. Umfangreiche Experimente zeigen, dass unsere Methode einen strukturierteren latenten Aktionsraum erlernt, was zu einem stärkeren Zero-Shot-Aktionstransfer und einer dateneffizienteren Anpassung an neue Steuerungsschnittstellen führt als bei state-of-the-art Baseline-Verfahren.

Agent Banana: Hochauflösende Bildbearbeitung durch agentenbasiertes Denken und Werkzeuge
Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

Feb 9

ByRuijie Ye, Jiayi Zhang, Zhuoxin Liu, Zihao Zhu, Siyuan Yang, Li Li, Tianfu Fu, Franck Dernoncourt, Yue Zhao, Jiacheng Zhu, Ryan Rossi, Wenhao Chai, Zhengzhong Tu

Wir untersuchen instruktionsbasiertes Bildbearbeitung in professionellen Workflows und identifizieren drei beständige Herausforderungen: (i) Editoren modifizieren häufig über das beabsichtigte Maß hinaus; (ii) bestehende Modelle sind überwiegend single-turn, während mehrstufige Bearbeitungen die Objekttreue beeinträchtigen können; (iii) die Evaluierung bei ca. 1K-Auflösung entspricht nicht realen Workflows, die oft mit Ultra-HD-Bildern (z.B. 4K) arbeiten. Wir stellen Agent Banana vor – ein hierarchisches agentenbasiertes Planer-Ausführer-Framework für hochpräzise, objektbewusste, deliberative Bearbeitung. Agent Banana führt zwei Schlüsselmechanismen ein: (1) Context Folding, das lange Interaktionsverläufe in strukturiertem Gedächtnis komprimiert für stabile Langzeitkontrolle; und (2) Image Layer Decomposition, das lokalisierte schichtbasierte Bearbeitungen durchführt, um nicht-betroffene Regionen zu erhalten und native Auflösungsausgaben zu ermöglichen. Für rigorose Evaluation entwickeln wir HDD-Bench, einen hochauflösenden, dialogbasierten Benchmark mit verifizierbaren schrittweisen Zielen und nativen 4K-Bildern (11,8M Pixel) zur Diagnose von Langzeitfehlern. Auf HDD-Bench erzielt Agent Banana die beste Mehrschritt-Konsistenz und Hintergrundtreue (z.B. IC 0,871, SSIM-OM 0,84, LPIPS-OM 0,12) bei gleichzeitig wettbewerbsfähiger Instruktionsbefolgung und zeigt auch auf standardisierten Single-Turn-Bearbeitungsbenchmarks starke Leistungen. Diese Arbeit soll zuverlässige, professionelle agentenbasierte Bildbearbeitung und deren Integration in reale Workflows voranbringen.

TokenTrim: Inferenzzeit-Token-Reduzierung für autoregressive Langvideogenerierung
TokenTrim: Inference-Time Token Pruning for Autoregressive Long Video Generation

Jan 30

ByAriel Shaulov, Eitan Shaar, Amit Edenzon, Lior Wolf

Autoregressive Videogenerierung ermöglicht die Synthese langer Videos, indem jeder neue Frame-Batch iterativ auf zuvor generierten Inhalten konditioniert wird. Jüngste Arbeiten haben jedoch gezeigt, dass solche Pipelines unter erheblicher zeitlicher Drift leiden, bei der sich Fehler über lange Zeiträume akkumulieren und verstärken. Wir stellen die Hypothese auf, dass diese Drift nicht primär auf unzureichende Modellkapazität zurückzuführen ist, sondern vielmehr auf Fehlerfortpflanzung zur Inferenzzeit. Konkret vertreten wir die Auffassung, dass die Drift durch die unkontrollierte Wiederverwendung korrumpierter latenter Konditionierungstoken während des autoregressiven Inferenzvorgangs entsteht. Um diese Fehlerakkumulation zu korrigieren, schlagen wir eine einfache Methode zur Inferenzzeit vor, die zeitliche Drift abmildert, indem instabile latente Token identifiziert und entfernt werden, bevor sie zur Konditionierung wiederverwendet werden. Zu diesem Zweck definieren wir instabile Token als latente Token, deren Repräsentationen signifikant von denen des zuvor generierten Batches abweichen, was auf potenzielle Korruption oder semantische Drift hindeutet. Indem unsere Methode explizit korrumpierte latente Token aus dem autoregressiven Kontext entfernt, anstatt gesamte räumliche Regionen oder Modellparameter zu modifizieren, verhindert sie, dass unzuverlässige latente Informationen zukünftige Generierungsschritte beeinflussen. Infolgedessen verbessert sie die zeitliche Konsistenz über lange Horizonte signifikant, ohne die Modellarchitektur, das Trainingsverfahren zu verändern oder den latenten Raum zu verlassen.

Verfeinerung von Bedingungsfehlern in der autoregressiven Bildgenerierung mit Diffusionsverlust
Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss

Feb 2

ByYucheng Zhou, Hao Li, Jianbing Shen

Aktuelle Studien haben autoregressive Modelle für die Bildgenerierung untersucht, mit vielversprechenden Ergebnissen, und haben Diffusionsmodelle mit autoregressiven Frameworks kombiniert, um die Bildgenerierung mittels Diffusionsverlusten zu optimieren. In dieser Studie präsentieren wir eine theoretische Analyse von Diffusions- und autoregressiven Modellen mit Diffusionsverlust, wobei wir die Vorteile des Letzteren hervorheben. Wir stellen einen theoretischen Vergleich von bedingter Diffusion und autoregressiver Diffusion mit Diffusionsverlust an und zeigen, dass die Optimierung der Patch-Entrauschung in autoregressiven Modellen Konditionsfehler effektiv reduziert und zu einer stabilen Konditionsverteilung führt. Unsere Analyse zeigt zudem, dass die autoregressive Konditionsgenerierung die Kondition verfeinert, was zu einem exponentiellen Abklingen des Konditionsfehlereinflusses führt. Zusätzlich führen wir einen neuartigen Ansatz zur Konditionsverfeinerung ein, der auf der Optimal-Transport-Theorie (OT) basiert, um „Konditionsinkonsistenz“ zu adressieren. Wir zeigen theoretisch, dass die Formulierung der Konditionsverfeinerung als Wasserstein-Gradientenfluss eine Konvergenz in Richtung der idealen Konditionsverteilung gewährleistet und so Konditionsinkonsistenz wirksam mindert. Experimente belegen die Überlegenheit unserer Methode gegenüber Diffusions- und autoregressiven Modellen mit Diffusionsverlust-Verfahren.

SCALE: Selbstunsicherheits-konditioniertes adaptives Schauen und Ausführen für Sprach-Bild-Handlungs-Modelle
SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

Feb 4

ByHyeonbeom Choi, Daechul Ahn, Youhan Lee, Taewook Kang, Seongwon Cho, Jonghyun Choi

Vision-Language-Action (VLA)-Modelle haben sich als vielversprechendes Paradigma für universelle Robotersteuerung etabliert, wobei Test-Time Scaling (TTS) zunehmend an Bedeutung gewinnt, um die Robustheit über das Training hinaus zu verbessern. Bisherige TTS-Methoden für VLAs erfordern jedoch zusätzliches Training, Verifizierer und mehrere Vorwärtspässe, was ihren praktischen Einsatz erschwert. Darüber hinaus greifen sie nur bei der Aktionsdekodierung ein, während die visuellen Repräsentationen unverändert bleiben – ein unzureichender Ansatz bei perzeptueller Ambiguität, bei der eine Neubewertung der Wahrnehmung ebenso wichtig ist wie die Entscheidung über die nächste Aktion. Um diese Einschränkungen zu überwinden, schlagen wir SCALE vor, eine einfache Inferenzstrategie, die visuelle Wahrnehmung und Aktion gemeinsam auf Basis von "Selbst-Unsicherheit" moduliert. Inspiriert von unsicherheitsgetriebener Exploration in der Active Inference-Theorie, benötigt SCALE weder zusätzliches Training noch einen Verifizierer und kommt mit nur einem einzigen Vorwärtspass aus. SCALE erweitert die Exploration in Wahrnehmung und Aktion bei hoher Unsicherheit, konzentriert sich jedoch auf Exploitation bei hoher Konfidenz – was eine adaptive Ausführung unter variierenden Bedingungen ermöglicht. Experimente mit simulierten und realen Benchmarks zeigen, dass SCALE state-of-the-art VLA-Modelle verbessert und bestehende TTS-Methoden übertrifft, bei gleichzeitiger Beibehaltung der Ein-Pass-Effizienz.

LatentLens: Hochgradig interpretierbare visuelle Tokens in LLMs aufdecken
LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Jan 31

ByBenno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach

Die Umwandlung eines großen Sprachmodells (LLM) in ein Vision-Sprache-Modell (VLM) kann durch die Abbildung visueller Tokens eines Vision-Encoders in den Einbettungsraum eines LLM erreicht werden. Interessanterweise kann diese Abbildung so einfach sein wie eine flache MLP-Transformation. Um zu verstehen, warum LLMs visuelle Tokens so problemlos verarbeiten können, benötigen wir Interpretierbarkeitsmethoden, die aufdecken, was in den Repräsentationen der visuellen Tokens auf jeder Verarbeitungsebene des LLM kodiert ist. In dieser Arbeit stellen wir LatentLens vor, einen neuartigen Ansatz zur Abbildung latenter Repräsentationen auf Beschreibungen in natürlicher Sprache. LatentLens funktioniert, indem ein großer Textkorpus kodiert und kontextualisierte Token-Repräsentationen für jedes Token in diesem Korpus gespeichert werden. Visuelle Token-Repräsentationen werden dann mit ihren kontextualisierten textuellen Repräsentationen verglichen, wobei die Top-k nächsten Nachbar-Repräsentationen Beschreibungen des visuellen Tokens liefern. Wir evaluieren diese Methode an 10 verschiedenen VLMs und zeigen, dass häufig verwendete Methoden, wie z.B. LogitLens, die Interpretierbarkeit visueller Tokens erheblich unterschätzen. Mit LatentLens hingegen ist die Mehrheit der visuellen Tokens über alle untersuchten Modelle und alle Schichten hinweg interpretierbar. Qualitativ zeigen wir, dass die von LatentLens erzeugten Beschreibungen semantisch bedeutungsvoll sind und im Vergleich zu einzelnen Tokens fein granulare Interpretationen für Menschen liefern. Im weiteren Sinne liefern unsere Ergebnisse neue Belege für die Ausrichtung zwischen visuellen und sprachlichen Repräsentationen und eröffnen neue Richtungen für die Analyse latenter Repräsentationen.

BagelVLA: Verbesserung der Langzeithorizont-Manipulation durch verschachtelte Vision-Sprache-Handlungs-Generierung
BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

Feb 10

ByYucheng Hu, Jianke Zhang, Yuanfei Luo, Yanjiang Guo, Xiaoyu Chen, Xinshu Sun, Kun Feng, Qingzhou Lu, Sheng Chen, Yangang Zhang, Wei Li, Jianyu Chen

Die Ausstattung verkörperter Agenten mit der Fähigkeit, Aufgaben zu durchdenken, physische Ergebnisse vorherzusehen und präzise Aktionen zu generieren, ist für allgemeine Manipulationsaufgaben unerlässlich. Während neuere Vision-Language-Action (VLA)-Modelle auf vortrainierten Foundation-Modellen aufbauen, konzentrieren sie sich typischerweise entweder auf linguistische Planung oder visuelle Prognose isoliert. Diese Methoden integrieren selten beide Fähigkeiten gleichzeitig zur Steuerung der Aktionsgenerierung, was zu suboptimalen Leistungen bei komplexen, langfristigen Manipulationsaufgaben führt. Um diese Lücke zu schließen, schlagen wir BagelVLA vor, ein vereinheitlichtes Modell, das linguistische Planung, visuelle Vorhersage und Aktionsgenerierung in einem einzigen Framework integriert. Ausgehend von einem vortrainierten Modell für vereinheitlichtes Verständnis und Generierung wird BagelVLA trainiert, textuelles Reasoning und visuelle Prädiktion direkt in die Aktionsausführungsschleife einzubetten. Um diese Modalitäten effizient zu koppeln, führen wir Residual Flow Guidance (RFG) ein, das von der aktuellen Beobachtung initialisiert und Ein-Schritt-Entrausung nutzt, um prädiktive visuelle Merkmale zu extrahieren und so die Aktionsgenerierung mit minimaler Latenz zu steuern. Umfangreiche Experimente zeigen, dass BagelVLA bestehende Baseline-Methoden auf mehreren simulierten und realen Benchmarks signifikant übertrifft, insbesondere bei Aufgaben, die mehrstufiges Reasoning erfordern.

ScaleEnv: Skalierbare Umgebungssynthese von Grund auf für das Training generalistischer interaktiver Werkzeugnutzungsagenten
ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

Feb 6

ByDunwei Tu, Hongyan Hao, Hansi Yang, Yihao Chen, Yi-Kai Zhang, Zhikang Xia, Yu Yang, Yueqing Sun, Xingchen Liu, Furao Shen, Qi Gu, Hui Su, Xunliang Cai

Die Ausbildung generalistischer Agenten, die in der Lage sind, sich an verschiedene Szenarien anzupassen, erfordert interaktive Umgebungen zur Selbsterkundung. Interaktive Umgebungen sind jedoch nach wie vor äußerst knapp, und bestehende Synthesemethoden weisen erhebliche Einschränkungen hinsichtlich der Umgebungsvielfalt und Skalierbarkeit auf. Um diese Herausforderungen zu bewältigen, stellen wir ScaleEnv vor, ein Framework, das vollständig interaktive Umgebungen und verifizierbare Aufgaben vollständig von Grund auf erstellt. Konkret gewährleistet ScaleEnv die Zuverlässigkeit der Umgebung durch prozedurale Tests und garantiert Aufgabenvollständigkeit und Lösbarkeit durch die Erweiterung von Werkzeugabhängigkeitsgraphen und die Verifizierung ausführbarer Aktionen. Indem wir Agenten ermöglichen, durch Exploration innerhalb von ScaleEnv zu lernen, demonstrieren wir signifikante Leistungsverbesserungen bei unbekannten, mehrstufigen Werkzeugeinsatz-Benchmarks wie τ^2-Bench und VitaBench, was auf starke Generalisierungsfähigkeiten hindeutet. Darüber hinaus untersuchen wir die Beziehung zwischen der zunehmenden Anzahl von Domänen und der Generalisierungsleistung des Modells und liefern empirische Belege dafür, dass die Skalierung der Umgebungsvielfalt entscheidend für robustes Agentenlernen ist.

VLA-JEPA: Verbesserung von Vision-Language-Action-Modellen mit latenten Weltmodellen
VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Feb 10

ByJingwen Sun, Wenyao Zhang, Zekun Qi, Shaojie Ren, Zezhi Liu, Hanxin Zhu, Guangzhong Sun, Xin Jin, Zhibo Chen

Das Pretraining von Vision-Language-Action (VLA)-Policies auf internetweiten Videodaten ist vielversprechend, doch aktuelle Latent-Action-Ansätze lernen häufig das Falsche: sie bleiben an Pixelvariationen anstatt an aktionsrelevanten Zustandsübergängen orientiert, was sie anfällig für Erscheinungsbias, Störbewegungen und Informationslecks macht. Wir stellen VLA-JEPA vor, ein Pretraining-Framework im JEPA-Stil, das diese Fallstricke durch sein Design umgeht. Der Kernansatz ist die leckfreie Zustandsprädiktion: Ein Target-Encoder erzeugt latente Repräsentationen aus zukünftigen Frames, während der Student-Pfad nur die aktuelle Beobachtung sieht – zukünftige Informationen dienen ausschließlich als Supervisionsziele, niemals als Eingabe. Durch die Prädiktion im latenten Raum anstatt im Pixelraum lernt VLA-JEPA Dynamikabstraktionen, die robust gegenüber Kamerabewegungen und irrelevanten Hintergrundveränderungen sind. Dies ergibt ein einfaches Zwei-Stufen-Verfahren – JEPA-Pretraining gefolgt von Fine-tuning des Action-Heads – ohne die mehrstufige Komplexität bisheriger Latent-Action-Pipelines. Experimente auf LIBERO, LIBERO-Plus, SimplerEnv und realen Manipulationsaufgaben zeigen, dass VLA-JEPA durchgängige Verbesserungen in Generalisierung und Robustheit gegenüber bestehenden Methoden erzielt.

Kontaktverankerte Richtlinien: Kontaktkonditionierung erzeugt starke Nutzenmodelle für Roboter
Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models

Feb 9

ByZichen Jeff Cui, Omar Rayyan, Haritheja Etukuru, Bowen Tan, Zavier Andrianarivo, Zicheng Teng, Yihang Zhou, Krish Mehta, Nicholas Wojno, Kevin Yuanbo Wu, Manan H Anjaria, Ziyuan Wu, Manrong Mao, Guangxun Zhang, Binit Shah, Yejin Kim, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah

Das vorherrschende Paradigma im Robotik-Lernen versucht, zur Laufzeit mittels Sprachprompts über Umgebungen, Embodiments und Aufgaben hinweg zu generalisieren. Ein grundlegender Widerspruch begrenzt diesen Ansatz: Sprache ist oft zu abstrakt, um das konkrete physikalische Verständnis zu leiten, das für robuste Manipulation erforderlich ist. In dieser Arbeit stellen wir Contact-Anchored Policies (CAP) vor, die Sprachkonditionierung durch Punkte physischen Kontakts im Raum ersetzen. Gleichzeitig strukturieren wir CAP als eine Bibliothek modularer Hilfsmodelle anstatt als eine monolithische Generalisten-Policy. Diese Faktorisierung ermöglicht es uns, einen Real-zu-Sim-Iterationszyklus zu implementieren: Wir entwickeln EgoGym, einen leichtgewichtigen Simulationsbenchmark, um schnell Fehlermodi zu identifizieren und unsere Modelle und Datensätze vor dem Einsatz in der realen Welt zu verfeinern. Wir zeigen, dass CAP durch Konditionierung auf Kontakt und Iteration via Simulation out-of-the-box auf neuartige Umgebungen und Embodiments für drei grundlegende Manipulationsfertigkeiten generalisiert, wobei nur 23 Stunden Demonstrationsdaten verwendet werden, und große, state-of-the-art VLAs in Zero-Shot-Evaluierungen um 56% übertrifft. Alle Modell-Checkpoints, Codebase, Hardware, Simulation und Datensätze werden quelloffen bereitgestellt. Projektseite: https://cap-policy.github.io/

Dr. MAS: Stabile Verstärkungslernverfahren für Multi-Agenten-LLM-Systeme
Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

Feb 9

ByLang Feng, Longtao Zheng, Shuo He, Fuxiang Zhang, Bo An

Multi-Agent-LLM-Systeme ermöglichen durch Rollenspezialisierung fortschrittliches Reasoning und Werkzeugeinsatz, dennoch bleibt zuverlässiges Reinforcement Learning (RL) als Nachtraining für solche Systeme schwierig. In dieser Arbeit identifizieren wir theoretisch einen Hauptgrund für Trainingsinstabilität, wenn gruppenbasiertes RL auf Multi-Agent-LLM-Systeme erweitert wird. Wir zeigen, dass bei GRPO-artiger Optimierung eine globale Normalisierungs-Baseline von den unterschiedlichen Belohnungsverteilungen der Agenten abweichen kann, was letztendlich zu Gradientennorm-Instabilität führt. Basierend auf dieser Erkenntnis schlagen wir Dr. MAS vor, ein einfaches und stabiles RL-Trainingsverfahren für Multi-Agent-LLM-Systeme. Dr. MAS verwendet ein agentenweises Gegenmittel: die Normalisierung der Advantages pro Agent unter Verwendung der jeweiligen agenteneigenen Belohnungsstatistik, was die Gradientenskalen kalibriert und das Training sowohl theoretisch als auch empirisch dramatisch stabilisiert. Über den Algorithmus hinaus bietet Dr. MAS einen end-to-end RL-Trainingsrahmen für Multi-Agent-LLM-Systeme, der skalierbare Orchestrierung, flexible pro-Agent-LLM-Auslieferung und Optimierungskonfigurationen sowie gemeinsame Ressourcenplanung von LLM-Actor-Backends unterstützt. Wir evaluieren Dr. MAS an Multi-Agent-Mathe-Reasoning- und Multi-Turn-Such-Benchmarks mit Qwen2.5- und Qwen3-Serienmodellen. Dr. MAS erzielt deutliche Verbesserungen gegenüber vanilla GRPO (z.B. +5,6 % avg@16 und +4,6 % pass@16 bei Mathe, sowie +15,2 % avg@16 und +13,1 % pass@16 bei der Suche) und eliminiert Gradientenspitzen weitgehend. Darüber hinaus bleibt es bei heterogenen Agenten-Modell-Zuordnungen hocheffektiv und verbessert gleichzeitig die Effizienz.

VideoWorld 2: Übertragbares Wissen aus realen Videos lernen
VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

Feb 10

ByZhongwei Ren, Yunchao Wei, Xiao Yu, Guixun Luo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin

Die Übertragung von erlerntem Wissen aus unmarkierten Videodaten auf neue Umgebungen ist eine grundlegende Fähigkeit intelligenter Agenten. Diese Arbeit stellt VideoWorld 2 vor, das VideoWorld erweitert und die erste Untersuchung zum Erlernen übertragbaren Wissens direkt aus rohen Realwelt-Videos bietet. Kernstück von VideoWorld 2 ist ein dynamikverstärktes Latent Dynamics Model (dLDM), das Aktionsdynamik von visueller Erscheinung entkoppelt: Ein vortrainiertes Video-Diffusionsmodell übernimmt die Modellierung der visuellen Erscheinung, wodurch das dLDM latente Codes erlernen kann, die sich auf kompakte und bedeutungsvolle aufgabenrelevante Dynamiken konzentrieren. Diese latenten Codes werden anschließend autoregressiv modelliert, um Aufgabenstrategien zu erlernen und langfristige Planung zu unterstützen. Wir evaluieren VideoWorld 2 anspruchsvollen Realwelt-Aufgaben zur handwerklichen Herstellung, bei denen bisherige Video-Generierungs- und Latent-Dynamics-Modelle an ihre Grenzen stoßen. Bemerkenswerterweise erzielt VideoWorld 2 eine bis zu 70%ige Steigerung der Aufgabenerfolgsrate und erzeugt kohärente Langzeit-Ausführungsvideos. In der Robotik zeigen wir, dass VideoWorld 2 effektives Manipulationswissen aus dem Open-X-Datensatz erwerben kann, was die Aufgabenleistung auf CALVIN erheblich verbessert. Diese Studie offenbart das Potenzial, direkt aus rohen Videos übertragbares Weltwissen zu erlernen. Sämtlicher Code, Daten und Modelle werden zur weiteren Forschung quelloffen bereitgestellt.

Fine-T2I: Ein offener, umfangreicher und vielfältiger Datensatz für hochwertiges T2I-Fine-Tuning
Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning

Feb 10

ByXu Ma, Yitian Zhang, Qihua Dong, Yun Fu

Hochwertige und offene Datensätze bleiben ein wesentlicher Engpass für das Fine-Tuning von Text-zu-Bild (T2I) Modellen. Trotz rasanter Fortschritte bei Modellarchitekturen und Trainingspipelines leiden die meisten öffentlich verfügbaren Fine-Tuning-Datensätze unter niedriger Auflösung, schlechter Text-Bild-Ausrichtung oder begrenzter Vielfalt, was zu einer deutlichen Leistungslücke zwischen offenen Forschungsmodellen und Unternehmensmodellen führt. In dieser Arbeit stellen wir Fine-T2I vor, einen groß angelegten, hochwertigen und vollständig offenen Datensatz für das T2I-Fine-Tuning. Fine-T2I umfasst 10 Aufgabenkombinationen, 32 Prompt-Kategorien, 11 visuelle Stile und 5 Prompt-Vorlagen und kombiniert synthetische Bilder, die von leistungsstarken modernen Modellen generiert wurden, mit sorgfältig kuratierten echten Bildern von professionellen Fotografen. Alle Stichproben wurden rigoros auf Text-Bild-Ausrichtung, visuelle Qualität und Prompt-Qualität gefiltert, wobei über 95 % der ursprünglichen Kandidaten entfernt wurden. Der endgültige Datensatz enthält über 6 Millionen Text-Bild-Paare, entspricht etwa 2 TB auf der Festplatte und nähert sich damit dem Umfang von Vortrainingsdatensätzen, bei gleichbleibender Fine-Tuning-Qualität. Bei einer Vielzahl von vortrainierten Diffusions- und autoregressiven Modellen verbessert das Fine-Tuning auf Fine-T2I durchgängig sowohl die Generierungsqualität als auch die Befolgung von Anweisungen, wie durch menschliche Bewertung, visuelle Vergleiche und automatische Metriken validiert wurde. Wir veröffentlichen Fine-T2I unter einer offenen Lizenz, um dazu beizutragen, die Datenlücke im T2I-Fine-Tuning in der Open-Source-Community zu schließen.

Großskalige Erzeugung agentischer Trajektorien aus Dockerisierten Umgebungen für Terminalanwendungen
Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments

Feb 1

BySiwei Wu, Yizhi Li, Yuyang Song, Wei Zhang, Yang Wang, Riza Batista-Navarro, Xian Yang, Mingjie Tang, Bryan Dai, Jian Yang, Chenghua Lin

Das Training agentischer Modelle für terminalbasierte Aufgaben hängt entscheidend von hochwertigen Terminaltrajektorien ab, die realistische, langfristige Interaktionen über verschiedene Domänen hinweg erfassen. Die Erstellung solcher Daten in großem Maßstab bleibt jedoch aufgrund zweier zentraler Anforderungen herausfordernd: \emph{Ausführbarkeit}, da jede Instanz eine geeignete und oft spezifische Docker-Umgebung erfordert, und \emph{Verifizierbarkeit}, da heterogene Aufgabenausgaben eine einheitliche, standardisierte Überprüfung verhindern. Um diese Herausforderungen zu bewältigen, schlagen wir TerminalTraj vor, eine skalierbare Pipeline, die (i) hochwertige Repositories filtert, um Docker-fähige Ausführungsumgebungen zu konstruieren, (ii) Docker-kompatible Aufgabeninstanzen generiert und (iii) Agententrajektorien mit ausführbarem Validierungscode synthetisiert. Mit TerminalTraj haben wir 32.000 Docker-Images aufbereitet und 50.733 verifizierte Terminaltrajektorien über acht Domänen hinweg generiert. Auf diesen Daten trainierte Modelle mit der Qwen2.5-Coder-Basis erzielen durchgängige Leistungssteigerungen im TerminalBench (TB), mit Verbesserungen von bis zu 20 % bei TB~1.0 und 10 % bei TB~2.0 gegenüber ihren jeweiligen Basismodellen. Besonders hervorzuheben ist, dass TerminalTraj-32B eine starke Leistung unter Modellen mit weniger als 100B Parametern erreicht, mit 35,30 % auf TB~1.0 und 22,00 % auf TB~2.0, und ein verbessertes Skalierungsverhalten zur Testzeit demonstriert. Der gesamte Code und die Daten sind unter https://github.com/Wusiwei0410/TerminalTraj verfügbar.

Dynamisches Langzeitkontextverständnis über komprimiertem Gedächtnis mittels End-to-End-Verstärkungslernen
Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Feb 9

ByZhuoen Chen, Dongfang Li, Meishan Zhang, Baotian Hu, Min Zhang

Große Sprachmodelle (LLMs) stehen vor erheblichen Herausforderungen bei der Verarbeitung langer Kontexte, darunter quadratische Rechenkosten, Informationsvergessen und die kontextbedingte Fragmentierung, die retrieval-augmentierter Generierung (RAG) inhärent ist. Wir schlagen ein kognitiv inspiriertes Framework für effiziente Inferenz bei langen Kontexten vor, das auf blockweiser Kompression und selektivem Gedächtnisabruf basiert, anstatt alle Roh-Token zu verarbeiten. Das Framework segmentiert lange Eingaben in Blöcke und kodiert jeden Block mittels eines trainierten Kompressors in komprimierte Gedächtnisrepräsentationen. Ein Gating-Modul wählt dynamisch relevante Gedächtnisblöcke aus, die dann iterativ von einem Reasoning-Modul mit sich entwickelndem Arbeitsgedächtnis verarbeitet werden, um Downstream-Aufgaben zu lösen. Kompressor und Reasoner werden gemeinsam durch End-to-End-Verstärkungslernen optimiert, während das Gating-Modul separat als Klassifikator trainiert wird. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode auf Multi-Hop-Reasoning-Benchmarks wie RULER-HQA eine konkurrenzfähige Genauigkeit erreicht, die Kontextlänge von 7K auf 1,75M Token extrapoliert und im Vergleich zu starken Long-Context-Baselines eine günstige Genauigkeits-Effizienz-Abwägung bietet. Insbesondere erreicht sie eine bis zu 2-fache Reduzierung der Spitzen-GPU-Speichernutzung und eine 6-fache Beschleunigung der Inferenz gegenüber MemAgent.

Steer2Adapt: Dynamische Komposition von Steuervektoren bewirkt effiziente Anpassung von LLMs
Steer2Adapt: Dynamically Composing Steering Vectors Elicits Efficient Adaptation of LLMs

Feb 7

ByPengrui Han, Xueqiang Xu, Keyang Xuan, Peiyang Song, Siru Ouyang, Runchu Tian, Yuqing Jiang, Cheng Qian, Pengcheng Jiang, Jiashuo Sun, Junxia Cui, Ming Zhong, Ge Liu, Jiawei Han, Jiaxuan You

Aktivierungssteuerung hat sich als vielversprechender Ansatz erwiesen, um große Sprachmodelle (LLMs) effizient an nachgelagerte Verhaltensweisen anzupassen. Die meisten bestehenden Steuerungsmethoden stützen sich jedoch auf eine einzige statische Richtung pro Aufgabe oder Konzept, was sie unflexibel bei Aufgabenvarianz macht und für komplexe Aufgaben unzureichend ist, die mehrere koordinierte Fähigkeiten erfordern. Um diese Einschränkung zu adressieren, schlagen wir STEER2ADAPT vor, ein leichtgewichtiges Framework, das LLMs anpasst, indem es Steuerungsvektoren kombiniert, anstatt neue von Grund auf zu lernen. In vielen Domänen (z.B. Reasoning oder Sicherheit) teilen Aufgaben eine kleine Menge zugrunde liegender Konzeptdimensionen. STEER2ADAPT erfasst diese Dimensionen als einen wiederverwendbaren, niedrigdimensionalen semantischen Prior-Unterraum und passt sich an neue Aufgaben an, indem es dynamisch eine Linearkombination von Basisvektoren aus nur wenigen Beispielen entdeckt. Experimente über 9 Aufgaben und 3 Modelle in den Domänen Reasoning und Sicherheit demonstrieren die Wirksamkeit von STEER2ADAPT mit einer durchschnittlichen Verbesserung von 8,2%. Umfassende Analysen zeigen weiterhin, dass STEER2ADAPT eine dateneffiziente, stabile und transparente Inferenzzeit-Anpassungsmethode für LLMs ist.

Neubewertung der globalen Textkonditionierung in Diffusions-Transformatoren
Rethinking Global Text Conditioning in Diffusion Transformers

Feb 9

ByNikita Starodubcev, Daniil Pakhomov, Zongze Wu, Ilya Drobyshevskiy, Yuchen Liu, Zhonghao Wang, Yuqian Zhou, Zhe Lin, Dmitry Baranchuk

Diffusion-Transformer integrieren typischerweise Textinformationen über Attention-Layer und einen Modulationsmechanismus unter Verwendung eines gepoolten Text-Embeddings. Jüngere Ansätze verzichten jedoch auf modulationsbasierte Textkonditionierung und stützen sich ausschließlich auf Attention. In diesem Artikel untersuchen wir, ob modulationsbasierte Textkonditionierung notwendig ist und ob sie einen Leistungsvorteil bieten kann. Unsere Analyse zeigt, dass das gepoolte Embedding in seiner konventionellen Verwendung wenig zum Gesamtergebnis beiträgt, was nahelegt, dass Attention allein im Allgemeinen ausreicht, um Prompt-Informationen zuverlässig zu propagieren. Wir zeigen jedoch auf, dass das gepoolte Embedding erhebliche Verbesserungen bringen kann, wenn es aus einer anderen Perspektive genutzt wird – nämlich als Guidance, die kontrollierbare Verschiebungen in Richtung wünschenswerter Eigenschaften ermöglicht. Dieser Ansatz ist trainingsfrei, einfach zu implementieren, verursacht einen vernachlässigbaren Laufzeit-Overhead und kann auf verschiedene Diffusionsmodelle angewendet werden, wodurch Verbesserungen in diversen Aufgaben erzielt werden, einschließlich Text-zu-Bild/Video-Generierung und Bildbearbeitung.

Covo-Audio Technischer Bericht
Covo-Audio Technical Report

Feb 10

ByWenfu Wang, Chenxing Li, Liqiang Zhang, Yiyang Zhao, Yuxiang Zou, Hanzhao Li, Mingyu Cui, Hao Zhang, Kun Wei, Le Xu, Zikang Huang, Jiajun Xu, Jiliang Hu, Xiang He, Zeyu Xie, Jiawen Kang, Youjun Chen, Meng Yu, Dong Yu, Rilin Chen, Linlin Di, Shulin Feng, Na Hu, Yang Liu, Bang Wang, Shan Yang

In dieser Arbeit stellen wir Covo-Audio vor, ein end-to-end LALM mit 7B Parametern, das kontinuierliche Audioeingaben direkt verarbeitet und Audioausgaben innerhalb einer einzigen, vereinheitlichten Architektur erzeugt. Durch groß angelegtes, kuratiertes Pre-Training und gezieltes Post-Training erzielt Covo-Audio state-of-the-art oder wettbewerbsfähige Leistungen unter Modellen vergleichbarer Größe in einem breiten Aufgabenspektrum, einschließlich Sprach-Text-Modellierung, gesprochenem Dialog, Sprachverständnis, Audioverständnis und Vollduplex-Sprachinteraktion. Umfangreiche Evaluationen zeigen, dass das vortrainierte Fundamentmodell auf mehreren Benchmarks starke Fähigkeiten im Sprach-Text-Verständnis und semantischen Schlussfolgern aufweist und repräsentative Open-Source-Modelle vergleichbarer Größe übertrifft. Darüber hinaus weist Covo-Audio-Chat, die dialogorientierte Variante, starke gesprochene Konversationsfähigkeiten nach, einschließlich Verständnis, kontextuellem Reasoning, Befolgen von Anweisungen und Erzeugen kontextuell angemessener und empathischer Antworten, was seine Anwendbarkeit in realen Konversations-Assistant-Szenarien validiert. Covo-Audio-Chat-FD, das weiterentwickelte Vollduplex-Modell, erzielt eine deutlich überlegene Leistung sowohl bei gesprochenen Dialogfähigkeiten als auch bei Vollduplex-Interaktionsverhalten und demonstriert damit seine Kompetenz in puncto praktischer Robustheit. Um die hohen Kosten für den Einsatz end-to-end LALMs in natürlichen Konversationssystemen zu mindern, schlagen wir eine Intelligence-Speaker-Entkopplungsstrategie vor, die Dialogintelligenz von Sprachwiedergabe trennt. Dies ermöglicht eine flexible Sprachanpassung mit minimalen Text-to-Speech (TTS)-Daten bei Erhalt der Dialogleistung. Insgesamt unterstreichen unsere Ergebnisse das große Potenzial von Modellen im 7B-Maßstab, anspruchsvolle Audiointelligenz mit hochrangigem semantischem Reasoning zu integrieren, und weisen einen skalierbaren Weg zu leistungsfähigeren und vielseitigeren LALMs.

Effektive Argumentationsketten reduzieren die intrinsische Dimensionalität.
Effective Reasoning Chains Reduce Intrinsic Dimensionality

Feb 9

ByArchiki Prasad, Mandar Joshi, Kenton Lee, Mohit Bansal, Peter Shaw

Chain-of-Thought (CoT)-Reasoning und ihre Varianten haben die Leistung von Sprachmodellen bei komplexen Reasoning-Aufgaben erheblich verbessert, doch die genauen Mechanismen, durch die verschiedene Strategien die Generalisierung ermöglichen, sind nach wie vor unzureichend verstanden. Während aktuelle Erklärungen oft auf erhöhte Berechnungen zur Testzeit oder strukturelle Führung verweisen, bleibt die Herstellung einer konsistenten, quantifizierbaren Verbindung zwischen diesen Faktoren und der Generalisierung eine Herausforderung. In dieser Arbeit identifizieren wir die intrinsische Dimensionalität als quantitatives Maß zur Charakterisierung der Effektivität von Reasoning-Ketten. Die intrinsische Dimensionalität quantifiziert die minimale Anzahl von Modell-Dimensionen, die benötigt wird, um einen bestimmten Genauigkeitsschwellenwert bei einer gegebenen Aufgabe zu erreichen. Indem wir die Modellarchitektur konstant halten und die Aufgabenstellung durch verschiedene Reasoning-Strategien variieren, zeigen wir, dass effektive Reasoning-Strategien konsequent die intrinsische Dimensionalität der Aufgabe reduzieren. Durch Validierung anhand von GSM8K mit Gemma-3 1B und 4B beobachten wir eine starke inverse Korrelation zwischen der intrinsischen Dimensionalität einer Reasoning-Strategie und ihrer Generalisierungsleistung auf sowohl In-Distribution- als auch Out-of-Distribution-Daten. Unsere Ergebnisse legen nahe, dass effektive Reasoning-Ketten das Lernen erleichtern, indem sie die Aufgabe besser mit weniger Parametern komprimieren, und bieten damit eine neue quantitative Metrik zur Analyse von Reasoning-Prozessen.

iGRPO: Selbstfeedback-gesteuertes LLM-Reasoning
iGRPO: Self-Feedback-Driven LLM Reasoning

Feb 9

ByAli Hatamizadeh, Shrimai Prabhumoye, Igor Gitman, Ximing Lu, Seungju Han, Wei Ping, Yejin Choi, Jan Kautz

Große Sprachmodelle (LLMs) haben vielversprechende Fähigkeiten bei der Lösung komplexer mathematischer Probleme gezeigt, liefern jedoch nach wie vor keine durchgängig genauen und konsistenten Lösungen. Reinforcement Learning (RL) ist ein Framework, um diese Modelle an aufgabenspezifische Belohnungen anzupassen und so die Gesamtqualität und Zuverlässigkeit zu verbessern. Group Relative Policy Optimization (GRPO) ist eine effiziente, wertfunktionsfreie Alternative zu Proximal Policy Optimization (PPO), die eine gruppenrelative Belohnungsnormalisierung nutzt. Wir stellen Iterative Group Relative Policy Optimization (iGRPO) vor, eine zweistufige Erweiterung von GRPO, die dynamische Selbstkonditionierung durch modellgenerierte Entwürfe hinzufügt. In Stufe 1 generiert iGRPO mehrere explorative Entwürfe und wählt den Entwurf mit der höchsten Belohnung unter Verwendung desselben skalaren Belohnungssignals aus, das für die Optimierung verwendet wird. In Stufe 2 wird dieser beste Entwurf an den ursprünglichen Prompt angehängt und ein GRPO-artiges Update auf den entwurfsbedingten Verfeinerungen durchgeführt, wodurch die Policy trainiert wird, über ihren bisher stärksten Versuch hinaus zu verbessern. Bei identischen Rollout-Budgets übertrifft iGRPO durchgängig GRPO über verschiedene Basismodelle hinweg (z.B. Nemotron-H-8B-Base-8K und DeepSeek-R1 Distilled), was seine Wirksamkeit auf diversen Reasoning-Benchmarks bestätigt. Darüber hinaus erzielt die Anwendung von iGRPO auf OpenReasoning-Nemotron-7B, das auf AceReason-Math trainiert wurde, mit 85,62 % bzw. 79,64 % neue state-of-the-art Ergebnisse auf AIME24 und AIME25. Ablationstudien zeigen weiterhin, dass das Verfeinerungs-Wrapper-Konzept über GRPO-Varianten hinaus verallgemeinerbar ist, von einem generativen Judge profitiert und die Lern dynamik verändert, indem es den Entropiekollaps verzögert. Diese Ergebnisse unterstreichen das Potenzial von iterativem, auf Selbstfeedback basierendem RL für die Weiterentwicklung von verifizierbarem mathematischem Reasoning.

TreeCUA: Effiziente Skalierung von GUI-Automatisierung mit baumstrukturierter verifizierbarer Evolution
TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

Feb 10

ByDeyang Jiang, Jing Huang, Xuanle Zhao, Lei Chen, Liming Zheng, Fanfan Liu, Haibo Qiu, Peng Shi, Zhixiong Zeng

Eine effektive Skalierung der GUI-Automatisierung ist für Computer-Use-Agents (CUAs) entscheidend; bestehende Arbeiten konzentrieren sich jedoch primär auf die Skalierung des GUI-Groundings und nicht auf die wichtigere GUI-Planung, die anspruchsvollere Datensammlung erfordert. In der Realität folgt der Explorationsprozess eines CUAs über Apps/Desktops/Webseiten typischerweise einer Baumstruktur, wobei frühere funktionale Einstiegspunkte häufig häufiger erkundet werden. Daher kann die Organisation groß angelegter Trajektorien in Baumstrukturen die Datenkosten senken und die Datenskalierung der GUI-Planung optimieren. In dieser Arbeit schlagen wir TreeCUA vor, um die GUI-Automatisierung effizient mit baumstrukturierter verifizierbarer Evolution zu skalieren. Wir schlagen ein Multi-Agenten-Kollaborationsframework vor, um die Umgebung zu erkunden, Aktionen zu verifizieren, Trajektorien zusammenzufassen und die Qualität zu bewerten, um hochwertige und skalierbare GUI-Trajektorien zu generieren. Um die Effizienz zu steigern, entwickeln wir eine neuartige baumbasierte Topologie zur Speicherung und Wiedergabe duplizierter Explorationsknoten und entwerfen einen adaptiven Explorationsalgorithmus, um Tiefe (d.h. Schwierigkeit der Trajektorie) und Breite (d.h. Diversität der Trajektorie) auszugleichen. Darüber hinaus entwickeln wir Weltwissensführung und globales Memory-Backtracking, um qualitativ minderwertige Generierung zu vermeiden. Schließlich erweitern wir TreeCUA natürlich und schlagen die TreeCUA-DPO-Methode auf Basis umfangreicher Baumknoteninformationen vor, die die GUI-Planungsfähigkeit verbessert, indem sie auf Verzweigungsinformationen benachbarter Trajektorien zurückgreift. Experimentelle Ergebnisse zeigen, dass TreeCUA und TreeCUA-DPO signifikante Verbesserungen bieten, und Out-of-Domain (OOD)-Studien demonstrieren zudem eine starke Generalisierungsfähigkeit. Alle Trajektorienknoteninformationen und der Code werden unter https://github.com/UITron-hub/TreeCUA verfügbar sein.

ANCHOR: Erzeugung von Verzweigungspunktdaten für GUI-Agenten
ANCHOR: Branch-Point Data Generation for GUI Agents

Feb 6

ByJinbiao Wei, Yilun Zhao, Kangqi Ni, Arman Cohan

End-to-End-GUI-Agenten für echte Desktop-Umgebungen benötigen große Mengen hochwertiger Interaktionsdaten, doch die Erfassung menschlicher Demonstrationen ist kostspielig und bestehende synthetische Pipelines leiden oft unter begrenzter Aufgabenvielfalt oder verrauschten, zieldriftenden Trajektorien. Wir stellen ein Trajektorienerweiterungsframework namens Anchor vor, das skalierbare Desktop-Überwachung aus einer kleinen Menge verifizierter Seed-Demonstrationen bootstrappt. Ausgehend von jedem Seed identifizieren wir Verzweigungspunkte, die bedeutungsvollen Zustandsänderungen entsprechen, und schlagen neue, zustandsbasierte Aufgabenvarianten vor, die auf den aktuellen GUI-Kontext konditioniert sind. Ein ausführender Agent folgt dann den vorgeschlagenen Anweisungen, um neue Trajektorien zu generieren, während ein Verifizierer die Aufgabenabschlüsse durch zustandsbewusste Prüfungen und Trajektorienkonsistenz durchsetzt. Um die Überwachungsqualität zu verbessern, wenden wir zusätzlich eine aufgabenkonditionierte, schrittweise Filterung an, um unbegründete Aktionen zu entfernen, und entrauschen Nachverzweigungssegmente, um kohärente Absichten beizubehalten. Experimente auf standardisierten Desktop-Benchmarks, OSWorld und WindowsAgentArena, zeigen, dass Modelle, die auf unserem erweiterten Korpus feinabgestimmt wurden, konsistente Verbesserungen gegenüber Zero-Shot-Agenten und repräsentativen Synthese-Baselines erzielen und über Anwendungen und Betriebssysteme hinweg generalisieren.

SAGE: Skalierbare agentenbasierte 3D-Szenengenerierung für verkörpertes KI-Systeme
SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

Feb 10

ByHongchi Xia, Xuan Li, Zhaoshuo Li, Qianli Ma, Jiashu Xu, Ming-Yu Liu, Yin Cui, Tsung-Yi Lin, Wei-Chiu Ma, Shenlong Wang, Shuran Song, Fangyin Wei

Die Datenerhebung in der realen Welt für verkörperte Agenten bleibt kostspielig und unsicher, was den Bedarf an skalierbaren, realistischen und simulationsfertigen 3D-Umgebungen unterstreicht. Bisherige Systeme zur Szenengenerierung basieren jedoch häufig auf regelbasierten oder aufgabenspezifischen Pipelines, was zu Artefakten und physikalisch ungültigen Szenen führt. Wir stellen SAGE vor, ein agentenbasiertes Framework, das – ausgehend von einer benutzerdefinierten verkörperten Aufgabe (z.B. "Hebe eine Schale auf und stelle sie auf den Tisch") – die Absicht versteht und automatisch skalierbare, simulationsfertige Umgebungen erzeugt. Der Agent kombiniert mehrere Generatoren für Layout und Objektzusammensetzung mit Kritikern, die semantische Plausibilität, visuelle Realitätstreue und physikalische Stabilität bewerten. Durch iteratives Reasoning und adaptive Werkzeugauswahl verfeinert er die Szenen selbstständig, bis Benutzerabsicht und physikalische Validität erfüllt sind. Die resultierenden Umgebungen sind realistisch, vielfältig und direkt in modernen Simulatoren für Policy-Training einsetzbar. Policies, die ausschließlich mit diesen Daten trainiert werden, zeigen klare Skalierungstendenzen und generalisieren auf ungesehene Objekte und Layouts, was das Potenzial simulationsgestützter Skalierung für verkörperte KI demonstriert. Code, Demos und der SAGE-10k-Datensatz sind auf der Projektseite verfügbar: https://nvlabs.github.io/sage.

Autoregressive Bildgenerierung mit Masked Bit Modeling
Autoregressive Image Generation with Masked Bit Modeling

Feb 9

ByQihang Yu, Qihao Liu, Ju He, Xinyang Zhang, Yang Liu, Liang-Chieh Chen, Xi Chen

Dieses Papier hinterfragt die Dominanz kontinuierlicher Pipelines in der visuellen Generierung. Wir untersuchen systematisch die Leistungslücke zwischen diskreten und kontinuierlichen Methoden. Entgegen der Annahme, dass diskrete Tokenizer von Natur aus unterlegen seien, zeigen wir, dass die Diskrepanz hauptsächlich von der Gesamtzahl der im latenten Raum zugewiesenen Bits (d. h. dem Kompressionsverhältnis) herrührt. Wir demonstrieren, dass eine Skalierung der Codebook-Größe diese Lücke effektiv schließt und es diskreten Tokenizern ermöglicht, mit ihren kontinuierlichen Gegenstücken gleichzuziehen oder diese zu übertreffen. Bestehende diskrete Generierungsmethoden können diese Erkenntnis jedoch nicht nutzbar machen, da sie unter Leistungseinbußen oder prohibitiv hohen Trainingskosten bei skaliertem Codebook leiden. Um dieses Problem zu adressieren, schlagen wir maskiertes Bit-Autoregressives Modellieren (BAR) vor, einen skalierbaren Rahmen, der beliebige Codebook-Größen unterstützt. Indem ein autoregressiver Transformer mit einem Masked-Bit-Modelling-Head ausgestattet wird, sagt BAR diskrete Tokens durch das schrittweise Generieren ihrer konstituierenden Bits vorher. BAR erreicht einen neuen state-of-the-art gFID-Wert von 0,99 auf ImageNet-256 und übertrifft damit führende Methoden sowohl aus dem kontinuierlichen als auch dem diskreten Paradigma, während gleichzeitig die Abtastkosten signifikant gesenkt und eine schnellere Konvergenz als bei früheren kontinuierlichen Ansätzen erzielt wird. Die Projektseite ist unter https://bar-gen.github.io/ verfügbar.

OPE: Überwindung der Informationssättigung beim parallelen Denken durch gliederungsgesteuerte Pfaderkundung
OPE: Overcoming Information Saturation in Parallel Thinking via Outline-Guided Path Exploration

Feb 9

ByQi Guo, Jianing Wang, Deyang Kong, Xiangyu Xi, Jianfei Zhang, Yi Lu, Jingang Wang, Wei Wang, Shikun Zhang, Wei Ye

Paralleles Denken hat sich als neues Paradigma für große Reasoning-Modelle (LRMs) zur Bewältigung komplexer Probleme etabliert. Neuere Methoden nutzen Verstärkendes Lernen (Reinforcement Learning, RL), um das parallele Denken zu verbessern und damit die Grenzen von überwachtem Feinabstimmen hinsichtlich Rechenressourcen und Effektivität zu adressieren. Die meisten bestehenden Studien konzentrieren sich jedoch primär auf die Optimierung der Aggregationsphase, wobei der Pfaderkundungsphase nur begrenzte Aufmerksamkeit geschenkt wird. In diesem Artikel analysieren wir theoretisch die Optimierung des parallelen Denkens unter dem Rahmenwerk von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) und identifizieren, dass ein Mutual-Information-Flaschenhals zwischen den Erkundungspfaden die Gesamtleistung grundlegend beschränkt. Um dieses Problem zu lösen, schlagen wir Outline-gesteuerte Pfaderkundung (OPE) vor, die den Lösungsraum explizit aufteilt, indem vor dem parallelen Pfad-Reasoning diverse Reasoning-Gliederungen generiert werden. Dadurch wird die Redundanz von Informationen verringert und die Vielfalt der erfassten Informationen über die Erkundungspfade hinweg verbessert. Wir implementieren OPE mit einer iterativen RL-Strategie, die die Gliederungsplanung und die gliederungsgesteuerte Reasoning unabhängig voneinander optimiert. Umfangreiche Experimente über mehrere anspruchsvolle mathematische Benchmarks hinweg demonstrieren, dass OPE die Reasoning-Leistung bei verschiedenen Aggregationsstrategien effektiv steigert und es LRMs ermöglicht, korrekte Lösungen zuverlässiger zu entdecken.

TodoEvolve: Lernen, Agentenplanungssysteme zu architektonisieren
TodoEvolve: Learning to Architect Agent Planning Systems

Feb 8

ByJiaxi Liu, Yanzuo Jiang, Guibin Zhang, Zihan Zhang, Heng Chang, Zhenfei Yin, Qibing Ren, Junchi Yan

Planung ist zu einer zentralen Fähigkeit moderner Agentensysteme für die Bewältigung komplexer, langfristiger Aufgaben geworden. Dennoch stützen sich bestehende Ansätze überwiegend auf feste, handgefertigte Planungsstrukturen, denen die Flexibilität fehlt, um sich der strukturellen Vielfalt offener Probleme anzupassen. Um diese Einschränkung zu überwinden, führen wir TodoEvolve ein, ein Meta-Planungsparadigma, das autonom aufgabenspezifische Planungsarchitekturen synthetisiert und dynamisch überarbeitet. Konkret konstruieren wir zunächst PlanFactory, einen modularen Designraum, der verschiedene Planungsparadigmen innerhalb einer einheitlichen Codebasis standardisiert, die Topologie, Initialisierung, Anpassung und Navigation umfasst. Dadurch wird eine gemeinsame Schnittstelle für heterogene Planungsmuster bereitgestellt. Unter Nutzung von PlanFactory sammeln wir hochwertige Planungstrajektorien und trainieren Todo-14B mittels Impedance-Guided Preference Optimization (IGPO), einem multiobjektiven Reinforcement-Learning-Ziel, das die Generierung von Planungssystemen fördert, die leistungsstark, stabil und token-effizient über beliebige Aufgaben und Agenten-Backbones hinweg sind. Empirische Auswertungen auf fünf Agenten-Benchmarks zeigen, dass TodoEvolve konsistent sorgfältig entwickelte Planungsmodule übertrifft und dabei wirtschaftliche API-Kosten und Laufzeit-Overheads beibehält.

Von Richtungen zu Regionen: Zerlegung von Aktivierungen in Sprachmodellen mittels lokaler Geometrie
From Directions to Regions: Decomposing Activations in Language Models via Local Geometry

Feb 2

ByOr Shafran, Shaked Ronen, Omri Fahn, Shauli Ravfogel, Atticus Geiger, Mor Geva

Aktivierungsdekompositionsmethoden in Sprachmodellen sind eng mit geometrischen Annahmen darüber verknüpft, wie Konzepte im Aktivierungsraum realisiert werden. Bestehende Ansätze suchen nach einzelnen globalen Richtungen und nehmen dabei implizit lineare Separierbarkeit an, was Konzepte mit nichtlinearer oder mehrdimensionaler Struktur übersieht. In dieser Arbeit nutzen wir Mixture of Factor Analyzers (MFA) als skalierbare, unüberwachte Alternative, die den Aktivierungsraum als eine Sammlung von Gaußschen Regionen mit ihrer lokalen Kovarianzstruktur modelliert. MFA zerlegt Aktivierungen in zwei kompositionelle geometrische Objekte: den Schwerpunkt der Region im Aktivierungsraum und die lokale Variation vom Schwerpunkt. Wir trainieren großskalige MFAs für Llama-3.1-8B und Gemma-2-2B und zeigen, dass sie komplexe, nichtlineare Strukturen im Aktivierungsraum erfassen. Darüber hinaus belegen Evaluationen auf Lokalisierungs- und Steuerungs-Benchmarks, dass MFA unüberwachte Baseline-Methoden übertrifft, mit überwachten Lokalisierungsmethoden konkurrieren kann und oft eine stärkere Steuerungsleistung als sparse Autoencoder erzielt. Zusammengenommen positionieren unsere Ergebnisse die lokale Geometrie, ausgedrückt durch Unterräume, als eine vielversprechende Analyseeinheit für skalierbare Konzeptentdeckung und Modellsteuerung, die komplexe Strukturen berücksichtigt, die isolierte Richtungen nicht erfassen können.

Stoppt das Hin und Her: Kontextbewahrende Verifikation für schnelle revidierbare Diffusionsdekodierung
Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding

Feb 5

ByYanzheng Xiang, Lan Wei, Yizhen Yao, Qinglin Zhu, Hanqi Yan, Chen Jin, Philip Alexander Teare, Dandan Zhang, Lin Gui, Amrutha Saseendran, Yulan He

Parallele Diffusionsdekodierung kann die Inferenz von Diffusionssprachmodellen beschleunigen, indem mehrere Token pro Schritt enthüllt werden, doch aggressive Parallelität beeinträchtigt häufig die Qualität. Revocable Decoding mildert dies durch eine erneute Überprüfung früherer Token, jedoch beobachten wir, dass bestehende Verifikationsverfahren häufig Flip-Flop-Oszillationen auslösen, bei denen Token erneut maskiert und später unverändert wiederhergestellt werden. Dieses Verhalten verlangsamt die Inferenz auf zweierlei Weise: Das erneute Maskieren verifizierter Positionen schwächt den Konditionierungskontext für den parallelen Entwurf, und wiederholte Remask-Zyklen verbrauchen das Revisionsbudget mit geringem Nettofortschritt. Wir schlagen COVER (Cache Override Verification for Efficient Revision) vor, das Leave-One-Out-Verifikation und stabilen Entwurf in einem einzigen Vorwärtsdurchlauf durchführt. COVER konstruiert zwei Aufmerksamkeitsansichten via KV-Cache-Override: Ausgewählte Seed-Token werden zur Verifikation maskiert, während ihre zwischengespeicherten Key-Value-Zustände für alle anderen Queries injiziert werden, um Kontextinformationen zu erhalten, wobei eine geschlossene diagonale Korrektion Selbst-Durchsickerung an den Seed-Positionen verhindert. COVER priorisiert Seeds weiterhin anhand eines stabilitätsbewussten Scores, der Unsicherheit, downstream Einfluss und Cache-Drift abwägt, und passt die Anzahl der verifizierten Seeds pro Schritt an. In Benchmarks reduziert COVER unnötige Revisionen deutlich und ermöglicht eine schnellere Dekodierung bei Erhalt der Ausgabequalität.

Sichere Codegenerierung durch Online-Verstärkungslernen mit einem Vulnerabilitäts-Belohnungsmodell
Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model

Feb 7

ByTianyi Wu, Mingzhe Du, Yue Liu, Chengran Yang, Terry Yue Zhuo, Jiaheng Zhang, See-Kiong Ng

Große Sprachmodelle (LLMs) werden zunehmend in der Softwareentwicklung eingesetzt, doch ihre Tendenz, unsicheren Code zu generieren, bleibt ein Haupthindernis für den praktischen Einsatz. Bestehende Methoden zur Ausrichtung auf sicheren Code leiden oft unter einem Funktionalitäts-Sicherheits-Paradoxon, bei dem die Verbesserung der Sicherheit auf Kosten erheblicher Funktionalitätseinbußen erkauft wird. Wir schlagen SecCoderX vor, ein Online-Reinforcement-Learning-Framework zur funktionserhaltenden Generierung von sicherem Code. SecCoderX überbrückt zunächst Schwachstellenerkennung und sichere Codegenerierung, indem es ausgereifte Erkennungsressourcen auf zwei Arten nutzbar macht: (i) Synthese vielfältiger, realitätsnaher, schwachstellenverursachender Programmieraufgaben für Online-RL-Rollouts und (ii) Training eines auf Reasoning basierenden Schwachstellen-Belohnungsmodells, das skalierbare und zuverlässige Sicherheitsüberwachung bereitstellt. Diese Komponenten werden in einer Online-RL-Schleife vereint, um Code-LLMs darauf auszurichten, sicheren und funktionalen Code zu generieren. Umfangreiche Experimente belegen, dass SecCoderX state-of-the-art Leistung erzielt und die Effective Safety Rate (ESR) im Vergleich zu nicht-angepassten Modellen um circa 10 % verbessert, während bisherige Methoden die ESR oft um 14–54 % verschlechtern. Wir veröffentlichen unseren Code, Datensatz und Modell-Checkpoints unter https://github.com/AndrewWTY/SecCoderX.

Stabile Geschwindigkeit: Eine Varianzperspektive auf Flow Matching
Stable Velocity: A Variance Perspective on Flow Matching

Feb 5

ByDonglin Yang, Yongxing Zhang, Xin Yu, Liang Hou, Xin Tao, Pengfei Wan, Xiaojuan Qi, Renjie Liao

Obwohl Flow Matching elegant ist, führt seine Abhängigkeit von konditionalen Geschwindigkeiten einzelner Stichproben zu Trainingszielen mit hoher Varianz, was die Optimierung destabilisiert und die Konvergenz verlangsamt. Durch explizite Charakterisierung dieser Varianz identifizieren wir 1) ein Hochvarianz-Regime nahe der Prior-Verteilung, wo die Optimierung schwierig ist, und 2) ein Niedrigvarianz-Regime nahe der Datenverteilung, wo konditionale und marginale Geschwindigkeiten nahezu übereinstimmen. Aufbauend auf dieser Erkenntnis schlagen wir Stable Velocity vor, einen einheitlichen Rahmen, der sowohl Training als auch Sampling verbessert. Für das Training führen wir Stable Velocity Matching (StableVM) ein, ein unverzerrtes Ziel zur Varianzreduktion, sowie Variance-Aware Representation Alignment (VA-REPA), das adaptive Hilfsüberwachung im Niedrigvarianz-Regime verstärkt. Für die Inferenz zeigen wir, dass Dynamiken im Niedrigvarianz-Regime geschlossene Vereinfachungen zulassen, was Stable Velocity Sampling (StableVS) ermöglicht – eine beschleunigende Methode ohne Feinabstimmung. Umfangreiche Experimente auf ImageNet 256×256 sowie mit großen vortrainierten Text-zu-Bild- und Text-zu-Video-Modellen, darunter SD3.5, Flux, Qwen-Image und Wan2.2, demonstrieren konsistente Verbesserungen der Trainingseffizienz und mehr als 2× schnelleres Sampling im Niedrigvarianz-Regime ohne Qualitätseinbußen. Unser Code ist verfügbar unter https://github.com/linYDTHU/StableVelocity.

Selbstkorrektur in visuell-sprachlichen Modellen durch Rollout-Augmentierung erlernen
Learning Self-Correction in Vision-Language Models via Rollout Augmentation

Feb 9

ByYi Ding, Ziliang Qiu, Bolian Li, Ruqi Zhang

Selbstkorrektur ist entscheidend für die Lösung komplexer Denkaufgaben in Vision-Sprache-Modellen (VLMs). Allerdings haben bestehende Reinforcement-Learning (RL)-Methoden Schwierigkeiten, diese zu erlernen, da effektive Selbstkorrekturverhalten nur selten auftritt, was zu extrem spärlichen Lernsignalen führt. Um diese Herausforderung zu bewältigen, schlagen wir korrekturspezifische Rollouts (Octopus) vor – ein RL-Rollout-Erweiterungsframework, das dichte Selbstkorrekturbeispiele durch die Neukombination vorhandener Rollouts synthetisiert. Diese Erweiterung verbessert gleichzeitig die Stichprobeneffizienz durch Wiederverwendung von Rollouts und stabilisiert die RL-Optimierung durch ausgewogene Überwachung. Darüber hinaus führen wir eine Response-Masking-Strategie ein, die Selbstkorrektur vom direkten Schlussfolgern entkoppelt, um Signalinterferenzen zu vermeiden und beide Verhaltensweisen effektiv erlernbar zu machen. Aufbauend darauf präsentieren wir Octopus-8B, ein schlussfolgerndes VLM mit kontrollierbarer Selbstkorrekturfähigkeit. In 7 Benchmarks erreicht es Spitzenleistungen unter Open-Source-VLMs, übertrifft die beste RLVR-Basislinie um 1,0 Punkte bei nur 0,72-facher Trainingszeit pro Schritt.

Locas: Ihre Modelle sind prinzipielle Initialisierer lokal unterstützter parametrischer Speicher
Locas: Your Models are Principled Initializers of Locally-Supported Parametric Memories

Feb 4

BySidi Lu, Zhenwen Liang, Dongyang Ma, Yan Wang, Haitao Mi, Dong Yu

In dieser Arbeit streben wir an, Test-Time-Training mit einer neuen Art von parametrischem Speicher zu verbinden, der flexibel von den Modellparametern entkoppelt oder in diese integriert werden kann. Wir stellen Locas vor, einen lokal unterstützten parametrischen Speicher, der das Design der FFN-Blöcke moderner Transformer teilt. Dies ermöglicht es, ihn flexibel dauerhaft in die Modellparameter zu überführen und gleichzeitig effizientes kontinuierliches Lernen zu unterstützen. Wir diskutieren zwei Hauptvarianten von Locas: eine mit einem konventionellen zweischichtigen MLP-Design, das eine klarere theoretische Garantie bietet; die andere teilt die gleiche GLU-FFN-Struktur wie State-of-the-Art LLMs und kann einfach an bestehende Modelle angehängt werden, um sowohl parameter- als auch recheneffizientes kontinuierliches Lernen zu ermöglichen. Entscheidend ist, dass wir zeigen, dass eine geeignete Initialisierung solcher speicherahnenden Seitwärts-FFN-Strukturen mit niedrigem Rang – die auf prinzipielle Weise durch Wiederverwendung von Modellparametern, Aktivierungen und/oder Gradienten durchgeführt wird – essentiell für schnelle Konvergenz, verbesserte Generalisierung und die Verhinderung von katastrophalem Vergessen ist. Wir validieren den vorgeschlagenen Speichermechanismus an den Aufgaben Ganzbuch-Sprachmodellierung mit PG-19 und dialogbasiertes Frage-Antworten im Langzeitkontext mit LoCoMo. Mit nur 0,02 % zusätzlichen Parametern im günstigsten Fall ist Locas-GLU in der Lage, Informationen aus vergangenem Kontext zu speichern, während ein deutlich kleineres Kontextfenster beibehalten wird. Zusätzlich testen wir den allgemeinen Fähigkeitsverlust des Modells nach dem Memorieren des gesamten Buches mit Locas durch eine vergleichende MMLU-Evaluation. Die Ergebnisse zeigen die vielversprechende Fähigkeit von Locas, vergangenen Kontext in parametrisches Wissen zu überführen und dabei das katastrophale Vergessen des bestehenden internen Wissens des Modells zu minimieren.

ContextBench: Ein Benchmark für die Kontextrückgewinnung in Code-Agenten
ContextBench: A Benchmark for Context Retrieval in Coding Agents

Feb 5

ByHan Li, Letian Zhu, Bohan Zhang, Rili Feng, Jiaming Wang, Yue Pan, Earl T. Barr, Sarro Federica, Zhaoyang Chu, He Ye

LLM-basierte Code-Agenten haben auf Benchmarks zur automatisierten Problemlösung starke Leistungen gezeigt, doch bestehende Evaluationen konzentrieren sich weitgehend auf den endgültigen Aufgaben-Erfolg und liefern nur begrenzte Einblicke darin, wie Agenten Code-Kontext während der Problemlösung abrufen und nutzen. Wir stellen ContextBench vor, eine prozessorientierte Evaluation der Kontextabfrage in Code-Agenten. ContextBench besteht aus 1.136 Aufgaben zur Problemlösung aus 66 Repositories in acht Programmiersprachen, die jeweils um menschlich annotierte Gold-Kontexte erweitert wurden. Wir implementieren weiterhin ein automatisiertes Evaluations-Framework, das Agenten-Trajektorien verfolgt und Kontext-Recall, -Präzision und -Effizienz während der gesamten Problemlösung misst. Mit ContextBench evaluieren wir vier führende LLMs und fünf Code-Agenten. Unsere Ergebnisse zeigen, dass anspruchsvolle Agenten-Scaffolding nur marginale Verbesserungen bei der Kontextabfrage bringt („The Bitter Lesson“ der Code-Agenten), LLMs konsequent Recall gegenüber Präzision bevorzugen und erhebliche Lücken zwischen erkundetem und genutztem Kontext bestehen. ContextBench ergänzt bestehende End-to-End-Benchmarks um intermediate Gold-Kontext-Metriken, die den Problemlösungsprozess aufschlüsseln. Diese Kontexte bieten wertvolle intermediate Signale zur Steuerung des LLM-Rationalisierens in Software-Aufgaben.

Über die optimale Argumentationslänge für RL-trainierte Sprachmodelle
On the Optimal Reasoning Length for RL-Trained Language Models

Feb 10

ByDaisuke Nohara, Taishi Nakamura, Rio Yokota

Reinforcement Learning verbessert das Reasoning in großen Sprachmodellen erheblich, führt jedoch tendenziell zu längeren Chain-of-Thought-Ausgaben und erhöht die Rechenkosten sowohl während des Trainings als auch während des Inferenzvorgangs. Obwohl Methoden zur Längenkontrolle vorgeschlagen wurden, bleibt unklar, welche Ausgabelänge optimal ist, um Effizienz und Leistung in Einklang zu bringen. In dieser Arbeit vergleichen wir mehrere Methoden zur Längenkontrolle an zwei Modellen, Qwen3-1.7B Base und DeepSeek-R1-Distill-Qwen-1.5B. Unsere Ergebnisse zeigen, dass Längenbestrafungen den Erwerb von Reasoning-Fähigkeiten beeinträchtigen können, während eine richtig eingestellte Längenkontrolle die Effizienz von Modellen mit starkem Vorwissen im Reasoning verbessern kann. Durch die Erweiterung früherer Arbeiten auf RL-trainierte Policies identifizieren wir zwei Fehlermodi: 1) Lange Ausgaben erhöhen die Dispersion und 2) kurze Ausgaben führen zu Unter-Denken.

Lernen, kontinuierlich zu lernen durch Meta-Lernen mit agentenbasierten Gedächtnisarchitekturen
Learning to Continually Learn via Meta-learning Agentic Memory Designs

Feb 8

ByYiming Xiong, Shengran Hu, Jeff Clune

Die Zustandslosigkeit von Foundation-Modellen hemmt die Fähigkeit agentenbasierter Systeme, kontinuierlich zu lernen – eine Kernkompetenz für langfristiges Schlussfolgern und Anpassung. Um diese Einschränkung zu adressieren, integrieren agentenbasierte Systeme häufig Gedächtnismodule, um vergangene Erfahrungen zu speichern und wiederzuverwenden, mit dem Ziel eines kontinuierlichen Lernens während der Testphase. Die meisten bestehenden Gedächtnisentwürfe sind jedoch menschengestaltet und starr, was ihre Anpassungsfähigkeit an die Vielfalt und Nichtstationarität realer Aufgaben begrenzt. In dieser Arbeit stellen wir ALMA (Automated meta-Learning of Memory designs for Agentic systems) vor, einen Rahmen, der Gedächtnisentwürfe meta-lernt, um manuell entwickelte Entwürfe zu ersetzen und so menschlichen Aufwand zu minimieren sowie agentenbasierten Systemen zu ermöglichen, in verschiedenen Domänen zu kontinuierlichen Lernern zu werden. Unser Ansatz nutzt einen Meta-Agenten, der in offener Weise über als ausführbarer Code ausgedrückte Gedächtnisentwürfe sucht und theoretisch die Entdeckung beliebiger Gedächtnisentwürfe erlaubt, einschließlich Datenbankschemata sowie deren Abruf- und Aktualisierungsmechanismen. Umfangreiche Experimente in vier sequenziellen Entscheidungsdomänen zeigen, dass die gelernten Gedächtnisentwürfe ein effektiveres und effizienteres Lernen aus Erfahrung ermöglichen als state-of-the-art, menschengestaltete Gedächtnisentwürfe in allen Benchmarks. Bei sicherer Entwicklung und Implementierung repräsentiert ALMA einen Schritt in Richtung selbstverbessernder KI-Systeme, die lernen, adaptive, kontinuierliche Lerner zu sein.

CausalArmor: Effiziente Schutzmaßnahmen gegen indirekte Prompt-Injection-Angriffe mittels Kausalattribution
CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution

Feb 8

ByMinbeom Kim, Mihir Parmar, Phillip Wallis, Lesly Miculicich, Kyomin Jung, Krishnamurthy Dj Dvijotham, Long T. Le, Tomas Pfister

KI-Agenten mit Werkzeugaufruffähigkeiten sind anfällig für Indirect Prompt Injection (IPI)-Angriffe. In diesem Angriffsszenario bringen bösartige Befehle, die in nicht vertrauenswürdigen Inhalten versteckt sind, den Agenten dazu, unbefugte Aktionen auszuführen. Bestehende Verteidigungsmechanismen können die Angriffserfolgsrate verringern, leiden jedoch oft unter dem Over-Defense-Dilemma: Sie setzen aufwendige, ständig aktive Bereinigungsmaßnahmen unabhängig von der tatsächlichen Bedrohungslage ein und beeinträchtigen so Nutzbarkeit und Latenz selbst in harmlosen Szenarien. Wir betrachten IPI aus einer neuen Perspektive der kausalen Ablation: Eine erfolgreiche Injection manifestiert sich als eine Dominanzverschiebung, bei der die Benutzeranfrage keine entscheidende Grundlage mehr für die privilegierte Aktion des Agenten liefert, während ein bestimmter nicht vertrauenswürdiger Abschnitt, wie ein abgerufenes Dokument oder eine Werkzeugausgabe, einen unverhältnismäßig großen attributierbaren Einfluss ausübt. Basierend auf diesem Merkmal schlagen wir CausalArmor vor, ein selektives Verteidigungsframework, das (i) leichtgewichtige, auf Leave-One-Out-Ablation basierende Attributionen an privilegierten Entscheidungspunkten berechnet und (ii) gezielte Bereinigung nur dann auslöst, wenn ein nicht vertrauenswürdiger Abschnitt die Benutzerabsicht dominiert. Zusätzlich setzt CausalArmor retrospektives Chain-of-Thought-Masking ein, um zu verhindern, dass der Agent auf „vergiftete“ Denkpfade reagiert. Wir präsentieren eine theoretische Analyse, die zeigt, dass eine Bereinigung basierend auf Attributionsspannen unter bestimmten Bedingungen eine exponentiell kleine obere Schranke für die Wahrscheinlichkeit der Auswahl bösartiger Aktionen liefert. Experimente auf AgentDojo und DoomArena demonstrieren, dass CausalArmor die Sicherheit aggressiver Verteidigungsansätze erreicht, gleichzeitig aber die Erklärbarkeit verbessert sowie Nutzbarkeit und Latenz von KI-Agenten erhält.

AgentSys: Sichere und dynamische LLM-Agenten durch explizite hierarchische Speicherverwaltung
AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management

Feb 7

ByRuoyao Wen, Hao Li, Chaowei Xiao, Ning Zhang

Indirekte Prompt-Injektion bedroht LLM-Agenten, indem bösartige Anweisungen in externen Inhalten eingebettet werden, was unbefugte Aktionen und Datendiebstahl ermöglicht. LLM-Agenten halten ihren Arbeitszustand über ihr Kontextfenster aufrecht, das den Interaktionsverlauf für Entscheidungsfindungen speichert. Herkömmliche Agenten häufen wahllos alle Werkzeugausgaben und Denkprozesse in diesem Speicher an, was zwei kritische Schwachstellen schafft: (1) injizierte Anweisungen bleiben während des gesamten Workflows bestehen, was Angreifern mehrere Möglichkeiten zur Manipulation des Verhaltens bietet, und (2) ausufernde, nicht essentielle Inhalte beeinträchtigen die Entscheidungsfähigkeit. Bestehende Abwehrmechanismen behandeln den aufgeblähten Speicher als gegeben und konzentrieren sich darauf, widerstandsfähig zu bleiben, anstatt unnötige Anhäufung zu reduzieren, um den Angriff zu verhindern. Wir stellen AgentSys vor, ein Framework, das durch explizite Speicherverwaltung gegen indirekte Prompt-Injektion schützt. Inspiriert von der Prozessspeicher-Isolierung in Betriebssystemen organisiert AgentSys Agenten hierarchisch: Ein Haupt-Agent erzeugt Worker-Agenten für Werkzeugaufrufe, die jeweils in einem isolierten Kontext laufen und verschachtelte Worker für Teilaufgaben erzeugen können. Externe Daten und Teilaufgaben-Spuren gelangen niemals in den Speicher des Haupt-Agenten; nur schema-validierte Rückgabewerte können Grenzen durch deterministisches JSON-Parsing überschreiten. Ablationstests zeigen, dass Isolierung allein die Angriffserfolgsrate auf 2,19 % senkt, und die Hinzufügung eines Validators/Sanitizers verbessert die Abwehr weiter mit ereignisgesteuerten Prüfungen, deren Overhead mit Operationen skaliert statt mit der Kontextlänge. Auf AgentDojo und ASB erreicht AgentSys Angriffserfolgsraten von 0,78 % bzw. 4,25 % und verbessert gleichzeitig die Nutzbarkeit unter normalen Bedingungen leicht gegenüber ungeschützten Baselines. Es bleibt robust gegenüber adaptiven Angreifern und über verschiedene Foundation-Modelle hinweg, was zeigt, dass explizite Speicherverwaltung sichere, dynamische LLM-Agenten-Architekturen ermöglicht. Unser Code ist verfügbar unter: https://github.com/ruoyaow/agentsys-memory.

VISTA-Bench: Verstehen Vision-Language-Modelle visualisierten Text wirklich so gut wie reinen Text?
VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?

Feb 4

ByQing'an Liu, Juntong Feng, Yuhao Wang, Xinzhe Han, Yujie Cheng, Yue Zhu, Haiwen Diao, Yunzhi Zhuge, Huchuan Lu

Vision-Language Models (VLMs) haben beeindruckende Leistungen im cross-modalen Verständnis von textuellen und visuellen Eingaben erzielt, doch bestehende Benchmarks konzentrieren sich überwiegend auf reine Textanfragen. In realen Szenarien erscheint Sprache jedoch häufig auch als visualisierter Text, der in Bilder eingebettet ist. Dies wirft die Frage auf, ob aktuelle VLMs solche Eingabeanfragen vergleichbar gut verarbeiten. Wir stellen VISTA-Bench vor, einen systematischen Benchmark, der von multimodaler Wahrnehmung über Reasoning bis hin zu unimodalen Verständnisdomänen reicht. Er evaluiert das Verständnis von visualisiertem Text, indem reine Textfragen und visualisierte Textfragen unter kontrollierten Darstellungsbedingungen gegenübergestellt werden. Eine umfassende Evaluation von über 20 repräsentativen VLMs zeigt eine deutliche Modalitätslücke: Modelle, die bei reinen Textanfragen gut abschneiden, verschlechtern sich oft erheblich, wenn äquivalente semantische Inhalte als visualisierter Text präsentiert werden. Diese Lücke wird durch erhöhte perzeptive Schwierigkeit weiter verstärkt, was die Sensitivität gegenüber Darstellungsvariationen trotz unveränderter Semantik unterstreicht. Insgesamt bietet VISTA-Bench einen prinzipiellen Evaluierungsrahmen, um diese Einschränkung zu diagnostizieren und Fortschritte hin zu einheitlicheren Sprachrepräsentationen über tokenisierten Text und Pixel hinweg zu lenken. Der Quelldatensatz ist verfügbar unter https://github.com/QingAnLiu/VISTA-Bench.

Überraschungsgesteuerte Auswahl: Rechenoptimale Testzeit-Strategien für ausführungsbasiertes Code-Generieren
Surprisal-Guided Selection: Compute-Optimal Test-Time Strategies for Execution-Grounded Code Generation

Feb 7

ByJarrod Barnes

Test-Time Training (TTT) passt Sprachmodelle durch gradientenbasierte Updates während der Inferenz an. Doch ist Anpassung die richtige Strategie? Wir untersuchen rechenoptimale Testzeit-Strategien für verifizierbare, ausführungsbasierte (VEG) Aufgaben – Domänen wie die GPU-Kernel-Optimierung, in denen ein deterministischer Evaluator dichte, kontinuierliche Belohnungssignale liefert. Unter Verwendung von KernelBench als Testumgebung und eines 120-Milliarden-Parameter-Modells (GPT-OSS-120B mit LoRA-Adaption) stellen wir fest, dass Suche minimale Anpassung (1-5 Gradientenschritte) übertrifft: Best-of-N-Sampling erreicht 90 % Aufgabenerfolg (18/20 Aufgaben) bei K=64 über den gesamten KernelBench L1-Evaluierungssatz, während der beste Checkpoint von TTT nur 30,6 % erreicht (Mittelwert über 3 Seeds), wobei das "äquivalente K" von TTT unter 1 fällt – schlechter als die Inferenz mit einer einzelnen Stichprobe. Der Fehlermodus ist Over-Sharpening: Gradienten-Updates reduzieren die Diversität hin zu mittelmäßigen Lösungen, anstatt optimale zu entdecken. Unser Hauptbeitrag ist die surprisal-gesteuerte Auswahl: Die Auswahl der Stichprobe mit der höchsten Surprisal (geringsten Konfidenz), die korrekt ist, erzielt 80 % Erfolg gegenüber 50 % bei der Auswahl der konfidentesten Stichprobe, eine Verbesserung um 30 %. Die Erweiterung auf die Top-3-Auswahl nach Surprisal erreicht Oracle-Leistung bei 100 %. Diese kostenlose Strategie, validiert durch eine längenkontrollierte Analyse, stellt die Oracle-Leistung wieder her. Für VEG-Aufgaben mit dichter Belohnung sollte Rechenaufwand für Stichprobenvielfalt und intelligente Auswahl statt für gradientenbasierte Anpassung verwendet werden. Das Prinzip der surprisal-gesteuerten Auswahl könnte sich auf andere ausführungsbasierte Domänen verallgemeinern lassen, in denen optimale Lösungen im Verteilungsende liegen.

Temporale Paarkonsistenz für varianzreduziertes Flow Matching
Temporal Pair Consistency for Variance-Reduced Flow Matching

Feb 4

ByChika Maduabuchi, Jindong Wang

Kontinuierliche generative Modelle, wie Diffusionsmodelle, Flow-Matching und Rectified Flow, lernen zeitabhängige Vektorfelder, werden jedoch typischerweise mit Zielfunktionen trainiert, die Zeitschritte unabhängig behandeln. Dies führt zu hoher Schätzer-Varianz und ineffizienter Abtastung. Bisherige Ansätze mildern dies durch explizite Glattheits-Strafterme, Trajektorien-Regularisierung oder modifizierte Wahrscheinlichkeitspfade und Löser. Wir führen Temporale Paar-Konsistenz (Temporal Pair Consistency, TPC) ein, ein leichtgewichtiges Prinzip zur Varianzreduktion, das Geschwindigkeitsvorhersagen an gepaarten Zeitschritten entlang desselben Wahrscheinlichkeitspfades koppelt. TPC operiert vollständig auf der Ebene des Schätzers, ohne die Modellarchitektur, den Wahrscheinlichkeitspfad oder den Löser zu verändern. Wir liefern eine theoretische Analyse, die zeigt, dass TPC eine quadratische, trajektoriengekoppelte Regularisierung induziert, die nachweislich die Gradientenvarianz reduziert, während das zugrundeliegende Flow-Matching-Ziel erhalten bleibt. Innerhalb von Flow-Matching umgesetzt, verbessert TPC die Abtastqualität und -effizienz auf CIFAR-10 und ImageNet bei mehreren Auflösungen, erreicht niedrigere FID-Werte bei identischen oder geringeren Rechenkosten als bisherige Methoden und erweitert sich nahtlos auf moderne SOTA-Pipelines mit rauschaugmentiertem Training, score-basierter Entrauschung und Rectified Flow.

SHARP: Analyse sozialer Schäden durch Risikoprofile zur Messung von Ungleichheiten in großen Sprachmodellen
SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models

Jan 29

ByAlok Abhishek, Tushar Bandopadhyay, Lisa Erickson

Große Sprachmodelle (LLMs) werden zunehmend in hochriskanten Domänen eingesetzt, in denen seltene, aber schwerwiegende Fehler irreversible Schäden verursachen können. Gängige Evaluierungs-Benchmarks reduzieren komplexes soziales Risiko jedoch oft auf mittelwertzentrierte Skalarwerte, wodurch Verteilungsstrukturen, interdimensionalale Wechselwirkungen und Worst-Case-Verhalten verschleiert werden. Dieses Papier stellt Social Harm Analysis via Risk Profiles (SHARP) vor, einen Rahmen für mehrdimensionale, verteilungsbewusste Evaluierung sozialer Schäden. SHARP modelliert Schaden als multivariate Zufallsvariable und integriert eine explizite Zerlegung in Bias, Fairness, Ethik und epistemische Zuverlässigkeit mit einer Union-of-Failures-Aggregation, die als additive kumulative Log-Risiken umparametrisiert wird. Der Rahmen verwendet zudem risikosensitive Verteilungsstatistiken, mit Conditional Value at Risk (CVaR95) als primärer Metrik, um das Worst-Case-Modellverhalten zu charakterisieren. Die Anwendung von SHARP auf elf frontier-LLMs, evaluiert an einem festen Korpus von n=901 sozial sensiblen Prompts, zeigt, dass Modelle mit ähnlichem durchschnittlichem Risiko mehr als doppelt so große Unterschiede im Tail-Risiko und in der Volatilität aufweisen können. Über alle Modelle hinweg variiert das dimensionenweise marginale Tail-Verhalten systematisch über die Schadensdimensionen: Bias zeigt die stärksten Tail-Ausprägungen, epistemische und Fairness-Risiken nehmen eine mittlere Position ein, und ethische Fehlausrichtung ist durchgängig geringer; zusammen offenbaren diese Muster heterogene, modellabhängige Fehlerstrukturen, die von skalaren Benchmarks vermischt werden. Diese Ergebnisse deuten darauf hin, dass eine verantwortungsvolle Evaluierung und Steuerung von LLMs über skalare Durchschnitte hinaus hin zu mehrdimensionalen, tail-sensitiven Risikoprofilen erfordern.

C-ΔΘ: Schaltkreisbeschränkte Gewichtsarithmetik für selektive Verweigerung
C-ΔΘ: Circuit-Restricted Weight Arithmetic for Selective Refusal

Feb 4

ByAditya Kasliwal, Pratinav Seth, Vinay Kumar Sankarapu

Moderne Bereitstellungen erfordern, dass LLMs Sicherheitsrichtlinien in großem Maßstab durchsetzen, doch viele Kontrollmechanismen stützen sich auf Eingriffe zur Inferenzzeit, die wiederkehrende Rechenkosten und Komplexität beim Bereitstellen verursachen. Aktivierungssteuerung wird häufig eingesetzt, erfordert jedoch Laufzeit-Hooks und skaliert die Kosten mit der Anzahl der Generationen; konditionale Varianten verbessern die Selektivität, indem sie steuern, wann die Steuerung angewendet wird, behalten aber dennoch einen Kontrollpfad zur Inferenzzeit bei. Wir fragen, ob selektive Verweigerung vollständig offline verlagert werden kann: Kann ein mechanistisches Verständnis kategoriespezifischer Verweigerung in ein schaltkreisbeschränktes Gewichts-Update destilliert werden, das als Standard-Checkpoint bereitgestellt wird? Wir schlagen C-Δθ vor: Schaltkreisbeschränkte Gewichtsarithmetik, die (i) verweigerungsverursachende Berechnungen als sparsamen Schaltkreis unter Verwendung von EAP-IG lokalisiert und (ii) ein eingeschränktes Gewichts-Update ΔθC berechnet, das nur auf diesem Schaltkreis unterstützt wird (typischerweise <5 % der Parameter). Die Anwendung von ΔθC ergibt einen direkt einsetzbaren, bearbeiteten Checkpoint ohne Laufzeit-Hooks, der die Kosten von einer Eingriff pro Anfrage auf ein einmaliges Offline-Update verlagert. Wir evaluieren kategoriebezogene Selektivität und Fähigkeitserhalt auf Verweigerungs- und Nutzlast-Benchmarks.

SafePred: Ein prädiktiver Schutzmechanismus für computernutzende Agenten mittels Weltmodellen
SafePred: A Predictive Guardrail for Computer-Using Agents via World Models

Feb 2

ByYurun Chen, Zeyi Liao, Ping Yin, Taotao Xie, Keting Yin, Shengyu Zhang

Mit der weiten Verbreitung von computernutzenden Agenten (CUAs) in komplexen realen Umgebungen führen verbreitete langfristige Risiken oft zu schwerwiegenden und irreversiblen Folgen. Die meisten bestehenden Schutzmechanismen für CUAs verfolgen einen reaktiven Ansatz, der das Agentenverhalten nur innerhalb des aktuellen Beobachtungsraums einschränkt. Während diese Schutzmaßnahmen unmittelbare Kurzzeitrisiken verhindern können (z.B. das Anklicken eines Phishing-Links), können sie langfristige Risiken nicht proaktiv vermeiden: scheinbar vernünftige Aktionen können zu verzögert auftretenden Hochrisikofolgen führen (z.B. führt das Bereinigen von Logs dazu, dass zukünftige Überprüfungen nicht nachvollziehbar sind), die reaktive Schutzmechanismen im aktuellen Beobachtungsraum nicht identifizieren können. Um diese Einschränkungen zu adressieren, schlagen wir einen prädiktiven Schutzansatz vor, dessen Kernidee die Abstimmung vorhergesagter zukünftiger Risiken auf aktuelle Entscheidungen ist. Auf dieser Grundlage präsentieren wir SafePred, einen prädiktiven Schutzrahmen für CUAs, der eine Risiko-Entscheidungs-Schleife etabliert, um sicheres Agentenverhalten zu gewährleisten. SafePred unterstützt zwei Schlüsselfähigkeiten: (1) Kurz- und langfristige Risikovorhersage: Durch die Verwendung von Sicherheitsrichtlinien als Grundlage für die Risikovorhersage nutzt SafePred die Vorhersagefähigkeit des Weltmodells, um semantische Repräsentationen sowohl kurz- als auch langfristiger Risiken zu generieren und dadurch Aktionen zu identifizieren und auszuschließen, die zu Hochrisikozuständen führen; (2) Entscheidungsoptimierung: Übersetzung vorhergesagter Risiken in umsetzbare sichere Entscheidungsanleitungen durch schrittweise Interventionen und aufgabenbezogene Neuplanung. Umfangreiche Experimente zeigen, dass SafePred Hochrisikoverhalten signifikant reduziert, eine Sicherheitsleistung von über 97,6 % erreicht und die Aufgabennützlichkeit im Vergleich zu reaktiven Baseline-Modellen um bis zu 21,4 % steigert.

Lernen auf der Mannigfaltigkeit: Standard-Diffusionstransformatoren mit Repräsentationskodierern entschlüsseln
Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders

Feb 10

ByAmandeep Kumar, Vishal M. Patel

Die Nutzung von Repräsentationsencodern für generatives Modellieren bietet einen Weg für effiziente Synthese mit hoher Wiedergabetreue. Allerdings konvergieren Standard-Diffusion-Transformer nicht direkt auf diesen Repräsentationen. Während neuere Arbeiten dies auf einen Kapazitätsengpass zurückführen und rechenintensive Breitenskalerung von Diffusion-Transforms vorschlagen, zeigen wir, dass das Scheitern grundlegend geometrischer Natur ist. Wir identifizieren Geometrische Interferenz als Ursache: Standardmäßiges euklidisches Flow Matching zwingt Wahrscheinlichkeitspfade durch das niedrigdichte Innere des hypersphärischen Merkmalraums von Repräsentationsencodern, anstatt der Mannigfaltigkeitsoberfläche zu folgen. Um dies zu lösen, schlagen wir Riemannian Flow Matching mit Jacobi-Regularisierung (RJF) vor. Durch die Beschränkung des generativen Prozesses auf die Geodäten der Mannigfaltigkeit und die Korrektur von krümmungsinduziertem Fehlerfortpflanzung ermöglicht RJF standardmäßigen Diffusion-Transformer-Architekturen die Konvergenz ohne Breitenskalerung. Unsere Methode RJF ermöglicht es der Standard-DiT-B-Architektur (131M Parameter) effektiv zu konvergieren und erreicht einen FID von 3,37, wo bisherige Methoden nicht konvergieren. Code: https://github.com/amandpkr/RJF

LLMs kodieren ihre Misserfolge: Vorhersage des Erfolgs anhand von Prä-Generations-Aktivierungen
LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations

Feb 10

ByWilliam Lugoloobi, Thomas Foster, William Bankes, Chris Russell

Das Ausführen von LLMs mit erweitertem Reasoning für jedes Problem ist kostspielig, aber die Bestimmung, welche Eingaben tatsächlich zusätzliche Rechenleistung erfordern, bleibt eine Herausforderung. Wir untersuchen, ob die eigene Wahrscheinlichkeit des Erfolgs aus ihren internen Repräsentationen vor der Generierung abgeleitet werden kann und ob dieses Signal eine effizientere Inferenz steuern kann. Wir trainieren lineare Probes auf Pre-Generation-Aktivierungen, um policiespezifischen Erfolg bei Mathematik- und Coding-Aufgaben vorherzusagen, was Oberflächenmerkmalen wie Fragelänge und TF-IDF deutlich überlegen ist. Unter Verwendung von E2H-AMC, das sowohl menschliche als auch Modellleistungen für identische Probleme liefert, zeigen wir, dass Modelle ein modellspezifisches Schwierigkeitskonzept kodieren, das sich von der menschlichen Schwierigkeit unterscheidet, und dass diese Unterscheidung mit erweitertem Reasoning zunimmt. Durch die Nutzung dieser Probes demonstrieren wir, dass die Weiterleitung von Anfragen an einen Pool von Modellen das leistungsstärkste Einzelmodell übertreffen kann, während die Inferenzkosten auf MATH um bis zu 70 % gesenkt werden. Dies zeigt, dass interne Repräsentationen praktische Effizienzgewinne ermöglichen, selbst wenn sie von menschlichen Intuitionen über Schwierigkeiten abweichen. Unser Code ist verfügbar unter: https://github.com/KabakaWilliam/llms_know_difficulty

Brückenschlag zwischen Wissenschaft und Industrie: Ein umfassender Benchmark für attributiertes Graph-Clustering
Bridging Academia and Industry: A Comprehensive Benchmark for Attributed Graph Clustering

Feb 9

ByYunhui Liu, Pengyu Qiu, Yu Xing, Yongchao Liu, Peng Du, Chuntao Hong, Jiajun Zheng, Tao Zheng, Tieke He

Attributed Graph Clustering (AGC) ist eine grundlegende unüberwachte Aufgabe, die strukturelle Topologie und Knotenattribute integriert, um latente Muster in graphstrukturierten Daten aufzudecken. Trotz ihrer Bedeutung in industriellen Anwendungen wie Betrugserkennung und Nutzersegmentierung besteht nach wie vor eine erhebliche Kluft zwischen akademischer Forschung und realem Einsatz. Aktuelle Evaluierungsprotokolle leiden unter kleinformatigen, hochhomophilen Zitationsdatensätzen, nicht-skalierbaren Full-Batch-Trainingsparadigmen und einer Abhängigkeit von überwachten Metriken, die die Leistung in umgebungssparsamen Umgebungen nicht widerspiegeln. Um diese Lücken zu schließen, präsentieren wir PyAGC, einen umfassenden, produktionsreifen Benchmark und eine Bibliothek, die entwickelt wurde, um AGC-Methoden über verschiedene Skalen und strukturelle Eigenschaften hinweg zu stress-testen. Wir vereinen bestehende Methodiken in ein modulares Encode-Cluster-Optimize-Framework und bieten erstmals speichereffiziente Mini-Batch-Implementierungen für eine Vielzahl modernster AGC-Algorithmen. Unser Benchmark umfasst 12 diverse Datensätze, die von 2.700 bis 111 Millionen Knoten reichen und insbesondere industrielle Graphen mit komplexen tabellarischen Merkmalen und geringer Homophilie integrieren. Darüber hinaus plädieren wir für ein holistisches Evaluierungsprotokoll, das unüberwachte strukturelle Metriken und Effizienzprofile neben traditionellen überwachten Metriken vorschreibt. Dieser Benchmark, der in hochriskanten industriellen Workflows bei Ant Group erprobt wurde, bietet der Community eine robuste, reproduzierbare und skalierbare Plattform, um die AGC-Forschung in Richtung realistischen Einsatzes voranzutreiben. Der Code und die Ressourcen sind öffentlich verfügbar über GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc) und Dokumentation (https://pyagc.readthedocs.io).

SceneSmith: Agentische Erzeugung simulationsfähiger Innenraumszenen
SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes

Feb 9

ByNicholas Pfaff, Thomas Cohn, Sergey Zakharov, Rick Cory, Russ Tedrake

Simulation ist zu einem zentralen Werkzeug für das Training und die Bewertung von Haushaltsrobotern im großen Maßstab geworden, doch bestehende Umgebungen erfassen nicht die Vielfalt und physikalische Komplexität realer Innenräume. Aktuelle Methoden zur Szeneriesynthese erzeugen spärlich möblierte Räume, denen das dichte Gedränge an Gegenständen, artikulierte Möbel und die für die robotische Manipulation wesentlichen physikalischen Eigenschaften fehlen. Wir stellen SceneSmith vor, ein hierarchisches, agentenbasiertes Framework, das simulationsfertige Innenraumumgebungen aus natürlichen Sprachaufforderungen generiert. SceneSmith konstruiert Szenen durch aufeinanderfolgende Stufen – vom architektonischen Grundriss über die Möblierung bis hin zur Platzierung kleiner Objekte –, die jeweils als Interaktion zwischen VLM-Agenten implementiert sind: Designer, Kritiker und Orchestrator. Das Framework integriert eng die Asset-Generierung durch Text-zu-3D-Synthese für statische Objekte, den Abruf aus Datensätzen für artikulierte Objekte und die Schätzung physikalischer Eigenschaften. SceneSmith generiert 3- bis 6-mal mehr Objekte als bisherige Methoden, mit <2% Objektkollisionen und 96% der Objekte, die unter Physiksimulation stabil bleiben. In einer Nutzerstudie mit 205 Teilnehmern erzielt es durchschnittliche Realismus- und Treue-zur-Aufforderung-Win-Raten von 92% bzw. 91% im Vergleich zu Baseline-Verfahren. Wir zeigen weiterhin, dass diese Umgebungen in einer End-to-End-Pipeline zur automatischen Bewertung von Robotik-Policies eingesetzt werden können.