HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

48 papers found

Code als Agenten-Harness
Code as Agent Harness

May 18

ByXuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He

172

Jüngste große Sprachmodelle (Large Language Models, LLMs) haben beeindruckende Fähigkeiten im Verstehen und Generieren von Code gezeigt – von der Wettbewerbsprogrammierung bis hin zu Softwareentwicklung auf Repository-Ebene. In neu entstehenden agentischen Systemen ist Code nicht mehr länger nur ein Zieloutput. Er dient zunehmend als operative Grundlage für Agenten-Denken, -Handeln, Umgebungsmodellierung und ausführungsbasierte Verifikation. Wir fassen diesen Wandel durch die Linse von Agenten-Harnesses und führen Code als Agenten-Harness ein: Eine einheitliche Sichtweise, die Code als Basis für die Agenten-Infrastruktur in den Mittelpunkt stellt. Um diese Perspektive systematisch zu untersuchen, gliedern wir die Übersicht in drei zusammenhängende Ebenen. Zunächst untersuchen wir die Harness-Schnittstelle, in der Code Agenten mit Denken, Handeln und Umgebungsmodellierung verbindet. Zweitens betrachten wir Harness-Mechanismen: Planung, Gedächtnis und Werkzeugnutzung für langfristige Ausführung, zusammen mit feedbackgesteuerter Kontrolle und Optimierung, die den Harness zuverlässig und adaptiv machen. Drittens diskutieren wir die Skalierung des Harness von Einzelagenten- zu Multi-Agenten-Umgebungen, in denen gemeinsame Code-Artefakte Multi-Agenten-Koordination, -Überprüfung und -Verifikation unterstützen. Über diese Ebenen hinweg fassen wir repräsentative Methoden und praktische Anwendungen von Code als Agenten-Harness zusammen, die Programmierassistenten, GUI/OS-Automation, verkörperte Agenten, wissenschaftliche Entdeckungen, Personalisierung und Empfehlung, DevOps sowie Unternehmensworkflows umfassen. Darüber hinaus skizzieren wir offene Herausforderungen für das Harness-Engineering, darunter Evaluierung über den finalen Aufgabenerfolg hinaus, Verifikation unter unvollständigem Feedback, regressionsfreie Harness-Verbesserung, konsistenter gemeinsamer Zustand über mehrere Agenten, menschliche Aufsicht für sicherheitskritische Aktionen sowie Erweiterungen auf multimodale Umgebungen. Indem wir Code als Harness agentischer KI in den Mittelpunkt stellen, bietet diese Übersicht eine einheitliche Roadmap hin zu ausführbaren, verifizierbaren und zustandsbehafteten KI-Agenten-Systemen.

SkillsVote: Lebenszyklus-Governance von Agentenfähigkeiten – von der Sammlung über die Empfehlung bis zur Evolution
SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

May 18

ByHongyi Liu, Haoyan Yang, Tao Jiang, Bo Tang, Feiyu Xiong, Zhiyu Li

117

LLM-Agenten mit langem Zeithorizont hinterlassen Spuren, die zu wiederverwendbarer Erfahrung werden könnten, aber rohe Trajektorien sind verrauscht und schwer zu handhaben. Wir behandeln Agenten-Fähigkeiten als ein Erfahrungsschema, das ausführbare Skripte mit nicht ausführbaren Anleitungen zu Verfahrensabläufen koppelt. Doch offene Fähigkeitsökosysteme enthalten redundante, ungleichmäßige, umgebungsempfindliche Artefakte, und wahllose Aktualisierungen können den zukünftigen Kontext verunreinigen. Wir stellen SkillsVote vor, ein Lebenszyklus-Governance-Framework für Agenten-Fähigkeiten von der Sammlung und Empfehlung bis zur Evolution. SkillsVote profiliert einen millionenschweren Open-Source-Korpus hinsichtlich Umgebungsanforderungen, Qualität und Überprüfbarkeit und synthetisiert dann Aufgaben für überprüfbare Fähigkeiten. Vor der Ausführung führt SkillsVote eine agentische Bibliothekssuche über die strukturierte Fähigkeitsbibliothek durch, um instruktiven Fähigkeitskontext bereitzustellen. Nach der Ausführung zerlegt es Trajektorien in fähigkeitsverknüpfte Teilaufgaben, ordnet Ergebnisse dem Einsatz von Fähigkeiten, der Agentenexploration, der Umgebung und Ergebnissignalen zu und lässt nur erfolgreiche wiederverwendbare Entdeckungen für evidenzgesteuerte Aktualisierungen zu. In unserer Auswertung verbessert die Offline-Evolution GPT-5.2 auf Terminal-Bench 2.0 um bis zu 7,9 Prozentpunkte, während die Online-Evolution SWE-Bench Pro um bis zu 2,6 Prozentpunkte verbessert. Insgesamt können gesteuerte externe Fähigkeitsbibliotheken eingefrorene Agenten ohne Modellaktualisierungen verbessern, wenn Systeme die Präsentation, die Anerkennung und die Erhaltung kontrollieren.

LongLive-2.0: Eine NVFP4-Parallelinfrastruktur zur Generierung langer Videos
LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

May 18

ByYukang Chen, Luozhou Wang, Wei Huang, Shuai Yang, Bohan Zhang, Yicheng Xiao, Ruihang Chu, Weian Mao, Qixin Hu, Shaoteng Liu, Yuyang Zhao, Huizi Mao, Ying-Cong Chen, Enze Xie, Xiaojuan Qi, Song Han

101

Wir präsentieren LongLive-2.0, eine auf NVFP4 basierende parallele Infrastruktur, die den gesamten Trainings- und Inferenzworkflow der Generierung langer Videos abdeckt und Geschwindigkeits- sowie Speicherengpässe adressiert. Für das Training führen wir sequenzparalleles autoregressives (AR) Training ein, implementiert als Balanced SP, das eine effiziente Teacher-Forcing-Anordnung mit SP-Ausführung durch Paarung von sauberen Historien- und verrauschten Ziel-Zeitchunks auf jedem Rang kombiniert und so eine natürliche Teacher-Forcing-Maske mit SP-bewusster gechunkter VAE-Kodierung ermöglicht. In Kombination mit NVFP4-Präzision reduziert dies die GPU-Speicherkosten und beschleunigt die GEMM-Berechnung während des Trainings, deren Anteil mit wachsender Videolänge zunimmt. Darüber hinaus zeigen wir, dass eine hochwertige Infrastruktur und ein hochwertiger Datensatz einen bemerkenswert sauberen Trainingspipeline ermöglichen. Im Gegensatz zu bestehenden Methoden der Self-Forcing-Reihe, die auf ODE-Initialisierung und anschließendem Distribution-Matching-Distillation (DMD) beruhen, optimiert LongLive-2.0 ein Diffusionsmodell direkt zu einem langen, Multi-Shot-, interaktiven autoregressiven (AR) Diffusionsmodell. Es kann mit eigenständigen LoRA-Gewichten weiter in eine Echtzeitgenerierung (4 bis 2 Denoising-Schritte) überführt werden. Für die Inferenz auf Blackwell-GPUs ermöglichen wir W4A4-NVFP4-Inferenz, quantisieren den KV-Cache in NVFP4 zur Speichereinsparung und steigern den End-to-End-Durchsatz durch asynchrones Streaming der VAE-Dekodierung. Auf Nicht-Blackwell-GPU-Architekturen setzen wir SP-Inferenz ein, um die Geschwindigkeit auf Blackwell-GPUs zu erreichen, während der quantisierte KV-Cache die Inter-GPU-Kommunikation von SP reduzieren kann. Experimente zeigen eine Beschleunigung von bis zu 2,15x beim Training und 1,84x bei der Inferenz. LongLive-2.0-5B erreicht 45,7 FPS-Inferenz bei gleichzeitig starker Leistung in Benchmarks. Unseres Wissens ist LongLive-2.0 das erste NVFP4-Trainings- und Inferenzsystem für die Generierung langer Videos.

Lance: Einheitliche multimodale Modellierung durch Multitask-Synergie
Lance: Unified Multimodal Modeling by Multi-Task Synergy

May 18

ByFengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang

Wir stellen Lance vor, ein leichtgewichtiges natives Unified-Modell, das multimodales Verständnis, Generierung und Editing sowohl für Bilder als auch Videos unterstützt. Anstatt auf eine Skalierung der Modellkapazität oder textbilddominante Designs zu setzen, erforscht Lance ein praktisches Paradigma für unified multimodale Modellierung durch kollaboratives Multi-Task-Training. Es basiert auf zwei Kernprinzipien: unified Kontextmodellierung und entkoppelte Fähigkeitspfade. Konkret wird Lance von Grund auf trainiert und verwendet eine Dual-Stream-Mixture-of-Experts-Architektur auf gemeinsam genutzten verschränkten multimodalen Sequenzen, die gemeinsames Kontextlernen ermöglicht, während die Pfade für Verständnis und Generierung entkoppelt werden. Wir führen ferner modalitätsbewusste rotierende Positionskodierung ein, um Interferenzen zwischen heterogenen visuellen Tokens zu mildern und die Cross-Task-Ausrichtung zu verbessern. Während des Trainings verwendet Lance ein gestaffeltes Multi-Task-Trainingsparadigma mit fähigkeitsorientierten Zielen und adaptiver Datenplanung, um sowohl das semantische Verständnis als auch die visuelle Generierungsleistung zu stärken. Experimentelle Ergebnisse zeigen, dass Lance bestehende Open-Source-Unified-Modelle in der Bild- und Videogenerierung deutlich übertrifft, während es gleichzeitig starke multimodale Verständnisfähigkeiten beibehält. Die Homepage ist verfügbar unter https://lance-project.github.io.

KI für Auto-Research: Roadmap & Benutzerhandbuch
AI for Auto-Research: Roadmap & User Guide

May 18

ByLingdong Kong, Xian Sun, Wei Chow, Linfeng Li, Kevin Qinghong Lin, Xuan Billy Zhang, Song Wang, Rong Li, Qing Wu, Wei Gao, Yingshuo Wang, Shaoyuan Xie, Jiachen Liu, Leigang Qu, Shijie Li, Lai Xing Ng, Benoit R. Cottereau, Ziwei Liu, Tat-Seng Chua, Wei Tsang Ooi

KI-gestützte Forschung überschreitet eine Schwelle: Vollautomatische Systeme können nun Forschungspapiere für nur 15 US-Dollar generieren, während Agenten mit langem Zeithorizont Experimente durchführen, Manuskripte entwerfen und Kritik mit minimalem menschlichen Input simulieren. Doch diese Produktivitätsgrenze offenbart ein tieferliegendes Integritätsproblem: Unter wissenschaftlichem Druck fabrizieren selbst hochmoderne LLMs noch Ergebnisse, übersehen versteckte Fehler und können die Neuheit von Arbeiten nicht zuverlässig bewerten. Wir betrachten Entwicklungen bis April 2026 und präsentieren eine durchgängige Analyse von KI über den gesamten Forschungskreislauf hinweg, gegliedert in vier epistemologische Phasen: Kreation (Ideenfindung, Literaturrecherche, Codierung und Experimente, Tabellen und Abbildungen), Schreiben (Papierverfassung), Validierung (Peer Review, Erwiderung und Überarbeitung) und Verbreitung (Poster, Folien, Videos, soziale Medien, Projektseiten und interaktive Agenten). Wir identifizieren eine scharfe, phasenabhängige Grenze zwischen zuverlässiger Unterstützung und unzuverlässiger Autonomie: KI glänzt bei strukturierten, abrufgestützten und werkzeugvermittelten Aufgaben, bleibt jedoch bei wirklich neuartigen Ideen, forschungsrelevanten Experimenten und wissenschaftlicher Urteilsfähigkeit fragil. Generierte Ideen verschlechtern sich oft nach der Implementierung, Forschungscode bleibt weit hinter Benchmark-Aufgaben zum Mustervergleich zurück, und durchgängig autonome Systeme haben noch nicht durchgängig die Akzeptanzstandards bedeutender Tagungen erreicht. Wir zeigen zudem, dass größere Automatisierung Fehlermodi eher verschleiern als beseitigen kann, wodurch die von Menschen gesteuerte Zusammenarbeit zum glaubwürdigsten Einsatzparadigma wird. Abschließend liefern wir eine strukturierte Taxonomie, eine Benchmark-Suite und ein Werkzeugverzeichnis, phasenübergreifende Entwurfsprinzipien sowie ein praxisorientiertes Handbuch; die zugehörigen Ressourcen werden auf unserer Projektseite gepflegt.

CHI-Bench: Können KI-Agenten End-to-End, langfristige, richtlinienreiche Arbeitsabläufe im Gesundheitswesen automatisieren?
CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

May 15

ByHaolin Chen, Deon Metelski, Leon Qi, Tao Xia, Joonyul Lee, Steve Brown, Kevin Riley, Frank Wang, T. Y. Alvin Liu, Hank Capps MD, Zeyu Tang, Xiangchen Song, Lingjing Kong, Fan Feng, Tianyi Zeng, Zhiwei Liu, Zixian Ma, Hang Jiang, Fangli Geng, Yuan Yuan, Chenyu You, Qingsong Wen, Hua Wei, Yanjie Fu, Yue Zhao, Carl Yang, Biwei Huang, Kun Zhang, Caiming Xiong, Sanmi Koyejo, Eric P. Xing, Philip S. Yu, Weiran Yao

Die End-to-End-Automatisierung realistischer Gesundheitsabläufe stellt drei Fähigkeiten in den Vordergrund, die in aktuellen Benchmarks unterrepräsentiert sind: Regelungsdichte – Entscheidungen müssen auf einer umfangreichen Bibliothek medizinischer, versicherungsbezogener und operativer Regeln basieren; Multi-Rollen-Komposition – eine einzelne Aufgabe erfordert, dass der Agent mehrere Rollen mit Übergaben übernimmt; und multilaterale Interaktion – Zwischenschritte im Workflow sind mehrzügige Dialoge, wie Peer-Review und Patientenansprache. Wir stellen χ-Bench vor, einen Benchmark für langfristige Gesundheits-Workflows in drei Bereichen: Vorabgenehmigung durch den Leistungserbringer, Nutzungsmanagement des Kostenträgers und Care-Management. Jede Aufgabe übergibt dem Agenten einen klinischen Fall in einem hochpräzisen Simulator von 20 Gesundheitsanwendungen, die über 87 MCP-Tools zugänglich sind. Der Agent muss diesen Fall durch Tool-Aufrufe und das Verfassen von Artefakten der Rolle in einen Endstatus überführen, geleitet durch eine Fähigkeit in Form eines Handbuchs für Managed-Care-Operations mit über 1.290 Dokumenten. Von 30 Agenten-Harness/Modell-Konfigurationen löst der beste Agent nur 28,0 % der Aufgaben, kein Agent erreicht 20 % beim strikten pass^3, und die Ausführung aller Aufgaben in einer einzigen Sitzung lässt die Leistung auf 3,8 % sinken. Diese Ergebnisse legen die Hypothese nahe, dass ähnliche Lücken wahrscheinlich auch in anderen regelungsdichten, rollenzusammengesetzten, irreversiblen Unternehmensdomänen auftreten.

Code-as-Room: Generieren von 3D-Räumen aus Draufsicht-Bildern mittels agentischer Codesynthese
Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis

May 18

ByYixuan Yang, Zhen Luo, Wanshui Gan, Jinkun Hao, Junru Lu, Jinghao Yan, Zhaoyang Lyu, Xudong Xu

Die Gestaltung realistischer und funktionaler 3D-Innenräume ist für ein breites Spektrum von Anwendungen unerlässlich, darunter Innenarchitektur, virtuelle Realität, Spiele und verkörperte KI. Während neuere Ansätze auf Basis multimodaler großer Sprachmodelle (MLLM) großes Potenzial für die Synthese von 3D-Räumen aus Textbeschreibungen oder Referenzbildern gezeigt haben, haben textbasierte Methoden Schwierigkeiten, präzise räumliche Informationen zu erfassen, und bestehende bildgesteuerte Agenten leiden unter Instabilität und Endlosschleifen, wenn sie mit der ganzheitlichen Raumerzeugung aus Draufsichtbildern beauftragt werden. Um diese Einschränkungen zu adressieren, schlagen wir Code-as-Room vor, ein MLLM-basiertes Agenten-Framework, das mit einem strukturierten Ausführungsrahmen (Execution Harness) ausgestattet ist und 3D-Räume mittels Blender-Code darstellt. Bei einem Draufsichtbild des Raumes analysiert das Framework das Referenzbild, um Szenenelemente und deren räumliche Beziehungen zu extrahieren, und synthetisiert in einer prinzipiellen, mehrstufigen Pipeline ausführbaren Blender-Code für Geometrie, Materialien und Beleuchtung. Ein stufenübergreifendes Speichermodul wird während des gesamten Prozesses aufrechterhalten, um das bei bestehenden agentenbasierten Frameworks auftretende Kontextvergessen zu mildern. Darüber hinaus führen wir einen dedizierten Benchmark für codebasierte 3D-Raumsynthese ein, der verschiedene Bewertungsprotokolle umfasst. Anhand unseres Benchmarks werden umfassende Vergleiche mit bestehenden agentenbasierten Methoden durchgeführt, um die Wirksamkeit des vorgeschlagenen Ausführungsrahmens zu validieren.

KVPO: ODE-natives GRPO für autoregressive Videoausrichtung via KV-semantische Exploration
KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration

May 14

ByRuicheng Zhang, Kaixi Cong, Jun Zhou, Zhizhou Zhong, Zunnan Xu, Shuiyang Mao, Wei Liu, Xiu Li

Die Ausrichtung von autoregressiven (AR) Videogeneratoren im Streaming-Modus an menschlichen Präferenzen ist eine Herausforderung. Bestehende Methoden des Verstärkungslernens stützen sich überwiegend auf rauschbasierte Exploration und SDE-basierte Ersatz-Policies, die nicht auf die deterministischen ODE-Dynamiken destillierter AR-Modelle abgestimmt sind, und dazu neigen, die Darstellung auf niedriger Ebene zu stören, anstatt den für die langfristige Kohärenz entscheidenden semantischen Handlungsstrang auf hoher Ebene fortzuentwickeln. Um diese Einschränkungen zu überwinden, präsentieren wir KVPO, ein ODE-natives Online-Framework für die Gruppenrelativ-Policyoptimierung (GRPO) zur Ausrichtung von Streaming-Videogeneratoren. Für die Diversitätsexploration führt KVPO ein kausal-semantisches Explorationsparadigma ein, das die Variationsquelle vom stochastischen Rauschen auf den historischen KV-Cache verlagert. Durch stochastisches Routing historischer KV-Einträge werden semantisch diverse Generierungszweige konstruiert, die strikt auf der Datenmannigfaltigkeit verbleiben. Für die Policy-Modellierung führt KVPO eine Ersatz-Policy des Geschwindigkeitsfeldes ein, die auf der Trajektorien-Geschwindigkeitsenergie (TVE) basiert. Diese quantifiziert die Wahrscheinlichkeit von Zweigen im Flussabstimmungsgeschwindigkeitsraum und liefert eine belohnungsgewichtete kontrastive Zielfunktion, die vollständig mit der natives ODE-Formulierung konsistent ist. Experimente mit mehreren destillierten AR-Videogeneratoren zeigen konsistente Verbesserungen bei der visuellen Qualität, der Bewegungsqualität und der Text-Video-Ausrichtung sowohl für Einzelprompt-Kurzvideos als auch für Multiprompt-Langvideos.

OProver: Ein einheitliches Framework für agentisches formales Theorembeweisen
OProver: A Unified Framework for Agentic Formal Theorem Proving

May 17

ByDavid Ma, Kaijing Ma, Shawn Guo, Yunfeng Shi, Enduo Zhao, Jiajun Shi, Zhaoxiang Zhang, Gavin Cheung, Jiaheng Liu, Zili Wang

Aktuelle Fortschritte im formalen Theorembeweisen profitieren von groß angelegter Beweiserzeugung und prüferbewusstem Training, jedoch wird agentisches Beweisen selten in das Training von Beweisern integriert und kommt nur zur Inferenzzeit zum Einsatz. Wir stellen OProver vor, ein einheitliches Framework für agentisches formales Theorembeweisen in Lean 4, bei dem fehlgeschlagene Beweisversuche iterativ mithilfe abgerufener, compiler-verifizierter Beweise und des Lean-Compiler-Feedbacks überarbeitet werden. OProver wird durch fortgesetztes Vortraining gefolgt von iterativem Nachtraining trainiert: Jede Iteration führt agentisches Beweisen durch, indexiert neu verifizierte Beweise in OProofs und den Abrufspeicher, nutzt Reparaturtrajektorien als SFT-Daten und verwendet ungelöste schwierige Fälle für RL. OProofs wird aus öffentlichen Lean-Ressourcen, groß angelegter Beweissynthese und agentischen Beweisspuren aufgebaut und enthält 1,77 Millionen Lean-Anweisungen, 6,86 Millionen compiler-verifizierte Beweise sowie serialisierte Trajektorien mit abgerufenem Kontext, fehlgeschlagenen Versuchen, Feedback und Reparaturen. Über fünf Benchmarks hinweg erzielt OProver-32B die beste Pass@32 auf MiniF2F (93,3 %), ProverBench (58,2 %) und PutnamBench (11,3 %) und belegt den zweiten Platz auf MathOlympiad (22,8 %) und ProofNet (33,2 %) – mit mehr Spitzenplatzierungen als jeder zuvor veröffentlichte Open-Weight-Ganzbeweis-Beweiser.

Post-trainierte MoE kann die Hälfte der Experten mittels Selbst-Destillation überspringen.
Post-Trained MoE Can Skip Half Experts via Self-Distillation

May 18

ByXingtai Lv, Li Sheng, Kaiyan Zhang, Yichen You, Siyan Gao, Xueheng Luo, Yuxin Zuo, Yuchen Fan, Junlin Yang, Ganqu Cui, Bingning Wang, Fan Yang, Youbang Sun, Ning Ding, Bowen Zhou

Mixture-of-Experts (MoE) skaliert Sprachmodelle effizient durch spärliche Expertenaktivierung, und seine dynamische Variante reduziert die Berechnung weiter, indem sie die aktivierten Experten eingabeabhängig anpasst. Bestehende dynamische MoE-Methoden basieren meist auf einem Training von Grund auf oder aufgabenspezifischer Anpassung, während die praktische Umwandlung vollständig trainierter MoE-Modelle noch wenig erforscht ist. Eine solche Anpassung würde die Inferenzkosten direkt senken, indem einfache Token während des Servings unnötige Experten umgehen können. Diese Arbeit stellt Zero-Expert Self-Distillation Adaptation (ZEDA) vor, ein kostengünstiges Framework, das nachtrainierte statische MoE-Modelle in effiziente dynamische Modelle umwandelt. Zur Stabilisierung dieser Architekturumwandlung fügt ZEDA parameterfreie Nullausgabe-Experten in jede MoE-Schicht ein und passt das erweiterte Modell durch zweistufige Selbst-Destillation an, wobei das ursprüngliche MoE-Modell als eingefrorener Lehrer dient und ein Balancing-Verlust auf Gruppenebene angewendet wird. Auf Qwen3-30B-A3B und GLM-4.7-Flash über 11 Benchmarks aus den Bereichen Mathematik, Code und Anweisungsbefolgung eliminiert ZEDA über 50% der Experten-FLOPs bei vernachlässigbarem Genauigkeitsverlust. Es übertrifft die stärkste dynamische MoE-Baseline um 6,1 bzw. 4,0 Punkte auf den beiden Modellen und erzielt eine etwa 1,20-fache End-to-End-Inferenzbeschleunigung.

VideoSeeker: Anreizsetzung für das Videoverständnis auf Instanzebene durch native agentische Werkzeugaufrufe
VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation

May 15

ByYiming Zhao, Yu Zeng, Wenxuan Huang, Zhen Fang, Qing Miao, Qisheng Su, Jiawei Zhao, Jiayin Cai, Lin Chen, Zehui Chen, Yukun Qi, Yao Hu, Xiaolong Jiang, Feng Zhao

Große visuell-sprachliche Modelle (Large Vision-Language Models, LVLMs) haben bedeutende Fortschritte im Videoverständnis gezeigt, stehen jedoch vor erheblichen Herausforderungen bei Aufgaben, die eine präzise raumzeitliche Lokalisierung auf Instanzebene erfordern. Bestehende Methoden stützen sich hauptsächlich auf Textaufforderungen für die Interaktion zwischen Mensch und Modell, aber diese Aufforderungen haben Schwierigkeiten, präzise räumliche und zeitliche Referenzen zu liefern, was zu einer schlechten Benutzererfahrung führt. Darüber hinaus entkoppeln aktuelle Ansätze typischerweise die visuelle Wahrnehmung vom sprachlichen Denken, wobei das Denken eher um die Sprache als um den visuellen Inhalt zentriert wird, was die Fähigkeit des Modells einschränkt, proaktiv feinkörnige visuelle Evidenzen wahrzunehmen. Um diese Herausforderungen zu bewältigen, schlagen wir VideoSeeker vor, ein neuartiges Paradigma für das Videoverständnis auf Instanzebene mittels visueller Aufforderungen. VideoSeeker integriert nahtlos agentisches Denken mit Aufgaben des Videoverständnisses auf Instanzebene, wodurch das Modell in die Lage versetzt wird, relevante Videosegmente bei Bedarf proaktiv wahrzunehmen und abzurufen. Wir konstruieren eine vierstufige, vollautomatische Datensynthesepipeline, um effizient große Mengen hochwertiger Videodaten auf Instanzebene zu generieren. Wir verinnerlichen Werkzeugaufruf- und proaktive Wahrnehmungsfähigkeiten im Modell durch Kaltstartüberwachung und RL-Training und bauen so ein leistungsstarkes Videoverständnismodell auf. Experimente zeigen, dass unser Modell eine durchschnittliche Verbesserung von +13,7% gegenüber Basislinien bei Aufgaben des Videoverständnisses auf Instanzebene erzielt und dabei leistungsstarke Closed-Source-Modelle wie GPT-4o und Gemini-2.5-Pro übertrifft, während es auch eine effektive Übertragbarkeit auf allgemeine Videoverständnis-Benchmarks zeigt. Die relevanten Datensätze und der Code werden öffentlich zugänglich gemacht.

LiteFrame: Effiziente Vision-Encoder ermöglichen Frame-Skalierung in Video-LLMs
LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs

May 17

ByJihwan Kim, Nikhil Parthasarathy, Danfeng Qin, Junhwa Hur, Deqing Sun, Bohyung Han, Ming-Hsuan Yang, Boqing Gong

Die grundlegende Herausforderung bei der Skalierung von Video Large Language Models (Video-LLMs) auf lange Videosequenzen liegt in der Bewältigung der Explosion der visuellen Token-Kontextlänge. Bisherige Strategien konzentrieren sich überwiegend auf eine "nachträgliche" Token-Reduktion – die Reduzierung visueller Token nach der Merkmalsextraktion, um den Rechenaufwand des LLM zu verringern. Obwohl diese Methoden die Anzahl der visuellen Token effektiv reduzieren, beobachten wir, dass sich der primäre Engpass in der Latenz dann vom LLM auf die aufwändige Einzelbildverarbeitung des visuellen Encoders verlagert. Um dieses Problem zu lösen, führen wir LiteFrame ein, ein leistungsstarkes und zugleich äußerst effizientes Video-Encoder-Backbone für Video-LLMs. Für das Training von LiteFrame schlagen wir Compressed Token Distillation (CTD) vor, ein neuartiges Trainingsframework, das einem kompakten Studenten-Video-Encoder beibringt, direkt informationsdichte, räumlich-zeitlich komprimierte Repräsentationen vorherzusagen, die von einem großen Lehrer-Visionsmodell erzeugt werden – und so redundante Berechnungen effektiv umgeht. In Kombination mit einer weiteren Language Model Adaptation (LMA) führt dieser Ansatz zu einer neuen Pareto-Grenze zwischen Latenz und Genauigkeit: Im Vergleich zu InternVL3-8B ermöglicht LiteFrame eine Reduzierung der Ende-zu-Ende-Latenz um 35% bei gleichzeitiger Verarbeitung der 8-fachen Anzahl an Einzelbildern und verbessert die durchschnittliche Video-Verständnisgenauigkeit über mehrere Benchmarks hinweg. Unsere Ergebnisse zeigen einen neuen vielversprechenden Weg auf, um unter festen Rechenbudgets ein längeres Video-Verständnis zu erschließen.

Stopp, wenn das Reasoning konvergiert: Semantikerhaltender vorzeitiger Ausstieg für Reasoning-Modelle
Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

May 17

ByDehai Min, Giovanni Vaccarino, Huiyi Chen, Yongliang Wu, Gal Yona, Lu Cheng

Große Reasoning-Modelle (LRMs) erzielen eine hohe Leistung, indem sie lange Gedankenketten (CoT) generieren, neigen jedoch dazu, zu viel zu denken, d.h. sie setzen die Überlegungen fort, nachdem eine Lösung bereits stabilisiert ist, und verschwenden dadurch Tokens und erhöhen die Latenz. Bestehende Methoden für Early-Exit zur Inferenzzeit stützen sich hauptsächlich auf Signale auf Antwortebene, wie z.B. Konfidenz oder Konsistenz von Testantworten, um zu entscheiden, wann abgebrochen werden soll. Diese Signale spiegeln jedoch hauptsächlich die Bereitschaft der Antwort wider und nicht die Konvergenz des Reasoning-Prozesses: Sie können ausgelöst werden, bevor das Modell die Erkundung oder Selbstkorrektur abgeschlossen hat, was zu vorzeitigen Ausstiegen führt, die die Genauigkeit der endgültigen Antwort beeinträchtigen und die beibehaltene Reasoning-Kette semantisch unvollständig lassen können. Wir identifizieren semantische Redundanz auf Reasoning-Ebene als komplementäres Signal für einen semantikerhaltenden frühen Ausstieg: Wenn aufeinanderfolgende Schritte keine neuen Fortschritte mehr bringen, sondern stattdessen bereits etablierte Schlussfolgerungen erneut aufgreifen, ist die Reasoning-Trajektorie wahrscheinlich konvergiert. Aufbauend auf dieser Erkenntnis schlagen wir PUMA vor, ein Plug-and-Play-Framework, das einen leichten Redundanzdetektor mit einer Verifikation auf Antwortebene kombiniert. Der Detektor markiert semantisch redundante Kandidaten für den Ausstieg, während die Verifikation bestätigt, ob ein Stopp sicher ist. Dadurch kann PUMA redundante Fortsetzungen entfernen, während sowohl die Antwortgenauigkeit als auch ein kohärentes Reasoning-Präfix erhalten bleiben. Über fünf LRMs und fünf anspruchsvolle Reasoning-Benchmarks hinweg erreicht PUMA eine durchschnittliche Token-Reduktion von 26,2 %, während die Genauigkeit und die Qualität der beibehaltenen CoT erhalten bleiben. Zusätzliche Experimente zur Codegenerierung, zum Zero-Shot-Vision-Language-Reasoning und zur Internalisierung erlernter Stop-Politiken zeigen weiterhin, dass Redundanz auf Reasoning-Ebene ein robustes, übertragbares und erlernbares Signal für effizientes Reasoning ist. Unser Code ist verfügbar unter https://github.com/giovanni-vaccarino/PUMA.

Messung maximaler Aktivierungen in offenen großen Sprachmodellen
Measuring Maximum Activations in Open Large Language Models

May 15

ByLuxuan Chen, Han Tian, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin

Der Dynamikbereich von Aktivierungen ist eine grundlegende Einschränkung für die Niedrigbit-Quantisierung, Aktivierungsskalierung und stabile LLM-Inferenz. Frühere Arbeiten charakterisierten Ausreißermerkmale und massive Aktivierungen bei LLaMA-artigen Modellen vor 2024, und der nachgelagerte Aktivierungs-Quantisierungs-Stack übernimmt dieses Bild, ohne es für den Open-Model-Boom nach LLaMA erneut zu überprüfen. Wir stellen die einsatzorientierte Frage: Wie groß können Aktivierungen in modernen offenen LLMs werden, und wie variiert diese Größenordnung über Familien, Generationen und Trainingsstadien hinweg? Unter einer einheitlichen Pipeline (5.000-Stichproben-Multi-Domain-Korpus, familienspezifische Tokenisierung, identische Hooks über Embeddings, verborgene Zustände, Attention, MLP/MoE, SwiGLU-Gates und finale Norm) messen wir globale und schichtweise Maxima an 27 Checkpoints aus 8 offenen Familien, die dichte Modelle, MoE, Sprach-Bild-Modelle, Zwischentrainings- und anweisungsabgestimmte Varianten umfassen. Wir stellen fest: (i) Globale Maxima erstrecken sich über fast vier Größenordnungen bei vergleichbaren Parameteranzahlen, wobei Qwen3.5 und MoE-Checkpoints im Bereich von 10^2 bis 10^3 liegen und Gemma3-27B-it etwa 7 × 10^5 erreicht; (ii) familien- und generationsübergreifende Vergleiche brechen mit einfachem monotonem Skalierungsverhalten; (iii) MoE-Checkpoints zeigen 14,0- bis 23,4-mal niedrigere Spitzenwerte als vergleichbar große dichte Gegenstücke, während der Residualstrom in 22 von 24 Checkpoints das globale Maximum trägt. Eine leichte INT-8-Plausibilitätsprüfung zeigt, dass gemessene Maxima über die Auswahl der Aktivierungsskala mit dem Niedrigbit-Rekonstruktionsfehler kovariieren. Wir schlussfolgern, dass die maximale Aktivierungsgröße eine Modelleigenschaft ist, die an Familie, Architektur und Trainingsstadium gebunden ist – kein einfaches Nebenprodukt der Größe – und vor einem Niedrigbit-Einsatz zusammen mit jeder Open-Weight-Veröffentlichung gemessen und berichtet werden sollte. Der Code ist öffentlich verfügbar unter https://github.com/clx1415926/Max_act_llm.

StableVLA: Auf dem Weg zu robusten Vision-Sprache-Aktion-Modellen ohne zusätzliche Daten
StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

May 18

ByYiyang Fu, Chubin Zhang, Shukai Gong, Yufan Deng, Kaiwei Sun, Qiyang Min, Qibin Hou, Yansong Tang, Jianan Wang, Daquan Zhou

Es ist unmöglich, alle möglichen Störungen im Trainingsdatensatz zu erfassen. Dies wirft eine kritische Frage hinsichtlich der Robustheit von Vision-Language-Action (VLA)-Modellen auf, wenn sie auf ungesehene reale visuelle Störungen treffen, insbesondere unter unvollkommenen visuellen Bedingungen. In dieser Arbeit führen wir eine systematische Studie auf der Grundlage aktueller State-of-the-Art-VLA-Modelle durch und zeigen einen signifikanten Leistungsabfall, wenn visuelle Störungen, die nicht in den Trainingsdaten enthalten sind, eingeführt werden. Um dieses Problem zu mildern, schlagen wir ein leichtes, auf Informationstheorie basierendes Adaptermodul vor, den Information Bottleneck Adapter (IB-Adapter), der potenzielles Rauschen aus visuellen Eingaben selektiv filtert. Ohne zusätzliche Daten oder Augmentierungsstrategien verbessert der IB-Adapter die Baseline durchschnittlich um 30%, während weniger als 10 Millionen Parameter hinzugefügt werden – eine bemerkenswerte Effizienz und Wirksamkeit. Darüber hinaus erreicht unser Modell StableVLA selbst mit einem 14-mal kleineren Backbone (0,5 Milliarden Parametern) und ohne Vortraining auf dem Open-X-Embodiment-Datensatz eine Robustheit, die mit State-of-the-Art-VLAs im 7B-Maßstab konkurrieren kann. Mit einem vernachlässigbaren Parameter-Overhead (<10M) bewahrt unser Ansatz die Genauigkeit bei Aufgaben mit langem Horizont und übertrifft OpenPi sowohl unter synthetischen als auch unter physischen visuellen Beeinträchtigungen.

EndPrompt: Effiziente Langkontext-Erweiterung durch Terminal-Ankerung
EndPrompt: Efficient Long-Context Extension via Terminal Anchoring

May 14

ByHan Tian, Luxuan Chen, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Jinman Zhao, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin

Die Erweiterung des Kontextfensters großer Sprachmodelle erfordert in der Regel ein Training mit Sequenzen der Ziellänge, was quadratische Speicher- und Rechenkosten verursacht und die Langkontext-Anpassung teuer und schwer reproduzierbar macht. Wir schlagen EndPrompt vor, eine Methode, die eine effektive Kontexterweiterung allein mit kurzen Trainingssequenzen ermöglicht. Die Kernidee besteht darin, dass die Exposition eines Modells gegenüber weitreichenden relativen Positionsabständen nicht die Konstruktion vollständiger Eingaben erfordert: Wir behalten den ursprünglichen kurzen Kontext als intaktes erstes Segment bei und fügen einen kurzen terminalen Prompt als zweites Segment hinzu, dem wir Positionsindizes nahe der Zielkontextlänge zuweisen. Diese Zwei-Segment-Konstruktion führt sowohl lokale als auch weitreichende relative Abstände innerhalb einer kurzen physischen Sequenz ein, während die semantische Kontinuität des Trainingstextes erhalten bleibt – eine Eigenschaft, die bei chunk-basierten Simulationsansätzen fehlt, die zusammenhängenden Kontext aufteilen. Wir liefern eine theoretische Analyse auf der Grundlage des Rotary Position Embedding und der Bernstein-Ungleichung und zeigen, dass die Positionsinterpolation eine strenge Glättebedingung für die Aufmerksamkeitsfunktion induziert, wobei gemeinsame Transformer-Parameter instabile Extrapolation auf unbeobachtete Zwischenabstände weiter unterdrücken. Angewandt auf Modelle der LLaMA-Familie, die das Kontextfenster von 8K auf 64K erweitern, erreicht EndPrompt einen durchschnittlichen RULER-Wert von 76,03 und den höchsten Durchschnittswert auf LongBench, übertrifft LCEG (72,24), LongLoRA (72,95) und die Feinabstimmung mit voller Länge (69,23) bei deutlich geringerem Rechenaufwand. Diese Ergebnisse zeigen, dass eine Langkontext-Generalisierung aus spärlicher Positionsüberwachung induziert werden kann, was die vorherrschende Annahme in Frage stellt, dass dichtes Langsequenz-Training für eine zuverlässige Kontextfenster-Erweiterung notwendig sei. Der Code ist verfügbar unter https://github.com/clx1415926/EndPrompt.

Die modelladaptive Werkzeugnotwendigkeit offenbart die Kluft zwischen Wissen und Handeln bei der Nutzung von LLM-Werkzeugen.
Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

May 13

ByYize Cheng, Chenrui Fan, Mahdi JafariRaviz, Keivan Rezaei, Soheil Feiz

Große Sprachmodelle (LLMs) agieren zunehmend als autonome Agenten, die entscheiden müssen, wann sie direkt antworten und wann sie externe Werkzeuge aufrufen sollen. Frühere Arbeiten zur adaptiven Werkzeugnutzung haben die Werkzeugnotwendigkeit weitgehend als eine modellunabhängige Eigenschaft behandelt, die von einem menschlichen oder LLM-Richter annotiert wurde, und decken hauptsächlich Fälle ab, in denen die Antwort offensichtlich ist (z. B. Abrufen des Wetters vs. Paraphrasieren von Text). Allerdings ist die Werkzeugnotwendigkeit in der Praxis aufgrund der unterschiedlichen Leistungsgrenzen zwischen Modellen differenzierter: Ein Problem, das ein starkes Modell allein lösen kann, erfordert für ein schwächeres möglicherweise dennoch Werkzeuge. In dieser Arbeit führen wir eine modelladaptive Definition der Werkzeugnotwendigkeit ein, die auf der empirischen Leistung jedes Modells basiert. Gemäß dieser Definition vergleichen wir die Notwendigkeit mit dem beobachteten Werkzeugaufrufverhalten bei vier Modellen auf einem Arithmetik- und Faktenwissensdatensatz und stellen erhebliche Diskrepanzen von 26,5–54,0 % bzw. 30,8–41,8 % fest. Um den Fehler zu diagnostizieren, zerlegen wir die Werkzeugnutzung in zwei Phasen: eine interne Kognitionsphase, die widerspiegelt, ob ein Modell ein Werkzeug für notwendig hält, und eine Ausführungsphase, die bestimmt, ob das Modell tatsächlich einen Werkzeugaufruf durchführt. Durch Sondieren der verborgenen Zustände des LLM stellen wir fest, dass beide Signale oft linear dekodierbar sind, jedoch ihre Sondenrichtungen im späte-Schicht-, letztes-Token-Regime, das die nächste Token-Aktion steuert, nahezu orthogonal werden. Durch die Verfolgung des Verlaufs von Stichproben im zweistufigen Prozess entdecken wir weiterhin, dass der Großteil der Diskrepanz im Übergang von der Kognition zur Aktion konzentriert ist, nicht in der Kognition selbst. Diese Ergebnisse offenbaren eine Kluft zwischen Wissen und Handeln bei der Werkzeugnutzung von LLMs: Die Verbesserung der Zuverlässigkeit der Werkzeugnutzung erfordert nicht nur eine bessere Erkennung, wann Werkzeuge benötigt werden, sondern auch eine bessere Umsetzung dieser Erkennung in Handlungen.

AstraFlow: Datenflussorientiertes Verstärkungslernen für agentische LLMs
AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs

May 15

ByHaizhong Zheng, Yizhuo Di, Jiahui Wang, Shuowei Jin, Xueshen Liu, Yongji Wu, Z. Morley Mao, Ion Stoica, Jiawei Zhao, Beidi Chen

Verstärkungslernen (Reinforcement Learning, RL) wird zunehmend eingesetzt, um die Fähigkeiten großer Sprachmodelle in den Bereichen logisches Denken, Codegenerierung und Werkzeugnutzung zu verbessern, jedoch bleibt agentisches RL weiterhin prohibitiv teuer. Die Skalierung von RL auf agentische große Sprachmodelle erfordert die Unterstützung komplexer Arbeitslasten, einschließlich kollaborativem Training mit mehreren Richtlinien (Multi-Policy Collaborative Training), bei gleichzeitig effizienter Nutzung elastischer, heterogener und über Regionen hinweg verteilter Rechenressourcen. Bestehende RL-Systeme für große Sprachmodelle unterstützen einige dieser Fähigkeiten, jedoch erfordert jede neue Erweiterung oft dedizierte Systementwicklung. Diese Belastung resultiert aus trainergesteuerten Kontrollarchitekturen und dem Fehlen prinzipientreuer Abstraktionen für RL-Systemkomponenten. Um diese Einschränkungen zu überwinden, schlagen wir AstraFlow vor, ein datenflussorientiertes RL-System, das die herkömmliche trainergesteuerte Kontrolle durch prinzipientreue Komponentenabstraktionen ersetzt. In AstraFlow sind Rollout-Dienste, Datenflussmanagement und Training in autonome Komponenten entkoppelt, wodurch das System nativ komplexe agentische RL-Arbeitslasten mit mehreren Richtlinien unterstützt und verschiedene Rechenressourcen effizient nutzt. Wir evaluieren AstraFlow über Arbeitslasten aus den Bereichen Mathematik, Code, Suche und AgentBench und zeigen, dass dasselbe System ohne systemseitige Codeänderungen Multi-Policy-Training, elastische Skalierung, heterogene regionsübergreifende Ausführung und kombinierbare Datenalgorithmen unterstützt. Beim kollaborativen Training mit mehreren Richtlinien erreicht AstraFlow eine vergleichbare oder bessere Genauigkeit als bestehende RL-Systeme und beschleunigt gleichzeitig die Trainingszeit um das 2,7-fache.

Wo sollte Diffusion in ein Sprachmodell eintreten? Geometriegeführte Ersetzung versteckter Zustände
Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement

May 14

ByInjin Kong, Hyoungjoon Lee, Yohan Jo

Kontinuierliche Diffusionssprachmodelle liegen hinter autoregressiven Transformatoren zurück, was teilweise daran liegt, dass die Diffusion in Räumen angewendet wird, die für die Sprach-Entrauschung und Token-Wiederherstellung ungeeignet sind. Wir schlagen DiHAL vor, einen geometriegeführten Diffusions-Transformer-Hybriden, der die Frage stellt, wo die Diffusion in einen vortrainierten Transformer eintreten sollte. DiHAL bewertet Schichten mit geometriebasierten Proxys, wählt eine diffusionsfreundliche Hidden-State-Schnittstelle aus und ersetzt das untere Transformer-Präfix durch eine Diffusionsbrücke, während die oberen Schichten und der ursprüngliche LM-Head erhalten bleiben. Indem DiHAL den Hidden-State der ausgewählten Schicht statt der Token rekonstruiert, vermeidet es eine direkte kontinuierlich-zu-diskrete Wiederherstellung. Experimente mit Backbones im 8B-Maßstab zeigen, dass der Geometrie-Score unter einem festen Brückentrainingsprotokoll effektive flache Einfügungsschichten vorhersagt und dass die Hidden-State-Wiederherstellung in einem diagnostischen Vergleich, der das Diffusions-/Wiederherstellungstrainingsbudget abgleicht, gegenüber kontinuierlichen Diffusionsbaselines verbessert wird. Diese Ergebnisse deuten darauf hin, dass die Hidden-State-Geometrie dabei hilft zu identifizieren, wo ein diffusionsbasierter Austausch innerhalb vortrainierter Sprachmodelle machbar ist.

Gezielte Neuromodulation durch kontrastive Paarsuche
Targeted Neuron Modulation via Contrastive Pair Search

May 12

BySam Herring, Jake Naviasky, Karan Malhotra

Sprachmodelle werden durch Instruction-Tuning darauf trainiert, schädliche Anfragen abzulehnen, aber die zugrundeliegenden Mechanismen dieses Verhaltens sind noch wenig verstanden. Gängige Steuerungsmethoden greifen in den Residualstrom ein und verschlechtern bei hohen Interventionsstärken die Kohärenz der Ausgabe, was ihren praktischen Nutzen einschränkt. Wir stellen die kontrastive Neuronenzuschreibung (CNA) vor, die die 0,1 % der MLP-Neuronen identifiziert, deren Aktivierungen am stärksten zwischen schädlichen und harmlosen Eingabeaufforderungen unterscheiden; dabei werden nur Vorwärtsdurchläufe benötigt, ohne Gradienten oder zusätzliches Training. In Instruct-Modellen reduziert die Ablation des entdeckten Schaltkreises die Ablehnungsraten um über 50 % in einem standardisierten Jailbreak-Benchmark, während die Flüssigkeit und Nicht-Degeneriertheit bei allen Steuerungsstärken erhalten bleiben. Bei Anwendung von CNA auf gepaarte Basis- und Instruct-Modelle der Llama- und Qwen-Architekturen (von 1B bis 72B Parameter) stellen wir fest, dass Basismodelle ähnliche spätschichtige Diskriminationsstrukturen aufweisen, aber die Steuerung dieser Neuronen führt nur zu Inhaltsverschiebungen, nicht zu Verhaltensänderungen. Diese Ergebnisse zeigen, dass Interventionen auf Neuron-Ebene eine zuverlässige Verhaltenssteuerung ermöglichen, ohne die Qualitätseinbußen von Residualstrom-Methoden. Im weiteren Sinne deuten unsere Ergebnisse darauf hin, dass Alignment-Feintuning eine bereits vorhandene Diskriminationsstruktur in ein spärliches, gezielt adressierbares Ablehnungs-Gatter umwandelt.

CompactAttention: Beschleunigung des Chunked Prefill durch Block-Union KV-Auswahl
CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

May 16

ByJiwon Song, Dongwon Jo, Beomseok Kang, Jae-Joon Kim

Chunked Prefill hat sich zu einer weit verbreiteten Serving-Strategie für Large Language Models mit langen Kontexten entwickelt, doch die effiziente Attention-Berechnung in diesem Bereich bleibt herausfordernd. Bestehende Methoden für sparse Attention sind primär für einmaliges Prefill ausgelegt und lassen sich nicht effizient auf Chunked Prefill übertragen: Blocksparse-Kernel verlieren an Effizienz, wenn die Query-Länge durch die Chunk-Größe begrenzt ist, während feinkörnige Mustersuche aufwändig wird, wenn sie bei jedem Chunk über den angesammelten KV-Cache wiederholt werden muss. QUOKA, eine neuere Methode, die direkt auf Chunked Prefill abzielt, vermeidet den Overhead von Sparse-Kerneln, basiert jedoch auf einer Query-Subsampling-basierten, tokenweisen KV-Auswahl, die query-spezifische KV-Einträge übersehen und expliziten KV-Kopieraufwand verursachen kann. Um diese Einschränkungen zu adressieren, schlagen wir CompactAttention vor, einen Attention-Mechanismus für Chunked Prefill, der auf Block-Union-KV-Auswahl basiert. CompactAttention behandelt 2D-Blocksparse-Masken als KV-Auswahlsignale anstatt als direkte Ausführungspläne für Sparse-Kernel und wandelt sie durch Q-Block-Union und Intra-Gruppen-Union in GQA-bewusste KV-Blocktabellen pro Gruppe um. Diese Konstruktion erzeugt die minimalen Blocktabellen, die unter den Einschränkungen der seitenbasierten Ausführung alle durch die Eingabemasken ausgewählten KV-Blöcke erhalten, sodass auf ausgewählte KV-Blöcke direkt ohne explizite KV-Kompaktierung zugegriffen werden kann. Auf LLaMA-3.1-8B-Instruct bleibt CompactAttention im RULER-Benchmark nahe an der Genauigkeit von dichter Attention und erzielt bei einer Kontextlänge von 128K unter Chunked Prefill eine bis zu 2,72-fache Attention-Beschleunigung.

Von ausführbar zu auslieferbar: Multi-Agenten-Testgetriebene Entwicklung zur Generierung von Full-Stack-Webanwendungen aus Anforderungen
From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements

May 17

ByYuxuan Wan, Tingshuo Liang, Jiakai Xu, Jingyu Xiao, Yintong Huo, Michael R Lyu

Codierungsagenten können Webanwendungen aus Beschreibungen in natürlicher Sprache generieren, doch eine aktuelle Benchmark-Studie zeigt, dass generierte Anwendungen in über 70 % der Fälle die funktionalen Anforderungen nicht erfüllen. Die Hauptschwierigkeit besteht darin, dass die Korrektheit von Webanwendungen nicht anhand von Quelldateien oder Terminalausgaben beurteilt werden kann: Die Anwendung muss bereitgestellt, durch simulierte Browser-Interaktionen getestet werden, und Fehler müssen in umsetzbare Reparatursignale übersetzt werden – Schritte, die aktuelle Agenten ohne menschliche Vermittlung nicht durchführen können. Wir stellen TDDev vor, ein Framework, das diesen geschlossenen Kreislauf in drei Phasen automatisiert: (1) Umwandlung von Anforderungen auf hoher Ebene in strukturierte Abnahmetests, bevor Code geschrieben wird, (2) Bereitstellung der Anwendung und deren Validierung durch browserbasierte Interaktionssimulation sowie (3) Übersetzung von im Browser beobachteten Fehlern in strukturierte Reparaturberichte für den Codierungsagenten. Mit TDDev führen wir die erste kontrollierte empirische Studie zu Test-driven Development (TDD)-Strategien für die Generierung von Webanwendungen durch und vergleichen vier Entwicklungsprotokolle über zwei Codierungsagenten, zwei Basismodelle und zwei Benchmarks hinweg. Die TDD-Infrastruktur verbessert die Generierungsqualität konsequent um 34–48 Prozentpunkte gegenüber einer Baseline ohne TDD. Die zentrale Erkenntnis ist, dass das optimale Protokoll vom Generierungsstil des Modells abhängt: Modelle, die Anwendungen ganzheitlich erstellen, profitieren am meisten von agentischer Durchsetzung, während Modelle, die Code konservativ erweitern, von inkrementeller Durchsetzung profitieren. Ein nicht passendes Protokoll zum Generierungsstil hebt den TDD-Vorteil vollständig auf, während sich die Token-Kosten um das bis zu 25-Fache vervielfachen. Eine Benutzerstudie bestätigt, dass TDDev manuelle Eingriffe von Entwicklern auf null reduziert und die Arbeitslast von kontinuierlichem Prompt-Engineering auf autonome, feedbackgesteuerte Verfeinerung verlagert.

NGM: Ein Plug-and-Play-trainingsfreies Speichermodul für LLMs
NGM: A Plug-and-Play Training-Free Memory Module for LLMs

May 16

ByYuwen Qu, Wenhui Dong, Chenyang Si, Caifeng Shan

Aktuelle Studien führen bedingte Speichermodule ein, die die Wissensspeicherung von der neuronalen Berechnung entkoppeln und so einen direkteren Wissenszugriff ermöglichen. Im Vergleich zu MoE, das auf dynamischen Berechnungspfaden basiert, bietet das explizite Nachschlagen einen effizienteren Mechanismus zum Abrufen von Wissen. Diese Ansätze sind jedoch weiterhin auf gelernte Speichereinbettungen angewiesen, was zusätzliches Training erfordert und die Flexibilität einschränkt. Um dieses Problem zu lösen, schlagen wir N-gram Memory (NGM) vor, ein trainingsfreies, Plug-and-Play-Modul, das aus einem kausalen N-Gramm-Encoder und einem Cosinus-Gated-Speicherinjektor besteht. Der kausale N-Gramm-Encoder mittelt direkt die vortrainierten Token-Einbettungen des Backbone-Modells, um N-Gramm-Repräsentationen zu konstruieren, wodurch das separate Training von N-Gramm-Einbettungen von Grund auf überflüssig wird. Dieses Design benötigt weder eine zusätzliche Speichertabelle noch eine Abrufpipeline. Der Cosinus-Gated-Speicherinjektor moduliert dann mithilfe eines nicht-parametrischen Cosinus-Gates mit ReLU die abgerufenen Einbettungen in die kontextuellen Repräsentationen. Wir evaluieren NGM an der Qwen3-Serie von 0,6B bis 14B über acht Benchmarks hinweg. NGM verbessert die durchschnittliche Leistung um 0,5 bis 1,2 Punkte, mit besonders deutlichen Zugewinnen bei Codegenerierung und wissensintensiven Aufgaben (z. B. +3,0 bei LiveCodeBench und +3,03 bei GPQA für Qwen3-14B). Darüber hinaus verbessert NGM auch die Leistung in multimodalen Benchmarks (z. B. MMStar +1,53 bei Qwen3-VL-2B).

WavFlow: Audio-Generierung im Wellenformraum
WavFlow: Audio Generation in Waveform Space

May 18

ByFeiyan Zhou, Luyuan Wang, Shoufa Chen, Zhe Wang, Zhiheng Liu, Yuren Cong, Xiaohui Zhang, Fanny Yang, Belinda Zeng

Moderne Audioerzeugung stützt sich überwiegend auf die Kompression im latenten Raum, was zusätzliche Komplexität und potenziellen Informationsverlust mit sich bringt. In dieser Arbeit stellen wir dieses Paradigma mit WavFlow in Frage, einem Framework, das hochwertiges Audio direkt im rohen Wellenformraum ohne Zwischenrepräsentationen erzeugt. Um die inhärenten Schwierigkeiten bei der Modellierung hochdimensionaler und niederenergetischer Signale zu überwinden, formen wir Audio durch Wellenform-Patchifizierung in 2D-Token-Gitter um und führen eine Amplitudenanhebung ein, um die Signalskalen anzugleichen, was eine stabile Optimierung durch direkte x-Vorhersage im Flow Matching ermöglicht. Um komplexe semantische Abstimmung und zeitliche Synchronisation zu erfassen, nutzen wir eine automatisierte Datenpipeline zur Zusammenstellung von 5 Millionen hochwertigen Video-Text-Audio-Tripeln, was es dem Modell ermöglicht, feinkörnige akustische Muster von Grund auf zu lernen. Experimentelle Ergebnisse zeigen, dass WavFlow auf dem Video-zu-Audio-Benchmark VGGSound (FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44) und dem Text-zu-Audio-Benchmark AudioCaps (FD_PANNs: 10.63, IS_PANNs: 12.62) eine wettbewerbsfähige Leistung erzielt und dabei die Leistung etablierter latenter Methoden erreicht oder übertrifft. Unsere Arbeit zeigt, dass eine Zwischenkompression keine Voraussetzung für eine qualitativ hochwertige Synthese ist, und bietet eine einfachere und skalierbarere Alternative für die multimodale Audioerzeugung.

TOBench: Ein aufgabenorientierter Omni-Modal-Benchmark für Agenten zur Nutzung realer Werkzeuge
TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

May 16

ByZhiqiang Liu, Wenhui Dong, Yilang Tan, Yuwen Qu, Haochen Yin, Chenyang Si

Werkzeugnutzende Agenten werden zunehmend in realistischen professionellen Arbeitsabläufen eingesetzt, in denen sie multimodale Eingaben interpretieren, externe Werkzeuge koordinieren, Zwischenergebnisse prüfen und ihre Handlungen überarbeiten müssen, bevor sie ein endgültiges Ergebnis liefern. Bestehende Benchmarks bewerten jedoch häufig Werkzeugnutzung, Computernutzung und multimodales Denken isoliert, sodass eine Lücke zwischen den Benchmark-Bedingungen und der ganzheitlichen omni-modalen Werkzeugnutzung in der realen Welt besteht. Um diese Lücke zu schließen, stellen wir MM-ToolBench vor, einen Benchmark und eine Evaluierungsumgebung für aufgabenorientierte omni-modale Werkzeugnutzung. MM-ToolBench umfasst 100 ausführbare Aufgaben aus zwei Makro-Aufgabenfamilien, Kundenservice und Intelligente Kreation, die 20 Unterkategorien abdecken und von 27 MCP-Servern mit 324 Werkzeugen unterstützt werden. Das zentrale Design von MM-ToolBench ist die geschlossene multimodale Verifikation: Agenten müssen Werkzeuge ausführen, gerenderte oder transformierte Artefakte inspizieren und selbstständig korrigieren, wenn die Ergebnisse aufgabenspezifische Anforderungen nicht erfüllen. Um eine solche Evaluierung skalierbar und überprüfbar zu machen, kombiniert MM-ToolBench die MCP-basierte Ausführung mit aufgabenspezifischen fundierten Evaluatoren und einer halbautomatischen Konstruktionspipeline für Szenarioerkennung, Aufgabeninstanziierung, Evaluatorsynthese und menschliche Prüfung. Experimente mit 15 zeitgenössischen agentischen Modellen zeigen, dass MM-ToolBench äußerst herausfordernd bleibt: Claude Opus 4.6, allgemein als eines der stärksten Kodierungsagentenmodelle angesehen, erreicht nur 32,0% Aufgabenerfolg, weit unter dem menschlichen Benchmark von 94,0%. Wir sehen MM-ToolBench als praktische Grundlage für die Evaluierung und Weiterentwicklung der nächsten Generation omni-modaler werkzeugnutzender Agenten durch geschlossene multimodale Verifikation.

AtlasVA: Selbstentwickelndes visuelles Fähigkeitengedächtnis für lehrerfreie VLM-Agenten
AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents

May 18

ByPan Wang, Yihao Hu, Xiujin Liu, Jingchu Yang, Hang Wang, Zhihao Wen

Visuell-sprachliche Modelle (VLM) als Agenten setzen zunehmend auf gedächtnisgestütztes bestärkendes Lernen, um Erfahrungen über langfristige Aufgaben hinweg wiederzuverwenden. Dennoch speichern die meisten bestehenden Frameworks Erinnerungen als Text und sind auf proprietäre Lehrermodelle angewiesen, um diese zusammenzufassen oder zu verfeinern. Dieses Design ist für räumliche Entscheidungsprozesse ungeeignet: Geometrische Annahmen werden in verlustbehaftete Sprache komprimiert, und seltene Interaktionen werden oft durch verzögertes textuelles Feedback statt durch dichte visuell verankerte Signale gesteuert. Wir argumentieren, dass wiederverwendbare Erfahrungen für VLM-Agenten visuell verankert bleiben sollten. Auf dieser Erkenntnis basierend schlagen wir AtlasVA vor, ein lehrerfreies Framework für visuelle Fähigkeitserinnerungen, das Erinnerungen in drei komplementäre Schichten organisiert: räumliche Heatmaps, visuelle Beispiele und symbolische Textfähigkeiten. AtlasVA entwickelt darüber hinaus Gefahren- und Affinitätsatlanten direkt aus Trajektorienstatistiken und leichten Gitterheuristiken weiter und nutzt diese sich selbst weiterentwickelnden Atlanten als potenzialbasierte Formungsbelohnungen für das bestärkende Lernen. Dies vereinheitlicht Wahrnehmung, Gedächtnis und Optimierung ohne externe LLM-Überwachung. Experimente auf den Benchmarks Sokoban, FrozenLake, 3D-verkörperter Navigation und 3D-Roboter-Manipulation zeigen, dass AtlasVA durchgängig bessere Leistungen erbringt als textzentrierte Gedächtnis-Baselines und konkurrierende VLM-Agenten, mit besonders starken Zugewinnen bei räumlich intensiven Aufgaben. Homepage: https://wangpan-ustc.github.io/AtlasvaWeb

MixSD: Gemischte kontextuelle Selbstdestillation zur Wissensinjektion
MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

May 16

ByJiarui Liu, Lechen Zhang, Yongjin Yang, Yinghui He, Yingheng Wang, Weihao Xuan, Zhijing Jin, Mona Diab

Überwachtes Feintuning (SFT) wird häufig verwendet, um Sprachmodellen neues Wissen zu injizieren, führt jedoch oft zu einer Verschlechterung vortrainierter Fähigkeiten wie logischem Denken und der Leistung in allgemeinen Bereichen. Wir argumentieren, dass dieses Vergessen dadurch entsteht, dass die Feintuning-Ziele von Menschen oder externen Systemen von der autoregressiven Verteilung des Modells abweichen, wodurch der Optimierer gezwungen wird, Token-Sequenzen mit niedriger Wahrscheinlichkeit zu imitieren. Um dieses Problem zu lösen, schlagen wir MixSD vor, eine einfache, lehrfreie Methode zur verteilungsangepassten Wissensinjektion. Anstatt auf festen Zielen zu trainieren, konstruiert MixSD die Überwachung dynamisch, indem Token aus zwei Bedingungen des Basismodells selbst gemischt werden: einer Expertenbedingung, die die injizierte Tatsache im Kontext beobachtet, und einer naiven Bedingung, die die ursprüngliche A-priori-Wahrscheinlichkeit des Modells widerspiegelt. Die resultierenden Überwachungssequenzen bewahren das faktische Lernsignal, während sie wesentlich näher an der Verteilung des Basismodells bleiben. Wir evaluieren MixSD an zwei synthetischen Korpora, die wir konstruieren, um den Faktenabruf und den Erwerb arithmetischer Funktionen in einer kontrollierten Umgebung zu untersuchen, sowie an etablierten Benchmarks für offene faktenbasierte Fragenbeantwortung und Wissenbearbeitung. Über mehrere Modellgrößen und Einstellungen hinweg erzielt MixSD durchweg einen besseren Gedächtnis-Bewahrungskompromiss im Vergleich zu SFT und On-Policy-Selbstdestillations-Baselines, wobei es bis zu 100 % der zurückgehaltenen Fähigkeiten des Basismodells bewahrt und gleichzeitig eine nahezu perfekte Trainingsgenauigkeit beibehält, während Standard-SFT nur 1 % bewahrt. Wir zeigen weiterhin, dass MixSD unter dem Basismodell Überwachungsziele mit substanziell niedrigerem NLL (negative Log-Likelihood) erzeugt und schädliche Bewegungen entlang Fisher-sensitiver Parameterrichtungen reduziert. Diese Ergebnisse deuten darauf hin, dass die Ausrichtung der Überwachung auf die native Generierungsverteilung des Modells ein einfaches und effektives Prinzip für die Wissensinjektion ist, das katastrophales Vergessen mildert.

MementoGUI: Lernen agentischer multimodaler Gedächtnissteuerung für Langzeit-GUI-Agenten
MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

May 18

ByZiyun Zeng, Hang Hua, Bocheng Zou, Mu Cai, Rogerio Feris, Jiebo Luo

Aktuelle GUI-Agenten haben bei der visuellen Grundierung und Handlungsvorhersage erhebliche Fortschritte erzielt, bleiben jedoch bei langfristigen Aufgaben, die die Aufrechterhaltung des Aufgabenstatus über viele Schnittstellenübergänge hinweg erfordern, fragil. Bisherige Agenten stützen sich typischerweise auf das rohe Abspielen des Verlaufs oder auf einen reinen Textspeicher, was entweder das Modell mit redundanten Bildschirmaufnahmen überlastet oder lokalisierte visuelle Belege verwirft, die für künftige Entscheidungen erforderlich sind. Um diese Einschränkungen zu beheben, stellen wir MementoGUI vor, ein Plug-in-Agenten-Speicherframework, das MLLM-basierte GUI-Agenten mit MementoCore ausstattet – einem gelernten Controller für die Online-Speicherauswahl, -kompression und den -abruf. Anstatt die Interaktionshistorie als festen Kontext zu behandeln, formuliert MementoGUI die langfristige GUI-Steuerung als Online-Speicherkontrollproblem: Der Arbeitsspeicher bewahrt aufgabenrelevante Schnittstellenereignisse selektiv mit textuellen Zusammenfassungen und visuellen Belegen auf ROI-Ebene, während das episodische Gedächtnis durch gelernte Relevanzauswahl wiederverwendbare vergangene Trajektorien abruft. MementoCore modularisiert die Speicherkontrolle in spezialisierte Operatoren für Schrittverarbeitung, Speicherkompression, episodisches Schreiben und episodische Auswahl, was eine Plug-in-Speichererweiterung ohne Feinabstimmung des GUI-Agenten-Rückgrats ermöglicht. Wir entwickeln ferner eine skalierbare Datenkuratierungspipeline, die Computernutzungstrajektorien in Trainingsdaten für den Speichercontroller umwandelt, führen MementoGUI-Bench zur Bewertung der langfristigen Entscheidungsfindung in GUI-Agenten ein und entwerfen MLLM-basierte Metriken für semantisches Handlungsabgleichen, Aufgabenfortschritt und Speicherkonsistenz. Experimente auf GUI-Odyssey, MM-Mind2Web und MementoGUI-Bench zeigen, dass MementoGUI GUI-Agenten durchgängig gegenüber Basislinien ohne Verlauf, mit Verlaufsabspielung und mit reinem Textspeicher verbessert, wobei größere MementoCore-Rückgratmodelle die speichergestützte GUI-Steuerung weiter verstärken.

FINESSE-Bench: Eine hierarchische Benchmark-Suite für Finanzdomänenwissen und technische Analyse in großen Sprachmodellen
FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models

May 14

ByDmitry Stanishevskii, Nini Kamkia, Alexey Khoroshilov, Dmitry Zmitrovich, Denis Kokosinskii, Zhirayr Hayrapetyan, Andrei Kalmykov

Große Sprachmodelle (LLMs) werden zunehmend in der Finanzanalyse, Berichterstattung, Unterstützung von Investitionsentscheidungen, Risikomanagement, Compliance und beruflichen Weiterbildung eingesetzt. Eine robuste Bewertung ihrer Fachkompetenz im Finanzwesen bleibt jedoch unvollständig. Weit verbreitete offene Benchmarks wie FinQA, ConvFinQA und TAT-QA haben eine wichtige Rolle bei der Weiterentwicklung von finanziellen Frage-Antwort-Systemen und numerischem Reasoning gespielt, konzentrieren sich jedoch hauptsächlich auf Frage-Antwort-Aufgaben über Finanzberichte und bieten keine explizite Hierarchie des professionellen Schwierigkeitsgrads. Umfassendere Ressourcen, darunter FinanceBench, PIXIU, FinBen und FLaME, erweitern die Abdeckung finanzieller Aufgaben, doch das Problem der Bewertung des Übergangs von grundlegendem Wissen zu finanziellen Reasoning auf Expertenniveau bleibt offen. In dieser Arbeit stellen wir FINESSE-Bench vor, eine Suite von acht spezialisierten Benchmarks mit 3.993 Fragen zur hierarchischen Bewertung finanzieller Kompetenzen in LLMs. FINESSE-Bench kombiniert prüfungsorientierte Datensätze, die von professionellen Zertifizierungen inspiriert sind (CFA-ähnliche Levels 1–3, CMT-ähnliches Level 2 und CFTe-ähnliches Level 1), angewandte Handelsaufgabensammlungen sowie einen russischsprachigen Olympiade-Benchmark. Dieses Design ermöglicht die Bewertung der fachlichen Breite, der Leistungsverschlechterung bei steigendem Schwierigkeitsgrad, der Fähigkeit zur Lösung rechnerischer Aufgaben sowie des Modellverhaltens in spezialisierten Finanzbereichen. Wir beschreiben zudem ein einheitliches Bewertungsprotokoll, das Multiple-Choice-Fragen, numerische Antworten und kurze offene Antworten abdeckt, sowie ein automatisiertes Bewertungsschema für Freitextantworten basierend auf dem LLM-als-Richter-Paradigma. FINESSE-Bench dient sowohl als Ergänzung zu bestehenden offenen Finanz-Benchmarks als auch als Werkzeug für eine substanziellere Bewertung beruflich relevanter finanzieller Kompetenzen in großen Sprachmodellen.

Agent Bazaar: Ermöglichung wirtschaftlicher Abstimmung in Multi-Agenten-Marktplätzen
Agent Bazaar: Enabling Economic Alignment in Multi-Agent Marketplaces

May 17

BySeth Karten, Cameron Crow, Chi Jin

Die Bereitstellung großer Sprachmodelle (Large Language Models, LLMs) als autonome wirtschaftliche Akteure birgt systemische Risiken, die über individuelle Leistungsfehler hinausgehen. Wenn diese Akteure beginnen, direkt mit Marktplätzen zu interagieren, kann ihr kollektives Verhalten die Volatilität verstärken und Täuschung in großem Maßstab verschleiern. Wir stellen den Agent Bazaar vor, ein Multi-Agenten-Simulationsframework zur Bewertung von Economic Alignment – der Fähigkeit agentischer Systeme, Marktstabilität und -integrität zu bewahren. Wir identifizieren zwei Fehlermodi: (1) Algorithmische Instabilität in einem B2C-Markt („Der Crash“), bei dem Firmen die Preisvolatilität verstärken, bis der Markt zusammenbricht, und (2) Sybil-Täuschung in einem C2C-Markt („Der Lemons-Markt“), bei dem ein einziger täuschender Akteur, der mehrere koordinierte Verkäuferidentitäten kontrolliert, den Markt mit betrügerischen Angeboten überschwemmt und so Vertrauen und Verbraucherwohlfahrt untergräbt. Wir evaluieren Frontier- und Open-Weight-Modelle in beiden Szenarien und stellen fest, dass die Modelle weitgehend nicht in der Lage sind, sich selbst zu regulieren, wobei die Schwere des Versagens eher vom Modell als von seiner Größe abhängt. Wir schlagen wirtschaftlich ausgerichtete Kontrollmechanismen vor – Stabilisierende Firmen und Skeptische Wächter –, die die Ergebnisse verbessern, aber unter schwierigeren Marktbedingungen fragil bleiben. Um diese Lücke zu schließen, trainieren wir Agenten mit REINFORCE++ unter Verwendung eines adaptiven Curriculums und erhalten ein 9B-Modell, das alle evaluierten Frontier- und Open-Weight-Modelle übertrifft. Wir schlagen den Economic Alignment Score (EAS) vor, eine vierkomponentige skalare Metrik, die Stabilität, Integrität, Wohlfahrt und Rentabilität aggregiert und so direkte modellübergreifende Vergleiche ermöglicht. Unsere Ergebnisse zeigen, dass Economic Alignment orthogonal zu allgemeinen Fähigkeiten ist und durch gezieltes Reinforcement Learning direkt trainiert werden kann.

DexHoldem: Texas Hold'em spielen mit einem geschickten, verkörperten System
DexHoldem: Playing Texas Hold'em with Dexterous Embodied System

May 18

ByFeng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma

Die Bewertung verkörperter Systeme auf echter geschickter Hardware erfordert mehr als isolierte primitive Fähigkeiten: Ein Agent muss eine sich verändernde Tischszene wahrnehmen, eine kontextgerechte Aktion auswählen, diese mit einer geschickten Hand ausführen und die Szene für spätere Entscheidungen nutzbar hinterlassen. Wir stellen DexHoldem vor, einen realen systemweiten Benchmark, der auf der geschickten Manipulation von Texas Hold'em mit einer ShadowHand aufbaut. DexHoldem bietet 1.470 teleoperierte Demonstrationen über 14 Texas Hold'em-Manipulationsprimitive, einen standardisierten Benchmark für physische Strategien sowie einen agentischen Wahrnehmungsbenchmark, der testet, ob Agenten den strukturierten Spielzustand wiederherstellen können, der für die verkörperte Entscheidungsfindung benötigt wird. Bei der Ausführung von Primitiven erzielt π_{0.5} die höchste Aufgabenerfüllungsrate (61,2%), während π_{0.5} und π_0 bei der szenenerhaltenden Erfolgsrate gleichauf liegen (47,5%). Bei der agentischen Wahrnehmung erzielt Opus 4.7 die beste strenge problembezogene Genauigkeit (34,3%), während GPT 5.5 die beste durchschnittliche feldweise Genauigkeit (66,8%) erzielt, was eine Kluft zwischen isolierten visuellen Teilfähigkeiten und der vollständigen routingrelevanten Zustandswiederherstellung aufzeigt. Schließlich instanziieren wir den vollständigen verkörperten Agentenkreislauf in drei Fallstudien, in denen Warten, Wiederherstellungsdispositionen, Hilfsanfragen an Menschen und wiederholte Ausführung von Primitiven zeigen, wie sich Wahrnehmungs- und Policy-Fehler während des geschlossenen Einsatzes ansammeln. DexHoldem bewertet daher die geschickte Tischausführung, die agentische Wahrnehmung und die verkörperte Entscheidungslenkung in einer gemeinsamen physischen Umgebung. Projektseite: https://dexholdem.github.io/Dexholdem/.

Incantation: Natürliche Sprache als Aktionsschnittstelle für Multi-Entity-Videoweltmodelle
Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models

May 18

ByShangwen Zhu, Qianyu Peng, Zhao Pu, Zhilei Shu, Xiangrui Ke, Zhaohu Xing, Zizhao Tong, Zeqing Wang, Xinyu Cui, Huangji Wang, Jian Zhao, Yeying Jin, Fan Cheng, Ruili Feng

Moderne interaktive Videoweltmodelle erzielen eine beeindruckende visuelle Wiedergabetreue, ermangeln jedoch einer feinkörnigen Multi-Entitäten-Steuerung sowie einer entitäts- und weltübergreifenden Generalisierung. Wir führen diese Lücke auf die Aktionsschnittstelle zurück: Standard-Kontrollprotokolle (z. B. Animations-IDs, Geräteeingaben, Szenenebenen-Beschreibungen) binden die Aktionssemantik zur Entwurfszeit an bestimmte Entitäten oder Engines. Wir schlagen natürliche Sprache als Schnittstelle vor, um eine Ausdruckskraft zu erschließen, die keine bisherige Schnittstelle erreichen kann, und präsentieren Incantation, das erste interaktive Videoweltmodell mit einer natürlichen Sprachsteuerung pro latentem Frame (0,25 s), das gleichzeitige Multi-Entitäten-Steuerung und konzeptuellen entitätsübergreifenden Transfer jenseits jeder festen Rendering-Pipeline unterstützt. Wir kombinieren ein vortrainiertes bidirektionales Video-Backbone mit Frame-lokaler Text-Cross-Attention und ermöglichen Echtzeit-Streaming über lange Horizonte mittels ODE-initialisierter Self-Forcing-Destillation mit einem RoPE-entkoppelten gleitenden KV-Cache. Wir übertreffen die Action-Index-Baseline beim entitätsübergreifenden Transfer (89 % vs. 43 %) und bei außervokabularischen Prompts (90 % vs. 0 %), und unser 2-Schritt-Student erreicht 19,7 FPS bei 480p mit stabilem FVD über 2-stündige Rollouts. Wir wenden dieselbe Architektur und dasselbe Trainingsrezept auf The King of Fighters an, wobei nur die pro Entität angelegten Aktionsvokabularslots geändert werden. Wir haben einen Vorschauausschnitt des Incantation-Datensatzes unter https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes veröffentlicht, der manuell gesammelte Elden-Ring-Spieler-Boss-Kampfclips mit strukturierten aktionsorientierten Metadaten enthält. Größere Elden-Ring- und KOF-Daten werden mit dem vollständigen Projekt veröffentlicht.

Evaluierung der kognitiven Altersausrichtung in interaktiven KI-Agenten
Evaluating Cognitive Age Alignment in Interactive AI Agents

May 18

ByYifan Shen, Jiawen Zhang, Jian Xu, Junho Kim, Ismini Lourentzou, Xu Cao, Meihuan Huang

Während agentische KI und ihre zentralen multimodalen großen Sprachmodelle (MLLMs) bemerkenswerte Fortschritte in der sprachlichen und visuellen Argumentation über Bereiche hinweg gezeigt haben, die vom Alltag bis zur fortgeschrittenen wissenschaftlichen Forschung reichen, bleibt eine tiefgreifende Kluft zwischen künstlicher und menschlicher Intelligenz bestehen. Trotz der Integration leistungsstarker Werkzeuge und modernster MLLMs versagen hochmoderne KI-Agenten häufig bei grundlegenden, scheinbar einfachen Aufgaben, die ein Kind mühelos lösen kann. Inspiriert von der Wechsler-Intelligenzskala für Kinder (WISC) stellen wir ChildAgentEval vor, den ersten psychometrisch fundierten interaktiven Benchmark zur Bewertung der kognitiven Altersanpassung bei MLLM-basierten Agenten. ChildAgentEval vergleicht systematisch die Argumentationsleistung verschiedener interaktiver MLLM-basierter Agenten mit altersspezifischen menschlichen Entwicklungsstufen und legt offen, wo aktuelle agentische KI-Systeme altersspezifisches kognitives Verhalten simulieren können und wo nicht.

Handlungsorientierte Weltrepräsentation
Actionable World Representation

May 18

ByKunqi Xu, Jitao Li, Jianglong Ye, Tianshu Tang, Isabella Liu, Sifei Liu, Xueyan Zou

Angeregt durch das Emergenzverhalten großer Sprachmodelle, das verallgemeinerte menschliche Intelligenz hervorbringt, verfolgt die Forschung ähnliche emergente Fähigkeiten in Weltmodellen, mit einem Schwerpunkt auf der Modellierung der physikalischen Welt. Im Bereich des physikalischen Weltmodells sind Objekte die grundlegenden Primitive, aus denen die physikalische Realität besteht. Vom Menschen bis zum Computer ist nahezu alles, womit wir interagieren, ein Objekt. Diese Objekte sind selten statisch; sie sind handlungsfähige Entitäten mit wechselnden Zuständen, die durch ihre intrinsischen Eigenschaften bestimmt werden. Während aktuelle Methoden Objektaktionszustände entweder durch Videogenerierung oder dynamische Szenenrekonstruktion angehen, modelliert keine von ihnen dieses grundlegende Element explizit auf einheitliche, prinzipientreue Weise, um eine handlungsfähige Objektrepräsentation aufzubauen. Wir schlagen WorldString vor, eine neuronale Architektur, die in der Lage ist, die Zustandsmannigfaltigkeit realer Objekte zu modellieren, indem sie direkt aus Punktwolken oder RGB-D-Videoströmen lernt. Es dient als vielseitiger digitaler Zwilling und fungiert als grundlegender Baustein für physikalische Weltmodelle; daher nennen wir es WorldString. Erfreulicherweise ermöglicht seine vollständig differenzierbare Struktur nahtlos eine zukünftige Integration mit Policy-Lernen und neuronalen Dynamiken.

SafeDiffusion-R1: Online-Belohnungssteuerung für sicheres Diffusion-Post-Training
SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

May 18

ByKomal Kumar, Ankan Deria, Abhishek Basu, Fahad Shamshad, Hisham Cholakkal, Karthik Nandakumar

Diffusionsmodelle wurden umfassend untersucht, um unsichere Inhalte zu entfernen, die während des Vortrainings erlernt wurden. Bisherige Methoden erfordern teure überwachte Daten, entweder unsichere Texte gepaart mit Ground-Truth-Bildern oder negative/positive Bildpaare, was sie für eine Skalierung unpraktisch macht. Darüber hinaus leiden Offline-Verstärkungslernen und überwachte Feinabstimmungsansätze, die synthetische Daten offline generieren, unter katastrophalem Vergessen, was die Generierungsqualität verschlechtert. Wir stellen ein neuartiges Online-Verstärkungslern-Framework vor, das sowohl Datenknappheit als auch Modellverschlechterung durch Nachtraining mit Group Relative Policy Optimization (GRPO) auf negativen und positiven Textprompts adressiert. Um die Notwendigkeit einer Feinabstimmung spezialisierter sicherer/unsicherer Belohnungsmodelle zu eliminieren, führen wir einen Steuerungsbelohnungsmechanismus ein, der eine inhärente Eigenschaft von CLIP-Einbettungen nutzt: die Steuerung von Textrepräsentationen in Richtung positiver Sicherheitsrichtungen und weg von negativen im Einbettungsraum. Unser Online-Policy-Ansatz ermöglicht es dem Modell, aus verschiedenen Prompts, einschließlich explizit unsicherer Inhalte, zu lernen, ohne katastrophales Vergessen. Umfangreiche Experimente zeigen, dass unsere Methode unangemessene Inhalte auf 18,07 % reduziert (vs. 48,9 % für SD v1.4) und Nackterkennungen auf 15 (vs. 646 im Ausgangswert), während die kompositorische Generierungsqualität von 42,08 % auf 47,83 % bei GenEval verbessert wird. Bemerkenswerterweise verallgemeinern sich diese Sicherheitsgewinne auf unsichere Out-of-Domain-Prompts in sieben Schadenskategorien und erzielen modernste Leistung ohne überwachte gepaarte Daten oder Belohnungsabstimmung. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.

A2RBench: Ein automatisches Paradigma zur Generierung formal verifizierbarer abstrakter Reasoning-Benchmarks
A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

May 17

ByQingchuan Ma, Yuexiao Ma, Yongkang Xie, Tianyu Xie, Xiawu Zheng, Rongrong Ji

Abstraktes Denkvermögen spiegelt die Intelligenz und Generalisierungsfähigkeit von LLMs wider, abstrakte Regeln zu extrahieren und anzuwenden. Allerdings bleibt die präzise Messung dieser Fähigkeit eine Herausforderung: bestehende Benchmarks sind entweder auf teure manuelle Annotationen angewiesen, was ihren Umfang begrenzt, oder riskieren, eher Auswendiglernen als echtes Denken zu messen. Um dem zu begegnen, führen wir eine automatisierte Pipeline namens A2RBench ein, die die Phasen Generierung, Erweiterung, Evaluierung und Analyse umfasst. Konkret erstellen LLMs in der Generierungsphase vielfältige Aufgaben, die echtes Denken erfordern; in der Erweiterungsphase nutzen LLMs validierte Regeln und erweitern neue Eingaberäume, um Aufgabenvarianten zu generieren, was eine Skalierung ermöglicht. Ein solcher Prozess kann jedoch Halluzinationen verursachen. Um diese zu vermeiden, etablieren wir zudem einen theoretischen Rahmen und beweisen, dass programmatische Verifikation – das Testen, ob die inverse Operation die Vorwärtsoperation perfekt umkehrt (Zykluskonsistenz) – eine eindeutige Lösung garantiert. Durch umfangreiche Evaluierungen an gängigen LLMs stellen wir fest: (1) Aktuelle LLMs weisen grundlegende Defizite im abstrakten Denken auf, wobei Top-Modelle in einer repräsentativen Teilmenge deutlich schlechter abschneiden als Menschen (39,8 % vs. 68,5 %). (2) Aktuelle LLMs bleiben bei der Komplexität generierter 3D-Aufgaben weit hinter 2D und 1D zurück, was ihr mangelndes Verständnis für hochdimensionale Aufgaben offenbart. (3) Wider Erwarten können Eingaben mit höherer Informationskomplexität den Denkprozess vereinfachen.

OSCAR: Offline, spektral kovarianzbewusste Rotation für die 2-Bit-KV-Cache-Quantisierung
OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

May 18

ByZhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu

Die INT2-KV-Cache-Quantisierung ist attraktiv für die Bereitstellung von LLMs mit langen Kontexten, doch bleibt es schwierig, sie sowohl genau als auch einsetzbar zu gestalten. Einfache Rotationen wie Hadamard-Transformationen reduzieren Ausreißer, führen aber bei INT2 dennoch zu Einbußen, da sie nicht auf die nachgelagerte Attention abgestimmt sind. Wir schlagen OSCAR vor, eine Ultra-Niedrigbit-KV-Cache-Quantisierungsmethode, die offline attention-bewusste Kovarianzstrukturen schätzt und daraus feste Rotationen sowie Clipping-Schwellenwerte für die Quantisierung ableitet. Dadurch wird die KV-Quantisierung an die Kovarianzstrukturen angepasst, die die Attention tatsächlich nutzt. Noch wichtiger ist, dass wir nicht nur eine theoretische Rechtfertigung liefern, sondern auch ein vollständig einsetzbares OSCAR-System mit einem benutzerdefinierten INT2-Attention-Kernel entwickeln, der mit dem Paged-KV-Cache-Serving und fusionierten Kernel-Pipelines kompatibel bleibt, was eine nahtlose Integration in moderne LLM-Bereitstellungsframeworks wie SGLang und vLLM ermöglicht. Wir evaluieren unsere Methoden an aktuellen Reasoning-Modellen mit Reasoning-Traces von bis zu 32.000 Tokens über 5 Aufgaben hinweg. Bei Qwen3-4B-Thinking-2507 und Qwen3-8B reduziert OSCAR den BF16-Genauigkeitsabstand auf 3,78 bzw. 1,42 Punkte, während naive INT2-Rotation auf nahezu Null abfällt. Wir skalieren OSCAR weiter auf Qwen3-32B und GLM-4.7 (358 Mrd. Parameter), wo es effektiv auf dem Niveau von BF16 bleibt. Bei langen Kontexten – RULER-NIAH bis zu 128K – bleibt OSCAR bei beiden Qwen3-Modellen robust, während naive INT2-Rotation zusammenbricht. Systemtechnisch gesehen reduziert OSCAR den KV-Cache-Speicher um etwa das Achtfache, verbessert den Durchsatz bei großen Batch-Größen unter dem gleichen Speicherbudget um bis zu das Siebenfache und beschleunigt die Decodierung mit Batch-Größe 1 um bis zu das Dreifache im Vergleich zu BF16 aufgrund des geringeren Speicherbandbreiten-Overheads.

AgentKernelArena: Generalisierungsbewusstes Benchmarking von GPU-Kernel-Optimierungsagenten
AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

May 16

BySharareh Younesian, Wenwen Ouyang, Sina Rafati, Mehdi Rezagholizadeh, Sharon Zhou, Ji Liu, Yue Liu, Yuchen Yang, Hao Li, Ziqiong Liu, Dong Li, Vikram Appia, Zhenyu Gu, Emad Barsoum

Die GPU-Kerneloptimierung wird zunehmend entscheidend für effiziente Deep-Learning-Systeme, doch das Schreiben leistungsstarker Kerne erfordert nach wie vor umfangreiche Fachkenntnisse auf niedriger Ebene. Neuere KI-Codierungsagenten können Code iterativ lesen, Compiler und Profiler aufrufen und Implementierungen verfeinern. Allerdings bewerten bestehende Kernel-Benchmarks einzelne LLM-Aufrufe und nicht vollständige Agenten-Workflows, und keiner umfasst sowohl Kernel-zu-Kernel-Optimierung als auch Generalisierungstests auf unbekannte Konfigurationen. Wir stellen AgentKernelArena vor, einen quelloffenen Benchmark zur Bewertung von KI-Codierungsagenten bei der GPU-Kerneloptimierung. Der Benchmark umfasst 196 Aufgaben, die HIP-zu-HIP-Optimierung, Triton-zu-Triton-Optimierung und PyTorch-zu-HIP-Übersetzung abdecken, und bewertet vollständige Agenten-Workflows in isolierten Umgebungen mittels gesteuerter Kompilierung, Korrektheits- und Leistungsprüfungen, zentralisierter Bewertung sowie einem Protokoll zur Generalisierung auf unbekannte Konfigurationen, das testet, ob Optimierungen auf Eingabekonfigurationen übertragbar sind, die der Agent nie gesehen hat. Über Produktionsagenten wie Cursor Agent, Claude Code und Codex Agent hinweg stellen wir nahezu perfekte Kompilierungs- und hohe Korrektheitsraten bei den meisten Aufgabenkategorien fest, wobei die leistungsstärksten Konfigurationen mittlere Beschleunigungen von bis zu 6,89-fach bei PyTorch-zu-HIP, 6,69-fach bei HIP-zu-HIP und 2,13-fach bei Triton-zu-Triton-Aufgaben erzielen. Unsere Evaluierung auf unbekannte Konfigurationen zeigt, dass HIP-zu-HIP- und Triton-zu-Triton-Optimierungen weitgehend auf unbekannte Eingabeformen übertragbar sind, während PyTorch-zu-HIP erhebliche Korrektheitseinbußen aufweist, was darauf hindeutet, dass Agenten, die Kerne von Grund auf neu generieren, häufig formspezifische Annahmen fest codieren. AgentKernelArena ist als modulares, erweiterbares Framework für die rigorose Bewertung agentischer GPU-Kerneloptimierung über Agenten, Aufgaben und Hardwareziele hinweg konzipiert.

SNLP: Schichtparallele Inferenz mittels strukturierter Newton-Korrekturen
SNLP: Layer-Parallel Inference via Structured Newton Corrections

May 18

ByLigong Han, Kai Xu, Hao Wang, Akash Srivastava

Autoregressive Sprachmodelle führen Transformer-Schichten sequentiell aus, was einen Latenz-Engpass erzeugt, der durch herkömmlichen Tensor- oder Pipeline-Parallelismus nicht beseitigt wird. Wir untersuchen, ob diese schichtweise Abhängigkeit gelockert werden kann, indem die Hidden-State-Spur über Schichten hinweg als Lösung einer nichtlinearen Residuumsgleichung behandelt und mit parallelen Newton-ähnlichen Aktualisierungen gelöst wird. Obwohl diese Sichtweise prinzipienbasiert ist, erfordern exakte Newton-Korrekturen teure Jacobi-Vektor-Produkte, und naive Fixpunktiterationen sind bei trainierten Transformatoren instabil. Wir führen den Strukturierten Newton-Schicht-Parallelismus (SNLP) ein, ein Trainings- und Inferenzframework, das exakte Schicht-Jacobis durch kostengünstige architekturinduzierte Ersatzdynamiken ersetzt. In Residual-Transformatoren ergibt dies Identity Newton (IDN), bei dem die Korrektur auf eine präfixsummenähnliche Aktualisierung reduziert wird; in mHC-artigen Architekturen verwendet HC Newton (HCN) die residuelle Mischmatrix des Modells. Wir führen ferner eine SNLP-bewusste Regularisierung ein, die Modelle darauf trainiert, mit einer oder wenigen strukturierten Newton-Iterationen den sequentiellen Vorwärtsdurchlauf genau zu approximieren. Experimente mit NanoChat-großen Transformatoren zeigen, dass SNLP-Regularisierung die Schichtparallel-Kompatibilität verbessert und auch die standardmäßige sequentielle Perplexität verbessern kann, wobei die Baseline-PPL um 4,7 %–23,4 % reduziert wird. Zur Inferenzzeit erzielt SNLP in Kombination mit Schichtfusion und blockweiser Zerlegung praktische Wanduhr-Beschleunigungen: Bei einem 0,5B NanoChat-Modell wird eine 2,3-fache Beschleunigung erreicht, während die PPL dennoch um 6,1 % verbessert wird. Diese Ergebnisse deuten darauf hin, dass schichtparallele Inferenz nicht nur eine numerische Approximation der sequentiellen Ausführung ist, sondern als nützlicher, lösungsinduzierter Inferenz-Bias wirken kann. Wir charakterisieren auch Einschränkungen: Fertig vortrainierte Modelle sind für dieses Verfahren weniger geeignet, und exakte Konvergenz führt zur Wiederherstellung der sequentiellen Berechnung und nicht zu einer monotonen Inferenzzeitskalierung.

Geometrischer Phasenübergang ermöglicht extreme Hippocampus-Gedächtniskapazität
Geometric Phase Transition Enables Extreme Hippocampal Memory Capacity

May 16

ByPrashant C. Raju

Gedächtnissysteme können trotz ähnlicher Hardware-Beschränkungen extrem unterschiedliche Informationsmengen speichern. Hier zeigen wir, dass überlegene räumliche Gedächtnisleistung aus einer diskreten Versteifung der hippokampalen Populationsgeometrie hervorgeht – einem Übergang von unorganisierter zu kristalliner kollektiver Kodierung. Im Vergleich von nahrungsversteckenden Meisen mit nicht versteckenden Zebrafinken fanden wir, dass der versteckende Hippokampus eine topologisch starre, „kristalline“ Geometrie mit signifikant höherer geometrischer Stabilität (Shesha 0,245 vs. 0,166) und nahezu doppelter zeitlicher Kohärenz (Shesha 0,393 vs. 0,209) aufweist, während der nicht versteckende Hippokampus einem unorganisierten „Nebel“ gleicht. Diese Stabilität wird aktiv durch synergistische Schaltkreisdynamik aufgebaut: Exzitatorische Neuronen bilden das räumliche Gerüst, während inhibitorische Populationen zur orthogonalen Dekorrelation beitragen – ein Schaltkreismotiv, bei dem exzitatorische und inhibitorische Populationen weitgehend nicht überlappende Repräsentationsunterräume besetzen. Eine doppelte Dissoziation mit dem Stabilen Speicherzuweisungsmodell von Valiant, einem Modell, das vorhersagt, dass jeder Erinnerung dedizierte Neuronengruppen zugrunde liegen, bestätigt, dass dieser Vorteil auf kontinuierlicher topologischer Organisation und nicht auf diskreter Neuronenzuteilung beruht: Versteckende Netzwerke zeigen trotz ihrer geometrischen Überlegenheit eine nahezu Null-Split-Half-Allokationsreliabilität. Computermodellierungen über 10.000 Konfigurationen offenbaren topologische Starrheit als mathematische Voraussetzung für Skalierung: Kristalline Codes ermöglichen hochgetreues Auslesen jenseits von M=1.000 Orten, während Nebelcodes bereits unter M=10 versagen – ein mehr als 100-facher Kapazitätsvorteil. Diese Kapazität erfordert eine 169-fache Repräsentationsredundanz: eine „geometrische Steuer“, die die Mannigfaltigkeit gegen biologisches Rauschen stabilisiert. Diese Ergebnisse etablieren geometrische Stabilität als Kandidaten für ein Organisationsprinzip biologischen Gedächtnisses: Evolution erreicht ein Gedächtnis hoher Kapazität nicht durch Vermehrung von Neuronen, sondern durch technische Gestaltung der Geometrie des neuronalen Codes selbst.

Symmetriekompatibles Prinzip für das Optimierer-Design: Einbettungen, LM-Köpfe, SwiGLU-MLPs und MoE-Router
Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers

May 18

ByTim Tsz-Kit Lau, Weijie Su

Eine auffällige geometrische Diskrepanz besteht seit Langem in der Praxis des Deep Learning. Während moderne neuronale Netzwerkarchitekturen von Natur aus reichhaltige Symmetrie- und Äquivarianzeigenschaften aufweisen, arbeiten gängige Optimierer wie Adam und seine Varianten inhärent koordinatenweise, sodass sie nicht in der Lage sind, die Äquivarianzstrukturen des Parameterraums zu respektieren. Wir adressieren diese Diskrepanz durch die Einführung eines symmetriekompatiblen Prinzips für das Design von Optimierern: Die Gradientenaktualisierungsregel sollte unter der auf den entsprechenden Gewichtsblock wirkenden Symmetriegruppe äquivariant sein. Diesem Prinzip folgend liefern wir zunächst eine einheitliche Perspektive auf bi-orthogonal äquivariante Aktualisierungen für allgemeine Matrixschichten, wie sie von Stochastic Spectral Descent, Muon, Scion und polaren Gradientenverfahren verwendet werden. Noch wichtiger ist, dass wir durch den Übergang von orthogonalen Gruppen zu Permutations- und gemeinsamen Shift-Symmetrien symmetriekompatible Optimierer für Parameterblöcke ableiten, deren Symmetrien sich von denen allgemeiner Matrixschichten unterscheiden: Einbettungs- und LM-Kopf-Matrizen, SwiGLU-MLP-Projektionen und MoE-Router-Matrizen. Diese Konstruktionen umfassen einseitig spektrale, Zeilen-Norm-, hybride Zeilen-Norm/Spektral-, zeilenbewusste, spaltenbewusste, zentrierte Zeilen-Norm- und linksspektrale Aktualisierungen. Sie ergeben einen durchgängigen schichtweisen Optimierer-Stack, in dem jeder wichtigen matrixwertigen Parameterklasse eine Aktualisierung zugewiesen wird, deren Äquivarianz mit ihrer Symmetriegruppe übereinstimmt. Wir untermauern dieses Prinzip durch Vor-Trainingsexperimente mit dichten und spärlichen MoE-Sprachmodellen, darunter Architekturen im Stil von Qwen3-0,6B, Gemma 3 1B, OLMoE-1B-7B und verkleinerten gpt-oss-Modellen. In diesen Experimenten verbessern symmetriekompatible Aktualisierungen durchgängig den endgültigen Validierungsverlust und in mehreren Fällen auch die Trainingsstabilität im Vergleich zu entsprechenden AdamW-Aktualisierungen.

E-PMQ: Expertengeführte Post-Merge-Quantisierung mit Merged-Weight-Anchoring
E-PMQ: Expert-Guided Post-Merge Quantization with Merged-Weight Anchoring

May 16

ByWenjun Wang, Yanggan Gu, Shuo Cai, Yuanyi Wang, Pengkai Wang, Jianmin Wu, Hongxia Yang

Beschränkungen bei der Bereitstellung mit geringen Ressourcen haben die Modellquantisierung zu einer wesentlichen Voraussetzung für die Bereitstellung neuronaler Netze unter gleichzeitiger Wahrung der Leistungsfähigkeit gemacht. Gleichzeitig hat sich das Zusammenführen von Modellen (Model Merging) zu einer zunehmend praktikablen ressourcenschonenden Strategie entwickelt, um mehrere aufgaben- oder domainspezialisierte Experten ohne gemeinsames Training oder parallele Modellbereitstellung in einem einzigen Modell zu integrieren. Zusammen ermöglichen Quantisierung und Modellzusammenführung eine effiziente ressourcenschonende Bereitstellungspipeline, indem mehrere Experten in einem einzigen niederbitigen Modell integriert werden. Wir formalisieren dieses Szenario als Post-Merge-Quantisierung (PMQ). Wir zeigen, dass die direkte Anwendung der Nach-Trainings-Quantisierung (PTQ) auf ein zusammengeführtes Modell unzuverlässig ist, da zwei unterschiedliche Abweichungen gekoppelt sind: die durch die Niederbit-Rekonstruktion eingeführte Quantisierungsabweichung und die aus der Modellzusammenführung stammende expertenrelative Zusammenführungsabweichung. Um diese Abweichungen zu mildern, schlagen wir E-PMQ vor, ein expertengeführtes PMQ-Framework, das die Gewichte der Quell-Experten nutzt, um während der schichtweisen Kalibrierung expertengeführte Zielausgaben bereitzustellen, zusammen mit einer Verankerung der zusammengeführten Gewichte, um die Kalibrierung zu stabilisieren und das integrierte Verhalten des zusammengeführten Modells zu bewahren. Bei der Zusammenführung von acht Aufgaben mit CLIP-ViT-B/32 verbessert E-PMQ die 4-Bit-GPTQ von 65,0 % auf 73,6 % unter Task Arithmetic und von 69,1 % auf 74,8 % unter TIES-Merging. Unter schwierigeren Bedingungen verbessert E-PMQ die GPTQ von 34,8 % auf 76,7 % bei 20 Aufgaben mit CLIP-ViT-L/14 und von 78,26 % auf 83,34 % bei FLAN-T5-base GLUE. Diese Ergebnisse zeigen, dass E-PMQ eine effektive Nach-Zusammenführungs-Quantisierung und Niederbit-Bereitstellung ermöglicht.

Auditierung multimodaler LLM-Bewerter: Zentraltendenz-Bias in der klinischen Ordinalbewertung
Auditing Multimodal LLM Raters: Central Tendency Bias in Clinical Ordinal Scoring

May 11

ByJiaqing Zhang, Sandeep Elluri, Bhanu Cherukuvada, Yonah Joffe, Jessica Sena, Miguel Contreras, Scott Siegel, Subhash Nerella, Catherine Price, Parisa Rashidi

Multimodale große Sprachmodelle (Large Language Models, LLMs) werden zunehmend als automatische Bewerter in klinischen Umgebungen untersucht, jedoch ist ihr Bewertungsverhalten auf ordinalen klinischen Skalen noch wenig verstanden. Wir vergleichen drei führende LLM-Familien mit überwachten Deep-Learning-Modellen zur Bewertung von Uhrentest-Bildern (Clock Drawing Test, CDT) auf zwei öffentlichen Datensätzen unter Verwendung der Shulman-Rubrik. Während vollständig feinabgestimmte Vision Transformers die beste Kalibrierung erreichen (MAE 0,52, Within-1-Genauigkeit 91%), bleiben Zero-Shot-LLMs bei der toleranzbasierten Übereinstimmung wettbewerbsfähig (GPT-5 MAE 0,67, Within-1-Genauigkeit 92%), trotz höherer absoluter Fehler. Eine analyse pro Bewertungsstufe zeigt jedoch, dass alle drei LLM-Familien einen ausgeprägten Zentraltendenzeffekt (systematische Endpunktkompression) aufweisen: Die Vorhersagen werden systematisch zur Mitte der Skala hin komprimiert, mit Überschätzung am unteren Ende (Punktzahl 0 bis 1) und Unterschätzung am oberen Ende (Punktzahl 5 bis 4). Dieser Effekt betrifft überproportional die klinisch kritischen Extremwerte, bei denen eine genaue Bewertung die Screening-Entscheidungen für kognitive Beeinträchtigungen am stärksten beeinflusst. Gezielte Ablationen zeigen, dass weder Few-Shot-Beispiele, die die gesamte Bewertungsskala abdecken, noch das Entfernen klinischer Terminologie aus dem Prompt den Effekt beseitigen. Unsere Ergebnisse erweitern die Literatur zum LLM-als-Richter-Bias von der NLP-Bewertung auf die klinische Beurteilung und unterstreichen die Notwendigkeit einer kalibrierungsbewussten Bewertung sowie einer nachträglichen Kalibrierung, bevor LLM-basierte Bewerter in Screening-Workflows mit hohem Risiko eingesetzt werden.

Überwachung des inneren Monologs: Sonden-Trajektorien offenbaren die Dynamik des Denkens
Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

May 18

ByMaciej Chrabąszcz, Aleksander Szymczyk, Marcin Sendera, Tomasz Trzciński, Sebastian Cygert

Große Reasoning-Modelle (LRMs) eröffnen durch ihre Chain-of-Thought (CoT)-Argumentation neue Möglichkeiten für die Sicherheitsüberwachung. Allerdings ist CoT nicht immer mit der endgültigen Ausgabe des Modells konsistent, was ihre Zuverlässigkeit als Überwachungsinstrument untergräbt. Um dies zu adressieren, untersuchen wir die verborgenen Repräsentationen von LRMs, um zu bestimmen, ob zukünftiges Verhalten aus Prompt- und CoT-Repräsentationen vorhergesagt werden kann. Durch die Evaluierung einer Sonde an jedem generierten Token konstruieren wir eine Sonden-Trajektorie – die kontinuierliche Entwicklung der Wahrscheinlichkeit eines Konzepts über den Argumentationsprozess hinweg. Dabei stellen wir fest, dass zukünftiges Modellverhalten besser unterscheidbar ist, wenn es über die gesamte Trajektorie hinweg betrachtet wird, als aus einer einzigen statischen Vorhersage. Zur Charakterisierung dieser zeitlichen Dynamiken extrahieren wir signalverarbeitende Merkmale, die Volatilität, Trend und stationäres Verhalten erfassen, wodurch die Trennbarkeit zukünftiger Modellzustände erheblich verbessert wird. Wir präsentieren außerdem zwei methodische Erkenntnisse. Erstens erreichen vorlagenbasierte Trainingsdaten nahezu Gleichwertigkeit mit dynamisch generierten Modellantworten, wodurch die kostspielige initiale Inferenz und Annotation entfällt. Zweitens ist die Wahl der Pooling-Operation entscheidend: Average-Pooling- und Last-Token-Verfahren fallen auf nahezu zufällige Leistung ab, während Max-Pooling bis zu 95 % AUROC erzielt und stabile Sonden-Trajektorien liefert. Anhand von vier Datensätzen und vier Reasoning-Modellen aus den Bereichen Sicherheit und Mathematik demonstrieren wir, dass Trajektorienmerkmale aufgabenspezifische Dynamiken kodieren, die die Trennbarkeit der Ergebnisse verbessern. Diese Ergebnisse etablieren Sonden-Trajektorien als komplementären Rahmen für die Überwachung von LRM-Verhalten. Warnung: Dieser Artikel enthält potenziell schädliche Inhalte.

SCICONVBENCH: Benchmarking von LLMs zur mehrschrittigen Klärung für die Aufgabenformulierung in der Computational Science
SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

May 18

ByNithin Somasekharan, Youssef Hassan, Shiyao Lin, Gihan Panapitiya, Patrick Emami, Anurag Acharya, Sameera Horawalavithana, Shaowu Pan

Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend als wissenschaftliche KI-Assistenten eingesetzt, und eine wachsende Anzahl von Benchmarks bewertet ihre Fähigkeiten in den Bereichen Wissensabruf, logisches Denken, Codegenerierung und Werkzeugnutzung. Diese Bewertungen gehen jedoch in der Regel davon aus, dass das wissenschaftliche Problem bereits gut gestellt ist, während die praktische wissenschaftliche Unterstützung oft mit einer schlecht gestellten Benutzeranfrage beginnt, die erst durch einen Dialog verfeinert werden muss, bevor eine Berechnung, Analyse oder ein Experiment zuverlässig durchgeführt werden kann. Wir stellen SCICONVBENCH vor, einen Benchmark für mehrstufige Klärung bei der Formulierung wissenschaftlicher Aufgaben in vier rechnergestützten naturwissenschaftlichen Problembereichen: Strömungsmechanik, Festkörpermechanik, Materialwissenschaften und partielle Differentialgleichungen (PDEs). SCICONVBENCH zielt auf zwei komplementäre Fähigkeiten ab: das Ermitteln fehlender Informationen (Disambiguierung) und das Erkennen und Korrigieren fehlerhafter Anfragen mit widersprüchlichen Informationen (Inkonsistenzauflösung). Unser Benchmark kombiniert eine strukturierte Aufgabenontologie mit einem rubrikbasierten Bewertungsrahmen und ermöglicht so eine systematische Messung der LLM-Leistung in drei Dimensionen: Klärungsverhalten, konversationelle Verankerung und Treue der Endspezifikation. Aktuelle Grenzmodelle schneiden bei der Inkonsistenzauflösung relativ gut ab, doch selbst das beste Modell löst nur 52,7 % der Disambiguierungsfälle in der Strömungsmechanik. Darüber hinaus stellen wir fest, dass Grenz-LLMs häufig stillschweigende Annahmen treffen und implizite Spezifikationsreparaturen vornehmen, die nicht im Gespräch mit den Benutzern verankert sind. SCICONVBENCH legt eine Grundlage für die Bewertung des vorgelagerten konversationellen Denkens, das ein zuverlässiger rechnergestützter Wissenschaftsassistent benötigt. Der Code und die Daten sind unter https://github.com/csml-rpi/SciConvBench zu finden.

AR-VLA: Echter autoregressiver Aktionsexperte für Vision-Sprache-Aktion-Modelle
AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models

May 11

ByYutong Hu, Jan-Nico Zaech, Nikolay Nikolov, Yuanqi Yao, Sombit Dey, Giuliano Albanese, Renaud Detry, Luc Van Gool, Danda Paudel

Wir schlagen einen eigenständigen autoregressiven (AR) Action-Experten vor, der Aktionen als kontinuierliche kausale Sequenz unter Berücksichtigung aktualisierbarer Vision-Language-Präfixe erzeugt. Im Gegensatz zu bestehenden Vision-Language-Action (VLA)-Modellen und Diffusions-Policies, die den zeitlichen Kontext bei jeder neuen Beobachtung zurücksetzen und Aktionen reaktiv vorhersagen, verwaltet unser Action-Experte seine eigene Historie durch einen langlebigen Speicher und ist inhärent kontextbewusst. Diese Struktur adressiert die Frequenzinkongruenz zwischen schneller Steuerung und langsamer Schlussfolgerung, ermöglicht effizientes unabhängiges Vortraining der kinematischen Syntax sowie modulare Integration mit rechenintensiven Wahrnehmungs-Backbones und gewährleistet auf natürliche Weise räumlich-zeitlich konsistente Aktionsgenerierung über Frames hinweg. Um diese asynchronen hybriden V-L-A-Modalitäten zu synchronisieren, nutzen wir einen Neuverankerungsmechanismus, der die Veralterung der Wahrnehmung sowohl während des Trainings als auch der Inferenz mathematisch berücksichtigt. Experimente an simulierten und realen Roboter-Manipulationsaufgaben zeigen, dass die vorgeschlagene Methode traditionelle chunkbasierte Aktionsköpfe sowohl für spezialisierte als auch für generalistische Policies effektiv ersetzen kann. AR-VLA weist eine überlegene Historiebewusstheit und wesentlich glattere Aktionsverläufe auf, während die Aufgabenerfolgsraten der hochmodernen reaktiven VLAs beibehalten oder übertroffen werden. Insgesamt führt unsere Arbeit ein skalierbares, kontextbewusstes Aktionsgenerierungsschema ein, das eine robuste strukturelle Grundlage für das Training effektiver Roboter-Policies bietet. Code und Videos verfügbar unter https://arvla.insait.ai

GRASP: Lernen, soziales Schließen in non-verbalen Mehrpersonen-Interaktionen zu verankern
GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions

May 15

ByJunho Kim, Xu Cao, Houze Yang, Bikram Boote, Ana Jojic, Fiona Ryan, Bolin Lai, Sangmin Lee, James M. Rehg

Das Verständnis sozialer Interaktionen erfordert die Interpretation subtiler nonverbaler Hinweise, doch aktuelle multimodale große Sprachmodelle (MLLMs) versagen oft dabei, zu identifizieren, wer in Videos mit mehreren Personen mit wem interagiert. Wir stellen GRASP vor, einen groß angelegten Datensatz zum sozialen Schlussfolgern, der hochrangige soziale Frage-Antwort-Paare mit feinkörnigen Blick- und deiktischen Gestenereignissen verknüpft. GRASP umfasst 290.000 Frage-Antwort-Paare aus 46.000 Videos mit einer Gesamtdauer von 749 Stunden, organisiert nach einer 16 Kategorien umfassenden Taxonomie, die Blick-, Gesten- und kombinierte Blick-Gesten-Schlussfolgerungen abdeckt, zusammen mit GRASP-Bench zur Evaluierung. Im Gegensatz zu früheren Ressourcen, die sich entweder auf isolierte Hinweise oder hochrangige soziale QA konzentrieren, erstellt GRASP Fragen auf der Grundlage identitätskonsistenter Blickbahnen, deiktischer Gesten und deren gemeinsamer Zusammensetzung zu sozialen Ereignissen. Darüber hinaus schlagen wir Social Grounding Reward (SGR) vor, ein Lernsignal, das diese sozialen Ereignisse nutzt, um Modelle dazu zu ermutigen, die an jeder Interaktion beteiligten Teilnehmer zu identifizieren. Experimente zeigen, dass SGR die Leistung auf GRASP-Bench verbessert, während die Zero-Shot-Leistung auf verwandten sozialen Video-QA-Benchmarks erhalten bleibt.

TopoPrimer: Der fehlende topologische Kontext in Prognosemodellen
TopoPrimer: The Missing Topological Context in Forecasting Models

May 14

ByZara Zetlin, Kayhan Moharreri, Maria Safi

Wir stellen TopoPrimer vor, ein Framework, das die globale topologische Struktur der Serienpopulation als expliziten Input für jedes Prognosemodell nutzbar macht. TopoPrimer verbessert die Genauigkeit über verschiedene Domänen hinweg, stabilisiert Prognosen unter saisonalen Nachfragespitzen und schließt die Kaltstartlücke. Einmal pro Domäne mittels persistenter Homologie und spektraler Garbenkoordinaten vorberechnet, wird TopoPrimer pro Token für vollständig trainierte Modelle sowie als leichter Adapter für vortrainierte Backbones eingesetzt. Von diesen beiden Komponenten sind die Garbenkoordinaten der primäre Treiber der Genauigkeit. Über vier öffentliche Benchmarks mit Chronos und TimesFM hinweg verbessert TopoPrimer konsistent die Prognosegenauigkeit, mit Verbesserungen von bis zu 7,3 % MSE bei ECL. Der topologische Vorteil bleibt bei nahezu identischer Größenordnung über Zero-Shot- und feinabgestimmte Backbones bestehen, was darauf hindeutet, dass Topologie und serienspezifisches Training komplementäre Signale erfassen. Die Verbesserungen sind in schwierigen Regimen am stärksten ausgeprägt. Unter saisonalen Nachfragespitzen verschlechtern sich klassische und Zero-Shot-Modelle um bis zu 50 %, während TopoPrimer innerhalb von 10 % bleibt. Bei Kaltstart ohne Artikelhistorie reduziert TopoPrimer den MAE um 27 % gegenüber einer topologiefreien Baseline.