HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

58 papers found

SWE-Explore: Benchmarking der Repository-Erkundung durch Code-Agenten
SWE-Explore: Benchmarking How Coding Agents Explore Repositories

Jun 5

ByShaoqiu Zhang, Yuhang Wang, Jialiang Liang, Yuling Shi, Wenhao Zeng, Maoquan Wang, Shilin He, Ningyuan Xu, Siyu Ye, Kai Cai, Xiaodong Gu

Benchmarks auf Repository-Ebene wie SWE-bench haben zu einem rasanten Anstieg der Fähigkeiten von Code-Agenten geführt. Dennoch behandeln sie Codierungsaufgaben in der Regel als ganzheitliches, binäres Vorhersageproblem (z. B. gelöst oder nicht gelöst) und vernachlässigen dabei feingranulare Agentenfähigkeiten wie Repository-Verständnis, Kontextabruf, Code-Lokalisierung und Fehlerdiagnose. In diesem Papier stellen wir SWE-Explore vor, einen Benchmark, der die Bewertung der Repository-Erkundung isoliert – einer kritischen Fähigkeit von Code-Agenten. SWE-Explore fordert einen Erkunder dazu auf, zu einem gegebenen Repository und einem Issue eine nach Relevanz geordnete Liste relevanter Codebereiche innerhalb eines festgelegten Zeilenbudgets zurückzugeben. Der Benchmark umfasst 848 Issues aus 10 Programmiersprachen und 203 Open-Source-Repositories. Für jede Instanz leiten wir zeilengenaue Referenzdaten aus unabhängigen Agenten-Trajektorien ab, die dasselbe Issue erfolgreich gelöst haben, und destillieren daraus die spezifischen Codebereiche, die deren Lösungspfade tatsächlich konsultiert haben. Wir bewerten die Exploration hinsichtlich Abdeckung, Ranking und Kontexteffizienz und zeigen, dass diese Metriken stark mit dem nachgelagerten Reparaturverhalten korrelieren. Über eine breite Palette von Retrieval-Methoden, allgemeinen Code-Agenten und spezialisierten Lokalisierern hinweg zeigt sich, dass agentische Erkunder eine klare Stufe oberhalb klassischer Retrieval-Verfahren bilden. Während die Lokalisierung auf Dateiebene bei modernen Methoden bereits sehr gut ist, bleiben die zeilengenaue Abdeckung und das effiziente Ranking die Schlüsseldimensionen, anhand derer sich führende Erkunder unterscheiden.

Die letzte Prüfung der Agenten
Agents' Last Exam

Jun 3

ByYiyou Sun, Xinyang Han, Weichen Zhang, Yuanbo Pang, Tianyu Wang, Yuhan Cao, Yixiao Huang, Chris Duroiu, Haoyun Zhang, Jeffrey Lin, Weishu Zhang, Tyler Zeng, Ying Yan, Bo Liu, Hanson Wen, Mingyang Xu, Xiaoyuan Liu, Zimeng Chen, Weiyan Shi, Amanda Dsouza, Vincent Sunn Chen, Patrick Bryant, Carl Boettiger, Yamini Rangan, Bradley Rothenberg, Kyle Steinfeld, Arvind Rao, Tapio Schneider, Georgios Yannakakis, Laure Zanna, Kaan Ozbay, Ida Sim, Tarek Zohdi, George Em Karniadakis, Jack Gallant, Teresa Head-gordon, Yushan Li, Wenxi Deng, Tao Sun, Huiqi Wang, Zhun Wang, Justin Xu, Chris Yuhao Liu, Yafei Cheng, Rongwang Hu, Aras Bacho, Shengcao Cao, Zengyi Qin, Yixiong Chen, Hengduan Fan, Hao Liu, Lin Zeng, Shashank Muralidhar Bharadwaj, Litian Gong, Yingxuan Yang, Maojia Song, Ruheng Wang, Zongzheng Zhang, Honglin Bao, Shuo Lu, Jianhong Tu, Zhonghua Wang, Zheng Zhang, Zijiao Chen, yanqiong Jiang, Zhendong Li, Bohan Lyu, Chang Ma, Peiran Xu, Benran Zhang, Shangding Gu, Haoyue Hua, Haoyang Li, Wanzhe Liao, Chengzhi Liu, Junbo Peng, Haoran Sun, Zechen Xu, Bo Chen, Jiayi Cheng, Yi Jiang, Keying Kuang, Yuan Li, Youbang Pan, Ziyan Rao, Alexander Schubert, Yifan Shen, Vincent Siu, Xiatao Sun, Kangqi Zhang, Xiaopan Zhang, Yuchen Zhu, Ishaan Singh Chandok, Lei Ding, Jingxuan Fan, Andrew Glover, Jiaming Hu, Yiran Hu, Wenbo Huang, Zixin Jiang, Haoran Jin, Lukas Kim, Ming Liu, Yang Liu, Alireza Rafiei, Xuhuan Shen, Kunyang Sun, Sophia Sun, Ting Sun, Eric Wang, Yixin Wang, Hanwen Xing, Sihan Xu, Yuzheng Xu, Zhongxing Xu, Zhiling Yan, Boqin Yuan, Ruiqi Zhang, Yifan Zhang, Zibo Zhao, Liana, Santanu Bosu Antu, Haoyue Bai, Carlo Bosio, Joseph Cavanagh, Patricia Cavazos-Rehg, Tianxing Chen, Xuewen Chen, Yipu Chen, Zhu Chenyu, Chen Dai, Stefano De Castro, Yunfu Deng, Kaustubh Dhole, Jiayuan Ding, Chenchen Du, Zhehang Du, Hao Fan, Run-ze Fan, Hengyu Fu, Shi Gu, Yifan Gu, Charlie Guo, Baihe Huang, Baixiang Huang, Rimika Jaiswal, Zhihan Jiang, Ran Jin, Erin Kasson, Xin Lan, Joseph Lee, Deren Lei, Chenyu Li, Daofeng Li, Haitao Li, Hongwei Li, Jingyan Li, Xiao Li, Yi Li, Yinsheng Li, Yuangang Li, Zhixu Li, Wenyu Liang, Longtai Liao, Kevin Qinghong Lin, AndyZeyi Liu, Che Liu, Jiaming Liu, Kaiyuan Liu, Xuan Liu, Pan Lu, Wenbo Lv, Yicheng Lv, Qiuyang Mang, Kyle Montgomery, Yuzhou Nie, Ruoxi Ning, Jorin Overwiening, Xu Pan, Layna Paraboschi, Core Francisco Park, Justin Purnomo, Swati Rajwal, Scott Rankin, Bixuan Ren, Yiren Rong, HaoYang Shang, Ventus Shaw, Fiona Shen, Jiawei Shen, Minqi Shi, Qiu Shi, Huaxiu Yao, Tianneng Shi, Jonah So, Vladislav Susoy, Hannah Szlyk, Haocheng Wang, Jialu Wang, Wei Wang, Xinyu Wang, Zehao Wang, Dowling Wong, Angela Wu, Dehao Wu, Fangyu Wu, Mengyuan "Millie" Wu, Yu Wu, Yuchen Wu, Yuhao Wu, Qingpo Wuwu, Weihang Xiao, Yongyi Xiong, Fan Xu, Ruiling Xu, Mingxuan Yan, Benjamin Yang, Jirong Yang, Sen Yang, Xiaoli Yang, Yushi Yang, Haoran Ye, Xiaohu Yu, Zhengming Yu, Chenlong Zhang, Chi Zhang, Hanning Zhang, Hanwen Zhang, Junge Zhang, Kunpeng Zhang, Song Zhang, Wenjin Zhang, Wenshuo Zhang, Ying Zhang, Yizhi Zhang, Brian Zhao, Qijian Zhao, Yimin Zhao, Yuhaohua Zheng, Liwei Zhou, Tianyue Zhou, Sichen Zhu, Siqi Zhu, Yan Zhu, Yishu Zhu, Jierui Zuo, Chonghao Cai, Helena Casademunt, Wenjia Chen, Benjamin Cheng, Nawen Deng, Rao Fu, Tianfu Fu, Yifan Han, Ren He, Zhenyu He, Qiao Jin, Lang Lang, Yuetai Li, Sylvia Liu, Lu Lu, Qing Lu, Subhabrata Mukherjee, Yunqi Ouyang, Yin Ren, Dawei Shi, Haoran Wu, Zhiyue Wu, Hannah Yao, Zhuoran Yi, Jenny Yu, Rhea Zhan, Hang Zhou, Blake Zhu, Junfan Zhu, Alan Yuille, Yang Liu, Russell Alan Poldrack, Jiachen Li, Zhenglu Li, Molei Tao, Jing Huang, Wenqi Shi, Costas Spanos, Lichao Sun, Chenguang Wang, Orson Xu, Zhen Dong, Hector Gomez, Aylin Caliskan, Ali Emami, Haimin Hu, Zhi Li, Lihui Liu, Murphy Niu, Yi Shao, Jianxin Sun, Mikko Tolonen, Ting Wang, Sanjiv Das, Yanjun Gao, Wenbo Guo, Erika J Schneider, Zhiyong Lu, Mark Mueller, Radha Poovendran, Somayeh Sojoudi, Dawn Song

Jüngste KI-Systeme haben bei einer Vielzahl von Benchmarks starke Ergebnisse erzielt, doch diese Erfolge haben sich nicht in wirtschaftlich bedeutsame Anwendungen in vielen Berufsfeldern übersetzt. Wir argumentieren, dass diese Lücke weitgehend ein Evaluationsproblem darstellt: Weit verbreitete Benchmarks ermangeln einer kontinuierlichen Leistungsmessung an realen und wirtschaftlich wertvollen Arbeitsabläufen. Dieses Papier stellt Agents' Last Exam (ALE) vor, einen Benchmark zur Bewertung von KI-Agenten an langfristigen, wirtschaftlich wertvollen realen Aufgaben mit überprüfbaren Ergebnissen. Entwickelt in Zusammenarbeit mit über 250 Branchenexpertinnen und -experten, deckt ALE nicht-physische Branchen ab, die unter Bezugnahme auf O*NET/SOC 2018 (der bundesstaatlichen Berufstaxonomie der USA) definiert sind. Es ist um eine Aufgaben-Taxonomie mit 55 Teilgebieten organisiert, die in 13 Branchencluster gruppiert sind und über 1000 Aufgaben umfassen. Aktuelle Ergebnisse zeigen, dass die schwierigste Stufe noch lange nicht gesättigt ist: Über gängige Harness- und Backbone-Konfigurationen hinweg beträgt die durchschnittliche vollständige Bestehensquote 2,6 %. ALE ist als lebendiger Benchmark konzipiert: Sein Aufgabenpool wächst kontinuierlich, wenn neue Arbeitsabläufe und Branchen aufgenommen werden. Im weiteren Sinne soll ALE nicht nur eine weitere Rangliste sein, sondern ein Instrument zur Schließung der Kluft zwischen Benchmark-Erfolg und BIP-relevanter Wirkung.

Zur Geometrie der On-Policy-Destillation
On the Geometry of On-Policy Distillation

Jun 5

ByZhennan Shen, Yanshu Li, Qingyu Yin, Chak Tou Leong, Zhilin Wang, Yanxu Chen, Rongduo Han, Sunbowen Lee, Yi R. Fung

On-Policy-Destillation (OPD) wird zunehmend eingesetzt, um das Reasoning großer Sprachmodelle zu verbessern, doch ihre Trainingsdynamik ist noch unzureichend verstanden. Wir charakterisieren den Verlauf von OPD-Updates im Parameterraum und vergleichen ihn mit überwachtem Feintuning (SFT) und bestärkendem Lernen mit überprüfbaren Belohnungen (RLVR). Eine Reihe von Diagnostiken im Parameterraum ordnet OPD durchgängig einem relaxierten, nicht-prinzipiellen Regime zu: Im Vergleich zu SFT beeinflussen seine Updates weniger Gewichte und meiden Hauptrichtungen stärker, während sie im Vergleich zu RLVR weniger stark eingeschränkt bleiben. Über diese statische Lokalisierung hinaus zeigt OPD ein Subspace-Locking: Seine kumulativen Updates treten schnell in einen engen niedrigdimensionalen Kanal ein. Eine Beschränkung des Trainings auf den bereits in der frühen Phase gebildeten Update-Unterraum erhält die OPD-Leistung, verschlechtert jedoch SFT erheblich, was darauf hindeutet, dass der gesperrte Unterraum für OPD funktional ausreichend ist. Kontrollexperimente zeigen zudem, dass eine Ausdünnung der Update-Tokens und eine Verschiebung der Rollout-Generierung ins Off-Policy die Rangdynamik erhalten, während die Vermischung des OPD-Ziels mit RLVR sie verändert. Insgesamt deuten diese Ergebnisse darauf hin, dass OPD nicht nur ein Zwischenpunkt zwischen SFT und RLVR ist, sondern eine eigene Update-Geometrie im Parameterraum induziert.

LatentSkill: Von kontextuellen Textfähigkeiten zu latenten Fähigkeiten in den Gewichten für LLM-Agenten
LatentSkill: From In-Context Textual Skills to In-Weight Latent Skills for LLM Agents

Jun 4

ByAofan Yu, Chenyu Zhou, Tianyi Xu, Zihan Guo, Rong Shan, Zhihui Fu, Jun Wang, Weiwen Liu, Yong Yu, Weinan Zhang, Jianghao Lin

Agentensysteme nutzen zunehmend textuelle Fähigkeiten, um wiederverwendbare Aufgabenprozeduren zu kodieren. Die Einbettung dieser Fähigkeiten in den Prompt bei jedem Schritt verursacht jedoch einen erheblichen Kontext-Overhead und legt den Inhalt der Fähigkeiten als Klartext offen. Wir stellen LatentSkill vor, ein Framework, das textuelle Fähigkeiten mithilfe eines vortrainierten Hypernetzwerks in Plug-and-Play-LoRA-Adapter umwandelt. LatentSkill speichert Fähigkeitswissen im Gewichtsraum anstatt im Kontextraum, entfernt schrittweise Fähigkeits-Token und bewahrt gleichzeitig modulares Laden, Skalieren und Komponieren. Bei ALFWorld und Search-QA übertrifft LatentSkill die entsprechende In-Context-Skill-Baseline bei deutlich geringerer Anzahl von Prefill-Tokens: Es verbessert den ALFWorld-Erfolg um 21,4 bzw. 13,4 Punkte auf den gesehenen und ungesehenen Aufteilungen bei 64,1 % weniger Prefill-Tokens und verbessert die exakte Übereinstimmung bei Search-QA um 3,0 Punkte bei 72,2 % geringerem Skill-Token-Overhead. Weitere Analysen zeigen, dass generierte Skill-LoRAs eine strukturierte semantische Geometrie bilden, präzise über den LoRA-Skalierungskoeffizienten gesteuert werden können und durch Arithmetik im Parameterraum komponiert werden können, wenn die Skill-Komponenten ausgerichtet sind. Diese Ergebnisse deuten darauf hin, dass Fähigkeiten im Gewichtsraum eine effiziente, modulare und weniger exponierte Grundlage für die Erweiterung von LLM-Agenten bieten.

Latentes räumliches Gedächtnis für Video-Weltmodelle
Latent Spatial Memory for Video World Models

Jun 8

ByWeijie Wang, Haoyu Zhao, Yifan Yang, Feng Chen, Zeyu Zhang, Yefei He, Zicheng Duan, Donny Y. Chen, Yuqing Yang, Bohan Zhuang

Videoweltmodelle, die über generierte Einzelbilder hinweg 3D-Raumkonsistenz aufrechterhalten, basieren typischerweise auf explizitem Punktwolkenspeicher, der im RGB-Raum konstruiert wird. Dieses Design ist sowohl rechenintensiv, da wiederholtes Rendern und VAE-Kodierung erforderlich sind, als auch von Natur aus verlustbehaftet, da der Hin- und Rückweg durch den Pixelraum wertvolle Merkmale der erlernten latenten Repräsentation verwirft. In dieser Arbeit führen wir latenten räumlichen Speicher für Videoweltmodelle ein – einen persistenten 3D-Cache, der Szeneninformationen direkt im Diffusions-Latentraum speichert und eine Rekonstruktion im Pixelraum vermeidet. Darauf aufbauend schlagen wir Mirage vor, ein Framework für latenten räumlichen Speicher, das den Speicher durch Heben latenter Token in 3D mittels tiefengeführter Rückprojektion konstruiert und Abfragen durch Synthese neuer Ansichten mittels direktem Warping im Latentraum ermöglicht. Diese einheitliche Formulierung beseitigt sowohl den Informationsverlust der Rekonstruktion im Pixelraum als auch den Rechenaufwand durch wiederholte Kodierung und Rendering. Experimente zeigen, dass latenter räumlicher Speicher im Vergleich zu expliziten 3D-Baselines eine bis zu 10,57-mal schnellere End-to-End-Videogenerierung und eine 55-fache Reduktion des Speicherbedarfs erreicht. Unter Ausnutzung der geometrischen Vorkenntnis des Diffusionsmodells erzielt Mirage Spitzenleistungen auf WorldScore und eine hohe Rekonstruktionsqualität auf RealEstate10K.

CoVEBench: Können Videobearbeitungsmodelle komplexe Anweisungen verarbeiten?
CoVEBench: Can Video Editing Models Handle Complex Instructions?

Jun 7

ByJiangtao Wu, Jiaming Wang, Yiwen He, Yuanxing Zhang, Shihao Li, Dunyuan Liu, Xuedong Zhao, Jialu Chen, Zekun Moore Wang, Jiaheng Liu

Während aktuelle textgesteuerte Video-Editing-Modelle bei elementaren Aufgaben (z. B. Stilübertragung, Objekteinfügung) gut abschneiden, sind reale Benutzeranfragen hochgradig kompositionell. Ein einzelner Prompt erfordert oft mehrere gekoppelte Bearbeitungen, wie etwa die Modifikation von Subjekten, Aktionen und Kameraperspektiven, während gleichzeitig unzusammenhängende raumzeitliche Inhalte streng erhalten bleiben müssen. Bestehende Benchmarks, die stark durch isolierte Bearbeitungen und grobe globale Metriken eingeschränkt sind, versagen bei der Diagnose, wie Modelle mit solch komplexen Arbeitsabläufen umgehen. Um diese Lücke zu schließen, stellen wir CoVEBench vor, einen kompositionellen Video-Editing-Benchmark, der 416 kuratierte Quellvideos, 626 Mehrpunkt-Bearbeitungsanweisungen und 9.990 feinkörnige Checklistenpunkte umfasst. CoVEBench deckt verschiedene Bearbeitungsdimensionen ab und bewertet Modelle mittels MLLM-bewerteter Anweisungserfüllung und Videotreue sowie automatisierter Metriken für die Videoqualität. Umfangreiche Experimente zeigen, dass kompositionelles Editing eine tiefgreifende Herausforderung bleibt: Aktuelle Modelle lassen häufig Bearbeitungen aus, verletzen Erhaltungsbedingungen oder führen Artefakte ein, wenn sie mehrere Operationen gleichzeitig ausführen müssen. CoVEBench bietet eine anspruchsvolle, diagnostische Testumgebung, um das Video-Editing hin zu realistischen Benutzerworkflows voranzubringen.

FlashMemory-DeepSeek-V4: Blitzindex für ultralangen Kontext via Lookahead Sparse Attention
FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

Jun 8

ByYan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu

Herkömmliche LLMs halten den vollständigen KV-Cache während des Decodings geladen, was zu einem schwerwiegenden GPU-Speicher-Engpass für den Dienst mit extrem langen Kontexten führt. In diesem Bericht schlagen wir Lookahead Sparse Attention (LSA) vor, ein neuartiges Inferenzparadigma, das von einem auf der DeepSeek-V4-Architektur basierenden Neural Memory Indexer angetrieben wird. Anstatt passiv auf alle historischen Token zu achten, sagt LSA proaktiv zukünftige Kontextanforderungen voraus und behält nur die abfragekritischen KV-Blöcke im GPU-Speicher. Entscheidend ist, dass wir diese Architektur mittels einer backbone-freien entkoppelten Trainingsstrategie instanziieren. Indem wir den Indexer als eine Standard-Dual-Encoder-Architektur formulieren, trainieren wir ihn unabhängig mit standardmäßigen Retrieval-Trainingsframeworks, ohne jemals das massive Backbone-Modell in den GPU-Speicher zu laden. Wir zeigen, dass dieses "Weniger ist mehr"-Paradigma die Serviereffizienz erheblich maximiert und gleichzeitig als effektiver Attention-Denoiser bei Aufgaben fungiert, die auf langfristiges globales Gedächtnis angewiesen sind. In primären Long-Context-Evaluierungssuiten (z.B. LongBench-v2, LongMemEval und RULER) komprimiert FM-DS-V4 den durchschnittlichen physischen KV-Cache-Fußabdruck auf lediglich 13,5% der Vollkontext-Baseline, während die nachgelagerte Genauigkeit durchgängig erhalten oder leicht erhöht wird (im Durchschnitt +0,6% absolute Marge). Entscheidend ist, dass FlashMemory bei extremen 500K-Skalen den physischen KV-Cache-Overhead um über 90% unterdrückt, ohne die Kern-Schlussfolgerungsfähigkeiten des Backbones zu destabilisieren.

SpatialWorld: Benchmarking des interaktiven räumlichen Denkens von multimodalen Agenten in realen Aufgaben
SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

Jun 8

ByHongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong

Räumliches Denken ist eine grundlegende Fähigkeit multimodaler großer Sprachmodelle (MLLMs), um die physische Welt wahrzunehmen und in ihr zu operieren. Bestehende Benchmarks beruhen jedoch überwiegend auf passiver Evaluierung (z. B. statischem VQA) oder simulatorspezifischen Pipelines und sind daher nicht in der Lage, allgemeines interaktives räumliches Verständnis zu bewerten. Wir stellen SpatialWorld vor, einen einheitlichen Benchmark, der speziell für die Bewertung des interaktiven räumlichen Verständnisses multimodaler Agenten in komplexen realen Aufgaben konzipiert wurde. SpatialWorld integriert acht heterogene Simulations-Backends unter einem gemeinsamen, simulatorunabhängigen Protokoll und umfasst 760 von Menschen annotierte Aufgaben aus verschiedenen Bereichen (z. B. Haushaltsroutinen, Reisen, soziale Zusammenarbeit). Die Agenten müssen Aufgaben unter ausschließlich visueller, partieller Beobachtbarkeit lösen, aktiv egozentrische visuelle Evidenz sammeln und Entscheidungen über eine einheitliche, textbasierte Aktionsschnittstelle treffen, die nativ für MLLMs geeignet ist. Zur zuverlässigen Evaluierung enthält jede Aufgabe einen von Menschen validierten Ausgangszustand, eine Referenztrajektorie und einen Endzustands-Verifizierer. Die Evaluierung von 15 fortschrittlichen Agenten zeigt, dass robustes räumliches Aufgabenlösen weiterhin eine Herausforderung darstellt: Das stärkste Modell, GPT-5, erreicht eine durchschnittliche Aufgabenerfolgsrate (TSR) von nur 17,4 %, während das führende Open-Source-Modell, Qwen-3.5, auf 14,1 % kommt. Weitere Analysen decken eine deutliche Diskrepanz zwischen Aufgabenerfolg und Ausführungseffizienz sowie erhebliche domänenspezifische Leistungsschwankungen auf. Diese Engpässe bei der aktiven Exploration und langfristigen Planung positionieren SpatialWorld als anspruchsvolles Testfeld für zukünftige räumliche Agenten.

Humanpsychometrische Fragebögen stellen das Verhalten von LLMs falsch dar.
Human Psychometric Questionnaires Mischaracterize LLM Behavior

May 29

ByWoojung Song, Dongmin Choi, Yoonah Park, Jongwook Han, Eun-Ju Lee, Yohan Jo

Wir untersuchen, ob psychometrische Fragebögen für Menschen als verlässliche Werkzeuge zur Charakterisierung und Vorhersage des Verhaltens großer Sprachmodelle (LLMs) in alltäglichen Benutzerinteraktionen dienen können. Dazu analysieren wir acht quelloffene LLMs, indem wir ihre Werte- und Persönlichkeitsprofile vergleichen, die aus zwei verschiedenen Methoden abgeleitet wurden: Likert-Selbstauskünfte auf etablierten Fragebögen (PVQ-40/21 und BFI-44/10) sowie Generierungswahrscheinlichkeiten über wertgeladene Antworten auf alltägliche Benutzeranfragen. Die beiden Profile weichen erheblich voneinander ab. Die konstruktinterne Itemkonsistenz, die häufig als Beleg für stabile LLM-Dispositionen angeführt wird, verschwindet in den Generierungswahrscheinlichkeiten. Wir führen diese Diskrepanz darauf zurück, dass explizite lexikalische Hinweisreize in etablierten Fragebogenitems den Modellen ermöglichen, das Zielkonstrukt zu erkennen und in konsistenter, sozial erwünschter Weise zu antworten, während realistische Benutzeranfragen keine derartigen Hinweise bieten. Darüber hinaus verschieben demografische Persona-Prompts die Antworten der Modelle auf menschliche Fragebögen in einer Weise, die mit tatsächlichen menschlichen Mustern übereinstimmt; solche Verschiebungen treten jedoch nicht in den Generierungswahrscheinlichkeiten von Antworten auf realistische Benutzeranfragen auf, was ihre begrenzte Fähigkeit zeigt, das Verhalten von Zielgruppen in realen Benutzerinteraktionen zu simulieren. Insgesamt zeigt unsere Studie, dass psychometrische Fragebögen für Menschen unzureichende Werkzeuge zur Vorhersage des LLM-Verhaltens sind, und schlägt ein generierungsbasiertes Profiling als genauere Messmethode vor.

Echo-Memory: Eine kontrollierte Studie zum Gedächtnis in Handlungs-Weltmodellen
Echo-Memory: A Controlled Study of Memory in Action World Models

Jun 8

ByWayne King, Zeyue Xue, Yuxuan Bian, Jie Huang, Haoran Li, Yaowei Li, Yaofeng Su, Yuming Li, Haoyu Wang, Shiyi Zhang, Songchun Zhang, Yuwei Niu, Sihan Xu, Junhao Zhuang, Haoyang Huang, Nan Duan

Wir präsentieren Echo-Memory, eine kontrollierte Studie zu Gedächtnismechanismen in aktionskonditionierten Weltmodellen. Diese Modelle generieren mehrsegmentige Videos aus einem ersten Bild, einer Texteingabe und einer Kamera-Aktionssequenz, doch ihr zentrales Versagen liegt oft im Gedächtnis und nicht in der lokalen Bildsynthese: Nachdem die Kamera die Szene verlassen und wieder betreten hat, kann sich die Szene oder ein hervorstechendes Objekt stillschweigend verändern. Bisherige Gedächtnisdesigns sind schwer vergleichbar, da Verbesserungen mit Unterschieden in Backbone, Training, Abruf und Evaluation verknüpft sind. Echo-Memory fixiert die Aktions-zu-Video-Schnittstelle und variiert nur, wie die Historie gespeichert und vom Generator gelesen wird. Auf Basis eines gemeinsamen Video-Diffusion-Backbones, Optimierers, Kamera-Aktions-Darstellung, Samplers und Evaluations-Pipelines vergleichen wir Rohkontext, kompressionsbasiertes Gedächtnis, räumliche Zusammenfassungen mit verschiedenen Auslesepfaden sowie Zustandsraum-Rekurrenz. Diese abgestimmte Matrix trennt vier sonst vermischte Achsen: Kapazität, Kompression, Auslesen und Rekurrenz. Zudem evaluieren wir das Gedächtnis durch ein Drei-Zweig-Protokoll: Wiedergabequalität, In-Domain-Loop-Wiederbesuche und Open-Domain-Rückkehrproben. Die Zweige widersprechen sich regelmäßig und zeigen, dass Wiedergabetreue allein kein ausreichender Indikator für das Erinnern einer Welt ist. Drei Ergebnisse folgen daraus. Rohkontext ist eine starke Kapazitätsbaseline und verbessert die Open-Domain-Rückkehr weit mehr als die Wiedergabemetriken. Kompaktheit ist kein freier Ersatz für Kapazität: aggressive räumliche und hybride Kompressionsspeicher verlieren die für die Rückkehr erforderlichen salienten Belege. Schließlich erweist sich blockweise Zustandsraum-Rekurrenz als der stärkste Open-Domain-Rückkehrmechanismus in unserer Matrix, was zeigt, dass die Struktur des impliziten Gedächtnisses ebenso wichtig ist wie die Entscheidung, es zu nutzen. Diese Ergebnisse liefern ein kompaktes Protokoll zur Untersuchung von Gedächtnis in Aktionsweltmodellen über isolierte Wiedergabemetriken hinaus.

Ende-zu-Ende-Kontextkompression in großem Maßstab
End-to-End Context Compression at Scale

Jun 8

ByAng Li, Sean McLeish, Haozhe Chen, Nimit Kalra, Zaiqian Chen, Artem Gazizov, Venkata Anoop Suhas Kumar Morisetty, Bhavya Kailkhura, Harshitha Menon, Zhuang Liu, Brian R. Bartoldson, Tom Goldstein, Sanae Lotfi, Micah Goldblum, Pavel Izmailov

Die Inferenz von Sprachmodellen mit langen Kontexten wird durch den Speicher begrenzt, da der KV-Cache mit der Kontextlänge wächst. Neuere Techniken zur Komprimierung des KV-Cache bleiben hinter den Erwartungen zurück: Sie verschlechtern entweder die Modellqualität erheblich oder erfordern beträchtliche Zeit und Rechenleistung, um einen einzigen langen Prompt zu komprimieren. Darüber hinaus setzen viele Methoden voraus, dass die Eingabe in das Kontextfenster des Zielmodells passt, und sind im Allgemeinen nicht mit modernen Produktions-Inferenz-Engines kompatibel. Encoder-Decoder-Kompressoren, die eine lange Token-Sequenz auf eine kürzere Sequenz latenter Einbettungen abbilden, die von einem Decoder verarbeitet werden, sind prinzipiell eine attraktive Alternative. Allerdings sind bestehende Ansätze im Hinblick auf die Genauigkeits-Effizienz-Grenze nicht mit der KV-Cache-Komprimierung konkurrenzfähig. In dieser Arbeit überdenken wir die Encoder-Decoder-Komprimierung und schließen diese Lücke. Zunächst führen wir eine Architektursuche durch, indem wir viele Varianten von Grund auf vortrainieren, um zu ermitteln, wie Encoder-Decoder-Kompressoren am besten entworfen und trainiert werden können. Auf der Grundlage unserer Ergebnisse trainieren wir kontinuierlich eine Familie von Modellen mit 0,6B-Encoder und 4B-Decoder auf jeweils über 350 Mrd. Token mit Kompressionsverhältnissen von 1:4, 1:8 und 1:16 vor. Wir führen Latent Context Language Models (LCLMs) ein, eine Familie von Kompressoren, die die Pareto-Grenze in Bezug auf allgemeine Aufgabenleistung, Kompressionsgeschwindigkeit und Spitzenspeichernutzung verbessern. Wir zeigen, dass LCLMs als effiziente Grundlage für längerfristig agierende Agenten dienen, indem sie dem Agenten ermöglichen, einen komprimierten langen Kontext zu überfliegen und relevanten Abschnitte bei Bedarf adaptiv zu erweitern.

OmniGameArena: Ein einheitlicher UE5-Benchmark für VLM-Spielagenten mit Verbesserungsdynamiken
OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

Jun 8

ByMingxian Lin, Shengju Qian, Yuqi Liu, Yi-Hua Huang, Yiyu Wang, Wei Huang, Yitang Li, Fan Zhang, Zeyu Hu, Lingting Zhu, Xin Wang, Xiaojuan Qi

Vision-Language-Model (VLM)-Agenten werden zunehmend in interaktiven Spielumgebungen eingesetzt. Spiele-Benchmarks für VLM-Agenten berichten jedoch in der Regel lediglich einen einzigen Erstversuchs-Score pro (Agent, Spiel)-Paar, konzentrieren sich auf das Einzelspieler-Solo und entbehren einheitlicher Protokolle zur Bewertung heterogener Agentenklassen (kommerzielle VLMs, Open-Weight-VLMs und spezialisierte Spielstrategien) auf einer gemeinsamen Grundlage. Wir schließen diese Lücken mit OmniGameArena, einem Echtzeit-Benchmark aus zwölf neu erstellten Unreal-Engine-5-Spielen, die Solo (7), PvP (3) und Koop (2) mit einheitlichen Aktionsschnittstellen abdecken, sowie der Improvement Dynamics Curve (IDC), einem agentischen Reflexionsrahmen, in dem ein werkzeugnutzender Reflektor-LLM einen begrenzten Fähigkeits-Prompt über mehrere Runden hinweg autonom verfeinert. Über die Kaltstart-Bestenliste hinaus liefert die IDC zwei weitere Beobachtungsgrößen für jedes (Agent, Spiel)-Paar: wie sich der Score über die Reflexionsrunden entwickelt und wie die erlernte Fähigkeit auf nicht gehaltene Aufgabenvarianten reagiert. Wir berichten diese Beobachtungsgrößen für zwölf VLM-Agenten auf der Kaltstart-Bestenliste und für vier Top-Agenten unter der IDC.

Eine geometrische Betrachtung der Aktivierungssteuerung mittels Winkel-Norm-Zerlegung
A Geometric Account of Activation Steering through Angle-Norm Decomposition

Jun 4

ByGeorgii Aparin, Tatiana Gaintseva

Lineare Aktivierungssteuerung hat sich als einfache und empirisch wirksame Methode zur Kontrolle des Verhaltens von Sprachmodellen etabliert. In jüngerer Zeit wurden sphärische Steuerungsparadigmen vorgeschlagen, um die Einschränkungen additiver Interventionen zu adressieren, oft motiviert durch die Annahme, dass die Norm der verborgenen Zustände keine konzeptrelevanten Informationen trägt. In dieser Arbeit überprüfen wir diese Annahme anhand einer kontrollierten empirischen Studie, die darauf ausgelegt ist, die Rollen der Winkel- und Radialkomponenten zu entflechten. Wir zeigen, dass sich Steuerungsmethoden hauptsächlich darin unterscheiden, wie sie zwei geometrische Effekte koppeln: die Veränderung der Winkelausrichtung eines Tokens mit einer Konzeptrichtung und die Veränderung seiner Norm im verborgenen Zustand. Über sieben Sprachmodelle hinweg stellen wir fest, dass Konzepte primär in der Winkelstruktur repräsentiert werden, was die Motivation für sphärische Methoden stützt, dass die Norm jedoch für die Stabilität und die nachgelagerten Effekte der Steuerung weiterhin wichtig ist. Unsere Ergebnisse erklären, warum Interventionen mit ähnlichen konzeptuellen Effekten sich unterschiedlich verhalten können, und legen nahe, dass Aktivierungssteuerung durch interpretierbare Winkel- und Radialkomponenten der Intervention parametrisiert werden sollte, anstatt durch einen einzelnen additiven Koeffizienten, der diese beiden Effekte vermischt.

Bayesian-Agent: Posterior-gesteuerte Fähigkeitenentwicklung für LLM-Agenten-Nutzung
Bayesian-Agent: Posterior-Guided Skill Evolution for LLM Agent Harnesses

Jun 6

ByXiaojun Wu, Cehao Yang, Honghao Liu, Xueyuan Lin, Wenjie Zhang, Zhichao Shi, Xuhui Jiang, Chengjin Xu, Jia Li, Jian Guo

LLM-Agenten stützen sich zunehmend auf externe Inferenzbedingungen: Prompts, Werkzeuge, Gedächtnis, SOPs, Fähigkeiten und Rückmeldungen aus der Testumgebung. Diese Komponenten verbessern die Aufgabenausführung, ohne die Modellgewichte zu ändern, werden jedoch oft durch heuristische Reflexion oder durch Wiederverwendung beobachteter Erfolge und Misserfolge überarbeitet, als ob allein die Anzahl der Beobachtungen eine zuverlässige Überzeugung darstellte. Wir stellen Bayesian-Agent vor, ein natives und umgebungsübergreifendes Framework, das wiederverwendbare Fähigkeiten und SOPs als Hypothesen darüber behandelt, ob ein eingefrorenes Modell unter einer bestimmten Aufforderung, einem bestimmten Kontext und einer bestimmten Testumgebung erfolgreich sein wird. Bayesian-Agent zeichnet verifizierte Trajektorien-Evidenzen auf, pflegt eine merkmalsbedingte kategoriale Posteriori über jede Fähigkeit und bildet den Posterior-Zustand auf überprüfbare Aktionen wie Patchen, Aufteilen, Komprimieren, Zurückziehen und Erkunden ab. Modellbezogene Prompts erhalten ausführbare Leitplanken und Fehlermodus-Patches, während Zusammenfassungen der Posteriori für Prüfungen verfügbar bleiben. Mit DeepSeek-v4-Flash verbessert die inkrementelle Reparatur SOP-Bench von 80 % auf 95 %, Lifelong AgentBench von 90 % auf 100 % und RealFin-Bench von 45 % auf 65 %. Wir evaluieren zudem Bayesian-Agents natives Backend sowie optionale GenericAgent, Mini-Swe-Agent und Claude Code Backends. Die Ergebnisse umfassen positive, negative, gesättigte und Fallstudien-Szenarien und legen nahe, dass die Evolution von Agent-Fähigkeiten am besten als posteriori-gesteuerte Optimierung der Testumgebung und nicht als unkalibrierte Prompt-Akkumulation betrachtet wird. Der Quellcode ist verfügbar unter https://github.com/DataArcTech/Bayesian-Agent.

SwiftVR: Echtzeit-Einschritt-Generative Videorestaurierung
SwiftVR: Real-Time One-Step Generative Video Restoration

Jun 8

ByJiaqi Yan, Xiangyu Chen, Xinlin Zhong, Haibin Huang, Chi Zhang, Jie Liu, Jiantao Zhou, Xuelong Li

Echtzeit-Videowiederherstellung (VR) für Live-Streams erfordert hochauflösende Ausgaben unter strengen Latenzanforderungen pro Frame. Bestehende einschrittige diffusionsbasierte VR-Modelle sind aufgrund zweier Hauptengpässe weiterhin schwer auf Verbraucher-GPUs einzusetzen: der quadratischen räumlichen Aufmerksamkeit bei hohen Auflösungen und dem Latenz- und Speicher-Overhead großer Video-Autoencoder. Wir stellen SwiftVR vor, ein Streaming-Einschritt-generatives VR-Framework, das beide Engpässe unter einem kausalen chunk-weisen Protokoll reduziert. Für die Aufmerksamkeit sammelt maskenfreie Self-Attention mit verschobenen Fenstern jedes räumliche Fenster durch deterministische Indexierung in einen dichten Tensor, wobei alle Aufmerksamkeitsaufrufe auf dem dichten Pfad der skalierten Punktprodukt-Aufmerksamkeit (SDPA) verbleiben – ohne Masken, zyklische Verschiebungen, Padding oder hardware-spezifische sparse Kerne. Da SwiftVR nur standardmäßige dichte SDPA-Aufrufe verwendet, lässt sich das trainierte Modell ohne Nachtraining oder benutzerdefinierte Kerne auf Verbraucher-GPUs übertragen. Für die Autoencoder ermöglicht ein leichter Restoration-bewusster Autoencoder eine schnelle chunk-weise Dekodierung bei gleichzeitiger Erhaltung der Rekonstruktionsqualität. Auf einer einzelnen H100 erreicht SwiftVR etwa 31 FPS bei 2560×1440 und etwa 14 FPS bei 3840×2160, während alle verglichenen diffusionsbasierten VR-Baselines bei 4K das Speicherlimit überschreiten. Auf einer Consumer-RTX-5090 erreicht SwiftVR etwa 26 FPS bei 1920×1080. Unseres Wissens nach ist SwiftVR das erste generative VR-Modell, das Echtzeit-1080p-Streaming auf einer Verbraucher-GPU ermöglicht und dabei hohe no-reference-perzeptuelle Qualität mit geringeren Inferenzkosten erzielt. Das Projekt ist verfügbar unter https://h-oliday.github.io/SwiftVR.

AHA-WAM: Asynchrone horizontadaptive Welt-Aktions-Modellierung mit beobachtungsgeführtem Kontext-Routing
AHA-WAM:Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing

Jun 8

ByJisong Cai, Long Ling, Shiwei Chu, Zhongshan Liu, Jiayue Kang, Zhixuan Liang, Wenjie Xu, Yinan Mao, Weinan Zhang, Xiaokang Yang, Ru Ying, Ran Zheng, Yao Mu

Welt-Aktions-Modelle haben sich als vielversprechendes Paradigma für die Robotermanipulation etabliert, da sie visuelle Szenendynamik und Aktionen gemeinsam modellieren, um physikalische Vorannahmen in das Politiklernen einzubringen. Allerdings koppeln bestehende Welt-Aktions-Modelle die Vorhersage der Welt und die Ausführung von Aktionen auf derselben zeitlichen Auflösung, was den Weltzweig dazu zwingt, kurzfristige Bildvariationen zu modellieren, die redundant und wenig informativ sind. Wir vertreten die These, dass eine strikte Bindung von Weltvorhersage und Aktionsausführung an denselben zeitlichen Rhythmus das Potenzial des Videozweigs für die verkörperte Steuerung unterfordern könnte. Daher schlagen wir AHA-WAM vor, ein asynchrones, horisontadaptives Welt-Aktions-Modell, das auf einer dualen Diffusion-Transformer-Architektur (DiT) basiert und die Welt-Aktions-Modellierung um diese zeitliche Asymmetrie herum neu organisiert. AHA-WAM setzt den Video-DiT als niederfrequenten Weltplaner ein, der über vergangene Beobachtungen hinweg einen rollierenden Schlüssel-Wert-Speicher unterhält und wiederverwendbare, schichtweise latente Kontexte freigibt, die die langfristige Szenenentwicklung kodieren. Gleichzeitig führt ein hochfrequenter Aktions-DiT kurze Aktionsblöcke im geschlossenen Regelkreis aus, indem er über eine schichtweise gemeinsame Aufmerksamkeit auf diesen Kontext zugreift. Zur Unterstützung der asynchronen Ausführung führen wir ein horisontadaptives Offset-Training und eine beobachtungsgesteuerte Videokontext-Routinge (OVCR) ein, die es dem Aktions-Experten ermöglichen, langfristigen Weltkontext zu nutzen, während er gleichzeitig auf den Echtzeit-Ausführungszustand reagiert, ohne den Video-DiT erneut ausführen zu müssen. Experimente mit RoboTwin und realen Manipulationsaufgaben zeigen, dass AHA-WAM ohne jegliches Vortraining mit Roboterdaten eine Spitzenleistung erzielt: eine durchschnittliche Erfolgsrate von 92,80 % bei RoboTwin und 78,3 % Erfolg bei vier realen Aufgaben, während es eine geschlossene Regelkreissteuerung mit 24,17 Hz erreicht und eine 4,59-fache Beschleunigung gegenüber Fast-WAM erzielt.

Whisper-Halluzinationserkennung und -minderung mittels Lenkung verborgener Repräsentationen und spärlicher Autoencoder
Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders

Jun 5

ByGeorgii Aparin, Vadim Popov, Tasnima Sadekova, Assel Yermekova

Whisper, ein weit verbreitetes ASR-Modell, ist dafür bekannt, Halluzinationen zu erzeugen – kohärente Transkriptionen, die für Nicht-Sprach-Audio generiert werden und vollständig vom Eingangssignal losgelöst sind. Wir untersuchen, ob Halluzinationen anhand der internen Repräsentationen von Whisper erkannt und abgemildert werden können. Dazu extrahieren wir Aktivierungen des Audio-Encoders und bewerten zwei Repräsentationsräume: rohe Whisper-Aktivierungen und Sparse-Autoencoder (SAE)-Latente. Wir zeigen, dass beide Räume linear separierbare, halluzinationsbezogene Informationen codieren, wobei die Diskriminationskraft in einer spärlichen Merkmalsteilmenge konzentriert ist und mit tieferen Encoder-Schichten zunimmt. Wir schlagen zwei Steuerungsstrategien vor: Steuerung im Aktivierungsraum und Steuerung im SAE-latenten Raum. Die SAE-basierte Steuerung reduziert die Halluzinationsrate auf dem vollständigen Nicht-Sprach-Testdatensatz für Whisper small von 72,63 % auf 14,11 % und für Whisper large-v3 von 86,88 % auf 27,33 %, bei geringer WER-Verschlechterung auf Sprachdaten, und nähert sich damit der Leistung von Methoden auf Basis von Feinabstimmung.

DEI: Diversität in der evolutionären Inferenz für die Qualitäts-Diversitäts-Suche
DEI: Diversity in Evolutionary Inference for Quality-Diversity Search

May 26

ByJohn Donaghy, Shikhar Rastogi

Wir stellen DEI vor: Diversity in Evolutionary Inference, ein verteiltes Quality-Diversity (QD)-Suchframework, das heterogene große Sprachmodelle (LLMs) als Mutationsoperatoren auf Peerknoten einsetzt, die mit nicht-blockierenden kollektiven Operationen kommunizieren. Im Gegensatz zur homogenen parallelen Suche, die die induktiven Verzerrungen eines einzelnen Modells auf alle Worker repliziert, behandelt DEI die jeweils unterschiedlichen kreativen Prioritäten jedes LLMs als komplementäre Quelle verhaltensbezogener Neuartigkeit. Durch die Erweiterung des Digital-Red-Queen-Frameworks mit DEI teilen Knoten am Ende jeder Runde lokale optimale Lösungen, um die Population der nächsten Runde zu speisen. Dies erzeugt modellübergreifenden adversarialen Druck, der die Robustheit über das reine Intra-Modell-Self-Play hinaus steigert. Evaluiert auf der Core-War-Domäne, einem kompetitiven Programmier-Benchmark, bei dem Redcode-Kriegerprogramme in einer simulierten Maschine gegeneinander antreten, erreicht ein heterogenes Ensemble aus vier Knoten (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2 und Claude Haiku 4.5) einen um 124 Prozent höheren QD-Score im zusammengeführten Archiv (45,90 vs. 20,46) und eine um 28 Prozent höhere Abdeckung (80,6 Prozent vs. 63,0 Prozent der Zellen) im Vergleich zu einer Einzelknoten-Baseline bei gleichem Gesamtbudget an LLM-Aufrufen. Das heterogene Ensemble übertrifft auch ein gleich budgetiertes homogenes Ensemble hinsichtlich QD-Score, Abdeckung und der Allgemeingültigkeit der zurückgehaltenen Lösungen über alle vier Modellfamilien hinweg. Diese Ergebnisse liefern den ersten empirischen Beleg dafür, dass Modellvielfalt, nicht bloße Parallelität, der entscheidende Treiber für Gewinne bei verteilter LLM-basierter QD-Suche ist.

Skill-RM: Vereinheitlichung heterogener Bewertungskriterien durch Agentenfähigkeit
Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill

Jun 2

ByTao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang, Yihao Liu, Jingwei Ni, Jiaqi Guo, Mengyu Zhou, Kai Tang, Junling Liu, Qinliang Su, Xiaoxi Jiang, Guanjun Jiang

Belohnungsmodelle (RMs) liefern kritische Rückmeldungssignale für das Post-Training von LLMs, insbesondere in Pipelines für verstärktes Feintuning (RFT) und bestärkendes Lernen (RL). Die derzeitige Bewertung von Belohnungen basiert jedoch auf heterogenen Kriterien wie regelbasierten Verifizierern, Ground-Truth-Referenzen, prozeduralen Checklisten und komplexen Bewertungsrastern, wobei ein einheitlicher Mechanismus zur Integration aller Evidenztypen bislang nicht erforscht ist. Zu diesem Zweck schlagen wir das Skill Reward Model (Skill-RM) vor, ein einheitliches Framework, das die Belohnungsmodellierung als Ausführung einer wiederverwendbaren Reward-Evaluation-Skill neu formuliert. Indem die Berechnung der Belohnung als strukturierte agentische Aufgabe behandelt wird, bietet Skill-RM eine konsistente Schnittstelle zur Orchestrierung heterogener Ressourcen und wählt dynamisch Evidenz aus und aggregiert sie, die auf die spezifischen Anforderungen jeder Eingabe zugeschnitten ist. Dieser Ansatz ermöglicht es dem Belohnungsmodell, über eine statische Bewertung hinauszugehen und sorgt für Konsistenz und Transparenz über verschiedene Aufgaben hinweg. Umfangreiche Experimente mit Belohnungs-Benchmarks und nachgelagerten Anwendungen, einschließlich Best-of-N-Auswahl und bestärkendem Lernen, zeigen, dass Skill-RM durchgängig bessere Ergebnisse als traditionelle Judge-Baselines erzielt. Unsere Ergebnisse deuten darauf hin, dass Skill-RM nicht nur eine einheitliche Lösung für die Belohnungsmodellierung bietet, sondern durch die strategische und dynamische Orchestrierung von Evidenz auch eine überlegene Leistung erreicht. Der Code ist verfügbar unter https://github.com/Qwen-Applications/Skill-RM.

OmniCap-IF: Benchmarking und Verbesserung der Fähigkeiten zur Befolgung von Anweisungen für Omni-Video-Captioning
OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning

Jun 7

ByJiahao Wang, An Ping, Yanghai Wang, Yuanxing Zhang, Shihao Li, Hanyan Bian, Yichi Ren, Yize Zhang, Han Wang, Haowen Chen, Junze Li, Jiaqi Wang, Yiyang Hu, Zhuze Xu, Zijie Zhang, Jiaheng Liu

Obwohl Omni-modale Große Sprachmodelle (OLLMs) beeindruckende Fähigkeiten bei der gemeinsamen Verarbeitung von Audio- und Videoströmen gezeigt haben, bleibt ihre Fähigkeit, komplexe, vielschichtige Benutzeranweisungen genau zu befolgen, weitgehend unerforscht. Bestehende Benchmarks konzentrieren sich hauptsächlich auf ganzheitliches Videoverständnis oder textbasierte Anweisungsbefolgung und erfassen nicht das komplexe Zusammenspiel zwischen Modalitäten und Benutzervorgaben. Um diese Lücke zu schließen, stellen wir OmniCap-IF vor, den ersten umfassenden Benchmark, der speziell zur Bewertung der Anweisungsbefolgungsfähigkeiten im omni-modalen Beschriften entwickelt wurde. OmniCap-IF umfasst ein systematisches Framework, das Bildunterschriften entlang zweier Dimensionen bewertet: Formatkorrektheit und Inhaltskorrektheit. Unser Benchmark umfasst 50 verschiedene Einschränkungstypen über rein visuelle, rein auditive und audio-visuelle Modalitäten hinweg und integriert zeitliche Verankerung zur Bewertung der räumlich-zeitlichen Präzision. Umfangreiche Auswertungen prominenter Modelle anhand von 1.920 hochwertigen Stichproben zeigen erhebliche Leistungsunterschiede auf. Darüber hinaus deckt unsere Analyse einen kritischen „Format-Inhalts-Zielkonflikt“ auf, der zeigt, dass eine zunehmende Formatierungskomplexität die omni-modalen Denkfähigkeiten der Modelle direkt beeinträchtigt. Abschließend stellen wir zur Weiterentwicklung des Feldes einen 54K großen Anweisungsoptimierungsdatensatz, OmniCap-IF-54K, zusammen und präsentieren OmniCaptioner-IF, das sowohl bei der Einhaltung komplexer Anweisungen als auch bei der allgemeinen omni-modalen Beschriftungsleistung bemerkenswerte Verbesserungen erzielt.

Warum Muon Adam übertrifft: Eine Krümmungsperspektive
Why Muon Outperforms Adam: A Curvature Perspective

Jun 3

ByShuche Wang, Fengzhuo Zhang, Jiaxiang Li, Dirk Bergemann, Zhuoran Yang

Muon verbessert die Trainingseffizienz beim Training großer Sprachmodelle im Vergleich zu Adam um etwa das Zweifache, doch der lokale geometrische Ursprung dieses Vorteils bleibt unklar. Unsere Arbeit unternimmt einen ersten Schritt zur Entmystifizierung der Überlegenheit von Muon gegenüber Adam aus einer Krümmungsperspektive. Erstens wenden wir eine Taylor-Approximation zweiter Ordnung auf die Trainingslandschaft an und zeigen, dass Muon bei gleichem Validierungsverlust eine größere Einschritt-Verlustabnahme erzielt als Adam. Die beiden Optimierer weisen vergleichbare Gewinne erster Ordnung auf, doch Muon zieht sich durchgängig eine geringere Krümmungsstrafe zweiter Ordnung zu. Zweitens zerlegen wir diese Krümmungsstrafe in die quadratische Aktualisierungsnorm und die Normalisierte Richtungsschärfe (NDS). Wir stellen fest, dass Muon und Adam vergleichbare Aktualisierungsnormen aufweisen, sodass Muons geringere Krümmungsstrafe durch eine niedrigere NDS und nicht durch die Aktualisierungsskala getrieben wird. Drittens untersuchen wir, wie Trainingsdaten und Modellstruktur Muons NDS-Vorteil formen. Anhand von Zipf-probabilistischen kontextfreien Grammatikdaten (PCFG) mit kontrolliertem Ungleichgewicht zeigen wir, dass Datenungleichgewicht Muons NDS-Vorteil gegenüber Adam verstärkt. Eine Intra-/Inter-Layer-Zerlegung zeigt zudem, dass Muons niedrigere NDS in der mittleren und späten Trainingsphase hauptsächlich durch eine geringere schichtinterne Krümmung aufrechterhalten wird. Über empirische Belege hinaus analysieren wir stilisierte quadratische Probleme mit heterogener Krümmung und Gradientenausrichtung auf Modi hoher Krümmung. Wir beweisen, dass Muon eine geringere durchschnittliche NDS als GD erreicht, indem es die Aktualisierungsenergie über Krümmungsgruppen ausgleicht; bei ausreichend starker Krümmungsheterogenität führt dies auch nach der gleichen Anzahl von Schritten zu einem geringeren lokalen quadratischen Verlust.

SlimSearcher: Training effizienzbewusster Web-Agenten durch adaptives Belohnungs-Gating
SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating

Jun 5

ByZequn Xie, Junjie Wang, Dan Yang, Jie Feng, Yue Shen, Jian Wang, Jinjie Gu

Tiefenrecherche-Agenten haben bemerkenswerte Fähigkeiten bei komplexen informationssuchenden Aufgaben gezeigt, doch diese Leistungsfähigkeit geht mit hohen Rechenkosten einher. Angetrieben von genauigkeitsorientierten Trainingsparadigmen setzen aktuelle Modelle auf Brute-Force-Strategien, die durch blinde Tool-Abhängigkeit und performative Schlussfolgerungen gekennzeichnet sind – sie erzeugen lange, redundante Trajektorien, die zur Lösung dieser Aufgaben keineswegs notwendig sind, was zu verschwenderischen Tool-Aufrufen und übermäßigem Token-Verbrauch führt. Um diese Effizienzfalle zu überwinden, schlagen wir SlimSearcher vor, ein prinzipienbasiertes Framework, das die Pareto-Grenze zwischen Genauigkeit und Rechenkosten sowohl beim überwachten Feintuning (SFT) als auch beim Reinforcement Learning (RL) verschiebt. In der SFT-Phase nutzt SlimSearcher eine Pareto-effiziente Filterung, um sowohl erfolgreiche als auch ökonomische Trajektorien zu destillieren und das Modell zu inhärent effizienzbewusstem Suchverhalten zu führen. Während des RL führen wir Adaptive Reward Gating ein, einen dynamischen Belohnungsformungsmechanismus, der relative Tool- und Token-Effizienz innerhalb einer Stichprobenkohorte bewertet. Durch die Kaskadierung dieser adaptiven Effizienzmetriken mit einem strengen Korrektheits-Gate vermeidet unser Ansatz effektiv die Kürze-Verzerrung, die mit absoluten Strafen verbunden ist, und mildert Belohnungs-Hacking. Umfangreiche Experimente auf langfristigen Benchmarks, darunter GAIA, BrowseComp und XBenchDeepSearch, zeigen, dass SlimSearcher die durchschnittliche Anzahl von Tool-Aufrufrunden um 17%–58% reduziert, während die Genauigkeit beibehalten oder verbessert wird.

Freisetzen der LLM-Fähigkeiten in Vollduplex-Sprachmodellen
Liberating LLM Capabilities in Full-Duplex Speech Models

May 4

ByLuoyuan Zhang, Bokai Xu, Junbo Cui, Weiyue Sun, Yingjing Xu, Hanyu Liu, Yuan Yao

Sprachbasierte große Sprachmodelle sind in der Regel auf gesprochene Antworten beschränkt, was ihre ausgabeseitigen Fähigkeiten auf das verbalisierbare reduziert und textnative Fähigkeiten wie Codegenerierung, strukturierte Analyse und mehrstufiges Denken in Echtzeitinteraktionen unterdrückt – für Aufgaben, die persistente, strukturierte und überprüfbare Zwischenergebnisse erfordern. Bisherige Arbeiten verbessern das gesprochene Denken oder den Vollduplex-Gesprächswechsel, behandeln Text jedoch weiterhin als verborgenen Zwischenzustand oder untergeordnete Modalität statt als erstklassigen Ausgabekanal. Wir schlagen Hören-Schreiben-Sprechen (LWS) vor, ein textorientiertes Dreikanal-Paradigma, bei dem ein einzelnes autoregressives LLM kontinuierlich Benutzeraudio hört, sichtbaren Freitext als primäre Ausgabe schreibt und parallel dazu eine Echtzeit-Sprachantwort unter einem gemeinsamen kausalen Aufmerksamkeitskontext spricht. Dieses Verhalten wird vollständig durch ein Token-Schema umgesetzt, ohne architektonische Änderungen, und über eine zweistufige Datenpipeline erlernt, die sekündliche kognitive Annotationen synthetisiert, die mit dem offengelegten Eingabezeitstrahl konsistent sind. Empirisch zeigt LWS eine starke Vollduplex-Interaktion auf Full-Duplex-Bench, erreicht 4,72 auf VoiceBench AlpacaEval, erzielt 92,6 % Schreib-Sprech-Konsistenz und übertrifft durchgängig seine internen Ablationen auf URO-Bench. Diese Ergebnisse deuten darauf hin, dass sichtbares Schreiben als erstklassiger Ausgabekanal für Sprachinteraktion dienen kann, ohne die Echtzeit-Reaktionsfähigkeit zu opfern. Der Code und der Datensatz sind auf der Projektseite verfügbar: https://royalzhang.com/project/lws-page/.

Reasoning Arena: Spur-Turniere, wenn überprüfbare Belohnungen nicht ausreichen
Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

Jun 8

ByHan Zhou, Adam X. Yang, Laurence Aitchison, Anna Korhonen, Albert Q. Jiang

Bestärkendes Lernen mit überprüfbaren Belohnungen (RLVR) hat sich zu einem führenden Paradigma entwickelt, um die Denkfähigkeit großer Sprachmodelle durch ergebnisbasierte Überwachung zu verbessern. Allerdings werden überprüfbare Belohnungen auf Gruppenebene häufig uninformativ: Wenn alle abgetasteten Spuren einer gegebenen Eingabeaufforderung identische Belohnungen erhalten, liefert die Schätzung des gruppenrelativen Vorteils kein Gradientensignal, selbst wenn sich die Spuren in ihrer Denkqualität erheblich unterscheiden. Wir schlagen Reasoning Arena vor, ein adaptives Trainingsframework, das solche nicht-diversen Belohnungsgruppen an ein Bewertungssystem weiterleitet, anstatt sie zu verwerfen. Über die Prüfung der endgültigen Antwort hinaus konstruiert Reasoning Arena Spurenturniere, bei denen Denkspuren direkt miteinander verglichen werden, um feinere Präferenzen innerhalb der Gruppe aufzudecken und die Denkqualität in reichhaltige relative Belohnungssignale umzuwandeln. Um die Schätzung der Belohnungen effizient zu gestalten, wird nicht jedes Paar erschöpfend verglichen; stattdessen wird jede neue Spur gegen einen kleinen, dynamisch aktualisierten Pool zuvor generierter Spuren als Anker evaluiert, um effizient eine relative Rangfolge zu etablieren. Anschließend passen wir ein Bradley-Terry-Modell an den unvollständigen Vergleichsgraphen an, was eine skalierbare RL-Integration ohne quadratische Paarvergleiche ermöglicht. Empirische Ergebnisse zeigen, dass Reasoning Arena den RLVR-Baseline durchschnittlich um 7,6 % bei Wettbewerbsmathematik- und Programmier-Benchmarks übertrifft. Durch die Umwandlung sonst nutzloser Null-Vorteils-Stichproben in nützliche Gradientenaktualisierungen beschleunigt unsere Methode das Training um 27 % bis 41 %, spart fast 50 % des Generierungsaufwands und verbessert die allgemeine Denkleistung erheblich.

Light-WAM: Effiziente World-Action-Modelle mit State-Fusion-Aktionsdekodierung
Light-WAM: Efficient World Action Models with State-Fusion Action Decoding

Jun 6

ByZiang Li, Dongzhou Cheng, Yibin Wang, Shiyue Wang, Xiaoyang Xu, Lingxuan Weng, Juan Wang, Jiaqi Wang

Weltaktionsmodelle (WAMs) erweitern das Erlernen von Roboterpolitiken, indem sie die Vorhersage zukünftiger Zustände als zusätzliches Trainingsziel einbeziehen, was die Politik dazu anregt, aufgabenrelevante zeitliche Strukturen in ihren Repräsentationen zu kodieren. Aktuelle WAMs basieren oft auf groß angelegten generativen Architekturen, die hohe Trainingskosten und Inferenzlatenz verursachen, was ihre Bereitstellung als effiziente Closed-Loop-Politiken erschwert. Wir schlagen Light-WAM vor, ein leichtgewichtiges Weltaktionsmodell für effiziente Robotermanipulation. Konkret baut es auf einem kompakten Video-Backbone auf und führt eine Überwachung durch zukünftige Videos in einem heruntergetasteten latenten Raum durch, wodurch die Kosten des Video-Co-Trainings gesenkt werden, während seine Vorteile für das Repräsentationslernen erhalten bleiben. Für die Aktionsvorhersage führt Light-WAM den StateFusionActionExpert ein, der angepasste Zustände aus mehreren Backbone-Schichten liest, sie durch Pooling mit gelernten Abfragen fusioniert und in einem einzigen Vorwärtsdurchlauf direkt Aktionsblöcke vorhersagt. Dieses Design bietet eine effiziente Schnittstelle zwischen Video-Backbone-Repräsentationen und Roboteraktionen und vermeidet die Notwendigkeit schwerer generativer Aktions-Experten. Experimente zeigen, dass Light-WAM eine starke Leistung auf LIBERO beibehält und eine nutzbare Multitasking-Leistung auf RoboTwin 2.0 erreicht, wobei es nur 0,44 Mrd. trainierbare Parameter verwendet. Es erreicht zudem eine Inferenzlatenz von 72,03 ms bei einem Spitzen-GPU-Speicher von 4,1 GiB und einem verbesserten Trainingsdurchsatz.

Antwortpräsenz treibt RAG-Umschreibungsgewinne
Answer Presence Drives RAG Rewriting Gains

Jun 4

ByYuejie Li, Yueying Hua, Ke Yang, Li Zhang, Yueping He, Yueping He, Ruiqi Li, Bolin Chen, Tao Wang, Bowen Li, Chengjun Mao

Abrufgestützte QA-Pipelines leiten abgerufene Passagen oft durch einen LLM-Umschreiber, bevor sie von einem kleineren Leser verarbeitet werden, was den F1-Wert bei Multi-Hop-Benchmarks um Dutzende von Punkten erhöht; dieser Gewinn wird üblicherweise auf eine verbesserte Evidenzqualität zurückgeführt. Wir untersuchen mittels eines kontrollierten Interventionsaudits, ob dieser Anstieg kausal durch das Erscheinen des Gold-Antwort-Strings im umgeschriebenen Kontext verursacht wird und nicht durch die Kuration an sich. Für jeden umgeschriebenen Kontext führen wir den Leser erneut aus, nachdem eine von vier kontrollierten Bearbeitungen an der Kompilierungsausgabe vorgenommen wurde: Entfernen der Gold-Antwort-Spanne, Ersetzen durch eine längenangepasste zufällige Nicht-Antwort-Spanne (Placebo) oder Einfügen der Gold-Antwort in Umschreibungen, in denen sie fehlte (am Präfix oder an einer Satzgrenze in der Mitte). Über zwölf abgeschlossene (Zelle, Baseline)-Interventionsläufe hinweg, die drei Leserfamilien (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), zwei Datensätze (HotpotQA, 2WikiMultihopQA) und drei Compiler-Anordnungen (MA-only, MB-only, MA+verify) umfassen, führt das Entfernen der Gold-Antwort zu einem Abfall des Leser-F1 um 28 bis 64 Punkte über das längenangepasste Placebo hinaus auf gepaarten Antwort-in-Kompilierung-Schichten, und das Voranstellen der Gold-Antwort in Umschreibungen, denen sie fehlte, erhöht den F1 in 10 von 12 (Zelle, Baseline)-Kombinationen um +0,7 bis +9,7 Punkte. Ein begleitendes Fünf-Sentinel-Audit zeigt, dass die herkömmliche Einzel-[MASK]-Sonde selbst sentinel-anfällig ist: Bei 2Wiki berichtet sie ein +4,12~F1 „Nicht-Leckage-Residuum“, das unter vier alternativen Sentinel-Wächtern auf -3,33 bis -7,81~F1 kippt und einen Äquivalenztest für drei dieser vier nicht besteht (1/4~bestanden). Wir schlagen keinen neuen Umschreiber oder keine Abhilfe vor; wir veröffentlichen den Intervention Runner und das Sentinel-Panel, damit andere Behauptungen über Umschreibergewinne an demselben Standard getestet werden können.

DuMate-DeepResearch: Ein auditierbares Multi-Agenten-System mit rekursiver Suche und rubrikgestütztem Reasoning
DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning

Jun 5

ByLingyong Yan, Can Xu, Yukun Zhao, Wenxuan Li, Qingyang Chen, Jiulong Wu, Wenli Song, Xiangnan Li, Weixian Shi, Yiqun Chen, Xuchen Ma, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Jianmin Wu, Dawei Yin

Deep Research (DR) hat sich als neues agentisches Paradigma zur Bewältigung komplexer, offener Forschungsaufgaben etabliert, das Systeme erfordert, die iterativ Probleme rahmen, Belege beschaffen, Quellen verifizieren und umfangreiche Berichte synthetisieren können. In der Praxis sind aktuelle DR-Systeme jedoch durch vier miteinander verbundene Einschränkungen begrenzt: die Planung über lange Horizonte bei unzureichend spezifiziertem Umfang, die Engpässe bei der Zerlegung und Terminierung solcher Aufgaben innerhalb eines einzelnen Agenten, das Halluzinationsrisiko bei der Synthese langer Texte sowie die eingeschränkte Prüfbarkeit von Prozessen. Dieser technische Bericht stellt DuMate-DeepResearch vor, ein Multi-Agenten-DR-Framework, das auf der Qianfan Agent Foundry aufbaut. Das Framework entkoppelt den Agent Core, der Aufgabenverständnis, Planung und Terminierung übernimmt, von einem erweiterbaren Tool Ecosystem für Abruf, Belegbeschaffung und Berichterstellung, wodurch jede Zwischenentscheidung und jeder Werkzeugaufruf explizit nachvollziehbar wird. Darauf aufbauend führt DuMate-DeepResearch drei Mechanismen ein: (i) eine graphbasierte dynamische Planungsstrategie, die den Forschungsfahrplan grob-zu-fein erweitert und kontinuierlich durch Reflexion, Neuplanung, Rückverfolgung und parallele Verzweigungen überarbeitet; (ii) ein rekursives zweistufiges Ausführungsdesign, das jede komplexe Suchteilaufgabe an einen inneren Search Agent delegiert, der seine eigene Planungsschleife durchführt, wodurch verrauschte Abfragen isoliert und die langfristige Ausführung stabilisiert werden; (iii) eine rubrikbasierte Testzeit-Optimierung, die dynamisch aufgabenspezifische Qualitätskriterien generiert und diese als lebendige Argumentationsgerüste für belegbasierte Synthese und adaptives Anhalten nutzt. In zwei Deep-Research-Benchmarks erzielt DuMate-DeepResearch neue Bestleistungen: die beste Gesamtpunktzahl (58,03%) auf DeepResearch Bench und die beste Gesamtpunktzahl (61,95%) auf DeepResearch Bench II, während es gleichzeitig den ersten Platz bei Informationsabruf und Analyse belegt.

Text-zu-Bild-Modelle benötigen weniger von Text-Encodern als gedacht.
Text-to-Image Models Need Less from Text Encoders Than You Think

Jun 2

ByNurit Spingarn, Noa Cohen, Tamar Rott Shaham, Tomer Michaeli

Text-zu-Bild-Modelle verwenden Textaufforderungen als primäre Schnittstelle zur menschlichen Absicht. Diese Aufforderungen werden von einem Text-Encoder in Einbettungen (Embeddings) kodiert, die den Bilderzeugungsprozess steuern. Über die Bedeutung einzelner Token hinaus kodieren Texteinbettungen kontextuelle Informationen über die gesamte Aufforderung, wie etwa Kompositionalität und Attributsbindung. Es ist jedoch noch unzureichend erforscht, ob Bildmodelle diese reichhaltigeren Informationen tatsächlich nutzen. Hier gehen wir der Frage nach: Welche Aspekte der Textrepräsentation sind für die Bilderzeugung essenziell? Wir zeigen, dass auf Diffusionstransformatoren basierende Text-zu-Bild-Modelle üblicherweise nur auf zwei relativ einfache Aspekte der Textrepräsentation angewiesen sind: (i) die Zusammenführung benachbarter Token zu einer Wortrepräsentation für Wörter, die sich über mehrere Token erstrecken, und (ii) die Wortreihenfolge, die durch die Positionskodierung des Text-Encoders eingeprägt wird. Um dies zu belegen, konstruieren wir eine neue Texteinbettung, die nur die Bedeutung einzelner Wörter und deren Reihenfolge kodiert, jedoch keine kontextuellen Informationen über die gesamte Aufforderung enthält. Wir stellen fest, dass diese Darstellung als Beutel positionsmarkierter Wörter ausreicht, um die Bilderzeugung erfolgreich zu steuern, wobei eine visuelle Qualität und Texttreue erreicht wird, die mit der durch vollständige Texteinbettung gesteuerten Erzeugung vergleichbar ist. Dies zeigt, dass Text-zu-Bild-Modelle entgegen der allgemeinen Annahme oft nicht die reichhaltigen Informationen nutzen, die in der Texteinbettung über die Bedeutung einzelner Wörter und die Wortreihenfolge hinaus kodiert sind. Stattdessen wird das Dekodieren komplexer linguistischer Strukturen vom Bildmodell selbst durchgeführt. Projektwebseite: https://nsping13.github.io/contextless-TTI/

Roboterpolitikanpassung durch Meta-Lernen im Gewichtsraum
Robotic Policy Adaptation via Weight-Space Meta-Learning

Jun 5

ByChristian Bianchi, Siamak Yousefi, Alessio Sampieri, Andrea Roberti, Luca Rigazio, Fabio Galasso, Luca Franco

Vision-Language-Action (VLA)-Modelle entwickeln sich zu einem vielversprechenden Paradigma für die Robotermanipulation, da sie universelle Strategien ermöglichen, die aus großen Korpora von Demonstrationen und Aktionsannotationen trainiert werden. Allerdings erfordert die Anpassung dieser Modelle an neue Aufgaben nach wie vor typischerweise aufgabenspezifische Demonstrationen, Aktionsannotationen und zusätzliche Feinabstimmung, was den Einsatz kostspielig und schwer skalierbar macht. Wir stellen WIZARD vor, ein Meta-Learning-Framework im Gewichtsraum, das die aufgabenspezifische Feinabstimmung umgeht, indem es aufgabenspezifische LoRA-Parameter für eine eingefrorene VLA-Strategie generiert. Basierend nur auf einer Sprachinstruktion und einem kurzen Demonstrationsvideo sagt WIZARD die entsprechenden Anpassungsgewichte in einem einzigen Vorwärtsdurchlauf voraus, ohne Zielaufgaben-Aktionslabels oder Optimierung zur Testzeit. Während des Meta-Trainings lernt WIZARD, Aufgabenbelege direkt auf Experten-LoRA-Updates abzubilden und so Beziehungen zwischen Aufgaben im Gewichtsraum zu erfassen. Experimente auf LIBERO zeigen, dass WIZARD die Leistung auf unbekannten Datensatzsammlungen um bis zu etwa das Zweifache und auf unbekannten Aufgaben um bis zu etwa das 14-fache verbessert. Auf einem Franka Emika Panda übertrifft WIZARD konsistent eine in der realen Domäne angepasste Basislinie, was zeigt, dass die generierten Adapter eine aufgabenbezogene Spezialisierung über die Simulation hinaus ermöglichen.

Trajektorienverfeinerte Destillation
Trajectory-Refined Distillation

Jun 7

ByLi Jiang, Haoran Xu, Yichuan Ding, Amy Zhang

On-Policy-Destillation (OPD) hat sich zu einem zentralen Nachbearbeitungswerkzeug für große Sprachmodelle (LLMs) entwickelt, indem sie eine dichte Token-für-Token-Lehrerüberwachung entlang der studenteneigenen Rollouts bereitstellt. In dieser Arbeit identifizieren wir eine gemeinsame strukturelle Ursache für OPD, die wir als Präfixfehler bezeichnen. Bei Präfixfehlern induziert die dichte Token-für-Token-Überwachung eine bimodale Lehrermischung und fragmentierte Gradienten, die durch Token-Level-Verlustkürzung oder -Neugewichtung nicht behoben werden können. Diese Beobachtung motiviert uns, über Token-Level-Verlustinterventionen hinaus zu Korrekturen auf Trajektorienebene zu gehen. Daher schlagen wir Trajektorien-verfeinerte Destillation (TRD) vor, eine Korrekturmethode auf Trajektorienebene, die den Rollout des Studenten unter der Lehrerführung innerhalb des On-Policy-Unterstützungsbereichs revidiert. Durch die Korrektur problematischer Präfixe vor der Destillation mildert TRD den Präfixfehler an seiner Quelle. Darüber hinaus verbessert TRD die Exploration, indem es den Studenten unter Lehrerführung alternativen gültigen Ableitungen aussetzt, selbst wenn die ursprünglichen Rollouts bereits korrekt sind. TRD kann auch auf On-Policy-Selbstdestillation (OPSD) angewendet werden, eine Variante mit gemeinsamen Parametern, die das Studentenmodell, konditioniert auf privilegierte Informationen, als Lehrer verwendet. Über eine breite Palette von Benchmarks und Basismodellen auf mehreren Skalen hinweg übertrifft TRD durchgängig frühere Baselines, verbessert die Einzelversuchsgenauigkeit und erweitert die Abdeckung des logischen Denkens. Der Code ist verfügbar unter https://github.com/louieworth/trd.

SDR: Set-Distanz-Belohnungen für die Erstellung radiologischer Berichte
SDR: Set-Distance Rewards for Radiology Report Generation

May 30

ByHalil Ibrahim Gulluk, Max Van Puyvelde, Wim Van Criekinge, Olivier Gevaert

Reinforcement Learning mit verifizierbaren Belohnungen hat die Fähigkeit zum logischen Denken in Vision-Language-Modellen erheblich verbessert. Für die Erstellung von Röntgen-Thorax-Befunden sind die standardmäßigen Belohnungen (d.h. exakte Übereinstimmungsgenauigkeit und schrittweise Prozesse) jedoch ungeeignet, da die Befunde aus ungeordneten und orthogonalen Feststellungen bestehen und nicht aus einer kausalen Reasoning-Kette. Wir adressieren diese Lücke mit einer mengenbasierten Sichtweise: Jeder Befund wird in Sätze aufgeteilt und durch ein eingefrorenes Sentence-Transformer-Modell eingebettet, was zu ungeordneten Einbettungsmengen führt. Wir schlagen die Verwendung von Set-to-Set-Distanzen zwischen generierten und Referenzeinbettungen als kontinuierliche, permutationsinvariante Belohnungen vor. Über zwei Datensätze und drei Vision-Language-Modelle (Qwen3-VL-2B/4B, Gemma3-4B) hinweg übertrifft das Post-Training mit GRPO auf Basis von Set-to-Set-Distanz-Belohnungen durchgängig sowohl das überwachte Feintuning als auch GRPO mit exakter Übereinstimmung bei allen Hauptmetriken (BERTScore, RadGraph F1 und CheXbert F1 mit durchschnittlich relativen Verbesserungen von 6,80 %, 7,82 % bzw. 4,45 %). Dieselben Set-Distanzen ermöglichen auch eine Best-of-N-Selektion zur Testzeit: Die Bewertung von Kandidaten anhand ihrer Distanz zu Einbettungen von Trainingsbefunden übertrifft die Zufallsauswahl bei unseren trainierten Modellen sowie bei drei quelloffenen LLMs (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) mit einer durchschnittlichen relativen Verbesserung von 16,4 % beim BERTScore. Als Streaming-Signal eingesetzt, unterstützen sie eine effizientere Form des Testzeit-Skalings: Das Aussortieren niedrig bewerteter Kandidaten während der Generierung reduziert die erzeugten Token um über 50 %, während die Befundqualität der vollständigen Best-of-N-Selektion erhalten bleibt. Zusammen etablieren diese Ergebnisse Set-Distanz-Belohnungen als einheitliches Signal sowohl für das Post-Training als auch für das Testzeit-Scaling bei der Erstellung von Röntgen-Thorax-Befunden. Unser Code ist öffentlich verfügbar unter: https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA.

Phasenmarginalisierung für Patch-Gitter-Instabilität in Vision Transformers
Phase Marginalization for Patch-Grid Instability in Vision Transformers

Jun 6

ByOğuzhan Ercan

Vision Transformers arbeiten auf festen Patch-Gittern, was zu phasenabhängiger Instabilität bei dichten Vorhersagen führen kann: Eine Änderung der Patch-Aufteilung kann die Token-Evidenz ändern, die einem Pixel zur Verfügung steht, insbesondere in der Nähe von Grenzen. Wir formalisieren die Patch-Gitter-Phase als Störvariable und schlagen die Phasenmarginalisierung vor, eine Post-hoc-Marginalisierungsmethode, die strukturierte Patch-Gitter-Phasen auswertet, dichte Ausgaben invers ausrichtet und sie im ursprünglichen Bildkoordinatensystem aggregiert. Die zentrale Variante, die einheitliche Phasenmarginalisierung mit K = 4, ist trainingsfrei und verbessert die kanonische K = 1-Baseline in den gemessenen Segmentierungs-, Tiefen- und lokalen Abgleichseinstellungen. In einem kontrollierten Cityscapes-Experiment bietet die einheitliche Phasenmarginalisierung einen bescheidenen rechenangepassten Vorteil gegenüber der generischen, verschiebungsbasierten Vierfach-Testzeit-Augmentierung (TTA) (+0,31 mittlerer Schnitt-über-Vereinigung gegenüber der stärksten getesteten generischen Reihe). Eine Skalierungsstudie zeigt ferner, dass K = 4 einen praktischen Kosten-Genauigkeits-Kompromiss darstellt: K = 8 ist im Wesentlichen unverändert und K = 16 fügt wenig Genauigkeit bei viel höherer Latenz hinzu. Diese Ergebnisse positionieren die Patch-Gitter-Phase als messbare Störvariable und die Phasenmarginalisierung als einfache Diagnose- und Post-hoc-Marginalisierungs-Baseline für dichte ViT-Vorhersagen.

AsyncWebRL: Effizientes mehrstufiges RL für visuelle Web-Agenten
AsyncWebRL: Efficient Multi-Step RL for Visual Web Agents

Jun 4

ByHao Bai, Rui Yang, Chenlu Ye, Spencer Whitehead, Aviral Kumar, Tong Zhang

Das Training visuell-sprachlicher Web-Agenten mit mehrstufigem Reinforcement Learning ist rechenintensiv und weist zwei dominante Ineffizienzformen auf: untätige GPUs in synchronem RL sowie Trajektorien, die mehr Schritte und Tokens als nötig verwenden. Wir stellen AsyncWebRL vor, das beide Probleme angeht. Auf der Systemseite überlappt ein asynchrones Design Rollout, Gradientenaktualisierung und Richtlinienaktualisierung über Iterationen hinweg, ergänzt durch zwei webspezifische Anpassungen – einen permanenten Rollout-Pool und eine leichtgewichtige Bildschirmfoto-Verarbeitung –, die zusammen eine bis zu 2,9-fache Beschleunigung des end-to-end-Trainingsdurchsatzes gegenüber der bisher schnellsten offenen synchronen Pipeline (WebGym) erzielen. Auf der algorithmischen Seite identifizieren wir den Pro-Trajektorien-Normalisierer 1/|τ_i| im mehrstufigen GRPO als Ursache für die Ineffizienz auf Trajektorien- und Token-Ebene: Da Fehlschläge systematisch länger sind als Erfolge, gewichtet er den negativen Gradienten auf fehlgeschlagenen Tokens herab, sodass die Richtlinie weiterhin ausführliche Gedächtnisschemata produziert. Der Ersatz von 1/|τ_i| durch eine Konstante 1/k bricht diese Kopplung, verkürzt Trajektorien und erhält gleichzeitig den Gesamterfolg. Zusammen setzen diese Beiträge einen neuen Open-Source-Spitzenwert auf dem Out-of-Distribution-Test-Split von WebGym (+5,8 % relativ gegenüber dem vorherigen Bestwert von 42,9 %), mit den größten Zuwächsen bei den schwierigeren Unterbereichen (+42 % relativ bei Medium, +48 % relativ bei Hard).

Vertrauensfunktionen: Nahezu verlustfreie Schwach-zu-Stark Generalisierung durch Lernen, wann dem schwachen Lehrer zu vertrauen ist.
Trust Functions: Near-Lossless Weak-to-Strong Generalization by Learning When to Trust the Weak Teacher

May 31

ByArda Uzunoglu, Alvin Zhang, Daniel Khashabi

Schwach-zu-Stark-Verallgemeinerung untersucht, wie ein starker Schüler mithilfe der Aufsicht eines schwächeren Lehrers verbessert werden kann, wenn zuverlässige Labels knapp sind. Wir betrachten dies primär als ein Problem der Datenauswahl, bei dem die zentrale Herausforderung darin besteht, zu identifizieren, welche schwachen Labels zuverlässig genug sind, um als Trainingssignal zu dienen. Um dies zu adressieren, führen wir Vertrauensfunktionen ein, die jedem schwachen Label einen skalaren Vertrauenswert zuweisen, und nutzen diese Werte, um die schwache Aufsicht zu filtern. In mehreren Domänen, darunter Weltwissen, quantitatives Denken und Strategiespiele, erzielt das Vertrauensfiltering Schüler, die mit der Grundwahrheitsüberwachung gleichziehen und sie teilweise übertreffen, was eine nahezu verlustfreie Schwach-zu-Stark-Verallgemeinerung ermöglicht. Darüber hinaus ermöglichen Vertrauensfunktionen eine iterative Schwach-zu-Stark-Kette, die Gewinne verstärkt, indem sie einen Schüler trainiert und ihn als nächsten Lehrer wiederverwendet, wodurch die Gewinne potenziert werden. Es gibt mehrere Mechanismen, denen die Vorteile von Vertrauensfunktionen zugeschrieben werden können.

Optisches Denken: Die Neubetrachtung von Bildern als ausdrucksstarkes Medium des Schließens jenseits von Text
Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text

Jun 8

ByYutong Bian, Dongjie Cheng, Heming Xia, Yongqi Li, Wenjie Li

Chain-of-Thought (CoT) verbessert die Leistung Großer Sprachmodelle (LLMs) und wurde auf Multimodale Große Sprachmodelle (MLLMs) ausgeweitet. Neuere Arbeiten gehen weiter vom textbasierten multimodalen Schließen zum verschränkt-modalen Schließen über, bei dem Zwischenschritte sowohl textuelle Begründungen als auch visuelle Belege einbeziehen können. In dieser Arbeit schlagen wir eine kühnere und ambitioniertere Idee vor: Könnten Bilder allein als Schlussfolgerungsmedium sowohl für Sprach- als auch für multimodale Aufgaben dienen? Um dies zu untersuchen, schlagen wir das optische Schließen vor, das Bilder als eigenständiges Schlussfolgerungsmedium behandelt. Wir setzen dieses Konzept mit zwei Varianten um: dem typografiebasierten optischen Schließen, das visuelle Layouts für kompakte Begründungsdarstellungen optimiert, und dem grafikbasierten optischen Schließen, das Text und grafische Elemente zu strukturierten visuellen Begründungen zusammenfügt. In Benchmarks für mathematisches, wissenschaftliches und verschränkt-modales Schließen kann das optische Schließen mit dem traditionellen textbasierten Schließen mithalten oder es sogar übertreffen, während es die Anzahl der Reasoning-Token bei Sprachaufgaben um durchschnittlich 28,57 % und bei multimodalen Aufgaben um 16 % reduziert und damit eine 1,96-fache Token-Effizienz im Vergleich zum textbasierten Schließen erreicht. Diese Ergebnisse zeigen, dass Bilder Begründungen effektiv und effizient kodieren können und gleichzeitig eine einheitliche visuelle Grundlage für das Schließen bieten.

WorldCraft: Von der Kameranavigation zur Objektmanipulation in interaktiven Videoweltmodellen
WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models

May 24

ByBohai Gu, Taiyi Wu, Yueyang Yuan, Jian Liu, Xiaocheng Lu, Dazhao Du, Jie Zhang, Jinxiang Lai, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo

Aktuelle videobasierte Weltmodelle haben Pixelraum-Umgebungen auf Kamerae Ebene interaktiv gemacht: Benutzer können Blickwinkel navigieren, während das Modell kohärente visuelle Fortsetzungen generiert. Dennoch bleiben ihre Aktionsräume unvollständig – Nutzer können die Kamera bewegen, aber nicht auf einzelne Objekte einwirken. Da reale Interaktion inhärent objektzentriert ist, ähneln solche Modelle eher passiven Szenenbeobachtern als wirklich manipulierbaren Umgebungen. Wir präsentieren WorldCraft, ein Framework, das interaktive Video-Weltmodelle von Kameranavigation zu Objekt-Trajektorien-Aktionen erweitert. Auf Basis eines Benutzerklicks und einer skizzierten Bahn generiert WorldCraft zukünftige Frames, in denen das ausgewählte Objekt der vorgegebenen Trajektorie folgt, während die Kamera weiterhin die Szene navigiert. WorldCraft erreicht dies durch eine trajektorienzentrierte Steuerungspipeline: Zunächst repräsentiert die Normalized World Trajectory (NWT) die nutzergezeichnete Bewegung in einem kamerainvarianten Weltkoordinatensystem und projiziert sie dynamisch unter der aktuellen Kamerapose neu, wodurch Objektbewegung von kamerabedingter Bildschirmverschiebung getrennt wird; Spatial-Pathway LoRA (SP-LoRA) injiziert dieses Weltraumsignal dann über den räumlichen Steuerungspfad des Modells und fügt Objektmanipulationsfähigkeit hinzu, während der vortrainierte Kameraregler erhalten bleibt; schließlich behandelt Trajectory-Anchored State Persistence (TASP) die Welt-Trajektorie als persistenten räumlichen Zustand und aktualisiert das autoregressive Gedächtnis nach der trajektorienbasierten Generierung, sodass bewegte Objekte nach Verlassen des Kamerabilds an ihren aktualisierten Positionen wieder erscheinen können. Experimente zeigen, dass WorldCraft präzise Objektsteuerung ermöglicht, die Kameragenauigkeit des videobasierten Weltmodells unter reiner Kameraevaluierung bewahrt und den Objektzustand über lange autoregressive Abfolgen mit kamerabildfernen Ausflügen aufrechterhält.

Evaluationskarten: Eine interpretative Ebene für die Berichterstattung über KI-Evaluierungen
Evaluation Cards: An Interpretive Layer for AI Evaluation Reporting

Jun 8

ByAvijit Ghosh, Anka Reuel, Jenny Chim, Wm. Matthew Kennedy, Srishti Yadav, Jennifer Mickel, Yanan Long, Andrew Tran, Anastassia Kornilova, Damian Stachura, Kevin Klyman, Felix Friedrich, Jeba Sania, Max Lamparth, Jan Batzner, Anoop Mishra, Eliya Habba, Yixiong Hao, Nathan Heath, Shalaleh Rismani, Usman Gohar, Andrea Loehr, David Manheim, Ruchira Dhar, Sree Harsha Nelaturu, Aarush Sinha, Leshem Choshen, Drishti Sharma, Ishan Khire, Amit Saha, Subramanyam Sahoo, Michael Hardy, Michael Alexander Riegler, Kabir Manghnani, Michelle Lin, Yanan Jiang, Yilin Huang, Asaf Yehudai, Jessica Ji, Aris Hofmann, Mubashara Akhtar, Nuno Moniz, Yacine Jernite, Stella Biderman, Zeerak Talat, Sanmi Koyejo, Mykel Kochenderfer, Irene Solaiman

KI-Evaluierungsergebnisse werden in großem Umfang produziert, aber über Bestenlisten, Modellkarten, Benchmark-Artikel und Unternehmensblogs hinweg inkonsistent berichtet. Der Preis dafür ist interpretativer Natur: Leser können Ergebnisse aus verschiedenen Quellen nicht zuverlässig vergleichen, erkennen nicht, was ein Bericht auslässt, und können eine aggregierte Behauptung nicht auf die zugrundeliegenden Belege zurückführen. Neuere Arbeiten adressieren zwar isolierte Komponenten, hinterlassen aber drei Lücken: Sie decken nur enge Ausschnitte des Evaluationslebenszyklus ab und fügen sich nicht zu einem einzigen interpretierbaren Datensatz zusammen; sie spezifizieren statische Repräsentationen, die nicht zwischen den unterschiedlichen Fragen differenzieren, die verschiedene Interessengruppen an denselben Beleg haben; und sie bleiben reine Vorschläge auf dem Papier, denen die für eine breite Adoption erforderliche Extraktionsinfrastruktur fehlt. Wir stellen eine operative Berichtsschicht vor, die Benchmark-Metadaten, Evaluationslaufdaten und Modellmetadaten zu einem einheitlichen Datensatz zusammenführt. Wir (1) leiten ein Berichtsschema aus einer strukturierten Analyse von 52 Artikeln und 10 Interviews mit Interessengruppen ab, (2) implementieren vier interpretative Signale (Reproduzierbarkeit, Dokumentationsvollständigkeit, Herkunft und Risiko sowie Ergebnisvergleichbarkeit), die über auf Forschungs- und Nicht-Forschungspublikum abgestimmte Lesemodi dargestellt werden, und (3) setzen ein Überwachungswerkzeug ein, das über 5.816 Modelle, 635 Benchmarks und 101.843 Ergebnisse hinweg angewendet wird und systematische Lücken in der derzeitigen Berichtspraxis aufdeckt.

Zuerst einen SCOUT senden: Pre-hoc-Reasoning für adaptive Detektorallokation in der Prompt-Injection-Abwehr
Send a SCOUT First: Pre-hoc Reasoning for Adaptive Detector Allocation in Prompt-Injection Defense

May 29

ByShuhao Zhang, Jiarui Li, Qi Cao, Ruiyi Zhang, Pengtao Xie

Prompt-Injektionsdetektoren sind heterogen: Jeder ist in einem anderen Angriffssegment stark, und keiner ist stets zuverlässig. Dennoch behandeln bestehende Systeme die Erkennung weiterhin als feste Ein-Detektor-Pipeline und überlassen jede Anfrage den blinden Flecken eines einzelnen Detektors. Wir formulieren die Verteidigung als Detektorzuweisung um: Bei einem heterogenen Pool wird pro Anfrage entschieden, welche Detektoren ausgeführt werden und ob eine Eskalation an einen LLM-Richter erfolgen soll. Unser Framework SCOUT (Skalierbare und kontrollierbare Ergebnisvorhersage für unsicherheitsbewusste Triage) trifft diese Entscheidung dynamisch, indem es die stichprobenbezogene Zuverlässigkeit und Latenz jedes Detektors aus dessen Verhalten bei ähnlichen vergangenen Eingaben vorhersagt und dem Betreiber eine einzelne Sicherheits-Nutzen-Schwelle bereitstellt (wobei der Nutzen die Durchlassrate für harmlose Anfragen und die Wanduhrzeit bündelt). Zur Bewertung dieser Umgebung erstellen wir SCOUT-450, einen Benchmark, der die strukturell komplexen, agentenorientierten Injektionen erfasst, die in älteren Prompt-Injektionsdatensätzen unterrepräsentiert sind. Auf SCOUT-450 reduziert ein sicherheitsorientierter Arbeitspunkt die Angriffserfolgsrate um 46 % und die Gesamtwanduhrzeit um 40 % im Vergleich zu einem ständig aktiven GPT-4o-Richter, bei einem Nutzenverlust von 5,1 Punkten bei harmlosen Anfragen. SCOUT überträgt sich außerdem auf drei externe Benchmarks (BIPIA, IPI und IHEval) und verbessert die Sicherheits-Nutzen-Grenze.

Härtungsagent-Benchmarks mit adversarialen Hacker-Fixer-Schleifen
Hardening Agent Benchmarks with Adversarial Hacker-Fixer Loops

Jun 8

ByZiqian Zhong, Ivgeni Segal, Ivan Bercovich, Shashwat Saxena, Kexun Zhang, Aditi Raghunathan

Agent-Benchmarks bewerten Einreichungen mit Ergebnisprüfern, die typischerweise manuell erstellt und spröde sind, was sie anfällig für Reward Hacking macht. Wir überprüfen 1.968 Aufgaben aus fünf Terminal-Agent-Benchmarks und stellen fest, dass 323 (16%) von Grenzmodellen allein anhand der Aufgabenbeschreibung hackbar sind. Dies verfälscht sowohl Leaderboard-Rankings als auch RL-Trainingssignale, dennoch ist die Standardreaktion manuell und reaktiv. Wir führen die Hacker-Fixer-Schleife ein, eine Methode zur Erstellung manipulationsresistenter Prüfer ohne manuelle Anpassung pro Aufgabe. Die Schleife wechselt drei LLM-Agenten ab: Ein Hacker versucht, den Prüfer zu passieren, ohne die Aufgabe zu lösen; ein Fixer passt den Prüfer an, um jeden entdeckten Exploit abzuweisen; und ein Löser bestätigt, dass der angepasste Prüfer weiterhin legitime Lösungen zulässt. Die Schleife iteriert: Jeder Patch formt neu, was der Prüfer belohnt, und bringt den nächsten Exploit hervor. Wir fügen ferner Prüferzugriff hinzu und lassen Patches über Aufgaben hinweg übertragen, um das Spektrum der von der Schleife entdeckten Exploits zu erweitern. Auf KernelBench senkt die Schleife die Angriffserfolgsrate von 62% auf 0% auf einem zurückgehaltenen Korpus öffentlich gemeldeter Exploits. Wir stellen zudem fest, dass schwächere Agenten in der Schleife gegen deutlich stärkere Hacker verteidigen können: Die Schleife von Gemini 3 Flash senkt die Angriffserfolgsrate der stärkeren Gemini 3.1 Pro und Claude Opus 4.7 von 76% bzw. 61% auf 0% auf KernelBench, und die von Gemini 3.1 Pro von 39% auf 17% auf Terminal Bench über 77 Aufgaben. Wir veröffentlichen Terminal Wrench (323 hackbare Umgebungen, 3.632 Hack-Trajektorien) als Momentaufnahme der aktuellen Angriffsfläche, unsere gepatchten Prüfer, die von der Schleife entdeckten Exploits und unsere Implementierung als Grundlage für zukünftige Arbeiten.

EmpiriGraph-Psy: Ein Datensatz und eine LLM-Pipeline zur Extraktion empirischer Beziehungsgraphen aus psychologischen Abstracts
EmpiriGraph-Psy: A Dataset and LLM Pipeline for Extracting Empirical Relation Graphs from Psychology Abstracts

Jun 6

ByDanqin Zhao, Yicun Liu, Xingwei Tan, Thomas T. Hills

Bestehende wissenschaftliche Relationsextraktions-Benchmarks konzentrieren sich hauptsächlich auf Domänen wie die Informatik, in denen Entitäten Aufgaben, Methoden, Datensätze, Materialien oder Metriken sind. Dies hinterlässt eine Lücke in variablenorientierten empirischen Feldern wie der Psychologie, in denen Ergebnisse als Beziehungen zwischen Konstrukten, Messungen, Interventionen und Ergebnissen ausgedrückt werden. Wir führen die variablenzentrierte empirische Graphextraktion ein – die Aufgabe, wissenschaftliche Abstracts in typisierte Graphen zu überführen, deren Knoten normalisierte Variablen sind und deren Kanten empirische und hierarchische Beziehungen darstellen. Zur Unterstützung dieser Aufgabe konstruieren wir EmpiriGraph-Psy, einen Benchmark bestehend aus 210 psychologischen Abstracts, die von domänengeschulten Annotatoren mit normalisierten Variablen, Konzepthierarchien, empirischen Beziehungstypen und Validierungszuständen annotiert wurden. Wir evaluieren Grenz- und Open-Weight-LLMs sowohl mittels direkter Extraktion als auch mittels einer stufenweisen Graphenkonstruktionspipeline, die Variablenextraktion, Normalisierung, Hierarchieerstellung, Evidenzauswahl, Relationsextraktion und Kantenvalidierung trennt. Die stufenweise Pipeline übertrifft die direkte Extraktion deutlich, wobei die beste Konfiguration einen Makro-F1-Wert von 0,74 erreicht. Die Fehleranalyse zeigt, dass Moderationsbeziehungen und Konzepthierarchien die schwierigsten Fälle bleiben, was die Herausforderung verdeutlicht, empirische Aussagen höherer Ordnung und implizite Abstraktionsstrukturen aus wissenschaftlichen Abstracts zu extrahieren.

Wo Rectified Flows lecken: Charakterisierung von Mitgliedschaftssignalen entlang des Interpolationspfades
Where Rectified Flows Leak: Characterising Membership Signals Along the Interpolation Path

Jun 5

ByThomas Sesmat, Gabriel Meseguer-Brocal, Geoffroy Peeters

Das Verständnis darüber, was generative Modelle aus Trainingsdaten behalten, bleibt eine Herausforderung mit Implikationen für Urheberrecht und Datenschutz. Über die wörtliche Wiedergabe hinaus können Modelle subtilere Spuren ihrer Trainingsdaten kodieren, die nie in ihren Ausgaben sichtbar werden, aber dennoch ausgenutzt werden können. Wir untersuchen dieses Regime für Rectified Flows, die zunehmend in eingesetzten generativen Systemen verwendet werden. Wir analysieren den Interpolationspfad X_λ = (1-λ)X_0 + λX_1, der das Training von Rectified Flows definiert. Wir zeigen, dass eine Lücke zwischen der Rekonstruktion von Trainings- und Testdaten besteht, die einer glockenförmigen Kurve über λ folgt, sich während des Trainings akkumuliert, während die Validierungsmetriken stabil bleiben. Das Signal hat ein Maximum, dessen Lage wir unter Gaußschen Annahmen in geschlossener Form ableiten. Wir validieren diese Vorhersagen sowohl für Audio als auch für Bilder und zeigen, dass die glockenförmige Struktur universell ist, während die Vorhersage des Maximums gilt, wenn unsere Annahmen erfüllt sind. Als Machbarkeitsnachweis nutzen wir diese spezifische λ-aufgelöste Struktur, um einen Membership Inference Attack durchzuführen, der Mitglieder des Trainingssatzes von Nichtmitgliedern unterscheidet.

Erfahrung macht geschickt: Generalisierbares Reasoning medizinischer Agenten durch selbstentwickelndes Fertigkeitsgedächtnis
Experience Makes Skillful: Enabling Generalizable Medical Agent Reasoning via Self-Evolving Skill Memory

Jun 8

ByHaoran Sun, Wenjie Li, Yujie Zhang, Zekai Lin, Fanrui Zhang, Kaitao Chen, Xingqi He, Yichen Li, Mianxin Liu, Lei Liu, Yankai Jiang

Medizinische Agentensysteme werden zunehmend dafür vorgesehen, interaktive klinische Entscheidungsfindung zu unterstützen, anstatt nur statische Fragen zu beantworten. In solchen Umgebungen müssen effektive Agenten frühere Erfahrungen über sich entwickelnde Fälle hinweg wiederverwenden, doch bestehende Gedächtnismechanismen bewahren oft rohe historische Spuren, die redundant, verrauscht und schwer zu kontrollieren sind. Noch wichtiger ist, dass sie selten unterscheiden, welche Erinnerungen für zukünftiges Denken tatsächlich nützlich sind. Dies schränkt ihre Fähigkeit ein, kompakte und zuverlässige Erfahrungen für langfristiges klinisches Denken zu sammeln. Um diese Lücke zu schließen, schlagen wir SkeMex vor, ein Post-Deployment-Selbstevolutionsframework, das medizinische Agenten durch ein fähigkeitsbasiertes Gedächtnis verbessert, ohne Modellgewichte zu aktualisieren. SkeMex destilliert informative Interaktionstrajektorien in strukturierte Fähigkeiten, die wiederverwendbares prozedurales Wissen kodieren, und organisiert sie in einem mehrzweigigen Repository, das allgemeine, aufgabenspezifische und aktionsbezogene Erfahrungen umfasst. Um zu bestimmen, welche Erinnerungen wiederverwendet und behalten werden sollen, schätzt SkeMex den kontextabhängigen Nutzen aus Umgebungsfeedback und nutzt diesen zur Steuerung eines wertbewussten Abrufs und einer Repository-Governance. Ein geschlossener Kreislauf aus "Lesen – Schreiben – Bewerten – Steuern" unterstützt die kontinuierliche Evolution, indem neue Fähigkeiten geschrieben, Nutzenwerte aktualisiert, nützliche Erinnerungen gefördert und schädliche Einträge entfernt werden. Experimente über verschiedene klinische Aufgaben hinweg zeigen, dass SkeMex repräsentative gedächtnisbasierte Agenten sowohl in Offline- als auch in Online-Umgebungen durchweg übertrifft. Es generalisiert zudem über verschiedene Modell-Backbones und unterstützt übertragbares Fähigkeitsgedächtnis. Alle Daten und der Code werden öffentlich zur Verfügung gestellt.

SigmaScale: LLM-Kompression mit SVD-basierter Niedrigrangzerlegung und gelernten Skalierungsmatrizen
SigmaScale: LLM Compression with SVD-based Low-Rank Decomposition and Learned Scaling Matrices

Jun 5

ByErnests Lavrinovics, Marco Letizia, Roy Janco, Shai Segal, Johannes Bjerva, Maurizio Pierini

Wir stellen SigmaScale vor, eine Methode zum Erlernen von Hilfsskalierungsmatrizen S zur Unterstützung der auf trunkierter Singulärwertzerlegung (SVD) basierenden Kompression großer Sprachmodelle (Large Language Models, LLMs). Anstatt Skalierungsmatrizen analytisch herzuleiten, optimiert SigmaScale zwei Vektorsätze, die diagonale Zeilen- und Spaltenskalierungstransformationen unter einem aktivierungsbewussten Kompressionsverlust definieren. Wir zeigen, dass erlernte Skalierung den effektiven intrinsischen Rang von Gewichtsmatrizen senkt, was sich in einer Reduzierung der Effektiv-Rang-Entropie widerspiegelt, und dass diese Reduzierung stark mit dem Kompressionsverlust korreliert. Experimente mit Llama 3.1 8B Instruct und Qwen3-8B zeigen, dass SigmaScale mit eng verwandten modernen SVD-basierten Kompressionsmethoden bei Perplexitäts- und Zero-Shot-Benchmarks konkurrieren kann. Durch die Verwendung erlernter aktivierungsbewusster Transformationen erkundet SigmaScale einen flexibleren Weg zur Niedrigrang-LLM-Kompression, indem es sich an die Struktur einzelner Modellgewichte anpasst. Der bei bestimmten Aufgaben beobachtete Vorteil macht unseren Ansatz zu einer validen Option für Anwendungen, die reduzierte LLM-Inferenzkosten erfordern.

Selbstevaluation ist bereits vorhanden: Hervorrufen latenter Richterkalibrierung in Basis-LLMs mit minimalen Daten
Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data

Jun 3

ByXiuYu Zhang, Yi Shan, Junfeng Fang, Zhenkai Liang

Große Sprachmodelle werden zunehmend von anderen Modellen bewertet, was die naheliegende Frage aufwirft: Kann ein Modell vorhersagen, wie ein Bewerter seine eigene Ausgabe bewerten wird? Wir stellen fest, dass diese Fähigkeit bereits weitgehend vorhanden ist, bevor ein gezieltes Training erfolgt: Mittels Few-Shot-Prompts sagt ein Basismodell die Qualitätsbewertungen für mehrere Attribute eines externen Bewerters bei offenen Antworten bereits deutlich über dem Zufallsniveau voraus – und das über drei Vergleichsmaßstäbe hinweg. Wir führen die Selbstevaluations-Hervorlockung (Self-Evaluation Elicitation, SEE) ein, eine Methode, die diese latente Fähigkeit durch einen kurzen Zyklus freilegt: eine an die Kalibrierung gekoppelte Verstärkungslernphase, die die Antwort verbessert und den Bewerter vorhersagt, gefolgt von einer maskierten Destillationsphase, die die Vorhersage schärft, während die Antwort unberührt bleibt. Ausgehend von 160 einzigartigen Beispielen, etwa 31-mal weniger als bei einem Verstärkungslern-Baseline, verbessert SEE die Kalibrierung auf zurückgehaltenen Daten über drei Vergleichsmaßstäbe hinweg, während die Antwortqualität erhalten bleibt. Die hervorgelockte Selbstevaluation ist scharf innerhalb der eigenen Token-Verteilung des Modells lokalisiert und stabil gegenüber Bewertern, mit denen es nie trainiert wurde, was auf ein übertragbares Qualitätskonzept hindeutet, nicht auf die Präferenz eines einzelnen Bewerters. Diese Ergebnisse stellen das bewertungsausgerichtete Selbstevaluationsproblem als ein Problem der Hervorlockung und nicht der Akquisition neu dar.

Kosinus führt in die Irre: Hilfsverluste gestalten Vision-Language-Modelle um, nicht deren latente Repräsentationen
Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents

Jun 4

ByXiuYu Zhang, Junfeng Fang, Zhenkai Liang

Latentes visuelles Denken (LVR) fügt zwischen Wahrnehmung und Antwortgenerierung in Vision-Language-Modellen (VLMs) überwachte latente Token ein. Das Feld verwendet die Ausrichtung zwischen diesen Latenten und ihren visuellen Zielen, d. h. Kosinus-Ähnlichkeit oder mittlerer quadratischer Fehler (MSE), sowohl als Trainingsverlust als auch als Qualitätsmetrik, unter der Annahme, dass eine bessere Ausrichtung eine bessere Antwort ergibt. Wir testen dies mit einer entworfenen Matrix von fünf LVR-Varianten und stellen fest, dass die Annahme umgekehrt ist: Die Kosinus-Ausrichtung ist über alle fünf Varianten hinweg negativ mit der Genauigkeit korreliert (r = –0,94). Zur Erklärung führen wir PRISM ein, ein Paar von Inferenzzeit-Diagnostiken: eine lineare Sonde, die fragt, wo die Antwort dekodierbar ist, und einen Korruptionstest, der fragt, ob das Latente tragend ist. Die überwachten Latenten werden weitgehend umgangen. Ihre Korruption verändert die Genauigkeit um höchstens vier Punkte. Die Antwort ist stromabwärts des Latenten dekodierbar, aber nicht an ihm selbst, und die Größe dieser Dekodierbarkeitslücke sagt voraus, wie stark jede Variante unter Störung auf ihr Latentes angewiesen ist. In Übereinstimmung mit einer Information-Bottleneck-Interpretation des Verlusts formt das Hilfsziel das Sprachmodell über gemeinsame Parameter um, anstatt über die latente Variable, die es nominell optimiert.

Chiaroscuro-Aufmerksamkeit: Rechenleistung im Dunkeln ausgeben
Chiaroscuro Attention: Spending Compute in the Dark

Jun 6

ByPrateek Kumar Sikdar

Standard-Transformer wenden Self-Attention einheitlich auf jeder Schicht und für jedes Token an, unabhängig davon, ob die Eingabe eine dynamische Kreuztoken-Interaktion erfordert. Wir schlagen CHIAR-Former (Chiaroscuro Attention) vor, einen hybriden Transformer mit vier Schichten, der jedes Token basierend auf der spektralen Entropie pro Token, einem theoretisch begründeten Komplexitätssignal, einem von drei Operatoren zuweist – DCT-Spektralmischung, RBF-Kernel-Mischung oder vollständiger Self-Attention. Durch systematische Ablation auf WikiText-103 entdecken wir ein Routing-Collapse: Der Router lehnt RBF konsequent zugunsten von DCT und Attention ab, was zeigt, dass Spektralmischung und dynamische Attention komplementär und ausreichend sind. Eine speziell entwickelte Variante mit nur DCT+Attention erreicht auf WikiText-103 ein Val PPL von 36,54 – eine Verbesserung um 45 % gegenüber einer Full-Attention-Baseline (PPL 66,62) bei 62,5 % weniger Attention-FLOPs. Wir erweitern die Evaluierung auf WikiText-2, IMDB-Sentiment-Klassifikation und synthetische ListOps-Operationen und etablieren ein klares Einsatzgebiet: CHIAR-Former übertrifft auf großskaligen natürlichen Texten, wo die Token-Diversität spektrale Spezialisierung unterstützt, während Full-Attention bei kleinen Datensätzen und synthetischen Mustererkennungsaufgaben weiterhin Vorteile bietet. Diese Ergebnisse – sowohl die Erfolge als auch die Misserfolge – definieren gemeinsam, wann und warum sich spektrales Routing lohnt.

PBSD: Privilegierte Bayessche Selbst-Destillation für die Kreditzuweisung über lange Horizonte
PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment

Jun 8

ByYang Tian, Rui Wang, Xumeng Wen, Junjie Li, Shizhao Sun, Lei Song, Jiang Bian, Bo Zhao

Langfristige agentische Aufgaben stellen ein fundamentales Kreditzuweisungsproblem für ergebnisbasierte Verstärkungslernverfahren dar: Belohnungen auf Trajektorienebene überprüfen die finale Korrektheit, liefern jedoch nur begrenzte Hinweise darauf, welche Zwischenschritte der Argumentation oder Werkzeuginteraktionen zum Ergebnis beitragen. Die Schwierigkeit ist besonders ausgeprägt bei mehrschrittigen Suchagenten, bei denen erfolgreiche Trajektorien irreführende Aktionen enthalten können und fehlgeschlagene Trajektorien wertvolle beweissammelnde Schritte enthalten können. Wir schlagen PBSD (Privileged Bayesian Self-Distillation) vor, eine Bayes-kalibrierte Selbst-Destillationsmethode für feinkörnige Kreditzuweisung unter spärlichen Endbelohnungen. PBSD misst die Trajektorienqualität durch das Posterior-zu-Prior-Wahrscheinlichkeitsverhältnis der überprüften Antwort und wendet die Bayes-Regel an, um dieses schwer zu schätzende antwortseitige Verhältnis in ein handhabbares Likelihood-Verhältnis zwischen einem Standard-Schülermodell und einem priviligierten, antwortbedingten Lehrermodell zu überführen. Die autoregressive Zerlegung dieses Bayesschen Evidenzwerts liefert Signale auf Zug-Ebene, die identifizieren, ob jeder Zwischenschritt das überprüfte Ergebnis unterstützt oder untergräbt. Folglich bietet PBSD ein prinzipielles und elegantes Umgewichtungsschema, das spärliche Ergebnisüberwachung in Bayes-kalibrierte Kreditsignale auf Zug-Ebene transformiert, während es vollständig mit der Standard-Policy-Optimierung kompatibel ist. Experimente zeigen, dass PBSD die Leistung sowohl in domäneninternen als auch in domänenübergreifenden Umgebungen konsistent verbessert und effektiv Wissen vom Training mit kurzem Kontext zur Inferenz mit langem Kontext überträgt, was darauf hindeutet, dass sein feinkörniger Kreditzuweisungsmechanismus ein effektiveres Policylernen ermöglicht und eine verbesserte Generalisierung bewirkt.

OASIS: Von der Simulationsdatenerfassung zur realweltlichen humanoiden Loko-Manipulation
OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation

Jun 7

ByZehao Yu, Jiakun Zheng, Weiji Xie, Jiyuan Shi, Chenyun Zhang, Chenjia Bai, Xuelong Li

Die jüngsten Fortschritte in der Roboter-Manipulation wurden maßgeblich durch Lernen aus groß angelegten Demonstrationen vorangetrieben. Für Aufgaben der Lokomotions-Manipulation humanoider Roboter erzwingen bestehende Datenquellen jedoch einen unbefriedigenden Kompromiss zwischen Trajektorienqualität und Skalierbarkeit. Teleoperation in der realen Welt liefert Trajektorien höchster Qualität, erfordert jedoch dedizierte physische Räume und zeitaufwändige Szenenrücksetzungen. Simulation bietet einen alternativen Ausweg aus diesem Dilemma: Sie kann saubere, körperangepasste Daten in großem Umfang ohne physische Hardware erzeugen. In diesem Artikel schlagen wir OASIS vor, ein simulationsdatengetriebenes Framework für die Lokomotions-Manipulation humanoider Roboter. OASIS rekonstruiert automatisch realistische Objekt-Assets aus realen Bildern mittels eines 3D-generativen Modells. Basierend auf diesen Assets werden Trajektorien zunächst durch Teleoperation in der Simulation gesammelt und anschließend in einer Nachbearbeitungsphase unter verschiedenen Domänenrandomisierungen erweitert. Mit den resultierenden Simulationsdaten entwerfen wir zudem eine hierarchische visuomotorische Strategie für die Lokomotions-Manipulation humanoider Roboter. Umfangreiche Experimente am realen humanoiden Roboter zeigen, dass die mit unseren Simulationsdaten trainierte Strategie bei der Nullschuss-Anwendung auf den meisten Aufgaben eine höhere Erfolgsrate erzielt als die auf realen Teleoperationsdaten trainierte, was maßgeblich auf die breite Abdeckung von Beleuchtungs- und Umweltvariationen durch unsere Simulationsrendering zurückzuführen ist, die reale Roboterdaten nicht erfassen können. Die Projektseite ist verfügbar unter https://oasis-humanoid.github.io/.

Skill-3D: Weiterentwicklung szenenbewusster Fähigkeiten für agentisches 3D-Raumdenken
Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning

Jun 5

ByHaoyuan Li, Zhengdong Hu, Jun Wang, Hehe Fan, Yi Yang

Diese Arbeit untersucht agentisches 3D-Raumverständnis, d.h. MLLM-Agenten, die durch Werkzeuggebrauch 3D-Schlussfolgerungen durchführen. Bestehende Methoden nutzen Werkzeuge häufig falsch und zeigen in 3D-Szenarien verzerrte Werkzeugpräferenzen, sodass das agentische Paradigma nur marginale Verbesserungen gegenüber nicht-agentischen Strategien erzielt. Wir zeigen, dass 3D-Raumverständnisaufgaben szenenübergreifend heterogen sind, während diese Agenten eine einheitliche Werkzeugnutzungsstrategie auf alle Szenen anwenden, anstatt Werkzeuge gemäß der spezifischen Szene und Aufgabe auszuwählen. Um dies zu adressieren, schlagen wir Skill-3D vor, ein Framework, das selbstentwickelnde, szenenbewusste Fähigkeiten (Skills) erlernt. Konkret identifiziert Skill-3D die Aufgabenszene und zeichnet die Werkzeugnutzungstrajektorie des Agenten in einem Szenenspeicher (Scene Memory) auf. Dabei werden erfolgreiche Trajektorien aus ähnlichen Szenen aggregiert und in einen wiederverwendbaren, szenenbewussten Skill destilliert, während fehlgeschlagene Trajektorien als Lehren (Lessons) an den Skill angehängt werden. Während des Trainings wird, sobald eine ähnliche Szene erneut auftritt, der entsprechende Skill injiziert, um den Agenten zu leiten, wodurch neue Trajektorien entstehen, deren Erfolge und Misserfolge den Skill weiter verfeinern. Dies bildet eine Schleife, in der sich der Speicher und die Skill-Bibliothek gemeinsam weiterentwickeln. Experimente zeigen, dass Skill-3D die Werkzeugnutzung bei 3D-Raumverständnis erheblich verbessert (von 39 % auf 78 % auf VSI-Bench), was den Agenten zu korrektem und ausreichendem Werkzeuggebrauch führt. Beispielsweise verbessert es Gemini-3-Flash um 67 % auf MMSI-Bench. Darüber hinaus führen wir ein agentisches Post-Training über Skill-gesteuerte Trajektorien durch, das Qwen3-VL-8B um 43 % auf VSI-Bench steigert.

Lean4Agent: Formale Modellierung und Verifikation für Agenten-Workflow und -Trajektorie
Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

Jun 2

ByRuida Wang, Jerry Huang, Pengcheng Wang, Xuanqing Liu, Luyang Kong, Tong Zhang

Die Ausstattung großer Sprachmodelle (Large Language Models, LLMs) mit der Fähigkeit, zuverlässige mehrschrittige Arbeitsabläufe auszuführen, ist zu einer zentralen Herausforderung in der künstlichen Intelligenz geworden. Trotz jüngster Fortschritte bei den agentischen Fähigkeiten von LLMs fehlt den meisten Agentensystemen nach wie vor eine formale Methode zur Spezifikation, Verifikation und Fehlersuche ihrer Arbeitsabläufe und Ausführungspfade. Diese Herausforderung spiegelt ein seit langem bestehendes Problem in der Mathematik wider, bei dem die Mehrdeutigkeit natürlicher Sprachen (Natural Languages, NLs) die Entwicklung formaler Sprachen (Formal Languages, FLs) motiviert. Inspiriert von diesem Paradigma schlagen wir **Lean4Agent** vor – nach unserem Kenntnisstand das erste Framework, das Lean4, eine abhängig typisierte formale Sprache, zur Modellierung und Verifikation von Agentenverhalten einsetzt. **Lean4Agent** führt **FormalAgentLib** ein, eine erweiterbare Lean4-Bibliothek zur formalen Modellierung und Verifikation der semantischen Konsistenz von Agentenabläufen unter expliziten Annahmen, sowie zur Lokalisierung von zur Laufzeit aufgetretenen Fehlern, die durch Ablaufverfolgungen sichtbar werden. Aufbauend auf **FormalAgentLib** entwickeln wir **LeanEvolve**, das die Ergebnisse von **FormalAgentLib** nutzt, um Arbeitsabläufe zu überarbeiten und so ihre Leistungsfähigkeit zu steigern. Umfangreiche Experimente mit einer schwierigen Problemauswahl aus SWE-Bench-Verified sowie einer Auswahl aus ELAIP-Bench mit fünf führenden LLMs zeigen, dass die verifikationsbestandenen Arbeitsabläufe die fehlgeschlagenen im Durchschnitt um **11,94 %** übertreffen, und **LeanEvolve** die SWE-Leistung um durchschnittlich **7,47 %** weiter verbessert. Darüber hinaus legt **Lean4Agent** den Grundstein für ein neues Forschungsfeld, das ausdrucksstarke, abhängig typisierte formale Sprachen zur formalen Modellierung und Verifikation von Agentenverhalten nutzt.

Pruning und Destillation von Mixture-of-Experts in dichte Sprachmodelle
Pruning and Distilling Mixture-of-Experts into Dense Language Models

May 27

ByJunhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho

Die Experten-Mischung (Mixture-of-Experts, MoE) ist heute die dominierende Architektur für führende Sprachmodelle, erfordert jedoch, dass alle Expertenparameter im Speicher geladen werden, was sie für den speicherbeschränkten Einsatz weniger geeignet macht. Bestehende Kompressionsmethoden reduzieren die Anzahl der Experten, aber das Ergebnis bleibt ein MoE-Modell mit derselben grundlegenden Einschränkung. Wir stellen den ersten systematischen Rahmen für die Umwandlung eines trainierten MoE in eine standardmäßige, vollständig dichte Architektur vor: Experten werden bewertet, ausgewählt und gruppiert, dann zu einem dichten FFN verkettet und durch Wissensdestillation vom MoE-Lehrer verfeinert. Wir evaluieren 7 Bewertungs-, 5 Gruppierungs- und 2 Größenskalierungsmethoden über eine Reihe ausgewählter Expertenanzahlen auf Qwen3-30B-A3B und erhalten 350 Konfigurationen. Wir stellen fest, dass die Wahl der Bewertungsmethode den größten Einfluss hat, wobei unsere neuartige diversitätsbewusste Bewertung durchweg besser abschneidet als frühere Methoden auf Qwen3-30B-A3B, DeepSeek-V2-Lite und GPT-OSS-20B. Unter kontrolliertem Vergleich bei übereinstimmender Parameterzahl übertrifft die MoE-zu-Dicht-Umwandlung die dicht-zu-dicht-Bereinigung (Pruning) um +6,3 Prozentpunkte in der durchschnittlichen Genauigkeit nachgelagerter Aufgaben nach etwa 4 Milliarden Token Destillation bei 1,6-fach höherer Trainings-Wanduhrgeschwindigkeit.

Ehrliches Lügen: Verständnis der Erinnerungskonfabulation in reflexiven Agenten
Honest Lying: Understanding Memory Confabulation in Reflexive Agents

May 31

ByPrakhar Dixit, Sadia Kamal, Tim Oates

Reflexion-artige Agenten verlassen sich auf selbstgenerierte Reflexionen als Gedächtnis und nehmen dabei implizit an, dass Agenten ihre eigenen Fehler genau diagnostizieren können. Wir zeigen, dass diese Annahme systematisch scheitern kann: Sowohl in ALFWorld als auch in HumanEval speichern Agenten selbstbewusste, aber falsche Interpretationen der Aufgabe und handeln weiterhin auf deren Grundlage über mehrere Versuche hinweg, obwohl die Umgebung sich jedes Mal auf die korrekte Aufgabe zurücksetzt. Wir bezeichnen diese Fehlerform als Gedächtniskonfabulation und führen die Reflexionswiederholungsrate (RRR) ein, eine protokollbasierte Metrik, die wiederholte Abhängigkeit von falschem reflexiven Inhalt erkennt. Mithilfe der RRR identifizieren wir 16 eingefrorene Umgebungen in ALFWorld, in denen 0 von 121 Reflexionen das korrekte Zielobjekt erwähnen, sowie 4 analoge Fälle in HumanEval. Unsere Abhilfe ersetzt die offene Selbstdiagnose durch eine programmatische Extraktion von Trajektorien-Fehlersignalen, erhöht die korrekte Objekterwähnung von 0% auf 86%, senkt die RRR von 0,64 auf 0,10 und löst 3 der 16 eingefrorenen ALFWorld-Umgebungen, was darauf hindeutet, dass reflexives Gedächtnis falsche Überzeugungen eher verstärken als korrigieren kann.

Set-basierter Transformer für die Atmosphärenkompensation in der Standoff-LWIR-Hyperspektralbildgebung
Set-Based Transformer for Atmospheric Compensation in Standoff LWIR Hyperspectral Imaging

Jun 6

ByFabian Perez, Nicolas Quintero, Jeferson Acevedo, Hoover Rueda-Chacon

Passive hyperspektrale Bildgebung im langwelligen Infrarot (LWIR) unter einer Standoff-Geometrie hängt von atmosphärischer Absorption und Emission sowie von reflektierter Strahldichte ab, wodurch die atmosphärische Kompensation unerlässlich wird, um Kenntnisse über ein Zielobjekt zu erlangen. Trotz ihrer Bedeutung wurde diese Kompensation aufgrund ihrer praktischen und modellierungstechnischen Schwierigkeit weitgehend vernachlässigt. In dieser Arbeit stellen wir ein leichtgewichtiges, mengenbasiertes Deep-Learning-Framework vor, das mehrere Strahldichtemessungen, die in verschiedenen Standoff-Entfernungen erfasst wurden, als Eingabe nimmt und gemeinsam die Transmission, die atmosphärische Pfadstrahldichte und ein gemeinsames Downwelling-Spektrum schätzt. Wir analysieren die gelernte Repräsentation mit einem sparse Autoencoder und stellen fest, dass mehrere latente Merkmale auf geografisch kohärenten Teilmengen der Testdaten aktiviert werden, obwohl keine Standortüberwachung vorliegt. Experimente auf einem mit MODTRAN generierten Standoff-LWIR-Datensatz zeigen eine geringe spektrale Verzerrung über alle geschätzten Produkte hinweg. Der Datensatz und der Code sind öffentlich verfügbar unter: https://factral.co/SAE-LWIR/

CIPER: Ein einheitlicher Rahmen für den Cross-View-Bildabruf und die Pose-Schätzung
CIPER: A Unified Framework for Cross-view Image-retrieval and Pose-estimation

Jun 3

ByYurim Jeon, Dongseong Seo, Seung-Woo Seo

Cross-View-Geolokalisierung schätzt die geografische Position eines Bodenbildes durch Abgleich mit einer Luftbilddatenbank. Bestehende Methoden lösen dies entweder durch großflächige Suche oder präzise Posenbestimmung, jedoch nicht durch beides: suchbasierte Methoden ermöglichen eine flächendeckende Suche auf Kosten der Lokalisierungsgenauigkeit, während Methoden zur Posenbestimmung nur in einem eingeschränkten Suchraum hohe Präzision erreichen. Ein naives Hintereinanderschalten dieser Pipelines führt zu Fehlerfortpflanzung und inkonsistenten Merkmalsdarstellungen. Wir formulieren Cross-View-Geolokalisierung als einheitliches Problem, das gleichzeitige stadtweite Suche und präzise 3-DoF-Posenbestimmung erfordert. Wir schlagen CIPER (Cross-view Image-retrieval and Pose-estimation transformER) vor, eine einzelne Architektur, die beide Aufgaben durch gegenseitig vorteilhaftes Merkmalslernen gemeinsam ausführt. CIPER verwendet einen gemeinsamen Transformer-Encoder mit aufgabenspezifischen Tokens, um globale Suchmerkmale von räumlichen Lokalisierungshinweisen zu trennen. Um die große Domänenlücke zwischen Boden- und Luftaufnahmen zu überbrücken, führen wir einen bidirektionalen Transformer-Pose-Decoder ein, der Bodenmerkmale als räumliche Abfragen für bidirektionale Kreuzattention nutzt. Eine Set-Vorhersagestrategie ermöglicht zudem eine stabile 3-DoF-Regression unter einem einheitlichen Multi-Task-Ziel. Experimente auf VIGOR, KITTI und Ford Multi-AV zeigen wettbewerbsfähige Leistung, insbesondere bei eingeschränktem Sichtfeld und beliebigen Ausrichtungsbedingungen. Der Code ist verfügbar unter https://github.com/yurimjeon1892/CIPER.

Präzision ist nicht Treue: Abdeckungsbewusste Evaluierung von fundierter Generierung mit einem vollständigen Orakel
Precision Is Not Faithfulness: Coverage-Aware Evaluation of Grounded Generation with a Complete Oracle

Jun 8

ByJuan S. Santillana

Referenzfreie Treue-Metriken überprüfen jede atomare Behauptung eines Modells anhand der Grundwahrheit und werden zunehmend zur Bewertung von grundierter Generation eingesetzt. Wir zeigen, dass sie einen blinden Fleck teilen: Sie messen nur die Präzision – werden die genannten Behauptungen gestützt? – und belohnen daher Enthaltung, da ein Modell nahezu perfekte Treue erzielen kann, indem es fast nichts sagt. Wir machen dies messbar mittels Formel-1-Telemetrie, einem Bereich, in dem strategische Grundwahrheiten deterministisch und, entscheidend, vollständig abgeleitet werden: Für jede Entscheidung kennen wir die vollständige Menge der relevanten Fakten. Diese Vollständigkeit – die in Open-Domain-Treue-Benchmarks fehlt – erlaubt es uns, den Recall (Abdeckung der relevanten Fakten) exakt sowie die Präzision zu messen. In einem mehrsprachigen (EN/ES/PT) Benchmark mit 7.253 Entscheidungsinstanzen aus 150 Rennen deckt das präziseste Frontier-Modell weniger als die Hälfte der relevanten Fakten ab und belegt nach F1 den letzten Platz, sodass die Anforderung von Abdeckung die Systeme neu ordnet; derselbe Effekt zeigt sich in einem zweiten Bereich mit vollständigem Oracle (NOAA-Wettervorhersagen). Eine Prompt-Ablation zeigt, dass die geringe Abdeckung kein Artefakt unzureichenden Promptings ist: Die explizite Aufforderung an Modelle, gründlich zu sein, schließt die Lücke nicht. Wir kombinieren Treue und Abdeckung zu einem einzigen Score, validieren die Metrik (kontrollierte Perturbation; Übereinstimmung zwischen einem modellfreien Regex-Extraktor und einem familienübergreifenden LLM-Extraktor, systemweiter Spearman 1.0) und präsentieren eine verifikatorgesteuerte Generierungsmethode, die Präzision und Recall ohne Referenzen verbessert. Wir veröffentlichen den Benchmark, strukturierte Annotationen, die Metrik, Baseline-Methoden und eine interaktive Demo.

Grammatikbasiertes Denken: Können synthetische linguistische Denkspuren die ressourcenarme maschinelle Übersetzung verbessern?
Reasoning over Grammar: Can Synthetic Linguistic Reasoning Traces Enhance Low-Resource Machine Translation?

Jun 2

ByRenhao Pei, Yihong Liu, Sampo Pyysalo, Hinrich Schütze, Shaoxiong Ji

Große Sprachmodelle (Large Language Models, LLMs) bieten einen vielversprechenden Ansatz für die maschinelle Übersetzung (Machine Translation, MT) extrem ressourcenarmer Sprachen, indem sie linguistische Ressourcen durch kontextuelles Lernen (In-Context Learning) einbeziehen. Allerdings fällt es LLMs oft schwer, grammatikalische Informationen während der Übersetzung effektiv anzuwenden. Inspiriert von jüngsten Fortschritten im Bereich des Ketten-Denkens (Chain-of-Thought Reasoning) untersuchen wir, ob die ressourcenarme MT von strukturierten Zwischenschritten der linguistischen Analyse und des grammatikalischen Denkens profitieren kann. Wir schlagen eine Pipeline vor, die schrittweise linguistische Denkspuren automatisch aus Universal-Dependencies-Baumbanken, Wörterbüchern und Grammatikregelbanken generiert. Wir evaluieren diese Spuren in drei Umgebungen: kontextuelles Lernen (ICL), überwachtes Feintuning (SFT) und verstärkendes Feintuning (RFT), wobei Xibe und Chintang als Testfälle dienen. Unsere Ergebnisse zeigen, dass linguistische Denkspuren am effektivsten als Leitfaden während der Inferenz wirken: Bei ICL verbessern zuverlässige satzspezifische Spuren die Übersetzungsleistung in den meisten Modellen, Sprachen und Metriken erheblich. Im Gegensatz dazu führen linguistische Denkspuren als Trainingsdaten zu geringeren und weniger konsistenten Verbesserungen, da die Modelle das Format der Spuren lernen, aber oft fehlerhafte Inhalte generieren. Diese Ergebnisse legen nahe, dass LLMs grammatikalische Informationen für die ressourcenarme MT nutzen können, wenn zuverlässige linguistische Analysen vorliegen, während das Erlernen der Erzeugung solcher Analysen weiterhin ein wesentlicher Engpass bleibt.

PIPE-Cypher: Automatische Generierung von Enterprise-Benchmarks für Text-to-Cypher-Systeme
PIPE-Cypher: Automatic Enterprise Benchmark Generation for Text-to-Cypher Systems

Jun 7

BySuraj Ranganath, Anish Raghavendra

Unternehmenseigenschaftsgraphen unterscheiden sich erheblich in ihrer Schemastruktur, internen Terminologie, Domänenannahmen, Governance-Einschränkungen und Benutzerinteraktionsmustern. Ein einsatzrelevanter Text2Cypher-Benchmark spiegelt daher die Fragen wider, die Benutzer und Agenten tatsächlich an diesen Graphen stellen. Die Erstellung eines solchen Benchmarks ist schwierig, da Schemata und Werte einzigartig sind und sich die Graphstruktur im Laufe der Zeit ändert. Jedes NL-Abfrage-Paar muss zudem ausführbar sein, reale Graphenentitäten verwenden, Diversität bewahren und über Abfragetypen und Schwierigkeitsgrade hinweg ausgewogen bleiben. Wir stellen PIPE-Cypher vor, eine lokale Benchmark-Erstellungspipeline, die einen Live-Eigenschaftsgraphen und optionale Startabfragen aus Kundenfragen, Analystenlogs oder Agenten-Toolaufrufen in ausgewogene NL-zu-Cypher-Benchmarks umwandelt. PIPE-Cypher kombiniert Schema-Profiling, Reverse-Query-Grounding, eingeschränkte Generierung, deterministische Cypher-Governance, Ausführungsvalidierung, Schwärzung, Diversitätskontrollen und einen kalibrierten lokalen LLM-Richter. Mit lokaler Qwen3.5-9B-Generierung und -Bewertung exportiert PIPE-Cypher 3.000 akzeptierte FinBench/SNB-Beispiele, führt drei geprüfte Ablationsstudien durch, kalibriert das Richterverhalten mit menschlichen Labels und bewertet 11 lokale Downstream-Modelle. Der resultierende Benchmark ist bewusst diskriminierend: Zero-Shot-Transfer ist schwach, während eine Few-Shot-Kontrolle zeigt, dass schemaspezifische Beispielsammlungen kompatiblen Modellfamilien helfen können. Insgesamt macht PIPE-Cypher das Text2Cypher-Benchmarking zu einem wiederholbaren Prozess, der sich mit dem Graphen, seinen Benutzern und seinen Zielworkloads weiterentwickelt.

EMMA: Extraktion mehrerer physikalischer Parameter aus multimodalen Daten
EMMA: Extracting Multiple physical parameters from Multimodal Data

May 21

ByFarhat Shaikh, Ayan Banerjee, Sandeep Gupta

Wir stellen EMMA vor, ein physik-informiertes multimodales Framework, das alle identifizierbaren dynamischen Parameter eines Systems direkt aus rohen Video-, Audio- und bildbasierten Zeitreihenbeobachtungen rekonstruiert. Im Gegensatz zu früheren rein videobasierten Ansätzen, die mit verdeckten Zuständen, verborgenen Aktuatoreingaben oder Annahmen über bekannte Anfangsbedingungen und Koordinatensysteme kämpfen, führt EMMA eine gemeinsame Inferenz expliziter Parameter, impliziter dynamischer Komponenten und Kalibrierungsinvarianzen innerhalb eines einheitlichen kontinuierlichen Zeitmodells durch. EMMA nutzt ein Liquid Time-Constant (LTC)-Netzwerk, um latente Dynamiken aus heterogenen Modalitäten zu lernen, während ein physik-constrainierter Verlust die Konsistenz mit den zugrundeliegenden Differentialgleichungen erzwingt. Eine einheitliche Feature-Pipeline ermöglicht eine konsistente Ausrichtung über Videotrajektorien, akustische Signaturen und diagrammbasierte Messungen hinweg, sodass EMMA Parameter unter erzwungenen, impliziten und multivariaten Dynamiken schätzen kann, ohne Segmentierungsmasken, differenzierbares Rendering oder spezialisierte Sensoren zu benötigen. Über mehr als 100 Szenarien hinweg, darunter fünf standardmäßige dynamische Benchmarks (75 Delfys-Videos), reale Rover- und Quadrotorsysteme mit verborgenen Eingaben sowie Simulations-Diagramm-Fallstudien zu biologischen und chaotischen Systemen, liefert EMMA eine robuste Multi-Parameter-Rekonstruktion und übertrifft bestehende Einzelmodalitäts- und Gleichungsentdeckungs-Baselines deutlich. Unsere Ergebnisse etablieren EMMA als eine allgemeine, skalierbare Lösung für physik-konsistente Modellextraktion aus opportunistischen multimodalen Daten. Code und Daten sind verfügbar unter: https://github.com/ImpactLabASU/EMMA-CVPR2026