HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

53 papers found

Audio-interactiemodel
Audio Interaction Model

Jun 3

ByZhifei Xie, Zihang Liu, Ze An, Xiaobin Hu, Yue Liao, Ziyang Ma, Dongchao Yang, Mingbao Lin, Deheng Ye, Shuicheng Yan, Chunyan Miao

Audio is een inherent interactieve modaliteit, maar de huidige Large Audio Language Models (LALMs) zijn offline en streaming audiomodellen voeren elk slechts één taak uit, zoals streaming ASR of voice-chat. Het is tijd om ze te verenigen in één online LALM: een model dat via een continu actieve waarneming-beslissing-responslus in realtime naar geluid, omgeving en instructies luistert en onmiddellijk reageert. We formaliseren dit regime als het Audio Interaction Model en realiseren het met Audio-Interaction, een uniform streamingmodel dat offline taakuitvoering behoudt en tegelijkertijd online algemene audio-instructie-opvolging toevoegt, van dialoog tot volledige voice-chat, waarbij wordt besloten wanneer te reageren op basis van de semantiek van de stream. Om dit mogelijk te maken, stellen we SoundFlow voor, een framework dat de waarneming-beslissing-responslus van begin tot eind implementeert, van data tot training tot implementatie, via streaming-native dataconstructie, begripsbewuste training en asynchrone lage-latentie-inferentie voor stabiele realtime-interactie. We construeren verder StreamAudio-2M, een streamingcorpus van 2,6 miljoen items dat 7 fundamentele vaardigheden en 28 deeltaken omvat, en Proactive-Sound-Bench voor het evalueren van proactieve audio-interventie. Over 8 benchmarks behoudt Audio-Interaction concurrerende prestaties op reguliere audiotaken, terwijl het mogelijkheden ontsluit die ontoegankelijk zijn voor offline LALMs, waaronder realtime ASR, streaming audio-instructie-opvolging en proactieve hulp.

Cosmos 3: Omnimodale Wereldmodellen voor Fysieke AI
Cosmos 3: Omnimodal World Models for Physical AI

Jun 1

ByAditi, Niket Agarwal, Arslan Ali, Jon Allen, Martin Antolini, Adeline Aubame, Alisson Azzolini, Junjie Bai, Maciej Bala, Yogesh Balaji, Josh Bapst, Aarti Basant, Mukesh Beladiya, Mohammad Qazim Bhat, Zaid Pervaiz Bhat, Dan Blick, Vanni Brighella, Han Cai, Tiffany Cai, Eric Cameracci, Jiaxin Cao, Yulong Cao, Mark Carlson, Carlos Casanova, Ting-Yun Chang, Yan Chang, Yu-Wei Chao, Prithvijit Chattopadhyay, Roshan Chaudhari, Chieh-Yun Chen, Junyu Chen, Ke Chen, Qizhi Chen, Wenkai Chen, Xiaotong Chen, Yu Chen, An-Chieh Cheng, Click Cheng, Xiu Chia, Jeana Choi, Chaeyeon Chung, Wenyan Cong, Yin Cui, Magdalena Dadela, Nalin Dadhich, Wenliang Dai, Joyjit Daw, Alperen Degirmenci, Rodrigo Vieira Del Monte, Robert Denomme, Sameer Dharur, Marco Di Lucca, Ke Ding, Wenhao Ding, Yifan Ding, Yuzhu Dong, Nicole Drumheller, Yilun Du, Aigul Dzhumamuratova, Aleksandr Efitorov, Hamid Eghbalzadeh, Naomi Eigbe, Imad El Hanafi, Hassan Eslami, Benedikt Falk, Jiaojiao Fan, Jim Fan, Amol Fasale, Sergiy Fefilatyev, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Vikram Fugro, Prashant Gaikwad, TJ Galda, Katelyn Gao, Yihuai Gao, Wenhang Ge, Sreyan Ghosh, Arushi Goel, Vivek Goel, Akash Gokul, Rama Govindaraju, Jinwei Gu, Miguel Guerrero, Elfie Guo, Aryaman Gupta, Siddharth Gururani, Hugo Hadfield, Song Han, Ankur Handa, Zekun Hao, Mohammad Harrim, Ali Hassani, Nathan Hayes-Roth, Yufan He, Chris Helvig, Cyrus Hogg, Madison Huang, Michael Huang, Sophia Huang, Yufan Huang, Jacob Huffman, DeLesley Hutchins, Suneel Indupuru, Boris Ivanovic, Arihant Jain, Joel Jang, Ryan Ji, Yanan Jian, Dongfu Jiang, Jingyi Jin, Atharva Joshi, Nikhilesh Joshi, Pranjali Joshi, Jaehun Jung, Weiwei Kang, Scott Kassekert, Jan Kautz, Ashna Khetan, Julia Kiczka, Slawek Kierat, Gwanghyun Kim, Kuno Kim, Sunny Kim, Kezhi Kong, Xin Kong, Zhifeng Kong, Tomasz Kornuta, Egor Krivov, Hui Kuang, Saurav Kumar, Chia-Wen Kuo, George Kurian, Wojciech Kutak, JF Lafleche, Himangshu Lahkar, Omar Laymoun, Jayjun Lee, Sanggil Lee, Gabriele Leone, Boyi Li, Freya Li, Jiajun Li, Jinfeng Li, Ling Li, Pengcheng Li, Shangru Li, Tingle Li, Xiaolong Li, Xuan Li, Zhaoshuo Li, Zhiqi Li, Hao Liang, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Ming-Yu Liu, Sifei Liu, Zihan Liu, Hai Loc Lu, Xiangyu Lu, Alice Luo, Ruipu Luo, Wenjie Luo, Jiangran Lyu, Martin Ding Ma, Nic Ma, Qianli Ma, Dawid Majchrowski, Louis Marcoux, Miguel Martin, Qing Miao, Ashkan Mirzaei, Shreyas Misra, Kaichun Mo, Durra Mohsin, Hyejin Moon, Pawel Morkisz, Saeid Motiian, Kirill Motkov, Seungjun Nah, Yashraj Narang, Deepak Narayanan, Thabang Ngazimbi, Julian Ouyang, David Page, Yatian Pang, Sehwi Park, Mahesh Patekar, Mostofa Patwary, Marco Pavone, Trung Pham, Wei Ping, Soha Pouya, Shrimai Prabhumoye, Varun Praveen, Delin Qu, Hesam Rabeti, Morteza Ramezanali, Marilyn Reeb, Xuanchi Ren, Kristen Rumley, Wojciech Rymer, Jun Saito, Yeongho Seol, John Shao, Piyush Shekdar, Tianwei Shen, Humphrey Shi, Min Shi, Stella Shi, Kevin Shih, Mohammad Shoeybi, Mateusz Sieniawski, Shuran Song, Alexander Sotelo, Amir Sotoodeh, Sunil Srinivasa, Vignesh Srinivasakumar, Bartosz Stefaniak, Rahul Heinrich Steiger, Shangkun Sun, Jiaxiang Tang, Shitao Tang, Yangyang Tang, Yue Tang, Tolou Tavakkoli, Kayley Ting, Krzysztof Tomala, Wei-Cheng Tseng, Jibin Varghese, Sergei Vasilev, Thomas Volk, Raju Wagwani, Roger Waleffe, Andrew Z. Wang, Boxiang Wang, Haoxiang Wang, Qiao Wang, Shihao Wang, Shijie Wang, Ting-Chun Wang, Yan Wang, Yu Wang, David Wehr, Fangyin Wei, Xinshuo Weng, Jay Zhangjie Wu, Kedi Wu, Hongchi Xia, Summer Xiao, Tianjun Xiao, Kevin Xie, Daguang Xu, Jiashu Xu, Mengyao Xu, Ruqing Xu, Xingqian Xu, Yao Xu, Dinghao Yang, Dong Yang, Hans Yang, Xiaodong Yang, Xuning Yang, Yichu Yang, Yurong You, Zhiding Yu, Hao Yuan, Simon Yuen, Xiaohui Zeng, Pengcuo Zeren, Cindy Zha, Haotian Zhang, Jenny Zhang, Jing Zhang, Liangkai Zhang, Paris Zhang, Shun Zhang, Xuanmeng Zhang, Zhizheng Zhang, Ann Zhao, Yilin Zhao, Yuliya Zhautouskaya, Charles Zhou, Fengzhe Zhou, Shilin Zhu, Yuke Zhu, Dima Zhylko, Artur Zolkowski

We introduceren Cosmos 3, een familie van omnimodale wereldmodellen die zijn ontworpen om gezamenlijk taal-, beeld-, video-, audio- en actiereeksen te verwerken en te genereren binnen een uniforme mixture-of-transformers architectuur. Door zeer flexibele input-outputconfiguraties te ondersteunen, verenigt Cosmos 3 naadloos cruciale modaliteiten voor Fysieke AI – waarbij visie-taalmodellen, videogeneratoren, wereldsimulatoren en wereld-actiemodellen effectief worden samengebracht in één raamwerk. Onze evaluatie toont aan dat Cosmos 3 een nieuwe state-of-the-art vestigt voor een breed scala aan begrips- en generatietaken, waarmee omnimodale wereldmodellen als schaalbare, algemene backbones voor belichaamde agenten worden bewezen. Onze na-getrainde Cosmos 3-modellen werden ten tijde van het schrijven van het technisch rapport door Artificial Analysis gerangschikt als de beste open-source Tekst-naar-Afbeelding- en Afbeelding-naar-Video-modellen, en door RoboArena als het beste beleidsmodel. Om open onderzoek en implementatie in Fysieke AI te versnellen, stellen we onze code, modelcheckpoints, samengestelde synthetische datasets en evaluatiebenchmark beschikbaar onder de OpenMDW-1.1-licentie van de Linux Foundation (https://openmdw.ai/license/1-1/) op https://github.com/nvidia/cosmos en https://huggingface.co/collections/nvidia/cosmos3. De projectwebsite is te vinden op https://research.nvidia.com/labs/cosmos-lab/cosmos3.

Waar falen diepgaande onderzoeksagenten? Foutlokalisatie op fragmentniveau in agenttrajecten
Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories

Jun 1

ByJiaming Wang, Ziteng Feng, Jiangtao Wu, Ruihao Li, Qianqian Xie, Yuxiang Ren, He Zhu, Xueming Han, Fanyu Meng, Junlan Feng, Jiaheng Liu

Diepgaande onderzoeksagenten lossen taken op door middel van lange trajecten van zoekopdrachten, toolgebruik, bewijsinspectie en antwoordsynthese. Evaluatie op basis van eindantwoorden toont of een agent slaagt, maar niet welke delen van het traject het antwoord onbetrouwbaar maken. We bestuderen foutlocalisatie op spanniveau voor diepgaande onderzoeksagenten. We verzamelen 2.790 echte trajecten van twee agentframeworks, drie backbone-modellen en drie benchmarks, converteren ruwe logs naar semantische spannen en annoteren schadelijke foutspannen via LLM-ondersteunde expertbeoordeling. Op basis van deze annotaties bouwen we TELBench, een benchmark met 1.000 instanties voor het identificeren van foutspannen te midden van normale verkenning, mislukte zoekopdrachten, voorlopige hypothesen en onschadelijke ruis. We stellen verder DRIFT voor, een claim-gecentreerd auditframework dat agentclaims volgt, hun ondersteuning in trajectbewijs controleert en spannen markeert waar niet-ondersteunde of tegenstrijdige claims het antwoordpad beïnvloeden. Experimenten over modelfamilies en auditframeworks heen tonen aan dat DRIFT de foutlocalisatie op spanniveau en de nauwkeurigheid van de eerste fout met maximaal 30 procentpunten verbetert. Ons werk biedt een procesniveauvisie op betrouwbaarheid in diepgaande onderzoeksagenten.

Reproductie, Analyse en Detectie van Reward Hacking in Rubriek-Gebaseerd Reinforcement Learning
Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

Jun 3

ByXuekang Wang, Zhuoyuan Hao, Shuo Hou, Hao Peng, Juanzi Li, Xiaozhi Wang

Op rubriek gebaseerd versterkend leren (RL) maakt gebruik van een LLM-als-rechter (LaaJ) om modeluitvoeringen te scoren volgens rubrieken als beloningen. Beleidsmodellen kunnen echter latente vooroordelen in de rechter exploiteren, wat leidt tot beloningsmisbruik en ineffectieve of onveilige trainingsresultaten. In real-world op rubriek gebaseerd RL zijn dergelijke misbruikgedragingen vaak subtiel en verweven met meerdere rechter-vooroordelen, waardoor ze moeilijk te analyseren, detecteren en mitigeren zijn. In dit artikel introduceren we CHERRL, een controleerbare misbruikomgeving voor op rubriek gebaseerd RL. Door bekende vooroordelen in LaaJ te injecteren, maakt CHERRL een stabiele reproductie van beloningsmisbruik, expliciete observatie van beloningsdivergentie en precieze identificatie van het begin van misbruik mogelijk. Dit biedt een schoon experimenteel testbed voor het bestuderen van de mechanismen en mitigaties van beloningsmisbruik in op rubriek gebaseerd RL. Om de bruikbaarheid ervan te demonstreren, analyseren we verschillende rechter-vooroordelen vanuit het perspectief van vindbaarheid en exploiteerbaarheid, en verkennen we een op agenten gebaseerd systeem voor het automatisch detecteren van het begin van beloningsmisbruik op basis van trainingslogs. De code en omgeving zijn openbaar beschikbaar op https://github.com/THUAIS-Lab/CHERRL.

Qwen-Image-Flash: Voorbij Objectief Ontwerp
Qwen-Image-Flash: Beyond Objective Design

Jun 2

ByTianhe Wu, Kun Yan, Zikai Zhou, Lihan Jiang, Jiahao Li, Jie Zhang, Kaiyuan Gao, Ningyuan Tang, Shengming Yin, Xiaoyue Chen, Xiao Xu, Yilei Chen, Yuxiang Chen, Yan Shu, Yixian Xu, Yanran Zhang, Zihao Liu, Zhendong Wang, Zekai Zhang, Deqing Li, Liang Peng, Yi Wang, Jingren Zhou, Chenfei Wu

Weinig-stapsdestillatie is een effectieve strategie geworden voor het versnellen van geavanceerde visuele generatieve modellen, maar eerder werk heeft zich grotendeels gericht op distillatiedoelstellingen. In dit werk herzien we weinig-stapsdestillatie vanuit een complementair perspectief, waarbij we ons richten op het trainingsrecept dat de prestaties van de student kritisch beïnvloedt. Met Qwen-Image-2.0 als representatief geval onderzoeken we systematisch drie factoren in de destillatie van geünificeerde tekst-naar-beeldgeneratie en instructiegestuurde beeldbewerking: data-samenstelling, leraarbegeleiding en taakmix. Onze empirische analyse onthult verschillende niet voor de hand liggende gedragingen, die de ontwikkeling van Qwen-Image-Flash motiveren. Over het algemeen suggereren onze resultaten dat effectieve weinig-stapsdestillatie niet alleen zorgvuldig ontworpen doelstellingen vereist, maar ook een principiële organisatie van de bredere trainingspijplijn.

OVO-S-Bench: Een hiërarchische benchmark voor streaming ruimtelijke intelligentie in multimodale LLM's
OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs

Jun 2

ByYifei Li, Pengyiang Liu, Yuhang Zang, Zhongyue Shi, Qi Fu, Hongye Hao, Jiwen Lu

Multimodale agenten in robotica, augmented reality en autonoom rijden moeten redeneren over plaatsen en indelingen op basis van continue egocentrische stromen, waarbij ze vaak gebruikmaken van bewijs buiten het huidige blikveld. Bestaande benchmarks evalueren ofwel offline over volledige video's ofwel richten zich op gebeurtenissen in plaats van ruimtelijke structuur. We introduceren OVO-S-Bench, een volledig door mensen geannoteerde benchmark voor streaming ruimtelijke intelligentie, bestaande uit 1.680 vragen over 348 bronvideo's. De annotatie omvat 12 getrainde annotators, die elk ook dienen als blinde beoordelaar, verspreid over ongeveer 804 persoonsuren aan kwaliteitsborging in meerdere rondes. Elke vraag draagt een querytijdstip en een bewijsinterval, en bij evaluatie ziet het model alleen het voorvoegsel dat aan de query voorafgaat. De vragen bestrijken vier niveaus van toenemende abstractie: momentane egocentrische perceptie, spatiotemporele contextvolgorde, ruimtelijke simulatie en redenering, en allocentrische kartering. Over 38 propriëtaire en opensource-MLLM's heen presteert Gemini-3.1-Pro 27 punten onder menselijke experts, 59,2 vs. 86,6, waarbij allocentrische kartering de dominante bottleneck vormt. Opvallend is dat streaming en ruimtelijk fijn afgestemde MLLM's slechter presteren dan hun eigen basismodellen. Verder vinden we dat keten-van-gedachte-redenering ruimtelijke fouten versterkt wanneer deze niet in de stroom is geworteld. Door deze beperkingen bloot te leggen, creëert OVO-S-Bench een veeleisende testomgeving voor de volgende generatie streaming ruimtelijke MLLM's.

ThoughtFold: Het vouwen van redeneerketens via introspectief voorkeursleren
ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning

Jun 2

ByZiyan Liu, Xueda Shen, Yuzhe Gu, Songyang Gao, Kuikun Liu, Guangran Cheng, Chengqi Lyu, Dahua Lin, Wenwei Zhang, Kai Chen

Grote Redeneringsmodellen (LRMs) hebben opmerkelijke vooruitgang geboekt dankzij Versterkend Leren met Verifieerbare Beloningen (RLVR) op Denkketens (CoTs). Echter, aangezien lange CoTs van nature pogingen en fouten bevatten en gangbare RLVR-benaderingen voor memorisatie kiezen voor uitkomst-correcte CoT-trajecten, worden de redundante exploraties in lange CoTs onvermijdelijk versterkt, wat leidt tot overdenkingsproblemen van LRMs. Eerdere pogingen om dit probleem op te lossen geven kortere trajecten vooral een groter voordeel, maar hun leersignalen zijn nog steeds uitkomstgebaseerd en kunnen de memorisatie van redundante exploraties in lange CoTs niet verminderen. Daarom stellen we ThoughtFold voor, een raamwerk dat gebruikmaakt van fijnmazig voorkeursleren om redundante exploraties te beperken voor efficiënt redeneren. ThoughtFold hanteert een introspectieve strategie om redundantie binnen elk correct traject te identificeren, wat een spectrum van kandidaat-subtrajecten oplevert. Met behulp van dit spectrum introduceren we een gemaskeerd voorkeursoptimalisatiedoel dat redundante exploraties expliciet bestraft en het model aanmoedigt om essentiële redeneersegmenten direct te overbruggen, waardoor de redeneerketens effectief worden gevouwen tot een beknopter pad. Uitgebreide experimenten tonen aan dat ThoughtFold de efficiëntie aanzienlijk verbetert. Het vermindert het tokenverbruik van DeepSeek-R1-Distill-Qwen-7B met ongeveer 56% terwijl de state-of-the-art nauwkeurigheid behouden blijft.

M³Eval: Multimodale geheugenevaluatie via cognitief gegronde videotaken
M^3Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks

Jun 3

ByJie Huang, Ruixun Liu, Sirui Sun, Xinyi Yang, Yin Li, Yixin Zhu, Yiwu Zhong

Naarmate multimodale modellen zich ontwikkelen richting het begrijpen van lange video's, wordt geheugen een cruciale vaardigheid. Ondanks aanzienlijke inspanningen bij het ontwikkelen van videodatasets en benchmarks, richten bestaande werken zich voornamelijk op perceptie en redeneren, zonder systematisch het geheugen te evalueren: wat modellen onthouden, hoe getrouw informatie wordt bewaard en hoe robuust het geheugen blijft onder interferentie. Om deze leemte op te vullen, introduceren we M^3Eval, het eerste uitgebreide evaluatiekader en benchmark voor het onderzoeken van verschillende geheugendimensies in multimodale modellen. Geworteld in de cognitieve psychologie, kenmerkt ons ontwerp zich door zorgvuldig geconstrueerde taken die de belangrijkste aspecten van het geheugen isoleren. Door gebruik te maken van M^3Eval voeren we uitgebreide experimenten uit met representatieve multimodale modellen, wat consistente zwakheden en kenmerkend gedrag aan het licht brengt. We ontdekken dat modellen moeite hebben met het behouden van ontwarde representaties bij het verwerken van parallelle videostreams, interferentiepatronen vertonen die aanzienlijk verschillen van die waargenomen in menselijk geheugen, geheugenbronnen betrouwbaarder verankeren in het ruimtelijke domein dan in het temporele domein, en beperkt symbolisch geheugen tonen. Gezamenlijk biedt onze benchmark een waardevolle hulpbron voor toekomstig onderzoek, terwijl onze bevindingen geheugen benadrukken als een fundamentele maar onderbelichte vaardigheid en inzichten bieden voor het ontwerpen van effectievere geheugenmechanismen in multimodale modellen. Onze code en dataset zijn beschikbaar op https://pku-value-lab.github.io/m3eval-homepage.

Streaming communicatie in multi-agent redeneren
Streaming Communication in Multi-Agent Reasoning

Jun 3

ByZhen Yang, Xiaogang Xu, Wen Wang, Cong Chen, Xander Xu, Ying-Cong Chen

Multi-agent redeneersystemen hanteren een 'genereer-dan-transfereer'-paradigma, waardoor de end-to-end latentie lineair toeneemt met de diepte van de pijplijn. We introduceren StreamMA, een multi-agent redeneersysteem dat elke redeneerstap direct naar downstream-agenten streamt zodra deze wordt gegenereerd, waardoor aangrenzende agenten in een pijplijn worden geplaatst en de latentie wordt verminderd. Verrassend genoeg verbetert deze pijplijnwerking ook de effectiviteit: omdat de kwaliteit van meerstapsredeneringen niet uniform is en eerdere stappen betrouwbaarder zijn dan latere, voorkomt het werken met deze betrouwbare eerdere stappen in plaats van de volledige keten dat foutgevoelige latere stappen downstream-agenten misleiden. We formaliseren beide voordelen met de eerste gesloten-vorm gezamenlijke analyse van stream-, seriële en single-protocollen, waarbij we de effectiviteitsordening, snelheidswinstbovengrens en kostenratio afleiden. Over acht redeneerbenchmarks die wiskunde, wetenschap en code bestrijken, twee grensverleggende LLM's (Claude Opus 4.6 en GPT-5.4) en drie topologieën (Keten, Boom, Graaf) presteert StreamMA beter dan beide baselines (gem. +7,3 pp, max +22,4 pp op HMMT 2026; Claude Opus 4.6-high). Naast deze bijdragen ontdekken we een 'stapniveau schalingswet': het verhogen van het aantal stappen per agent verbetert consequent zowel effectiviteit als efficiëntie, een nieuwe schalingsdimensie die orthogonaal is aan en samenstelbaar is met schaling op basis van het aantal agenten.

Echo-Infinity: Leren van evoluerend geheugen voor real-time oneindige videogeneratie
Echo-Infinity: Learning Evolving Memory for Real-Time Infinite Video Generation

Jun 3

ByYuxuan Bian, Zeyue Xue, Songchun Zhang, Shiyi Zhang, Weiyang Jin, Yaowei Li, Junhao Zhuang, Haoran Li, Jie Huang, Haoyang Huang, Nan Duan, Qiang Xu

Wij presenteren Echo Infinity, een autoregressief (AR) raamwerk voor real-time oneindige videogeneratie dat gebruikmaakt van een leerbaar evoluerend geheugen om dynamisch elke lengte uit de geschiedenis te filteren, abstraheren en comprimeren tegen constante kosten. Bestaande methoden beheren het geheugen voornamelijk met vooraf gedefinieerde KV-cache-schema's, heuristische compressie met vaste verhouding, of RoPE-aanpassing tijdens de inferentie. Deze ontwerpen verliezen onvermijdelijk historische informatie en versterken cumulatieve fouten door hun beperkte cachevenster en het negeren van autoregressieve generatieruis. Geïnspireerd door menselijke geheugenconsolidatie vervangt Echo-Infinity handgemaakt geheugenbeheer door leerbare geheugenquery's, die worden bijgewerkt door aandacht en een poortmechanisme wanneer oude frames uit het lokale venster worden verwijderd. De query's worden end-to-end geoptimaliseerd met de video-diffusietransformatoren (DiT's), wat een evoluerend geheugen vormt dat willekeurige compressieverhoudingen ondersteunt met constante rekenkosten, onafhankelijk van de videolengte. Ze fungeren ook als een generaliseerbare generatieprior, waardoor de kwaliteit verbetert, zelfs wanneer alleen de geoptimaliseerde begintoestand wordt gebruikt. We introduceren verder een Unified Relative RoPE Recept, dat de sink-frames verankert om vanaf id 0 te beginnen en het nieuwste frame-id maximaal laat groeien tot de voorgetrainde maximale temporele RoPE-id van de DiT's tijdens training en inferentie, waardoor het model wordt bevrijd van de eindige RoPE-beperking en de train-test RoPE-extrapolatiekloof wordt gedicht. In lange en korte videogeneratie behaalt Echo-Infinity state-of-the-art prestaties, en, voor zover wij weten, toont het voor de eerste keer veelbelovende 24-uurs (>1,3 miljoen frames) real-time uitrols, wat een praktische weg naar oneindige videogeneratie suggereert.

Benchmarks zijn niet genoeg: RAMP voor runtime-evaluatie van agentmodellen in productiesystemen
Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

May 26

ByYipeng Ouyang, Xin Huang, Bingjie Liu, Zhongchun Zheng, Yuhao Gu, Xianwei Zhang

LLM-agenten evolueren snel van codeerassistenten naar autonome software-engineering systemen. Bestaande evaluatiemethodologieën blijven echter grotendeels gericht op statische, geïsoleerde en kortetermijn-benchmarks die de dynamische complexiteit van realistische productieworkflows niet kunnen vatten. Hierdoor kunnen benchmarkprestaties een slechte afspiegeling zijn van de praktische capaciteiten onder realistische runtime-omgevingen met lange uitvoeringsketens, toolinteracties, afhankelijkheidsbeheer en iteratieve feedbackloops. We presenteren daarom RAMP, een productiegebaseerde infrastructuur voor het beoordelen van software-engineering agenten met een lange horizon. Gebouwd op het YatCC-geïntegreerde platform biedt RAMP een uniforme runtime-beoordelingsarchitectuur via gestandaardiseerde orkestratie- en uitvoeringsinterfaces. RAMP introduceert realistische compilerconstructieworkloads met seriële afhankelijkheden en complexe toolchain-interacties, samen met een gefaseerd herstelmechanisme voor het analyseren van uitvoeringsgedrag bij gedeeltelijke workflowstoringen. Het raamwerk omvat verder nut-georiënteerde multidimensionale metrieken die gezamenlijk de uitkomstkwaliteit en procesefficiëntie evalueren. We voeren runtime-beoordelingen uit over 15 mainstream modellen en observeren substantiële capaciteitsdegradatie die grotendeels onzichtbaar blijft voor conventionele geïsoleerde benchmarks. Taakvoltooiingspercentages storten progressief in over seriële workflows, dalend van 100% in de initiële fase tot slechts 20% in de laatste fase, terwijl geen van de geëvalueerde modellen de volledige pijplijn succesvol voltooit. Runtime-analyse onthult systematische foutpropagatie en aanzienlijke resource-inefficiënties, met rekenkosten die tot drie ordes van grootte verschillen tussen vergelijkbare modellen. Deze bevindingen suggereren dat RAMP de evaluatie van agentische modellen vooruitbrengt naar continue, runtime-waarneembare en productiegebaseerde beoordeling.

Zelfgedistilleerde Beleidsgradiënt
Self-Distilled Policy Gradient

Jun 2

ByYifeng Liu, Shiyuan Zhang, Yifan Zhang, Quanquan Gu

On-policy zelfdistillatie, waarbij een taalmodel conditioneert op bevoorrechte context om zijn eigen generaties te superviseren, is een veelbelovende bron van dichte supervisie voor versterkend leren met schaarse beloningen. Het kan feitelijk worden geïnstantieerd als een aanvullend verlies gebaseerd op de omgekeerde Kullback-Leibler-divergentie van student naar docent voor de volledige woordenschat. Daarom stellen we SDPG voor, een zelf-gedistilleerd beleidsgradiëntraamwerk dat groepsrelatieve verifier-voordelen combineert met genormaliseerde standaarddeviatie, exacte volledige-woordenschat on-policy zelfdistillatie, en referentiebeleid KL-regularisatie. Empirisch gezien verbetert SDPG de stabiliteit en prestaties ten opzichte van RLVR- en zelfdistillatie-baselines. De code is beschikbaar op https://github.com/lauyikfung/SDPG.

MemTrain: Zelf-gesuperviseerde Contextgeheugentraining
MemTrain: Self-Supervised Context Memory Training

Jun 2

ByZiheng Li, Xingrun Xing, Haoqing Wang, Zhi-Hong Deng, Yehui Tang

Geheugen is een onmisbare capaciteit voor LLM-agenten met een lange horizon, omdat het hen in staat stelt informatie te bewaren en te gebruiken die is opgebouwd gedurende uitgebreide interacties. Bestaande geheugen-agentbenaderingen worden doorgaans end-to-end getraind met behulp van reinforcement learning op stroomafwaartse taken. Het verzamelen van hoogwaardige geannoteerde problemen voor geheugenintensieve scenario's is echter kostbaar, en de resulterende trainingsdata missen vaak voldoende diversiteit om algemeen geheugengedrag te dekken. In dit werk stellen we MemTrain voor, een zelfgecontroleerd trainingsraamwerk voor het algemeen verbeteren van de contextgeheugencapaciteit van LLM-agenten, ten behoeve van effectievere stroomafwaartse post-training. MemTrain introduceert twee gekoppelde proxtaken over ongelabelde Wikipedia-corpora: (1) een end-to-end gemaskeerde reconstructiedoelstelling, die het model vereist om gemaskeerde entiteiten te herstellen na meerdere rondes van geheugenupdates, waardoor geheugenbehoud vanuit het perspectief van het uiteindelijke resultaat wordt gestimuleerd; en (2) een tussentijdse geheugenherinneringsdoelstelling, die het model vereist om gemaskeerde historische informatie te reconstrueren met behulp van tussentijdse geheugentoestanden, wat getrouwe compressie en volledigheid van het geheugen gedurende het interactieproces aanmoedigt. De twee doelstellingen worden gezamenlijk geoptimaliseerd met behulp van GRPO. Uitgebreide experimenten op long-text QA- en op zoeken gebaseerde QA-benchmarks tonen aan dat MemTrain consequent de stroomafwaartse geheugenintensieve redeneerprestaties verbetert bij verschillende modellen, met winsten tot 17,67 punten ten opzichte van directe taakspecifieke post-training.

Het uitlokken van complexe ruimtelijke redenering in MLLMs door middel van brede-basis matching
Eliciting Complex Spatial Reasoning in MLLMs through Wide-Baseline Matching

Jun 2

ByHao Zhong, Muzhi Zhu, Shenyan Zeng, Anzhou Li, Cong Chen, Hua Geng, Duochao Shi, Wentao Ye, Tao Lin, Hao Chen, Chunhua Shen

Breedbasismatching (BBM) vereist de integratie van geometrisch inzicht, veranderingen in gezichtspunt, fijnmazige perceptie en redeneren over occlusie, waardoor het een uitdagende testcase vormt voor ruimtelijk redeneren in multimodale grote taalmodellen (MLLM's) die in fysieke omgevingen worden ingezet. Huidige MLLM's missen echter systematische evaluatie- en trainingskaders voor deze capaciteiten. We introduceren ReasonMatch-Bench, een benchmark die gestratificeerd is naar gezichtspuntverplaatsing en matchinggranulariteit voor binnen-, buiten- en objectgerichte scenario's, en tonen aan dat huidige MLLM's nog steeds moeite hebben met fijnmazige breedbasiscorrespondentie: op een moeilijke subset van 90 monsters behalen menselijke annotatoren een F1-score van 84,0, terwijl de beste bestaande baseline 37,2 bereikt. Om deze kloof te overbruggen, bouwen we een schaalbare datagenratiepijplijn die automatisch breedbasis-aanzichtparen extraheert uit grootschalige video-3D-corpora, waaronder RGB-D-video's en SfM-reconstructies, wat leidt tot diverse en verifieerbare supervisie. Verder stellen we Dynamisch Correspondentie Reinforcement Leren (DCRL) voor, dat Beeldniveau Gezichtspuntprogressie en Puntniveau Correspondentiecurriculum combineert om BBM-training te verbeteren via verifieerbare beloningen zonder expliciete CoT-supervisie. Uitgebreide experimenten tonen aan dat DCRL de prestaties op ReasonMatch-Bench aanzienlijk verbetert en overdraagt naar gerelateerde ruimtelijke benchmarks, terwijl het algemene visuele begrip behouden blijft met bescheiden winst op verschillende benchmarks.

MMG2Skill: Kunnen agenten gidsen uit de praktijk distilleren tot zelf-evoluerende vaardigheden?
MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?

Jun 1

ByXinyu Che, Junqi Xiong, Yunfei Ge, Xinping Lei, Shihao Li, Hang Yan, Han Li, Yuanxing Zhang, Zhiqi Bai, Jinhua Hao, Ming Sun, Han Li, Jiaheng Liu

Overvloedige procedurele kennis op het web biedt een groot potentieel voor het helpen van agenten bij het oplossen van langetermijntaken. Dergelijke kennis is echter vaak multimodaal, heterogeen, ruizig en veronderstelt impliciet menselijke uitvoerders, waardoor het moeilijk rechtstreeks te gebruiken is als de vaardigheden die agenten nodig hebben. Om de kloof te overbruggen tussen mensgerichte handleidingen en door agenten uitvoerbare vaardigheden, formaliseren we dit probleem als gids-naar-vaardigheid-leren: het omzetten van wildvreemde handleidingen in uitvoerbare vaardigheden en deze continu verbeteren op basis van waarneembare trajecten voor de agent. Om het vermogen van bestaande agenten voor deze taak te evalueren, introduceren we MMG2Skill-Bench, de eerste benchmark ontworpen voor dit probleem. Verder stellen we MMG2Skill voor, een gesloten-lus raamwerk dat handleidingen compileert tot bewerkbare vaardigheden, een vast visie-taalmodel (VTM) agent conditioneert op deze vaardigheden tijdens de uitvoering, en de vaardigheden herziet op basis van traject-niveau oorzaak-gevolg feedback zonder gebruik te maken van benchmarkscores. Over GUI-besturing, open einde gameplay en strategisch kaartspel met zes VTM-backbones heen, presteert MMG2Skill consequent beter dan gewone basisagenten in elke model-domein instelling, met macro-gemiddelde winsten van +12,8 tot +25,3 procentpunten over backbones. Ablatiestudies tonen aan dat het rechtstreeks aansturen van agenten met ruwe handleidingen de prestaties kan verslechteren, terwijl zowel gestructureerde vaardigheidsconstructie als traject-gedreven herziening noodzakelijk zijn voor de waargenomen verbeteringen. Bij succes-inferabele taken voorkomt analysator-gebaseerd vroegtijdig stoppen bovendien late prestatiedalingen en bespaart het 25% tot 53% van de pogingen wanneer het successignaal goed gekalibreerd is.

MapAgent: Een agentisch raamwerk van industriële kwaliteit voor kaartgeneratie op stads- en rijstrookniveau
MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map Generation

Jun 3

ByDeguo Xia, Zihan Li, Haochen Zhao, Dong Xie, Yuyao Kong, Xiyan Liu, Jizhou Huang, Mengmeng Yang, Diange Yang

Lane-level kaarten vormen een cruciale infrastructuur voor autonoom rijden en navigatie op rijstrookniveau, maar het bouwen en onderhouden van gestandaardiseerde rijstrooknetwerken voor honderden steden blijft zeer arbeidsintensief. Recente end-to-end gevectoriseerde karteringsmethoden kunnen rijstrookgeometrie en -topologie direct uit sensorgegevens voorspellen, maar ze behandelen karteringsspecificaties en verkeersregels doorgaans als impliciete, datasetafhankelijke supervisie. Bovendien zijn in complexe scenario's (bijv. versleten of ontbrekende markeringen en occlusies) correcte rijstrookconfiguraties vaak onderbepaald op basis van alleen visuele aanwijzingen, waardoor specificatieschendingen een belangrijke bron van menselijke nabewerking vormen. We stellen MapAgent voor, een industriële agentische architectuur die een vectorisatie-backbone uitbreidt voor specificatieconforme productie van lane-level kaarten. In plaats van slechts een agent-lus toe te voegen aan kaartvoorspelling, koppelt MapAgent backbone-perceptie aan expliciete specificatieverificatie, constraintbewuste redenering en deterministische kaartbewerking onder een begrensde, verificatiegestuurde Rechter-Planner-Werker-lus. Een visueel-talige Rechter diagnosticeert fouten door gezamenlijk visuele aanwijzingen en conceptvectoren te inspecteren, terwijl een gereedschap-aanroepende Planner minimale corrigerende bewerkingen genereert met hervalidatie na bewerking. Om schaalbaar te blijven voor productie op stadsniveau, wordt MapAgent alleen selectief geactiveerd op tegels met lage backbone-vertrouwen, wat een bescheiden overhead toevoegt terwijl de doorvoer behouden blijft. Experimenten op real-world datasets laten consistente winst zien ten opzichte van sterke productiebaselines, vooral in complexe en langstaartscenario's. Daarnaast is MapAgent geïntegreerd in Baidu Maps, ter ondersteuning van de generatie van lane-level kaarten voor meer dan 360 steden landelijk, waardoor de algehele productieautomatisering is verhoogd tot meer dan 95%, wat de praktische bruikbaarheid en effectiviteit van MapAgent voor grootschalige generatie van lane-level kaarten aantoont.

Filteren, dan herwegen: Heroverweging van optimalisatiegranulariteit in on-policy distillatie
Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation

Jun 1

ByYuying Li, Leqi Zheng, Yongzi Yu, Wenrui Zhou, Xuchang Zhong, Xing Hu, Jing Jin, Huangjie Yuan, Tao Feng

On-Policy distillatie (OPD) in grote taalmodellen verschuift van volledige-traject KL-supervisie naar meer selectieve trainingsparadigma's. Recente OPD-methoden richten zich steeds meer op het selecteren van welke trajecten om van te leren, welke tokens het meest informatief zijn, en welke supervisiesignalen het meest betrouwbaar zijn. Gemotiveerd door deze trend heroverwegen we de optimalisatiegranulariteit van OPD en stellen we \fireicon\ FiRe-OPD (Filter, then Reweight) voor, dat gezamenlijk supervisiesignalen aanpast op zowel traject- als tokenniveau. In detail filtert FiRe-OPD eerst trajecten om laagwaardige roll-out samples te verwijderen, en past vervolgens een zachte herweging toe binnen de behouden trajecten om informatieve tokens te benadrukken. Vergeleken met harde tokenselectie maakt FiRe-OPD gebruik van een zachtwegingsmechanisme om informatieverlies effectief te beperken en optimalisatiestabiliteit te verbeteren, waardoor een fijnmazigere OPD-optimalisatie wordt bereikt. We valideren de effectiviteit van FiRe-OPD in sterke-naar-zwakke, enkele-leraar en meerdere-leraar settings, en tonen de superioriteit aan over recente token-niveau OPD-methoden (bijv. +6,25 op AIME 2024 in sterke-naar-zwakke, +18,81 op Miner in meerdere-leraar). Onze code is beschikbaar op https://github.com/YuYingLi0/FiRe-OPD.

AAD-1: Asymmetrische Adversariële Destillatie voor Eénstaps Autoregressieve Videogeneratie
AAD-1: Asymmetric Adversarial Distillation for One-Step Autoregressive Video Generation

Jun 2

ByHaobo Li, Yanhong Zeng, Yunhong Lu, Jiapeng Zhu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Yujun Shen, Zhipeng Zhang

Wij presenteren AAD-1, een Asymmetrisch Adversariaal Destillatieraamwerk voor eenstaps autoregressieve beeld-naar-video-generatie. State-of-the-art methoden maken gebruik van adversariële destillatie, maar kampen met bewegingsinstorting en trainingsinstabiliteit, wat resulteert in statische video's. AAD-1 pakt deze uitdagingen aan via twee sleutelontwerpen in architectuur en trainingsstrategie. Ons belangrijkste architecturale inzicht is het doorbreken van de symmetrie tussen generator en discriminator. Terwijl de generator causaal blijft om autoregressieve samplingmogelijkheden te behouden, richt de discriminator zich bidirectioneel op de volledige spatiotemporele context en produceert een enkele holistische realisme-score voor de gehele videosequentie. Dit asymmetrische ontwerp stelt de discriminator in staat om effectief globale temporele fouten en langdurige drift te detecteren die bewegingsinstorting in autoregressieve generatie veroorzaken. Om de training te stabiliseren, introduceren we een gefaseerde strategie die eerst distributiematching gebruikt om een stabiele eenstapsgenerator op te starten, wat een opwarmfase biedt die de studentdistributie dichter bij de leraar brengt voordat de adversariële destillatie begint. Uitgebreide experimenten op VBench tonen aan dat AAD-1 state-of-the-art prestaties levert in eenstaps autoregressieve videogeneratie.

ZipSplat: Minder Gaussianen, Betere Splats
ZipSplat: Fewer Gaussians, Better Splats

Jun 3

ByAlexander Veicht, Sunghwan Hong, Dániel Baráth, Marc Pollefeys

Feed-forward 3D Gaussian Splatting-methoden reconstrueren een scène van geposeerde of pose-loze afbeeldingen in een enkele voorwaartse doorgang, maar huidige benaderingen voorspellen één Gaussian per invoerpixel, waardoor het representatiebudget wordt gekoppeld aan de cameraresolutie in plaats van aan de scènecomplexiteit. Een platte muur en een rijk gestructureerd object produceren dus evenveel Gaussians, ondanks zeer verschillende geometrische behoeften. Wij stellen ZipSplat voor, een token-gebaseerd feed-forward model dat de plaatsing van Gaussians ontkoppelt van het pixelraster. Een multi-view backbone extraheert dichte visuele tokens, en k-means clustering comprimeert ze tot een compacte set scènetokens. Kruis- en zelf-attentie verfijnen deze tokens, en een lichtgewicht MLP decodeert elk token in een groep Gaussians met ongebonden 3D-posities. Omdat clustering tijdens de inferentie wordt toegepast, bestrijkt één getraind model de kwaliteit-efficiëntiecurve zonder opnieuw te trainen. ZipSplat werkt zonder grondwaarheidposen of intrinsieke parameters, maar zet een nieuwe state-of-the-art neer op DL3DV en RealEstate10K met ~6 keer minder Gaussians dan pixel-uitgelijnde methoden, en overtreft de beste pose-loze basislijn met respectievelijk 2,1 dB en 1,2 dB PSNR. Verder generaliseert het zero-shot naar Mip-NeRF360 en ScanNet++, en presteert het beter dan alle vergelijkbare basislijnen. Onze projectpagina vindt u op {https://veichta.com/zipsplat}.

KletterMix: Klimmen naar hoogwaardige Duitse pretrainingsdata
KletterMix: Climbing Toward High-Quality German Pretraining Data

Jun 2

ByMaurice Kraus, Ruben Härle, Sebastian Sztwiertnia, Abbas Goher Khan, Mehdi Ali, Michael Fromm, Kristian Kersting

Hoogwaardige pretrainingsgegevens zijn een centraal ingrediënt in moderne taalmodellen, maar Duitstalige bronnen blijven aanzienlijk minder ontwikkeld dan hun Engelstalige tegenhangers: ze zijn vaak kleiner, minder zorgvuldig samengesteld, zwak gedocumenteerd en zelden gevalideerd door middel van gecontroleerde trainingsexperimenten. We introduceren KletterMix, een hoogwaardig Duits corpus voor het pretrainen en annealen van taalmodellen, ontworpen als een herbruikbaar datasetartefact voor de natuurlijke taalverwerking en modelleringsgemeenschap. KletterMix is gebouwd door een state-of-the-art Engels pretrainingcorpus naar het Duits te vertalen, met behoud van documentgrenzen, metadata, bronstructuur en thematische diversiteit. Deze constructie levert een Duits corpus op met de schaal en diversiteit van een moderne pretrainingdataset, terwijl directe vergelijking met de Engelse bron mogelijk is. We documenteren de dataset via een breed scala aan corpusanalyses, waaronder vertaalkwaliteit, documentlengteverdelingen, onderwerpdekking, bronsamenstelling en geografische metadata. Met behulp van COMETKiwi tonen we aan dat de vertaalde documenten een sterke kwaliteit bereiken in uiteenlopende domeinen, wat suggereert dat zorgvuldige vertaling veel van de semantische en stilistische rijkdom van het oorspronkelijke corpus kan behouden. Naast de datasetconstructie evalueren we KletterMix als trainingsgegevens. Door middel van gecontroleerde pretraining- en annealablatie-experimenten tegen gevestigde Duitse corpora laten we zien dat modellen die op KletterMix zijn getraind meetbare verbeteringen behalen bij Duitstalige downstream-evaluaties. Deze resultaten tonen aan dat zorgvuldig samengestelde vertaalde gegevens het Duitse pretrainingdatacolosysteem aanzienlijk kunnen versterken.

AutoLab: Kunnen grensverleggende modellen langetermijn auto-onderzoeks- en engineeringstaken oplossen?
AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

Jun 3

ByZhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen

Wetenschappelijke en technische vooruitgang is in essentie een iteratief proces op lange termijn: het voorstellen van wijzigingen, het uitvoeren van experimenten, het meten van resultaten en het continu verfijnen van artefacten. Toch evalueren bestaande benchmarks voor geavanceerde modellen voornamelijk ofwel eenmalige reacties ofwel kortetermijn agenttrajecten, waardoor ze de uitdagingen van aanhoudende iteratieve verbetering over langere tijdshorizonten niet vastleggen. Om dit hiaat aan te pakken, introduceren we AutoLab, een nieuwe benchmark voor uiterst langdurige gesloten-lusoptimalisatie. AutoLab bestaat uit 36 realistische, door experts samengestelde taken verspreid over vier uiteenlopende domeinen: systeemoptimalisatie, puzzels en uitdagingen, modelontwikkeling en CUDA-kerneloptimalisatie. Elke taak begint met een correcte maar bewust suboptimale basislijn en daagt agenten uit om deze te verbeteren binnen een strikt kloktijdbudget. Evaluatie van 17 state-of-the-art modellen toont aan dat de dominante voorspeller van succes niet de kwaliteit van de eerste poging van een agent is, maar de volharding in het herhaaldelijk benchmarken, bewerken en verwerken van empirische feedback. Hoewel claude-opus-4.6 sterke optimalisatiecapaciteiten op lange termijn vertoont, stoppen de meeste geavanceerde modellen, waaronder verschillende propriëtaire, voortijdig of putten ze hun budget uit met minimale vooruitgang. Deze resultaten onderstrepen het belang van tijdsbewustzijn en aanhoudende iteratie in autonome agenten. We stellen de volledige benchmark, het evaluatieharnas en de taakartefacten beschikbaar als open-source om onderzoek naar werkelijk capabele langetermijnagenten te versnellen.

WebRISE: Vereistengeïnduceerde toestandsevaluatie voor door MLLM gegenereerde webartefacten
WebRISE: Requirement-Induced State Evaluation for MLLM-Generated Web Artifacts

Jun 2

ByYuxin Meng, Yuhan Suo, Junjie Wang, Yuhan Sun, Yiyao Yu, Ruixu Zhang, Ruining Hu, Yubin Wang, Shouwei Ruan, Bin Wang, Yuxiang Zhang, Yujiu Yang

Bestaande benchmarks voor door MLLM gegenereerde webartefacten beoordelen interactie op basis van lokale evidentie en missen de door vereisten geïnduceerde toestanden en overgangen die bepalen of een pagina werkt. Wij introduceren WebRISE, dat taakvereisten compileert tot Interactiecontractgrafieken (ICG's) van waarneembare toestanden, gebruikersintentie-overgangen en DOM/visuele asserts voor implementatie-agnostische browseruitvoering. WebRISE omvat 442 taken over vijf invoermodaliteiten (Tekst, Markdown, Schets, Afbeelding, Video), met 5.495 overgangen en 5.271 vereistencontroles die door gebruikers gestelde functies scheiden van impliciete productniveau-beperkingen. Bij 14 MLLM's bereikt zelfs het sterkste model slechts 65,6% transitievaliditeit en 66,3% vereistendekking, en visuele kwaliteit is geen proxy voor gedrag (Qwen3.6-35B-A3B op Markdown: V=80,8 doch T=15,5). Video geeft het sterkste interactiesignaal (+10,6 pp impliciete dekking ten opzichte van Tekst), terwijl impliciete beperkingen blijven bestaan; defectinjectie toont aan dat ICG-gebaseerde scoring statusfouten detecteert met een 2- tot 16-voudige snelheid ten opzichte van checkpoint-stijl evaluatie.

AUDITFLOW: Uitvoerbare Symbolische Omgevingen voor Verificatie van Gestructureerde Financiële Rapportages
AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification

Jun 2

ByYan Wang, Xuguang Ai, Jaisal Patel, Xueqing Peng, Fengran Mo, Yupeng Cao, Haohang Li, Mingyu Cao, Lingfei Qian, Víctor Gutiérrez-Basulto

Gestructureerde financiële auditverificatie is moeilijk voor taalmodellen omdat correctheid afhangt van gestructureerd bewijs in plaats van alleen tekst. Een model moet gerapporteerde feiten koppelen aan taxonomieconcepten, rekenkundige of dimensionale relaties doorlopen en verwachte waarden herberekenen voordat een auditregel wordt toegepast. We stellen AuditFlow voor, een op grafieken gebaseerd multi-agentraamwerk dat adaptief zoeken scheidt van deterministische verificatie. AuditFlow bouwt een symbolische omgeving op uit een statische US-GAAP-taxonomiegraaf en een dynamische XBRL-depotgraaf, en stelt deze beschikbaar via getypeerde hulpmiddelen voor feitenopvraging, taxonomiedoorloping, numerieke controle en regelevaluatie. Twee junior auditors onderzoeken elk geval vanuit regelgevend en bewijstechnisch perspectief, terwijl een senior auditor meningsverschillen beslecht en om nader onderzoek kan vragen. De eindrapporten worden samengevoegd via bewijsaggregatie om een auditoordeel, verwachte waarde, bewijsketen en betrouwbaarheidsscore te produceren. Op een van FinAuditing afgeleide FinMR-steekproef bereikt AuditFlow 82,09% gezamenlijke auditnauwkeurigheid onder GPT-5.5, waarmee het de sterkste basislijn met 14,93 punten overtreft. Het verwijderen van deterministische controles doet de nauwkeurigheid dalen tot 17,91%, wat aantoont dat de symbolische omgeving de verificatiestap uitvoert die het model niet betrouwbaar kan vervangen.

GRAIL: Het genereren van humanoïde loco-manipulatie vanuit 3D-assets en videopriors
GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors

Jun 3

ByTianyi Xie, Haotian Zhang, Jinhyung Park, Zi Wang, Bowen Wen, Jiefeng Li, Xueting Li, Qingwei Ben, Haoyang Weng, Yufei Ye, David Minor, Tingwu Wang, Chenfanfu Jiang, Sanja Fidler, Jan Kautz, Linxi Fan, Yuke Zhu, Zhengyi Luo, Umar Iqbal, Ye Yuan

Het schalen van mensachtige loco-manipulatie vereist robot-compatibele demonstraties over diverse objecten, volledige lichaamsbewegingen en scènegeometrieën, maar teleoperatie en motion capture zijn moeilijk te schalen omdat elke verzameling afhankelijk is van fysieke opstellingen, geïnstrumenteerde acteurs en robotoperatie. We presenteren GRAIL, een digitale generatiepijplijn die volledig virtueel blijft tot implementatie: het stelt 3D-assets, simulator-klare scènes en voorkennis uit videofundamentmodellen (VFMs) samen om interacties te synthetiseren zonder fysieke omgevingen te herbouwen of de robot te teleopereren. In plaats van ongecontroleerde in-the-wild video's te reconstrueren, begint GRAIL met volledig gespecificeerde 3D-configuraties waarin objectgeometrie, cameraparameters, metrische schaal, omgevingsdiepte en een robot-proportioneel personage bekend zijn vóór videogeneratie en worden hergebruikt tijdens reconstructie. Deze geprivilegieerde opstelling zorgt voor een betere conditionering van 4D-herstel, waardoor modelgebaseerde objecttracking, menselijke bewegingsschatting en interactiebewuste optimalisatie metrische 4D-trajecten van mens-object interactie (HOI) kunnen reconstructen met verminderde diepteambiguïteit en morfologische mismatch. We hertargeten de teruggevonden bewegingen naar een mensachtige robot en trainen complementaire taakalgemene trackers: een objectbewuste latente adapter voor manipulatie en een scènabewuste tracker voor terreinovergang. GRAIL produceert meer dan 20.000 sequenties die oppakken, objectmanipulatie, zitten en terreinovergang omvatten. Met alleen door GRAIL gegenereerde data trainen we egocentrische visuele beleidsstrategieën via een sim-to-real pijplijn en implementeren deze op een Unitree G1 mensachtige robot, wat resulteert in 84% succes in de echte wereld bij het oppakken van diverse objecten en 90% succes bij het beklimmen van trappen.

BraveGuard: Van open-wereldbedreigingen naar veiligere computergebruikagenten
BraveGuard: From Open-World Threats to Safer Computer-Use Agents

Jun 2

ByYunhao Feng, Xiaohu Du, Xinhao Deng, Yifan Ding, Ming Wen, Yixu Wang, Yuxiang Xie, Baihui Zheng, Yingshui Tan, Yige Li, Yutao Wu, Kerui Cao, Wenke Huang, Yanming Guo, Xingjun Ma, Yu-Gang Jiang

Computergebruikagenten breiden taalmodellen uit van tekstgeneratie naar langdurige interactie met bestanden, terminals, browsers en externe hulpmiddelen. Deze verschuiving creëert veiligheidsrisico’s die moeilijk te detecteren zijn vanuit geïsoleerde prompts of uiteindelijke reacties, omdat schade vaak pas naar voren komt via meerstaps uitvoeringstrajecten waarvan de individuele acties lokaal goedaardig lijken. We introduceren BraveGuard, een zelfevoluerend verdedigingsraamwerk voor het trainen van bewakingsmodellen op basis van open-wereld dreigingssignalen en realistische agenttrajecten. BraveGuard doorzoekt recente onderzoeksbronnen om opkomende risico’s en aanvalspatronen te identificeren, instantieert deze als uitvoerbare computergebruikstaken, verzamelt agentuitrolresultaten en leidt trajectniveausupervisie af voor de training van bewakingsmodellen. Naarmate nieuwe dreigingen en validatiefouten verschijnen, kan de pijplijn worden herhaald, wat resulteert in een adaptieve verdedigingslus in plaats van een statisch, benchmarkgestuurd trainingsproces. We instantiëren BraveGuard door meerdere bewakingsbackbones te trainen, waaronder Qwen3-Guard en Llama-Guard varianten, en evalueren de resulterende bewakingsmodellen op trajectniveau agentveiligheidsbenchmarks. BraveGuard verbetert consequent de veiligheidsdetectie in computergebruikstrajecten. Op AgentHazard verbetert het de detectienauwkeurigheid aanzienlijk ten opzichte van standaard bewakingsmodellen, waarbij de nauwkeurigheid stijgt van 38,79% naar 82,38% onder de gemiddelde bewakingsmodelinstelling. Deze resultaten tonen aan dat bewakingssupervisie die gebaseerd is op open-wereld dreigingsontdekking en realistische agentuitvoering de veiligheidsmonitoring kan verbeteren voorbij vaste taxonomieën en synthetische promptniveaugegevens. BraveGuard biedt een schaalbaar pad naar adaptieve verdedigingen voor computergebruikagenten die te maken hebben met evoluerende risico’s in de echte wereld.

BenchEvolver: Grensverleggende taaksynthese via oplossingsgerichte evolutie
BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution

May 31

ByYangzhen Wu, Aaron J. Li, Wenjie Ma, Li Cao, Ziheng Zhou, Mert Cemri, Shu Liu, Yuran Xiu, Chenxiao Yan, Haikun Zhao, Bin Yu, Ion Stoica, Dawn Song

De snelle vooruitgang van geavanceerde grote taalmodellen heeft geleid tot wijdverbreide benchmarksaturatie, waardoor het vermogen van bestaande datasets om modelcapaciteiten te onderscheiden of bruikbare trainingssignalen te leveren wordt beperkt. Op LiveCodeBench bijvoorbeeld behalen geavanceerde modellen meer dan 99% Pass@1 op eenvoudige splitsingen en meer dan 90% Pass@1 gemiddeld over alle moeilijkheidsgraden. Het construeren van nieuwe, uitdagende datasets vereist doorgaans aanzienlijke menselijke inspanning, wat een bottleneck vormt voor vooruitgang. Wij introduceren BenchEvolver, een oplossingsgericht evolutionair raamwerk dat automatisch bestaande coderingsproblemen omzet in moeilijkere varianten. In plaats van problemen vanaf nul te genereren, evolueert BenchEvolver referentieoplossingen via gestructureerde transformaties en leidt daaruit de bijbehorende probleemstellingen en tests af. Dit ontwerp verankert generatie in uitvoerbare semantiek, waardoor schaalbare constructie van hoogwaardige, diverse en moeilijke taken met verifieerbare correctheid mogelijk wordt. Door BenchEvolver toe te passen op LiveCodeBench en SciCode verkrijgen we geëvolueerde taken die aanzienlijk moeilijker zijn, terwijl validiteit, referentiecorrectheid en diversiteit behouden blijven. Verder stellen we LiveCodeBench-Plus samen, een benchmark met 91 problemen die geëvolueerde en moeilijke originele LCB-v6-taken combineert, waarbij de Pass@1 van geavanceerde modellen varieert van 27,5% tot 62,6%, wat een helder onderscheid tussen sterke codeermodellen herstelt. Belangrijk is dat geëvolueerde taken uitdagend blijven, zelfs voor het model dat ze genereert, wat zelfverbetering mogelijk maakt. We tonen verder aan dat RL op geëvolueerde LCB-taken de prestaties op niet-geziene codering verbetert: voor gpt-oss-20b levert seed+geëvolueerde training +8,7 en +8,3 Pass@1-winst op respectievelijk LCB v6 Hard en LCB-Pro Easy, wat de winst van alleen seed met respectievelijk 70,7% en 34,8% overtreft. Onze resultaten laten zien dat BenchEvolver verzadigde benchmarks kan omzetten in evaluatiesuites op frontiervlak en herbruikbare trainingssignalen.

Economie van Geesten: Emergente Multi-Agent Intelligentie met Economische Interacties
Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

Jun 1

ByZhenting Qi, Huangyuan Su, Ao Qu, Chenyu Wang, Yu Yao, Han Zheng, Kushal Chattopadhyay, Guowei Xu, Zihan Wang, Weirui Ye, Vijay Janapa Reddi, Ju Li, Paul Pu Liang, Himabindu Lakkaraju, Sham Kakade, Yilun Du

Hoe kan een populatie van agenten zichzelf orkestreren en aanpassen tot een sterkere collectieve intelligentie zonder centrale aansturing? Geïnspireerd door Friedrich Hayeks economische theorie van gedecentraliseerde coördinatie in markten, bestuderen we deze vraag via een agenteneconomie waarin agenten via veilingen concurreren om het recht om te handelen, betalingen uitwisselen en rijkdom vergaren uit omgevingsbeloningen. Deze eenvoudige economische signalen leiden tot gedecentraliseerde krediettoewijzing, die planning mogelijk maakt zonder globale orkestratie of expliciete communicatieprotocollen. De populatie evolueert via economische selectie: effectieve agenten vergaren rijkdom en worden gemuteerd via exploitatie, terwijl ineffectieve agenten failliet gaan en worden vervangen via exploratie. We tonen aan dat, geïnitieerd met zwakke agenten, de economie opkomende meerstaps redeneerstrategieën produceert en beter presteert dan sterkere monolithische basislijnen in vijf agentische taken, waaronder wiskundig redeneren, financieel onderzoek, wetenschappelijk onderzoek, versnellerontwerp en optimalisatie van gedistribueerde systemen. Verder geven we theoretische inzichten in hoe economische dynamiek agentgedrag vormgeeft, waarbij lokale prikkels worden gekoppeld aan langetermijnprestaties op globaal niveau. Onze resultaten wijzen op een nieuwe weg naar multi-agent intelligentie: in plaats van coördinatie te ontwerpen, kunnen we gedecentraliseerde prikkelstructuren ontwerpen waaronder deze automatisch ontstaat.

Neurale netwerken leren aantoonbaar spectrale representaties voor groepscompositie.
Neural Networks Provably Learn Spectral Representations for Group Composition

Jun 2

ByJianliang He, Leda Wang, Fengzhuo Zhang, Siyu Chen, Zhuoran Yang

Het begrijpen van hoe gestructureerde interne structuur ontstaat tijdens neurale netwerktraining staat centraal in de studie van diep leren. We onderzoeken dit fenomeen via de groepscompositietaak, waarbij een tweelaags neuraal netwerk wordt getraind om g_1 * g_2 te voorspellen voor elementen van een eindige groep G. Door de geprojecteerde gradiëntstroom naar het Fourierdomein te tillen, tonen we aan dat de trainingsdynamiek wordt beheerst door een Riemanniaanse gradiëntstijging op een representatietheoretische energiefunctionaal. We bewijzen dat, onder willekeurige initialisatie, deze stroom elke neuron bijna zeker naar een enkele irreducibele representatie drijft, terwijl de kruislaag Fouriercoëfficiënten een rotationele rang-één-uitlijning bereiken. Dit raamwerk biedt een representatietheoretische verklaring van feature learning en karakteriseert een nieuw laagrangcompressieverschijnsel voor matrixwaardige groepsrepresentaties. Bovendien geven we voor Abelse groepen een volledige populatiebeschrijving: willekeurige initialisatie bevordert uniforme diversificatie over niet-triviale representaties en induceert Haar-uniforme fasen, die gezamenlijk de indicator benaderen via een meerderheidsstemmechanisme. We bewijzen verder dat zowel fase-uitlijning als representatiecompetitie optreden met exponentiële convergentiesnelheden.

Toegangssets doen ertoe: het budgetteren van expert-uitlezingen voor schaalbare gewichtsruimte-modelsamenvoeging
Access Sets Matter: Budgeting Expert Reads for Scalable Weight-Space Model Merging

May 28

ByYuanyi Wang, Yanggan Gu, Su Lu, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang

Gewichtsruimte-modelfusie wordt doorgaans geformuleerd als een algebraïsche bewerking op controlepunten, maar op de schaal van grote taalmodellen is de beperkende factor vaak de reeks expertgewichten die uitgelezen moeten worden. We introduceren MergePipe, een budgetbewuste uitvoeringslaag die LLM-fusie herformuleert als een expert-toegangsprobleem: gegeven een fusie-operator en een checkpoint-familie in een gedeeld gewichtcoördinatensysteem, wordt bepaald welke expert-delta-blokken worden benaderd onder een expliciet I/O-budget. MergePipe indexeert parameterblokken, bouwt deterministische toegangsplannen en voert de resulterende begrote fusie uit met herbare manifesten. Het plan is per constructie budgetcorrect en herstelt de volledige uitleesfusie bij volledig budget; voor additieve operatoren met vaste coëfficiënten is de fout door weggelaten updates begrensd door de norm van de weggelaten delta's. Op Qwen- en Llama-fusiewerkdrukken vermindert MergePipe het expert-uitlees-I/O met tot een orde van grootte en behaalt het snelheidswinsten tot 11 keer. Representatieve budgetrondes tonen parameterafwijkingen van O(10^{-3}) ten opzichte van volledige uitleesfusies en geen monotone verslechtering op stroomafwaartse benchmarks.

STRIDE: Attributie van trainingsdata via schaarse reconstructie uit subsetverstoringen
STRIDE: Training Data Attribution via Sparse Recovery from Subset Perturbations

Jun 3

ByRishit Dagli, Abir Harrasse, Luke Zhang, Florent Draye, Amirali Abdullah, Bernhard Schölkopf, Zhijing Jin

Trainingsdata-attributie (TDA) streeft ernaar om de voorspellingen van een model terug te leiden naar zijn trainingsdata. De gouden standaard voor TDA is gebaseerd op causale interventies, waarbij wordt waargenomen hoe een model verandert wanneer data wordt toegevoegd of verwijderd, maar herhaalde hertraining is computationeel uitdagend voor grote taalmodellen (LLM's). Bijgevolg benaderen de meeste benaderingen dit effect in de parameterruimte met behulp van gradienten. Het volgen van gradienten over miljarden parameters is echter niet alleen prohibitief duur, maar ook afhankelijk van lokale benaderingen. In dit werk stellen we een verschuiving voor: in plaats van parameterwijzigingen te schatten, modelleren we het functionele effect van trainingsdata in de activatieruimte. We introduceren STRIDE (Steering-based Training Data Influence Decomposition), een raamwerk dat TDA formuleert als een schaars reconstructieprobleem in de geest van compressieve waarneming. STRIDE leert lichtgewicht 'stuuroperatoren' die de gedragsverandering nabootsen die wordt veroorzaakt door training op datasubsets. Door te meten hoe deze operatoren testvoorspellingen verstoren, herstellen we de invloed van individuele trainingsvoorbeelden via schaarse lineaire decompositie. STRIDE bereikt de state-of-the-art voor attributie van LLM-vooropleiding, terwijl het een orde van grootte (13×) sneller is dan eerdere methoden. We valideren verder de praktische bruikbaarheid ervan via vervolgtoepassingen zoals dataselectie, datacontaminatie en kwalitatieve analyse.

DAR: Deontisch redeneren met agentische harnassen
DAR: Deontic Reasoning with Agentic Harnesses

Jun 3

ByGuangyao Dou, William Jurayj, Nils Holzenberger, Benjamin Van Durme

Deontisch redeneren is de taak om vragen te beantwoorden door expliciete regels en beleidslijnen toe te passen op casespecifieke feiten, bijvoorbeeld het berekenen van belastingplicht onder een wet of het bepalen van de uitkomst van een immigratieberoep. Een belangrijke technische uitdaging voor op LLM's gebaseerd deontisch redeneren is dat de relevante regelset lang en onderling verwijzend kan zijn, waardoor modellen mogelijk nog steeds niet in staat zijn de regels te lokaliseren die nodig zijn voor een specifieke redeneerstap. We introduceren Deontisch Agentisch Redeneren (DAR), een agentische redeneeropzet waarin het model op aanvraag interacteert met de wetten. We evalueren DAR onder meerdere harnassen op moeilijke subsets van DeonticBench. In deze instellingen zien we dat agentische harnassen de grens kunnen verleggen bij deontische redeneertaken, maar de verbeteringen zijn niet uniform: zwakkere modellen gaan vaak achteruit bij numerieke taken terwijl ze aanzienlijk meer tokens verbruiken.

Evaluatie van grote taalmodellen in dynamische klinische besluitvorming met gestandaardiseerde patiëntencasussen
Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases

Jun 3

ByCheng Liang, Pengcheng Qiu, Ya Zhang, Yanfeng Wang, Chaoyi Wu, Weidi Xie

Grote taalmodellen (Large Language Models, LLM's) worden steeds vaker voorgesteld als klinische agenten, maar statische, enkelvoudige benchmarks kunnen niet vastleggen hoe een model dynamisch zorg levert tijdens een consult: informatie verzamelen, behandelplannen opstellen en langetermijnmanagement aanpassen aan opeenvolgende patiënttoestanden. Het medisch onderwijs pakt al lang een vergelijkbare uitdaging aan met gestandaardiseerde patiënten (SP's): getrainde acteurs die klinische casussen consistent weergeven, waardoor realistische oefening en objectieve, gestandaardiseerde beoordeling mogelijk wordt. Hier introduceren we MedSP1000, een op SP's gebaseerde interactieve benchmark voor de evaluatie van klinische agenten, met 1.638 SP-casussen en 24.602 trajectniveau peer-reviewed rubrieken. MedSP1000 zet peer-reviewed SP-onderwijscasussen om in uitvoerbare scenario's met gedefinieerde SP-casusscripts, klinische contextomgevingen en door mensen gevalideerde gestructureerde rubrieken. In elke simulatie-evaluatieronde interageert een klinische agent in een gesloten lus met een patiëntagent en een omgevingscontroller, en wordt het gedrag gedurende het hele consult gescoord volgens de expertcriteria uit het oorspronkelijke materiaal. Bij toepassing van MedSP1000 op een reeks algemene en medisch gespecialiseerde LLM's vinden we dat prestaties op statische benchmarks niet betrouwbaar vertalen naar dergelijke onderwijsscenario's. Het best presterende model, GPT-5.5, voltooit slechts 60,4% van de door experts gedefinieerde rubric-items, terwijl het sterkste medisch gespecialiseerde model 40,0% haalt; het verhogen van de testtijdrekenkracht levert geen meetbare winst op. Deze resultaten suggereren dat huidige LLM's, inclusief agentische systemen die zijn afgestemd op de geneeskunde, nog niet betrouwbaar genoeg zijn om veilig in de daadwerkelijke klinische praktijk te worden geïntegreerd. In bredere zin laat MedSP1000 zien hoe procesmatige, op SP's gebaseerde evaluatie klinisch relevante faalwijzen aan het licht kan brengen die enkelvoudige benchmarks missen.

OpenSTBench: Voorbij Semantische Evaluatie voor Spraakvertaling
OpenSTBench: Beyond Semantic Evaluation for Speech Translation

May 29

ByYanjie An, Yuxiang Zhao, Yichi Zhang, Qixi Zheng, Yujie Tu, Keqi Deng, Kai Yu, Xie Chen

Spraakvertalingssystemen omvatten steeds vaker spraak-naar-tekstvertaling (S2TT), spraak-naar-spraakvertaling (S2ST), offline vertaling en streaming generatie, waarbij uitvoer wordt gegenereerd die verschilt in modaliteit, spraakrealisatie en timinggedrag. Bestaande evaluatiepraktijken beoordelen belangrijke aspecten zoals vertaalkwaliteit, spraakkwaliteit en temporele kwaliteit, maar deze aspecten worden vaak geëvalueerd onder afzonderlijke protocollen, waardoor het moeilijk is om heterogene systemen uitgebreid te vergelijken. Om deze lacune aan te pakken presenteren wij OpenSTBench, een uniform multidimensional evaluatiekader dat heterogene spraakvertalingsuitvoer organiseert in een gedeeld evaluatieformaat. OpenSTBench ondersteunt zowel S2TT- als S2ST-systemen in offline- en streaminginstellingen en evalueert gezamenlijk vertaalkwaliteit, spraakkwaliteit, behoud van spreker, emotie- en paralinguïstische getrouwheid, temporele consistentie en latentie. Door middel van experimenten met representatieve spraakvertalingssystemen tonen wij aan dat systemen met sterke vertaalkwaliteit nog steeds aanzienlijk kunnen verschillen in spraakkwaliteit en in temporele kwaliteit. OpenSTBench biedt een reproduceerbaar protocol voor het analyseren van deze cross-dimensionale verschillen en ondersteunt toepassingsgerichte vergelijking van spraakvertalingssystemen. De code en datasets zijn beschikbaar op https://github.com/sjtuayj/OpenSTBench.

Ontsluiten van feature learning in Gated Delta Networks op schaal
Unlocking Feature Learning in Gated Delta Networks at Scale

Jun 2

ByYifeng Liu, Quanquan Gu

Het trainen en schalen van Grote Taalmodellen vereist enorme computationele middelen, wat aanleiding geeft tot zowel efficiënte sub-kwadratische architecturen als principiële methoden voor hyperparameterafstemming. Hoewel de Maximale Update Parametrisatie (μP) zero-shot hyperparameteroverdracht voor standaard Transformers mogelijk heeft gemaakt, blijft de uitbreiding ervan naar lineaire modellen, met name die met gestructureerde toestandsovergangen en complexe architecturen, grotendeels onverkend. Door rigoureus coördinaatgrootte-schattingen te propageren door de voorwaartse doorgang, poortmechanismen en recurrente toestandsdynamica, leiden we de schalingsregels voor Gated Delta Netwerk af. Experimenten met pre-training van taalmodellen bevestigen dat onze configuraties stabiele leersnelheidsoverdracht over modelbreedtes mogelijk maken onder zowel AdamW als SGD, terwijl de standaard parametrisatie niet slaagt in overdracht, wat de juistheid en het praktische nut van onze analyse bevestigt.

Stable-Layers: Fijnafstemming van modellen voor beeldlaagdecompositie met VLM-gescoord versterkend leren
Stable-Layers: Fine-Tuning Image Layer Decomposition Models with VLM-Scored Reinforcement Learning

May 28

ByCiara Rowles, Reshinth Adithyan, Nikhil Pinnaparaju, Vikram Voleti, Mark Boss

We presenteren Stable-Layers, een reinforcement learning-raamwerk dat de noodzaak van gepaarde supervisie elimineert door een voorgetraind laagdecompositiemodel te finetunen met alleen feedback van een visie-taalmodel (VLM). Uitgaande van Qwen-Image-Layered passen we Flow-GRPO toe met LoRA-adaptatie, waarbij we per afbeelding meerdere kandidaatdecomposities bemonsteren, deze beoordelen met een VLM en het beleid optimaliseren op basis van groepsrelatieve voordelen. De voornaamste uitdaging ligt in het ontwerpen van een betrouwbaar beloningssignaal: VLM's die samples geïsoleerd beoordelen, hebben de neiging hun oordelen in een smalle bandbreedte samen te persen, waardoor GRPO weinig variantie binnen de groep heeft om van te leren. We lossen dit op met een tweefasige evaluatiepijplijn die gestructureerde per-sample scoring over vijf bewerkingsgerichte criteria combineert met een roostergebaseerde kalibratiestap waarin de VLM alle kandidaten naast elkaar opnieuw beoordeelt. Stable-Layers produceert decomposities met sterkere laagscheiding, minder lege of artefactrijke lagen en een lagere reconstructiefout per laag op de Crello-dataset in vergelijking met het basismodel.

PaintBench: Deterministische evaluatie van nauwkeurige visuele bewerking
PaintBench: Deterministic Evaluation of Precise Visual Editing

May 29

ByKai Xu, Ellis Brown, Shrikar Madhu, Rob Fergus, He He, Saining Xie

Hoewel huidige multimodale modellen bekwaam zijn in open-einde visuele bewerking, blijft het uitvoeren van precieze enkelvoudige antwoordbewerkingen een belangrijke hindernis. Om deze uitdaging te onderzoeken introduceren we PaintBench, een dynamisch schaalbare benchmark die zich richt op 20 fundamentele precieze visuele bewerkingen in vier categorieën: geometrische transformatie, structurele manipulatie, kleurverandering en symbolisch redeneren. Procedurele generatie met configureerbare complexiteit maakt een effectief oneindige, contaminatiebestendige evaluatiesuite mogelijk, en deterministische evaluatie op pixelniveau elimineert de afhankelijkheid van vooringenomen beoordelingsmodellen. Bij 11 modellen voor beeldbewerking vinden we over het algemeen lage prestaties, waarbij de huidige best presterende industriële leider slechts 17,1% (mIoU) scoort. Taakdecompositie onthult bijzonder uitdagende bewerkingstypen (geometrische transformatie, de meeste structurele manipulatie, op formules gebaseerde kleurverandering) en modelspecifieke specialisaties. Fijnmazige benchmarkdiagnostiek toont verder prestatieverminderingen aan die worden veroorzaakt door scènevariaties in objectaantal, achtergrondcomplexiteit, kleurenschema en grootte van het bewerkingsgebied. Om de generalisatie van PaintBench-scores naar prestaties bij toegepaste taken te testen, creëren we een procedurele, deterministische evaluatie voor datavisualisatiebewerking (TinyGrafixBench) en vinden we een sterke lineaire correlatie met PaintBench-scores (R² = 0,91, p < 0,001). Al met al biedt PaintBench een rigoureuze basis voor het meten en stimuleren van vooruitgang in precieze multimodale visuele bewerking.

Agent libOS: een Library-OS-geïnspireerde runtime voor langdurige, capaciteitsgestuurde LLM-agenten
Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents

Jun 2

ByYingqi Zhang

Grote taalmodellen (LLM) agenten evolueren van vraag-antwoordassistenten naar langlopende software-actoren: ze behouden toestand over modelaanroepen heen, splitsen subtaken af, wachten op externe gebeurtenissen, vragen menselijke autoriteit aan, genereren tools, en voeren bijwerkingen uit die moeten worden hervat en gecontroleerd. Dit artikel presenteert Agent libOS, een runtime-substraat voor LLM-agenten dat is geïnspireerd op bibliotheekbesturingssystemen (libOS). Agent libOS draait bovenop een conventioneel hostbesturingssysteem; het implementeert geen hardwarestuurprogramma's, kernelmodusisolatie of een POSIX-compatibel besturingssysteem. In plaats daarvan behandelt het een agent als een AgentProcess: een planbaar uitvoeringssubject met procesidentiteit, ouder-kind afstammingslijn, levenscyclusstatus, een tooltabel afgeleid van een AgentImage, getypeerd Object Memory, expliciete capabilities, menselijke wachtrijen, checkpoints, gebeurtenissen en auditrecords. De centrale ontwerpregel is dat tools libc-achtige wrappers zijn; runtime-primitieven vormen de autoriteitsgrens. Bestandssysteemtoegang, objecttoegang, slaapstanden, menselijke goedkeuring, JIT toolregistratie en externe bijwerkingen worden gecontroleerd op primitiefgrenzen onder expliciete capabilities en beleid. We beschrijven het ontwerp, het dreigingsmodel, het Python-prototype en de veiligheidsgerichte evaluatie. Het huidige prototype implementeert asynchrone planning, namespace-lokaal Object Memory, runtime-geïntegreerde menselijke goedkeuring, eenmalige toestemmingsverleningen, per-proces werkdirectory's, shell- en imageregistratie-primitieven, Deno/TypeScript JIT tools via een libOS syscall-broker, bestandssysteem/object-bridge tools, een injecteerbaar Resource Provider Substrate, deterministische demo's, real-model smoke scripts en op het moment van schrijven 123 regressietests. In plaats van het verbeteren van de planner-nauwkeurigheid, toont Agent libOS een runtime-substraat waarin langlopende LLM-agenten kunnen worden gepland, geautoriseerd, hervat en gecontroleerd, zonder tool dispatch als vertrouwensgrens te behandelen.

SpatialAct: Onderzoek naar ruimtelijke redeneer-naar-actie vermogens van VLM-agenten in 3D-scènes
SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes

May 29

ByTianhui Liu, Jie Feng, Zhiheng Zheng, Shengyuan Wang, Yiming Guo, Yanxin Xi, Hangyu Fan, Yong Li, Pan Hui

Mensen kunnen moeiteloos ruimtelijke indelingen waarnemen, cognitieve representaties vormen, redeneren over ruimtelijke relaties en dergelijke redeneringen omzetten in acties in alledaagse 3D-omgevingen. Hoewel recente visie-taalmodel (VLM) veelbelovende prestaties hebben laten zien op observatie-afhankelijke ruimtelijke perceptie- en redeneertaken, blijft het onduidelijk of ze coherent ruimtelijk begrip kunnen opbouwen, ernaar kunnen handelen en hun acties kunnen verfijnen via meerstapsfeedback. Om dit probleem te bestuderen, introduceren we SpatialAct, een op een simulator gebaseerde benchmark voor het onderzoeken van actie-geconditioneerd ruimtelijk redeneren in 3D-scènes. Uitgaande van de meest uitdagende setting, Meerstaps Interactieve Verfijning, ontwerpen we verder de opgesplitste tegenhanger, Enkelstaps Foutdetectie en Correctie, samen met vijf fundamentele ruimtelijke vermogenstaken om de onderliggende oorzaken van modelfouten te diagnosticeren. Experimenten onthullen een duidelijke redeneren-actie kloof: huidige VLM's kunnen goed presteren op geïsoleerde ruimtelijke redeneertaken, maar hebben moeite om coherente ruimtelijke overtuigingen te behouden en betrouwbare acties te produceren tijdens meerstapsfeedback, waarbij ze aanzienlijk slechter presteren dan mensen. Deze resultaten suggereren dat huidige VLM-agenten nog steeds robuuste ruimtelijke toestandsvolging missen onder door acties geïnduceerde omgevingsveranderingen, zelfs wanneer laagniveaucontrole wordt geabstraheerd.

Onderzoek naar overeenkomst op uitkomstdniveau en afstemming op mechanismeniveau in risicobeslissingen van LLM's: bewijs uit het Sint-Petersburgspel
Probing Outcome-Level Resemblance and Mechanism-Level Alignment in LLM Risk Decisions: Evidence from the St. Petersburg Game

Jun 3

ByChensong Huang, Changyu Chen, Chenwei Lin, Hanjia Lyu, Xian Xu, Jiebo Luo

LLM's kunnen voorzichtig lijken in risicobeslissingstaken, maar voorzichtig ogende uitkomsten wijzen niet noodzakelijkerwijs op afstemming met menselijke besluitvormingsmechanismen. We onderzoeken dit onderscheid aan de hand van het Sint-Petersburgspel als gecontroleerde testomgeving, een klassieke paradox waarin de verwachte uitbetaling oneindig is, maar mensen doorgaans een lage, eindige betalingsbereidheid rapporteren. We evalueren 28 LLM's met een gestructureerd promptpakket dat het oorspronkelijke spel bevat; gecontroleerde besluitvarianten die truncatie, herhaald spel, numeriek kapitaal en beroepsidentiteit verstoren; een mensperspectiefprompt dat modellen vraagt te redeneren als menselijke besluitvormers; en gepaarde vergelijkingen tussen basismodellen en hun instructiegetunede tegenhangers. In het oorspronkelijke spel genereren de meeste modellen eindige biedingen, wat de schijn wekt van menselijk risicogedrag. Deze overeenkomst op uitkomstniveau maskeert echter aanzienlijke verschillen op mechanismeniveau. De gecontroleerde varianten tonen aan dat modellen, in plaats van het in het oorspronkelijke spel waargenomen menselijk gedrag te handhaven, vaak overschakelen naar conditioneel en computationeel rationeel gedrag. Menselijk-cue-prompts en instructietuning verlagen vaak biedingen en verminderen enkele zichtbare pathologieën, maar de meeste responspatronen op mechanismeniveau blijven grotendeels ongewijzigd. Deze bevindingen tonen aan dat gedragsmatige afstemming in risicobesluitvorming oppervlakkig kan zijn: LLM's kunnen menselijke risicobesluiten produceren zonder menselijk consistente mechanismen te vertonen. Evaluaties met hoge inzet van LLM-besluitvorming moeten daarom verder kijken dan uitkomstovereenkomst en onderzoeken of de afstemming wordt ondersteund door consistentie op mechanismeniveau.

Diep ingebedde multiplicatieve DMD voor algebra-behoudend Koopmanleren
Deep Embedded Multiplicative DMD for Algebra-Preserving Koopman Learning

Jun 3

ByKelan Gray, Finlay Brown, Nicolas Boullé, Matthew J. Colbrook

De Koopman-theorie zet niet-lineaire dynamica om in een lineair spectraalprobleem. In de praktijk hangt echter alles af van een harde eindig-dimensionale keuze: de observabelen moeten expressief zijn, bijna invariant onder de dynamica en idealiter compatibel met compositie. Diepe Koopman-methoden leren flexibele coördinaten, terwijl structuurbehoudende methoden operatoridentiteiten afdwingen op vaste dictionaries. Wij combineren deze ideeën door Deep Embedded Multiplicative Dynamic Mode Decomposition (DeepMDMD) te introduceren, een methode die een latente ruimte en een partitie ervan leert, terwijl de Koopman-productregel als exacte algebraïsche beperking wordt opgelegd. De training alterneert tussen een exacte multiplicatieve operatorupdate en een differentieerbare latente-clusteringstap die Koopman-afsluiting bevordert. Het resultaat is een eindige transitieafbeelding op geleerde latente cellen. Het niet-nulspectrum ligt op de eenheidscirkel, de dictionary wordt gevormd door de dynamica in plaats van door de omgevingsgeometrie, en voorspellingen worden in latente coördinaten gemaakt voordat ze naar de fysieke ruimte worden gedecodeerd. In Hamiltoniaanse, chaotische en vloeistofvoorbeelden leert DeepMDMD dictionaries die aanzienlijk compacter en dynamisch coherent zijn dan die geproduceerd door geometrische MDMD-partities. Het vermindert spectrale vervuiling, onthult rijkere continuümspectrumstructuur en geeft stabiele voorspellingen onder ernstige ruis. In hoogdimensionale stromingen, waaronder een 158.624-dimensionale cilinderzog en een ruizige Re=20.000 dekselgedreven holte, behoudt het coherente structuren en lange-termijn spectraalstatistieken waar toestandsruimte-MDMD faalt. Deze resultaten suggereren een praktische vuistregel voor Koopman-leren: leer de coördinaten, beperk de algebra.

Wanneer Grafiektokens Wegzinken: Een Mechanistische Analyse van Grafiektaalmodellen
When Graph Tokens Sink: A Mechanistic Analysis of Graph Language Models

Jun 2

ByDing Zhang, Runtao Zhou, Wenqing Zheng, Rizal Fathony, Bayan Bruss, Chirag Agarwal

Grafiektaalmodellen (GLM's) zijn een veelbelovende richting geworden voor het aanpassen van Grote Taalmodellen (LLM's) aan grafiekleertaken. Door grafiektopologie en knoopinformatie om te zetten in grafiektokens, stellen GLM's LLM's in staat om gestructureerde grafiekinvoer en tekstuele instructies gezamenlijk te verwerken. Toch blijft het onduidelijk hoe LLM's deze grafiektokens intern interpreteren en of grafiektokens fungeren als betekenisvolle dragers van grafiekstructuur. In dit werk analyseren we hoe LLM's grafiekinformatie verwerken via het gedrag van grafiektokens in representatieve GLM-architecturen. **Bevindingen.** We vinden dat de interne saillantie van grafiektokens in GLM's niet gelijkstaat aan het gebruik van grafiekinformatie. Grafiek-sinktokens komen consistent naar voren als uitbijters op activatieniveau: ze kunnen worden geïdentificeerd door massale activatiewaarden over een kleine set van verborgen-toestandsdimensies en zijn geneigd naar vroege grafiektokenposities. Deze saillantie op activatieniveau impliceert echter niet dat deze tokens de belangrijkste dragers van grafiekinformatie zijn. In tegenstelling tot klassieke aandachtssinks in taal- en visie-taalmodellen, trekken grafiek-sinktokens niet noodzakelijk de grootste aandachtsgewichten aan van querytokens. Door middel van snoei-, herpositionerings- en uitwisselingsinterventies tonen we aan dat grafiek-sinktokens niet de belangrijkste semantische of structurele tokens zijn voor stroomafwaartse voorspelling. **Implicaties.** Samen suggereren deze resultaten dat, nadat huidige GLM's grafiekstructuur in de LLM-tokenruimte hebben afgebeeld, de resulterende grafiektokenrepresentaties niet vanzelfsprekend een volledig bruikbare topologiebewuste interne representatie vormen; in plaats daarvan vertonen ze een ontkoppeling tussen saillantie op activatieniveau en grafieksemantische bruikbaarheid. Deze ontkoppeling wijst op beperkingen in bestaande mechanismen voor constructie, plaatsing en afstemming van grafiektokens.

MeshWeaver: Sparse-Voxel-Geleid Oppervlakteweven voor Autoregressieve Meshgeneratie
MeshWeaver: Sparse-Voxel-Guided Surface Weaving for Autoregressive Mesh Generation

Jun 3

ByJiale Xu, Wang Zhao, Ying Shan

Autoregressieve mesh-generatie heeft aandacht gekregen door meshes te tokeniseren in sequenties en modellen te trainen op een taalmodelleringsmanier. Echter, bestaande benaderingen hebben te maken met twee fundamentele beperkingen: (i) lage tokenisatie-efficiëntie, wat leidt tot lange tokensequenties en het opschalen naar meshes met veel polygonen belemmert, en (ii) afwezigheid van geometrie-bewuste begeleiding, aangezien generatie alleen wordt geconditioneerd op globale vormembeddings in plaats van lokale oppervlakte-aanwijzingen. We introduceren MeshWeaver, een autoregressief raamwerk dat mesh-generatie beschouwt als een oppervlakteweefproces door direct het volgende hoekpunt te voorspellen in plaats van onafhankelijke coördinaten. De kern ervan is een multi-level sparse-voxel encoder die geometrische context in het generatieve proces injecteert op drie complementaire manieren: het leveren van voxelfeatures als hoekpuntrepresentaties, het begeleiden van tokenpredictie via cross-attention naar voxelfeatures, en het dienen als een structureel scaffold dat generatie rond het ingevoerde oppervlak beperkt. Ons hiërarchische ontwerp maakt grof-naar-fijn hoekpuntpredictie mogelijk in een enkele decodeerstap, terwijl het generatieve model nauw wordt gekoppeld aan 3D-geometrie. Uitgebreide experimenten tonen aan dat MeshWeaver een state-of-the-art compressieverhouding van 18% bereikt, meshes kan genereren met maximaal 16K vlakken, en de geometrische getrouwheid aanzienlijk verbetert ten opzichte van eerdere benaderingen.

Scorecontrole voor reductie van hallucinaties in diffusiemodellen
Score-Control for Hallucination Reduction in Diffusion Models

May 29

ByMahesh Bhosale, Naresh Kumar Devulapally, Abdul Wasi, Chau Pham, Vishnu Suresh Lokhande, David Doermann

Diffusiemodellen zijn uitgegroeid tot de ruggengraat van moderne generatieve AI en drijven vooruitgang in visie, taal, audio en andere modaliteiten. Ondanks hun succes lijden ze aan hallucinaties: onwaarschijnlijke samples die buiten de drager van de echte datadistributie vallen, wat de betrouwbaarheid en het vertrouwen vermindert. In dit werk bevestigen we eerst empirisch de eerder voorgestelde hypothese dat scoregladheid hallucinaties veroorzaakt in diffusiemodellen voor beeldgeneratie en bieden we een dichtheidsgebaseerd perspectief. We formaliseren dit begrip verder door de waarschijnlijkheidsmassa van hallucinaties te koppelen aan de Lipschitz-constante van de geleerde scorefunctie. Gemotiveerd hierdoor introduceren we een variantiegestuurde scoremodulatie (VSM)-strategie die de score-Jacobiaan controleert, wat op zijn beurt de scoregladheid vermindert en de ware score beter benadert, waardoor hallucinaties afnemen. Empirische resultaten op synthetische en real-world datasets tonen aan dat onze aanpak hallucinaties vermindert (tot ~25%) terwijl hoge getrouwheid en diversiteit behouden blijven, wat een principiële stap biedt naar betrouwbaardere diffusiegebaseerde beeldgeneratie. We stellen ook twee benchmarkdatasets voor met extreme semantische variatie voor systematische evaluatie van hallucinaties. Code en datasets zijn openbaar beschikbaar op https://github.com/bhosalems/VSM.

Agentische Chain-of-Thought-aansturing voor efficiënt en beheersbaar LLM-redeneren
Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning

Jun 2

ByYu Xia, Zhouhang Xie, Xin Xu, Byungkyu Kang, Prarit Lamba, Xiang Gao, Julian McAuley

Grote taalmodellen verbeteren de nauwkeurigheid van eindantwoorden door uitgebreide keten-van-gedachte redeneringen, maar besteden vaak inefficiënt tokens en bieden weinig controle tijdens inferentie. Bestaande efficiënte redeneermethoden controleren de denkduur door sporen in te korten, voortijdig te stoppen of samen te drukken, waardoor impliciet blijft hoe het model denkt. In dit artikel stellen we Agentic Chain-of-Thought Steering (ACTS) voor, dat het sturen van redeneringen formuleert als een Markov beslissingsproces waarbij een controller-agent tijdens inferentie een bevroren redeneerder adaptief stuurt. Bij elke stap observeert de controller het redeneerspoor en het resterende denkbudget, en geeft vervolgens een stuuractie bestaande uit een redeneerstrategie en een stuurzin die de volgende stap van de redeneerder initieert. Dit maakt budgetbewuste strategiecontrole mogelijk voor efficiënt redeneren, terwijl de generatiecontinuïteit van de redeneerder behouden blijft. We initialiseren de controller-agent vanuit onze geconstrueerde synthetische stuurpaden met multi-budget augmentatie, en optimaliseren deze verder via versterkend leren met budget-afhankelijke beloningsvormgeving. Experimenten op meerdere benchmarks tonen aan dat ACTS de prestaties van volledig denken evenaart met aanzienlijke tokenbesparingen, en controleerbare afwegingen tussen nauwkeurigheid en efficiëntie mogelijk maakt voor verschillende redeneerders en taken. De code is beschikbaar op https://github.com/Andree-9/ACTS.

Meten van de symmetrie-data-uitwisselingssnelheid
Measuring the Symmetry--Data Exchange Rate

May 31

ByAhmed M. Adly

De equivalentietheorie voorspelt dat een architecturale symmetrieprior de steekproefcomplexiteit reduceert met een factor |G|; dit wordt breed geciteerd maar zelden gemeten als een schalingswet met controles die de prior scheiden van zijn verstorende factoren. In een gecontroleerde C_n-symmetrische taak rapporteren we drie bevindingen. Ten eerste is een verkeerde-groepcontrole met identieke baanlengte en vergelijkbare rekenkracht slechter dan geen beperking (gezamenlijk paarsgewijs BI [+0,79, +3,26] sluit nul uit, robuust over schatters); een verkeerd uitgelijnde beperking is actief schadelijk, niet alleen nutteloos. Ten tweede komt een augmentatiebasislijn uitgerust met baangemiddelde bij testtijd exact overeen met het equivariante model – bit-identieke validatiecurven per epoch over gematchte cellen – dus de kloof tussen architectuur en augmentatie is conditioneel op asymmetrische testtijdberekening, niet onvoorwaardelijk. Ten derde is de relatieve uitwisselingsratio beta_diff = 1,28 consistent qua teken en grootteorde met de theoretische 1,0 (enkelvoudig BI [+0,92, +2,05]); de meer conservatieve tweeledige bootstrap (zaden x groepsgroottes) verbreedt dit naar [-0,63, +1,72], inclusief nul, en een fijnere N-replicatie op een sqrt(2)-gespreid raster is niet overtuigend (puntschatting -0,82). De methodologische bijdragen – de relatieve-snelheidsschatter die de gedeelde-moeilijkheidverstorende factor annuleert, de verkeerde-groepcontrole en een vooraf gespecificeerde faaltaxonomie – zijn overdraagbaar naar elke inductieve bias waarvan de sterkte kan worden geparametriseerd. Eerlijke afbakening: de primaire schatter beta_diff werd post-hoc aangenomen nadat de eerste analyse een identificatieprobleem met positieve helling onthulde; het ontwerp is nooit extern vooraf geregistreerd; en het kerncijfer berust op een OLS-helling over zeven groepsgroottes op een grof N-raster. Dit is een verkennende studie, geen bevestigende meting; het verkeerde-groepresultaat is de zuiverste bevinding en degene waarover we het meest zeker rapporteren. Een geregistreerde replicatie op verse zaden is toekomstig werk.

Semi-gesuperviseerde ruisadaptatie: kennisoverdracht vanuit het ruisdomein
Semi-Supervised Noise Adaptation: Transferring Knowledge from Noise Domain

May 30

ByYuan Yao, Jin Song, Huixia Li, Tongtong Yuan, Jiaqi Wu, Yu Zhang

Transfer learning heeft als doel het leren van een doeldomein te vergemakkelijken door kennis over te dragen van een brondomein. Het brondomein bevat typisch semantisch betekenisvolle samples (bijv. afbeeldingen) om effectieve kennisoverdracht te faciliteren. Een recente studie observeert echter dat het ruisdomein, geconstrueerd uit eenvoudige verdelingen (bijv. Gaussiaanse verdelingen), kan dienen als een surrogaat brondomein in de semi-gesuperviseerde setting, waarbij slechts een klein deel van de doelsamples gelabeld is terwijl de meeste ongelabeld blijven. Op basis van deze verrassende observatie formuleren we een nieuw probleem, genaamd *Semi-Supervised Noise Adaptation* (SSNA), dat streeft naar het gebruik van een synthetisch ruisdomein om de generalisatie van het doeldomein te verbeteren. Om dit probleem aan te pakken stellen we eerst een generalisatiegrens op die het effect van het ruisdomein op generalisatie karakteriseert, op basis waarvan we een *Noise Adaptation Framework* (NAF) voorstellen. Uitgebreide experimenten tonen aan dat NAF effectief gebruik maakt van het ruisdomein om de generalisatiegrens van het doeldomein te verscherpen, wat leidt tot verbeterde prestaties. De code is beschikbaar op https://github.com/AIResearch-Group/SSNA.

Grote Taalmodellen hacken beloningen, en de samenleving
Large Language Models Hack Rewards, and Society

Jun 2

ByWei Liu, Xinyi Mou, Hanqi Yan, Zhongyu Wei, Yulan He

Reinforcement learning (RL) is een dominant post-training paradigma geworden, waarmee grote taalmodellen (LLMs) kunnen leren van beloningen. We merken op dat maatschappelijke regelgeving structureel lijkt op beloningsfuncties: ze definiëren meetbare uitkomsten, drempels en uitzonderingen, terwijl ze de institutionele intentie vaak slechts gedeeltelijk specificeren. We veronderstellen dat het RL-trainingsproces deze hiaten kan exploiteren en vragen ons daarom af of de bekende neiging van modellen om beloningsfuncties te hacken tijdens RL kan uitgroeien tot een ernstigere faalmodus, genaamd maatschappelijk hacken: het ontdekken van mazen in de regels waar de samenleving op draait. Om dit fenomeen te bestuderen, introduceren we SocioHack, een sandbox van 72 maatschappelijke omgevingen, en vinden we dat beloningshacken binnen deze omgevingen vanzelf ontstaat en leidt tot het ontdekken van regelgevingsmazen. Modellen leren de sociale regels te hacken en strategieën te genereren die technisch compliant blijven, maar de regelgevingsintentie ondermijnen; de huidige LLM-beschermingsmaatregelen bieden slechts beperkte mitigatie. Daarom vereist het verzamelen van feedback in het wild voor modeltraining meer voorzichtigheid, en hebben we een volgende generatie post-training paradigma nodig voor het veilig itereren van LLMs in de echte samenleving.

SuperMemory-VQA: een egocentrische visuele vraag-antwoord benchmark voor langetermijngeheugen
SuperMemory-VQA: An Egocentric Visual Question-Answering Benchmark for Long-Horizon Memory

May 30

BySamiul Alam, Shakhrul Iman Siam, Michael J. Proulx, James Fort, Richard Newcombe, Hyo Jin Kim, Mi Zhang

AI-brillen bieden een veelbelovend platform voor AI-agenten om als gepersonaliseerde geheugenassistenten te fungeren. Om werkelijk nuttig te zijn, moeten dergelijke systemen verder gaan dan kortetermijnvideobegrip en moeten ze geheugenlacunes aanpakken die mensen ervaren voor praktische, persoonlijke of sociale doeleinden in longitudinale egocentrische videostreams. Bestaande egocentrische datasets richten zich echter voornamelijk op actieherkenning of algemene vragen en antwoorden uit korte clips, waarmee perceptuele vermogens worden gemeten in plaats van realistische menselijke geheugenbehoeften. We introduceren SuperMemory-VQA, een egocentrische visuele vraag-en-antwoorddataset (VQA) voor het evalueren van AI-assistenten op praktische, langetermijngeheugentaken. Het bevat 52,9 uur aan dagelijkse activiteiten opgenomen met AI-brillen, inclusief gesynchroniseerde RGB-video, audiotranscriptie, oogbewegingen, IMU en SLAM-trajecten. Via een door mensen geverifieerde annotatiepijplijn construeren we 4.853 gefundeerde vraag-antwoordparen die object- en locatiegeheugen, intentieherinnering, visuele scèneherinnering, tijdlijnreconstructie, conversatiegeheugen en contextuele retrievel bestrijken. Elke vraag wordt gesteld als meerkeuze met een expliciete "niet te beantwoorden"-optie om robuustheid tegen hallucinaties te testen. Benchmarking van toonaangevende agentische frameworks en LLM-backbones toont aan dat bestaande systemen verre van betrouwbaar zijn bij realistische geheugentaken, wat de noodzaak benadrukt van nieuwe architecturen voor gefundeerd AI-geheugen die alleen antwoorden wanneer er voldoende bewijs is. Een deelnemersonderzoek bevestigt verder dat onze vragen realistisch, nuttig en afgestemd zijn op dagelijkse geheugenbehoeften.

Schaalbare Inferentietijd-Annealing met Surrogaat Aannemelijkheidsschatters
Scalable Inference-Time Annealing with Surrogate Likelihood Estimators

Jun 1

ByDaniel Peñaherrera, Rishal Aggarwal, David Ryan Koes

Een al lang bestaande uitdaging in computationele chemie en biofysica is het efficiënt bemonsteren van de Boltzmannverdeling van moleculen. Vooruitgang in generatieve modellering is voorgesteld om de beperkingen van conventionele bemonsteringstechnieken aan te pakken door de rekenkosten van simulatie te elimineren. Een veelbelovende richting is het iteratief finetunen van diffusiemodellen langs een temperatuurladder, waarbij trainingsdata worden gegenereerd via importantiebemonstering tijdens het annealen op het moment van inferentie. Helaas vereisen deze methoden het berekenen van een divergentie over het scoreveld om importantiegewichten te schatten, wat ze onhandelbaar maakt voor grotere systemen. Hier presenteren we schaalbaar annealen tijdens inferentie (SITA), dat op stroming gebaseerde modellen hertraint om monsters te genereren bij progressief lagere temperaturen met behulp van een op energie gebaseerd model om snelle surrogate waarschijnlijkheden mogelijk te maken. We demonstreren state-of-the-art prestaties op zowel Alanine Dipeptide als Alanine Tripeptide, terwijl we kostbare divergentietermen vermijden. Onze code is beschikbaar op https://github.com/countrsignal/sita.git

Functionele Aandacht: Van Paarsgewijze Affiniteiten naar Functionele Correspondenties
Functional Attention: From Pairwise Affinities to Functional Correspondences

May 29

ByJiefang Xiao, Maolin Gao, Simon Weber, Guandao Yang, Daniel Cremers

Het leren van afbeeldingen tussen oneindig-dimensionale functieruimten, of operatorleren, is essentieel voor veel machine learning-toepassingen. Hoewel op transformatoren gebaseerde operatoren populair zijn, vertrouwen ze vaak op token-gewijze aandacht. Deze methoden behandelen continue velden als discrete tokens en negeren meestal de globale functionele structuur. We introduceren Functionele Aandacht, die aandacht herinterpreteert als een functionele correspondentie tussen adaptieve basissen. Geïnspireerd door geometrische functionele afbeeldingen vervangt onze methode softmax-affiniteiten door gestructureerde lineaire operatoren. Dit levert een compacte, generaliseerbare, resolutie-invariante representatie op die expliciet globale afhankelijkheden vastlegt. Experimenten tonen aan dat Functionele Aandacht state-of-the-art prestaties kan evenaren in veel operatorleertaken, waaronder het oplossen van PDE's, 3D-segmentatie en regressie, terwijl het robuust blijft voor variërende discretisaties. De projectpagina is beschikbaar op https://github.com/xjffff/FUNCATTN.

Training-vrije multi-concept LoRA-compositie met prompt-bewuste weging
Training-Free Multi-Concept LoRA Composition with Prompt-Aware Weighting

Jun 2

ByGeorgios Tsoumplekas, Stella Bounareli, Vasileios Argyriou

Lage-Rang Adaptatie (LoRA) maakt personalisatie in tekst-naar-beeld generatie succesvol mogelijk door vooraf getrainde diffusiemodellen aan te passen aan specifieke visuele concepten en stijlen. Het uitbreiden van dergelijke modellen naar multi-concept aanpassing blijft echter lastig. Het naïef combineren van meerdere LoRA-gewichten of hun uitvoer leidt vaak tot interferentie tussen de concepten, wat resulteert in verminderde visuele kwaliteit en lagere getrouwheid aan de referentiebeelden van individuele concepten. Dit artikel stelt een eenvoudige maar effectieve aanpak voor voor multi-concept aanpassing door de uitvoer van meerdere LoRA-modules optimaal te combineren. We benutten het relatieve belang van elk concept tijdens het genereren, afgeleid van de bijbehorende prompt-tokens, en introduceren twee methoden, W-Switch en W-Composite, die een promptbewuste strategie voor gewichtstoekenning gebruiken, waarbij elke LoRA wordt gewogen op basis van de semantische invloed van de triggerwoorden in de doelprompt. Daarnaast breiden we bestaande kwantitatieve evaluatiemetingen uit door een nieuw op beelden gebaseerd evaluatiekader voor gelijkenis voor te stellen, dat de beeldgetrouwheid en identiteitsbehoud beoordeelt door vergelijkingen tussen echte referentiebeelden en automatisch gesegmenteerde conceptregio's uit gegenereerde beelden. We evalueren onze aanpak op de ComposLoRA-testomgeving en tonen consistente verbeteringen ten opzichte van bestaande state-of-the-art methoden op het gebied van visuele kwaliteit, identiteitsbehoud en compositie. Kwalitatieve evaluaties, waaronder een op een groot taalmodel (LLM) gebaseerde beoordeling en een gebruikersstudie, bevestigen de effectiviteit van de voorgestelde methoden en komen overeen met de nieuw geïntroduceerde kwantitatieve op beelden gebaseerde metrieken. Onze code is beschikbaar op https://github.com/GeorgeTsoumplekas/Prompt-Aware-Multi-LoRA-Composition.

Generaliseren tekstbewerkingen naar visuele generatie? Benchmarking van cross-modale kennisediting in UMM's
Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

May 30

ByXin Gao, Cheng Yang, Chufan Shi, Taylor Berg-Kirkpatrick

Unified multimodale modellen (UMM's) zijn naar voren gekomen als een veelbelovend paradigma voor algemene multimodale intelligentie. Nu ze in praktijktoepassingen worden ingezet, wordt het effectief bijwerken van interne kennis cruciaal. Hoewel kenniseditatie voor tekstgebaseerde modellen volwassen is geworden, blijft het onduidelijk of bewerkingen die tekstuele outputs succesvol aanpassen ook overdragen naar beeldgeneratie in UMM's. Om deze vraag te bestuderen introduceren we UniKE, de eerste benchmark voor crossmodale kenniseditatie in UMM's, bestaande uit 2.971 bewerkingssubjecten die zowel attribuut- als relatiebewerkingen omvatten. Met behulp van VQA-gebaseerde visuele verificatie onthullen we een opvallende modaliteitskloof: de effectiviteit aan de tekstzijde kan ongeveer 92% bereiken, terwijl de beste algehele VQA-nauwkeurigheid onder directe beeldgeneratie slechts 18,5% is. We stellen verder Redeneringsverrijkte Parameterbewerking voor, die bewerkte kennis expliciet activeert vóór generatie en de algehele VQA-nauwkeurigheid voor alle geëvalueerde model-editor-paren verbetert, met winsten tot 18,6 procentpunt. Mechanistische analyse toont aan dat deze kloof samenhangt met gedeeltelijke afstemming tussen bewerkte tekstuele representaties en de conditioneringspaden voor visuele generatie, waarbij bewerkingen die voldoende zijn voor tekstoutputs te zwak of verkeerd uitgelijnd kunnen blijven om beeldsynthese te sturen. Deze bevindingen tonen aan dat tekstuele kenniseditaties geen betrouwbare crossmodale overdracht garanderen en motiveren modaliteitsbewuste bewerkingsmethoden. Onze code en gegevens zijn beschikbaar op https://github.com/gxx27/UniKE.

Tokenbudgetten: Een empirische catalogus van 63 budgetoverschrijdingsincidenten bij LLM-agenten, met een affine-getypeerde Rust-mitigatie als casestudy
Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents, with an Affine-Typed Rust Mitigation as a Case Study

Jun 2

BySajjad Khan

Budgetoverschrijdingen bij LLM-agenten vormen een gedocumenteerde klasse van productiefouten: een enkele herhaal-lus kan duizenden dollars kosten voordat een operator het opmerkt, en de integriteitseigenschappen tijdens het proces die dit zouden voorkomen (geen aliasing, geen dubbeluitgave, geen gebruik-na-delegatie van een kostendraagbare waarde) worden, als ze al worden afgedwongen, door ad-hoc wrappers in plaats van door het typesysteem. Onze centrale bijdrage is empirisch: een catalogus van 63 bevestigde productie-incidenten uit 21 orkestratieframeworks (2023–2026), elk onderbouwd met een geciteerd GitHub-issue en, waar gerapporteerd, een dollarschade, georganiseerd in een taxonomie met acht faalclusters (inter-beoordelaar Cohen's kappa = 0,837, N = 113), plus 47 aanvullende structurele items. Als een van de mitigerende maatregelen die tegen deze taxonomie zijn geëvalueerd, bouwen we token-budgets, een Rust crate van 1.180 regels (zonder unsafe) die affien eigendom operationaliseert, zodat klonen, dubbeluitgeven of het gebruiken van een budget na delegatie ervan compileerfouten zijn in plaats van runtime-risico's die een operator moet onthouden te vermijden. De dollargrens is runtime-rekenkunde onder een schattingsaanname; de affiene laag maakt die rekenkunde niet-omzeilbaar. Bij single-agent workloads evenaart een Python-teller van 4 regels de crate met 0/30 overschrijding, dus de onderscheidende waarde is niet-omzeilbaarheid bij operatorfouten in multi-agent delegatie: de delegatie-fanout-race die in 11 incidenten is gedocumenteerd, wordt door de borrow checker tijdens compileertijd afgewezen, terwijl hetzelfde patroon onder asyncio 30/30 overschrijdt en drie gedisciplineerde alternatieven 0/30 overschrijden. Over vijf runtimes, drie providers en een temperatuur-gestratificeerde live-API-test (N = 160) heen rapporteert de aanpak nul cap-violaties en nul valse weigeringen, op operationeel gelijk niveau met gelijktijdig werk. Statische overreservering is 4–6× (2,11× adaptief). Geluidsgarantie op binaire niveau van de cap op de draaiende binaire code blijft een open vraag.