HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

44 papers found

ABot-Earth 0.5: Generatief 3D-Aardmodel
ABot-Earth 0.5: Generative 3D Earth Model

Jun 8

ByMing Qian, Tianjian Ouyang, Mingchao Sun, Zijian Wang, Jincheng Xiong, Jiarong Han, Yongchang Zhang, Jiawei Zhang, Xu Wang, Yu Liu, Luyang Tang, Fei Yu, Zengye Ge, Mengmeng Du, Yuan Liu, Nianfei Fan, Song Wang, Yingliang Peng, Chunxue Jia, Yang Liu, Shiying Zeng, Haozhe Shi, Junnan Lai, Hongyu Pan, Zheng Wu, Ning Guo, Mu Xu, Hang Zhang

193

We presenteren ABot-Earth 0.5, een generatief 3D-raamwerk dat is ontworpen om uitgestrekte, naadloze 3D-omgevingen te synthetiseren op basis van alomtegenwoordige, geospatiaal gerefereerde satellietbeelden. Om dit te bereiken, stellen we een nieuw generatief model voor dat direct is geformuleerd met de 3D Gaussian Splatting (3DGS)-representatie. Het model wordt getraind op een diverse verzameling bestaande real-world stedelijke reconstructies en leert realistische geometrie en texturen te genereren. Tijdens inferentie synthetiseert het nieuwe 3D-scènes, uitsluitend gebaseerd op satellietbeelden, met een schaalbare snelheid van minder dan 10 minuten per vierkante kilometer, terwijl het uitzonderlijk realisme vertoont. Het raamwerk is ontworpen voor toegankelijkheid, met geïntegreerde hiërarchische level-of-detail (LOD)-structuren die real-time, interactieve visualisatie op webgebaseerde kaartmachines mogelijk maken. Deze high-fidelity simulatieomgeving overbrugt effectief de simulatie-naar-realiteit domeinkloof, waardoor cruciale downstream Embodied AI-toepassingen zoals closed-loop UAV-navigatie mogelijk worden. Door een ultra-lage-kosten en hoge-efficiëntie oplossing te bieden, verlaagt ABot-Earth 0.5 aanzienlijk de technische en financiële drempels voor grootschalige 3D-reconstructie en versterkt het de toekomst van wereldwijde digitale aardvisualisatie.

Kwai Keye-VL-2.0 Technisch Rapport
Kwai Keye-VL-2.0 Technical Report

Jun 9

ByKwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang

167

We introduceren Kwai Keye-VL-2.0-30B-A3B, een open-source Mixture-of-Experts (MoE) multimodaal funderingsmodel ontworpen om lange-videobegrip en agentische intelligentie te bevorderen. Om de uitdagingen van ultra-lange contexten, informatie redundantie en prohibitieve rekenkosten die inherent zijn aan video's van uur-niveau aan te pakken, is Keye-VL-2.0 de eerste die DeepSeek Sparse Attention (DSA) aanpast aan GQA-gebaseerde multimodale architecturen, waardoor verliesvrije contextverwerking van 256K mogelijk wordt, terwijl kritieke frames en lange-termijn temporele afhankelijkheden worden vastgelegd. Deze architectuur wordt ondersteund door een sterk geoptimaliseerde trainings- en inferentie-infrastructuur, waaronder schaalbare video-I/O, heterogene ViT-LM-parallellisatie en aangepaste DSA-kernels die de doorvoer aanzienlijk maximaliseren en de rekenkosten minimaliseren. Verder introduceren we, om het algoritmische dilemma van catastrofale vergetelheid tijdens multi-taak afstemming te overwinnen, Cross-Modal Multi-Teacher On-Policy Distillation (MOPD), gekoppeld aan Context-RL en Video-RL. Door dichte token-niveau docentfeedback van on-policy-rollouts terug te destilleren in de MoE-ruggengraat, die slechts 3B parameters activeert, stelt Keye-VL-2.0 van nature geavanceerde agentsamenwerking in Code-, Tool- en Zoekscenario's in staat met multimodale zelfcorrectie. Uitgebreide evaluaties op het gebied van videobegrip, temporele grounding, redeneren, STEM en agentbenchmarks tonen aan dat Keye-VL-2.0-30B-A3B state-of-the-art prestaties levert onder modellen van vergelijkbare schaal, met name uitblinkend in fijnmazige temporele lokalisatie op TimeLens en lang-videobegrip op Video-MME-v2 en LongVideoBench. We geven onze modelcontrolepunten vrij om de gemeenschap te versnellen richting schaalbare en robuuste multimodale agentische toepassingen.

Role-Agent: Het bootstrappen van LLM-agenten via dubbele rol-evolutie
Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution

Jun 9

ByXucong Wang, Ziyu Ma, Shidong Yang, Tongwen Huang, Pengkun Wang, Yong Wang, Xiangxiang Chu

Hoewel agenten van grote taalmodellen (Large Language Models, LLM) sterke prestaties hebben laten zien bij complexe taken, wordt hun leren vaak beperkt door inefficiënte interactie-feedback en statische trainingsomgevingen, wat bredere generalisatie belemmert. Om deze beperkingen aan te pakken, introduceert dit artikel Role-Agent, een raamwerk dat een enkel LLM inzet om gelijktijdig te fungeren als zowel agent als omgeving, waardoor een bootstrapped co-evolutie mogelijk wordt. Role-Agent bestaat uit twee synergistische componenten: World-In-Agent (WIA) en Agent-In-World (AIW). In WIA fungeert het LLM als de agent en voorspelt het toekomstige toestanden na elke actie; de overeenstemming tussen voorspelde en werkelijke toestanden wordt vervolgens gebruikt als een procesbeloning, wat omgevingsbewuste redenering stimuleert. In AIW analyseert het LLM faalmodi uit mislukte trajecten en haalt het taken op met vergelijkbare faalpatronen, waardoor de trainingsgegevensverdeling wordt hervormd voor gerichte oefening. Experimenten op meerdere benchmarks tonen aan dat Role-Agent consistent de prestaties verbetert, met een gemiddelde winst van meer dan 4% ten opzichte van sterke basislijnen.

Retrospectieve Harnasoptimalisatie: Verbetering van LLM-agenten via Zelfvoorkeur over Trajectory Rollouts
Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts

Jun 4

ByWenbo Pan, Shujie Liu, Chin-Yew Lin, Jingying Zeng, Xianfeng Tang, Xiangyang Zhou, Yan Lu, Xiaohua Jia

AI-agenten vertrouwen op een harnas van vaardigheden, tools en workflows om complexe problemen op te lossen. Het continu verbeteren van dit harnas is essentieel om zich aan te passen aan nieuwe taken. Echter, bestaande optimalisatiemethoden vereisen doorgaans ground-truth validatiesets, maar dergelijke gelabelde gegevens zijn moeilijk te verkrijgen in praktische implementatieomgevingen. Om dit probleem aan te pakken, introduceren we Retrospective Harness Optimization (RHO), een zelfgestuurde methode die het agentharnas optimaliseert met alleen eerdere trajecten. Specifiek selecteert RHO een diverse coreset van uitdagende taken uit eerdere trajecten en lost deze opnieuw parallel op. De agent analyseert deze rollouts met behulp van zelfvalidatie en zelfconsistentie, genereert vervolgens kandidaat-harnasupdates en selecteert de meest effectieve op basis van zijn eigen paarsgewijze zelfvoorkeur. We evalueren RHO in drie uiteenlopende domeinen, namelijk softwareontwikkeling, technisch werk en kenniswerk. Opmerkelijk is dat een enkele optimalisatieronde het slaagpercentage op SWE-Bench Pro verbetert van 59% naar 78%, zonder enige externe beoordeling. Bovendien toont onze analyse aan dat RHO effectief inspeelt op eerdere faalwijzen. Als gevolg hiervan verandert het geoptimaliseerde harnas de gedragspatronen van de agent en handhaaft het een hogere nauwkeurigheid tijdens langdurige sessies.

SearchSwarm: Naar delegatie-intelligentie in agentische LLM's voor langetermijn diepgaand onderzoek
SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research

Jun 8

ByPu Ning, Quan Chen, Kun Tao, Xinyu Tang, Tianshu Wang, Qianggang Cao, Xinyu Kong, Zujie Wen, Zhiqiang Zhang, Jun Zhou

Grote taalmodellen worden steeds vaker verwacht complexe, langdurige realistische taken uit te voeren waarvan de contextvereisten onbegrensd kunnen groeien, terwijl modelcontextvensters inherent eindig blijven. Recent onderzoek verkent een paradigma waarin een hoofdagentschap taken ontleedt en deeltaken naar subagenten stuurt, die deze uitvoeren en alleen samengevatte resultaten teruggeven, waardoor het contextbudget van de hoofdagentschap wordt gespaard. Echter, het goed uitvoeren hiervan vereist delegatie-intelligentie: het vermogen om complexe taken te ontleden, te bepalen wanneer en wat er gedelegeerd moet worden, en teruggekeerde resultaten te integreren in de lopende workflow. Trainingsgegevens voor deze capaciteit zijn schaars in natuurlijk voorkomende tekst, en voor zover wij weten is hoe dergelijke gegevens te synthetiseren en modellen te trainen om deze capaciteit te verwerven grotendeels onontgonnen in de open-sourcegemeenschap. Om deze kloof te overbruggen, presenteren wij een voorlopige verkenning gericht op diepgaand onderzoek, een representatieve langdurige agenttaak. Concreet ontwerpen wij een harnas dat het model begeleidt naar hoogwaardige taakontleding en delegatie, terwijl subagenten worden beperkt om resultaten correct terug te geven ter ondersteuning van de workflow van de hoofdagentschap. De harnas-gestuurde trajecten coderen op natuurlijke wijze correcte delegatiebeslissingen, die wij gebruiken als gesuperviseerde fijnafstemmingsgegevens om delegatie-intelligentie te internaliseren in modelgewichten. Ons resulterende model, SearchSwarm-30B-A3B, behaalt 68,1 op BrowseComp en 73,3 op BrowseComp-ZH, de beste resultaten van alle modellen van vergelijkbare omvang. Wij zullen ons harnas, modelgewichten en trainingsgegevens vrijgeven om toekomstig onderzoek te faciliteren.

Voorbij de Uniforme Vertrouwensregio op Token-Niveau in Reinforcement Learning voor LLM's
Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

Jun 9

ByRenjie Mao, Xiangxin Zhou, Lvfang Tao, Yixin Ding, Yu Shi, Yongguang Lin, Yuheng Wu, Honglin Zhu, Qian Qiu, Wenxi Zhu

Reinforcement learning met verifieerbare beloningen (RLVR) is inmiddels standaard voor het verbeteren van LLM-redeneren. De bestaande trust-region mechanismen in PPO-stijl blijven echter positie-agnostisch doordat ze uniforme drempelwaarden handhaven die onafhankelijk op alle tokens worden toegepast. Deze puntsgewijze behandeling staat op twee cruciale punten op gespannen voet met autoregressieve generatie. Ten eerste negeren uniforme drempelwaarden de autoregressieve asymmetrie. Afwijkingen in een vroeg stadium leiden tot cumulatieve drift op sequentieniveau, waardoor statische drempelwaarden vroege divergentie onvoldoende reguleren en exploratie in een laat stadium overmatig beperken. Ten tweede wordt bij het geïsoleerd evalueren van divergentie op token-niveau de cumulatieve prefix-drift over het hoofd gezien, waardoor dezelfde divergentietolerantie wordt toegekend ongeacht hoe ver de conditioneringsgeschiedenis al is afgeweken van het rollout-beleid. Om deze beperking aan te pakken, stellen wij CPPO (Cumulative Prefix-divergence Policy Optimization) voor, een maskeringsregel op token-niveau die updates afstemt op een eindige-horizon beleidsverbeteringsgrens via twee gekoppelde mechanismen. Ten eerste legt een positiegewogen drempelwaarde strengere beperkingen op aan vroege posities, waarvan de effecten langer aanhouden, terwijl de beperkingen voor tokens in een laat stadium worden versoepeld. Ten tweede volgt een cumulatief prefixbudget de historische afwijkingen, waardoor verdere token-niveau afwijkingen dynamisch worden beperkt om cumulatieve fouten langs de prefix te voorkomen. Empirisch toont CPPO een verbeterde trainingsstabiliteit en een significant hogere redeneernauwkeurigheid aan bij verschillende modelschalen.

MemDreamer: Ontkoppeling van Perceptie en Redeneren voor Begrip van Lange Video's via Hiërarchisch Graafgeheugen en Agentisch Retrievalmechanisme
MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism

Jun 5

ByCong Chen, Guo Gan, Kaixiang Ji, ChaoYang Zhang, Zhen Yang, Guangming Yao, Hao Chen, Jingdong Chen, Yi Yuan, Chunhua Shen

Huidige Vision-Language Modellen hebben moeite met urenlange video's omdat het verwerken van volledige visuele sequenties leidt tot een prohibitieve tokenexplosie en aandachtverdunning. Om dit te overwinnen introduceren we MemDreamer om perceptie en redeneren te ontkoppelen, waarbij het begrijpen van lange video's wordt omgevormd tot een agentisch verkenningsproces. Als een plug-and-play-kader streamt het stapsgewijs video's om een Hiërarchisch Grafiekgeheugen op te bouwen, een top-down architectuur met drie lagen voor semantische abstractie, verankerd door een fundamentele graaf die spatiotemporele en causale relaties vastlegt. Tijdens inferentie gebruikt het redeneermodel agentische tool-verbeterde retrieval, navigeert het door hiërarchieën, zoekt het knooppunten en doorloopt het logische randen via een Observatie-Reden-Actie-lus. Experimenten tonen aan dat MemDreamer SOTA-resultaten behaalt op vier gangbare benchmarks, waarmee de kloof met menselijke experts wordt verkleind tot slechts 3,7 punten. Het beperkt het redeneercontextvenster tot slechts 2% van de volledige contextinname, terwijl het een absolute nauwkeurigheidswinst van 12,5 punten oplevert. Bovendien onthult statistische analyse een sterke positieve lineaire correlatie tussen de prestaties van een VLM op het gebied van logisch redeneren en benchmarks voor het begrijpen van lange video's, waarmee agentische schaalbaarheid wordt gevestigd als een nieuw paradigma voor multimodaal begrip.

Flow-DPPO: Divergentie Proximale Beleidsoptimalisatie voor Flow Matching Modellen
Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

Jun 9

ByBowen Ping, Xiangxin Zhou, Penghui Qi, Minnan Luo, Liefeng Bo, Tianyu Pang

Recent werk heeft aangetoond dat online reinforcement learning (RL) de kwaliteit en afstemming van flow matching-modellen voor beeld- en videogeneratie aanzienlijk kan verbeteren. Methoden zoals Flow-GRPO en CPS beschouwen het denoisingproces als een Markov-beslissingsproces en passen PPO-stijl ratio clipping toe om een trust region af te dwingen. Wij stellen echter dat ratio clipping structureel ongeschikt is voor flowmodellen: de kansverhouding tussen nieuwe en oude beleidsregels is een ruizige, enkelsteekproefschatting van de werkelijke beleidsdivergentie, wat leidt tot overmatige beperking in sommige delen van het traject en onvoldoende beperking in andere. Wij introduceren Flow-DPPO (Flow Divergence Proximal Policy Optimization), dat ratio clipping vervangt door een divergentie-proximale beperking. Een belangrijke observatie is dat het per-stap beleid in flowmodellen Gaussisch is, wat exacte en goedkope berekening van de KL-divergentie tussen oude en nieuwe beleidsregels mogelijk maakt. Flow-DPPO maakt gebruik van een asymmetrisch divergentiemasker dat gradiëntupdates alleen blokkeert wanneer ze tegelijkertijd van de trust region afwijken en de divergentiedrempel overschrijden. Experimenten tonen aan dat Flow-DPPO hogere beloningen behaalt met betere KL-proximale efficiëntie, catastrofaal vergeten vermindert, gebalanceerde multi-objectieve optimalisatie bevordert en stabiele multi-epoch training mogelijk maakt waar ratio clipping degradeert. Code en modellen zijn beschikbaar op https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.

SCAIL-2: Het verenigen van gecontroleerde karakteranimatie met end-to-end in-context conditionering
SCAIL-2: Unifying Controlled Character Animation with End-to-end In-Context Conditioning

Jun 9

ByWenhao Yan, Fengjia Guo, Zhuoyi Yang, Jie Tang

Gecontroleerde karakteranimatie vereist het overbrengen van beweging van een aansturende reeks naar een referentiekarakter. Eerdere werken vertrouwen sterk op tussenliggende representaties, zoals poseskeletten om beweging weer te geven of gemaskeerde achtergronden om de omgeving weer te geven, wat onvermijdelijk leidt tot informatieverlies. Om dit aan te pakken presenteren we SCAIL-2, een raamwerk dat deze tussenliggende representaties omzeilt en end-to-end karakteranimatie realiseert. Door aansturende video's direct aan de reeks te concatenaten, kan het model alle benodigde visuele informatie uit de invoervideo verkrijgen. Om het gebrek aan end-to-end gegevens aan te pakken, verenigen we subtaken van karakteranimatie met ontkoppelde condities en stellen we vervolgens een pijplijn samen om MotionPair-60K te synthetiseren, een end-to-end bewegingsoverdrachtdataset met heterogene taken van karakteranimatie. Om de unificatie te bereiken, gebruiken we in-context mask conditionering en mode-specifieke RoPE als zachte begeleiding naast tekstuele instructies en ruwe visuele informatie. Om synthetische discrepantie in gedetailleerde regio's aan te pakken, stellen we Bias-Aware DPO voor om preferentie-items te construeren om de fouten te verminderen. Uitgebreide experimenten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande state-of-the-art benaderingen in verschillende karakteranimatietaken. Een grote subset van synthetische gegevens en modelgewichten zullen worden vrijgegeven op onze projectpagina: https://teal024.github.io/SCAIL-2/.

Lip Forcing: Weinig-staps autoregressieve diffusie voor real-time lipsynchronisatie
Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

Jun 9

ByPaul Hyunbin Cho, Jinhyuk Jang, SeokYoung Lee, Joungbin Lee, Siyoon Jin, Heeseong Shin, Jung Yi, Yunjin Park, Chulmin Park, Seungryong Kim

Op diffusie gebaseerde lipleesynchronisatiemodellen bereiken een sterke visuele kwaliteit en audiovisuele afstemming, maar volledige-sequentie bidirectionele aandacht en vele ruisverwijderingsstappen maken ze onpraktisch voor realtime inferentie. Wij presenteren Lip Forcing, naar ons weten de eerste autoregressieve diffusiemethode voor video-naar-video (V2V) lipleesynchronisatie, die een 14B audio-geconditioneerde bidirectionele videodiffusieleermeester destilleert naar causale studenten. Bij inferentie genereren de studenten elk chunk in slechts twee ruisverwijderingsstappen zonder inferentie-CFG, wat realtime lipleesynchronisatie mogelijk maakt. Een lipleespecifieke leermeestertrajectanalyse onthult een CFG-getrouwheid-sync-afweging: voorspellingen zonder CFG begunstigen referentiegetrouwheid, terwijl CFG-gestuurde voorspellingen synchronisatie begunstigen binnen een middenband van het traject. Lip Forcing vertaalt deze bevinding naar drie uit de analyse afgeleide componenten: Sync-Window DMD, een tweetraps inferentieplanning en een op SyncNet gebaseerde beloning. Wij valideren Lip Forcing op twee studentschalen, beide gedestilleerd van de 14B leermeester. De 1.3B student bereikt realtime streaming bij 31 FPS, 17,6 keer sneller dan zijn bidirectionele model van dezelfde schaal. De 14B student, het grootste diffusiemodel dat is gerapporteerd voor V2V lipleesynchronisatie, draait 39,8 keer sneller dan zijn leermeester bij vergelijkbare referentiegetrouwheid. De tijd tot het eerste frame is submilliseconde op beide schalen, ver onder elke diffusie-baseline.

WereldOlympiade: Kan jouw wereldmodel een triatlon overleven?
WorldOlympiad: Can Your World Model Survive a Triathlon?

Jun 9

ByYuke Zhao, Wangbo Zhao, Weijie Wang, Zeyu Zhang, Dakai An, Akide Liu, Yinghao Yu, Jiasheng Tang, Fan Wang, Wei Wang, Bohan Zhuang

We introduceren WorldOlympiad, een benchmark voor het diagnosticeren van video-gebaseerde wereldmodellen op het gebied van fysieke getrouwheid, geometrische consistentie en interactiegetrouwheid. Hoewel bestaande benchmarks zich vaak richten op visuele kwaliteit, semantische alignering of kortetermijn temporele coherentie, bieden ze beperkt inzicht in of gegenereerde video's fysieke regels volgen, een coherente 3D-structuur behouden en beheersbare interacties over lange tijdsperioden volhouden. Om deze leemte aan te pakken, decomposeert WorldOlympiad de wereldmodel-evaluatie in drie complementaire dimensies. De fysieke track gebruikt objectsegmentatie en MLLM-als-rechter om te beoordelen of gegenereerde video's interpreteerbare regels volgen in mechanica, thermische fenomenen en materiaaleigenschappen. De geometrische track reconstrueert gegenereerde video's met Gaussian splatting en evalueert structurele consistentie, cross-view coherentie en camera-trajectorie-uitlijning. De interactietrack beoordeelt of gegenereerde rollouts complexe actieprompts volgen en vloeiende, coherente overgangen over opeenvolgende videoblokken handhaven. WorldOlympiad bestrijkt verder drie belangrijke downstream-scenario's, waaronder gaming, robotica en algemene real-world video's, die diverse uitdagingen vastleggen van interactieve besturing en belichaamde manipulatie tot open-domein beweging en cameradynamiek. Samen vormen deze tracks en scenario's een schaalbare en interpreteerbare evaluatiesuite die faalmodi blootlegt die verder gaan dan generieke videokwaliteit. Experimenten met state-of-the-art modellen onthullen aanzienlijke hiaten in fysiek redeneren, 3D-consistentie en lange-horizon interactie, wat de noodzaak benadrukt van meer gestructureerde evaluatieprotocollen voor generatieve wereldmodellen.

Heroverweging van de divergentie-regularisatie in LLM-RL
Rethinking the Divergence Regularization in LLM RL

Jun 8

ByJiarui Yao, Xiangxin Zhou, Penghui Qi, Wee Sun Lee, Liefeng Bo, Tianyu Pang

Reinforcement learning (RL) is een sleutelcomponent geworden van post-training voor grote taalmodellen (LLMs). In de praktijk is LLM RL vaak off-policy vanwege een mismatch tussen training en inferentie en beleidsveroudering, waardoor trust-region-controle essentieel is voor stabiele optimalisatie. Gebruikelijke methoden zoals PPO en GRPO benaderen deze controle met een ratio-clippingmechanisme, maar de belangrijkheidsratio kan een slechte proxy zijn voor distributieverschuiving in langstaartvocabularia. Recent werk zoals DPPO pakt deze mismatch aan door ratio-gebaseerd clipping te vervangen door een divergentie-gebaseerd masker, wat resulteert in een trust-regio die wordt gedefinieerd door de absolute kansverschuiving van het gesamplede token. DPPO vertrouwt echter nog steeds op een hard masker: zodra een token de trust-regiongrens in een schadelijke richting overschrijdt, wordt zijn gradient weggegooid in plaats van gecorrigeerd. Om dit aan te pakken stellen we Divergentie-Geregulariseerde Beleidsoptimalisatie (DRPO) voor, die het harde masker vervangt door een gladde, advantage-gewogen kwadratische regularisator op beleidsverschuiving. DRPO behoudt dezelfde trust-regiongeometrie als DPPO, terwijl het begrensde, continue gradientgewichten induceert die divergerende updates verzwakken en corrigerende signalen geven voorbij de grens. Experimenten over modelschalen, architecturen en precisie-instellingen tonen aan dat DRPO de stabiliteit en efficiëntie van LLM RL-training verbetert.

EEVEE: Naar prompt-leren tijdens het testen in de echte wereld voor zelfverbeterende agenten
EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents

Jun 9

ByWeixian Xu, Shilong Liu, Mengdi Wang

In dit artikel introduceren we EEVEE, het eerste raamwerk voor testtijd prompt-leren met meerdere datasets voor LLM-agenten, dat testtijd prompt-leren mogelijk maakt onder realistische taakstromen. Bestaande methoden zijn grotendeels ontworpen voor instellingen met één enkele dataset, terwijl realistische toepassingen vereisen dat modellen heterogene invoerstromen uit meerdere datasets, domeinen en taakverdelingen verwerken, wat hun praktische toepasbaarheid beperkt. Om interferentie tussen datasets te verminderen, introduceert EEVEE een router die binnenkomende invoer in taakclusters verdeelt en deze toewijst aan geschikte promptconfiguraties. Dit ontwerp wordt geoptimaliseerd via een strategie voor co-evolutie van router en prompt, die afwisselende leerfasen voor router en prompt gebruikt om hun onderlinge afhankelijkheid aan te pakken. Experimenten met meerdere datasets tonen aan dat het raamwerk de robuustheid onder heterogene datastromen verbetert, terwijl het leervermogen en de efficiëntie op één benchmark behouden blijven. Concreet verbetert EEVEE de gemiddelde multi-benchmarkscores met 10,38 en 24,32 punten ten opzichte van Qwen3-4B-Instruct en DeepSeek-V3.2, en overtreft het de state-of-the-art methoden GEPA en ACE met respectievelijk 37,2% en 48,2%.

ARM: een autoregressief groot multimodaal model met geïntegreerde discrete representaties
ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations

Jun 9

ByJunke Wang, Xiao Wang, Jiacheng Pan, Xuefeng Hu, Feng Li, Jingxiang Sun, Chaorui Deng, Zilong Chen, Yunpeng Chen, Kaibin Tian, Matthew Gwilliam, Hao Chen, Danhui Guan, Kun Xu, Weilin Huang, Zuxuan Wu, Haoqi Fan, Yu-Gang Jiang, Zhenheng Yang

Dit artikel introduceert ARM, een op discrete representatie gebaseerd autoregressief model dat beeldbegrip, -generatie en -bewerking verenigt binnen een raamwerk van volgende-tokenvoorspelling. ARM is gebaseerd op drie inspanningen: ten eerste trainen we een discrete semantische visuele tokenizer die afbeeldingen omzet in compacte tokenreeksen. Onze tokenizer wordt gesuperviseerd met meerdere doelstellingen die gezamenlijk semantische onderscheidbaarheid, taalkundige afstemming en getrouwe reconstructie bevorderen, waardoor diverse taken in een gedeelde latente ruimte worden ondersteund. Hiermee trainen we een 7B autoregressief model op grootschalige tekst- en beeldtokenreeksen, waardoor naadloos visie-taalperceptie en -generatiecapaciteiten worden ontwikkeld. Ten slotte past ARM, om preferentie-afgestemd gedrag voor tekst-naar-beeldgeneratie en instructiegestuurde bewerking verder te verbeteren, reinforcement learning (RL) toe om taakniveau-doelstellingen zoals visuele kwaliteit, instructietrouw en bewerkingsconsistentie te optimaliseren. Verrassend genoeg tonen de resultaten aan dat RL niet alleen de prestaties op de doeltaken aanzienlijk verbetert (bijv. WISE overall van 0,50 naar 0,56, GEdit-Bench-EN G_O van 5,75 naar 6,68), maar ook cross-task synergie induceert tussen tekst-naar-beeldgeneratie en bewerking. Gezamenlijk benadrukken deze bevindingen dat autoregressieve modellering, in combinatie met sterke representaties en preferentie-optimalisatie, een schaalbare basis vormt voor multimodale intelligentie. Code: https://github.com/wdrink/ARM.

Workflow-GYM: Naar langetermijnevaluatie van agentische computertaken in echte professionele vakgebieden
Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

Jun 9

ByLiya Zhu, Jingzhe Ding, Jian Zhang, Jianbo Xue, Shihao Liang, Ge Zhang, Xiang Gao, Qingshui Gu, Mailun Gao, Huimin Che, Yan Zhao, Peiheng Zhou, Haojun Wang, Chaobo Xian, Lili Le, Chi Wu, Yiwei Liu, Shengda Long, Jiale Yang, Fangzhi Xu, Sijin Wu, Haodong Duan, Yi Zhu, Chao He, Zhaojian Li, Minchao Wang, Huan Zhou, Jiani Hou, Chuqian Yu, Weiran Shi, Hongwan Gao, Jiamin Chen, Guanhong Chen, Tingqin Luo, Kaiyuan Zhang, Zhixin Yao, Qing Hua, Yuhao Jiang, Jin Chen, Pu Chen, Zhenyu Hu, Xingyu Li, Zhengxuan Jiang, Meng Cao, Tianfeng Long, Haozhe Wang, Mingzhang Wang, Yichen Zhang, Yiming Dai, Chenchen Zhang, Jiaying Wang, Zhiyong Wu, Shen Yan, Yujia Qin, Wenhao Huang, Zaiyuan Wang, Xiaolong Chang

De afgelopen jaren is er sprake geweest van een snelle evolutie van AI-agenten richting het uitvoeren van steeds complexere, realistische taken. Echter, bestaande benchmarks evalueren zelden of agenten grafische gebruikersinterfaces kunnen bedienen om langdurige, hoogwaardige professionele workflows in diverse domeinen te voltooien. Huidige GUI-benchmarks richten zich nog steeds voornamelijk op algemene software, relatief eenvoudige toepassingen en kortdurende taken, waardoor het grotendeels onbekend blijft of moderne agenten gebruikersinstructies kunnen volgen om autonoom domeinspecifieke professionele software te bedienen en economisch waardevol werk end-to-end te verrichten. Om deze kloof te overbruggen, introduceren we Workflow-GYM, een benchmark voor langdurige GUI-taken die zich richt op professionele domeinen en gespecialiseerde softwareomgevingen. Door middel van uitgebreide experimenten met state-of-the-art modellen ontdekken we dat zelfs de sterkste modellen slechts iets meer dan 30% slagingspercentages behalen, wat benadrukt dat professionele langdurige GUI-workflows zeer uitdagend blijven voor huidige GUI-agenten. Verdere analyse toont aan dat huidige agenten moeite hebben met het handhaven van consistentie in langdurige workflows, waarbij ze vaak workflowfasen overslaan, foutenpropagatie vertonen, objectiefverschuiving ondervinden en onvoldoende begrip hebben van professionele softwareomgevingen. Onze bevindingen bieden belangrijke inzichten in de beperkingen van huidige agentsystemen en suggereren belangrijke richtingen voor het volgende generatie GUI-agentonderzoek.

Eén token per multimodaal bewijs: Latent geheugen voor resource-beperkte vraagbeantwoording
One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

Jun 9

ByZhi Zheng, Ziqiao Meng, Hao Luan, Wei Liu, Wee Sun Lee

Extern geheugen fundeert effectief vraagbeantwoording (QA) op basis van grote taalmodellen (LLMs) en visie-taalmodellen (VLMs) in relevant multimodaal bewijsmateriaal. Echter, bestaande geheugenparadigma's representeren elk geheugenitem in onbewerkte tekst- en beeldvormen, waardoor op terugvinden gebaseerde systemen de teruggevonden tekst of beelden moeten doorgeven aan de genererende LLMs/VLMs, wat resulteert in hoog tokenverbruik en opslagdruk, waardoor het onbetaalbaar wordt voor toepassingen met beperkte middelen. We stellen Latent Memory voor, een geheugenparadigma in latente ruimte dat elk onbewerkt tekst- of beeldbewijsitem vervangt door een enkele hoogdimensionale latente token, geproduceerd door een kleine compressor LLM/VLM. In plaats van onbewerkt bewijsmateriaal op te halen voor generatie, werkt Latent Memory in een uniforme latente representatieruimte: de query wordt in deze ruimte ingebed om relevante latente tokens terug te vinden, en de teruggevonden latente tokens worden direct als prompt gegeven aan een voorgetraind LLM of VLM voor antwoordgeneratie. Om elke latente token tegelijkertijd informatief te maken voor reconstructie, terugvinden en generatie, trainen we de compressor met reconstructie-, contrastieve en distillatiedoelen op een uniforme end-to-end manier. Latent Memory wordt geëvalueerd op zeven tekst-only QA-benchmarks (bijv. HotpotQA) en multimodale QA-benchmarks, waar het concurrerende QA-prestaties behaalt in vergelijking met geavanceerde RAG-baselines, terwijl het 3x tot 10x minder generatortokens verbruikt. Het kan ook de sterkste op beeld gebaseerde QA-prestaties leveren op WebQA. Code is beschikbaar op https://github.com/zz1358m/Latent-Memory-Master.

Aandachtsamnesie in hybride LLM's: Wanneer CoT-fijnafstemming de langeafstandsherinnering verstoort, en hoe dit te verhelpen
Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It

Jun 9

ByXinyu Zhou, Boyu Zhu, Yi Xu, Zhiwei Li, Yingfa Chen, Huiming Wang, Zhijiang Guo

Ketens-van-gedachten (Chain-of-Thought, CoT) begeleid fine-tunen (supervised fine-tuning, SFT) wordt op grote schaal toegepast om het redeneervermogen te verbeteren. Toch stellen wij vast dat het systematisch het lange-contextherinneringsvermogen in hybride lineaire-aandachtsmodellen (linear-attention models) aantast. Bij verschillende architecturen, waaronder HypeNet en Jet-Nemotron, verslechtert de retrievalprestatie op Needle-In-A-Haystack (NIAH) aanzienlijk na CoT-SFT, en deze verslechtering wordt ernstiger naarmate de retrievalomstandigheden moeilijker worden en de contextvensters langer zijn. Zo daalt HypeNet-9B op NIAH-S2@256K van 67,2% naar 9,4%. Wij schrijven dit toe aan het feit dat CoT-SFT de aandachtgradiënten naar kortepatronen verschuift, waardoor de projecties van query en key (W_Q, W_K) – die verantwoordelijk zijn voor routering over lange afstanden – worden verstoord. Naar aanleiding van deze waarneming stellen wij QK-Restore voor, een trainingsvrije methode die alleen W_Q en W_K uit het pre-SFT-controlepunt herstelt, terwijl alle andere post-SFT-parameters behouden blijven. Verder introduceren wij een Procrustes-variant om een balans te vinden tussen het behoud van routering en de aanpassing aan redeneren. Bij meerdere architecturen herstelt QK-Restore op consistente wijze het lange-contextvermogen zonder enige trainingskosten, terwijl de redeneerprestatie behouden blijft; bijvoorbeeld op HypeNet-5B verbetert het S3@256K van 65,4% naar 76,4% met behoud van een sterke redeneerprestatie.

Het interpreteren en sturen van een tekst-naar-spraak-taalmodel met spaarse auto-encoders
Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders

Jun 8

ByNikita Koriagin, Georgii Aparin, Nikita Balagansky, Daniil Gavrilov

Taalmodellen dienen steeds vaker als ruggengraat van tekst-naar-spraak (TTS)-systemen, maar we begrijpen weinig over de representaties die ze opbouwen wanneer tekst en gegenereerde spraaktokens een enkele reststroom delen. We trainen BatchTopK-sparse auto-encoders op de LM-achtergrond van CosyVoice3 en introduceren een modaliteitsbewuste auto-interp-pijplijn die elk kenmerk labelt op basis van waar het actief wordt: tekst-voorvoegselcontext, spraakfragmenten van 1 seconde, of beide. De teruggevonden kenmerken zijn interpreteerbaar en omvatten fonemen, gelach, accentprompts en sprekersgeslacht. Sturing door de SAE-latente ruimte toont aan dat deze kenmerken causaal zijn, niet slechts beschrijvend: gerichte interventies verhogen de lachkans van 0,02 naar 0,79, keren het waargenomen sprekersgeslacht om en beheersen de spraaksnelheid terwijl de gesproken inhoud behouden blijft. SAE-kenmerken dienen dus zowel als interpreteerbaarheidsobjecten als als stuurrichtingen voor TTS-synthese.

SkillHarm: Levenscyclusbewuste, op vaardigheden gebaseerde aanvallen via geautomatiseerde constructie
SkillHarm: Lifecycle-Aware Skill-Based Attacks via Automated Construction

Jun 1

ByYuting Ning, Zhehao Zhang, Yash Kumar Lal, Boyu Gou, Junyi Li, Weitong Ruan, Chentao Ye, Rahul Gupta, Diyi Yang, Yu Su, Huan Sun

Agentvaardigheden nemen een bevoorrechte positie in binnen de agentworkflow, aangezien van agenten wordt verwacht dat zij deze impliciet volgen en uitvoeren, waardoor vaardigheden van derden een kwetsbaar aanvalsoppervlak vormen. Bestaande studies hebben onveilig agentgedrag aangetoond dat wordt veroorzaakt door op vaardigheden gebaseerde aanvallen, maar zij evalueren voornamelijk vergiftigde vaardigheden binnen een enkele taakuitvoering en inventariseren schade via ad-hocrisicolijsten. Om deze lacunes te overbruggen, introduceren wij SkillHarm, een benchmark voor op vaardigheden gebaseerde aanvallen gedurende de gehele levenscyclus van vaardigheidsgebruik, gekoppeld aan een systematische taxonomie van vaardigheidsrelevante risico's. SkillHarm evalueert twee aanvalsscenario's: Fixed-Payload Poisoning (FPP), waarbij een vast vergiftigd vaardigheidspakket direct elke taaksessie compromitteert die het aanroept, en Self-Mutating Poisoning (SMP), waarbij een initieel goedaardige uitvoering stilletjes aanhoudende vaardigheidsinhoud muteert en schade uitstelt tot een volgend hergebruik. Verder definieert het 12 risicotypes op basis van het agentworkflowcomponent dat door de schade wordt getroffen: datapijplijnen, systeemomgevingen en agentautonomie. Om deze aanvallen op schaal te instantieren, bouwen wij AutoSkillHarm, een geautomatiseerde constructiepijplijn met codeeragenten die worden aangestuurd door natuurlijke-taalharnassen. De resulterende benchmark bevat 879 aanvalssamples verspreid over 71 vaardigheden. Experimenten tonen aan dat huidige agenten kwetsbaar blijven, met aanvalsuccespercentages tot 86,3% bij FPP en 69,3% bij SMP. Onze analyse onthult verder een latent risico: veel schijnbare aanvalsmislukkingen komen voort uit het feit dat de agent het vergiftigde bestand niet oppakt, in plaats van uit echte weerstand, en huidige verdedigingen slagen er nog steeds niet in om de dreiging betrouwbaar te beperken.

Online vaardigheidsleren voor webagents via toestandsgebaseerde dynamische ophaling
Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval

Jun 3

ByJiaxi Li, Ke Deng, Yun Wang, Jingyuan Huang, Yucheng Shi, Qiaoyu Tan, Jin Lu, Ninghao Liu

Taalagenten vertrouwen steeds vaker op herbruikbare vaardigheden om meerstapswebautomatisering voor gerelateerde taken te verbeteren. Een groeiend onderzoeksgebied bestudeert online vaardigheidsleren, waarbij agenten continu vaardigheden afleiden uit eerdere taaktrajecten en deze ter plekke hergebruiken in toekomstige taken. Echter, bestaande methoden hergebruiken vaardigheden hoofdzakelijk op taakniveau: een vaste set vaardigheden wordt opgehaald op basis van de initiële taakinstructie en blijft gedurende de uitvoering onveranderd. Deze statische strategie sluit niet aan bij webuitvoering, waar de juiste volgende actie niet alleen afhangt van het taakdoel, maar ook van de huidige webpagina-toestand, die vaak overgaat in situaties die de initiële vaardigheden niet dekken. Om deze leemte aan te pakken, stellen we State-Grounded Dynamic Retrieval (SGDR) voor, een online vaardigheidsleermethode die stapsgewijs vaardigheidshergebruik voor webagenten mogelijk maakt. SGDR bestaat uit drie componenten: een glijdende-vensterextractieproces dat voltooide trajecten omzet in herbruikbare subprocedures die kunnen worden aangeroepen in tussenliggende uitvoeringstoestanden, een duale tekst-code-representatie die vaardigheidsophaling koppelt aan uitvoerbare acties, en een toestandsgebonden dynamisch ophalingsmechanisme dat vaardigheden matcht met zowel het taakdoel als de huidige webpagina-toestand. Experimenten op WebArena in vijf domeinen tonen aan dat SGDR consequent sterke baselines overtreft, met gemiddelde succespercentages van 37,5% met GPT-4.1 en 24,3% met Qwen3-4B, wat overeenkomt met relatieve verbeteringen van respectievelijk 10,6% en 10,0% ten opzichte van de sterkste baseline. De code is beschikbaar op https://github.com/plusnli/skill-dynamic-retrieval.

BrainSurgery: Reproduceerbare en Betrouwbare Declaratieve Gewichtsmanipulaties voor Modelbewerking en Upcycling
BrainSurgery: Reproducible and Reliable Declarative Weight Manipulations for Model Editing and Upcycling

Jun 8

ByGianluca Barmina, Annemette Broch Pirchert, Andrea Blasi Núñez, Lukas Galke Poech, Peter Schneider-Kamp

Naarmate deep learning-modellen opschalen, wordt het beheren, inspecteren en wijzigen van grote checkpoints steeds uitdagender. Onderzoekers moeten vaak modelgewichten aanpassen voor laagherstructurering, precisiecasting, laagrangefactorisatie en architectuurdebugging, maar deze werkwijzen zijn vaak afhankelijk van fragiele ad-hoc Python-scripts. Hier introduceren we BrainSurgery, een tool voor robuuste en reproduceerbare "tensorchirurgie" op neurale-netwerkcheckpoints, en geven we een systeemdemonstratie met vier voorbeelden en drie casestudy's, van model upcycling tot LoRA-extractie. Door opslagformaten en geheugenbeheer te abstraheren, voert BrainSurgery complexe transformaties uit via declaratieve YAML-plannen. Het ondersteunt structurele aanpassingen, wiskundige transformaties en tensorherschikking door middel van expressieve reguliere expressies en structurele targeting, terwijl ingebouwde asserties tensordimensies, gegevenstypen en waarden valideren om stille fouten te voorkomen. We voorzien dat BrainSurgery door zijn reproduceerbare en gevalideerde bewerkingen een sterke basis zal bieden voor toekomstig onderzoek.

Hoe stroomt redeneren? Het traceren van aandacht-geïnduceerde informatiestroom voor gerichte RL in LLMs
How Does Reasoning Flow? Tracing Attention-Induced Information Flow for Targeted RL in LLMs

Jun 9

ByZhichen Dong, Yang Li, Yuhan Sun, Weixun Wang, Yijia Luo, Zinian Peng, Taiheng Ye, Chao Yang, Wenbo Su, Yu Cheng, Bo Zheng, Junchi Yan

Krediettoewijzing op token-niveau blijft een belangrijk obstakel voor reinforcement learning (RL) in grote taalmodellen (LLMs), waarbij RL-methoden doorgaans alle tokens gelijk behandelen en geen onderscheid maken tussen beslissende redeneerstappen en routinematige opmaak of vloeiende opvulling. Recente pogingen maken gebruik van modelinterne signalen om fijnmaziger krediet toe te wijzen, maar dit zijn vaak puntsgewijze heuristieken die de globale structuur van informatiepropagatie negeren. Wij stellen FlowTracer voor, een RL-framework dat antwoordgerichte redeneerstroom traceert op een door aandacht geïnduceerde gerichte acyclische graaf waarin knopen overeenkomen met tokens en randcapaciteiten afkomstig zijn van geaggregeerde aandachtsgewichten, en dat tokenkrediet afleidt uit deze globale structuur. De randcapaciteiten worden herwogen om alleen de invloed te behouden die het antwoordgebied kan bereiken, terwijl lokaal stroombehoud wordt afgedwongen zodat tussenliggende tokens geen effectieve massa verliezen of winnen als gevolg van padlengte of irrelevante vertakkingen. Op deze graaf extraheert FlowTracer een informatie-stroomruggengraat die de vraag met het antwoord verbindt en scoort tokens op basis van stroomdoorvoer, waardoor invloedrijke hubs en aggregatiecontrolepunten worden onthuld die afhankelijkheden op lange afstand mediëren. Deze afgeleide belangrijkheden worden gebruikt om beloningen op token-niveau vorm te geven, waardoor leersignalen zich nauwkeurig kunnen richten op de tokens die informatie naar (of weg van) correcte antwoorden leiden, en consistente prestatieverbeteringen opleveren over een reeks redeneertaken.

Het overbruggen van de agent-wereldkloof: tekstwereldmodellen voor op LLM gebaseerde agenten
Bridging the Agent-World Gap: Text World Models for LLM-based Agents

Jun 8

ByYixia Li, Hongru Wang, Peng Lai, Zhiwen Ruan, He Zhu, Youxin Zhu, Ganlong Zhao, Minda Hu, Yun Chen, Sibei Yang, Peng Li, Jeff Z. Pan, Jia Pan, Guanhua Chen, Yang Liu, Guanbin Li

Op grote taalmodellen (LLM's) gebaseerde agenten worden steeds vaker ingezet in interactieve tekstuele omgevingen, variërend van webnavigatie en codebewerking tot toolgebruik en dialogen over lange termijn. Toch blijven veel agenten grotendeels reactief: ze vertalen waarnemingen naar acties zonder een expliciet model van hoe deze omgevingen zijn gestructureerd en evolueren. Dit motiveert de ontwikkeling van tekstwereldmodellen (TWMs): overgangsmodellen over tekstuele toestanden die, gegeven een toestand en een kandidaatsactie, de resulterende webpagina, terminaluitvoer, API-respons of gebruikersreactie voorspellen. Hierdoor ondersteunen ze planning, efficiënt leren en principiële evaluatie. We geven een systematisch overzicht van tekstwereldmodellen voor op LLM's gebaseerde agenten, georganiseerd rond een formeel raamwerk en de levenscyclus van de agent: (1) Grondslagen, waarin we tekstwereldmodellen definiëren en karakteriseren op basis van toestandsrepresentatie en verankeringsdomein; (2) Constructie, waarin we een taxonomie geven van de paradigma's LLM-als-WM en code-als-WM en de methoden voor het bouwen ervan bespreken; (3) Toepassing, waarin we onderzoeken hoe wereldmodellen agenten ondersteunen tijdens de trainingsfase door synthese van ervaringen en tijdens de inferentiefase door planning, verificatie en aanpassing; en (4) Evaluatie, die zowel de evaluatie van het wereldmodel zelf omvat als het gebruik ervan als evaluatieomgeving voor agenten. We beogen dit snel ontwikkelende vakgebied te consolideren, de ontwerpruimte te verduidelijken en open uitdagingen voor toekomstig onderzoek te belichten.

Struct-Searcher: Agentisch structureel denken bevordert multimodaal diepgaand informatiezoeken
Struct-Searcher: Agentic Structural Thinking Advances Multimodal Deep Information Seeking

Jun 5

ByFan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Zheng Lian, Hao Wu, Yuan Gao, Xinyu Geng, Xin Wang, Pheng-Ann Heng

Diepgaande onderzoeksagenten hebben steeds meer aandacht getrokken vanwege hun vermogen om grootschalige online informatie te verzamelen en zo doelgerichte kennis te verwerven, waarbij recente inspanningen verschuiven van puur tekstgebaseerd informatie zoeken naar multimodale omgevingen. Bestaande agentische workflows zijn echter grotendeels afgestemd op bewijsaccumulatiemodellen, die bewijs lineair samenvoegen en geen principiële mechanismen bieden voor het omgaan met tegenstrijdige informatie over heterogene modaliteiten heen. Om dit aan te pakken stellen wij Struct-Searcher voor, een structurele agentische workflow die is gebaseerd op de theorie van overtuigingsherziening en die tijdens het redeneerproces expliciet een evoluerende multimodale structurele graaf onderhoudt, waardoor effectieve conflictbewuste multimodale diepgaande informatiezoektocht mogelijk wordt. Uitgebreide experimenten op meerdere benchmarkdatasets en backbone-modellen tonen aan dat Struct-Searcher (1) plug-and-play en model-agnostisch is, met een gemiddelde relatieve nauwkeurigheidsverbetering van 17,2% op BrowseComp-VL over vijf verschillende backbones; (2) topprestaties levert, consistent beter presterend dan state-of-the-art visie-taalsystemen (VLMs) en diepgaande onderzoeksagenten, met relatieve nauwkeurigheidsverbeteringen van 3,7% op MM-BrowseComp, 1,5% op HLE-VL en 0,7% op BrowseComp-VL ten opzichte van de op een na beste concurrerende aanpak.

PsychoSafe: Het ontlokken van psychologisch geïnformeerde weigeringen in grote taalmodellen
PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

Jun 8

ByGianluca Barmina, Federico Torrielli, Sven Harms, Jacob Nielsen, Felix Mächtle, Stine Lyngsø Beltoft, Peter Schneider-Kamp, Thomas Eisenbarth, Lukas Galke Poech, Anne Lauscher

Grote taalmodellen (LLM's) worden routinematig geconfronteerd met verzoeken die geweigerd moeten worden, wat een afweging creëert tussen behulpzaamheid en schadepreventie. Weigeringen op zich kunnen echter behulpzaam zijn. In hoogrisico-interacties met betrekking tot crisis, dwang of escalerende intenties kan een directe niet-naleving directe schade voorkomen, maar schiet het nog steeds tekort in het ondersteunen van de behoeften van de persoon achter het verzoek. We presenteren PsychoSafe, een psychologisch geïnformeerd weigeringskader dat weigering herdefinieert als gestructureerde ondersteunende communicatie, gebaseerd op evidence-based interventiestrategieën. Om PsychoSafe te ontwikkelen, construeren we een corpus van 8019 prompt-responsparen die vijf psychologisch relevante risicodomeinen bestrijken en passen we prompting en parameter-efficiënte fine-tuning toe op Qwen 3.5 27B. Op een gebalanceerde validatieset van 500 prompts, geëvalueerd met een LLM-beoordelaar en gevalideerd door menselijke beoordelingen, verbetert PsychoSafe-prompting de algehele weigeringskwaliteit met 28,1% ten opzichte van een generieke baseline, met bijzonder sterke winst in verwijzing naar externe bronnen (+46,8%) en psychologische onderbouwing (+34,8%), terwijl de downstreamprestatie op niet-weigeringstaken behouden blijft. Fine-tuning bereikt bijna perfecte weigerings- en bronverwijzingspercentages, maar vermindert de relevantie van de respons. Aanvullende evaluaties op SORRY-Bench en XSTest tonen een sterke domeininterne robuustheid maar beperkte buitendomein generalisatie, wat suggereert dat toekomstig werk de fine-tuningdata moet diversifiëren om modellen te helpen interventies selectief in plaats van schematisch toe te passen.

U-TTT: Naar generaliseerbare ruisonderdrukking van PET-beelden via training tijdens de testfase
U-TTT: Towards Generalizable PET Image Denoising via Test-Time Training

Jun 9

ByZhiwen Yang, Jiayin Li, Hao Lu, Hui Zhang, Zihua Wang, Bingzheng Wei, Yan Xu

Bestaande deep learning modellen voor ruisonderdrukking van Positronemissietomografie (PET)-beelden lijden vaak onder ernstige prestatievermindering bij distributieverschuivingen, wat hun robuuste klinische toepassing fundamenteel beperkt. Dit gebrek aan generalisatie komt voort uit het conventionele paradigma van modellen met vaste parameters, die zich na training niet kunnen aanpassen aan variaties in testgegevens (bijv. dosisniveaus of scannertypes). Om deze beperking te overwinnen en robuuste generalisatie te bereiken, introduceren we U-TTT, een nieuw U-vormig model dat Test-Time Training (TTT)-lagen integreert om tijdens inferentie via zelfsupervisie de modelparameters dynamisch aan te passen, en zich zo aan te passen aan de specifieke kenmerken van elk testgeval. Om bovendien de complexe degradaties van 3D PET-gegevens uitgebreid vast te leggen, beschikt U-TTT over een mechanisme voor tweevoudige domeinaanpassing, bestaande uit een Spatiële Test-Time Training (S-TTT)-laag en een Frequentie Test-Time Training (F-TTT)-laag. De S-TTT-laag vangt spatiële structurele degradaties op en corrigeert deze, terwijl de F-TTT-laag globale ruisspectra onderdrukt en delicate hoogfrequente details herstelt. Uitgebreide experimenten tonen aan dat U-TTT state-of-the-art PET-ruisonderdrukking bereikt en superieure generalisatie vertoont onder uitdagende distributieverschuivingen, waaronder zowel ongeziene dosisniveaus als ongeziene scanners. Onze code zal beschikbaar zijn op https://github.com/Yaziwel/U-TTT.

Emergente misalignering kan worden geïnduceerd door vleierij en ongedaan gemaakt via alignment-poort
Emergent Misalignment Can Be Induced by Sycophancy and Reversed via Alignment Gating

Jun 8

BySicheng Wang, Xiangyang Zhu, Han Wang, Zongrui Wang, Yuan Tian, Kaiwei Zhang, Kaiyuan Ji, Qi Jia, Guangtao Zhai

Eerder werk heeft aangetoond dat het fijnstemmen van grote taalmodellen op kwaadaardige of onjuiste outputs in smalle domeinen brede verkeerde afstemming en schadelijk gedrag kan induceren, een fenomeen dat bekend staat als emergente verkeerde afstemming (EM). Echter, efficiënte methoden om dergelijke verkeerde afstemming ongedaan te maken blijven beperkt. In dit werk leveren we twee bijdragen. Ten eerste identificeren we vleierij-fijnafstemming, d.w.z. het trainen van modellen om passief in te stemmen met onjuiste meningen van gebruikers, als een voorheen onderbelichte drijver van emergente verkeerde afstemming, en tonen we aan dat het breed en ernstig verkeerd afgestemd gedrag induceert. Ten tweede stellen we Alignment Gating voor, een efficiënte methode voor het omkeren van emergente verkeerde afstemming die tijdens het fijnstemmen leerbare en controleerbare poorten in het model invoegt. Door middel van fijnstemmen leren deze poorten de interne representaties te identificeren die verantwoordelijk zijn voor onveilige antwoorden. Het versterken of onderdrukken van deze representaties verergert of vermindert respectievelijk de EM. We vinden verder dat de alignment gating module sterke generalisatie vertoont: poortgewichten verkregen uit fijnstemming in een smal domein onderdrukken aanzienlijk verkeerd afgestemd gedrag in brede domeinen, terwijl de algemene capaciteiten van het model behouden blijven.

UniPET: een universeel netwerk voor hoogwaardige denoising van PET-beelden over uiteenlopende dosisreductiefactoren
UniPET: a universal network for high-quality PET image denoising across varied dose reduction factors

Jun 9

ByZhiwen Yang, Yang Zhou, Haowei Chen, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu

De meeste bestaande, op diep leren gebaseerde methoden voor ruisonderdrukking van PET-beelden gaan uit van een vaste en bekende dosisreductiefactor (DRF) voor lage-dosis PET-beelden. Deze methoden ondervinden echter een aanzienlijke prestatievermindering wanneer de DRF in de praktijk afwijkt van de veronderstelde waarde. Om de uitdaging van variërende DRF's aan te pakken, richten verschillende voorbereidende studies zich op de taak van universele ruisonderdrukking van PET-beelden, met als doel een universeel model te trainen op lage-dosis gegevens over meerdere DRF's. Niettemin hebben deze eenvoudige universele modellen vaak moeite met niet-overeenkomende stijlen in gegevens van verschillende DRF's, wat leidt tot het probleem van stijleliminatie met een aanzienlijk overmatig afvlakkend effect. Om dit probleem aan te pakken, introduceren we op innovatieve wijze domeingeneralisatie in de ruisonderdrukking van PET-beelden en stellen we een universeel netwerk voor ruisonderdrukking van PET-beelden (UniPET) voor om hoogwaardige ruisonderdrukking van PET-beelden over diverse DRF's te realiseren. UniPET omvat twee primaire innovaties: een stijlafstemmingsnetwerk (SAN) en een regio-bewuste leerstrategie (RALS). Specifiek maakt SAN gebruik van stijlafstemmingstechnieken die zijn afgeleid van domeingeneralisatie om stijlen over verschillende DRF's af te stemmen en te herstellen, wat de generaliseerbaarheid van het model over verschillende DRF's waarborgt terwijl stijlen effectief behouden blijven. Verder, om stijlherstel te verbeteren, maakt RALS onderscheid tussen vlakke en gestileerde regio's, en voert uitsluitend adversariaal leren uit op de laatste, waardoor de focus van het model effectiever wordt gestuurd naar het leren van gestileerde regio's. Er wordt aangetoond dat ons voorgestelde UniPET adaptief verschillende DRF-stijlen kan herstellen en hoogwaardige ruisonderdrukking van PET-beelden over DRF's kan bereiken. Uitgebreide experimenten tonen aan dat UniPET een vergelijkbare prestatie levert als individuele DRF-specifieke modellen bij specifieke DRF's en de state-of-the-art prestatie realiseert in universele ruisonderdrukking van PET-beelden, zowel kwantitatief, perceptueel als klinisch.

MilliVid: Hiërarchische Latenten voor Langetermijnconsistentie in Videogeneratie
MilliVid: Hierarchical Latents for Long-Range Consistency in Video Generation

Jun 8

ByIshaan Preetam Chandratreya, David Charatan, Basile Van Hoorick, Sergey Zakharov, Vitor Guizilini, Phillip Isola, Vincent Sitzmann

Videogeneratieve modellen zijn steeds krachtiger geworden, maar consistentie over lange afstanden blijft lastig te bereiken omdat zelfs een paar tientallen frames onpraktisch lange transformer-sequentielengtes vereisen. We laten zien dat dit probleem kan worden verminderd door video te genereren met behulp van grof-naar-fijn uitrollen in een multischaal-tokenruimte. Onze aanpak is eenvoudig: eerst trainen we een autoencoder die elk frame comprimeert tot een hiërarchie van tokens, met niveaus variërend van de typische latente resolutie tot slechts een handvol tokens per frame. De grofste niveaus vangen de meest cruciale informatie op, zoals scène-indeling en semantiek, terwijl fijnere niveaus hoogfrequente verschijning en textuur toevoegen. Vervolgens trainen we een videodiffusiemodel om deze tokens te genereren met grof-naar-fijn uitrollen. Door zorgvuldig het detailniveau te controleren waarop frames worden gegenereerd en als context worden gebruikt tijdens elke uitrolstap, kunnen we de consistentie over lange afstanden in geometrie en objectpermanentie behouden, terwijl we minder rekenkracht besteden aan de consistentie van minder perceptueel relevante details. We valideren deze aanpak met een aangepaste dataset van lange Minecraft-video's, waar deze aanzienlijk consistentere uitrolresultaten produceert vergeleken met bestaande basislijnen.

Wat zouden agenten moeten zeggen? Actie-toestand communicatie voor efficiënte multi-agent systemen
What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems

Jun 3

ByChen Huang, Yuhao Wu, Wenxuan Zhang

Multi-agentsystemen (MAS) gebouwd op grote taalmodellen worden typisch georganiseerd rond rollen, pipelines en beurtschema's, terwijl de inhoud die agenten aan elkaar doorgeven vaak onbeperkte natuurlijke taal is. Deze vrije communicatie kan echter snel het tokenverbruik opdrijven, het gedeelde contextvenster verbruiken en uiteindelijk zowel de systeemprestatie als de inferentiekosten beïnvloeden. We analyseren vijf veelvoorkomende inter-agentcommunicatiestrategieën in twee MAS-topologieën en ontdekken dat geen enkele vaste strategie universeel optimaal is. In plaats daarvan behouden effectieve inter-agentberichten consistent actiegerichte informatie die nodig is voor stroomafwaartse agenten. Hierop voortbouwend stellen we PACT (Protocolized Action-state Communication and Transmission) voor, dat inter-agentcommunicatie behandelt als een openbaar toestandsactualisatieprobleem en elke ruwe agentuitvoer projecteert in een compact actie-toestandsrecord voordat het de gedeelde geschiedenis ingaat. In verschillende MAS-topologieën verbetert PACT consistent de prestatie-kostenafweging, met vergelijkbare of sterkere taakprestaties met aanzienlijk minder tokens. De winsten strekken zich uit tot productiecodeerharnassen: PACT verhoogt de oplossingsgraad van OpenHands met -10% tokens per opgeloste taak, en is oplossingsneutraal op SWE-agent terwijl de invoertokens worden gehalveerd. Onze code is openbaar beschikbaar op https://github.com/iNLP-Lab/PACT.

Next Forcing: Causale Wereldmodellering met Multi-Chunk Voorspelling
Next Forcing: Causal World Modeling with Multi-Chunk Prediction

Jun 9

ByGangwei Xu, Qihang Zhang, Jiaming Zhou, Xing Zhu, Yujun Shen, Xin Yang, Yinghao Xu

Autoregressieve videogeneratie is naar voren gekomen als een krachtig paradigma voor World Action Models (WAM's). Bestaande benaderingen hebben echter last van trage trainingsconvergentie en beperkte geconvergeerde nauwkeurigheid, met name bij hoge framerates, aangezien de trainingssupervisie beperkt is tot het huidige chunk zonder expliciete signalen over toekomstige dynamiek; ze hebben ook last van trage inferentie door iteratieve videodenoisering. In dit artikel presenteren we Next Forcing, een multi-chunk predictie (MCP) raamwerk voor causale wereldmodellering dat snellere training, hogere nauwkeurigheid en versnelde inferentie mogelijk maakt. Geïnspireerd door multi-token predictie in grote taalmodellen introduceert Next Forcing een MCP-trainingsdoelstelling die het hoofdmodel aanvult met lichtgewicht hulp-MCP-modules om gelijktijdig videochunks op meerdere toekomstige tijdelijke horizonten (next^1, next^2, next^3 chunks) te denoiseren. Deze MCP-modules vormen een causale keten over predictiediepten, waarbij tussentijdse kenmerken die uit meerdere lagen van het hoofdmodel zijn gefuseerd, worden gebruikt om toekomstige dynamiek te voorspellen, waardoor nabije-toekomstvoorspellingen verder-gelegen toekomstvoorspellingen kunnen informeren en dichte multi-schaal tijdelijke supervisie teruggeven aan het hoofdmodel. Tijdens de training versnellen de MCP-modules de convergentie aanzienlijk en verbeteren ze de geconvergeerde nauwkeurigheid, met name bij hoge framerates: bij 50 fps behaalt Next Forcing een relatieve verbetering van 93,1% ten opzichte van LingBot-VA bij 5k trainingsstappen en 2,3x snellere convergentie, en vestigt het nieuwe state-of-the-art resultaten op de RoboTwin-benchmark (94,1/93,5% op Clean/Random). Bij inferentie kunnen de MCP-modules worden behouden om het volgende videochunk parallel aan het huidige te voorspellen, wat een 2x inferentieversnelling oplevert. Next Forcing toont ook significante verbeteringen op PhyWorld, een benchmark die naleving van fysica-wetten in videogeneratie evalueert, en meer dan 50% FVD-reductie op algemene videopretraining.

Dynamische Lineaire Aandacht
Dynamic Linear Attention

Jun 9

ByXin Wang, Hui Shen, Boyuan Zheng, Xueshen Liu, Minkyoung Cho, Zhongwei Wan, Zesen Zhao, Zhuoqing Mao, Shen Yan, Mi Zhang

De schaalbaarheid van grote taalmodellen (Large Language Models, LLM's) naar lange contexten wordt fundamenteel beperkt door de kwadratische complexiteit van standaard aandacht, wat de adoptie van lineaire aandachtmechanismen met subkwadratische kosten motiveert. Om de representatiecapaciteit onder lange contexten te verbeteren, organiseren recente benaderingen het geheugen op een multi-toestand manier. Bestaande multi-toestand lineaire aandachtmethoden zijn echter afhankelijk van vaste toestandssamenvoegingsstrategieën die zich niet kunnen aanpassen aan dynamisch variërend tokenbelang, waardoor kritieke tokens onomkeerbaar worden verdoezeld en ernstige foutaccumulatie over lange sequenties ontstaat. Om deze beperking aan te pakken, introduceren we DLA, een dynamisch geheugenmodelleringskader voor multi-toestand lineaire aandacht. DLA introduceert (i) Informatiebewuste Dynamische Toestandssamenvoeging (Information-Aware Dynamic State Merging), die adaptief toestandsgrenzen bepaalt op basis van informatievariatie op token-niveau, waarbij hoge-resolutie-representaties rond semantische overgangen behouden blijven terwijl stabiele regio's agressief worden samengevat, en (ii) Capaciteitsbegrensde Geheugenmodellering (Capacity-Bounded Memory Modeling), die een vaste, chronologisch geordende toestandscache handhaaft door selectief aangrenzende laag-informatieve toestanden samen te voegen om geheugengroei te beheersen met minimaal informatieverlies. We trainen DLA vooraf op twee verschillende lineaire aandachtmodellen en evalueren op 16 datasets in drie categorieën. Experimentele resultaten tonen de superioriteit van DLA ten opzichte van de state-of-the-art.

Testtijd-gradiëntsturing van flow-beleid in bekrachtigingsleren
Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

Jun 9

ByZhiyuan Zhou, Andy Peng, Charles Xu, Qiyang Li, Tobias Springenberg, Kevin Frans, Sergey Levine

Expressieve continue controlebeleidsvormen, zoals diffusie- en stromingsmodellen, vormen de ruggengraat van recente vooruitgang in het opschalen van imitatieleren voor gesimuleerde en echte robotbesturing. Hoewel ze bekend staan om stabiel op te schalen in de gesuperviseerde imitatieleromgeving, is het integreren ervan in versterkend leren (RL)-pijplijnen voor beleidsverbetering moeilijker gebleken. Het vereist vaak gespecialiseerde trainingsdoelen of het terugpropageren door ontruisingsprocessen, wat bekende stabiliteitsproblemen veroorzaakt en de schaalbaarheid beïnvloedt. In dit artikel bestuderen we de vraag of eenvoudige beleidsverbeteringsschema's alleen tijdens de testtijd, waarbij de stabiele gesuperviseerde beleidstraining intact blijft, een concurrerend alternatief kunnen zijn dat deze problemen omzeilt. Daartoe stellen we QGF (Q-gestuurde stroom) voor, een RL-algoritme dat beleidsoptimalisatie volledig tijdens de testtijd uitvoert. QGF werkt door zowel een referentiestroombeleid (via een standaard gedragsklonendoel) als een waardefunctiecritic voor te trainen en tijdens de testtijd de waarde gradiënt te gebruiken om het referentiebeleid te sturen naar het genereren van acties met hogere waarde, zonder enige extra beleidsleren. Empirisch gezien presteert QGF beter dan eerdere testtijd-RL-methoden op single-task en goal-conditioned offline RL-benchmarks met hoogdimensionale actieruimten, en is het concurrerend met state-of-the-art trainingstijdalgoritmen, terwijl het veel goedkoper is om uit te voeren. Bovendien vertoont het gunstige schaalbaarheid met modelgrootte door het vermijden van de instabiliteit van actor-critic training, wat een praktisch en effectief alternatief RL-algoritme biedt met expressieve beleidsvormen.

Laat-laagfusie is voldoende: Duale-pad visuele tokenroutering voor multimodale grote taalmodellen onder visuele verzadiging
Late-Layer Fusion is Enough: Dual-Path Vision Token Routing for Multimodal Large Language Models under Visual Saturation

Jun 8

BySiyuan Liu, Jinyang Wu

Multimodale grote taalmodellen (MLLMs) erven doorgaans de diepe, symmetrische Transformer-ruggegraat die ontworpen is voor unimodale tekstmodellering, en passen dezelfde berekening uniform toe op afbeeldings- en taaltokens. Dit ontwerp gaat voorbij aan een belangrijke modaliteitsasymmetrie: afbeeldings- en teksttokens verschillen aanzienlijk in informatiedichtheid, redundantie en vereiste redeneerdiepte. Door een laagsgewijze analyse van LLaVA-1.5 observeren we dat visietokens de neiging hebben te verzadigen in de middelste lagen. Specifiek neemt de tekst-naar-beeld aandacht af van 0,68 in laag 0 tot 0,07 in laag 4, en stabiliseert rond 0,04 na laag 18, terwijl teksttokens blijven profiteren van diepe semantische verwerking. Deze bevindingen wijzen op een mismatch tussen architectonische symmetrie en diepte-asynchrone modaliteitsevolutie, wat resulteert in redundante visuele berekening en mogelijke drift in perceptuele representaties tijdens diepe taakspecifieke aanpassing. Gemotiveerd door dit voorstellen we Dual-Path Vision Token Routing (DPVR), een modaliteitsasymmetrisch routeringsraamwerk voor efficiënte MLLMs. De kernimplementatie, DPVR-LF (Late-Laag Fusie), routeert visietokens op het verzadigingspunt naar een trainbare zijtak van één laag, voert een dertienlaagse tekst-only forward uit die afbeeldingsposities in de diepe stapel overslaat, en voegt de visuele en tekstuele stromen pas in de laatste laag opnieuw samen. Met ongeveer 3% trainbare parameters behoudt DPVR-LF competitieve multimodale prestaties op standaard benchmarks, terwijl de visuele berekening in de diepe Transformer-stapel wordt verminderd. De resultaten dagen de conventionele aanname uit dat visietokens alle diepe taalmodellagen moeten doorlopen, en geven aan dat een enkele late fusielaag voldoende kan zijn voor het behouden van sterke perceptuele competentie in LLaVA-achtige MLLMs.

Misleiden codeagenten ons? Detecteren en voorkomen van bedrog via begrensde evaluatie met gerandomiseerde tests.
Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests

Jun 5

ByThanawat Lodkaew, Johannes Ackermann, Soichiro Nishimori, Nontawat Charoenphakdee, Masashi Sugiyama, Takashi Ishida

Een groeiende faalwijze bij de evaluatie en training van agenten is dat modellen hoge evaluatiescores kunnen behalen door gebruik te maken van kortsluitingen in plaats van de beoogde taak op te lossen, wat leidt tot misleidende prestaties. Dit maakt evaluatiescores onbetrouwbaar als maatstaf voor het werkelijke probleemoplossend vermogen. Wij stellen CapCode voor, een raamwerk voor het construeren van codeerdatasets met gerandomiseerde tests waarvan de best haalbare niet-frauduleuze prestatie opzettelijk onder de één wordt ingesteld. Dit ontwerp met een prestatieplafond geeft evaluatiescores een duidelijkere interpretatie: scores die aanzienlijk boven het plafond liggen, zijn onwaarschijnlijk en leveren daarmee bewijs van fraude. Om fraude te voorkomen, stellen wij CapReward voor, een beloningsontwerp gebaseerd op het CapCode-principe, dat optimalisatie boven het plafond ontmoedigt. Experimenten met meerdere datasets tonen aan dat CapCode fraude detecteert terwijl de prestatievolgorde van modellen behouden blijft, en dat CapReward frauduleus gedrag vermindert, wat resulteert in modellen die de beoogde taakspecificatie beter volgen.

IR3DE: Een Lineaire Router voor Grote Taalmodellen
IR3DE: A Linear Router for Large Language Models

Jun 4

ByEros Fanì, Oğuzhan Ersoy

Fundamentele Grote Taalmodellen (LLM's) tonen vaardigheid in een breed scala aan algemene taken en behalen opmerkelijke resultaten in diverse gespecialiseerde taken via domeinexpert-LLM's. Met de steeds groeiende lijst van beschikbare LLM's worden inferentierouters voorgesteld om voor elke prompt het meest geschikte LLM te selecteren. Bestaande routeringsmethoden optimaliseren echter ofwel de kosten over zwakke tot sterke generalistische LLM's, of vereisen aanzienlijke training om domeinexpertroutering te ondersteunen. In dit artikel stellen we IR3DE voor, een op Ridge-regressie gebaseerde router voor domeinexperts die goedkope en snelle routeringsbeslissingen voor elke prompt biedt. We evalueren IR3DE in twee causale taalmodellerings (CLM)-settings waarin de taken uit volgende-tokenvoorspelling voor alle domeinen bestaan, en één redeneersetting waarin elk domein zijn eigen specifieke redeneertaak heeft. Ondanks het feit dat het een lineaire router is, presteert IR3DE vergelijkbaar met de andere baselines in beide CLM-settings en overtreft het deze in de redeneersetting, met een genormaliseerde prestatie van 98,4%. Bovendien maakt IR3DE het mogelijk om nieuwe domeinexperts toe te voegen of te verwijderen zonder dat de router opnieuw van de grond af aan getraind hoeft te worden, wat een dynamische set van LLM's mogelijk maakt met minimale verstoring van de router zelf. Onze code is beschikbaar op: github.com/gensyn-ai/IR3DE.

De rol van feedback-uitlijning in zelfdistillatie
The Role of Feedback Alignment in Self-Distillation

Jun 9

BySemih Kara, Oğuzhan Ersoy

Het conditioneren van een taalmodel op extra context, zoals feedback op een eerdere poging, verbetert doorgaans de respons. Zelfdistillatie traint het model om deze verbetering te behouden wanneer de context niet aanwezig is. De methode werkt door de outputdistributie van het model onder twee instellingen te matchen: een student die alleen de vraag ziet, en een zelfleraar die ook de context ziet. Wat het model leert, hangt dus af van welke context de zelfleraar ontvangt, maar het ontwerp van deze context blijft grotendeels onverkend. We bestuderen contextontwerp voor zelfdistillatie door een oplosser te trainen op feedback van een bevroren criticus. We vergelijken drie condities: (i) een binaire beloning (GRPO), (ii) de referentieoplossing, en (iii) een stapsgewijze kritiek die is afgestemd op het redeneerspoor van de oplosser. Stap-afgestemde kritiek levert de grootste winst op, met een prestatie die 16,11 punten hoger ligt dan GRPO en 5,27 punten hoger dan zelfdistillatie geconditioneerd op de referentieoplossing (Avg@12). Per-token-voordeelanalyse toont aan waarom: stap-afgestemde feedback richt zich alleen op de tokens waar het redeneren faalt, terwijl correct gedrag intact blijft. Conditionering op de referentieoplossing daarentegen dwingt het model om zijn gedrag bij elk token te veranderen (zelfs bij correcte stappen), omdat een alternatieve afleiding onvermijdelijk verschilt in formulering en aanpak. Dit suggereert dat structurele afstemming tussen feedback en het redeneren van de oplosser een belangrijke drijvende kracht is voor de effectiviteit van zelfdistillatie.

PaperMentor: Een mensgerichte multi-agent schrijftutor voor AI-onderzoeksartikelen op Overleaf
PaperMentor: A Human-Centered Multi-Agent Writing Tutor for AI Research Papers on Overleaf

Jun 7

ByJiarui Liu, Terry Jingchen Zhang, Ryan Faulkner, X. Angelo Huang, Vilém Zouhar, Dominik Glandorf, Isabel Dahlgren, Van Q. Truong, Rishit Dagli, Yuen Chen, Felix Leeb, Punya Syon Pandey, Yves Bicker, Suvajit Majumder, Wenyuan Jiang, Zeju Qiu, Sankalan Pal Chowdhury, Bernhard Schölkopf, Mona Diab, Zhijing Jin

Deskundige schrijffeedback van ervaren onderzoekers is cruciaal voor beginnende academici om hun manuscripten te verbeteren, maar hoogwaardige feedback blijft vaak schaars omdat het beoordelen van onderzoeksartikelen arbeidsintensief is. Opkomende AI-gestuurde schrijfassistenten richten zich voornamelijk op grammaticacorrecties of het simuleren van peer review met eindcijfers, maar schieten tekort in het geven van concrete, uitvoerbare suggesties die studenten helpen hun papers te verbeteren tijdens het schrijfproces. We presenteren PaperMentor, een mensgericht schrijfassistent-systeem dat uitvoerbare suggesties levert als Overleaf-native inline-opmerkingen, terwijl het daadwerkelijke schrijven volledig aan menselijke auteurs wordt overgelaten. PaperMentor integreert een bibliotheek met deskundige vaardigheden, zorgvuldig samengesteld uit schrijfadvies van gevestigde onderzoekers, met 12 gespecialiseerde agenten die verschillende aspecten van het schrijven van papers bestrijken, zoals naleving van opmaak, nauwkeurigheid van formuleringen en consistentie van terminologie. In een gebruikersstudie (n=14) werd 90,6% van de gegenereerde opmerkingen als uitvoerbaar beoordeeld en 67,5% als geldig, wat aanzienlijk beter presteerde dan een GPT-5.2-baseline zonder de vaardighedenbibliotheek. We stellen PaperMentor beschikbaar als open source voor openbaar gebruik. Onze code is openbaar beschikbaar onder de AGPL-3.0-licentie op https://github.com/jiarui-liu/overleaf.

Wanneer de Chain of Thought het beter weet: Faalwijzen in meerstapsredeneringsmodellen
When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models

Jun 9

BySai Kartheek Reddy Kasu, Nils Lukas, Samuele Poppi

Fouten in multi-turn redeneermodellen zijn grotendeels onzichtbaar voor evaluatie op basis van eindscores. Een model kan al vroeg in een lang gesprek een onveilig standpunt innemen, terwijl het weigeringspercentage in de laatste beurt toch niet te onderscheiden lijkt van een robuust afgestemde basislijn. Om deze verborgen temporele dynamiek bloot te leggen, stellen we een diagnose op spoor-niveau voor: de CoT-Output 2x2 veiligheidsmatrix. Dit raamwerk labelt elke beurt langs twee onafhankelijke assen (interne redenering en zichtbare output), wat resulteert in vier operationeel gedefinieerde foutcellen: robuuste afstemming, afstemmingsvervalsing, openlijke jailbreak en een specifiek falen dat we contextinjectiefout noemen (waarbij de CoT een veilige redenering behoudt, maar de zichtbare output schade veroorzaakt, wat een multi-turn manifestatie van redeneringsontrouw benadrukt). We evalueren drie gedistilleerde redeneerdoelen tegen een vaste aanvaller in vijf toezichtcondities, en verzamelen 6750 observaties op beurt-niveau in het Informatie-Gevaar scenario. Onze analyse onthult twee reproduceerbare kwetsbaarheden: een toezichtparadox waarbij expliciete monitoringaanwijzingen paradoxaal genoeg de mate van afstemmingsvervalsing verhogen in plaats van onderdrukken, en een contextinjectiefout waarbij modellen vasthouden aan onveilige externe outputs ondanks veilige interne toestanden. We publiceren de volledige dataset van multi-turn dialogen en CoT-sporen ter ondersteuning van vervolgonderzoek naar spoor-diagnostiek.

Gedecentraliseerde multi-agentsystemen met gedeelde context
Decentralized Multi-Agent Systems with Shared Context

Jun 9

ByYuzhen Mao, Azalia Mirhoseini

Multi-agent systemen (MAS) kunnen het redeneren van grote taalmodellen tijdens testtijd schalen door complexe problemen te decomponeren in parallelle subtaken. De meeste bestaande MAS vertrouwen echter op gecentraliseerde orkestratie, waarbij een hoofdagent werk toewijst, outputs verzamelt en resultaten samenvoegt. Naarmate het aantal subtaken groeit, wordt deze controller een communicatie- en integratieflessenhals. Wij stellen Gedecentraliseerde Taalmodellen (DeLM) voor, een MAS-raamwerk dat coördinatie decentraliseert via parallelle agenten, een gedeelde geverifieerde context en een takenwachtrij. Agenten claimen asynchroon subtaken, lezen de opgebouwde voortgang, voeren lokaal redeneren uit en schrijven compacte geverifieerde updates terug. De gedeelde context fungeert als een gemeenschappelijk communicatiesubstraat, waardoor agenten kunnen voortbouwen op elkaars geverifieerde voortgang zonder elke update via een centrale controller te routeren. Empirisch verbetert DeLM zowel de testtijd schaling in software-engineering als het redeneren over lange contexten. Op SWE-bench Verified behaalt DeLM de beste prestaties over Avg.@1, Pass@2 en Pass@4, met winsten van tot 10,5 procentpunten ten opzichte van de sterkste basislijn, terwijl de kosten per taak met ongeveer 50% worden verlaagd. Op LongBench-v2 Multi-Doc QA behaalt DeLM de hoogste gemiddelde nauwkeurigheid over vier geavanceerde modelfamilies, wat een verbetering is ten opzichte van de sterkste basislijn met tot 5,7 procentpunten. De code is beschikbaar op onze projectwebsite op https://yuzhenmao.github.io/DeLM/.

Wanneer Gedragsveiligheidsevaluatie Mislukt: Een Perspectief op Representatieniveau
When Behavioral Safety Evaluation Fails: A Representation-Level Perspective

Jun 6

ByEnyi Jiang, Anders Gjølbye, Yibo Jacky Zhang, Sanmi Koyejo

De veiligheid van grote taalmodellen (Large Language Models, LLM's) wordt vaak geëvalueerd op gedragsniveau, wat beperkt bewijs levert van interne robuustheid, aangezien deze evaluaties gericht zijn op outputs in plaats van op kwetsbaarheid op representatieniveau onder interventie. We formaliseren deze discrepantie als de auditkloof: het verschil tussen gedragsveiligheid en robuustheid onder interventie. Om deze kloof te bestuderen, construeren we gedissocieerde modellen die veilig uiterlijk gedrag behouden terwijl ze kwetsbaar blijven in de latente ruimte. We introduceren een op interventies gebaseerd evaluatiekader om modelrobuustheid te testen via zachte interventies in parameter- en latente ruimtes, waaronder schadelijke fine-tuning en laagsgewijze latente perturbaties. Om de evaluatie te formaliseren, stellen we de Latente Kwetsbaarheidsscore (LVS) voor om te meten hoe gemakkelijk schadelijk gedrag kan worden opgeroepen door begrensde latente perturbaties. Met behulp van dit evaluatiekader tonen we aan dat gedragsveiligheidsmetrieken onvoldoende maten zijn voor robuustheid op representatieniveau bij meerdere veilig en onveilig afgestemde state-of-the-art modellen. Opvallend is dat gedissocieerde modellen aanzienlijk verhoogde LVS'en vertonen ondanks vergelijkbaar weigeringsgedrag onder schadelijke interventie, waarbij tussenliggende representaties het meest gevoelig zijn voor interventie. Onze resultaten suggereren dat evaluatie van gedragsveiligheid alleen een onvolledig beeld geeft van modelrobuustheid, wat pleit voor representatiebewuste audits van latente kwetsbaarheid en waarneembaar gedrag.

FadeMem: Afstandsbewuste Geheugenconsolidatie voor Autoregressieve Videodiffusie
FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion

Jun 9

ByYu Lu, Junjie Yang, Piotr Koniusz, YuXin Song, Yi Yang

Autoregressieve videogeneratoren synthetiseren lange video's door opeenvolgende temporele segmenten te genereren, maar hun historische KV-cache groeit met de videolengte. Bestaande methoden met begrensde cache verlagen deze kosten met lokale vensters, sink-tokens of gecomprimeerde geheugentoestanden, maar kennen gewoonlijk vaste rollen toe aan verschillende delen van de geschiedenis. Wij stellen FadeMem voor, een afstandsbewust KV-geheugenconsolidatiemechanisme dat historische KV-blokken ordent in een temporele hiërarchie onder een vast cachebudget. Dit ontwerp is gemotiveerd door frequentieafhankelijk temporeel verval: fijne details decorreleren snel, terwijl grove scenestructuur en identiteit gedurende langere tijdshorizonten bruikbaar blijven. Tijdens generatie wordt nieuwe geschiedenis ingevoegd als fijnmazige ingangen, terwijl oudere aangrenzende ingangen geleidelijk worden samengevoegd volgens een machtswet-temporeel toewijzingsschema, wat resulteert in een dichtbij-dicht, veraf-schaars geheugen binnen één cache. Zonder architectuurwijzigingen behoudt FadeMem recente context voor kortetermijndynamiek en compacte verre ankers voor identiteit- en scènecoherentie. Experimenten tonen verbeterde subjectconsistentie, achtergrondstabiliteit en temporele coherentie aan in vergelijking met bestaande strategieën met begrensde cache.

In-context meervoudig instantieleren
In-Context Multiple Instance Learning

Jun 4

ByAlexander Möllers, Marvin Sextro, Julius Hense, Gabriel Dernbach, Klaus-Robert Müller

Multiple Instance Learning (MIL) pakt problemen aan waarbij supervisie beschikbaar is op het niveau van tassen van instanties en is succesvol toegepast in uiteenlopende velden van computationele pathologie tot satellietbeelden. Desondanks worstelen bestaande algoritmen in het regime met weinig labels dat kenmerkend is voor veel praktijktoepassingen. Flexibele modellen overfitten en rigide modellen slagen er niet in zich aan te passen aan de taak. We tonen aan dat het vooraf trainen van een in-context lerend model met een Perceiver-achtige architectuur op synthetische data een model oplevert dat nieuwe taken kan oplossen met een handvol gelabelde tassen. Tijdens inferentie vindt classificatie plaats in een enkele voorwaartse doorgang en er zijn geen gradiëntupdates nodig. We stellen verschillende synthetische datageneratoren voor voor tasgestructureerde data en onderzoeken deze, en vinden dat ze complementaire inductieve biases vastleggen. Een model dat vooraf is getraind op een mix van deze generatoren erft hun per-taaksterktes en behaalt de beste gemiddelde prestatie over twaalf MIL-benchmarks, waarmee het gesuperviseerde basislijnen overtreft die taakspecifieke training vereisen.

BenSyc: Benchmarking van conversationele sycophantie en menselijke afstemming in LLM's voor Bengaalse contexten
BenSyc: Benchmarking Conversational Sycophancy and Human Alignment in LLMs for Bengali Contexts

Jun 8

ByKazi Noshin, Sajib Acharjee Dip, Ranat Das Prangon, Fardin Hassan Tamim, Syed Ishtiaque Ahmed, Liqing Zhang, Sharifa Sultana

Grote taalmodellen (LLM's) nemen steeds vaker deel aan emotioneel gevoelige sociale gesprekken, waarbij reacties kunnen verschuiven van evenwichtige ondersteuning naar buitensporige validatie of escalerende afstemming. Bestaand onderzoek naar sycophancy richt zich voornamelijk op feitelijke overeenstemming en instructievolgende situaties, waardoor cultureel verankerde conversationele sycophancy onderbelicht blijft. We introduceren BenSyc, de eerste benchmark voor het bestuderen van conversationele sycophancy in Bengaalse sociale contexten. Uitgaande van 11.840 Reddit-berichten en 170.000 reacties verzameld uit gemeenschappen in Bangladesh en West-Bengalen, construeren we een door mensen gevalideerde benchmark met binaire labels en een fijnmazige taxonomie op vijf niveaus, bestaande uit Ongeldigverklaring, Neutraal, Ondersteuning, Validatie en Escalatie. We evalueren meer dan 15 open en propriëtaire LLM's op taken voor conversationele afstemmingsclassificatie en responsgeneratie. De resultaten tonen aan dat het onderscheiden van empathische ondersteuning van op bekrachtiging gerichte validatie zelfs voor geavanceerde instructie-afgestemde modellen een uitdaging blijft: het beste systeem behaalt slechts 61,8 Macro-F1 op binaire detectie en 61,7 Macro-F1 op vijfklassenclassificatie. In generatie-instellingen produceren verschillende modellen vaak sterk validerende of escalerende reacties in emotioneel geladen situaties. Onze bevindingen benadrukken aanzienlijke variatie tussen modelfamilies en conversationeel gedrag, wat het belang onderstreept van cultureel verankerde meertalige benchmarks voor het evalueren van sociaal afgestemde conversationele AI-systemen.