HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

48 papers found

Stap 3.5 Flash: Open Frontier-Niveau Intelligentie met 11B Actieve Parameters
Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

Feb 11

ByAilin Huang, Ang Li, Aobo Kong, Bin Wang, Binxing Jiao, Bo Dong, Bojun Wang, Boyu Chen, Brian Li, Buyun Ma, Chang Su, Changxin Miao, Changyi Wan, Chao Lou, Chen Hu, Chen Xu, Chenfeng Yu, Chengting Feng, Chengyuan Yao, Chunrui Han, Dan Ma, Dapeng Shi, Daxin Jiang, Dehua Ma, Deshan Sun, Di Qi, Enle Liu, Fajie Zhang, Fanqi Wan, Guanzhe Huang, Gulin Yan, Guoliang Cao, Guopeng Li, Han Cheng, Hangyu Guo, Hanshan Zhang, Hao Nie, Haonan Jia, Haoran Lv, Hebin Zhou, Hekun Lv, Heng Wang, Heung-Yeung Shum, Hongbo Huang, Hongbo Peng, Hongyu Zhou, Hongyuan Wang, Houyong Chen, Huangxi Zhu, Huimin Wu, Huiyong Guo, Jia Wang, Jian Zhou, Jianjian Sun, Jiaoren Wu, Jiaran Zhang, Jiashu Lv, Jiashuo Liu, Jiayi Fu, Jiayu Liu, Jie Cheng, Jie Luo, Jie Yang, Jie Zhou, Jieyi Hou, Jing Bai, Jingcheng Hu, Jingjing Xie, Jingwei Wu, Jingyang Zhang, Jishi Zhou, Junfeng Liu, Junzhe Lin, Ka Man Lo, Kai Liang, Kaibo Liu, Kaijun Tan, Kaiwen Yan, Kaixiang Li, Kang An, Kangheng Lin, Lei Yang, Liang Lv, Liang Zhao, Liangyu Chen, Lieyu Shi, Liguo Tan, Lin Lin, Lina Chen, Luck Ma, Mengqiang Ren, Michael Li, Ming Li, Mingliang Li, Mingming Zhang, Mingrui Chen, Mitt Huang, Na Wang, Peng Liu, Qi Han, Qian Zhao, Qinglin He, Qinxin Du, Qiuping Wu, Quan Sun, Rongqiu Yang, Ruihang Miao, Ruixin Han, Ruosi Wan, Ruyan Guo, Shan Wang, Shaoliang Pang, Shaowen Yang, Shengjie Fan, Shijie Shang, Shiliang Yang, Shiwei Li, Shuangshuang Tian, Siqi Liu, Siye Wu, Siyu Chen, Song Yuan, Tiancheng Cao, Tianchi Yue, Tianhao Cheng, Tianning Li, Tingdan Luo, Wang You, Wei Ji, Wei Yuan, Wei Zhang, Weibo Wu, Weihao Xie, Wen Sun, Wenjin Deng, Wenzhen Zheng, Wuxun Xie, Xiangfeng Wang, Xiangwen Kong, Xiangyu Liu, Xiangyu Zhang, Xiaobo Yang, Xiaojia Liu, Xiaolan Yuan, Xiaoran Jiao, Xiaoxiao Ren, Xiaoyun Zhang, Xin Li, Xin Liu, Xin Wu, Xing Chen, Xingping Yang, Xinran Wang, Xu Zhao, Xuan He, Xuanti Feng, Xuedan Cai, Xuqiang Zhou, Yanbo Yu, Yang Li, Yang Xu, Yanlin Lai, Yanming Xu, Yaoyu Wang, Yeqing Shen, Yibo Zhu, Yichen Lv, Yicheng Cao, Yifeng Gong, Yijing Yang, Yikun Yang, Yin Zhao, Yingxiu Zhao, Yinmin Zhang, Yitong Zhang, Yixuan Zhang, Yiyang Chen, Yongchi Zhao, Yongshen Long, Yongyao Wang, Yousong Guan, Yu Zhou, Yuang Peng, Yuanhao Ding, Yuantao Fan, Yuanzhen Yang, Yuchu Luo, Yudi Zhao, Yue Peng, Yueqiang Lin, Yufan Lu, Yuling Zhao, Yunzhou Ju, Yurong Zhang, Yusheng Li, Yuxiang Yang, Yuyang Chen, Yuzhu Cai, Zejia Weng, Zetao Hong, Zexi Li, Zhe Xie, Zheng Ge, Zheng Gong, Zheng Zeng, Zhenyi Lu, Zhewei Huang, Zhichao Chang, Zhiguo Huang, Zhiheng Hu, Zidong Yang, Zili Wang, Ziqi Ren, Zixin Zhang, Zixuan Wang

189

Wij introduceren Step 3.5 Flash, een sparse Mixture-of-Experts (MoE) model dat frontier-level agentische intelligentie verbindt met computationele efficiëntie. Wij richten ons op wat het belangrijkst is bij het bouwen van agents: scherp redeneervermogen en snelle, betrouwbare uitvoering. Step 3.5 Flash combineert een foundation van 196B parameters met 11B actieve parameters voor efficiënte inferentie. Het is geoptimaliseerd met afwisselende 3:1 sliding-window/full attention en Multi-Token Prediction (MTP-3) om de latentie en kosten van multi-round agentische interacties te verminderen. Om frontier-level intelligentie te bereiken, hebben we een schaalbaar reinforcement learning-framework ontworpen dat verifieerbare signalen combineert met preference feedback, terwijl het stabiel blijft onder grootschalige off-policy training, wat consistente zelfverbetering mogelijk maakt op het gebied van wiskunde, code en toolgebruik. Step 3.5 Flash demonstreert sterke prestaties op agent-, codeer- en wiskundetaken, met scores van 85,4% op IMO-AnswerBench, 86,4% op LiveCodeBench-v6 (2024.08-2025.05), 88,2% op tau2-Bench, 69,0% op BrowseComp (met contextmanagement) en 51,0% op Terminal-Bench 2.0, vergelijkbaar met frontier-modellen zoals GPT-5.2 xHigh en Gemini 3.0 Pro. Door de efficiëntiegrens te herdefiniëren, biedt Step 3.5 Flash een hoogwaardige foundation voor de inzet van geavanceerde agents in real-world industriële omgevingen.

VidVec: Het Ontsluiten van Video MLLM-Embeddings voor Video-Tekst Retrieval
VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval

Feb 8

ByIssar Tzachor, Dvir Samuel, Rami Ben-Ari

122

Recente studies hebben generatieve multimodale grote taalmodellen (MLLM's) aangepast tot embedding-extractors voor visuele taken, doorgaans door middel van fine-tuning om universele representaties te produceren. Hun prestaties op video blijven echter inferieur aan die van Video Foundation Models (VFM's). In dit artikel richten we ons op het inzetten van MLLM's voor video-tekst-embedding en -retrieval. We voeren eerst een systematische, laag-voor-laag-analyse uit, waaruit blijkt dat tussenliggende (vooraf getrainde) MLLM-lagen reeds substantiële taakrelevante informatie coderen. Gebruikmakend van dit inzicht, tonen we aan dat het combineren van embeddings uit tussenliggende lagen met een gekalibreerde MLLM-head sterke zero-shot retrievalprestaties oplevert zonder enige training. Voortbordurend op deze bevindingen, introduceren we een lichtgewicht tekstgebaseerde aligneringsstrategie die dichte videobijschriften afbeeldt op korte samenvattingen, en het leren van taakgerelateerde video-tekst-embeddings mogelijk maakt zonder visuele supervisie. Opmerkelijk genoeg presteert onze methode, zonder enige fine-tuning voorbij tekst, beter dan huidige methoden, vaak met een aanzienlijke marge, en behaalt state-of-the-art resultaten op gangbare video-retrievalbenchmarks.

GENIUS: Generatieve Evaluatiesuite voor Vloeiende Intelligentie
GENIUS: Generative Fluid Intelligence Evaluation Suite

Feb 11

ByRuichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen, Haodong Li, Renrui Zhang, Xinyu Wei, Guopeng Li, Wenshan Wu, Wentao Zhang

Unified Multimodal Models (UMM's) hebben een opmerkelijke vooruitgang geboekt in visuele generatie. Toch beoordelen bestaande benchmarks voornamelijk Gekristalliseerde Intelligentie, die steunt op het oproepen van opgebouwde kennis en aangeleerde schema's. Deze focus laat Generatieve Fluïde Intelligentie (GFI) buiten beschouwing: het vermogen om patronen af te leiden, te redeneren met beperkingen en zich ter plekke aan te passen aan nieuwe scenario's. Om dit vermogen rigoureus te beoordelen, introduceren we GENIUS (GEN Fluid Intelligence EvalUation Suite). We formaliseren GFI als een synthese van drie primitieven. Deze omvatten het Afleiden van Impliciete Patronen (bijv. het afleiden van gepersonaliseerde visuele voorkeuren), het Uitvoeren van Ad-hoc Beperkingen (bijv. het visualiseren van abstracte metaforen) en het Aanpassen aan Contextuele Kennis (bijv. het simuleren van contra-intuïtieve fysica). Gezamenlijk dagen deze primitieven modellen uit om problemen op te lossen die volledig zijn geworteld in de directe context. Onze systematische evaluatie van 12 representatieve modellen onthult significante prestatieachterstanden bij deze taken. Cruciaal is dat onze diagnostische analyse deze faalwijzen ontrafelt. Het toont aan dat de tekortkomingen voortkomen uit beperkt contextbegrip in plaats van onvoldoende intrinsiek generatief vermogen. Om deze kloof te overbruggen, stellen we een trainingsvrije aandacht-interventiestrategie voor. Uiteindelijk stelt GENIUS een rigoureuze standaard voor GFI, en leidt het het veld voorbij kennisbenutting naar dynamisch, algemeen toepasbaar redeneren. Onze dataset en code worden vrijgegeven op: https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.

PhyCritic: Multimodale Criticus-modellen voor Fysieke Kunstmatige Intelligentie
PhyCritic: Multimodal Critic Models for Physical AI

Feb 11

ByTianyi Xiong, Shihao Wang, Guilin Liu, Yi Dong, Ming Li, Heng Huang, Jan Kautz, Zhiding Yu

Met de snelle ontwikkeling van grote multimodale modellen zijn betrouwbare beoordelings- en criticusmodellen essentieel geworden voor open-einde evaluatie en voorkeursafstemming. Ze bieden paarsgewijze voorkeuren, numerieke scores en verklarende rechtvaardigingen voor het beoordelen van door modellen gegenereerde reacties. Echter, bestaande criticusmodellen zijn voornamelijk getraind in algemene visuele domeinen zoals beeldbeschrijving of beeldvraagbeantwoording, waardoor fysieke AI-taken waarbij waarneming, causaal redeneren en planning centraal staan grotendeels onderbelicht blijven. Wij introduceren PhyCritic, een multimodaal criticusmodel geoptimaliseerd voor fysieke AI via een tweefasen RLVR-pijplijn: een opwarmfase voor fysieke vaardigheden die fysiek georiënteerde waarneming en redeneren verbetert, gevolgd door zelfreferentiële fijnafstemming van de criticus. Hierbij genereert de criticus zijn eigen voorspelling als interne referentie alvorens kandidaatreacties te beoordelen, wat de beoordelingsstabiliteit en fysieke correctheid verbetert. Op zowel fysieke als algemene multimodale beoordelingsbenchmarks behaalt PhyCritic aanzienlijke prestatieverbeteringen ten opzichte van open-source basislijnen en, wanneer toegepast als beleidsmodel, verbetert het verder de waarneming en redeneervaardigheden in fysiek onderbouwde taken.

ASA: Training-vrije representatie-engineering voor gereedschapsaanroepende agents
ASA: Training-Free Representation Engineering for Tool-Calling Agents

Feb 4

ByYoujin Wang, Run Zhou, Rong Fu, Shuaishuai Cao, Hongwei Zeng, Jiaxuan Lu, Sicheng Fan, Jiaqiao Zhao, Liangming Pan

Het aanpassen van LLM-agents aan domeinspecifieke toolaanroeping blijft opvallend broos bij evoluerende interfaces. Prompt- en schema-engineering is eenvoudig te implementeren, maar vaak kwetsbaar onder distributieverschuivingen en strikte parsers, terwijl continue parameter-efficiënte fine-tuning de betrouwbaarheid verbetert ten koste van training, onderhoud en mogelijk vergeten. Wij identificeren een kritieke Lazy Agent-faalmode waarbij toolnoodzaak bijna perfect decodeerbaar is uit middenlaag-activaties, maar het model conservatief blijft in het activeren van toolmodus, wat een representatie-gedragskloof blootlegt. Wij stellen Activation Steering Adapter (ASA) voor, een trainingsvrije, inference-time controller die een eenmalige interventie op middenlaagniveau uitvoert en zich richt op tool-domeinen via een router-geconditioneerd mengsel van stuurvectoren met een probe-gestuurde signed gate om ware intentie te versterken en valse triggers te onderdrukken. Op MTU-Bench met Qwen2.5-1.5B verbetert ASA de strikte tool-use F1-score van 0,18 naar 0,50 terwijl de false-positive-rate daalt van 0,15 naar 0,05, met slechts ongeveer 20KB aan draagbare assets en geen gewichts-updates.

Op weg naar autonoom wiskundig onderzoek
Towards Autonomous Mathematics Research

Feb 10

ByTony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao, Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong

Recente ontwikkelingen in fundamentele modellen hebben redeneersystemen opgeleverd die in staat zijn tot een gouden-medaille niveau op de Internationale Wiskunde Olympiade. De overgang van het oplossen van wedstrijdniveauproblemen naar professioneel onderzoek vereist echter het navigeren door een uitgebreide literatuur en het construeren van bewijzen met een lange tijdslijn. In dit werk introduceren we Aletheia, een wiskunde-onderzoeksagent die iteratief oplossingen genereert, verifieert en reviseert end-to-end in natuurlijke taal. Specifiek wordt Aletheia aangedreven door een geavanceerde versie van Gemini Deep Think voor uitdagende redeneerproblemen, een nieuwe schaalwet tijdens inferentie die verder reikt dan Olympiadeniveau-problemen, en intensief gebruik van tools om de complexiteit van wiskundig onderzoek te navigeren. We demonstreren de capaciteiten van Aletheia, van Olympiade-problemen tot PhD-niveau oefeningen, en vooral via verschillende mijlpalen in AI-ondersteund wiskundeonderzoek: (a) een onderzoekspaper (Feng26) gegenereerd door AI zonder enige menselijke interventie bij het berekenen van bepaalde structuurconstanten in de rekenkundige meetkunde, genaamd eigengewichten; (b) een onderzoekspaper (LeeSeo26) die mens-AI-samenwerking demonstreert bij het bewijzen van grenzen voor systemen van interagerende deeltjes, genaamd onafhankelijke verzamelingen; en (c) een uitgebreide semi-autonome evaluatie (Feng et al., 2026a) van 700 open problemen in Bloom's Erdos Conjectures-database, inclusief autonome oplossingen voor vier open vragen. Om het publiek te helpen de ontwikkelingen rond AI en wiskunde beter te begrijpen, stellen we voor om standaardniveaus te codificeren die de autonomie en originaliteit van AI-ondersteunde resultaten kwantificeren. We sluiten af met reflecties op mens-AI-samenwerking in de wiskunde.

Wanneer te onthouden en wanneer te stoppen: Gegateerd recurrent geheugen voor redeneren over lange contexten
When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

Feb 11

ByLeheng Sheng, Yongtao Zhang, Wenchang Ma, Yaorui Shi, Ting Huang, Xiang Wang, An Zhang, Ke Shen, Tat-Seng Chua

Hoewel redeneren over lange contexten cruciaal is voor diverse real-world toepassingen, blijft dit een uitdaging voor grote taalmodellen (LLM's) omdat ze last hebben van prestatievermindering naarmate de contextlengte toeneemt. Recent werk, MemAgent, heeft geprobeerd dit aan te pakken door context stukje-voor-stukje te verwerken in een RNN-achtige lus en een tekstueel geheugen bij te werken voor het uiteindelijke antwoord. Deze naïeve recurrent memory update kent echter twee cruciale tekortkomingen: (i) het geheugen kan snel exploderen omdat het ongericht kan updaten, zelfs bij chunks zonder bewijs; en (ii) de lus mist een exit-mechanisme, wat leidt tot onnodige berekeningen zelfs nadat voldoende bewijs is verzameld. Om deze problemen aan te pakken, stellen we GRU-Mem voor, dat twee tekstgestuurde poorten incorporeert voor stabieler en efficiënter redeneren over lange contexten. Specifiek in GRU-Mem wordt het geheugen alleen bijgewerkt wanneer de update-poort open staat, en de recurrent lus beëindigt onmiddellijk zodra de exit-poort opengaat. Om het model met dergelijke capaciteiten uit te rusten, introduceren we twee beloningssignalen, r^{update} en r^{exit}, binnen end-to-end reinforcement learning, die respectievelijk het correct updaten en exit-gedrag belonen. Experimenten op diverse taken voor redeneren over lange contexten demonstreren de effectiviteit en efficiëntie van GRU-Mem, dat over het algemeen superieur presteert aan de standaard MemAgent met een versnelling van de inferentiesnelheid tot wel 400%.

TimeChat-Captioner: Het Scripten van Multi-Scène Video's met Tijdbewuste en Structurele Audio-Visuele Bijschriften
TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

Feb 9

ByLinli Yao, Yuancheng Wei, Yaojie Zhang, Lei Li, Xinlong Chen, Feifan Song, Ziyue Wang, Kun Ouyang, Yuanxin Liu, Lingpeng Kong, Qi Liu, Pengfei Wan, Kun Gai, Yuanxing Zhang, Xu Sun

Dit artikel introduceert Omni Dense Captioning, een nieuwe taak die ontworpen is om continue, fijnmazige en gestructureerde audio-visuele narratieven met expliciete tijdstempels te genereren. Om een dichte semantische dekking te garanderen, introduceren we een zesdimensionaal structureel schema om "scriptachtige" bijschriften te creëren, waardoor lezers de videocontent scène voor scène levendig kunnen voorstellen, vergelijkbaar met een cinematografisch scenario. Om onderzoek te faciliteren, construeren we OmniDCBench, een hoogwaardige, door mensen geannoteerde benchmark, en stellen we SodaM voor, een uniforme metric die tijdbewuste gedetailleerde beschrijvingen evalueert en tegelijkertijd ambiguïteit in scènegrenzen vermindert. Verder construeren we een traininsdataset, TimeChatCap-42K, en presenteren we TimeChat-Captioner-7B, een sterke baseline getraind via SFT en GRPO met taakspecifieke beloningen. Uitgebreide experimenten tonen aan dat TimeChat-Captioner-7B state-of-the-art prestaties bereikt en Gemini-2.5-Pro overtreft, terwijl de gegenereerde dense beschrijvingen de downstream-capaciteiten in audio-visueel redeneren (DailyOmni en WorldSense) en temporele grounding (Charades-STA) aanzienlijk verbeteren. Alle datasets, modellen en code worden openbaar beschikbaar gesteld op https://github.com/yaolinli/TimeChat-Captioner.

Hoe nemen decoder-only LLM's gebruikers waar? Een heroverweging van attention masking voor gebruikersrepresentatieleren.
How Do Decoder-Only LLMs Perceive Users? Rethinking Attention Masking for User Representation Learning

Feb 11

ByJiahao Yuan, Yike Xu, Jinyong Wen, Baokun Wang, Yang Chen, Xiaotong Lin, Wuliang Huang, Ziyi Gao, Xing Fu, Yu Cheng, Weiqiang Wang

Decoder-only grote taalmodellen worden steeds vaker gebruikt als gedragsencoders voor gebruikersrepresentatieleren, maar de impact van attention masking op de kwaliteit van gebruikersembeddingen blijft onderbelicht. In dit werk voeren we een systematische studie uit naar causale, hybride en bidirectionele attention masks binnen een uniform contrastief leerframework, getraind op grootschalige real-world Alipay-gegevens die langetermijn heterogeen gebruikersgedrag integreren. Om de traindynamiek te verbeteren bij de overgang van causale naar bidirectionele attention, stellen we Gradient-Guided Soft Masking voor, een op gradienten gebaseerde pre-warmup toegepast vóór een lineaire scheduler die geleidelijk toekomstige attention vrijgeeft tijdens optimalisatie. Geëvalueerd op 9 industriële gebruikerscognitiebenchmarks die voorspellings-, voorkeurs- en marketinggevoeligheidstaken beslaan, levert onze aanpak consistent stabielere training en hogere kwaliteit bidirectionele representaties op in vergelijking met causale, hybride en scheduler-only baseline-methoden, terwijl compatibiliteit met decoder pretraining behouden blijft. Over het algemeen benadrukken onze bevindingen het belang van masking-ontwerp en trainovergang bij het aanpassen van decoder-only LLM's voor effectief gebruikersrepresentatieleren. Onze code is beschikbaar op https://github.com/JhCircle/Deepfind-GGSM.

G-LNS: Generatieve Grote Omgeving Zoektocht voor Op LLM Gebaseerd Automatisch Heuristisch Ontwerp
G-LNS: Generative Large Neighborhood Search for LLM-Based Automatic Heuristic Design

Feb 9

ByBaoyun Zhao, He Wang, Liang Zeng

Hoewel Large Language Models (LLM's) recentelijk veelbelovende resultaten hebben getoond in Automated Heuristic Design (AHD), formuleren bestaande benaderingen AHD doorgaans rond constructieve prioriteitsregels of geparametriseerde lokale zoekrichtlijnen, waardoor de zoekruimte wordt beperkt tot vaste heuristische vormen. Dergelijke ontwerpen bieden beperkte mogelijkheden voor structurele verkenning, waardoor het moeilijk is om diepe lokale optima te ontvluchten in complexe Combinatorial Optimization Problems (COPs). In dit werk stellen we G-LNS voor, een generatief evolutionair raamwerk dat op LLM gebaseerde AHD uitbreidt naar het geautomatiseerde ontwerp van Large Neighborhood Search (LNS)-operatoren. In tegenstelling tot eerdere methoden die heuristieken in isolatie evolueren, benut G-LNS LLM's om nauw verbonden paren van destroy- en repair-operatoren mee te co-evolueren. Een coöperatief evaluatiemechanisme vangt hun interactie expliciet, waardoor de ontdekking van complementaire operatorlogica mogelijk wordt die gezamenlijk effectieve structurele verstoring en reconstructie uitvoert. Uitgebreide experimenten op uitdagende COP-benchmarks, zoals Traveling Salesman Problems (TSP) en Capacitated Vehicle Routing Problems (CVRP), tonen aan dat G-LNS significant beter presteert dan op LLM gebaseerde AHD-methoden evenals sterke klassieke oplossers. De ontdekte heuristieken bereiken niet alleen bijna-optimale oplossingen met gereduceerde rekenbudgetten, maar vertonen ook robuuste generalisatie over diverse en onbekende instantiedistributies.

FeatureBench: Benchmarken van Agent-gebaseerd Programmeren voor Complexe Functieontwikkeling
FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

Feb 11

ByQixing Zhou, Jiacheng Zhang, Haiyang Wang, Rui Hao, Jiahe Wang, Minghao Han, Yuxue Yang, Shuzhe Wu, Feiyang Pan, Lue Fan, Dandan Tu, Zhaoxiang Zhang

Agents aangedreven door grote taalmodellen (LLM's) worden steeds vaker toegepast in de software-industrie, waar ze code bijdragen als samenwerkers of zelfs als autonome ontwikkelaars. Naarmate hun aanwezigheid toeneemt, wordt het belangrijk om de huidige grenzen van hun programmeercapaciteiten te beoordelen. Bestaande benchmarks voor agent-gebaseerd programmeren hebben echter een beperkte taakomvang, bijvoorbeeld het oplossen van bugs binnen een enkele pull request (PR), en vertrouwen vaak op niet-uitvoerbare evaluaties of ontberen een geautomatiseerde aanpak voor het continu bijwerken van de evaluatiedekking. Om deze problemen aan te pakken, stellen wij FeatureBench voor, een benchmark die is ontworpen om de prestaties van agent-gebaseerd programmeren te evalueren in end-to-end, functiegerichte softwareontwikkeling. FeatureBench omvat een op uitvoering gebaseerd evaluatieprotocol en een schaalbare testgedreven methode die automatisch taken afleidt uit coderepository's met minimale menselijke inspanning. Door vanaf unittests een afhankelijkheidsgraaf te volgen, kan onze aanpak functieniveau programmeertaken identificeren die zich uitstrekken over meerdere commits en PR's, verspreid over de ontwikkeltijdlijn, waarbij tegelijkertijd de correcte werking van andere functies na de scheiding wordt gewaarborgd. Met dit framework hebben wij voor de eerste versie van onze benchmark 200 uitdagende evaluatietaken en 3825 uitvoerbare omgevingen samengesteld uit 24 open-source repository's. Empirische evaluatie toont aan dat het state-of-the-art agent-model, zoals Claude 4.5 Opus, dat een slagingspercentage van 74,4% behaalt op SWE-bench, slechts 11,0% van de taken succesvol voltooit, wat nieuwe mogelijkheden opent voor de vooruitgang van agent-gebaseerd programmeren. Bovendien kan FeatureBench, dankzij onze geautomatiseerde toolkit voor taakverzameling, eenvoudig worden opgeschaald en in de tijd worden bijgewerkt om datalekken te beperken. De inherente verifieerbaarheid van de geconstrueerde omgevingen maakt onze methode ook potentieel waardevol voor de training van agents.

Het internaliseren van meta-ervaring in het geheugen voor begeleide reinforcement learning in grote taalmodellen
Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

Feb 10

ByShiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang, Qisheng Su, Kou Shi, Lin Chen, Zehui Chen, Feng Zhao

Versterkend Leren met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een effectieve aanpak om de redeneervermogens van Grote Taalmodellen (LLM's) te verbeteren. Ondanks de doeltreffendheid kampt RLVR met een meta-leerflessenhals: het mist mechanismen voor foutentoerekening en internalisatie van ervaring die inherent zijn aan de menselijke leercyclus, voorbij oefening en verificatie. Dit beperkt een fijnmazige toewijzing van verdienste en de vorming van herbruikbare kennis. Wij duiden dergelijke herbruikbare kennisrepresentaties, afgeleid van eerdere fouten, aan als meta-ervaring. Op basis van dit inzicht stellen wij Meta-Ervaringsleren (MEL) voor, een nieuw raamwerk dat zelf-gedistilleerde meta-ervaring integreert in het parametrische geheugen van het model. Voortbouwend op standaard RLVR introduceren we een aanvullende ontwerpstap die het zelfverificatievermogen van het LLM benut om een contrastieve analyse uit te voeren op gepaarde correcte en incorrecte trajecten, de precieze bifurcatiepunten waar redeneerfouten ontstaan te identificeren, en deze samen te vatten tot generaliseerbare meta-ervaring. De meta-ervaring wordt vervolgens verder geïnternaliseerd in het parametrische geheugen van het LLM door de negatieve log-waarschijnlijkheid te minimaliseren, wat een door het taalmodel gemodelleerd beloningssignaal induceert. Dit signaal vormt een brug tussen correcte en incorrecte redeneertrajecten en vergemakkelijkt effectieve hergebruik van kennis. Experimentele resultaten tonen aan dat MEL consistente verbeteringen bereikt op benchmarks, met 3,92%–4,73% winst in Pass@1 over verschillende modelgroottes heen.

DataChef: Het Samenstellen van Optimale Datarecepten voor LLM-Adaptatie via Reinforcement Learning
DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Feb 11

ByYicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen

In het huidige landschap van Large Language Models (LLM's) is de samenstelling van grootschalige, hoogwaardige trainingsdata een primaire drijvende kracht achter modelprestaties. Een belangrijke hefboom is het datarecept, dat bestaat uit een dataverwerkingspijplijn om ruwe bronnen om te zetten in trainingscorpora. Ondanks het toenemende gebruik van LLM's om individuele dataverwerkingsstappen te automatiseren, zoals datasynthese en -filtering, blijft het algehele ontwerp van datarecepten grotendeels handmatig en arbeidsintensief, wat aanzienlijke menselijke expertise en iteratie vereist. Om deze kloof te overbruggen, formuleren we end-to-end generatie van datarecepten voor LLM-aanpassing. Gegeven een doelbenchmark en een verzameling beschikbare databronnen, moet een model een compleet datarecept produceren dat een basis-LLM aanpast aan de doeltaak. Wij presenteren DataChef-32B, dat online reinforcement learning uitvoert met behulp van een proxy-beloning die de downstreamprestatie van kandidaat-recepten voorspelt. Over zes buitengehouden taken produceert DataChef-32B praktische recepten die vergelijkbare downstreamprestaties bereiken als die samengesteld door menselijke experts. Opmerkelijk is dat het recept van DataChef-32B Qwen3-1.7B-Base aanpast aan het wiskundedomein, met een score van 66.7 op AIME'25, waarmee het Qwen3-1.7B overtreft. Dit werk werpt een nieuw licht op het automatiseren van LLM-training en de ontwikkeling van zelf-evoluerende AI-systemen.

ROCKET: Snelle Optimalisatie via Kalibratiegeleide Knapzakverbeterde Truncatie voor Efficiënte Modelcompressie
ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression

Feb 11

ByAmmar Ali, Baher Mohammad, Denis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Stamatios Lefkimmiatis

Wij presenteren ROCKET, een trainingsvrije methode voor modelcompressie die state-of-the-art prestaties behaalt in vergelijking met baseline-methoden voor factorisatie, gestructureerde sparsificatie en dynamische compressie. ROCKET werkt onder een globaal compressiebudget en omvat twee belangrijke innovaties: Ten eerste formuleert het de compressietoewijzing per laag als een multi-choice knapzakprobleem, waarbij het optimale compressieniveau voor elke laag wordt geselecteerd om de totale reconstructiefout te minimaliseren binnen een beoogde modelgrootte. Ten tweede introduceert het een enkelstaps sparse matrixfactorisatie, geïnspireerd op dictionary learning: met slechts een kleine calibratieset sparsificeert het de gewichtscoëfficiënten op basis van activatie-gewichtsgevoeligheid en vervolgens wordt de dictionary in gesloten vorm bijgewerkt via kleinste kwadraten, waarbij iteratieve optimalisatie, sparse coding en backpropagation volledig worden omzeild. ROCKET presteert consistent beter dan bestaande compressiebenaderingen bij verschillende modelarchitecturen en compressiepercentages van 20-50%. Opmerkelijk is dat het bij 30% compressie meer dan 90% van de prestaties van het oorspronkelijke model behoudt, zonder enige fine-tuning. Bovendien wordt het herstel aanzienlijk verbeterd wanneer een lichte fine-tuning-fase wordt toegepast: bijvoorbeeld, het comprimeren van Qwen3-14B naar een model met 8B parameters en het 'helen' met slechts 30 miljoen tokens resulteert in prestaties die bijna gelijk zijn aan de oorspronkelijke Qwen3-8B. De code voor ROCKET staat op github.com/mts-ai/ROCKET/tree/main.

Online Causale Kalman-filtering voor Stabiele en Effectieve Beleidsoptimalisatie
Online Causal Kalman Filtering for Stable and Effective Policy Optimization

Feb 11

ByShuo He, Lang Feng, Xin Cheng, Lei Feng, Bo An

Versterkend leren voor grote taalmodelen lijdt onder hoog-variante tokengewijze importance sampling (IS)-ratio's, wat de beleidsoptimalisatie op grote schaal destabiliseert. Om de stabiliteit te verbeteren, gebruiken recente methoden typisch een vaste sequentieniveau IS-ratio voor alle tokens in een reeks of passen ze de IS-ratio van elke token afzonderlijk aan, waardoor de temporele off-policy afleiding tussen tokens in een reeks wordt verwaarloosd. In dit artikel identificeren we eerst empirisch dat lokale off-policy afwijking structureel inconsistent is op tokenniveau, wat de beleidsgradiënt-updates tussen aangrenzende tokens kan verstoren en tot trainingsinstorting kan leiden. Om dit probleem aan te pakken, stellen we Online Causal Kalman Filtering voor Stabiele en Effectieve Beleidsoptimalisatie (KPO) voor. Concreet modelleren we de gewenste IS-ratio als een latente toestand die zich ontwikkelt over tokens heen en passen we een Kalman-filter toe om deze toestand online en autoregressief bij te werken op basis van de toestanden van voorgaande tokens, onafhankelijk van toekomstige tokens. De resulterende gefilterde IS-ratio's behouden tokenwijze lokale structuurbewuste variatie terwijl ze ruispieken sterk afvlakken, wat leidt tot stabielere en effectievere beleidsupdates. Experimenteel behaalt KPO superieure resultaten op uitdagende wiskundige redeneerdatasets in vergelijking met state-of-the-art tegenhangers.

LoopFormer: Elastisch-Diepe Geluspte Transformers voor Latente Redenering via Snelkoppelingsmodulatie
LoopFormer: Elastic-Depth Looped Transformers for Latent Reasoning via Shortcut Modulation

Feb 11

ByAhmadreza Jeddi, Marco Ciccone, Babak Taati

Looped Transformers zijn naar voren gekomen als een efficiënte en krachtige klasse van modellen voor redeneren in het taaldomein. Recente studies tonen aan dat deze modellen sterke prestaties leveren op algoritmische en redeneertaken, wat suggereert dat geloopte architecturen een inductieve bias bezitten ten aanzien van latent redeneren. Eerdere benaderingen stellen echter het aantal loopiteraties vast tijdens training en inferentie, waardoor de vraag openblijft of deze modellen hun computationele diepte flexibel kunnen aanpassen onder variabele rekenbudgetten. Wij introduceren LoopFormer, een geloopt Transformer-model getraind op trajecten met variabele lengte om budget-gestuurd redeneren mogelijk te maken. Onze kernbijdrage is een *shortcut-consistency* trainingsschema dat trajecten van verschillende lengten uitlijnt, zodat kortere loops informatieve representaties opleveren terwijl langere loops deze blijven verfijnen. LoopFormer conditioneert elke loop op de huidige tijd en stapgrootte, waardoor representaties consistent evolueren over trajecten van uiteenlopende lengte in plaats van af te drijven of te stagneren. Empirisch toont LoopFormer robuuste prestaties op taalmodellerings- en redeneerbenchmarks, zelfs onder agressieve rekenbeperkingen, en schaalt het soepel met een extra budget. Deze resultaten tonen aan dat geloopte Transformers inherent geschikt zijn voor adaptieve taalmodellering, wat een weg opent naar beheerbare en budgetbewuste grote taalmodellen.

GameDevBench: Het Evalueren van Agentische Vaardigheden door Spelontwikkeling
GameDevBench: Evaluating Agentic Capabilities Through Game Development

Feb 11

ByWayne Chi, Yixiong Fang, Arnav Yayavaram, Siddharth Yayavaram, Seth Karten, Qiuhong Anna Wei, Runkun Chen, Alexander Wang, Valerie Chen, Ameet Talwalkar, Chris Donahue

Ondanks snelle vooruitgang op het gebied van codeer-agents, blijft de ontwikkeling van hun multimodale tegenhangers achter. Een belangrijke uitdaging is het gebrek aan evaluatieplatforms die de complexiteit van software-ontwikkeling combineren met de noodzaak van diepgaand multimodaal begrip. Game-ontwikkeling biedt zo'n platform, omdat agents moeten navigeren door grote, complexe codebasissen terwijl ze intrinsiek multimodale elementen zoals shaders, sprites en animaties moeten manipuleren binnen een visuele game-omgeving. Wij presenteren GameDevBench, de eerste benchmark voor het evalueren van agents op game-ontwikkelingstaken. GameDevBench bestaat uit 132 taken, afgeleid van web- en videotutorials. De taken vereisen aanzienlijk multimodaal begrip en zijn complex – de gemiddelde oplossing vereist meer dan drie keer zoveel regels code en bestandswijzigingen in vergelijking met eerdere software-ontwikkelingsbenchmarks. Agents hebben nog steeds moeite met game-ontwikkeling; de beste agent lost slechts 54,5% van de taken op. We zien een sterke correlatie tussen de waargenomen taakmoeilijkheid en de multimodale complexiteit, waarbij de slagingspercentages dalen van 46,9% voor gameplay-gerichte taken tot 31,6% voor 2D-grafische taken. Om de multimodale capaciteit te verbeteren, introduceren we twee eenvoudige feedbackmechanismen op basis van afbeeldingen en video's voor agents. Ondanks hun eenvoud verbeteren deze methoden consistent de prestaties, waarbij de grootste verandering een stijging is in de prestaties van Claude Sonnet 4.5 van 33,3% naar 47,7%. We geven GameDevBench openbaar vrij om verder onderzoek naar agent-gedreven game-ontwikkeling te ondersteunen.

Dataherhaling verslaat dataschaling bij supervised fine-tuning van Long-CoT
Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

Feb 11

ByDawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano

Gebeugdfijnafstemming (SFT) op chain-of-thought gegevens is een essentiële stap na de training voor redenerende taalmodelle. Standaard intuïtie in machinaal leren suggereert dat trainen met meer unieke trainingsvoorbeelden tot betere generalisatie leidt. Tegengesteld aan de intuïtie tonen wij aan dat SFT baat heeft bij herhaling: onder een vast updatebudget presteert trainen over meer epochs op kleinere datasets beter dan training over één epoch op grotere datasets. Op de AIME'24/25- en GPQA-benchmarks presteert Olmo3-7B, getraind over 128 epochs op 400 voorbeelden, 12-26 procentpunten beter dan het equivalent van 1 epoch op 51200 voorbeelden, zonder extra catastrofale vergetelheid. Wij stellen vast dat de nauwkeurigheid van de trainingstokens betrouwbaar aangeeft wanneer herhaling verzadigd is; verbeteringen door extra epochs vlakken af bij volledige memorisatie, een patroon dat consistent is in alle settings. Deze bevindingen bieden een praktische aanpak voor redenerende SFT, waarbij het schalen van epochs met tokennauwkeurigheid als stoppcriterium de dure ongerichte datascaling kan vervangen. Wij presenteren het herhalingsvoordeel, waarbij volledige memorisatie samengaat met verbeterde generalisatie, als een nieuw open probleem voor de gemeenschap in het begrijpen van de traindynamiek van grote taalmodelle.

Blokgewijze Voordelschatting voor Multi-Doelstelling RL met Verifieerbare Beloningen
Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

Feb 10

ByKirill Pavlenko, Alexander Golubev, Simon Karasik, Boris Yangel

Group Relative Policy Optimization (GRPO) kent een enkele scalaire 'advantage' toe aan alle tokens in een voltooiing. Voor gestructureerde generaties met expliciete segmenten en doelstellingen koppelt dit ongerelateerde beloningssignalen over segmenten heen, wat leidt tot interferentie tussen doelstellingen en foutief toegeschreven verdienste. Wij stellen Blokgewijze Advantage Schatting voor, een familie van GRPO-compatibele methoden die elke doelstelling zijn eigen advantage toekent en deze alleen toepast op de tokens in het corresponderende tekstblok. Dit vermindert de afhankelijkheid van handmatig ontworpen scalaire beloningen en schaalt natuurlijk naar extra doelstellingen. Een belangrijke uitdaging is het schatten van advantages voor latere blokken waarvan de beloningen afhankelijk zijn gegenereerde prefixen; standaard onbevooroordeelde benaderingen vereisen dure geneste rollouts vanuit tussenliggende states. Concreet introduceren wij een Uitkomst-Geconditioneerde Baseline die tussenliggende staatswaarden benadert door alleen binnen-groepsstatistieken te gebruiken, via het stratificeren van samples op basis van een uit een prefix afgeleide tussenuitkomst. Op wiskundetaken met onzekerheidsschatting vermindert onze methode beloningsinterferentie, is zij concurrerend met een state-of-the-art, op beloningen ontworpen aanpak, en behoudt zij testtijdwinsten uit op vertrouwen gewogen ensemblemethoden. In bredere zin biedt zij een modulair recept voor het optimaliseren van sequentiële doelstellingen in gestructureerde generaties zonder extra rollouts.

Het Pensief Paradigma: Statevolle Taalmodellen die hun Eigen Context Beheersen
The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

Feb 12

ByXiaoyuan Liu, Tian Liang, Dongyang Ma, Deyu Zhou, Haitao Mi, Pinjia He, Yan Wang

In de wereld van Harry Potter, wanneer het brein van Perkamentus overbelast raakt, slaat hij herinneringen op in een Hersenpan om ze later opnieuw te bekijken. In de wereld van AI beschikken we wel over Hersenpan-rijpe databases en retrievalsystemen, maar onze modellen missen onverklaarbaar de "tovenaarsstaf" om deze te bedienen. Ze blijven als een Perkamentus zonder agency, die passief een handmatig geconstrueerde context als hun volledige geheugen accepteert. Dit werk plaatst eindelijk de toverstaf in handen van het model. Wij introduceren StateLM, een nieuwe klasse foundation-modellen die zijn uitgerust met een interne redeneerlus om hun eigen staat te beheren. We rusten ons model uit met een reeks geheugenhulpmiddelen, zoals context-snoei, documentindexering en notitiefunctionaliteit, en trainen het om deze hulpmiddelen actief te beheren. Door te leren zijn eigen context dynamisch te construeren, bevrijdt ons model zichzelf uit de architectonische gevangenis van een vast venster. Experimenten met diverse modelgroottes tonen de effectiviteit van StateLM aan in uiteenlopende scenario's. Bij QA-taken voor lange documenten presteren StateLM's consistent beter dan standaard LLM's op alle modelschalen; bij de chatgeheugentaak behalen ze absolute nauwkeurigheidsverbeteringen van 10% tot 20% ten opzichte van standaard LLM's. Op de diepgaande onderzoekstaak BrowseComp-Plus wordt de prestatiekloof nog duidelijker: StateLM behaalt tot 52% nauwkeurigheid, terwijl standaard LLM's rond de 5% blijven steken. Uiteindelijk transformeert onze aanpak LLM's van passieve voorspellers naar state-aware agents, waarbij redeneren een stateful en beheersbaar proces wordt.

LiveMedBench: Een Contaminatievrije Medische Benchmark voor LLM's met Geautomatiseerde Rubric-evaluatie
LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation

Feb 10

ByZhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun

De inzet van Large Language Models (LLM's) in klinische settings met hoge risico's vereist een rigoureuze en betrouwbare evaluatie. Bestaande medische benchmarks blijven echter statisch en kampen met twee kritieke beperkingen: (1) datacontaminatie, waarbij testsetdata onbedoeld terechtkomen in de trainingscorpora, wat leidt tot opgeblazen prestatie-inschattingen; en (2) temporele misalignering, waardoor de snelle evolutie van medische kennis niet wordt weergegeven. Bovendien baseren huidige evaluatiemetrics voor open-einde klinisch redeneren zich vaak op oppervlakkige lexicale overlap (bijv. ROUGE) of op subjectieve beoordeling door een LLM als rechter (LLM-as-a-Judge), waarbij beide ontoereikend zijn voor het verifiëren van klinische correctheid. Om deze lacunes te overbruggen, introduceren wij LiveMedBench, een continu bijgewerkte, contaminatievrije en rubriekgebaseerde benchmark die wekelijks real-world klinische casussen oogst uit online medische gemeenschappen, waarbij strikte temporele scheiding van modeltrainingsdata wordt gegarandeerd. Wij stellen een Multi-Agent Clinical Curation Framework voor dat ruwe dataruis filtert en de klinische integriteit valideert tegen evidence-based medische principes. Voor de evaluatie ontwikkelen wij een geautomatiseerd, rubriekgebaseerd evaluatieraamwerk dat artsenantwoorden ontleedt in granulaire, casusspecifieke criteria, wat een aanzienlijk sterkere alignering met expert-artsen bereikt dan LLM-as-a-Judge. Tot op heden omvat LiveMedBench 2.756 real-world casussen, verspreid over 38 medische specialismen en meerdere talen, gekoppeld aan 16.702 unieke evaluatiecriteria. Uitgebreide evaluatie van 38 LLM's onthult dat zelfs het best presterende model slechts 39,2% haalt, en dat 84% van de modellen prestatievermindering vertoont op casussen na de afkapdatum, wat de alomtegenwoordige risico's van datacontaminatie bevestigt. Foutenanalyse identificeert verder contextuele toepassing – en niet feitelijke kennis – als het dominante knelpunt, waarbij 35-48% van de fouten voortkomt uit het onvermogen om medische kennis af te stemmen op patiëntspecifieke beperkingen.

ECHO-2: Een grootschalig gedistribueerd implementatiekader voor kostenefficiënte reinforcement learning
ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

Feb 2

ByJie Xiao, Meng Chen, Qingnan Ren, Jingwei Song, Jiaqi Huang, Yangshen Deng, Chris Tong, Wanyi Chen, Suli Wang, Ziqian Bi, Shuo Lu, Yiqun Duan, Xu Wang, Rymon Yu, Ween Yang, Lynn Ai, Eric Yang, Bill Shi, Song Jingwei

Versterkend leren (RL) is een cruciale fase in het na-trainen van grote taalmodellen (LLM's) en omvat een herhaalde interactie tussen rollout-generatie, belonings evaluatie en gecentraliseerd leren. Het distribueren van rollout-uitvoering biedt mogelijkheden om kostenefficiëntere inferentiemiddelen te benutten, maar introduceert uitdagingen op het gebied van wide-area-coördinatie en policy-disseminatie. Wij presenteren ECHO-2, een gedistribueerd RL-framework voor na-trainen met externe inference-workers en niet-verwaarloosbare disseminatielatentie. ECHO-2 combineert gecentraliseerd leren met gedistribueerde rollouts en behandelt beperkte policy-veroudering als een door de gebruiker gecontroleerde parameter, waardoor rollout-generatie, disseminatie en training kunnen overlappen. We introduceren een op overlap gebaseerd capaciteitsmodel dat de trainingsduur, disseminatielatentie en rollout-doorvoer relateert, wat resulteert in een praktische provisioning-regel om het gebruik van de learner op peil te houden. Om disseminatie knelpunten te verminderen en de kosten te verlagen, gebruikt ECHO-2 peer-assisted gepipelineerde broadcast en kostbewuste activering van heterogene workers. Experimenten met GRPO na-trainen van 4B- en 8B-modellen onder realistische wide-area-bandbreedteregimes tonen aan dat ECHO-2 de kostenefficiëntie aanzienlijk verbetert, terwijl de RL-beloning vergelijkbaar blijft met sterke baseline-methoden.

Redeneercache: Continue Verbetering over Lange Horizons via Kort-Horizon RL
Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL

Feb 3

ByIan Wu, Yuxiao Qu, Amrith Setlur, Aviral Kumar

Grote Taalmodellen (GTM's) die zich continu kunnen verbeteren buiten hun trainingsbudget om, zijn in staat steeds moeilijkere problemen op te lossen door zich aan te passen tijdens de testfase, een eigenschap die we extrapolatie noemen. Echter, standaard reinforcement learning (RL) werkt met vaste probleemverdelingen en trainingsbudgetten, wat extrapolatie beperkt bij distributieverschuiving tijdens de testfase. Om dit aan te pakken, introduceren we RC, een iteratief decodeeralgoritme dat standaard autoregressieve decodering vervangt tijdens zowel training als inferentie. RC benut een asymmetrie tussen de responsgeneratie- en samenvattingscapaciteiten van GTM's om redeneerketens te construeren die consistent verbeteren over iteraties heen. Modellen die getraind zijn om RC te gebruiken, kunnen extrapoleren en zich continu verbeteren over redeneerhorizons die meer dan een orde van grootte langer zijn dan die gezien tijdens de training. Empirisch gezien verbetert het trainen van een 4B-model met RC met een trainingsbudget van 16k tokens de prestaties op HMMT 2025 van 40% naar bijna 70% met 0,5 miljoen tokens tijdens de testfase, waarmee het zowel vergelijkbaar grote modellen als veel grotere redeneer-GTM's overtreft. Ten slotte tonen we ook aan dat modellen getraind met RC bestaande scaffolds effectiever kunnen benutten om de prestaties tijdens de testfase verder op te schalen, dankzij de verbeterde, op samenvattingen geconditioneerde generatievaardigheden die worden aangeleerd tijdens de training.

Ex-Omni: Het mogelijk maken van 3D-gezichtsanimatiegeneratie voor omnimodale grote taalmodellen
Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

Feb 6

ByHaoyu Zhang, Zhipeng Li, Yiwen Guo, Tianshu Yu

Omni-modale grote taalmodellen (OLLM's) streven naar een unificatie van multimodale interpretatie en generatie, maar de integratie van spraak met 3D-gezichtsanimatie blijft grotendeels onontgonnen, ondanks het belang ervan voor natuurlijke interactie. Een belangrijke uitdaging ontstaat door de representatiemismatch tussen het discrete, token-gebaseerde semantische redeneren in LLM's en de dense, fijnmazige temporele dynamiek die vereist is voor 3D-gezichtsbeweging, wat directe modellering moeilijk optimaliseerbaar maakt onder beperkte data. Wij stellen Expressive Omni (Ex-Omni) voor, een open-source omni-modale framework die OLLM's uitbreidt met spraak-ondersteunde 3D-gezichtsanimatie. Ex-Omni vermindert de leercomplexiteit door semantisch redeneren te ontkoppelen van temporele generatie, waarbij spraakeenheden worden benut als temporele ondersteuningsstructuur en een verenigd token-as-query gegeneraliseerd fusiemechanisme (TQGF) wordt gebruikt voor gecontroleerde semantische injectie. Verder introduceren wij InstructEx, een dataset die tot doel heeft het verrijken van OLLM's met spraak-ondersteunde 3D-gezichtsanimatie te vergemakkelijken. Uitgebreide experimenten tonen aan dat Ex-Omni competitief presteert ten opzichte van bestaande open-source OLLM's, terwijl het stabiele, uitgelijnde generatie van spraak en gezichtsanimatie mogelijk maakt.

EcoGym: Evaluatie van LLM's voor Lange-Termijn Plannen en Uitvoeren in Interactieve Economieën
EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

Feb 10

ByXavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan, Guibin Zhang, JinCheng Ren, Boyu Feng, Li Lu, Tieyong Zeng, Jiaheng Liu, Minghao Liu, He Zhu, Yuchen Eleanor Jiang, Wei Wang, Wangchunshu Zhou

Langetermijnplanning wordt algemeen erkend als een kerncapaciteit van autonome op LLM's gebaseerde agents; huidige evaluatieframeworks lijden echter onder het feit dat ze grotendeels episodisch, domeinspecifiek of onvoldoende verankerd zijn in persistente economische dynamieken. Wij introduceren EcoGym, een generaliseerbare benchmark voor continue besluitvorming in interactieve economieën volgens het plan-en-uitvoer-principe. EcoGym omvat drie uiteenlopende omgevingen: Vending, Freelance en Operation, geïmplementeerd in een uniform besluitvormingsproces met gestandaardiseerde interfaces en gebudgetteerde acties over een effectief onbegrensde horizon (1000+ stappen bij evaluatie met 365-dagen loops). De evaluatie van EcoGym is gebaseerd op zakelijk relevante uitkomsten (zoals nettowaarde, inkomen en DAU), met als doel langetermijnstrategische coherentie en robuustheid onder gedeeltelijke observeerbaarheid en stochasticiteit. Experimenten met elf toonaangevende LLM's leggen een systematische spanning bloot: geen enkel model domineert in alle drie scenario's. Cruciaal is dat we vaststellen dat modellen significante suboptimaliteit vertonen in óf hoogwaardige strategieën óf efficiënte actie-uitvoering. EcoGym wordt vrijgegeven als een open, uitbreidbare testomgeving voor transparante evaluatie van langetermijnagentschappen en voor het bestuderen van afruilingen tussen beheersbaarheid en nut in realistische economische settings.

CLI-Gym: Schaalbare CLI-taakgeneratie via agentische omgevingsinversie
CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

Feb 11

ByYusong Lin, Haiyang Wang, Shuzhe Wu, Lue Fan, Feiyang Pan, Sanyuan Zhao, Dandan Tu

Agent-gebaseerd programmeren vereist dat agents effectief kunnen interacteren met runtime-omgevingen, zoals commandoregelinterfaces (CLI), om taken uit te voeren zoals het oplossen van afhankelijkheidsproblemen of het repareren van systeemproblemen. Het blijft echter onderbelicht hoe dergelijke omgevingsintensieve taken op grote schaal verkregen kunnen worden om de capaciteiten van agents te verbeteren. Om dit aan te pakken, stellen we op basis van een analogie tussen de Dockerfile en de agent-taak voor om agents in te zetten om omgevingsgeschiedenissen te simuleren en te verkennen, geleid door uitvoeringsfeedback. Door de geschiedenis van een gezonde omgeving te traceren, kan de staat ervan worden teruggedraaid naar een eerdere staat met runtime-fouten, waaruit een taak kan worden afgeleid door de buggy staat en de bijbehorende foutmeldingen te verpakken. Met onze methode, genaamd CLI-Gym, zijn in totaal 1.655 omgevingsintensieve taken afgeleid, wat de grootste verzameling in zijn soort is. Bovendien behaalt ons gefinetunede model, genaamd LiberCoder, met gecureerde succesvolle trajecten aanzienlijke absolute verbeteringen van +21,1% (tot 46,1%) op Terminal-Bench, wat verschillende sterke baseline-modellen overtreft. Voor zover wij weten, is dit de eerste openbare pijplijn voor schaalbare afleiding van omgevingsintensieve taken.

Stroke3D: Het optillen van 2D schetsen naar gerigde 3D-modellen via latente diffusiemodellen
Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

Feb 10

ByRuisi Zhao, Haoren Zheng, Zongxin Yang, Hehe Fan, Yi Yang

Geriegarde 3D-assets zijn fundamenteel voor 3D-deformatie en -animatie. Bestaande 3D-generatiemethoden hebben echter moeite met het genereren van animeerbare geometrie, terwijl rigging-technieken geen fijnmazige structurele controle over het maken van skeletten bieden. Om deze beperkingen aan te pakken, introduceren wij Stroke3D, een nieuw framework dat direct gerigde meshes genereert vanuit gebruikersinputs: 2D-getekende lijnen en een beschrijvende tekstprompt. Onze aanleg pionier een tweefasige pijplijn die de generatie opsplitst in: 1) Controleerbare Skeletgeneratie, waarbij we de Skeletal Graph VAE (Sk-VAE) gebruiken om de grafiekstructuur van het skelet te coderen in een latente ruimte, waar de Skeletal Graph DiT (Sk-DiT) een skelet-embedding genereert. Het generatieproces wordt gestuurd door zowel de tekst voor de semantiek als de 2D-lijnen voor expliciete structurele controle, waarbij de decoder van de VAE het uiteindelijke hoogwaardige 3D-skelet reconstrueert; en 2) Verbeterde Mesh-synthese via TextuRig en SKA-DPO, waarbij we vervolgens een getextureerde mesh synthetiseren op basis van het gegenereerde skelet. Voor deze fase verbeteren we eerst een bestaand skelet-naar-mesh-model door de trainingsdata aan te vullen met TextuRig: een dataset van getextureerde en gerigde meshes met bijschriften, samengesteld uit Objaverse-XL. Daarnaast gebruiken we een voorkeursoptimalisatiestrategie, SKA-DPO, geleid door een skelet-mesh-uitlijningsscore, om de geometrische trouw verder te verbeteren. Samen stelt ons framework een meer intuïtieve workflow in staat voor het creëren van kant-en-klare, animeerbare 3D-inhoud. Voor zover ons bekend is ons werk de eerste dat gerigde 3D-meshes genereert op basis van door de gebruiker getekende 2D-lijnen. Uitgebreide experimenten tonen aan dat Stroke3D geloofwaardige skeletten en hoogwaardige meshes produceert.

Bielik Guard: Efficiënte Poolse Taal Veiligheidsclassificatoren voor LLM Content Moderatie
Bielik Guard: Efficient Polish Language Safety Classifiers for LLM Content Moderation

Feb 8

ByKrzysztof Wróbel, Jan Maria Kowalski, Jerzy Surma, Igor Ciuciura, Maciej Szymański

Naarmate grote taalmmodellen (LLM's) steeds vaker worden ingezet voor Poolstalige toepassingen, wordt de behoefte aan efficiënte en nauwkeurige classificatoren voor inhoudsveiligheid steeds groter. Wij presenteren Bielik Guard, een familie van compacte veiligheidsclassificatoren voor de Poolse taal, bestaande uit twee modelvarianten: een model met 0,1B parameters gebaseerd op MMLW-RoBERTa-base en een model met 0,5B parameters gebaseerd op PKOBP/polish-roberta-8k. Gefinetuned op een door een gemeenschap geannoteerde dataset van 6.885 Poolse teksten, classificeren deze modellen inhoud in vijf veiligheidscategorieën: Haat/Agressie, Vulgariteiten, Seksuele Inhoud, Criminaliteit en Zelfbeschadiging. Onze evaluatie toont aan dat beide modellen sterke prestaties leveren op meerdere benchmarks. De 0,5B-variant biedt de beste algehele onderscheidingscapaciteit met F1-scores van 0,791 (micro) en 0,785 (macro) op de testset, terwijl de 0,1B-variant uitzonderlijke efficiëntie demonstreert. Opmerkelijk is dat Bielik Guard 0.1B v1.1 superieure precisie (77,65%) en een zeer laag fout-positiefpercentage (0,63%) bereikt op echte gebruikersprompts, wat beter is dan HerBERT-PL-Guard (31,55% precisie, 4,70% FPR) ondanks een identieke modelgrootte. De modellen zijn publiekelijk beschikbaar en zijn ontworpen om gepaste reacties te geven in plaats van eenvoudige inhoudsblokkering, met name voor gevoelige categorieën zoals zelfbeschadiging.

QP-OneModel: Een verenigd generatief LLM voor multi-task queryinterpretatie in Xiaohongshu-zoekopdrachten
QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search

Feb 10

ByJianzhao Huang, Xiaorui Huang, Fei Zhao, Yunpeng Liu, Hui Zhang, Fangcheng Shi, Congfeng Li, Zechen Sun, Yi Wu, Yao Hu, Yunhan Bai, Shaosheng Cao

Query Processing (QP) verbindt gebruikersintentie en contentaanbod in grootschalige zoekmachines voor Social Network Services (SNS). Traditionele QP-systemen vertrouwen op pipelines van geïsoleerde discriminerende modellen (bijv. BERT), wat leidt tot beperkt semantisch begrip en hoge onderhoudskosten. Hoewel Large Language Models (LLM's) een mogelijke oplossing bieden, optimaliseren bestaande benaderingen vaak sub-taken afzonderlijk, waarbij intrinsieke semantische synergie wordt verwaarloosd en onafhankelijke iteraties nodig zijn. Bovendien ontbreekt het standaard generatieve methoden vaak aan verankering in SNS-scenario's, waardoor de kloof tussen open-domein corpora en informele SNS-linguïstische patronen niet wordt overbrugd, terwijl ze moeite hebben zich aan strikte bedrijfsdefinities te houden. Wij presenteren QP-OneModel, een Unified Generative LLM voor Multi-Task Query Understanding in het SNS-domein. Wij herformuleren heterogene sub-taken naar een uniform sequentiegeneratieparadigma, waarbij een progressieve drietraps-aligneringsstrategie wordt toegepast die culmineert in multi-reward Reinforcement Learning. Verder genereert QP-OneModel intentiebeschrijvingen als een nieuwe hoogwaardige semantische signaal, waardoor downstream-taken zoals queryherformulering en ranking effectief worden versterkt. Offline evaluaties tonen aan dat QP-OneModel een algemene winst van 7,35% behaalt ten opzichte van discriminerende baseline-modellen, met significante F1-stijgingen in NER (+9,01%) en Term Weighting (+9,31%). Het model vertoont ook superieure generalisatie, door een 32B-model met 7,60% nauwkeurigheid te overtreffen op onzichtbare taken. Volledig geïmplementeerd bij Xiaohongshu, bevestigen online A/B-tests de industriële waarde, met een optimalisatie van retrievalrelevantie (DCG) met 0,21% en een verhoging van gebruikersretentie met 0,044%.

Wanneer de Prompt Visueel Wordt: Visiegerichte Jailbreak-aanvallen op Grote Afbeeldingsbewerkingsmodellen
When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

Feb 10

ByJiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang

Recente vooruitgang in grote beeldbewerkingsmodellen heeft het paradigma verschoven van tekstgestuurde instructies naar visueel-gestuurd bewerken, waarbij gebruikersintentie direct wordt afgeleid uit visuele invoer zoals markeringen, pijlen en visueel-tekstprompts. Hoewel dit paradigma de bruikbaarheid aanzienlijk vergroot, introduceert het ook een kritiek en onderbelicht veiligheidsrisico: de aanvalsoppervlakte zelf wordt visueel. In dit werk stellen we Vision-Centric Jailbreak Attack (VJA) voor, de eerste visueel-naar-visueel jailbreak-aanval die schadelijke instructies puur via visuele invoer overbrengt. Om deze opkomende dreiging systematisch te onderzoeken, introduceren we IESBench, een veiligheidsgericht benchmark voor beeldbewerkingsmodellen. Uitgebreide experimenten op IESBench tonen aan dat VJA effectief state-of-the-art commerciële modellen compromitteert, met aanvalsuccespercentages tot 80,9% op Nano Banana Pro en 70,1% op GPT-Image-1.5. Om deze kwetsbaarheid te mitigeren, stellen we een trainingsvrije verdediging voor gebaseerd op introspectieve multimodale redenering, die de veiligheid van slecht afgestemde modellen aanzienlijk verbetert tot een niveau vergelijkbaar met commerciële systemen, zonder hulpbeveiligingsmodellen en met verwaarloosbare rekenkosten. Onze bevindingen blootleggen nieuwe kwetsbaarheden, en bieden zowel een benchmark als een praktische verdediging om veilige en betrouwbare moderne beeldbewerkingssystemen vooruit te helpen. Waarschuwing: Dit artikel bevat aanstootgevende afbeeldingen gegenereerd door grote beeldbewerkingsmodellen.

Benchmarken van Grote Taalmodellen voor Validatie van Kennisgrafen
Benchmarking Large Language Models for Knowledge Graph Validation

Feb 11

ByFarzad Shami, Stefano Marchesin, Gianmaria Silvello

Kennisgrafen (KG's) slaan gestructureerde feitelijke kennis op door entiteiten via relaties te verbinden, wat cruciaal is voor vele toepassingen. Deze toepassingen zijn afhankelijk van de feitelijke nauwkeurigheid van de KG, waardoor feitenverificatie essentieel maar uitdagend is. Handmatige verificatie door experts is ideaal maar onpraktisch op grote schaal. Geautomatiseerde methoden tonen potentieel maar zijn nog niet klaar voor real-world KG's. Grote Taalmodellen (LLM's) bieden mogelijkheden dankzij hun semantisch begrip en kennistoegang, maar hun geschiktheid en effectiviteit voor KG-feitenvalidatie blijven grotendeels onontgonnen. In dit artikel introduceren we FactCheck, een benchmark ontworpen om LLM's te evalueren voor KG-feitenvalidatie langs drie dimensies: (1) de interne kennis van LLM's; (2) externe evidentie via Retrieval-Augmented Generation (RAG); en (3) geaggregeerde kennis met een multi-model consensusstrategie. We evalueerden open-source en commerciële LLM's op drie diverse real-world KG's. FactCheck omvat ook een RAG-dataset met meer dan 2 miljoen documenten, toegesneden op KG-feitenvalidatie. Daarnaast bieden we een interactief exploratieplatform voor het analyseren van verificatiebeslissingen. De experimentele analyses tonen aan dat LLM's weliswaar veelbelovende resultaten opleveren, maar nog onvoldoende stabiel en betrouwbaar zijn voor gebruik in real-world KG-validatiescenario's. Het integreren van externe evidentie via RAG-methoden levert wisselvallige prestaties op, met inconsistente verbeteringen ten opzichte van gestroomlijndere aanpakken – tegen hogere computationele kosten. Evenzo overtreffen strategieën gebaseerd op multi-model consensus niet consistent individuele modellen, wat het ontbreken van een universele oplossing onderstreept. Deze bevindingen benadrukken de noodzaak van een benchmark zoals FactCheck om deze moeilijke maar cruciale taak systematisch te evalueren en vooruitgang te stimuleren.

Latente Gedachten Afstemming: Overbrugging van Context en Redenering met Gefuseerde Informatie in Latente Tokens
Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens

Feb 10

ByWeihao Liu, Dehai Min, Lu Cheng

Hoewel expliciete Chain-of-Thought (CoT) Large Language Models (LLM's) voorziet van sterke redeneervermogens, vereist het dat modellen elke tussenstap verwoorden in teksttokens, wat de gedachten van het model beperkt tot de discrete vocabulaire ruimte. Recentelijk is redeneren in een continue latente ruimte naar voren gekomen als een veelbelovend alternatief, waardoor robuustere inferentie en flexibelere berekening mogelijk worden, voorbij de beperkingen van discrete tokens. Huidige latente paradigma's kampen echter vaak met feature collapse en instabiliteit, voortkomend uit distributiemismatches bij het recursief gebruiken van verborgen toestanden als invoer-embeddings, of uit aligneringsproblemen bij het vertrouwen op assistent-modellen. Om dit aan te pakken, stellen we Latent Thoughts Tuning (LT-Tuning) voor, een raamwerk dat herdefinieert hoe latente gedachten worden geconstrueerd en ingezet. In plaats van uitsluitend te vertrouwen op ruwe verborgen toestanden, introduceert onze methode een Context-Prediction-Fusion-mechanisme dat gezamenlijk gebruikmaakt van contextuele verborgen toestanden en voorspellende semantische begeleiding vanuit de vocabulaire embeddingruimte. Gecombineerd met een progressieve drie-fasen curriculum learning-pijplijn, stelt LT-Tuning ook in staat om dynamisch te schakelen tussen latente en expliciete denkmodi. Experimenten tonen aan dat onze methode de bestaande latente redeneer-baselines overtreft, effectief feature collapse vermindert en robuuste redeneernauwkeurigheid bereikt.

Voorbij Correctheid: Robuust Redeneren Leren via Transfer
Beyond Correctness: Learning Robust Reasoning via Transfer

Feb 9

ByHyunseok Lee, Soheil Abbasloo, Jihoon Tack, Jinwoo Shin

Reinforcement Learning with Verifiable Rewards (RLVR) heeft recentelijk de redeneercapaciteiten van LLM's versterkt, maar de focus op de juistheid van het eindantwoord laat een kritieke leemte: het waarborgt niet de robuustheid van het redeneerproces zelf. Wij hanteren een eenvoudig filosofisch uitgangspunt: robuust redeneren moet bruikbaar blijven buiten de geest die het heeft voortgebracht, en behandelen redeneren als een vorm van betekenisoverdracht die moet standhouden bij afkapping, herinterpretatie en voortzetting. Op basis van dit principe introduceren wij Reinforcement Learning with Transferable Reward (RLTR), dat robuustheid operationeel maakt via een transferbeloning die test of een gedeeltelijke redeneerprefix van één model een afzonderlijk model naar het juiste antwoord kan leiden. Dit moedigt LLM's aan om redenering te produceren die stabiel, interpreteerbaar en werkelijk generaliseerbaar is. Onze aanpak verbetert de consistentie bij steekproefsgewijze evaluatie terwijl de nauwkeurigheid van het eindantwoord toeneemt, en het bereikt vergelijkbare prestaties in aanzienlijk minder trainingsstappen. Op MATH500 behaalt RLTR bijvoorbeeld een winst van +3,6%p in Maj@64 vergeleken met RLVR en evenaart het de gemiddelde nauwkeurigheid van RLVR met ongeveer 2,5x minder trainingsstappen, wat zowel betrouwbaarder redeneren als een aanzienlijk grotere steekproefefficiëntie oplevert.

Free(): Leren vergeten in malloc-only redeneermodellen
Free(): Learning to Forget in Malloc-Only Reasoning Models

Feb 8

ByYilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang, Lihui Chen, Haitao Mi, Yan Wang

Redeneermodellen verbeteren probleemoplossing door de rekencapaciteit tijdens tests te schalen, maar ze kampen met een cruciaal paradox: excessieve denktokens leiden vaak tot prestatievermindering in plaats van verbetering. Wij schrijven dit toe aan een fundamenteel architecturaal mankement: standaard LLM's functioneren als "malloc-only" engines, die continu zowel valide als redundante stappen accumuleren zonder mechanisme om verouderde informatie te snoeien. Om deze cyclus te doorbreken, stellen wij Free()LM voor, een model dat een intrinsisch zelfvergetend vermogen introduceert via de Free-Module, een plug-and-play LoRA-adapter. Door iteratief te schakelen tussen redeneer- en opschoningsmodi, identificeert en verwijdert Free()LM dynamisch nutteloze contextsegmenten, waardoor een compacte en ruisvrije staat behouden blijft. Uitgebreide experimenten tonen aan dat Free()LM consistente verbeteringen biedt over alle modelschalen (8B tot 685B). Het behaalt een gemiddelde verbetering van 3,3% ten opzichte van top-tier redeneer-baselines en vestigt zelfs een nieuwe SOTA op IMOanswerBench met DeepSeek V3.2-Speciale. Opmerkelijkst is dat bij langetermijntaken, waar het standaard Qwen3-235B-A22B model volledig instort (0% nauwkeurigheid), Free()LM de prestaties herstelt tot 50%. Onze bevindingen suggereren dat duurzame intelligentie evenzeer de vrijheid om te vergeten vereist als de kracht om te denken.

AgenticPay: Een Multi-Agent LLM-onderhandelingssysteem voor koper-verkoper transacties
AgenticPay: A Multi-Agent LLM Negotiation System for Buyer-Seller Transactions

Feb 5

ByXianyang Liu, Shangding Gu, Dawn Song

Op grote taalmodellen (LLM's) gebaseerde agents worden in toenemende mate verwacht autonoom te onderhandelen, te coördineren en transacties uit te voeren, maar bestaande benchmarks missen principiële settings om taalgedreven economische interactie tussen meerdere agents te evalueren. Wij introduceren AgenticPay, een benchmark- en simulatiekader voor onderhandelingen tussen kopers en verkopers met meerdere agents, aangedreven door natuurlijke taal. AgenticPay modelleert markten waarin kopers en verkopers private restricties en productafhankelijke waarderingen hebben, en overeenkomsten moeten bereiken via meerronde linguïstische onderhandeling in plaats van uitsluitend numerieke biedingen. Het kader ondersteunt een diverse reeks van meer dan 110 taken, variërend van bilaterale onderhandelingen tot many-to-many markten, met gestructureerde actie-extractie en metrieken voor haalbaarheid, efficiëntie en welvaart. Het benchmarken van state-of-the-art propriëtaire en open-weight LLM's onthult aanzienlijke hiaten in onderhandelingsprestaties en benadrukt uitdagingen in strategisch redeneren over lange tijdshorizonnen, waarmee AgenticPay zich vestigt als een fundament voor de studie van agent-gedreven handel en op taal gebaseerde marktinteractie. Code en dataset zijn beschikbaar via de link: https://github.com/SafeRL-Lab/AgenticPay.

Het Heroverwegen van de Waarde van Agent-gegenereerde Tests voor LLM-gebaseerde Software Engineering Agents
Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents

Feb 8

ByZhi Chen, Zhensu Sun, Yuling Shi, Chao Peng, Xiaodong Gu, David Lo, Lingxiao Jiang

Grote Taalmodellen (LLM) code-agents lossen in toenemende mate problemen op repositoryniveau op door iteratief code te bewerken, tools aan te roepen en kandidaat-patches te valideren. In deze workflows schrijven agenten vaak ter plekke tests, een paradigma dat wordt overgenomen door veel hooggeplaatste agenten op de SWE-bench leaderboard. Wij observeren echter dat GPT-5.2, dat vrijwel geen nieuwe tests schrijft, zelfs een vergelijkbare prestaties kan bereiken als de hoogst scorende agenten. Dit roept de cruciale vraag op: verbeteren dergelijke tests de probleemoplossing daadwerkelijk, of bootsen ze slechts menselijke testpraktijken na terwijl ze een aanzienlijk interactiebudget verbruiken. Om de impact van door agenten geschreven tests te onthullen, presenteren wij een empirische studie die agenttrajecten analyseert van zes state-of-the-art LLM's op SWE-bench Verified. Onze resultaten tonen aan dat, hoewel testschrijven vaak wordt toegepast, opgeloste en onopgeloste taken binnen hetzelfde model vergelijkbare test-schrijffrequenties vertonen. Bovendien dienen deze tests typisch als observationele feedbackkanalen, waarbij agenten een significante voorkeur hebben voor waarde-onthullende print-statements boven formele assertion-gebaseerde controles. Gebaseerd op deze inzichten voeren wij een gecontroleerd experiment uit door de prompts van vier agenten aan te passen om het testschrijven te vergroten of te verminderen. De resultaten suggereren dat veranderingen in het volume van door agenten geschreven tests de uiteindelijke resultaten niet significant veranderen. Samen genomen onthult onze studie dat de huidige test-schrijfpraktijken mogelijk slechts marginale waarde bieden bij autonome software-engineeringtaken.

GoodVibe: Beveiliging-door-Trilling voor op LLM gebaseerde Codegeneratie
GoodVibe: Security-by-Vibe for LLM-Based Code Generation

Feb 11

ByMaximilian Thang, Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Jona te Lintelo, Stjepan Picek, Ahmad-Reza Sadeghi

Grote taalmodellen (LLM's) worden steeds vaker gebruikt voor codegeneratie in snelle, informele ontwikkelworkflows, vaak aangeduid als 'vibe coding', waarbij snelheid en gemak prioriteit hebben en beveiligingseisen zelden expliciet worden gemaakt. In deze setting produceren modellen vaak functioneel correcte maar onveilige code, wat een groeiend beveiligingsrisico vormt. Bestaande benaderingen om codesecurity te verbeteren, zijn gebaseerd op volledige parameterafstemming (fine-tuning) of parameter-efficiënte aanpassingen, die ofwel kostbaar zijn en gevoelig voor catastrofale vergetelheid, ofwel opereren op een grove granulariteit met beperkte interpreteerbaarheid en controle. Wij presenteren GoodVibe, een raamwerk op neuronniveau om de beveiliging van code-taalmodellen standaard te verbeteren. GoodVibe is gebaseerd op het kerninzicht dat beveiligingsrelevante redenering gelokaliseerd is in een kleine subset van neuronen. Wij identificeren deze neuronen met behulp van opgradiënten gebaseerde attributie vanuit een gesuperviseerde beveiligingstaak en voeren neuronselectieve fine-tuning uit die alleen deze beveiligingskritische deelruimte bijwerkt. Om de trainingskosten verder te verlagen, introduceren we activatiedrijvende neuronclustering, waardoor gestructureerde updates met minimale overhead mogelijk zijn. We evalueren GoodVibe op zes LLM's voor verschillende beveiligingskritieke programmeertalen, waaronder C++, Java, Swift en Go. GoodVibe verbetert de beveiliging van gegenereerde code aanzienlijk, waarbij de algemene modelfunctionaliteit behouden blijft. Het behaalt een verbetering tot 2,5x ten opzichte van de basismodellen, evenaart of overtreft volledige fine-tuning met meer dan 4.700x minder trainbare parameters, en reduceert de trainingsrekentijd met meer dan 3,6x vergeleken met de parameter-efficiënte baseline (LoRA). Onze resultaten tonen aan dat optimalisatie op neuronniveau een effectieve en schaalbare benadering biedt om codegeneratie te beveiligen zonder efficiëntie of algemeenheid op te offeren.

UMEM: Uniform Geheugen Extractie- en Beheerframework voor Generaliseerbaar Geheugen
UMEM: Unified Memory Extraction and Management Framework for Generalizable Memory

Feb 11

ByYongshi Ye, Hui Jiang, Feihu Jiang, Tian Lan, Yichao Du, Biao Fu, Xiaodong Shi, Qianghuai Jia, Longyue Wang, Weihua Luo

Zelf-evoluerend geheugen fungeert als de trainbare parameters voor op grote taalmodellen (LLM's) gebaseerde agents, waarbij extractie (het distilleren van inzichten uit ervaring) en beheer (het bijwerken van de geheugenbank) nauw gecoördineerd moeten worden. Bestaande methoden optimaliseren voornamelijk geheugenbeheer, terwijl geheugenextractie als een statisch proces wordt behandeld, wat leidt tot slechte generalisatie: agents accumuleren instancespecifieke ruis in plaats van robuuste herinneringen. Om dit aan te pakken, stellen wij Unified Memory Extraction and Management (UMEM) voor, een zelf-evoluerend agentraamwerk dat gezamenlijk een groot taalmodel optimaliseert om gelijktijdig herinneringen te extraheren en te beheren. Om overfitting aan specifieke instanties tegen te gaan, introduceren wij Semantic Neighborhood Modeling en optimaliseren we het model met een beloning gebaseerd op marginale nut op buurtniveau via GRPO. Deze aanpak waarborgt de generaliseerbaarheid van het geheugen door de bruikbaarheid van herinneringen te evalueren over clusters van semantisch verwante queries. Uitgebreide experimenten over vijf benchmarks tonen aan dat UMEM aanzienlijk beter presteert dan zeer competitieve baselines, met een verbetering tot 10,67% in multi-turn interactieve taken. Bovendien handhaaft UMEM een monotoon groeipatroon tijdens continue evolutie. Code en modellen zullen openbaar worden vrijgegeven.

TIC-VLA: Een Think-in-Control Vision-Language-Action Model voor Robotnavigatie in Dynamische Omgevingen
TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

Feb 2

ByZhiyu Huang, Yun Zhang, Johnson Liu, Rui Song, Chen Tang, Jiaqi Ma

Robots in dynamische, mensgerichte omgevingen moeten taal-instructies opvolgen en tegelijkertijd realtime reactieve controle behouden. Vision-Language-Action (VLA)-modellen bieden een veelbelovend kader, maar zij veronderstellen tijdelijk uitgelijnde redenering en controle, ondanks het feit dat semantische inferentie inherent vertraagd is ten opzichte van realtime actie. Wij introduceren Think-in-Control (TIC)-VLA, een latentiebewust kader dat vertraagde semantische redenering expliciet modelleert tijdens actiegeneratie. TIC-VLA definieert een vertraagd semantisch-controle-interface die actiegeneratie conditioneert op vertraagde visie-taal semantische toestanden en expliciete latentie-metadata, naast huidige observaties, waardoor beleid in staat wordt gesteld om asynchrone redenering te compenseren. Wij stellen verder een latentieconsistente trainingspijplijn voor die redeneerinferentievertragingen injecteert tijdens imitatieleren en online reinforcement learning, waardoor training wordt afgestemd op asynchrone implementatie. Voor realistische evaluatie presenteren wij DynaNav, een physics-accurate, fotorealistische simulatiesuite voor taalgeleide navigatie in dynamische omgevingen. Uitgebreide experimenten in simulatie en op een echte robot tonen aan dat TIC-VLA consistent beter presteert dan eerdere VLA-modellen, terwijl robuuste realtime controle wordt gehandhaafd onder redeneerlatentie van meerdere seconden. Projectwebsite: https://ucla-mobility.github.io/TIC-VLA/

ArcFlow: Ontketening van 2-staps tekst-naar-beeldgeneratie via hoog-precisie niet-lineaire flowdistillatie
ArcFlow: Unleashing 2-Step Text-to-Image Generation via High-Precision Non-Linear Flow Distillation

Feb 9

ByZihan Yang, Shuyuan Tu, Licheng Zhang, Qi Dai, Yu-Gang Jiang, Zuxuan Wu

Diffusiemodellen hebben een opmerkelijke generatiekwaliteit bereikt, maar kampen met aanzienlijke inferentiekosten vanwege hun afhankelijkheid van meerdere sequentiële denoisingsstappen, wat recente inspanningen motiveert om dit inferentieproces te distilleren naar een regime met weinig stappen. Bestaande distillatiemethoden benaderen echter typisch het traject van de teacher door lineaire shortcuts te gebruiken, waardoor het moeilijk is om de constant veranderende raakrichtingen ervan te matchen naarmate snelheden evolueren over tijdstappen heen, wat leidt tot kwaliteitsverlies. Om deze beperking aan te pakken, stellen we ArcFlow voor, een distillatieraamwerk met weinig stappen dat expliciet niet-lineaire stroomtrajecten gebruikt om voorgetrainde teacher-trajecten te benaderen. Concreet parameteriseert ArcFlow het snelheidsveld dat ten grondslag ligt aan het inferentietraject als een mengsel van continue momentumprocessen. Hierdoor kan ArcFlow snelheidsevolutie vastleggen en coherente snelheden extrapoleren om een continu niet-lineair traject binnen elke denoisingsstap te vormen. Belangrijk is dat deze parameterisatie een analytische integratie van dit niet-lineaire traject toelaat, wat numerieke discretisatiefouten omzeilt en resulteert in een hoogwaardige benadering van het teacher-traject. Om deze parameterisatie af te trainen tot een generator met weinig stappen, implementeren we ArcFlow via trajectdistillatie op voorgetrainde teacher-modellen met behulp van lichtgewicht adapters. Deze strategie zorgt voor snelle, stabiele convergentie terwijl generatieve diversiteit en kwaliteit behouden blijven. Gebouwd op grootschalige modellen (Qwen-Image-20B en FLUX.1-dev) fine-tunt ArcFlow slechts minder dan 5% van de oorspronkelijke parameters en bereikt een 40x versnelling met 2 NFEs ten opzichte van de oorspronkelijke multi-step teachers zonder significant kwaliteitsverlies. Experimenten op benchmarks tonen de effectiviteit van ArcFlow zowel kwalitatief als kwantitatief aan.

Grote Taalmodel Lobotomie: Jailbreaking van Mixture-of-Experts via Expert-Uitschakeling
Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing

Feb 9

ByJona te Lintelo, Lichao Wu, Stjepan Picek

De snelle adoptie van Mixture-of-Experts (MoE)-architecturen markeert een grote verschuiving in de inzet van Large Language Models (LLM's). MoE-LLM's verbeteren de schaalbaarheidsefficiëntie door slechts een kleine subset van parameters per token te activeren, maar hun routeringsstructuur introduceert nieuwe veiligheidsaanvalsoppervlakken. Wij constateren dat veiligheidskritisch gedrag in MoE-LLM's (bijv. weigering) geconcentreerd is in een kleine set experts in plaats van uniform verdeeld te zijn. Hierop voortbouwend stellen wij Large Language Lobotomy (L³) voor, een trainingsvrije, architectuuronafhankelijke aanval die de veiligheidsafstemming compromitteert door gebruik te maken van expertrouteringsdynamiek. L³ leert routeringspatronen die correleren met weigering, schrijft veiligheidsgedrag toe aan specifieke experts, en legt de meest veiligheidsrelevante experts adaptief het zwijgen op tot schadelijke outputs worden geproduceerd. Wij evalueren L³ op acht state-of-the-art open-source MoE-LLM's en tonen aan dat onze adaptieve expert-uitschakeling het gemiddelde aanvalssucces verhoogt van 7,3% naar 70,4%, oplopend tot 86,3%, waarmee eerdere trainingsvrije MoE-jailbreak-methoden worden overtroffen. Bovendien vereist het omzeilen van beveiligingsmaatregelen doorgaans het uitschakelen van minder dan 20% van de experts per laag, waarbij de algemene taalnut grotendeels behouden blijft. Deze resultaten onthullen een fundamentele spanning tussen efficiëntiegedreven MoE-ontwerp en robuuste veiligheidsafstemming, en motiveren het robuuster distribueren van veiligheidsmechanismen in toekomstige MoE-LLM's met architectuur- en routeringsbewuste methoden.

Weight Decay verbetert de plasticiteit van taalmodel(len).
Weight Decay Improves Language Model Plasticity

Feb 11

ByTessa Han, Sebastian Bordt, Hanlin Zhang, Sham Kakade

Het heersende paradigma in de ontwikkeling van grote taalmmodellen (LLM's) is het vooraf trainen van een basismodel, gevolgd door verdere training om de prestaties en het gedrag van het model te verbeteren. Hyperparameteroptimalisatie en schaalwetten zijn echter voornamelijk bestudeerd vanuit het perspectief van de validatiefout van het basismodel, waarbij de downstream-aanpasbaarheid wordt genegeerd. In dit werk bestuderen we vooraf trainen vanuit het perspectief van modelplasticiteit, dat wil zeggen het vermogen van het basismodel om zich succesvol aan te passen aan downstreamtaken via fine-tuning. We richten ons op de rol van gewichtsverval, een belangrijke regularisatieparameter tijdens de voorafgaande training. Door middel van systematische experimenten tonen we aan dat modellen die met grotere gewichtsvervalwaarden zijn getraind plastischer zijn, wat betekent dat ze grotere prestatieverbeteringen vertonen wanneer ze worden afgestemd op downstreamtaken. Dit fenomeen kan leiden tot contra-intuïtieve afwegingen waarbij basismodellen die slechter presteren na de voorafgaande training, beter kunnen presteren na fine-tuning. Verder onderzoek naar de mechanistische effecten van gewichtsverval op modelgedrag onthult dat het lineair scheidbare representaties bevordert, aandachtmatrices regulariseert en overfitting op de trainingsdata vermindert. Concluderend toont dit werk het belang aan van het gebruik van evaluatiemetrics die verder gaan dan de kruisingsentropiefout voor hyperparameteroptimalisatie, en werpt het licht op de veelzijdige rol die een enkele optimalisatiehyperparameter speelt bij het vormgeven van modelgedrag.

Wanneer acties van het spoor raken: Het opsporen en corrigeren van niet-afgestemde acties bij computergebruik-agenten
When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents

Feb 9

ByYuting Ning, Jaylen Jones, Zhehao Zhang, Chentao Ye, Weitong Ruan, Junyi Li, Rahul Gupta, Huan Sun

Computer-use agents (CUAs) hebben het afgelopen jaar enorme vooruitgang geboekt, maar produceren nog steeds regelmatig niet-uitgelijnde acties die afwijken van de oorspronkelijke intentie van de gebruiker. Dergelijke niet-uitgelijnde acties kunnen voortkomen uit externe aanvallen (bijv. indirecte prompt-injectie) of uit interne beperkingen (bijv. foutief redeneren). Ze brengen CUAs niet alleen in veiligheidsrisico's, maar ondermijnen ook de taakefficiëntie en betrouwbaarheid. Dit werk doet een eerste poging om niet-uitgelijnde actiedetectie in CUAs te definiëren en te bestuderen, met een uitgebreide dekking van zowel extern veroorzaakte als intern ontstane niet-uitgelijnde acties. We identificeren verder drie veelvoorkomende categorieën in real-world CUA-implementaties en construeren MisActBench, een benchmark van realistische trajecten met door mensen geannoteerde, actieniveau-uitlijningslabels. Bovendien stellen we DeAction voor, een praktische en universele beveiliging die niet-uitgelijnde acties detecteert vóór uitvoering en deze iteratief corrigeert via gestructureerde feedback. DeAction overtreft alle bestaande baseline-methoden in offline- en online-evaluaties met een gematigde latentie-overhead: (1) Op MisActBench overtreft het de baseline-methoden met meer dan 15% absoluut in F1-score; (2) In online-evaluatie verlaagt het de aanvalssuccesratio met meer dan 90% onder adversariële omstandigheden, terwijl het de taaksuccesratio in goedaardige omgevingen behoudt of zelfs verbetert.

Van kenmerken naar acties: verklaarbaarheid in traditionele en agent-gebaseerde AI-systemen
From Features to Actions: Explainability in Traditional and Agentic AI Systems

Feb 6

BySindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza

In het afgelopen decennium heeft verklaarbare kunstmatige intelligentie zich voornamelijk gericht op het interpreteren van individuele modelvoorspellingen, waarbij post-hoc-verklaringen worden gegenereerd die invoer relateren aan uitvoer onder een vaste beslissingsstructuur. Recente vooruitgang in grote taalmodellen (LLM's) heeft agent-gebaseerde AI-systemen mogelijk gemaakt, waarvan het gedrag zich ontvouwt over meerstappentrajecten. In deze contexten worden succes en falen bepaald door reeksen beslissingen in plaats van door een enkele uitvoer. Hoewel nuttig, is het onduidelijk hoe verklaringsbenaderingen die zijn ontworpen voor statische voorspellingen, vertaald kunnen worden naar agent-gebaseerde settings waar gedrag in de tijd ontstaat. In dit werk overbruggen we de kloof tussen statische en agent-gebaseerde verklaarbaarheid door op attributie gebaseerde verklaringen te vergelijken met op sporen gebaseerde diagnostiek in beide settings. Om dit onderscheid expliciet te maken, vergelijken we empirisch op attributie gebaseerde verklaringen die worden gebruikt in statische classificatietaken met op sporen gebaseerde diagnostiek die wordt gebruikt in agent-gebaseerde benchmarks (TAU-bench Airline en AssistantBench). Onze resultaten tonen aan dat, hoewel attributiemethoden stabiele functieranglijsten bereiken in statische settings (Spearman ρ= 0,86), ze niet betrouwbaar kunnen worden toegepast om uitvoeringsniveau-fouten in agent-gebaseerde trajecten te diagnosticeren. Daarentegen lokaliseert rubric-evaluatie op basis van sporen voor agent-gebaseerde settings consistent gedragsbreuken en laat zien dat inconsistentie in staat-tracking 2,7 keer vaker voorkomt in mislukte runs en de succeskans met 49% verlaagt. Deze bevindingen motiveren een verschuiving naar verklaarbaarheid op trajectniveau voor agent-systemen bij het evalueren en diagnosticeren van autonoom AI-gedrag. Bronnen: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework

FedPS: Federatede gegevensvoorbewerking via geaggregeerde statistieken
FedPS: Federated data Preprocessing via aggregated Statistics

Feb 11

ByXuefeng Xu, Graham Cormode

Federated Learning (FL) stelt meerdere partijen in staat om gezamenlijk machine learning-modellen te trainen zonder ruwe data te delen. Voor de training moeten gegevens echter worden voorbewerkt om ontbrekende waarden, inconsistente formaten en heterogene featureschalen aan te pakken. Deze voorbewerkingsfase is cruciaal voor de modelprestaties, maar wordt grotendeels over het hoofd gezien in FL-onderzoek. In praktische FL-systemen verhinderen privacybeperkingen de centralisatie van ruwe data, terwijl communicatie-efficiëntie bijkomende uitdagingen introduceert voor gedistribueerde voorbewerking. Wij introduceren FedPS, een uniform raamwerk voor federatieve gegevensvoorbewerking op basis van geaggregeerde statistieken. FedPS benut data-sketchingtechnieken om lokale datasets efficiënt samen te vatten, waarbij essentiële statistische informatie behouden blijft. Op basis van deze samenvattingen ontwerpen we federatieve algoritmen voor featureschaling, codering, discretisatie en imputatie van ontbrekende waarden, en breiden we voorbewerkingsgerelateerde modellen zoals k-Means, k-Nearest Neighbors en Bayesiaanse Lineaire Regressie uit naar zowel horizontale als verticale FL-instellingen. FedPS biedt flexibele, communicatie-efficiënte en consistente voorbewerkingspijplijnen voor praktische FL-implementaties.

Investeer Zoekinspanning Waar Het Loont: Waarde-gestuurde Gestructureerde Steekproefname en Optimalisatie voor Generatieve Aanbevelingen
Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation

Feb 11

ByJie Jiang, Yangru Huang, Zeyu Wang, Changping Wang, Yuling Xiong, Jun Zhang, Huan Yu

Generatieve aanbeveling via autoregressieve modellen heeft retrieval en ranking verenigd in een enkel conditioneel generatieraamwerk. Het finetunen van deze modellen met Reinforcement Learning (RL) lijdt echter vaak onder een fundamentele mismatch tussen waarschijnlijkheid en beloning. Conventionele, op waarschijnlijkheid gedomineerde decodering (zoals beam search) vertoont een kortzichtige bias naar lokaal waarschijnlijke prefixen, wat twee kritieke problemen veroorzaakt: (1) onvoldoende exploratie, waarbij items met een hoge beloning in takken met een lage waarschijnlijkheid voortijdig worden weggepruned en zelden worden bemonsterd, en (2) advantage-compressie, waarbij trajecten die waarschijnlijke prefixen delen sterk gecorreleerde beloningen ontvangen met een lage variantie binnen de groep, wat een zwak comparatief signaal voor RL oplevert. Om deze uitdagingen aan te pakken, stellen we V-STAR voor, een Value-guided Sampling and Tree-structured Advantage Reinforcement-framework. V-STAR vormt een zelf-evoluerende lus via twee synergetische componenten. Ten eerste wordt een Value-Guided Efficient Decoding (VED) ontwikkeld om beslissende knopen te identificeren en veelbelovende prefixen selectief te verdiepen. Dit verbetert de exploratie-efficiëntie zonder exhaustieve boomzoektocht. Ten tweede stellen we Sibling-GRPO voor, dat de geïnduceerde boomtopologie benut om sibling-relative advantages te berekenen en de leer-signalen concentreert op beslissende vertakkingsbeslissingen. Uitgebreide experimenten op zowel offline als online datasets tonen aan dat V-STAR state-of-the-art baselines overtreft, met superieure nauwkeurigheid en diversiteit van de kandidaat-set onder strikte latentiebeperkingen.

Graf-Versterkte Diepe Reinforcement Learning voor Multi-Doelstelling Onverwante Parallelle Machine Planning
Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling

Feb 8

ByBulent Soykan, Sean Mondesire, Ghaith Rabadi, Grace Bochenek

Het Onverwante Parallelle Machine Scheduling Probleem (UPMSP) met vrijgegevenata, opstellingstijden en geschiktheidsbeperkingen vormt een aanzienlijke multi-objectieve uitdaging. Traditionele methoden hebben moeite om het minimaliseren van de Totale Gewogen Verlettermijn (TWT) en de Totale Opstellingstijd (TST) in evenwicht te brengen. Dit artikel stelt een Deep Reinforcement Learning-raamwerk voor dat gebruikmaakt van Proximal Policy Optimization (PPO) en een Graph Neural Network (GNN). Het GNN representeert effectief de complexe toestand van taken, machines en opstellingen, waardoor de PPO-agent een direct planningsbeleid kan leren. Geleid door een multi-objectieve beloningsfunctie, minimaliseert de agent gelijktijdig zowel TWT als TST. Experimentele resultaten op benchmarkinstanties tonen aan dat onze PPO-GNN-agent aanzienlijk beter presteert dan een standaard dispatchregel en een metaheuristiek, en zo een superieure afweging tussen beide doelstellingen bereikt. Dit biedt een robuuste en schaalbare oplossing voor complexe productieplanning.

StealthRL: Reinforcement Learning Parafraseeraanvallen voor het Omzeilen van Meerdere AI-tekstdetectoren
StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors

Feb 9

BySuraj Ranganath, Atharv Ramesh

AI-tekstdetectors worden geconfronteerd met een kritieke robuustheidsuitdaging: adversariële parafraseeraanvallen die de semantiek behouden terwijl ze detectie omzeilen. Wij introduceren StealthRL, een reinforcement learning-framework dat de robuustheid van detectors stress-test onder realistische adversariële condities. StealthRL traint een parafraseerbeleid tegen een multi-detector-ensemble met behulp van Group Relative Policy Optimization (GRPO) met LoRA-adapters op Qwen3-4B, waarbij een samengestelde beloning wordt geoptimaliseerd die detectorontwijking balanceert met semantisch behoud. Wij evalueren zes aanvalsinstellingen (M0-M5) tegen drie detectorfamilies (RoBERTa, FastDetectGPT en Binoculars) op het veiligheidsrelevante werkpunt van 1% vals-positieven. StealthRL bereikt een detectiegraad van bijna nul (0.001 gemiddelde TPR@1%FPR), verlaagt de gemiddelde AUROC van 0.74 naar 0.27 en behaalt een aanvalssuccespercentage van 99,9%. Cruciaal is dat de aanvallen transfereren naar een buiten-beschouwing-gelaten detectorfamilie die niet tijdens de training werd gezien, wat gedeelde architectuurkwetsbaarheden blootlegt in plaats van detector-specifieke broosheid. Daarnaast voeren wij een op LLM gebaseerde kwaliteitsevaluatie uit via Likert-scoring, analyseren wij detector-scoreverdelingen om te verklaren waarom ontwijking slaagt, en verstrekken wij per-detector AUROC met bootstrap-betrouwbaarheidsintervallen. Onze resultaten leggen significante robuustheidslekken bloot in huidige AI-tekstdetectie en vestigen StealthRL als een principieel adversarieel evaluatieprotocol. Code en evaluatiepipeline zijn publiekelijk beschikbaar op https://github.com/suraj-ranganath/StealthRL.