HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

49 papers found

Uitbreiding van Eénstapsbeeldgeneratie van Klassenlabels naar Tekst via Discriminerende Tekstrepresentatie
Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

Apr 20

ByChenxi Zhao, Chen Zhu, Xiaokun Feng, Aiming Hao, Jiashu Zhu, Jiachen Lei, Jiahong Wu, Xiangxiang Chu, Jufeng Yang

Weinig-staps generatie is een lang gekoesterd doel, waarbij recente één-staps generatiemethoden, zoals MeanFlow, opmerkelijke resultaten hebben behaald. Bestaand onderzoek naar MeanFlow richt zich voornamelijk op klasse-naar-beeld generatie. Een intuïtieve maar onontgonnen richting is echter het uitbreiden van de voorwaarde van vaste klasselabels naar flexibele tekstinvoeren, wat rijkere contentcreatie mogelijk maakt. In vergelijking met de beperkte klasselabels stellen tekstcondities grotere eisen aan het begripsvermogen van het model, wat een effectieve integratie van krachtige tekstencoders in het MeanFlow-raamwerk vereist. Verrassend genoeg, hoewel het integreren van tekstcondities eenvoudig lijkt, ontdekken we dat het integreren van krachtige op LLM gebaseerde tekstencoders met conventionele trainingsstrategieën tot onbevredigende prestaties leidt. Om de onderliggende oorzaak te achterhalen, voeren we gedetailleerde analyses uit en tonen aan dat, vanwege het extreem beperkte aantal verfijningsstappen in de MeanFlow-generatie, zoals slechts één stap, de tekstfeature-representaties een voldoende hoog onderscheidend vermogen moeten bezitten. Dit verklaart ook waarom discrete en gemakkelijk te onderscheiden klassefeatures goed presteren binnen het MeanFlow-raamwerk. Geleid door deze inzichten, benutten we een krachtige op LLM gebaseerde tekstencoder waarvan is geverifieerd dat deze de vereiste semantische eigenschappen bezit, en passen we het MeanFlow-generatieproces aan voor dit raamwerk, wat voor het eerst resulteert in efficiënte tekstgeconditioneerde synthese. Bovendien valideren we onze aanpak op het veelgebruikte diffusiemodel, waarbij we significante verbeteringen in de generatieprestaties aantonen. We hopen dat dit werk een algemene en praktische referentie biedt voor toekomstig onderzoek naar tekstgeconditioneerde MeanFlow-generatie. De code is beschikbaar op https://github.com/AMAP-ML/EMF.

OneVL: Eénstaps Latente Redenering en Planning met Visueel-Taalmatige Uitleg
OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

Apr 20

ByJinghui Lu, Jiayi Guan, Zhijian Huang, Jinlong Li, Guang Li, Lingdong Kong, Yingyan Li, Han Wang, Shaoqing Xu, Yuechen Luo, Fang Li, Chenxu Dang, Junli Wang, Tao Xu, Jing Wu, Jianhua Wu, Xiaoshuai Hao, Wen Zhang, Tianyi Jiang, Lingfeng Zhang, Lei Zhou, Yingbo Tang, Jie Wang, Yinfeng Gao, Xizhou Bu, Haochen Tian, Yihang Qiu, Feiyang Jia, Lin Liu, Yigu Ge, Hanbing Li, Yuannan Shen, Jianwei Cui, Hongwei Xie, Bing Wang, Haiyang Sun, Jingwei Zhao, Jiahui Huang, Pei Liu, Zeyu Zhu, Yuncheng Jiang, Zibin Guo, Chuhong Gong, Hanchao Leng, Kun Ma, Naiyang Wang, Guang Chen, Kuiyuan Yang, Hangjun Ye, Long Chen

Chain-of-Thought (CoT) redeneren is een krachtige aanjager geworden van trajectvoorspelling in VLA-gestuurd autonoom rijden, maar zijn autoregressieve karakter brengt latentiekosten met zich mee die onhaalbaar zijn voor real-time inzet. Latente CoT-methoden proberen deze kloof te dichten door redeneren te comprimeren in continue verborgen toestanden, maar blijven consequent achter bij hun expliciete tegenhangers. Wij suggereren dat dit komt doordat puur linguïstische latente representaties een symbolische abstractie van de wereld comprimeren, in plaats van de causale dynamiek die het rijgedrag daadwerkelijk bepaalt. Daarom presenteren wij OneVL (One-step latent reasoning and planning with Vision-Language explanations), een verenigd VLA- en Wereldmodelraamwerk dat redeneren routeert via compacte latente tokens onder supervisie van dubbele hulp-decoders. Naast een taaldecoder die tekstuele CoT reconstrueert, introduceren wij een visuele wereldmodel-decoder die toekomstige frame-tokens voorspelt, waardoor de latente ruimte wordt gedwongen de causale dynamiek van weggeometrie, agentbeweging en omgevingsverandering te internaliseren. Een driestaps trainingspijplijn aligneert deze latente representaties progressief met traject-, taal- en visuele doelstellingen, wat een stabiele gezamenlijke optimalisatie waarborgt. Tijdens inferentie worden de hulp-decoders verwijderd en worden alle latente tokens in één enkele parallelle stap vooringevuld, waardoor de snelheid van antwoord-alleen voorspelling wordt geëvenaard. Op vier benchmarks wordt OneVL de eerste latente CoT-methode die expliciete CoT overtreft, waarbij state-of-the-art nauwkeurigheid wordt geleverd tegen de latentie van antwoord-alleen voorspelling, en direct bewijs wordt geleverd dat strakkere compressie, mits begeleid door zowel taal- als wereldmodelsupervisie, meer generaliseerbare representaties oplevert dan uitgebreide token-voor-token redenering. Projectpagina: https://xiaomi-embodied-intelligence.github.io/OneVL

Agent-World: Het Opschalen van Real-World Omgevingssynthese voor de Evolutie van Algemene Agentintelligentie
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Apr 20

ByGuanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou

Grote taalmodellen worden in toenemende mate verwacht te functioneren als algemene agenten die interacteren met externe, stateful tool-omgevingen. Het Model Context Protocol (MCP) en bredere agentvaardigheden bieden een uniforme interface voor het verbinden van agenten met schaalbare real-world diensten, maar de training van robuuste agenten wordt nog steeds beperkt door een gebrek aan realistische omgevingen en principiële mechanismen voor levenslang leren. In dit artikel presenteren we Agent-World, een zelf-evoluerende trainingsarena voor het bevorderen van algemene agentintelligentie via schaalbare omgevingen. Agent-World heeft twee hoofdcomponenten: (1) Agentic Environment-Task Discovery, die autonoom topic-gebonden databases en uitvoerbare tool-ecosystemen verkent uit duizenden real-world omgevingsthema's en verifieerbare taken synthetiseert met controleerbare moeilijkheidsgraad; en (2) Continue Zelf-Evoluerende Agent Training, die multi-omgeving reinforcement learning combineert met een zelf-evoluerende agentarena die automatisch capaciteitshiaten identificeert via dynamische taaksynthese en gericht leren aanstuurt, waardoor co-evolutie van agentbeleid en omgevingen mogelijk wordt. Over 23 uitdagende agentbenchmarks heen presteren Agent-World-8B en 14B consistent beter dan sterke propriëtaire modellen en omgeving-schaleringsbaselines. Verdere analyses onthullen schaalverbanden met betrekking tot omgevingsdiversiteit en zelf-evolutierondes, wat inzichten biedt voor het bouwen van algemene agentintelligentie.

OpenGame: Open Agentiegericht Programmeren voor Spellen
OpenGame: Open Agentic Coding for Games

Apr 20

ByYilei Jiang, Jinyuan Hu, Qianyin Xiao, Yaozhi Zheng, Ruize Ma, Kaituo Feng, Jiaming Han, Tianshuo Peng, Kaixuan Fan, Manyuan Zhang, Xiangyu Yue

Game-ontwikkeling bevindt zich op het snijvlak van creatief ontwerp en ingewikkelde software-engineering, waarbij de gezamenlijke coördinatie van game-engines, real-time loops en nauw gekoppelde toestanden over vele bestanden vereist is. Hoewel Large Language Models (LLM's) en code-agents geïsoleerde programmeertaken tegenwoordig moeiteloos oplossen, falen ze steevast wanneer ze worden gevraagd een volledig speelbare game te produceren vanuit een hoogoverzichtelijk ontwerp. Ze bezwijken onder inconsistenties tussen bestanden, verbroken scene-koppelingen en logische incoherentie. Wij overbruggen deze kloof met OpenGame, het eerste open-source agent-framework dat expliciet is ontworpen voor end-to-end webgame-creatie. De kern bestaat uit Game Skill, een herbruikbare, evoluerende capaciteit die bestaat uit een Template Skill die een bibliotheek van projectskeletten uit ervaring opbouwt, en een Debug Skill die een levend protocol van geverifieerde reparaties onderhoudt. Samen stellen ze de agent in staat om stabiele architecturen te bouwen en integratiefouten systematisch te herstellen in plaats van geïsoleerde syntaxfouten te patchen. Aan de basis van dit framework ligt GameCoder-27B, een code-LLM gespecialiseerd in het beheersen van game-engines via een drietrapspijplijn van continue pre-training, supervised fine-tuning en execution-grounded reinforcement learning. Aangezien het verifiëren van interactieve speelbaarheid fundamenteel moeilijker is dan het controleren van statische code, introduceren we verder OpenGame-Bench, een evaluatiepijplijn die agent-gedreven game-generatie scoort op Build Health, Visuele Bruikbaarheid en Intent Alignment via headless browser-uitvoering en VLM-beoordeling. Over 150 diverse game-prompts heen vestigt OpenGame een nieuwe state-of-the-art. We hopen dat OpenGame code-agants voorbij discrete software-engineeringproblemen duwt en richting het bouwen van complexe, interactieve real-world applicaties. Ons framework zal volledig open-source worden gemaakt.

MultiWorld: Schaalbare Multi-Agent Multi-View Video Wereldmodellen
MultiWorld: Scalable Multi-Agent Multi-View Video World Models

Apr 20

ByHaoyu Wu, Jiwen Yu, Yingtian Zou, Xihui Liu

Videowereldmodellen hebben opmerkelijke successen geboekt in het simuleren van omgevingsdynamiek als reactie op acties van gebruikers of agenten. Ze worden gemodelleerd als actie-geconditioneerde videogeneratiemodellen die historische frames en huidige acties als invoer nemen om toekomstige frames te voorspellen. Toch zijn de meeste bestaande benaderingen beperkt tot scenario's met één agent en slagen ze er niet in de complexe interacties die inherent zijn aan echte multi-agent systemen vast te leggen. Wij presenteren MultiWorld, een uniform raamwerk voor wereldmodellering met meerdere agenten en meerdere perspectieven, dat nauwkeurige besturing van meerdere agenten mogelijk maakt terwijl consistentie tussen de verschillende perspectieven behouden blijft. We introduceren de Multi-Agent Condition Module om precieze multi-agent bestuurbaarheid te bereiken, en de Global State Encoder om coherente observaties tussen verschillende perspectieven te waarborgen. MultiWorld ondersteunt flexibele schaling van het aantal agenten en perspectieven, en synthetiseert verschillende perspectieven parallel voor hoge efficiëntie. Experimenten in multi-player game-omgevingen en multi-robot manipulatietaken tonen aan dat MultiWorld de baseline-methoden overtreft op het gebied van videokwaliteit, actie-volgvermogen en consistentie tussen meerdere perspectieven. Projectpagina: https://multi-world.github.io/

EasyVideoR1: Eenvoudigere Reinforcement Learning voor Video-inzicht
EasyVideoR1: Easier RL for Video Understanding

Apr 18

ByChuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Dingyu Yao, Zheng Lin, Peng Fu, Nan Duan, Jiaqi Wang

Versterkend leren op basis van verifieerbare beloningen (RLVR) heeft opmerkelijke effectiviteit getoond bij het verbeteren van de redeneervermogens van grote taalmodel(len). Naarmate modellen evolueren naar native multimodale architecturen, wordt de uitbreiding van RLVR naar videobegrip steeds belangrijker, maar blijft dit grotendeels onontgonnen terrein. Dit komt door de diversiteit aan videotaaktypen, de rekenkundige overhead van herhaaldelijk decoderen en voorbewerken van hoogdimensionale visuele invoer, en de moeilijkheid van reproduceerbare evaluatie over talrijke gevoelige hyperparameters. Bestaande open-source RL-trainingsframeworks bieden een solide infrastructuur voor tekst- en beeldscenario's, maar missen systematische optimalisaties die zijn toegesneden op de videomodaliteit. In dit werk presenteren we EasyVideoR1, een compleet en efficiënt framework voor versterkend leren dat specifiek is ontworpen voor het trainen van grote visie-taalmodel(len) op videobegriptaken. EasyVideoR1 levert de volgende bijdragen: (1) een complete videotrainingspijplijn voor RL met offline voorbewerking en tensor-caching, die redundante videodecodering elimineert en een doorvoerverbetering van 1,47 keer oplevert; (2) een uitgebreid, taakbewust beloningssysteem dat 11 verschillende video- en beeldprobleemtypen dekt met uniforme routering en modulaire uitbreidingsmogelijkheden; (3) een gemengd offline-online datatrainingsparadigma dat samengestelde hoogwaardige trajecten combineert met on-policy exploratie, ten gunste van het aanleren van uitdagendere taken; (4) gezamenlijke beeld-video training met onafhankelijk configureerbare pixelbudgetten, waardoor de twee modaliteiten elkaar wederzijds kunnen versterken; en (5) een asynchroon multi-benchmark evaluatieframework dat 22 mainstream videobegripbenchmarks dekt, waarbij de gereproduceerde nauwkeurigheid nauw aansluit bij de officieel gerapporteerde scores.

GFT: Van Imitatie naar Beloningsafstemming met Onbevooroordeelde Groepsvoordelen en Dynamische Coëfficiëntenrectificatie
GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Apr 15

ByWangjie Gan, Miao Pan, Linbo Xi, Wenqi Zhang, Jintao Chen, Jianwei Yin, Xuhong Zhang

Grote taalmodellen worden doorgaans nagevormd met behulp van gesuperviseerde fine-tuning (SFT) en reinforcement learning (RL), maar het effectief verenigen van efficiënte kennisinjectie met robuuste generalisatie blijft een uitdaging. In dit werk presenteren we een analyse van de trainingsdynamiek die aantoont dat SFT kan worden geïnterpreteerd als een speciaal geval van policy gradient-optimalisatie met een extreem schaarse impliciete beloning en instabiele inverse-kansweging, wat gezamenlijk leidt tot single-path afhankelijkheid, entropie-instorting en gradientexplosie. Gemotiveerd door deze diagnose stellen we Group Fine-Tuning (GFT) voor, een uniform na-trainingsraamwerk dat deze intrinsieke beperkingen aanpakt via twee mechanismen: Group Advantage Learning, dat diverse responsgroepen construeert en genormaliseerde contrastieve supervisie afleidt om beloningsschaarste te verlichten, en Dynamic Coefficient Rectification, dat inverse-kansgewichten adaptief begrenst om de optimalisatie te stabiliseren terwijl efficiënte kennisinjectie behouden blijft. Experimenten tonen aan dat GFT consistent superieur presteert aan SFT-gebaseerde methoden en beleid oplevert dat naadlozer integreert met daaropvolgende RL-training.

WebCompass: Op weg naar multimodale evaluatie van webcodering voor coderende taalmodellen
WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models

Apr 20

ByXinping Lei, Xinyu Che, Junqi Xiong, Chenchen Zhang, Yukai Huang, Chenyu Zhou, Haoyang Huang, Minghao Liu, Letian Zhu, Hongyi Ye, Jinhua Hao, Ken Deng, Zizheng Zhan, Han Li, Dailin Li, Yifan Yao, Ming Sun, Zhaoxiang Zhang, Jiaheng Liu

Grote taalmodellen evolueren snel naar interactieve codeeragentschappen die in staat zijn tot end-to-end webcodering, maar bestaande benchmarks evalueren slechts smalle onderdelen van deze capaciteit, doorgaans tekstgeconditioneerde generatie met statische correctheidsmetrieken, waarbij visuele nauwkeurigheid, interactiekwaliteit en redenering op codebaseniveau grotendeels ongemeten blijven. Wij introduceren WebCompass, een multimodale benchmark die een geïntegreerde levenscyclus-evaluatie van webengineering-capaciteit biedt. Erkennend dat echte webcodering een iteratieve cyclus van generatie, bewerking en reparatie is, omvat WebCompass drie invoermodaliteiten (tekst, beeld, video) en drie taaktypen (generatie, bewerking, reparatie), wat zeven taakcategorieën oplevert die professionele workflows weerspiegelen. Via een meerfasen, human-in-the-loop pipeline cureren we instanties die 15 generatiedomeinen, 16 bewerkingstypen en 11 reparatiedefecttypen beslaan, elk geannoteerd op Easy/Medium/Hard niveaus. Voor evaluatie nemen we een checklist-gestuurd LLM-as-a-Judge protocol voor bewerking en reparatie, en stellen een nieuw Agent-as-a-Judge paradigma voor generatie voor dat gegenereerde websites autonoom uitvoert in een echte browser, interactief gedrag verkent via het Model Context Protocol (MCP), en gerichte testcases iteratief synthetiseert, wat nauw aansluit bij menselijke acceptatietesten. We evalueren representatieve closed-source en open-source modellen en observeren dat: (1) closed-source modellen aanzienlijk sterker en evenwichtiger blijven; (2) bewerking en reparatie verschillende moeilijkheidsprofielen vertonen, waarbij reparatie interactiviteit beter behoudt maar uitvoeringsuitdagend blijft; (3) esthetiek de meest hardnekkige bottleneck is, vooral voor open-source modellen; en (4) frameworkkeuze de resultaten materieel beïnvloedt, waarbij Vue consistent uitdagend is terwijl React en Vanilla/HTML sterker presteren afhankelijk van het taaktype.

ClawEnvKit: Automatische Generatie van Omgevingen voor Klauwachtige Agenten
ClawEnvKit: Automatic Environment Generation for Claw-Like Agents

Apr 20

ByXirui Li, Ming Li, Derry Xu, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, Tianyi Zhou

Het construeren van omgevingen voor het trainen en evalueren van grijperachtige agents blijft een manueel, arbeidsintensief proces dat niet schaalbaar is. Wij stellen dat wat nodig is niet slechts een dataset is, maar een geautomatiseerde pijplijn die in staat is om op verzoek diverse, geverifieerde omgevingen te genereren. Hiertoe introduceren wij ClawEnvKit, een autonoom generatieproces dat deze formalisering instantieert vanuit natuurlijke-taalbeschrijvingen. De pijplijn bestaat uit drie modules: (1) een parser die gestructureerde generatieparameters uit natuurlijke-taalinvoer extraheert; (2) een generator die de taakspecificatie, toolinterface en scoringsconfiguratie produceert; en (3) een validator die haalbaarheid, diversiteit, structurele geldigheid en interne consistentie over de gegenereerde omgevingen afdwingt. Met ClawEnvKit construeren wij Auto-ClawEval, de eerste grootschalige benchmark voor grijperachtige agents, bestaande uit 1.040 omgevingen verdeeld over 24 categorieën. Empirisch gezien evenaart of overtreft Auto-ClawEval door mensen samengestelde omgevingen qua coherentie en helderheid tegen 13.800x lagere kosten. Geëvalueerd over 4 modelfamilies en 8 agent-harnasframeworks, constateren wij dat harnasengineering de prestaties met tot 15,7 procentpunt verbetert ten opzichte van een kale ReAct-basislijn, voltooiing de primaire variatie-as blijft zonder enig model dat de benchmark verzadigt, en geautomatiseerde generatie evaluatie op een voorheen onhaalbaar grote schaal mogelijk maakt. Naast statische benchmarking maakt ClawEnvKit live-evaluatie mogelijk: gebruikers beschrijven een gewenste capaciteit in natuurlijke taal en krijgen op verzoek een geverifieerde omgeving, waardoor evaluatie verandert in een continu, gebruikersgestuurd proces. Hetzelfde mechanisme dient als een generator van trainingsomgevingen op aanvraag, die taakverdelingen produceert die zich aanpassen aan de huidige zwaktes van een agent in plaats van beperkt te worden door bestaande gebruikerslogboeken.

Wanneer kunnen LLM's leren redeneren met zwakke supervisie?
When Can LLMs Learn to Reason with Weak Supervision?

Apr 20

BySalman Rahman, Jingyan Shen, Anna Mordvina, Hamid Palangi, Saadia Gabriel, Pavel Izmailov

Grote taalmodellen hebben aanzienlijke verbeteringen in redeneervaardigheid bereikt door reinforcement learning met verifieerbare beloningen (RLVR). Naarmate de capaciteiten van modellen echter groeien, wordt het construeren van hoogwaardige beloningssignalen steeds moeilijker, waardoor het essentieel is te begrijpen wanneer RLVR kan slagen onder zwakkere vormen van supervisie. Wij voeren een systematische empirische studie uit over diverse modelfamilies en redeneerdomeinen onder drie zwakke supervisie-omstandigheden: schaarse data, ruisbeloningen en zelfgesuperviseerde proxy-beloningen. Wij constateren dat generalisatie wordt bepaald door dynamieken van beloningsverzadiging tijdens training: modellen die generaliseren vertonen een langdurige pre-verzadigingsfase waarin trainingsbeloning en downstream-prestatie samen stijgen, terwijl modellen die snel verzadigen eerder memoriseren dan leren. Wij identificeren redeneergetrouwheid, gedefinieerd als de mate waarin tussenstappen de eindantwoord logisch ondersteunen, als de pre-RL-eigenschap die voorspelt in welk regime een model valt, terwijl outputdiversiteit alleen geen informatie geeft. Gemotiveerd door deze bevindingen, ontwarren wij de bijdragen van voortgezette pre-training en supervised fine-tuning, en concluderen dat SFT op expliciete redeneersporen noodzakelijk is voor generalisatie onder zwakke supervisie, terwijl voortgezette pre-training op domeindata het effect versterkt. Toegepast op Llama3.2-3B-Base stellen deze interventies generalisatie mogelijk in alle drie de settings waar het basismodel voorheen faalde.

SkillFlow: Benchmark voor Levenslange Vaardigheidsontdekking en -evolutie bij Autonome Agenten
SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

Apr 19

ByZiao Zhang, Kou Shi, Shiting Huang, Avery Nie, Yu Zeng, Yiming Zhao, Zhen Fang, Qishen Su, Haibo Qiu, Wei Yang, Qingnan Ren, Shun Zou, Wenxuan Huang, Lin Chen, Zehui Chen, Feng Zhao

Naarmate de mogelijkheden van autonome agents zich verder uitbreiden, kunnen zij steeds meer gespecialiseerde taken voltooien door middel van plug-and-play externe vaardigheden. Toch testen huidige benchmarks vooral of modellen beschikbare vaardigheden kunnen gebruiken, terwijl onduidelijk blijft of zij vaardigheden uit ervaring kunnen ontdekken, deze na falen kunnen repareren en over tijd een coherente bibliotheek kunnen onderhouden. Wij introduceren SkillFlow, een benchmark met 166 taken verdeeld over 20 families, waarbij de taakconstructie binnen elke familie een Domein-Agnostische Uitvoeringsstroom volgt. Dit raamwerk definieert een werkschema voor de agent, waardoor deze taken een consistente workflow delen. Agents worden geëvalueerd volgens een Agentic Lifelong Learning-protocol: zij starten zonder vaardigheden, lossen taken sequentieel binnen elke familie op, externaliseren lessen via traject- en rubric-gestuurde vaardigheidspatches, en nemen de bijgewerkte bibliotheek mee naar volgende taken. Experimenten tonen een aanzienlijke capaciteitskloof. Voor Claude Opus 4.6 verbetert levenslange vaardigheidsevolutie de taaksuccesratio van 62,65% naar 71,08% (+8,43 punten). Hoge vaardigheidsgebruik impliceert echter niet noodzakelijk hoge nuttigheid: Kimi K2.5 boekt slechts +0,60 punten ondanks 66,87% vaardigheidsgebruik, terwijl Qwen-Coder-Next slechts een taakvoltooiingspercentage van 44,58% haalt en zelfs achteruitgaat ten opzichte van de baseline-instelling. SkillFlow levert een gestructureerde testomgeving voor deze onderzoeksrichting en een diepgaande empirische analyse van vaardigheidsontdekking, patching, transfer en hun faalmodi onder levenslange evaluatie.

Vol in de B-Ruimte: Het Kalibreren van Gedeelde Richtingen voor LoRA-Samenvoeging
Crowded in B-Space: Calibrating Shared Directions for LoRA Merging

Apr 18

ByYixuan Tang, Yi Yang

Het samenvoegen van afzonderlijk getrainde LoRA-adapters is een praktisch alternatief voor gezamenlijke multi-tasktraining, maar dit gaat vaak ten koste van de prestaties. Bestaande methoden behandelen de LoRA-update ΔW = BA meestal als één enkel object en maken geen onderscheid tussen de twee LoRA-matrices. Wij tonen aan dat de belangrijkste bron van interferentie bij het samenvoegen van LoRA's afkomstig is van de uitvoerzijde-matrix B. Over taken heen gebruikt B herhaaldelijk een kleine set gedeelde richtingen, terwijl A veel taakspecifieker blijft. Hierdoor benadrukt de samengevoegde adapter deze gedeelde richtingen te sterk en gaat taakspecifieke informatie verloren. Wij stellen Pico voor (Pre-merge interference calibration in output-space), een data-vrije methode die B vóór het samenvoegen kalibreert door overgedeelde richtingen af te schalen en vervolgens de samengevoegde update te herschalen. Pico kan direct worden geïntegreerd in bestaande samenvoegmethoden zoals Task Arithmetic, TIES en TSV-M. Over acht verschillende benchmarks uit de domeinen wiskunde, programmeren, financiën en geneeskunde verbetert Pico de gemiddelde nauwkeurigheid met 3,4-8,3 punten ten opzichte van de corresponderende basismethode en behaalt de beste algehele gemiddelde prestaties. Pico stelt samengevoegde adapters ook in staat om beter te presteren dan de LoRA die met alle taakgegevens is getraind. Deze resultaten tonen aan dat het samenvoegen van LoRA's beter werkt wanneer de twee LoRA-matrices afzonderlijk worden behandeld.

De Illusie van Zekerheid: Ontkoppeling van Vermogen en Calibratie bij On-Policy Distillatie
The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation

Apr 18

ByJiaxin Zhang, Xiangyu Peng, Qinglin Chen, Qinyuan Ye, Caiming Xiong, Chien-Sheng Wu

On-policy distillatie (OPD) is een steeds belangrijkere methode voor het na-trainen van taalmodellen. Wij identificeren echter een wijdverbreide schaalwet van miscalibratie: hoewel OPD de taaknauwkeurigheid effectief verbetert, brengt het modellen systematisch in een staat van ernstige overmoed. Wij herleiden dit falen tot een informatie-mismatch: de supervisie van het leraarmodel wordt gevormd onder geprivilegieerde context die tijdens de training beschikbaar is, terwijl het ingezette model zijn betrouwbaarheid moet rapporteren met alleen de informatie die tijdens de inzet beschikbaar is. Wij formaliseren dit perspectief theoretisch door aan te tonen dat op de leraar geconditioneerd succes over het algemeen geen geldig doel is voor betrouwbaarheid tijdens inzet, en dat behulpzame geprivilegieerde context leidt tot entropie-instorting en een systematische optimisme-bias. Om dit aan te pakken, stellen wij een calibratie-bewust OPD-raamwerk voor, CaOPD, dat empirische betrouwbaarheid schat uit modelrollouts, de zelfgerapporteerde betrouwbaarheid vervangt door dit op de leerling gegronde doel, en het herziene antwoord distilleert via dezelfde zelfdistillatie-pijplijn. Experimenten met diverse modellen en domeinen tonen aan dat CaOPD Pareto-optimale calibratie bereikt terwijl het competitieve capaciteiten behoudt, en robuust generaliseert onder out-of-distribution en continu leren. Onze bevindingen benadrukken dat het distilleren van capaciteiten niet impliceert dat de betrouwbaarheid gecalibreerd is, en dat betrouwbaarheid als een essentieel doel moet worden behandeld bij na-training. Code: https://github.com/SalesforceAIResearch/CaOPD

Betonnen Jungle: Op Weg naar een Concrete Aanpak voor Contrastief Negatieve Mijnbouw voor Compositioneel Begrip
Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding

Apr 14

ByEun Woo Im, Dhruv Madhwal, Vivek Gupta

Vision-Language Models vertonen opmerkelijke capaciteiten, maar hebben vaak moeite met compositioneel redeneren en vertonen kwetsbaarheden met betrekking tot woordvolgorde en attribuutbinding. Deze beperking ontstaat door een schaarste aan informatieve voorbeelden die nodig zijn om subtiele semantische variaties te onderscheiden tijdens contrastieve voorpretraining. Hoewel hard negative mining een veelbelovend middel biedt, ontbreekt het bestaande methoden aan expliciete mechanismen om te bepalen welke linguïstische elementen worden gemodificeerd. In plaats van generatieve architecturen te ontwerpen, stelt deze studie lexicale concreetheid vast als een fundamentele determinant van de effectiviteit van negatieve voorbeelden. Het modificeren van zeer concrete termen genereert meer uitgesproken structurele en visuele verschillen, wat een aanzienlijk sterker leersignaal oplevert. Gebruikmakend van dit principe wordt ConcretePlant voorgesteld om perceptueel verankerde concepten systematisch te isoleren en te manipuleren. Analyses van de InfoNCE-loss onthullen verder een ernstig gradientenonevenwicht, waarbij gemakkelijk te onderscheiden paren het optimalisatieproces onevenredig overweldigen en de beschikbare bandbreedte voor genuanceerd leren beperken. Om deze degradatie op te lossen, wordt de Cement-loss geformuleerd met behulp van een op marge gebaseerde aanpak. Door psycholinguïstische scores te correleren met voorbeeldmoeilijkheid, kalibreert deze objectief dynamisch de straf die op individuele trainingsparen wordt toegepast. Uitgebreide evaluaties ondersteunen deze theoretische beweringen. Het geïntegreerde raamwerk, aangeduid als Slipform, behaalt state-of-the-art nauwkeurigheid op diverse compositionele evaluatiebenchmarks, algemene cross-modale retrievals en single- en multi-label lineaire probing.

Over de betrouwbaarheid van computergebruiksagenten
On the Reliability of Computer Use Agents

Apr 20

ByGonzalo Gonzalez-Pumariega, Saaket Agashe, Jiachen Yang, Ang Li, Xin Eric Wang

Computer-use agents zijn snel verbeterd in real-world taken zoals webnavigatie, desktopautomatisering en software-interactie, en overtreffen in sommige gevallen zelfs de menselijke prestaties. Toch kan een agent die eenmaal slaagt, falen bij een herhaalde uitvoering van dezelfde taak, zelfs wanneer de taak en het model ongewijzigd blijven. Dit roept een fundamentele vraag op: als een agent een taak eenmaal kan voltooien, wat weerhoudt het er dan van om dit betrouwbaar te doen? In dit werk onderzoeken we de bronnen van onbetrouwbaarheid bij computer-use agents aan de hand van drie factoren: stochastiek tijdens de uitvoering, ambiguïteit in de taakspecificatie en variabiliteit in het agentgedrag. We analyseren deze factoren op OSWorld door middel van herhaalde uitvoeringen van dezelfde taak, samen met gepaarde statistische tests die veranderingen op taakniveau vastleggen across verschillende instellingen. Onze analyse toont aan dat betrouwbaarheid afhangt van zowel hoe taken worden gespecificeerd als hoe het agentgedrag varieert tussen uitvoeringen. Deze bevindingen suggereren de noodzaak om agents te evalueren onder herhaalde uitvoering, agents in staat te stellen taakambiguïteit op te lossen via interactie, en strategieën te prefereren die stabiel blijven over meerdere runs.

MathNet: een wereldwijde multimodale benchmark voor wiskundig redeneren en informatiezoeken
MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

Apr 20

ByShaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba

Wiskundig probleemoplossen blijft een uitdagende test van redeneervermogen voor grote taal- en multimodale modellen, maar bestaande benchmarks zijn beperkt in omvang, taaldekking en taakdiversiteit. Wij introduceren MathNet, een hoogwaardige, grootschalige, multimodale en meertalige dataset van Olympiade-niveau wiskundeproblemen, samen met een benchmark voor het evalueren van wiskundig redeneren in generatieve modellen en wiskundige retrievial in op embedding gebaseerde systemen. MathNet bestrijkt 47 landen, 17 talen en twee decennia aan wedstrijden, en omvat 30.676 door experts geschreven problemen met oplossingen uit diverse domeinen. Naast de kerndataset construeren we een retrieval-benchmark bestaande uit wiskundig equivalente en structureel vergelijkbare probleemparen, samengesteld door menselijke experts. MathNet ondersteunt drie taken: (i) Probleemoplossing, (ii) Wiskundebewuste Retrieval, en (iii) Retrieval-augmented Probleemoplossing. Experimentele resultaten tonen aan dat zelfs state-of-the-art redeneermodellen (78,4% voor Gemini-3.1-Pro en 69,3% voor GPT-5) uitdagingen blijven ondervinden, terwijl embeddingmodellen moeite hebben om equivalente problemen te retrieven. We tonen verder aan dat de prestaties van retrieval-augmented generation zeer gevoelig zijn voor de retrievalkwaliteit; DeepSeek-V3.2-Speciale behaalt bijvoorbeeld winsten tot 12% en scoort daarmee het hoogst op de benchmark. MathNet biedt de grootste hoogwaardige Olympiade-dataset samen met de eerste benchmark voor het evalueren van wiskundige probleemretrieval, en we geven zowel de dataset als de benchmark openbaar vrij op https://mathnet.mit.edu.

VoxMind: Een End-to-End Agentiëre Spraakdialoogsysteem
VoxMind: An End-to-End Agentic Spoken Dialogue System

Apr 17

ByTianle Liang, Yifu Chen, Shengpeng Ji, Yijun Chen, Zhiyang Jia, Jingyu Lu, Fan Zhuo, Xueyi Pu, Yangzhuo Li, Zhou Zhao

Recente end-to-end gesproken dialoogmodellen maken natuurlijke interactie mogelijk. Naarmate gebruikerseisen echter steeds complexer worden, worstelen modellen die uitsluitend op conversatievaardigheden vertrouwen vaak om bij te benen. Het integreren van agent-mogelijkheden is daarom essentieel: door het gebruik van tools kunnen deze modellen hun kennisgrenzen verleggen en real-world taken beter oplossen. Toch heeft bestaand onderzoek zich grotendeels geconcentreerd op kernperceptie en -generatie, met relatief beperkte verkenning van dergelijke tool-augmented uitbreidingen. Om deze kloof te overbruggen, presenteren wij VoxMind, een geïntegreerd raamwerk ontworpen om end-to-end gesproken dialoogmodellen uit te rusten met uitgebreide agent-mogelijkheden. Gebruikmakend van onze samengestelde 470-uur durende AgentChat-dataset, integreren we een "Think-before-Speak"-mechanisme, waardoor het model gestructureerd redeneren kan internaliseren als een kritische voorwaarde voor planning en responsgeneratie. Verder, om latentieknelpunten veroorzaakt door grootschalige toolintegratie te verzachten, stellen we een Multi-Agent Dynamic Tool Management-architectuur voor. Door retrievalthreads asynchroon te delegeren naar een hulp-agent die is afgestemd op de redeneertrajecten van het hoofdmodel, ontkoppelt dit systeem effectief de inferentielatentie van de toolsetgrootte. Experimentele resultaten bevestigen dat VoxMind significante verbeteringen bereikt in agentprestaties: in vergelijking met sterke baseline-modellen stijgt de taakvoltooiingsratio van 34,88% naar 74,57%, waarmee het Gemini-2.5-Pro overtreft op gesproken agenttaken, terwijl de algemene gesprekskwaliteit behouden blijft. De broncode en bijbehorende data zijn openbaar beschikbaar op https://github.com/MM-Speech/VoxMind.

GenericAgent: Een Token-Efficiënte, Zelf-Evoluerende LLM-Agent via Contextuele Informatiedichtheid-Maximalisatie (V1.0)
GenericAgent: A Token-Efficient Self-Evolving LLM Agent via Contextual Information Density Maximization (V1.0)

Apr 18

ByJiaqing Liang, Jinyi Han, Weijia Li, Xinyi Wang, Zhoujia Zhang, Zishang Jiang, Ying Liao, Tingyun Li, Ying Huang, Hao Shen, Hanyu Wu, Fang Guo, Keyi Wang, Zhonghua Hong, Zhiyu Lu, Lipeng Ma, Sihang Jiang, Yanghua Xiao

Langetermijn-large language model (LLM)-agenten worden fundamenteel beperkt door de context. Naarmate interacties langer worden, hopen toolbeschrijvingen, opgehaalde herinneringen en ruime omgevingsfeedback zich op en verdringen ze de informatie die nodig is voor besluitvorming. Tegelijkertijd gaat waardevolle ervaring die wordt opgedaan bij taken vaak verloren tussen verschillende episodes. Wij stellen dat langetermijnprestaties niet worden bepaald door de contextlengte, maar door hoeveel besluitrelevante informatie wordt behouden binnen een beperkt contextbudget. Wij presenteren GenericAgent (GA), een algemeen, zelf-evoluerend LLM-agentsysteem dat is gebouwd rond één principe: maximalisatie van de contextinformatiedichtheid. GA implementeert dit via vier nauw verbonden componenten: een minimale atomische toolset die de interface eenvoudig houdt, een hiërarchisch geheugen op aanvraag dat standaard slechts een beperkt hoog-niveau overzicht toont, een zelf-evolutiemechanisme dat geverifieerde eerdere trajecten omzet in herbruikbare SOP's en uitvoerbare code, en een contextafkapping- en compressielaag die de informati

OmniScript: Op weg naar audiovisuele scriptgeneratie voor lange cinematografische video's
OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

Apr 13

ByJunfu Pu, Yuxin Chen, Teng Wang, Ying Shan

Huidige multimodale grote taalmodellen (MLLM's) hebben opmerkelijke capaciteiten getoond in het begrijpen van korte video's, maar het vertalen van lange cinematische video's naar gedetailleerde, temporeel verankerde scripts blijft een grote uitdaging. Dit artikel introduceert de nieuwe video-naar-script (V2S) taak, die tot doel heeft hiërarchische, scène-voor-scène scripts te genereren die personagehandelingen, dialogen, expressies en audiocues omvatten. Om dit te faciliteren, construeren we een eerste-in-zijn-soort menselijk geannoteerd benchmark en stellen we een temporeel bewust hiërarchisch evaluatieraamwerk voor. Verder presenteren we OmniScript, een 8B-parameter omni-modale (audiovisuele) taalmodel toegesneden op langdurig narratief begrip. OmniScript wordt getraind via een progressieve pijplijn die gebruikmaakt van chain-of-thought supervised fine-tuning voor plot- en personageredenering, gevolgd door reinforcement learning met temporeel gesegmenteerde beloningen. Uitgebreide experimenten tonen aan dat OmniScript, ondanks zijn parameter efficiëntie, aanzienlijk beter presteert dan grotere open-source modellen en prestaties bereikt die vergelijkbaar zijn met state-of-the-art propriëtaire modellen, waaronder Gemini 3-Pro, in zowel temporele lokalisatie als semantische nauwkeurigheid in meerdere velden.

Agents Exploreren maar Agents Negeren: LLM's Missen Nieuwsgierigheid naar de Omgeving
Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity

Apr 19

ByLeon Engländer, Sophia Althammer, Ahmet Üstün, Matthias Gallé, Tom Sherborne

Er wordt aangenomen dat op LLM gebaseerde agents omgevingswaarnemingen integreren in hun redenering: de ontdekking van zeer relevante maar onverwachte informatie zou van nature moeten leiden tot een model dat zijn eigen ontdekkingen benut. Wij tonen aan dat deze aanname onjuist is voor huidige LLM-agents, die moeite hebben om te reflecteren op of te reageren op onverwachte informatie. In drie benchmarks (Terminal-Bench, SWE-Bench, AppWorld) injecteren we complete taakoplossingen in de agentomgevingen om een model opzettelijk bloot te stellen aan de oplossing van een taak. Hoewel agents deze oplossingen in Terminal-Bench in 79-81% van de runs ontdekken, interageren ze ermee of benutten ze deze in slechts 37-50% van de gevallen. Deze kloof is het grootst in AppWorld: agents zien in meer dan 90% van de pogingen documentatie die stelt dat een commando "de complete oplossing voor deze taak retourneert", maar benutten dit in minder dan 7% van de trials. Wij tonen aan dat agents ontbreekt wat wij *environmental curiosity* (omgevingsnieuwsgierigheid) noemen: het vermogen om onverwachte maar relevante waarnemingen te herkennen en te onderzoeken als reactie op omgevingsprikkels. Wij identificeren drie hoofd factoren die de omgevingsnieuwsgierigheid beïnvloeden: de beschikbare tools in de agent-scaffold, de rekencapaciteit tijdens het testen (*test-time compute*), en de verdeling van de trainingsdata. Onze bevindingen tonen aan dat configuraties die de nieuwsgierigheid maximaliseren, ook de beste prestaties behalen op de ongemodificeerde benchmarks. Toch negeren zelfs gezamenlijk geoptimaliseerde agents in de meerderheid van de trials de ontdekte oplossingen: huidige agents gebruiken de omgeving om verwachte informatie op te halen, maar niet om hun strategie bij te stellen of nuttige prikkels maximaal te benutten.

Meta-leren In-Context Maakt Trainingsvrije Hersendecodering tussen Proefpersonen Mogelijk
Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding

Apr 9

ByMu Nan, Muquan Yu, Weijian Mai, Jacob S. Prince, Hossein Adeli, Rui Zhang, Jiahang Cao, Benjamin Becker, John A. Pyles, Margaret M. Henderson, Chunfeng Song, Nikolaus Kriegeskorte, Michael J. Tarr, Xiaoqing Hu, Andrew F. Luo

Visuele decodering op basis van hersensignalen is een centrale uitdaging op het snijvlak van computer vision en neurowetenschappen, waarbij methoden nodig zijn die neurale representaties en computationele modellen van visie met elkaar verbinden. Een veldbrede doelstelling is het bereiken van generaliseerbare, cross-subject modellen. Een grote hindernis hierbij is de aanzienlijke variabiliteit in neurale representaties tussen individuen, wat tot dusver vereiste dat er op maat gemaakte modellen werden getraind of aparte fine-tuning voor elk subject werd uitgevoerd. Om deze uitdaging aan te pakken, introduceren we een meta-geoptimaliseerde aanpak voor semantische visuele decodering van fMRI die generaliseert naar nieuwe subjecten zonder enige fine-tuning. Door simpelweg te conditioneren op een kleine set voorbeelden van beeld-brein activatie van het nieuwe individu, leidt ons model snel diens unieke neurale encoderingspatronen af om robuuste en efficiënte visuele decodering te vergemakkelijken. Onze aanpak is expliciet geoptimaliseerd voor in-context leren van het encoderingsmodel van de nieuwe proefpersoon en voert decodering uit door middel van hiërarchische inferentie, door de encoder om te keren. Eerst schatten we voor meerdere hersengebieden de visuele respons-encoderparameters per voxel door een context te construeren over meerdere stimuli en responsen. Vervolgens construeren we een context bestaande uit encoderparameters en responswaarden over meerdere voxels om geaggregeerde functionele inversie uit te voeren. We demonstreren sterke cross-subject en cross-scanner generalisatie over diverse visuele backbones heen, zonder hertraining of fine-tuning. Bovendien vereist onze aanpak noch anatomische alignering noch stimulusoverlap. Dit werk is een cruciale stap in de richting van een generaliseerbaar foundation model voor niet-invasieve breindecodering.

Training van LLM-agenten voor spontane, beloningsvrije zelf-evolutie via wereldkennisexploratie
Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration

Apr 20

ByQifan Zhang, Dongyang Ma, Tianqing Fang, Jia Li, Jing Tang, Nuo Chen, Haitao Mi, Yan Wang

De meeste hedendaagse agenten "evolueren zelf" door beloningen en regels te volgen die door mensen zijn gedefinieerd. Dit proces blijft echter fundamenteel afhankelijk van externe supervisie; zonder menselijke begeleiding stopt de evolutie. In dit werk trainen we agenten om een intrinsieke meta-evolutiecapaciteit te bezitten, waarmee ze spontaan kunnen leren over onbekende omgevingen vóór de taakuitvoering. Om deze vaardigheid aan te leren, ontwerpen we een op resultaten gebaseerd beloningsmechanisme dat meet in hoeverre de door een agent gegenereerde wereldkennis zijn slagingspercentage bij downstreamtaken verbetert. Dit beloningssignaal wordt uitsluitend tijdens de trainingsfase gebruikt om het model effectief te leren exploreren en samenvatten. Tijdens de inferentiefase heeft de agent geen externe beloningen of menselijke instructies nodig. Hij voert spontaan een *natieve zelfevolutie* uit om zich aan onbekende omgevingen aan te passen met behulp van zijn interne parameters. Wanneer toegepast op Qwen3-30B en Seed-OSS-36B, leidt deze verschuiving naar *natieve evolutie* tot een prestatieverbetering van 20% op WebVoyager en WebWalker. Het meest opvallende is dat de gegenereerde wereldkennis zelfs een compact Qwen3-14B-model in staat stelt de onondersteunde Gemini-2.5-Flash te overtreffen, wat een nieuw paradigma vestigt voor werkelijk evoluerende agenten.

Strategie: Leer overdraagbare redeneervaardigheden via traject-gemoduleerd spel-zelfspel
Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

Apr 20

ByXiachong Feng, Deyi Yin, Xiaocheng Feng, Yi Jiang, Libo Qin, Yangfan Ye, Lei Huang, Weitao Ma, Qiming Li, Yuxuan Gu, Bing Qin, Lingpeng Kong

Games bieden een overtuigend paradigma voor het ontwikkelen van algemene redeneervaardigheden in taalmodellen, omdat ze van nature strategische planning, probabilistische inferentie en adaptieve besluitvorming vereisen. Bestaande zelf-speelbenaderingen vertrouwen echter uitsluitend op einduitkomsten van het spel, en bieden geen mechanisme om overdraagbare redeneerpatronen te onderscheiden van gamespecifieke heuristieken. Wij presenteren STRATAGEM, dat twee fundamentele barrières voor redeneertransfer aanpakt: domeinspecificiteit, waarbij geleerde patronen verankerd blijven in de semantiek van het spel, en contextuele stasis, waarbij statische spelcontexten geen progressief redeneren bevorderen. STRATAGEM versterkt selectief trajecten die abstract, domein-onafhankelijk redeneren vertonen via een Redeneeroverdraagbaarheidscoëfficiënt, terwijl het adaptieve redeneerontwikkeling stimuleert via een Redeneerevolutiebeloning. Experimenten op benchmarks voor wiskundig redeneren, algemeen redeneren en codegeneratie tonen substantiële verbeteringen aan, met bijzonder sterke vooruitgang op competitieniveau wiskunde waar meerstapsredeneren cruciaal is. Ablatiestudies en humane evaluatie bevestigen dat beide componenten bijdragen aan overdraagbaar redeneren.

Vermenigvuldiging in Multimodale LLM's: Berekening met Tekst-, Beeld- en Audiovoeringen
Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

Apr 20

BySamuel G. Balter, Ethan Jerzak, Connor T. Jerzak

Multimodale LLM's kunnen numerieke inhoud nauwkeurig waarnemen across modaliteiten, maar slagen er niet in exacte vermenigvuldiging van meerdere cijfers uit te voeren wanneer het identieke onderliggende rekenkundige probleem wordt gepresenteerd als cijfers, getalwoorden, afbeeldingen of in audiovorm. Omdat bestaande benchmarks vaak systematisch gekoppelde instanties across modaliteiten missen, blijft het moeilijk om echte rekenkundige beperkingen binnen en tussen modelfamilies te vergelijken. Daarom introduceren we een gecontroleerde multimodale vermenigvuldigingsbenchmark die factorieel varieert in cijferlengte, cijfersparsheid, representatie (bijv. cijfers versus getalwoorden) en modaliteit (tekst, gerenderde afbeeldingen, audio), met gekoppelde instanties van een reproduceerbare generator. We definiëren ook rekenkundige belasting, C, als het product van het totale en niet-nul cijferaantal als een compacte, mechanistisch gemotiveerde proxy voor het aantal bewerkingen. In evaluaties daalt de nauwkeurigheid sterk naarmate C groeit, vaak tot bijna nul bij C > 100. Inderdaad blijft C voorspellend voor de prestaties across modaliteiten en modellen, met R-kwadraat vaak > 0,5, in de buurt van de waarde van complexere maten van rekenkundige belasting die het aantal tussenliggende rekenkundige stappen tellen. Een aparte decompositie van waarneming versus berekening toont aan dat multimodale degradatie primair computationeel is in plaats van perceptueel: bij gematchte waarnemingscontroles zijn modellen bijna perfect (> 99%) across modaliteiten, zelfs wanneer de vermenigvuldigingsnauwkeurigheid daalt. Naast het meten van wanneer modellen falen, vragen we welke procedures zij geneigd zijn te volgen. We introduceren een geforceerde-voltooiingsverliesprobe die heuristiek-specifieke redeneerprefixen scoort—inclusief kolomsgewijze vermenigvuldiging, distributieve decompositie en afronding/compensatie. Hier wordt decompositie begunstigd in zowel tekst- als visiemodaliteiten; heuristiek-specifieke LoRA-adapters produceren bijna orthogonale updates maar verslechteren de nauwkeurigheid, wat aangeeft dat het basismodel een goed afgestelde interne router behoudt.

Opnieuw een Pijn in de Nek: Een Semantisch Redeneerbenchmark voor Taalmodellen
Revisiting a Pain in the Neck: A Semantic Reasoning Benchmark for Language Models

Apr 17

ByYang Liu, Hongming Li, Melissa Xiaohui Qin, Qiankun Liu, Chao Huang

Wij presenteren SemanticQA, een evaluatiesuite ontworpen om taalmodellen (TM's) te beoordelen in taken voor semantische zinsverwerking. De benchmark consolideert bestaande bronnen voor multiwoordexpressies (MWEs) en reorganiseert deze tot een uniforme testomgeving. Het omvat zowel algemene lexicale fenomenen, zoals lexicale collocaties, als drie fijnmazige categorieën: idiomatische uitdrukkingen, nominale samenstellingen en verbale constructies. Via SemanticQA evalueren we TM's met uiteenlopende architecturen en schalen in extractie-, classificatie- en interpretatietaken, evenals sequentiële taakcomposities. Wij constateren aanzienlijke prestatievariatie, met name bij taken die semantisch redeneren vereisen, wat verschillen in redeneereffectiviteit en semantisch begrip van TM's benadrukt. Dit biedt inzichten voor het ontwikkelen van TM's met sterker begrip van niet-triviale semantische zinsdelen. De evaluatie-omgeving en data van SemanticQA zijn beschikbaar op https://github.com/jacklanda/SemanticQA.

Precisie Debugging Benchmark: Debugt of Regeneert Uw Model?
Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

Apr 19

ByWang Bill Zhu, Miaosen Chai, Shangshang Wang, Yejia Liu, Song Bian, Honghua Dong, Willie Neiswanger, Robin Jia

In tegenstelling tot code-completie vereist debugging het lokaliseren van fouten en het toepassen van gerichte aanpassingen. Wij observeren dat geavanceerde LLM's vaak correcte maar overmatig bewerkte oplossingen regenereren tijdens het debuggen. Om te evalueren hoe ver LLM's verwijderd zijn van precieze debugging, introduceren we het *Precise Debugging Benchmark* (PDB)-raamwerk, dat automatisch elke codeerdataset omzet in een debugbenchmark met precisiebewuste evaluatie. PDB genereert programma's met bugs door geverifieerde atomare bugs te synthetiseren en deze samen te stellen tot programma's met meerdere bugs. We definiëren twee nieuwe metrieken: *edit-level precision* (precisie op bewerkingsniveau) en *bug-level recall* (terugvindbaarheid op bugniveau), die meten hoeveel noodzakelijke bewerkingen worden gemaakt en hoeveel bugs worden opgelost. We brengen twee evaluatiebenchmarks uit: PDB-Single-Hard voor bugs in één regel, en PDB-Multi voor bugs over meerdere regels. Experimenten tonen aan dat geavanceerde modellen, zoals GPT-5.1-Codex en DeepSeek-V3.2-Thinking, slaagpercentages voor unittests behalen boven de 76%, maar een precisie vertonen van minder dan 45%, zelfs wanneer expliciet geïnstrueerd om minimaal te debuggen. Ten slotte tonen we aan dat iteratieve en agent-gebaseerde debugstrategieën de precisie of terugvindbaarheid niet substantieel verbeteren, wat de noodzaak benadrukt om de pipelines na de training voor coderingsmodellen te herzien.

Voorbij tekstdominantie: Inzicht in de modaliteitsvoorkeur van omnimodale grote taalmodellen
Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models

Apr 18

ByXinru Yan, Boxi Cao, Yaojie Lu, Hongyu Lin, Weixiang Zhou, Le Sun, Xianpei Han

Inheemse Omni-modale Grote Taalmodellen (OLLMs) zijn verschoven van pijplijnarchitecturen naar verenigde representatieruimten. Deze inheemse integratie leidt echter tot een kritiek maar onderbelicht fenomeen: modale voorkeur. Om deze kloof te overbruggen, kwantificeren we eerst systematisch de modale voorkeur van OLLMs met behulp van een nieuw samengestelde, op conflicten gebaseerde benchmark en de metriek van modale selectiefrequentie. Onze evaluatie van tien representatieve OLLMs onthult een opmerkelijke paradigmaverschuiving: in tegenstelling tot de "tekstdominantie" van traditionele VLMs vertonen de meeste OLLMs een uitgesproken visuele voorkeur. Om het onderliggende mechanisme verder te begrijpen, voeren we laaggewijs onderzoek uit en tonen we aan dat deze modale voorkeur niet statisch is, maar progressief ontstaat in de midden tot late lagen. Op basis van deze inzichten benutten we deze interne signalen om cross-modale hallucinaties te diagnosticeren, waarbij we competitieve prestaties behalen op drie downstream multimodale benchmarks zonder taakspecifieke data. Ons werk biedt zowel een mechanistisch inzicht als een praktisch hulpmiddel voor het bouwen van betrouwbaardere OLLMs. Onze code en gerelateerde bronnen zijn openbaar beschikbaar op: https://github.com/icip-cas/OmniPreference.

MedConclusion: Een Benchmark voor het Genereren van Biomedische Conclusies uit Gestructureerde Samenvattingen
MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

Apr 7

ByWeiyue Li, Ruizhi Qian, Yi Li, Yongce Li, Yunfan Long, Jiahui Cai, Yan Luo, Mengyu Wang

Grote taalmodellen (LLM's) worden uitgebreid onderzocht voor onderzoekstaken die intensief redeneren vereisen, maar hulpbronnen om te testen of ze wetenschappelijke conclusies kunnen afleiden uit gestructureerd biomedisch bewijsmateriaal blijven beperkt. Wij introduceren MedConclusion, een grootschalige dataset met 5,7 miljoen gestructureerde samenvattingen van PubMed voor het genereren van biomedische conclusies. Elk voorbeeld koppelt de niet-conclusie secties van een samenvatting aan de oorspronkelijke, door de auteur geschreven conclusie, wat natuurlijk voorkomende supervisie biedt voor redeneren van bewijs naar conclusie. MedConclusion omvat ook metadata op tijdschriftniveau, zoals biomedische categorie en SJR, wat subgroepanalyses over biomedische domeinen heen mogelijk maakt. Als eerste studie evalueren we diverse LLM's onder instellingen voor het aanzetten tot conclusie- en samenvattingsvorming en scoren we de output met zowel referentiegebaseerde metrieken als LLM-als-rechter. Wij constateren dat het schrijven van conclusies zich gedragsmatig onderscheidt van het schrijven van samenvattingen, dat sterke modellen onder de huidige automatische metrieken nauw gegroepeerd blijven, en dat de identiteit van de rechter absolute scores aanzienlijk kan beïnvloeden. MedConclusion biedt een herbruikbare dataresource voor het bestuderen van wetenschappelijk redeneren van bewijs naar conclusie. Onze code en data zijn beschikbaar op: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

River-LLM: Naadloze Afsluiting van Groot Taalmodel Gebaseerd op KV-Deling
River-LLM: Large Language Model Seamless Exit Based on KV Share

Apr 20

ByYingtao Shen, An Zou

Grote Taalmodellen (LLM's) hebben uitzonderlijke prestaties getoond in diverse domeinen, maar worden steeds meer beperkt door hoge inferentielatentie. Vroegtijdig Afsluiten (Early Exit) is naar voren gekomen als een veelbelovende oplossing om inferentie te versnellen door dynamisch redundante lagen over te slaan. In decoder-only architecturen wordt de efficiëntie van Vroegtijdig Afsluiten echter ernstig beperkt door het KV-cache-afwezigheidsprobleem, waarbij overgeslagen lagen de benodigde historische staten voor volgende tokens niet kunnen leveren. Bestaande oplossingen, zoals herberekening of masking, introduceren ofwel aanzienlijke latentie-overhead of lijden onder ernstig precisieverlies, waardoor de kloof tussen theoretische laagreductie en praktische snelheidswinst niet wordt overbrugd. In dit artikel stellen we River-LLM voor, een trainingsvrij raamwerk dat naadloos Vroegtijdig Afsluiten op tokenniveau mogelijk maakt. River-LLM introduceert een lichtgewicht KV-gedeelde 'Exit River' die ervoor zorgt dat de ontbrekende KV-cache van de backbone tijdens het afsluitproces natuurlijk wordt gegenereerd en behouden, waardoor dure hersteloperaties overbodig worden. Verder gebruiken we de gelijkenis van staatsovergangen binnen decoderblokken om cumulatieve KV-fouten te voorspellen en precieze afsluitbeslissingen te sturen. Uitgebreide experimenten met wiskundig redeneren en codegeneratietaken tonen aan dat River-LLM een praktische snelheidswinst van 1,71 tot 2,16 keer bereikt, waarbij de hoge generatiekwaliteit behouden blijft.

Geometrische coherentie van CRISPR-perturbaties in enkele cellen onthult regulatoire architectuur en voorspelt cellulaire stress
Geometric coherence of single-cell CRISPR perturbations reveals regulatory architecture and predicts cellular stress

Apr 17

ByPrashant C. Raju

Genoomtechnologie heeft een opmerkelijke precisie op sequentieniveau bereikt, maar het voorspellen van de transcriptomische toestand die een cel zal innemen na een perturbatie blijft een onopgelost probleem. Enkelcel-CRISPR-screens meten hoe ver cellen zich verwijderen van hun onverstoorde toestand, maar deze effectgrootte negeert een fundamentele vraag: bewegen de cellen gezamenlijk? Twee perturbaties met identieke grootte kunnen kwalitatief verschillende uitkomsten opleveren als de ene cellen coherent langs een gedeeld traject drijft, terwijl de andere ze verspreidt over de expressieruimte. Wij introduceren een geometrische stabiliteitsmetriek, Shesha, die de directionele coherentie van enkelcelperturbatieresponses kwantificeert als de gemiddelde cosinusgelijkenis tussen individuele celverschuivingsvectoren en de gemiddelde perturbatierichting. Over vijf CRISPR-datasets (meer dan 2.200 perturbaties, waaronder CRISPRa, CRISPRi en gepoolde screens) correleert stabiliteit sterk met effectgrootte (Spearman ρ=0.75-0.97), met een gekalibreerde kruis-datasetcorrelatie van 0.97. Cruciaal is dat tegenstrijdige gevallen waarin de twee metrieken ontkoppelen, de regulatoire architectuur blootleggen: pleiotrope hoofdregulatoren zoals CEBPA en GATA1 betalen een "geometrische belasting" en produceren grote maar incoherente verschuivingen, terwijl lijnspecifieke factoren zoals KLF1 strak gecoördineerde responses opleveren. Na correctie voor grootte is geometrische instabiliteit onafhankelijk geassocieerd met verhoogde chaperonne-activatie (HSPA5/BiP; ρ_{partieel}=-0.34 en -0.21 over datasets), en de kwadrant met hoge stabiliteit/hoge stress is systematisch verarmd. De magnitude-stabiliteit-relatie blijft bestaan in scGPT foundation model-embeddingen, wat bevestigt dat het een eigenschap is van de biologische toestandsruimte en niet van lineaire projectie. Perturbatiestabiliteit biedt een complementaire as voor hit-prioritering in screens, fenotypische kwaliteitscontrole in celproductie en evaluatie van in silico perturbatievoorspellingen.

EvoMaster: Een Fundamenteel Agentraamwerk voor het Bouwen van Evoluerende Autonome Wetenschappelijke Agents op Schaal
EvoMaster: A Foundational Agent Framework for Building Evolving Autonomous Scientific Agents at Scale

Apr 19

ByXinyu Zhu, Yuzhu Cai, Zexi Liu, Cheng Wang, Fengyang Li, Wenkai Jin, Wanxu Liu, Zehao Bing, Bingyang Zheng, Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xianghe Pang, Yaxin Du, Tingjia Miao, Yuzhi Zhang, Ruoxue Liao, Zhaohan Ding, Linfeng Zhang, Yanfeng Wang, Weinan E, Siheng Chen

De convergentie van grote taalmodel(len) en agenten katalyseert een nieuw tijdperk van wetenschappelijke ontdekking: Agent-gebaseerde Wetenschap. Hoewel de wetenschappelijke methode inherent iteratief is, zijn bestaande agentframeworks overwegend statisch, smal van opzet en missen ze het vermogen om te leren van trial-and-error. Om deze kloof te overbruggen, presenteren we EvoMaster, een fundamenteel evoluerend agentframework dat specifiek is ontwikkeld voor Grootschalige Agent-gebaseerde Wetenschap. Gedreven door het kernprincipe van continue zelfevolutie stelt EvoMaster agenten in staat om hypothesen iteratief te verfijnen, zelfkritiek toe te passen en kennis progressief op te bouwen over experimentele cycli heen, waardoor het menselijke wetenschappelijke onderzoek nauwkeurig wordt nagebootst. Cruciaal is dat EvoMaster, als domein-agnostisch basisraamwerk, uitzonderlijk eenvoudig op te schalen is – waardoor ontwikkelaars in staat worden gesteld om zeer capabele, zelf-evoluerende wetenschappelijke agenten voor willekeurige disciplines te bouwen en implementeren in ongeveer 100 regels code. Gebaseerd op EvoMaster hebben we het SciMaster-ecosysteem geïncubeerd binnen domeinen zoals machine learning, natuurkunde en algemene wetenschap. Evaluaties op vier gezaghebbende benchmarks (Humanity's Last Exam, MLE-Bench Lite, BrowseComp en FrontierScience) tonen aan dat EvoMaster state-of-the-art scores behaalt van respectievelijk 41,1%, 75,8%, 73,3% en 53,3%. Het presteert alomvattend beter dan de algemene baseline OpenClaw met relatieve verbeteringen variërend van +159% tot +316%, wat de effectiviteit en algemeenheid robuust valideert als het toonaangevende fundamentele framework voor de volgende generatie van autonome wetenschappelijke ontdekking. EvoMaster is beschikbaar op https://github.com/sjtu-sai-agents/EvoMaster.

MARCO: Navigeren door de onzichtbare ruimte van semantische correspondentie
MARCO: Navigating the Unseen Space of Semantic Correspondence

Apr 20

ByClaudia Cuttano, Gabriele Trivigno, Carlo Masone, Stefan Roth

Recente vooruitgang in semantische correspondentie berust op dual-encoder-architecturen die DINOv2 combineren met diffusie-backbones. Hoewel accuraat, generaliseren deze modellen met miljarden parameters slecht voorbij getrainde keypoints, wat een kloof onthult tussen benchmarkprestaties en bruikbaarheid in de praktijk, waar opgevraagde punten zelden overeenkomen met die tijdens de training. Voortbouwend op DINOv2 introduceren we MARCO, een unified model voor generaliseerbare correspondentie, aangedreven door een nieuw trainingsraamwerk dat zowel fijne lokalisatie als semantische generalisatie verbetert. Door een coarse-to-fine-doelstelling die ruimtelijke precisie verfijnt te koppelen aan een zelfdistillatieraamwerk dat sparse supervisie uitbreidt voorbij geannoteerde regio's, transformeert onze aanpak een handvol keypoints naar dichte, semantisch coherente correspondenties. MARCO vestigt een nieuwe state-of-the-art op SPair-71k, AP-10K en PF-PASCAL, met verbeteringen die versterken bij fijne lokalisatiedrempels (+8,9 PCK@0.01), de sterkste generalisatie naar ongeziene keypoints (+5,1, SPair-U) en categorieën (+4,7, MP-100), terwijl het 3x kleiner en 10x sneller blijft dan diffusiegebaseerde benaderingen. Code is beschikbaar op https://github.com/visinf/MARCO.

Latente Voorkeurenmodellering voor Gepersonaliseerde Toolaanroeping over Sessies Heen
Latent Preference Modeling for Cross-Session Personalized Tool Calling

Apr 20

ByYejin Yoon, Minseo Kim, Taeuk Kim

Gebruikers laten vaak essentiële details weg in hun verzoeken aan LLM-gestuurde agents, wat leidt tot onvolledig gespecificeerde invoer voor toolgebruik. Dit vormt een fundamentele uitdaging voor tool-augmented agents, aangezien API-uitvoering doorgaans volledige argumenten vereist, wat de noodzaak van gepersonaliseerde toolaanroeping benadrukt. Om dit probleem te bestuderen, introduceren we MPT, een benchmark bestaande uit 265 multi-sessie dialogen die drie uitdagingen omvatten: Preference Recall, Preference Induction en Preference Transfer. We presenteren ook PRefine, een test-time geheugen-augmented methode die gebruikersvoorkeuren representeert als evoluerende hypotheses. Door middel van een generate-verify-refine lus extraheert het herbruikbare beperkingen uit de geschiedenis en verbetert het de nauwkeurigheid van toolaanroepingen, terwijl het slechts 1,24% van de tokens gebruikt die nodig zijn bij full-history prompting. Deze resultaten tonen aan dat robuuste personalisatie in agent-systemen afhangt van geheugen dat de redenen achter gebruikerskeuzes vastlegt, niet alleen de keuzes zelf.

Modellering van Meerdere Ondersteuningsstrategieën binnen een Enkele Beurt voor Emotionele Ondersteuningsgesprekken
Modeling Multiple Support Strategies within a Single Turn for Emotional Support Conversations

Apr 20

ByJie Zhu, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Jinsong Su, Chi Zhang, Fang Kong

Emotionele Ondersteuningsconversaties (ESC) hebben als doel personen in nood bij te staan door het genereren van empathische en ondersteunende dialoog. Waar eerder onderzoek doorgaans uitgaat van één ondersteuningsstrategie per gesprekspartnerbeurt, combineert ondersteunende communicatie in de praktijk vaak meerdere strategieën binnen één uiting. In dit artikel herdefiniëren we de ESC-taak als multi-strategie-uitingsgeneratie, waarbij elke uiting één of meer strategie-responsparen kan bevatten. We stellen twee generatiemethoden voor: All-in-One, waarbij alle strategie-responsparen in één decodeerstap worden gegenereerd, en One-by-One, waarbij iteratief strategie-responsparen worden gegenereerd tot voltooiing. Beide methoden worden verder versterkt met cognitieve redenering, gestuurd door reinforcement learning, om strategiekeuze en responscompositie te verbeteren. We evalueren onze modellen op de ESConv-dataset in zowel uiting- als dialoogniveau. Experimentele resultaten tonen aan dat onze methoden multi-strategie-uitingen effectief modelleren en leiden tot verbeterde ondersteuningskwaliteit en dialoogsucces. Voor zover wij weten levert dit werk het eerste systematische empirische bewijs dat het toestaan van meerdere ondersteuningsstrategieën binnen één uiting zowel haalbaar als voordelig is voor emotionele ondersteuningsconversaties. Alle code en data zullen openbaar beschikbaar worden gesteld op https://github.com/aliyun/qwen-dianjin.

De Geometrische Kanarie: Het Voorspellen van Stuurbaarheid en Detecteren van Drift via Representatiestabiliteit
The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability

Apr 20

ByPrashant C. Raju

Betrouwbare inzet van taalmodelen vereist twee vaardigheden die ogenschijnlijk verschillend zijn maar een gemeenschappelijke geometrische basis delen: voorspellen of een model zich zal laten sturen via gerichte gedragscontrole, en detecteren wanneer de interne structuur degradeert. Wij tonen aan dat geometrische stabiliteit – de consistentie van de paarsgewijze afstandsstructuur van een representatie – beide adresseert. Gesuperviseerde Shesha-varianten die taak-uitgelijnde geometrische stabiliteit meten, voorspellen lineaire stuurbaarheid met een bijna perfecte nauwkeurigheid (ρ= 0.89-0.97) over 35-69 embeddingmodellen en drie NLP-taken, waarbij ze unieke variantie vastleggen die verder gaat dan klasse-scheidbaarheid (partiële ρ= 0.62-0.76). Er ontstaat een kritiek onderscheid: niet-gesuperviseerde stabiliteit faalt volledig voor het voorspellen van stuurbaarheid bij real-world taken (ρ≈ 0.10), wat aantoont dat taak-uitlijning essentieel is voor voorspelbaarheid van controleerbaarheid. Niet-gesuperviseerde stabiliteit blinkt echter uit in driftdetectie, meet tot bijna 2 keer meer geometrische verandering dan CKA tijdens post-training alignment (tot 5.23 keer in Llama), geeft in 73% van de modellen een eerder waarschuwing en handhaaft een 6 keer lager fout-positief percentage dan Procrustes. Samen vormen gesuperviseerde en niet-gesuperviseerde stabiliteit complementaire diagnostieken voor de LLM-inzetlevenscyclus: de ene voor beoordeling van controleerbaarheid vóór ingebruikname, de andere voor monitoring na ingebruikname.

Wanneer de Achtergrond van Belang Is: Het Kraken van Medische Visie-Taalmodellen met Overdraagbare Aanvallen
When Background Matters: Breaking Medical Vision Language Models by Transferable Attack

Apr 19

ByAkash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen

Vision-Language Models (VLMs) worden steeds vaker ingezet bij klinische diagnostiek, maar hun robuustheid tegen adversarial attacks blijft grotendeels ononderzocht, wat ernstige risico's met zich meebrengt. Bestaande medische aanvallen richten zich op secundaire doelstellingen zoals modeldiefstal of adversarial fine-tuning, terwijl overdraagbare aanvallen vanuit natuurlijke afbeeldingen zichtbare vervormingen introduceren die clinici eenvoudig kunnen detecteren. Om dit aan te pakken, stellen wij MedFocusLeak voor, een hoogst overdraagbare black-box multimodale aanval die incorrecte maar klinisch plausibele diagnoses veroorzaakt, terwijl de perturbaties onmerkbaar blijven. De methode injecteert gecoördineerde perturbaties in niet-diagnostische achtergrondgebieden en gebruikt een aandacht-afleidingsmechanisme om de focus van het model weg te leiden van pathologische gebieden. Uitgebreide evaluaties over zes medische beeldvormingsmodaliteiten tonen aan dat MedFocusLeak state-of-the-art prestaties bereikt en misleidende maar realistische diagnostische uitkomsten genereert voor diverse VLMs. Wij introduceren verder een uniform evaluatiekader met nieuwe metrieken die zowel de aanvalssucces als de beeldgetrouwheid gezamenlijk vastleggen, wat een kritieke zwakte in de redeneervaardigheden van moderne klinische VLMs aan het licht brengt.

MNAFT: modaliteitsneuronbewuste fine-tuning van multimodale grote taalmodellen voor beeldvertaling
MNAFT: modality neuron-aware fine-tuning of multimodal large language models for image translation

Apr 18

ByBo Li, Ningyuan Deng, Tianyu Dong, Shaobo Wang, Shaolin Zhu, Lijie Wen

Multimodale grote taalmodellen (MLLM's) tonen indrukwekkende capaciteiten, maar hebben vaak moeite om de fijne tekstuele informatie in afbeeldingen, die cruciaal is voor accurate beeldvertaling, effectief vast te leggen. Dit leidt vaak tot een modaliteitskloof tussen visuele tekstinvoer en tekstuele invoer/uitvoer voor beeldvertaling. Bestaande methoden, die voornamelijk steunen op instructie-fijnafstemming, riskeren parameterredundantie van vooraf getrainde kennis, wat de generalisatieprestatie belemmert. Om dit aan te pakken, introduceren we modality neuron-aware fine-tuning (MNAFT), een nieuwe aanpak die gebruikmaakt van de gespecialiseerde rollen van individuele neuronen binnen MLLM's voor verbeterde beeldvertaling. MNAFT identificeert taal-agnostische en taal-specifieke neuronen in zowel visuele als taalmodules door middel van een instructiegestuurde activatie-analyse, waarbij hun belang in verschillende vertaaltaken wordt geëvalueerd. Vervolgens voeren we selectieve fijnafstemming uit, waarbij alleen de parameters van taal-specifieke en taal-agnostische neuronen binnen de geselecteerde lagen die relevant zijn voor de doeltaak worden bijgewerkt, terwijl de kennis gecodeerd in andere neuronen en lagen behouden blijft. Onze uitgebreide experimenten op meerdere benchmarks tonen aan dat MNAFT aanzienlijk beter presteert dan state-of-the-art beeldvertaalmethoden, inclusief cascade-modellen, standaard volledige fijnafstemming en parameter-efficiënte afstemmingstechnieken. Verder bieden we een uitgebreide analyse, inclusief visualisaties van neuronactivaties en clusterpatronen, om inzicht te geven in de rollen van verschillende neuronengroepen bij het bemiddelen van cross-modale interpretatie en het faciliteren van accurate taal-specifieke vertaling.

Modellering van Schaarste en Uitbarstingen in Kwetsbaarheidsdetecties: Voorspelling onder Databeperkingen
Modeling Sparse and Bursty Vulnerability Sightings: Forecasting Under Data Constraints

Apr 17

ByCedric Bonhomme, Alexandre Dulaunoy

Het begrijpen en anticiperen van kwetsbaarheidsgerelateerde activiteit vormt een grote uitdaging binnen cyberdreigingsinformatie. Dit onderzoek gaat na of waarnemingen van kwetsbaarheden, zoals de publicatie van proof-of-concepts, detectietemplates of online discussies, in de tijd kunnen worden voorspeld. Voortbordurend op ons eerdere werk aan VLAI, een transformer-gebaseerd model dat de ernst van kwetsbaarheden uit tekstbeschrijvingen voorspelt, onderzoeken we of ernstscore kunnen bijdragen aan tijdreeksvoorspelling als exogene variabelen. We evalueren verschillende benaderingen voor kortetermijnvoorspelling van waarnemingen per kwetsbaarheid. Eerst testen we SARIMAX-modellen met en zonder log(x+1)-transformaties en VLAI-afgeleide ernstinvoeren. Hoewel deze aanpassingen beperkte verbeteringen bieden, blijft SARIMAX slecht geschikt voor schaarse, korte en bursty kwetsbaarheidsdata. In de praktijk produceren voorspellingen vaak te brede betrouwbaarheidsintervallen en soms onrealistische negatieve waarden. Om het discrete en gebeurtenisgestuurde karakter van waarnemingen beter te vatten, verkennen we vervolgens op tellingen gebaseerde methoden zoals Poisson-regressie. Vroege resultaten tonen aan dat deze modellen stabielere en interpreteerbaare voorspellingen produceren, vooral wanneer waarnemingen wekelijks worden geaggregeerd. We bespreken ook eenvoudigere operationele alternatieven, zoals exponentiële vervalfuncties voor korte voorspellingshorizons, om toekomstige activiteit in te schatten zonder lange historische reeksen. Al met al belicht deze studie zowel de potentie als de beperkingen van het voorspellen van zeldzame en bursty cybergebeurtenissen, en biedt het praktische richtlijnen voor het integreren van voorspellende analyses in kwetsbaarheidsinformatieworkflows.

MTR-DuplexBench: Op weg naar een uitgebreide evaluatie van multi-ronde gesprekken voor full-duplex spraaktaalmodellen
MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

Apr 17

ByHe Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu, Haoli Bai, Shaohua Ma, Irwin King

Full-Duplex Spraaktaalmodellen (FD-SLM's) maken realtime, overlappende gespreksinteracties mogelijk en bieden daarmee een dynamischere gebruikerservaring dan traditionele half-duplex modellen. Bestaande benchmarks richten zich echter voornamelijk op de evaluatie van enkelvoudige interacties, waarbij de complexiteit van meerronde communicatie wordt verwaarloosd. Het evalueren van FD-SLM's in meerronde settings brengt aanzienlijke uitdagingen met zich mee, zoals vervaagde beurtgrenzen in de communicatie en inconsistentie van context tijdens modelinferentie. Bovendien richten bestaande benchmarks zich vaak uitsluitend op het evalueren van gesprekskenmerken, waarbij andere cruciale aspecten buiten beschouwing worden gelaten. Om deze lacunes aan te pakken, introduceren wij MTR-DuplexBench, een nieuwe benchmark die is ontworpen voor een uitgebreide meerronde evaluatie van FD-SLM's. MTR-DuplexBench segmenteert niet alleen continue full-duplex dialogen in discrete beurten voor een beurt-voor-beurt-beoordeling, maar integreert ook diverse evaluatieaspecten, waaronder gesprekskenmerken, dialoogkwaliteit, instructieopvolging en veiligheid. Experimentele resultaten tonen aan dat huidige FD-SLM's moeite hebben om consistente prestaties te leveren over meerdere rondes en evaluatiedimensies, wat de noodzaak en effectiviteit van onze benchmark onderstreept. Code en data zijn beschikbaar op: https://github.com/ZhangHe0918/MTR-DuplexBench

Forge-UGC: FX-optimalisatie en register-grafiek engine voor universele grafiekcompiler
Forge-UGC: FX optimization and register-graph engine for universal graph compiler

Apr 14

BySatyam Kumar, Saurabh Jha

Wij presenteren Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), een compiler met vier fasen voor de implementatie van transformers op heterogene accelerator-hardware, gevalideerd op de Intel AI Boost NPU. Bestaande frameworks zoals OpenVINO en ONNX Runtime gebruiken vaak ondoorzichtige compilatiepijplijnen, beperkte zichtbaarheid op pass-niveau en zwakke bufferbeheer, wat kan leiden tot hogere compilatiekosten en runtime-overhead. Forge-UGC lost dit op met een hardware-agnostisch ontwerp dat grafiekcapture, optimalisatie, verlaging van de intermediate representation en backend-scheduling scheidt. Fase 1 captureert grafieken met torch.export op het ATen-operatorenniveau, waarbij moderne transformer-componenten zoals rotary position embeddings, grouped-query attention en SwiGLU worden ondersteund zonder handmatige decompositie. Fase 2 past zes optimalisatiepasses toe: eliminatie van dode code, eliminatie van gemeenschappelijke subexpressies, constant folding, attention-fusie, operatorfusie en layoutoptimalisatie, wat het aantal grafiekknopen met 14,2 tot 21,9% reduceert. Fase 3 verlaagt de geoptimaliseerde grafiek naar een getypeerde intermediate representation met expliciete virtuele registertoewijzingen. Fase 4 voert liveness-analyse uit, lineaire-scan-bufferallocatie (vermindert het piek-bufferaantal met 30 tot 48%) en device-affinity-scheduling (vermindert NPU-CPU-overgangen met 42 tot 65%). Over zes modelfamilies, variërend van 125M tot 8B parameters, geëvalueerd op WikiText-103 en GLUE, levert Forge-UGC 6,9 tot 9,2x snellere compilatie dan OpenVINO en ONNX Runtime, 18,2 tot 35,7% lagere inferentielatentie en 30,2 tot 40,9% lager energieverbruik per inferentie. De nauwkeurigheid blijft behouden, met maximale absolute logit-verschillen onder 2,1e-5 en KL-divergentie onder 8,4e-9. Wij introduceren ook de Fusion Gain Ratio, Compilation Efficiency Index en uitvoeringsprofilering per pass voor de systematische evaluatie van NPU-compilatiepijplijnen.

Betekenis en stabiliteitsanalyse van gen-omgevingsinteractie met RGxEStat
Significance and Stability Analysis of Gene-Environment Interaction using RGxEStat

Apr 3

ByMeng'en Qin, Zhe Li, Xiaohui Yang

Genotype-omgevingsinteracties (GxE) beïnvloeden de prestaties van genotypen in diverse omgevingen, wat de voorspelbaarheid van fenotypen in doelomgevingen vermindert. Een diepgaande analyse van GxE-interacties vergemakkelijkt de identificatie van hoe genetische voordelen of defecten tot expressie komen of worden onderdrukt onder specifieke omgevingscondities, waardoor genetische selectie mogelijk wordt en veredelingspraktijken worden verbeterd. Dit artikel introduceert twee belangrijke modellen voor GxE-interactieonderzoek. Concreet omvat dit significantieanalyse op basis van het mixed-effectmodel om te bepalen of genen of GxE-interacties significante invloed hebben op fenotypische eigenschappen; en stabiliteitsanalyse, die de interactierelaties tussen genen en omgevingen verder onderzoekt, evenals de relatieve superioriteit of inferioriteit van genotypen over verschillende omgevingen. Daarnaast presenteert dit artikel RGxEStat, een lichtgewicht interactieve tool die door de auteurs is ontwikkeld en de constructie, oplossing en visualisatie van de voornoemde modellen integreert. Ontworpen om de noodzaak voor veredelaars en agronomen om complexe SAS- of R-programmering te leren overbodig te maken, biedt RGxEStat een gebruiksvriendelijke interface voor gestroomlijnde analyse van veredelingsdata, wat de onderzoekscycli aanzienlijk versnelt. Code en datasets zijn beschikbaar op https://github.com/mason-ching/RGxEStat.

Terug naar de basis van herstel: Een minimaal ruisonderdrukkend netwerk voor anomaliedetectie in tijdreeksen
Back to Repair: A Minimal Denoising Network\ for Time Series Anomaly Detection

Apr 19

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

Wij introduceren JuRe (Just Repair), een minimaal ruisonderdrukkend netwerk voor anomaliedetectie in tijdreeksen dat een centrale bevinding blootlegt: architecturale complexiteit is onnodig wanneer het trainingsdoel het manifold-projectieprincipe correct implementeert. JuRe bestaat uit een enkel depthwise-separable convolutioneel residueel blok met een verborgen dimensie van 128, getraind om beschadigde tijdreeksvensters te repareren en tijdens inferentie gescoord door een vaste, parameter-vrije structurele discrepantiefunctie. Ondanks het ontbreken van aandachtmechanismen, latente variabelen en een adversarieel component, bekleedt JuRe de tweede plaats op de TSB-AD multivariate benchmark (AUC-PR 0.404, 180 reeksen, 17 datasets) en de tweede plaats op het UCR univariate archief volgens AUC-PR (0.198, 250 reeksen), waarmee het alle neurale baseline-methoden overtreft op AUC-PR en VUS-PR. Componentablatie op TSB-AD identificeert corruptie tijdens de training als de dominante factor (ΔAUC-PR = 0.047 bij verwijdering), wat bevestigt dat het ruisonderdrukkingsdoel, en niet de netwerkcapaciteit, de detectiekwaliteit drijft. Paarsgewijze Wilcoxon signed-rank tests tonen statistische significantie aan tegenover 21 van de 25 baseline-methoden op TSB-AD. Code is beschikbaar op de URL https://github.com/iis-esslingen/JuRe.

Terminal Wrench: Een dataset van 331 omgevingen vatbaar voor reward-hacking en 3.632 exploitatiepaden
Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories

Apr 19

ByIvan Bercovich, Ivgeni Segal, Kexun Zhang, Shashwat Saxena, Aditi Raghunathan, Ziqian Zhong

Wij brengen Terminal Wrench uit, een subset van 331 terminal-agent benchmark-omgevingen, gekopieerd uit populaire open benchmarks die aantoonbaar vatbaar zijn voor reward-hacking. De dataset omvat 3.632 hacktrajecten en 2.352 legitieme basislijntrajecten van drie frontier-modellen (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Elke invoer behoudt de oorspronkelijke taakdefinitie samen met complete aanvalstrajecten die tonen hoe de verifier werd omzeild. Ook zijn er gevallen opgenomen waarin de taak niet zoals bedoeld werd opgelost. De taken beslaan systeembeheer, machine learning, software-engineering en security-uitdagingen; de exploits variëren van simpele output-spoofing tot stack-frame-introspectie, patchen van standaardbibliotheken en rootkit-achtige binary-hijacking. Cruciaal is dat deze exploits specifiek zijn voor elke taak, en niet voor het evaluatieraamwerk, waardoor ze moeilijker te patchen zijn. Wij presenteren ook een monitorbaarheidsstudie waarin hacktrajecten worden gesaneerd of ontdaan van redeneersporen, en vervolgens beoordeeld door een LLM-rechter. Dit toont aan dat de detectie significant verslechtert wanneer de chain-of-thought wordt verwijderd (AUC daalt van 0.97 naar 0.92). De dataset is openbaar beschikbaar op https://github.com/few-sh/terminal-wrench.

De continuïteitslaag: waarom intelligentie een architectuur nodig heeft voor wat het meedraagt
The Continuity Layer: Why Intelligence Needs an Architecture for What It Carries Forward

Apr 19

BySamuel Sameer Tanguturi

Het belangrijkste architecturale probleem in AI is niet de grootte van het model, maar de afwezigheid van een laag die behoudt wat het model heeft begrepen. Sessies eindigen. Contextvensters raken vol. Geheugen-API's retourneren platte feiten die het model bij elke leesbeurt opnieuw moet interpreteren. Het resultaat is een intelligentie die krachtig is per sessie, maar amnestisch is over tijd. Dit position paper betoogt dat de laag die dit oplost, de continuïteitslaag, de meest consequente infrastructuur is die het vakgebied nog niet heeft gebouwd, en dat het technische werk om deze te bouwen in de openbaarheid is begonnen. Het formele evaluatiekader voor de hier beschreven eigenschap is de ATANT-benchmark (arXiv:2604.06710), apart gepubliceerd met evaluatieresultaten op een corpus van 250 verhalen; een begeleidend artikel (arXiv:2604.10981) positioneert dit kader naast bestaande benchmarks voor geheugen, lange context en agent-geheugen. Het artikel definieert continuïteit als een systeemeigenschap met zeven vereiste kenmerken, onderscheiden van geheugen en retrieval; beschrijft een opslagprimitief (Decomposed Trace Convergence Memory) waarvan de decompositie tijdens schrijven en reconstructie tijdens lezen deze eigenschap produceren; verbindt de technische architectuur met het theologische patroon van kenosis en het symbolische patroon van Alfa en Omega, en betoogt dat deze verbinding structureel is in plaats van metaforisch; stelt een ontwikkelingspad voor in vier lagen, van externe SDK naar hardware-node naar menselijke infrastructuur voor de lange termijn; onderzoekt waarom de natuurkundige limieten die de modellaag nu beperken de continuïteitslaag nieuw belang geven; en betoogt dat de besturingsarchitectuur (privacy geïmplementeerd als natuurkunde in plaats van beleid, door oprichters gecontroleerde aandelen met niet-onderhandelbare architecturale verplichtingen) onafscheidelijk is van het product zelf.

HSG: Hyperbolisch Scènegraf
HSG: Hyperbolic Scene Graph

Apr 19

ByLiyang Wang, Zeyu Zhang, Hao Tang

Scenegrafiekrepresentaties maken gestructureerd visueel begrip mogelijk door objecten en hun relaties te modelleren, en worden veelvuldig gebruikt voor multiview- en 3D-scèneredenering. Bestaande methoden zoals MSG leren scenegrafiek-embeddingen in de Euclidische ruimte met behulp van contrastief leren en op aandacht gebaseerde associatie. Echter, Euclidische meetkunde vangt hiërarchische implicatierelaties tussen plaatsen en objecten niet expliciet, wat de structurele consistentie van de geleerde representaties beperkt. Om dit aan te pakken, stellen wij Hyperbolische Scenegrafiek (HSG) voor, die scenegrafiek-embeddingen leert in de hyperbolische ruimte waar hiërarchische relaties van nature worden gecodeerd door geometrische afstand. Onze resultaten tonen aan dat HSG de kwaliteit van de hiërarchische structuur verbetert terwijl sterke retrievalscore behouden blijft. De grootste verbeteringen worden waargenomen in grafiekniveau-metrics: HSG behaalt een PP IoU van 33.17 en de hoogste Graph IoU van 33.51, wat de beste AoMSG-variant (25.37) met 8.14 overtreft, en benadrukt de effectiviteit van hyperbolische representatieleren voor scenegrafiekmodellering. Code: https://github.com/AIGeeksGroup/HSG.

Over de robuustheid van op LLM gebaseerde dense retrievers: een systematische analyse van generaliseerbaarheid en stabiliteit
On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

Apr 17

ByYongkang Li, Panagiotis Eustratiadis, Yixing Fan, Evangelos Kanoulas

Decoder-only large language models (LLM's) vervangen in toenemende mate BERT-achtige architecturen als ruggengraat voor dense retrieval, waarbij ze aanzienlijke prestatieverbeteringen en brede adoptie bereiken. De robuustheid van deze op LLM's gebaseerde retrievers blijft echter onderbelicht. In dit artikel presenteren we de eerste systematische studie naar de robuustheid van state-of-the-art open-source LLM-gebaseerde dense retrievers vanuit twee complementaire perspectieven: generaliseerbaarheid en stabiliteit. Voor generaliseerbaarheid evalueren we de retrieval-effectiviteit over vier benchmarks verspreid over 30 datasets, waarbij we lineaire mixed-effects modellen gebruiken om de marginale gemiddelde prestatie te schatten en intrinsieke modelcapaciteit te scheiden van datasetheterogeniteit. Onze analyse toont aan dat instruction-getunde modellen over het algemeen excelleren, maar dat modellen geoptimaliseerd voor complex redeneren vaak een 'specialisatiebelasting' ondervinden, wat zich uit in beperkte generaliseerbaarheid in bredere contexten. Voor stabiliteit beoordelen we de veerkracht van modellen tegen zowel onbedoelde queryvariaties (bijv. parafrasering, typefouten) als kwaadwillige adversariële aanvallen (bijv. corpusvergiftiging). We constateren dat LLM-gebaseerde retrievers een verbeterde robuustheid vertonen tegen typefouten en corpusvergiftiging in vergelijking met encoder-only baselinemodellen, maar kwetsbaar blijven voor semantische perturbaties zoals synoniemgebruik. Verdere analyse toont aan dat embeddeddingsgeometrie (bijv. hoekuniformiteit) voorspellende signalen biedt voor lexicale stabiliteit en suggereert dat het schalen van modelgrootte over het algemeen de robuustheid verbetert. Deze bevindingen zijn richtinggevend voor toekomstig robuustheidsbewust retriever-ontwerp en principiële benchmarking. Onze code is openbaar beschikbaar op https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

KWBench: Het meten van spontane probleemherkenning in kennismanagement
KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

Apr 17

ByAnkit Maloo

Wij introduceren de eerste versie van KWBench (Knowledge Work Bench), een benchmark voor ongevraagde probleemherkenning in grote taalmodellen: kan een LLM een professioneel scenario identificeren voordat het probeert het op te lossen? Bestaande toonaangevende benchmarks zijn verzadigd, en de meeste evaluaties van kenniswerk tot nu toe komen neer op extractie of taakvoltooiing tegen een specificatie. KWBench richt zich op de stap daarvoor: het herkennen van de onderliggende structuur van de situatie uitsluitend vanuit ruwe inputs. De benchmark bevat 223 taken, afkomstig van praktijkmensen uit onder meer acquisities, contractonderhandelingen, klinische farmacie, organisatiepolitiek, fraudeanalyse en prikkelontwerp. Elke taak codeert een formeel speltheoretisch patroon (principal-agent conflict, signalering, falen van mechanism design, strategische weglating, coalitionele dynamiek, strategische interdependentie) en bevat gestructureerde grondtruth die de expertinterpretatie van de situatie en de verwachte faalwijzen vastlegt. Modellen ontvangen ruwe data en een taakprompt zonder enige indicatie van het probleemtype. De beoordeling verloopt volgens een drielaags rubric, afgeschermd door een verplichte conjunctieve check. Verplichte criteria coderen de voorspelde verkeerde aanpakken. Wij evalueren 16 modellen. Het beste model slaagt voor 27,9% van de taken. De top twee modellen zijn het slechts over 31,7% van hun geslaagde taken eens. Binnen de top 8 worden 44 taken door precies één model opgelost; routering over de top 8 dekt 50,7% van de benchmark, bijna het dubbele van het beste individuele model. Voorwaardelijk op slagen, convergeren de kwaliteitsscores (ongeveer 83% over de modellen heen); onvoorwaardelijke scores doen dat niet. Dezelfde modellen articuleren het relevante speltheoretische concept correct wanneer ernaar gevraagd, maar slagen er niet in het ongevraagd toe te passen. Wij geven KWBench vrij om de wijze waarop toonaangevende modellen worden geëvalueerd op kenniswerk te verleggen: we beoordelen ze op basis van of ze het juiste probleem herkennen vanuit de situatie alleen, niet alleen op hoe goed ze presteren zodra het probleem voor hen is gekaderd.

Symbolische Beveiligingsbegrenzingen voor Domeinspecifieke Agents: Sterkere Veiligheids- en Beveiligingsgaranties zonder Inleveren op Functionaliteit
Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility

Apr 16

ByYining Hong, Yining She, Eunsuk Kang, Christopher S. Timperley, Christian Kästner

AI-agenten die via tools met hun omgeving interageren, maken krachtige toepassingen mogelijk, maar in zakelijke omgevingen met hoge inzet kunnen onbedoelde acties onaanvaardbare schade veroorzaken, zoals privacyschendingen en financiële verliezen. Bestaande beperkingsmaatregelen, zoals op training gebaseerde methoden en neurale guardrails, verbeteren de betrouwbaarheid van agenten, maar kunnen geen garanties bieden. Wij bestuderen symbolische guardrails als een praktische weg naar sterke veiligheids- en beveiligingsgaranties voor AI-agenten. Onze driedelige studie omvat een systematische review van 80 state-of-the-art benchmarks voor agentveiligheid en -beveiliging om de geëvalueerde beleidsregels te identificeren, een analyse van welke beleidsvereisten gegarandeerd kunnen worden door symbolische guardrails, en een evaluatie van hoe symbolische guardrails veiligheid, beveiliging en agentsucces beïnvloeden op τ²-Bench, CAR-bench en MedAgentBench. Wij constateren dat 85% van de benchmarks geen concrete beleidsregels bevatten en in plaats daarvan vertrouwen op ongespecificeerde hoogwaardige doelen of gezond verstand. Van de gespecificeerde beleidsregels kan 74% van de beleidsvereisten worden afgedwongen door symbolische guardrails, vaak met behulp van eenvoudige, kostenefficiënte mechanismen. Deze guardrails verbeteren veiligheid en beveiliging zonder de functionaliteit van de agent aan te tasten. Over het algemeen suggereren onze resultaten dat symbolische guardrails een praktische en effectieve manier zijn om bepaalde veiligheids- en beveiligingsvereisten te garanderen, vooral voor domeinspecifieke AI-agenten. Wij hebben alle codes en artefacten vrijgegeven op https://github.com/hyn0027/agent-symbolic-guardrails.

Het Beschermen van Taalmodellen tegen Ongeautoriseerde Destillatie via Trace Rewriting
Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

Apr 16

ByXinhang Ma, William Yeoh, Ning Zhang, Yevgeniy Vorobeychik

Kennisdistillatie is een veelgebruikte techniek om capaciteiten van grote taalmodellen (LLM's) over te dragen naar kleinere, efficiëntere studentmodellen. Het onbevoegd gebruik van kennisdistillatie maakt echter oneerlijk gebruik van de aanzienlijke inspanning en kosten die zijn gestoken in de ontwikkeling van geavanceerde modellen. Wij onderzoeken methoden om door de leraar gegenereerde redeneersporen aan te passen om twee doelstellingen te bereiken die onbevoede distillatie moeten afschrikken: (1) anti-distillatie, ofwel het verminderen van de trainingsbruikbaarheid van queryresponsen, en (2) API-watermerking, waarbij verifieerbare handtekeningen in studentmodellen worden ingebed. Wij introduceren verschillende benaderingen voor het dynamisch herschrijven van de redeneeruitvoer van een leraar, waarbij de antwoordnauwkeurigheid en semantische samenhang behouden blijven. Twee hiervan benutten de herschrijfcapaciteiten van LLM's, terwijl andere op gradienten gebaseerde technieken gebruiken. Onze experimenten tonen aan dat een eenvoudige, op instructies gebaseerde herschrijfaanpak een sterk anti-distillatie-effect bereikt, terwijl de prestaties van de leraar behouden blijven of zelfs verbeteren. Bovendien tonen we aan dat onze herschrijfaanpak ook het inbedden van watermerken mogelijk maakt, die betrouwbaar kunnen worden gedetecteerd met vrijwel geen valse alarmen. Onze code is beschikbaar op https://github.com/xhOwenMa/trace-rewriting.