HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

53 papers found

MinT: Beheerde infrastructuur voor het trainen en serveren van miljoenen LLM's
MinT: Managed Infrastructure for Training and Serving Millions of LLMs

May 13

ByMind Lab, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Nolan Ho, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Qiuyu Jin, Fancy Kong, Andrew Lei, Kyrie Lei, Alexy Li, Lucian Li, Ray Li, Theo Li, Zhihui Li, Jiayi Lin, Kairus Liu, Kieran Liu, Logan Liu, Xiang Liu, Irvine Lu, Maeve Luo, Runze Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Rio Yang, Maxwell Yao, Carrie Ye, Regis Ye, Wenlin Ye, Josh Ying, Danney Zeng, Yuhan Zhan, Anya Zhang, Di Zhang, Ruijia Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Changhai Zhou, Yuhua Zhou, Xinyue Zhu, Murphy Zhuang

143

We presenteren MindLab Toolkit (MinT), een beheerd infrastructuursysteem voor Low-Rank Adaptation (LoRA) nabewerking en online serveren. MinT richt zich op een situatie waarin veel getrainde beleidspolicies worden geproduceerd over een klein aantal dure basismodelimplementaties. In plaats van elk beleid te materialiseren als een samengevoegde volledige checkpoint, houdt MinT het basismodel resident en verplaatst geëxporteerde LoRA-adapterrevisies door uitrol, bijwerking, export, evaluatie, serveren en terugdraaien, waarbij gedistribueerde training, serveren, planning en gegevensverplaatsing worden verborgen achter een service-interface. MinT schaalt dit pad langs drie assen. Opschalen breidt LoRA RL uit naar geavanceerde dichte en MoE-architecturen, inclusief MLA- en DSA-aandachtspaden, met training en serveren gevalideerd voorbij 1T totale parameters. Aftschalen verplaatst alleen de geëxporteerde LoRA-adapter, die in rang-1-instellingen minder dan 1% van de basismodelgrootte kan bedragen; alleen-adapter-overdracht vermindert de gemeten stap met 18,3x op een 4B dicht model en 2,85x op een 30B MoE, terwijl gelijktijdige multi-policy GRPO de wandkloktijd verkort met 1,77x en 1,45x zonder piekgeheugen te verhogen. Uitschalen scheidt duurzame beleidsadresseerbaarheid van CPU/GPU-werkverzamelingen: een tensorparallelle implementatie ondersteunt adresseerbare catalogi op 10^6-schaal (gemeten enkele-engine doorgangen van 100K) en actieve golven van duizend adapters op clusterniveau, waarbij koude lading wordt behandeld als gepland servicewerk en ingepakte MoE LoRA-tensoren het live-engine laden verbeteren met 8,5-8,7x. MinT beheert zo miljoenschaal LoRA-beleidscatalogi terwijl het geselecteerde adapterrevisies traint en serveert over gedeelde basismodellen van de 1T-klasse.

MulTaBench: Benchmarken van multimodaal tabellair leren met tekst en afbeelding
MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image

May 11

ByAlan Arazi, Eilam Shapira, Shoham Grunblat, Mor Ventura, Elad Hoffer, Gioia Blayer, David Holzmüller, Lennart Purucker, Gaël Varoquaux, Frank Hutter, Roi Reichart

118

Tabulaire Fundatiemodellen hebben recentelijk de state-of-the-art gevestigd in gesuperviseerd tabulair leren, door gebruik te maken van pretraining om generaliseerbare representaties van numerieke en categorische gestructureerde data te leren. Ze hebben echter geen native ondersteuning voor ongestructureerde modaliteiten zoals tekst en beeld, en vertrouwen op bevroren, vooraf getrainde embeddings om deze te verwerken. Op gevestigde Multimodale Tabulaire Leerbenchmarks tonen we aan dat het afstemmen van de embeddings op de taak de prestaties verbetert. Bestaande benchmarks richten zich echter vaak op louter de co-occurrentie van modaliteiten; dit leidt tot hoge variantie tussen datasets en verbergt de voordelen van taakspecifieke afstemming. Om deze lacune aan te pakken, introduceren we MulTaBench, een benchmark van 40 datasets, gelijk verdeeld over beeld-tabulaire en tekst-tabulaire taken. We richten ons op voorspellingstaken waarbij de modaliteiten complementaire voorspellende signalen bieden, en waarbij generieke embeddings cruciale informatie verliezen, wat taakgerichte representaties vereist die zijn afgestemd op de taak. Onze experimentele resultaten tonen aan dat de winst van het afstemmen van taakgerichte representaties generaliseert over zowel tekst- als beeldmodaliteiten, meerdere tabulaire leermethoden, encoderschalen en embeddingdimensies. MulTaBench vormt de grootste beeld-tabulaire benchmarkinspanning tot nu toe, die belangrijke domeinen zoals gezondheidszorg en e-commerce bestrijkt. Het is ontworpen om onderzoek naar nieuwe architecturen mogelijk te maken die gezamenlijke modellering en taakgerichte representaties integreren, en zo de weg vrijmaken voor de ontwikkeling van nieuwe Multimodale Tabulaire Fundatiemodellen.

AnyFlow: Any-Step videodiffusiemodel met on-policy stroomkaartdestillatie
AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

May 13

ByYuchao Gu, Guian Fang, Yuxin Jiang, Weijia Mao, Song Han, Han Cai, Mike Zheng Shou

Video generatie met weinig stappen is aanzienlijk verbeterd door consistentie destillatie. Echter, de prestaties van consistentie-gedestilleerde modellen gaan vaak achteruit wanneer meer bemonsteringsstappen worden toegewezen tijdens het testen, wat hun effectiviteit voor elke-stap video diffusie beperkt. Deze beperking ontstaat omdat consistentie destillatie het oorspronkelijke waarschijnlijkheidsstroom ODE-traject vervangt door een consistentie-bemonsterings traject, waardoor het wenselijke testtijd schaalgedrag van ODE-bemonstering wordt verzwakt. Om deze beperking aan te pakken, introduceren we AnyFlow, het eerste elke-stap video diffusie destillatieraamwerk gebaseerd op stroomkaarten. In plaats van een model te destilleren voor slechts een paar vaste bemonsteringsstappen, optimaliseert AnyFlow het volledige ODE-bemonsteringstraject. Hiertoe verschuiven we het destillatiedoel van eindpunt consistentie mapping (z_{t}rightarrow z_{0}) naar stroomkaart overgangsleren (z_{t}rightarrow z_{r}) over willekeurige tijdsintervallen. We stellen verder Flow Map Backward Simulation voor, die een volledige Euler-rollout ontleedt in snelkoppeling stroomkaart-overgangen, waardoor efficiënte on-policy destillatie mogelijk wordt die testtijdfouten vermindert (d.w.z. discretisatiefout in bemonstering met weinig stappen en blootstellingsbias in causale generatie). Uitgebreide experimenten over zowel bidirectionele als causale architecturen, op schalen variërend van 1,3B tot 14B parameters, tonen aan dat AnyFlow prestaties behaalt die gelijk zijn aan of beter zijn dan consistentie-gebaseerde tegenhangers in het regime met weinig stappen, terwijl het schaalt met bemonsteringsstapbudgetten.

Lange-context visie-taalmodellen effectief trainen met generalisatie voorbij 128K context
Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context

May 13

ByZhaowei Wang, Lishu Luo, Haodong Duan, Weiwei Liu, Sijin Wu, Ji Luo, Shen Yan, Shuai Peng, Sihang Yuan, Chaoyi Huang, Yi Lin, Yangqiu Song

Lange-contextmodellering wordt een kerneigenschap van moderne grote visie-taalmodelen (LVLMs), en maakt aanhoudend contextbeheer mogelijk voor het begrijpen van lange documenten, videoanalyse en het gebruik van gereedschappen in meervoudige beurten binnen agentische workflows. Toch zijn praktische trainingsrecepten nog onvoldoende onderzocht, met name wat betreft het ontwerpen en balanceren van datamengsels voor lange contexten. In dit werk presenteren we een systematische studie naar voortgezette pre-training met lange contexten voor LVLMs, waarbij we een 7B-model uitbreiden van 32K naar 128K context met uitgebreide ablatie-experimenten op lange documentdata. We tonen eerst aan dat VQA op lange documenten aanzienlijk effectiever is dan OCR-transcriptie. Voortbouwend op deze waarneming levert onze ablatiestudie drie belangrijke bevindingen op: i) voor de verdeling van sequentielengtes presteren gebalanceerde data beter dan data gericht op een doellengte (bijv. 128K), wat erop wijst dat langecontextvaardigheid generaliseerbare sleutelinformatie-extractie over verschillende lengtes en posities vereist; ii) ophalen blijft de primaire bottleneck, wat pleit voor mengsels met veel ophaalwerk en bescheiden redeneerdata voor taakdiversiteit; en iii) pure VQA op lange documenten behoudt grotendeels kortcontextvaardigheden, wat suggereert dat instructie-geformatteerde lange data de noodzaak voor het mengen van korte data vermindert. Op basis van deze bevindingen introduceren we MMProLong, verkregen door voortgezette pre-training met lange contexten van Qwen2.5-VL-7B met een budget van slechts 5B tokens. MMProLong verbetert VQA-scores op lange documenten met 7,1% en handhaaft sterke prestaties op contexten van 256K en 512K, buiten het trainingsvenster van 128K, zonder extra training. Het generaliseert verder naar webgebaseerde multimodale naaldretrieval, compressie van lange visie-tekstcontexten en begrip van lange video's zonder taakspecifieke supervisie. Over het geheel genomen vestigt onze studie een praktisch LongPT-recept en een empirische basis voor het bevorderen van langecontextvisie-taalmodelen.

EVA-Bench: Een nieuw end-to-end raamwerk voor het evalueren van stemagenten
EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents

May 13

ByTara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose, Fanny Riols, Hoang H. Nguyen, Raghav Mehndiratta, Lindsay Devon Brin, Joseph Marinier, Hari Subramani, Anil Madamala, Sridhar Krishna Nemala, Srinivas Sunkara

Spraakagenten, kunstmatige-intelligentiesystemen die gesproken gesprekken voeren om taken uit te voeren, worden steeds vaker ingezet in bedrijfstoepassingen. Er bestaat echter geen bestaande benchmark die gelijktijdig twee kernuitdagingen voor evaluatie aanpakt: het genereren van realistische gesimuleerde gesprekken en het meten van kwaliteit over het volledige scala aan stem-specifieke faalvormen. Wij presenteren EVA-Bench, een end-to-end evaluatiekader dat beide aanpakt. Aan de simulatiekant orkestreert EVA-Bench bot-naar-bot audiogesprekken over dynamische meerstapsdialogen, met automatische simulatievalidatie die gebruikerssimulatiefouten detecteert en gesprekken op gepaste wijze opnieuw genereert voordat ze worden gescoord. Aan de meetkant introduceert EVA-Bench twee samengestelde metrieken: EVA-A (Nauwkeurigheid), die taakvoltooiing, getrouwheid en spraakgetrouwheid op audioniveau omvat; en EVA-X (Ervaring), die gespreksvoortgang, gesproken beknoptheid en beurtwisselingstiming omvat. Beide metrieken zijn van toepassing op verschillende agentarchitecturen, wat directe vergelijking tussen architecturen mogelijk maakt. EVA-Bench omvat 213 scenario's in drie bedrijfsdomeinen, een gecontroleerde verstoringssuite voor accent- en ruisrobustheid, en pass@1-, pass@k- en pass^k-metingen die piekprestaties onderscheiden van betrouwbare prestaties. Over 12 systemen die alle drie de architecturen omspannen, vinden we: (1) geen enkel systeem overschrijdt tegelijkertijd 0,5 op zowel EVA-A pass@1 als EVA-X pass@1; (2) piek- en betrouwbare prestaties wijken aanzienlijk af (mediaan verschil pass@k - pass^k van 0,44 op EVA-A); en (3) accent- en ruisverstoringen leggen aanzienlijke robuustheidskloven bloot, met effecten die variëren per architectuur, systeem en metriek (gemiddelde tot 0,314). Wij brengen het volledige kader, de evaluatiesuite en de benchmarkgegevens uit onder een opensourcelicentie.

Voorspellen van beslissingen van AI-agenten vanuit beperkte interactie via tekst-tabulaire modellering
Predicting Decisions of AI Agents from Limited Interaction through Text-Tabular Modeling

May 12

ByEilam Shapira, Moshe Tennenholtz, Roi Reichart

AI-agenten onderhandelen en transacteren in natuurlijke taal met onbekende tegenpartijen: een aankoopbot die een onbekende verkoper tegenkomt, of een inkoopassistent die onderhandelt met een leverancier. In dergelijke interacties zijn de LLM, prompts, controletaal en regelgebaseerde vangnetten van de tegenpartij verborgen, terwijl elke beslissing monetaire gevolgen kan hebben. Wij vragen of een agent de volgende beslissing van een onbekende tegenpartij kan voorspellen op basis van enkele interacties. Om verstorende effecten van real-world logging te vermijden, bestuderen we dit probleem in gecontroleerde onderhandelings- en biedingsspellen, waarbij we het formuleren als een doel-adaptieve tekst-tabulaire voorspelling: elk beslissingspunt is een tabelrij die de gestructureerde spelstatus, biedingsgeschiedenis en dialoog combineert, terwijl K eerdere spellen van dezelfde doelagent, d.w.z. de tegenpartij die wordt gemodelleerd, in de prompt worden meegeleverd als gelabelde aanpassingsvoorbeelden. Ons model is gebouwd op een tabulair fundamentmodel dat rijen representeert met behulp van spelstatuskenmerken en LLM-gebaseerde tekstrepresentaties, en voegt LLM-as-Observer toe als een extra representatie: een kleine bevroren LLM leest de beslissingsstatus en dialoog; het antwoord wordt genegeerd en de verborgen toestand wordt een beslissingsgericht kenmerk, waardoor de LLM een encoder wordt in plaats van een directe few-shot voorspeller. Getraind op 13 top-LLM-agenten en getest op 91 apart gehouden geschafelde agenten, presteert het volledige model beter dan directe LLM-as-Predictor prompts en basislijnen met spel+tekstkenmerken. Binnen dit tabulaire model dragen Observer-kenmerken bij naast de andere kenmerkschema's: bij K=16 verbeteren ze de AUC voor reactievoorspelling met ongeveer 4 punten voor beide taken en verminderen ze de voorspellingsfout voor biedingen met 14%. Deze resultaten tonen aan dat het formuleren van tegenpartijvoorspelling als een doel-adaptieve tekst-tabulaire taak effectieve aanpassing mogelijk maakt, en dat verborgen LLM-representaties beslissingsrelevante signalen blootleggen die directe prompting niet naar boven brengt.

Qwen-Image-VAE-2.0 Technisch Rapport
Qwen-Image-VAE-2.0 Technical Report

May 13

ByZekai Zhang, Deqing Li, Kuan Cao, Yujia Wu, Chenfei Wu, Yu Wu, Liang Peng, Hao Meng, Jiahao Li, Jie Zhang, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Shengming Yin, Tianhe Wu, Xiao Xu, Xiaoyue Chen, Yan Shu, Yanran Zhang, Yilei Chen, Yixian Xu, Yuxiang Chen, Zhendong Wang, Zihao Liu, Zikai Zhou, Yiliang Gu, Yi Wang, Xiaoxiao Xu, Lin Qu

Wij presenteren Qwen-Image-VAE-2.0, een suite van Variational Autoencoders (VAE's) met hoge compressie die aanzienlijke vooruitgang boeken in zowel reconstructiegetrouwheid als diffuseerbaarheid. Om de reconstructieknelpunten van hoge compressie aan te pakken, hanteren we een verbeterde architectuur met Global Skip Connections (GSC) en uitgebreide latente kanalen. Bovendien schalen we de training naar miljarden afbeeldingen en integreren we een synthetische rendering-engine om de prestaties in tekstrijke scenario's te verbeteren. Om de convergentie-uitdagingen van de hoogdimensionale latente ruimte aan te gaan, implementeren we een verbeterde semantische afstemmingsstrategie die de latente ruimte zeer geschikt maakt voor diffusiemodellering. Om de computationele efficiëntie te optimaliseren, maken we gebruik van een asymmetrische en aandachtsvrije encoder-decoder backbone om de coderingskosten te minimaliseren. We presenteren een uitgebreide evaluatie van Qwen-Image-VAE-2.0 op openbare reconstructiebenchmarks. Om de prestaties in tekstrijke scenario's te evalueren, introduceren we OmniDoc-TokenBench, een nieuwe benchmark bestaande uit een diverse verzameling echte documenten, gekoppeld aan gespecialiseerde op OCR gebaseerde evaluatiemetrieken. Qwen-Image-VAE-2.0 bereikt state-of-the-art reconstructieprestaties en toont uitzonderlijke capaciteiten in zowel algemene domeinen als tekstrijke scenario's bij hoge compressieverhoudingen. Bovendien laten downstream DiT-experimenten zien dat onze modellen superieure diffuseerbaarheid bezitten, waardoor de convergentie aanzienlijk wordt versneld in vergelijking met bestaande baselines met hoge compressie. Deze resultaten vestigen Qwen-Image-VAE-2.0 als een toonaangevend model met hoge compressie, superieure reconstructie en uitzonderlijke diffuseerbaarheid.

Edit-Compass & EditReward-Compass: Een uniforme benchmark voor beeldbewerking en beloningsmodellering
Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling

May 13

ByXuehai Bai, Yang Shi, Yi-Fan Zhang, Xuanyu Zhu, Yuran Wang, Yifan Dai, Xinyu Liu, Yiyan Ji, Xiaoling Gu, Yuanxing Zhang

Recente modellen voor beeldbewerking hebben opmerkelijke vooruitgang geboekt in het opvolgen van instructies, multimodaal begrip en complexe visuele bewerking. Echter, bestaande benchmarks slagen er vaak niet in om menselijke oordelen getrouw weer te geven, vooral voor sterke grensverleggende modellen, vanwege beperkte taakmoeilijkheid en grofkorrelige evaluatieprotocollen. Parallel daaraan zijn beloningsmodellen steeds belangrijker geworden voor op RL gebaseerde optimalisatie van beeldbewerking, maar bestaande benchmarks voor beloningsmodellen zijn nog steeds gebaseerd op onrealistische evaluatieomgevingen die afwijken van praktische RL-scenario's. Deze beperkingen belemmeren een betrouwbare beoordeling van zowel beeldbewerkingsmodellen als beloningsmodellen. Om deze uitdagingen aan te pakken, introduceren we Edit-Compass en EditReward-Compass, een uniforme evaluatiesuite voor beeldbewerking en beloningsmodellering. Edit-Compass bevat 2.388 zorgvuldig geannoteerde instanties verspreid over zes progressief uitdagende taakcategorieën, die capaciteiten omvatten zoals wereldkennisredenering, visuele redenering en meervoudige beeldbewerking. Naast brede taakdekking hanteert Edit-Compass een fijnmazig multidimensionaal evaluatiekader gebaseerd op gestructureerde redenering en zorgvuldig ontworpen beoordelingsrichtlijnen. Parallel daaraan bevat EditReward-Compass 2.251 voorkeursparen die realistische scenario's voor beloningsmodellering simuleren tijdens RL-optimalisatie.

TrackCraft3R: Herbestemming van Video Diffusie Transformers voor Dichte 3D-tracking
TrackCraft3R: Repurposing Video Diffusion Transformers for Dense 3D Tracking

May 12

ByJisu Nam, Jahyeok Koo, Soowon Son, Jaewoo Jung, Honggyu An, Junhwa Hur, Seungryong Kim

Dichte 3D-tracking op basis van monovideo is essentieel voor het begrijpen van dynamische scènes. Hoewel recente 3D-funderingsmodellen betrouwbare geometrie per frame leveren, blijft het reconstrueren van objectbeweging in deze geometrie uitdagend en profiteert het van sterke bewegingspriors die zijn geleerd uit realistische video's. Bestaande 3D-trackers volgen ofwel iteratieve paradigma's die vanaf nul zijn getraind op synthetische data, ofwel finetunen 3D-reconstructiemodellen die zijn geleerd uit statische multi-view beelden—beide missen realistische bewegingspriors. Voorgetrainde video-diffusietransformers (video-DiT's) bieden rijke spatiotemporele priors uit video's op internetschaal, wat hen tot een veelbelovende basis maakt voor 3D-tracking. Hun frame-verankerde formulering, die de inhoud van elk frame genereert, is echter fundamenteel niet in overeenstemming met referentie-verankerde dichte 3D-tracking, die dezelfde fysieke punten vanuit een referentieframe door de tijd heen moet volgen. We presenteren TrackCraft3R, de eerste methode die een video-DiT hergebruikt als een feed-forward dichte 3D-tracker. Gegeven een monovideo en de frame-verankerde reconstructiepuntkaart, voorspelt TrackCraft3R in één enkele forward-pass een referentie-verankerde trackingpuntkaart die elke pixel van het eerste frame door de tijd heen volgt, samen met de zichtbaarheid ervan. We bereiken dit via twee ontwerpen: (i) een duale latente representatie die per-frame geometrie-latenten en referentie-verankerde track-latenten als dichte queries gebruikt, en (ii) temporele RoPE-uitlijning, die het doel-tijdstip van elke track-latent specificeert. Samen zetten deze ontwerpen het per-frame generatieve paradigma van video-DiT's om in een referentie-verankerde trackingformulering met LoRA-finetuning. TrackCraft3R behaalt state-of-the-art prestaties op standaard benchmarks voor schaarse en dichte 3D-tracking, terwijl het 1,3× sneller werkt en 4,6× minder piekgeheugen gebruikt dan de sterkste eerdere methode. Verder tonen we robuustheid aan voor grote bewegingen en lange video's.

Many-Shot CoT-ICL: In-Context Learning daadwerkelijk laten leren
Many-Shot CoT-ICL: Making In-Context Learning Truly Learn

May 13

ByTsz Ting Chung, Lemao Liu, Mo Yu, Dit-Yan Yeung

In-context leren (ICL) past grote taalmodellen (LLM's) aan nieuwe taken aan door conditionering op demonstraties in de prompt zonder parameterupdates. Met lang-contextmodellen kan many-shot ICL tientallen tot honderden voorbeelden gebruiken en prestaties behalen die vergelijkbaar zijn met finetuning, maar het huidige begrip van het schalingsgedrag is grotendeels afkomstig van niet-redeneertaken. We bestuderen many-shot keten-van-gedachte in-context leren (CoT-ICL) voor redeneren en tonen aan dat standaard many-shot regels niet overdraagbaar zijn. Bij niet-redeneer- en redeneergerichte LLM's en bij niet-redeneer- en redeneertaken vinden we: (i) een instellingsafhankelijk schalingseffect, waarbij het verhogen van het aantal CoT-demonstraties instabiel is voor niet-redeneer-LLM's en vooral gunstig is voor redeneergerichte LLM's; (ii) gelijkenisgebaseerde zoekopdracht helpt bij niet-redeneertaken maar faalt bij redeneren, omdat semantische gelijkenis de procedurele (d.w.z. CoT) compatibiliteit slecht voorspelt; en (iii) een ordeningsschalingseffect, waarbij de prestatievariantie toeneemt met meer CoT-demonstraties. We interpreteren dit gedrag door many-shot CoT-ICL te beschouwen als in-context testtijd-leren in plaats van geschaalde patroonherkenning, en stellen twee principes voor: (i) demonstraties moeten gemakkelijk te begrijpen zijn voor het doelmodel, en (ii) ze moeten worden geordend om een soepele conceptuele progressie te ondersteunen. Geleid door dit principe stellen we Curvilineaire Demonstratieselectie (CDS) voor, een eenvoudige ordeningsmethode die tot een winst van 5,42 procentpunt oplevert bij geometrie met 64 demonstraties. Over het algemeen herkaderen onze resultaten het lange contextvenster van een ophaalbuffer naar een gestructureerd curriculum voor in-context testtijd-leren.

FrameSkip: Leren van minder maar meer informatieve frames in VLA-training
FrameSkip: Learning from Fewer but More Informative Frames in VLA Training

May 13

ByBin Yu, Shijie Lian, Xiaopeng Lin, Zhaolong Shen, Yuliang Wei, Changti Wu, Hang Yuan, Haishan Liu, Bailing Wang, Cong Huang, Kai Chen

Visie-Taal-Actie (VLA)-beleid wordt gewoonlijk getraind op basis van dichte robotdemonstratietrajecten, vaak verzameld via teleoperatie, door elk opgenomen frame te samplen alsof het even nuttige supervisie biedt. Wij stellen dat deze conventie een temporele supervisie-onbalans creëert: lange segmenten met weinig verandering domineren de trainingsstroom, terwijl manipulatie-kritieke overgangen zoals uitlijning, contact, grijpen en loslaten slechts spaarzaam voorkomen. We introduceren FrameSkip, een raamselectiekader op dataniveau dat trajectframes scoort op basis van actievariatie, visueel-actie coherentie, taakvoortgangsprioriteiten en behoud van grijperovergangen, en vervolgens trainingsmonsters herverdeelt naar frames met een hoge belangrijkheid onder een beoogde retentieverhouding. Omdat FrameSkip alleen in de datalader werkt, blijven de VLA-architectuur, de actiekop, de trainingsdoelstelling en de inferentieprocedure ongewijzigd. Over RoboCasa-GR1, SimplerEnv en LIBERO verbetert FrameSkip de afweging tussen succes en retentie ten opzichte van volledige-frame training en eenvoudigere raamselectievarianten, met een macro-gemiddeld slagingspercentage van 76,15% over de drie benchmarks, vergeleken met 66,50% voor volledige-frame training, terwijl gebruik wordt gemaakt van een gecomprimeerd trajectoverzicht dat in de hoofdomgeving 20% van de unieke frames behoudt.

De Dageraad van Wereldactie-Interactieve Modellen
The DAWN of World-Action Interactive Models

May 12

ByHongbo Lu, Liang Yao, Chenghao He, Haoyu Wang, Xiang Gu, Xianfei Li, Wenlong Liao, Tao He, Pai Peng

Een plausibele scène-evolutie hangt af van de beschouwde manoeuvre, terwijl een goede manoeuvre afhangt van hoe de scène kan evolueren. Bestaande World Action Models (WAMs) missen grotendeels deze wederkerigheid, door wereldvoorspelling en actiegeneratie te behandelen als geïsoleerde parallelle takken of starre voorspel-dan-plan-pijplijnen. We formaliseren dit perspectief als World-Action Interactive Models (WAIMs) en implementeren het in autonoom rijden met DAWN (Denoising Actions and World iNteractive model), een eenvoudige maar sterke latente generatieve basislijn. DAWN werkt in een compacte semantische latente ruimte en koppelt een World Predictor met een World-Conditioned Action Denoiser: de voorspelde wereldhypothese conditioneert de actie-ontruising, terwijl de ontruiste actiehypothese wordt teruggekoppeld om de wereldvoorspelling bij te werken, zodat beide tijdens inferentie recursief worden verfijnd. In plaats van testtijd-wereldevolutie volledig te elimineren of de volledige toekomst in pixelruimte uit te rollen, voert DAWN een korte expliciete latente rollout uit die voldoende is om langhorizontrajectgeneratie in complexe interactieve scènes te ondersteunen. Experimenten tonen aan dat DAWN sterke planningsprestaties en gunstige veiligheidsgerelateerde resultaten behaalt op meerdere benchmarks voor autonoom rijden. In bredere zin suggereren onze resultaten dat interactieve wereld-actiegeneratie een principiële weg is naar werkelijk bruikbare wereldmodellen.

Asymmetrische stromingsmodellen
Asymmetric Flow Models

May 13

ByHansheng Chen, Jan Ackermann, Minseo Kim, Gordon Wetzstein, Leonidas Guibas

Op stromingsgebaseerde generatie in hoogdimensionale ruimten is moeilijk omdat snelheidspredictie het modelleren van hoogdimensionale ruis vereist, zelfs wanneer data een sterke laagrangstructuur heeft. Wij presenteren Asymmetrische Stromingsmodellering (AsymFlow), een rang-asymmetrische snelheidsparameterisatie die ruispredictie beperkt tot een deelruimte met lage rang, terwijl datapredictie volledig dimensionaal blijft. Op basis van deze asymmetrische predictie herstelt AsymFlow analytisch de volledige dimensionale snelheid zonder de netwerkarchitectuur of training-/sampleprocedures te wijzigen. Op ImageNet 256×256 behaalt AsymFlow een leidende FID van 1,57, waarmee het eerdere DiT/JiT-achtige pixel-diffusiemodellen met een ruime marge overtreft. AsymFlow biedt tevens de eerste route ooit om voorgetrainde latente stromingsmodellen te finetunen naar pixelruimtemodellen: door de pixeldeelruimte met lage rang af te stemmen op de latente ruimte ontstaat een naadloze initialisatie die de semantiek en structuur op hoog niveau van het latente model behoudt, zodat finetuning voornamelijk laagniveau-afwijkingen verbetert in plaats van pixelgeneratie opnieuw te leren. Wij tonen aan dat het pixel-AsymFlow-model, gefinetuned van FLUX.2 klein 9B, een nieuwe state-of-the-art vestigt voor tekst-naar-beeldgeneratie in pixelruimte, waarbij het zijn latente basis verslaat op HPSv3, DPG-Bench en GenEval, en kwalitatief aanzienlijk verbeterd visueel realisme laat zien.

Leren van Agentisch Beleid uit Actiebegeleiding
Learning Agentic Policy from Action Guidance

May 12

ByYuxiang Ji, Zengbin Wang, Yong Wang, Shidong Yang, Ziyu Ma, Guanhua Chen, Zonghua Sun, Liaoni Wu, Xiangxiang Chu

Agentisch versterkend leren (RL) voor grote taalmodellen (LLM’s) is in hoge mate afhankelijk van de exploratiecapaciteit van het basisbeleid, omdat trainingssignalen alleen binnen het competentiegebied ervan optreden. Voor taken waarbij het basisbeleid geen beloningstoestanden kan bereiken, is aanvullende training of externe begeleiding nodig om effectieve leersignalen te herstellen. In plaats van te vertrouwen op kostbare iteratieve gesuperviseerde fijnafstemming (SFT), benutten wij de overvloedige actiedata die worden gegenereerd in alledaagse menselijke interacties. Wij stellen ActGuide-RL voor, dat actiedata injecteert als plan-achtige referentiebegeleiding, waardoor het agentische beleid in staat wordt gesteld om bereikbaarheidsbarrières naar beloningstoestanden te overwinnen. Begeleide en onbegeleide rollouts worden vervolgens gezamenlijk geoptimaliseerd via gemengd-beleidstraining, waarbij de exploratiewinst wordt geïnternaliseerd in het onbegeleide beleid. Gemotiveerd door een theoretische en empirische analyse van de baten-risicoafweging, hanteren wij een minimaal interventieprincipe dat begeleiding alleen als adaptieve terugvaloptie inroept, waarbij de taakmoeilijkheid wordt gematcht en het off-policy risico wordt geminimaliseerd. Op zoekagentbenchmarks verbetert ActGuide-RL aanzienlijk ten opzichte van nul RL (+10,7 pp op GAIA en +19 pp op XBench met Qwen3-4B), en presteert het op hetzelfde niveau als de SFT+RL-pijplijn zonder enige koude start. Dit suggereert een nieuw paradigma voor agentisch RL dat de afhankelijkheid van zware SFT-data vermindert door in plaats daarvan schaalbare actiebegeleiding te gebruiken.

HAGE: Agentisch geheugen benutten via RL-gestuurde gewogen graafevolutie
HAGE: Harnessing Agentic Memory via RL-Driven Weighted Graph Evolution

May 11

ByDongming Jiang, Yi Li, Guanpeng Li, Qiannan Li, Bingzhe Li

Geheugenretrieval in agentische grote taalmodel (LLM) systemen wordt vaak behandeld als een statisch opzoekprobleem, gebaseerd op platte vectorzoekopdrachten of vaste binaire relationele grafen. Vaste graafstructuren kunnen echter de variërende sterkte, betrouwbaarheid en query-afhankelijke relevantie van relaties tussen gebeurtenissen niet vatten. In dit artikel stellen we HAGE voor, een gewogen multi-relationeel geheugenframework dat retrieval herconceptualiseert als een sequentiële, query-geconditioneerde traversatie over een uniforme relationele geheugengraaf. Het geheugen is georganiseerd als relatie-specifieke graafweergaven over gedeelde geheugenknooppunten, waarbij elke rand is geassocieerd met een trainbare relatiekenmerkvector die meerdere relationele signalen codeert. Gegeven een query identificeert een op LLM gebaseerde classifier de relationele intentie, en een routeringsnetwerk moduleert dynamisch de overeenkomstige dimensies van de randembedding. Traversatiescores worden berekend via een geleerde combinatie van semantische gelijkenis en deze query-geconditioneerde randrepresentaties. Hierdoor kan geheugentraversatie paden met hoge bruikbaarheid prioriteren, terwijl ruizige of zwak relevante verbindingen zachtjes worden onderdrukt. Naast adaptieve traversatie introduceert HAGE verder een op reinforcement learning gebaseerd trainingsframework dat zowel het routeringsgedrag als de randrepresentaties gezamenlijk optimaliseert met behulp van downstream taken. Ten slotte tonen empirische resultaten een verbeterde nauwkeurigheid bij redeneren over langetermijnhorizons en een gunstige afweging tussen nauwkeurigheid en efficiëntie in vergelijking met state-of-the-art agentische geheugensystemen. Onze code is beschikbaar op https://github.com/FredJiang0324/HAGE_MVPReview.

Retrieval is goedkoop, toon me de code: Uitvoerbare meerstapsredenering voor Retrieval-Augmented Generation
Retrieval is Cheap, Show Me the Code: Executable Multi-Hop Reasoning for Retrieval-Augmented Generation

May 13

ByJiashuo Sun, Jimeng Shi, Yixuan Xie, Saizhuo Wang, Jash Rajesh Parekh, Pengcheng Jiang, Zhiyi Shi, Jiajun Fan, Qinglong Zheng, Peiran Li, Shaowen Wang, Ge Liu, Jiawei Han

Retrieval-Augmented Generation (RAG) is een standaardbenadering geworden voor kennisintensieve vraagbeantwoording, maar bestaande systemen blijven kwetsbaar bij multi-hop-vragen, waarbij het oplossen van de taak het aaneenrijgen van meerdere retrieval- en redeneerstappen vereist. Belangrijke uitdagingen zijn dat huidige methoden redeneren representeren via vrije-vorm natuurlijke taal, waarbij tussenliggende toestanden impliciet zijn, retrieval-query's kunnen afdwalen van beoogde entiteiten, en fouten worden gedetecteerd door hetzelfde model dat ze produceert, waardoor zelfreflectie een onbetrouwbaar, ongegrond signaal wordt. Wij constateren dat multi-hop-vraagbeantwoording een typische vorm van stapsgewijze berekening is, en dat dit gestructureerde proces nauw aansluit bij hoe code-gespecialiseerde taalmodellen zijn getraind om te werken. Gemotiveerd door dit introduceren we \pyrag, een raamwerk dat multi-hop RAG herformuleert als programmasynthese en -executie. In plaats van vrije-vorm redeneertrajecten representeert \pyrag het redeneerproces als een uitvoerbaar Python-programma over retrieval- en QA-tools, waarbij tussenliggende toestanden worden blootgesteld als variabelen, deterministische feedback wordt gegenereerd door executie, en een inspecteerbaar spoor van het volledige redeneerproces wordt opgeleverd. Deze formulering maakt verder compiler-gebaseerd zelfherstel en executiegestuurde adaptieve retrieval mogelijk zonder enige extra training. Experimenten op vijf QA-benchmarks (PopQA, HotpotQA, 2WikiMultihopQA, MuSiQue, en Bamboogle) tonen aan dat \pyrag consequent sterke baseline-methoden overtreft onder zowel trainingsvrije als RL-getrainde instellingen, met bijzonder grote winsten op compositionele multi-hop-datasets. Onze code, data en modellen zijn openbaar beschikbaar op https://github.com/GasolSun36/PyRAG.

PresentAgent-2: Naar Generalistische Multimodale Presentatieagenten
PresentAgent-2: Towards Generalist Multimodal Presentation Agents

May 12

ByWei Wu, Ziyang Xu, Zeyu Zhang, Yang Zhao, Hao Tang

Presentatiegeneratie beweegt zich voorbij statische diaproductie naar end-to-end presentatievideogeneratie met onderzoeksfundering, multimodale media en interactieve levering. We introduceren PresentAgent-2, een agentisch raamwerk voor het genereren van presentatievideo's op basis van gebruikersvragen. Gegeven een open gebruikersvraag en een geselecteerde presentatiemodus, vat PresentAgent-2 eerst de vraag samen tot een gefocust onderwerp en voert diepgaand onderzoek uit over presentatievriendelijke bronnen om multimodale bronnen te verzamelen, waaronder relevante tekst, afbeeldingen, GIF's en video's. Vervolgens construeert het presentatiedia's, genereert modusspecifieke scripts en stelt dia's, audio en dynamische media samen tot een volledige presentatievideo. PresentAgent-2 ondersteunt drie onafhankelijke presentatiemodi binnen een uniform raamwerk: Enkelvoudige presentatie, die een presentatievideo met één spreker en vertelling genereert; Discussie, die een presentatie met meerdere sprekers creëert met gestructureerde sprekersrollen, zoals voor het stellen van leidende vragen, uitleggen van concepten, verduidelijken van details en samenvatten van kernpunten; en Interactie, die zelfstandig het beantwoorden van publieksvragen ondersteunt, gebaseerd op de gegenereerde dia's, scripts, opgehaalde bewijs en presentatiecontext. Om deze mogelijkheden te evalueren, bouwen we een multimodale presentatiebenchmark die scenario's voor enkelvoudige presentatie, discussie en interactie omvat, met taakspecifieke evaluatiecriteria voor inhoudskwaliteit, mediarelevantie, dynamisch mediagebruik, dialoognatuurlijkheid en interactiefundering. Al met al breidt PresentAgent-2 presentatiegeneratie uit van documentafhankelijke diaproductie naar query-gedreven, onderzoeksgebaseerde presentatievideogeneratie met multimodale media, dialoog en interactie. Code: https://github.com/AIGeeksGroup/PresentAgent-2. Website: https://aigeeksgroup.github.io/PresentAgent-2.

Orthrus: geheugenefficiënte parallelle tokengeneratie via dual-view diffusie
Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion

May 12

ByChien Van Nguyen, Chaitra Hegde, Van Cuong Pham, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

Wij introduceren Orthrus, een eenvoudig en efficiënt duaal-architectuurraamwerk dat de exacte generatiegetrouwheid van autoregressieve Grote Taalmodellen (LLM's) verenigt met de snelle parallelle tokengeneratie van diffusiemodellen. Het sequentiële karakter van standaard autoregressief decoderen vormt een fundamentele bottleneck voor inferentie met hoge doorvoer. Hoewel diffusietaalmodellen deze barrière proberen te doorbreken via parallelle generatie, lijden zij onder aanzienlijke prestatievermindering, hoge trainingskosten en een gebrek aan rigoureuze convergentiegaranties. Orthrus lost deze dichotomie op native wijze op. Ontworpen om naadloos te integreren in bestaande Transformers, breidt het raamwerk een bevroren LLM uit met een lichtgewicht, trainbare module om een parallelle diffusieweergave naast de standaard autoregressieve weergave te creëren. In dit verenigde systeem hebben beide weergaven toegang tot exact dezelfde high-fidelity Key-Value (KV)-cache; de autoregressieve kop voert contextprefilling uit om nauwkeurige KV-representaties te construeren, terwijl de diffusiekop parallelle generatie uitvoert. Door een exact consensusmechanisme tussen de twee weergaven te gebruiken, garandeert Orthrus verliesvrije inferentie, met een snelheidswinst tot 7,8x bij slechts een O(1)-geheugencache-overhead en minimale parameteruitbreidingen.

Offline optimalisatie van voorkeuren voor rechtgetrokken stroming met ruisgevolgde paren
Offline Preference Optimization for Rectified Flow with Noise-Tracked Pairs

May 10

ByYunhong Lu, Qichao Wang, Hengyuan Cao, Xiaoyin Xu, Min Zhang

Bestaande preferentie-datasets voor tekst-naar-beeldmodellen slaan doorgaans alleen de uiteindelijke winnaar/verliezer-afbeeldingen op. Deze representatie is ontoereikend voor rectified flow (RF)-modellen, waarvan de generatie van nature wordt geïndexeerd door een specifiek voorafgaand ruismonster en een bijna rechte ontruisingstraject volgt. Daarentegen schatten eerdere DPO-achtige afstemmingen voor diffusiemodellen doorgaans trajecten met behulp van een onafhankelijk voorwaarts ruisproces, wat kan afwijken van de werkelijke omgekeerde dynamica en onnodige variantie introduceert. Wij stellen Prior Noise-Aware Preference Optimization (PNAPO) voor, een off-policy afstemmingskader dat gespecialiseerd is voor rectified flow. PNAPO breidt preferentiegegevens uit door de gepaarde voorafgaande ruizen te behouden die zijn gebruikt om elke winnaar/verliezer-afbeelding te genereren, waardoor de standaard (prompt, winnaar, verliezer) triplet wordt omgezet in een sextuple. Door gebruik te maken van de rechte-lijn eigenschap van RF, schatten we tussentoestanden via ruis-beeld interpolatie, wat de trajectschattingsruimte beperkt en een strakkere surrogaatdoelstelling voor preferentie-optimalisatie oplevert. Daarnaast introduceren we een dynamische regularisatiestrategie die de DPO-regularisatie aanpast op basis van (i) de beloningskloof tussen winnaar en verliezer en (ii) trainingsvoortgang, wat de stabiliteit en steekproevefficiëntie verbetert. Experimenten op state-of-the-art RF T2I-backbones tonen aan dat PNAPO consequent de preferentie-metrics verbetert terwijl de training-compute aanzienlijk wordt verminderd.

RealICU: Begrijpen LLM-agenten IC-gegevens met lange context? Een benchmark voorbij gedragsimitatie.
RealICU: Do LLM Agents Understand Long-Context ICU Data? A Benchmark Beyond Behavior Imitation

May 13

ByChengzhi Shen, Weixiang Shen, Tobias Susetzky, Chen, Chen, Jun Li, Yuyuan Liu, Xuepeng Zhang, Zhenyu Gong, Daniel Rueckert, Jiazhen Pan

Intensive care units (ICU) genereren lange, dichte en evoluerende stromen klinische informatie, waarbij artsen herhaaldelijk de toestand van patiënten moeten herbeoordelen onder tijdsdruk, wat de duidelijke noodzaak onderstreept van betrouwbare AI-beslissingsondersteuning. Bestaande ICU-benchmarks behandelen historische acties van clinici doorgaans als ground truth. Deze acties worden echter genomen onder onvolledige informatie en een beperkte temporele context van de onderliggende patiënttoestand, en kunnen daarom suboptimaal zijn, waardoor het moeilijk is om de werkelijke redeneercapaciteiten van AI-systemen te beoordelen. We introduceren RealICU, een hindsight-geannoteerde benchmark voor het evalueren van grote taalmodellen (LLMs) onder realistische ICU-omstandigheden, waar labels worden gemaakt nadat senior artsen het volledige patiënttraject hebben beoordeeld. We formuleren vier door artsen gemotiveerde taken: beoordeel Patiëntstatus, Acute Problemen, Aanbevolen Acties en Rode Vlag-acties die risico lopen op onveilige uitkomsten. We verdelen elk traject in vensters van 30 minuten en geven twee datasets vrij: RealICU-Goud met 930 vensterannotaties van 94 MIMIC-IV-patiënten, en RealICU-Schaal met 11.862 vensters uitgebreid door Oracle, een door artsen gevalideerde LLM hindsight-labeler. Bestaande LLMs, inclusief geheugen-verbeterde, presteerden slecht op RealICU, waarbij twee faalmodi aan het licht kwamen: een recall-veiligheid afweging voor klinische aanbevelingen, en een verankeringsbias ten opzichte van vroege interpretaties van de patiënt. We introduceren verder ICU-Evo om gestructureerde geheugenagenten te bestuderen die het redeneren over lange termijn verbeteren maar veiligheidsfalen niet volledig elimineren. Samen biedt RealICU een klinisch onderbouwd testbed voor het meten en verbeteren van AI-sequentiële beslissingsondersteuning in hoog-risico zorg. Projectpagina: https://chengzhi-leo.github.io/RealICU-Bench/

RoboEvolve: Co-evoluerende Planner-Simulator voor Robotmanipulatie met Beperkte Data
RoboEvolve: Co-Evolving Planner-Simulator for Robotic Manipulation with Limited Data

May 13

ByHarold Haodong Chen, Sirui Chen, Yingjie Xu, Wenhang Ge, Ying-Cong Chen

De schaalbaarheid van robotmanipulatie wordt fundamenteel beperkt door de schaarste aan taakgerichte fysieke interactiegegevens. Hoewel visie-taalmodellen (VLMs) en videogeneratiemodellen (VGMs) veelbelovend zijn voor autonome gegevenssynthese, lijden ze respectievelijk aan semantisch-ruimtelijke misalignment en fysieke hallucinaties. Om deze kloof te overbruggen, introduceren we RoboEvolve, een nieuw raamwerk dat een VLM-planner en een VGM-simulator koppelt in een wederzijds versterkende co-evolutionaire lus. RoboEvolve werkt puur met ongelabelde zaadafbeeldingen en maakt gebruik van een cognitief geïnspireerd tweefasemechanisme: (i) dagverkenning stimuleert fysisch gefundeerde gedragsontdekking via een semantisch gecontroleerde meerkorrelige beloning, en (ii) nachtelijke consolidatie delft 'bijna-mislukkingen' op om beleidsoptimalisatie te stabiliseren. Geleid door een autonoom progressief curriculum, schaalt het systeem op natuurlijke wijze van eenvoudige atomaire acties naar complexe taken. Uitgebreide experimenten tonen aan dat RoboEvolve (I) superieure effectiviteit bereikt, basisplanners met 30 absolute punten verheft en het simulatorsucces gemiddeld met 48% versterkt; (II) extreme data-efficiëntie vertoont, waarbij het volledig gesuperviseerde basislijnen overtreft met slechts 500 ongelabelde zaden – een 50-voudige reductie; en (III) robuust continu leren demonstreert zonder catastrofaal vergeten.

Resultaten en retrospectieve analyse van de CODS 2025 AssetOpsBench Challenge
Results and Retrospective Analysis of the CODS 2025 AssetOpsBench Challenge

May 8

ByDhaval Patel, Chathurangi Shyalika, Suryanarayana Reddy Yarrabothula, Ling Yue, Shuxin Lin, Nianjun Zhou, James Rayfield

Competitieretrospectieven zijn nuttig wanneer ze uitleggen wat een ranglijst heeft gemeten, hoe verborgen evaluatie conclusies heeft veranderd en welke ontwerppatronen werden beloond. We bekijken de CODS 2025-challenge opnieuw, een privacybewuste Codabench-competitie over industriële multi-agentorkestratie gebouwd op . We combineren definitieve ranglijstbladen, een serverlogboek met 300 inzendingen, registraties van 149 teams, exports van beste inzendingen, het organisatierapport van winnaars, het begeleidende systeempapier en geverifieerde bronbomen van het planningsspoor. Vijf resultaten springen eruit. Ten eerste verzadigt de openbare planningsranglijst op 72,73%, en rijkere prompts verbeteren die piek niet. Ten tweede verandert verborgen evaluatie het verhaal: openbare en privéscores correleren matig in planning (r=0,69) maar negatief in uitvoering (r=-0,13), waarbij verschillende systemen met 45,45% openbare uitvoering 63,64% bereiken op de verborgen set. Ten derde is de term numeriek bijna inert in de officiële samengestelde score – gecombineerd op een schaal van 0–1 met percentagescores van 0–100, draagt deze maximaal 0,05 punten per spoor bij, en herschaling zou de top twee teams omwisselen. Ten vierde is de competitie operationeel op accounts gebaseerd maar in wezen op teams: 149 geregistreerde teams worden teruggebracht tot 24 met niet-nul openbare scores en 11 volledig gerangschikt, terwijl 52,3% van de gededupliceerde registraties meerdere gebruikersnamen vermeldt. Ten vijfde verbeteren succesvolle uitvoeringsmethoden meestal de veiligheidsmaatregelen – responsselectie, opschoning van contaminatie, terugval en contextcontrole – in plaats van nieuwe agentarchitecturen. Deze bevindingen identificeren welk gedrag de evaluatie beloonde en motiveren schaalbewuste samengestelde scores, diagnostiek op vaardigheidsniveau en uitgave van versiebeheerde artefacten.

Herziening van DAgger in het tijdperk van LLM-agenten
Revisiting DAgger in the Era of LLM-Agents

May 13

ByChanghao Li, Rushi Qiang, Jiawei Huang, Chenxiao Gao, Chao Zhang, Niao He, Bo Dai

Lange-horizon LM-agenten leren van meerstapsinteracties, waarbij één vroege fout de daaropvolgende toestandsverdeling kan wijzigen en de hele trajectorie kan ontsporen. Bestaande methodes schieten op complementaire wijze tekort: supervised fine-tuning biedt dichte lerarentoezicht maar lijdt aan covariate shift omdat het getraind wordt op off-policy lerarentrajecten; terwijl reinforcement learning met verifieerbare beloningen deze off-policy mismatch vermijdt door te leren van on-policy rollouts maar met slechts spaarzame uitkomstfeedback. We pakken dit dilemma aan door Dataset Aggregatie (DAgger) te heroverwegen voor meerstaps LM-agenten: het algoritme verzamelt trajectoriën via een tussenniveau-interpolatie van student- en lerarenbeleid, en de student wordt vervolgens op deze trajectoriën getraind met behulp van gesuperviseerde labels van de leraar. Door direct met omgevingen te interacteren, stellen we het model bloot aan realistische toestanden die waarschijnlijk tijdens implementatie worden aangetroffen, waardoor covariate shift effectief wordt beperkt. Bovendien, aangezien de student leert door het gedrag van de leraar te imiteren, ontvangt het rijke feedback tijdens het leren. Om aan te tonen dat DAgger de voordelen van beide werelden geniet, testten we het algoritme om een software-engineering agent te trainen met studentmodellen op 4B- en 8B-schaal. Op SWE-bench Verified verbetert onze DAgger-stijl training ten opzichte van de sterkste post-training baseline met +3,9 punten op 4B en +3,6 punten op 8B. De resulterende 4B agent bereikt 27,3%, beter dan representatieve gepubliceerde 8B SWE-agentsystemen, terwijl de 8B agent 29,8% behaalt, wat SWE-Gym-32B overtreft en binnen 5 punten komt van sterkere 32B-schaal agenten. Samen met consistente winsten op de aparte SWE-Gym splitsing suggereren deze resultaten de effectiviteit van DAgger voor moderne lange-horizon LM-agenten.

LEAD: lengte-efficiënt adaptief en dynamisch redeneren voor grote taalmodellen
LEAD: Length-Efficient Adaptive and Dynamic Reasoning for Large Language Models

May 10

BySongtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe Li

Grote redeneermodellen, zoals OpenAI o1 en DeepSeek-R1, hebben de neiging steeds breedsprakiger te worden naarmate hun redeneervaardigheden verbeteren. Deze opgeblazen Chain-of-Thought (CoT)-trajecten overschrijden vaak wat de onderliggende problemen vereisen, waardoor rekenkracht, latentie en contextbudgetten worden verspild. Hoewel het introduceren van lengte-efficiëntiebeloningen tijdens reinforcement learning een natuurlijke oplossing biedt, worstelen bestaande methoden met twee fundamentele uitdagingen: het optimale evenwicht tussen correctheid en efficiëntie is niet-stationair gedurende de training, en intrinsieke redeneerbudgetten variëren drastisch per probleem. Vertrouwen op statische beloningsgewichten en globale lengtebeperkingen leidt onvermijdelijk tot een compromis tussen verminderde nauwkeurigheid en niet-gerealiseerde compressie. Om deze beperkingen te overwinnen, stellen wij LEAD (Length-Efficient Adaptive and Dynamic reasoning) voor, een methode die statische heuristieken vervangt door online, zelfadaptieve mechanismen. LEAD kalibreert dynamisch de afweging tussen correctheid en efficiëntie bij elke stap met behulp van een Potential-Scaled Instability, en stuurt optimalisatiecapaciteit naar het meest informatieve leersignaal. Bovendien schat het online een adaptieve doellengte per probleem in op basis van de eigen correcte rollouts van het model, en past een symmetrische efficiëntiebeloning toe die zowel overdenken als overcompressie bestraft. Geëvalueerd op vijf wiskundige redeneerbenchmarks behaalt LEAD de hoogste nauwkeurigheid en Accuracy-Efficiency Score onder RL-getrainde efficiënt-redeneermethoden, terwijl het aanzienlijk kortere uitvoer produceert dan het basismodel.

FeatCal: Feature-kalibratie voor post-fusiemodellen
FeatCal: Feature Calibration for Post-Merging Models

May 13

ByYanggan Gu, Shuo Cai, Zihao Wang, Wenjun Wang, Yuanyi Wang, Pengkai Wang, Sirui Huang, Su Lu, Jianmin Wu, Hongxia Yang

Model samenvoegen combineert taakexperts in één model en vermijdt gezamenlijke training, hertraining of het inzetten van meerdere expertmodellen, maar het samengevoegde model presteert vaak nog steeds minder goed dan de taakexperts. We bestuderen deze prestatiekloof via kenmerkdrift, het verschil tussen kenmerken geproduceerd door het samengevoegde model en door de expert op dezelfde invoer. Onze theorie ontleedt deze drift in stroomopwaartse propagatie en lokale mismatch, volgt hoe deze zich voortplant en combineert via latere lagen in voorwaartse volgorde, en koppelt uiteindelijke kenmerkdrift aan uitvoerdrift. Dit perspectief motiveert FeatCal, dat een kleine kalibratieset gebruikt om de gewichten van het samengevoegde model laag voor laag in voorwaartse volgorde te kalibreren, waardoor kenmerkdrift wordt verminderd terwijl het dicht bij de samengevoegde gewichten blijft en de voordelen van model samenvoegen behouden blijven. FeatCal gebruikt een efficiënte gesloten-vorm oplossing om modelgewichten bij te werken, zonder gradiëntafdaling, iteratieve optimalisatie of extra modules. Op de belangrijkste CLIP- en GLUE-benchmarks verslaat FeatCal Surgery en ProbSurgery, de dichtstbijzijnde post-fusie kalibratie-baselines: 85,5% vs. 77,0%/78,8% op CLIP-ViT-B/32 Task Arithmetic (TA) en 85,2% vs. 83,7%/82,2% op FLAN-T5-base GLUE. Op CLIP-ViT-B/32 bereiken 8 voorbeelden per taak 82,9%, en 256 voorbeelden per taak duren 53 seconden, ongeveer 4x sneller dan beide baselines, wat betere steekproefefficiëntie en lagere kalibratiekosten aantoont.

MAP: Een Eerst-in-kaart-brengen-dan-handelen-paradigma voor langetermijn interactieve agentredenering
MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning

May 13

ByYuxin Liu, Ziang Ye, Yueqing Sun, Mingye Zhu, Jinwei Xiao, Zhuowen Han, Qi GU, Xunliang Cai, Lei Zhang

Huidige interactieve LLM-agenten vertrouwen op doelgeconditioneerde stapsgewijze planning, waarbij omgevingsbegrip reactief tijdens de uitvoering wordt verworven in plaats van vooraf te worden vastgesteld. Deze temporele omkering leidt tot Uitgestelde Omgevingsperceptie: agenten moeten omgevingsbeperkingen afleiden via trial-and-error, wat resulteert in een Epistemisch Knelpunt dat hen gevangenhoudt in ineffectieve faalcycli. Geïnspireerd door menselijke affordantieperceptie en cognitieve kaarttheorie stellen we het Eerst-Kaarten-Dan-Handelen Paradigma (MAP) voor, een plug-and-play raamwerk dat omgevingsbegrip vóór uitvoering plaatst. MAP bestaat uit drie fasen: (1) Globale Verkenning, het verwerven van omgevingsgenerieke voorkennis; (2) Taakspecifieke Kartering, het opbouwen van een gestructureerde cognitieve kaart; en (3) Kennisverrijkte Uitvoering, het oplossen van taken op basis van de kaart. Experimenten tonen consistente verbeteringen aan over benchmarks en LLM's. Op ARC-AGI-3 stelt MAP grensverleggende modellen in staat om in 22 van de 25 game-omgevingen een bijna-nul baselineprestatie te overtreffen. Verder introduceren we MAP-2K, een dataset van eerst-kaarten-dan-handelen-trajecten, en tonen we aan dat training hierop beter presteert dan expertuitvoeringssporen, wat suggereert dat het begrijpen van omgevingen fundamenteler is dan imitatie.

Contexttraining met actief informatie zoeken
Context Training with Active Information Seeking

May 13

ByZeyu Huang, Adhiguna Kuncoro, Qixuan Feng, Jiajun Shen, Lucio Dery, Arthur Szlam, Marc'Aurelio Ranzato

De meeste bestaande grote taalmodellen (LLM's) zijn duur om aan te passen na implementatie, vooral wanneer een taak nieuw geproduceerde informatie of niche-domeinkennis vereist. Recent werk heeft aangetoond dat LLM's door het manipuleren en optimaliseren van hun context kunnen worden afgestemd op downstream-taken zonder hun gewichten bij te werken. De meeste bestaande methoden blijven echter gesloten-lus en vertrouwen uitsluitend op de intrinsieke kennis van het model. In dit artikel voorzien we deze contextoptimaliseerders van Wikipedia-zoek- en browserhulpmiddelen voor actieve informatievergaring. We tonen aan dat het naïef toevoegen van deze hulpmiddelen aan een standaard sequentiële contextoptimalisatiepijplijn de prestaties zelfs kan verslechteren in vergelijking met baselines. Wanneer dit echter wordt gekoppeld aan een zoekgebaseerde trainingsprocedure die meerdere kandidaatcontexten onderhoudt en snoeit, levert actieve informatievergaring consistente en substantiële winst op. We demonstreren deze verbeteringen in uiteenlopende domeinen, waaronder vertaling met weinig bronmateriaal (Flores+), gezondheidsscenario's (HealthBench) en redeneerintensieve taken (LiveCodeBench en Humanity's Last Exam). Bovendien blijkt onze methode data-efficiënt, robuust over verschillende hyperparameters en in staat om effectieve tekstuele contexten te genereren die goed generaliseren over verschillende modellen.

BEACON: Een multimodale dataset voor het leren van gedragsvingerafdrukken uit gameplay-data
BEACON: A Multimodal Dataset for Learning Behavioral Fingerprints from Gameplay Data

May 11

ByIshpuneet Singh, Gursmeep Kaur, Uday Pratap Singh Atwal, Guramrit Singh, Gurjot Singh, Maninder Singh

Continue authenticatie in digitale omgevingen met hoge inzet vereist datasets met fijnmazige gedragssignalen onder realistische cognitieve en motorische eisen. Maar huidige benchmarks worden vaak beperkt door kleine schaal, unimodale sensing of gebrek aan gesynchroniseerde omgevingscontext. Om deze leemte aan te pakken, introduceert dit artikel BEACON (Behavioral Engine for Authentication & Continuous Monitoring), een grootschalige multimodale dataset die diverse vaardigheidsniveaus in competitief Valorant-gameplay vastlegt. BEACON bevat ongeveer 430 GB aan gesynchroniseerde modaliteitsgegevens (in totaal 461 GB op schijf, inclusief hulpconfiguratie-opnames van Valorant) van 79 sessies van 28 verschillende spelers, geschat op 102,51 uur actieve speeltijd, waaronder hoogfrequente muisdynamiek, toetsaanslagevents, netwerkpakketopnames, schermopnames, hardwaremetadata en configuratiecontext binnen het spel. BEACON benut de hoge precisie motorische vaardigheden en hoge cognitieve belasting die inherent zijn aan tactische shooters, wat het een rigoureuze stresstest maakt voor de robuustheid van gedragsbiometrie. De dataset maakt de studie mogelijk van continue authenticatie, gedragsprofilering, gebruikersdrift en multimodaal representatieleren in een high-fidelity esports-omgeving. De auteurs stellen de dataset en code beschikbaar op Hugging Face en GitHub om een reproduceerbare benchmark te creëren voor het evalueren van next-generation gedragsvingerafdrukken en beveiligingsmodellen.

Ophalen van Binnenuit: Een Intrinsiek Vermogen van Aandachtgebaseerde Modellen
Retrieval from Within: An Intrinsic Capability of Attention-Based Models

May 8

ByElad Hoffer, Yochai Blau, Edan Kinderman, Ron Banner, Daniel Soudry, Boris Ginsburg

Retrieval-verrijkte generatie (RAG) beschouwt retrieval en generatie doorgaans als aparte systemen. We vragen ons af of een aandacht-gebaseerde encoder-decoder in plaats daarvan direct uit zijn eigen interne representaties kan ophalen. We introduceren INTRA (INTrinsic Retrieval via Attention), een raamwerk waarbij decoder-aandachtsquery's voorgecodeerde evidentiebrokken scoren die vervolgens direct worden hergebruikt als context voor generatie. Door zijn constructie verenigt INTRA retrieval en generatie, waardoor de typische mismatch tussen retriever en generator in RAG-pijplijnen wordt geëlimineerd. Dit ontwerp amortiseert ook de contextcodering door voorberekende encodertoestanden over queries heen te hergebruiken. Op vraag-antwoordbenchmarks overtreft INTRA sterke, technisch ontworpen retrievalpijplijnen, zowel wat betreft evidentieherinnering (recall) als eind-tot-eind antwoordkwaliteit. Onze resultaten tonen aan dat aandacht-gebaseerde modellen al een retrievalmechanisme bezitten dat kan worden opgeroepen, in plaats van te worden toegevoegd als een externe module.

Visuele Esthetische Benchmark: Kunnen Frontiermodellen Schoonheid Beoordelen?
Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?

May 12

ByYichen Feng, Yuetai Li, Chunjiang Liu, Yuanyuan Chen, Fengqing Jiang, Yue Huang, Hang Hua, Zhengqing Yuan, Kaiyuan Zheng, Luyao Niu, Bhaskar Ramasubramanian, Basel Alomair, Xiangliang Zhang, Misha Sra, Zichen Chen, Radha Poovendran, Zhangchen Xu

Multimodale grote taalmodellen (MLLM's) worden nu routinematig ingezet voor visueel begrip, generatie en curatie. Een aanzienlijk deel van deze toepassingen vereist een expliciet esthetisch oordeel. De meeste bestaande oplossingen reduceren dit oordeel tot het voorspellen van een scalaire score voor één enkele afbeelding. Wij vragen ons eerst af of dergelijke scores getrouw een comparatieve voorkeur weergeven: in een gecontroleerde studie met acht expert-annotatoren komen op scores gebaseerde rangschikkingen slecht overeen met de directe vergelijkingen van dezelfde annotatoren, terwijl directe rangschikking een aanzienlijk hogere inter-annotator-overeenstemming oplevert voor labels voor beste en slechtste afbeeldingen. Gemotiveerd door deze bevinding introduceren we de Visual Aesthetic Benchmark (VAB), die esthetische evaluatie giet in een comparatieve selectie uit kandidaatsets met gematchte onderwerpen. VAB bevat 400 taken en 1.195 afbeeldingen uit de domeinen beeldende kunst, fotografie en illustratie, met labels afgeleid van de consensus van 10 onafhankelijke expertbeoordelaars per taak. Bij het evalueren van 20 state-of-the-art MLLM's en zes specifieke visuele kwaliteitsbeloningsmodellen vinden we dat het sterkste systeem zowel de beste als de slechtste afbeelding correct identificeert over drie willekeurige permutaties van de kandidaatvolgorde in slechts 26,5% van de taken, ver onder de 68,9% die door menselijke experts wordt behaald. Het finetunen van een model met 35B parameters op 2.000 expertvoorbeelden brengt de nauwkeurigheid ervan dicht bij die van een open-weight model met 397B parameters, wat suggereert dat het comparatieve signaal in VAB overdraagbaar is. Samen leggen deze resultaten een duidelijke en meetbare kloof bloot tussen huidige multimodale modellen en expert-esthetisch oordeel, en VAB biedt het eerste setgebaseerde, op experts gefundeerde testbed waarbinnen die kloof kan worden gevolgd en gedicht.

AgentLens: Onthulling van het Lucky Pass-probleem bij de evaluatie van SWE-Agent
AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation

May 13

ByPriyam Sahoo, Gaurav Mittal, Xiaomin Li, Shengjie Ma, Benjamin Steenhoek, Pingping Lin, Yu Hu

Evaluatie van software engineering (SWE)-agenten wordt gedomineerd door een binair signaal: of de uiteindelijke patch de tests doorstaat. Deze uitkomsten-only visie behandelt een principiële oplossing en een chaotisch trial-and-errorproces als equivalent. Wij tonen aan dat deze equivalentie empirisch onjuist is. We evalueren 2.614 OpenHands-trajecten van acht modelbackends op 60 SWE-bench Verified-taken. Hiervan hebben 47 voldoende geslaagde trajecten om procesreferenties op taakniveau te construeren, wat resulteert in een evaluatiesubset van 1.815 trajecten. Van de geslaagde trajecten in deze subset vertoont 10,7% gedrag dat wij een Lucky Pass noemen: regressiecycli, blinde herpogingen, ontbrekende verificatie, of temporeel wanordelijke exploratie, implementatie en verificatie. We introduceren AgentLens, een raamwerk voor procesniveau-evaluatie van SWE-agenttrajecten, en brengen AgentLens-Bench uit, een dataset van 1.815 trajecten geannoteerd met kwaliteitsscores, verspillingssignalen, divergentiepunten en 47 taakniveau Prefixboom Acceptor (PTA)-referenties. AgentLens construeert PTA-referenties door meerdere geslaagde oplossingen voor dezelfde taak samen te voegen en gebruikt een contextgevoelige intentielabeler om acties toe te wijzen aan Exploratie, Implementatie, Verificatie of Orkestratie op basis van trajectgeschiedenis in plaats van alleen toolidentiteit. In AgentLens-Bench verdeelt de kwaliteitsscore geslaagde trajecten in Lucky-, Solid- en Ideal-niveaus en ontleedt Lucky Passes verder in vijf terugkerende mechanismen. Over de acht modelbackends variëren Lucky-percentages van 0,5% tot 23,2%, en sommige modellen verschuiven maar liefst vijf rangposities wanneer gerangschikt op kwaliteitsscore in plaats van slagingspercentage. We geven de geanonimiseerde projectrepository vrij, inclusief de AgentLens-Bench-dataset en de AgentLens SDK, op https://github.com/microsoft/code-agent-state-trajectories/.

Standpunt: LLM-inferentie moet worden geëvalueerd als energie-naar-tokenproductie.
Position: LLM Inference Should Be Evaluated as Energy-to-Token Production

May 12

ByXiang Liu, Shimiao Yuan, Zhenheng Tang, Peijie Dong, Kaiyong Zhao, Qiang Wang, Bo Li, Xiaowen Chu

LLM-inferentie wordt nog steeds voornamelijk geëvalueerd als een model- of softwareprobleem: nauwkeurigheid, latentie, doorvoer en hardwarebenutting. Dit is onvolledig. Op implementatieschaal is de relevante output een kwaliteitsafhankelijke token die wordt geproduceerd onder gezamenlijke beperkingen van effectieve rekenkracht, geleverd datacentervermogen, koelcapaciteit, PUE en benutting. Wij stellen dat de ML-gemeenschap inferentie moet beschouwen als energie-naar-token-productie. We formaliseren deze visie met een dimensioneel consistente Tokenproductiefunctie waarin de tokensnelheid wordt begrensd door zowel een rekenkracht-per-token- als een energie-per-token-plafond. Vermelde API-prijzen variëren met meer dan een grootteorde tussen aanbieders, maar we gebruiken prijsspreiding slechts als richtinggevende motivatie, niet als causaal bewijs van marginale kosten. De kernvraag is in plaats daarvan fysisch van aard: onder vaste kwaliteits- en servicedoelen, wanneer verschuift de bindende beperking van theoretische piekrekenkracht naar geleverd vermogen, koeling en operationele efficiëntie? In dit kader zijn systeemoptimalisaties – latente KV-cachecompressie, sparse of zwaar gecomprimeerde aandacht, kwantisatie, routering en moeilijkheidsadaptieve redenering – niet louter lokale technische trucs. Het zijn hefbomen voor energie-naar-token omdat ze FLOPs/token, joules/token, geheugenverkeer of benuttingsverliezen verminderen onder vaste (q*, s*). Daarom pleiten we ervoor dat inferentiepapers en benchmarks Joules/token, actieve bindende beperking, PUE-gecorrigeerd geleverd vermogen en benuttingsgecorrigeerde tokenoutput rapporteren naast nauwkeurigheid en latentie.

Vividh-ASR: Een complexiteitsgetrapte benchmark en optimalisatiedynamiek voor robuuste Indische spraakherkenning
Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition

May 13

ByKush Juvekar, Kavya Manohar, Aditya Srinivas Menon, Arghya Bhattacharya, Kumarmanas Nethil

Het verfijnen van meertalige ASR-modellen zoals Whisper voor laagfrequente talen verbetert vaak voorgelezen spraak, maar verslechtert de prestaties op spontane audio, een fenomeen dat wij studio-bias noemen. Om deze mismatch te diagnosticeren introduceren we Vividh-ASR, een complexiteitsgestratificeerde benchmark voor Hindi en Malayalam in vier categorieën: studio, uitzending, spontaan en synthetische ruis. Door een gecontroleerde studie van leersnelheidstiming en curriculumvolgorde vinden we dat vroege grote parameterupdates de globale WER met 12 absolute punten verbeteren, terwijl een moeilijk-naar-makkelijk curriculum extra winst oplevert voor spontane spraak. Deze bevindingen motiveren omgekeerde meertraps fine-tuning (R-MFT), een trainingsrecept waarmee een parameter-efficiënt 244M Whisper-model conventioneel verfijnde 769M-tegenhangers evenaart of overtreft. Representatieanalyse via CKA en SVD laat zien dat effectieve schema's de aanpassing in de decoder concentreren, waardoor de akoestische geometrie van de vooraf getrainde encoder behouden blijft. We publiceren de benchmark en de modellen.

MemReread: Verbetering van agentisch redeneren over lange context via geheugengeleid herlezen
MemReread: Enhancing Agentic Long-Context Reasoning via Memory-Guided Rereading

May 11

ByBaibei Ji, Xiaoyang Weng, Juntao Li, Zecheng Tang, Yihang Lou, Min Zhang

Om lang-context redeneertaken aan te pakken zonder de kwadratische complexiteit van standaard aandachtsmechanismen, zijn er benaderingen op basis van agentgeheugen ontstaan, die doorgaans een dynamisch bijgewerkt geheugen onderhouden bij het lineair verwerken van documentonderdelen. Om het potentiële verlies van latente bewijzen in dit memoriseer-tijdens-het-lezen-paradigma te beperken, hebben recente werken retrievalmodules geïntegreerd waarmee agenten informatie kunnen oproepen die eerder tijdens het overschrijven van het geheugen is weggegooid. Echter, retrieval-gebaseerd oproepen lijdt zowel onder bewijsverlies tijdens geheugenvorming als onder interferentie veroorzaakt door ongeldige queries. Om deze beperkingen te overwinnen, stellen we MemReread voor. Gebouwd op streaming lezen, omzeilt MemReread tussentijdse retrieval. Het activeert decompositie van vragen en herlezen wanneer het uiteindelijke geheugen ontoereikend is, waardoor het mogelijk wordt om indirecte feiten te herstellen die voortijdig zijn weggegooid. Dit ontwerp ondersteunt niet-lineair redeneren terwijl de inherente logische stroom van documentbegrip behouden blijft. Om de bruikbaarheid verder te vergroten, introduceren we een raamwerk voor versterkend leren dat de lengte-extrapolatiecapaciteit verbetert, terwijl dynamisch het aantal herleesbeurten wordt bepaald op basis van taakcomplexiteit, waardoor de rekenkosten flexibel worden beheerst. Uitgebreide experimenten tonen aan dat MemReread consequent beter presteert dan basisraamwerken op lang-context redeneertaken, terwijl lineaire tijdscomplexiteit ten opzichte van contextlengte behouden blijft.

De extrapolatieklif in on-policy distillatie van bijna-deterministische gestructureerde outputs
The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs

May 9

ByXin Li, Hao Jiang, Annan Wang, Yichi Zhang, Chau Yuen

On-policy distillatie (OPD) wordt veelvuldig gebruikt voor de nabehandeling van LLM's. Wanneer aangedreven met een beloning-extrapolatiecoëfficiënt lambda > 1, kan de student de leraar in het domein overtreffen, maar boven een drempel lambda* schendt dezelfde stap het outputcontract bij gestructureerde-uitvoertaken. In een enkele-positie Bernoulli-reductie leiden we een gesloten-vorm basisrelatieve clipveiligheidsdrempel lambda*(p,b,c) af, bepaald door drie meetbare grootheden: de modale waarschijnlijkheid van de leraar, de warmstartmassa en de belangrijkheidssteekproef-clipsterkte. Boven lambda* verlaat het geëxtrapoleerde vaste punt de clipveilige regio, waardoor de training verandert van formaatbehoudend naar formaatinstortend. We breiden de regel uit naar gekalibreerde K-aire lijstgewijze JSON-taken waarbij een enkele bindende equivalentieklasse het outputcontract domineert en SFT parseermarge behoudt. Op Amazon Fashion vallen drie vooraf geregistreerde tests – een fijnmazig klifinterval, een budgetuitbreidingstest en een kleine-clip kruisvoorspelling – binnen hun vergrendelde voorspellingsvensters, waarbij de kleine-clip waarde overeenkomt met de gesloten-vorm voorspelling onder gridresolutie. Bij opereren net onder lambda* brengt ListOPD een 1,7B Qwen3-student tot domeinpariteit met een 8B-SFT baseline bij een vijfde van de parameters. De winst wordt voornamelijk gedreven door formaatnaleving: NDCG@1 voor geparseerde uitvoeren blijft vlak over lambda, terwijl parseergeldigheid scherp verandert bij de voorspelde grens. De klifdiagnostiek is rubriekonafhankelijk, terwijl de pariteitsclaim gebruikmaakt van een door Gemini beoordeelde rubriek en de blootstelling van die beoordelaar erft.

MC-RFM: Geometriebewuste Few-Shot-Adaptatie via Gemengde-Kromming Riemanniaanse Stroommatching
MC-RFM: Geometry-Aware Few-Shot Adaptation via Mixed-Curvature Riemannian Flow Matching

May 8

BySalim Khazem, Ibrahim Mohamed Serouis, Zakaria Ezzahed

Parameter-efficiënte aanpassing van voorgetrainde visiemodellen wordt gewoonlijk uitgevoerd via lineaire probes, prompts, laagrangige updates of lichtgewicht residumodules. Hoewel effectief, behandelen deze methoden aanpassing doorgaans als een discrete Euclidische perturbatie van bevroren representaties, zonder expliciet de geometrie van de taakgeïnduceerde verplaatsing van kenmerken te modelleren. Wij stellen MC-RFM voor, een Riemanniaans stroommatchingkader met gemengde kromming voor few-shot aanpassing van bevroren visuele backbone-modellen. Het kernidee is om aangepaste kenmerken te representeren op een productvariëteit die een hyperbolische factor, die hiërarchiegevoelige semantische structuur vastlegt, combineert met een Euclidische factor, die lokaal discriminerende visuele variatie behoudt. Aanpassing wordt geformuleerd als een taakgeconditioneerd continu transport van bevroren kenmerken naar ondersteuningsset-prototypes, getraind met een stroommatchingdoelstelling en gekoppeld aan een hybride prototype-lineaire classifier. De methode is lichtgewicht, backbone-agnostisch, en werkt volledig op gecachte bevroren kenmerken. Over zeven visuele herkenningsbenchmarks, vijf bevroren backbones, en 1/4/16-shot regimes, is MC-RFM de best presterende methode in een meerderheid van de geëvalueerde instellingen, met de sterkste winst op Transformer backbones en fijnmazige datasets. Ablatiestudies tonen aan dat de kop met gemengde kromming, taakconditionering, adaptieve takpoort, prototypekrimping en discriminerende supervisie elk bijdragen aan de prestatie. Deze resultaten suggereren dat few-shot aanpassing niet alleen baat heeft bij het beslissen welke parameters te updaten, maar ook bij het modelleren hoe representaties moeten bewegen door een geometrie die is afgestemd op de structuur van de downstream-taak.

FAAST: Alleen-Voorwaarts Associatief Leren via Gesloten-Vorm Snelle Gewichten voor Testtijd-Gesuperviseerde Adaptatie
FAAST: Forward-Only Associative Learning via Closed-Form Fast Weights for Test-Time Supervised Adaptation

May 8

ByGuangsheng Bao, Hongbo Zhang, Han Cui, Ke Sun, Yanbin Zhao, Juncai He, Yue Zhang

Het aanpassen van voorgetrainde modellen brengt doorgaans een afweging met zich mee tussen de hoge trainingskosten van backpropagatie en de zware inferentie-overhead van geheugengebaseerd of in-context leren. Wij stellen FAAST voor, een uitsluitend voorwaartse associatieve aanpassingsmethode die in één enkele doorgang gelabelde voorbeelden analytisch compileert tot snelle gewichten. Door geheugen- of contextafhankelijkheid te elimineren, bereikt FAAST inferentie in constante tijd en ontkoppelt het taakaanpassing van de voorgetrainde representatie. Op benchmarks voor beeldclassificatie en taalmodellering evenaart of overtreft FAAST op backprop gebaseerde aanpassing, terwijl de aanpassingstijd met meer dan 90% wordt verminderd, en is het concurrerend met geheugen-/contextgebaseerde aanpassing, terwijl het geheugengebruik tot 95% bespaart. Deze resultaten tonen aan dat FAAST een zeer efficiënte, schaalbare oplossing is voor begeleide taakaanpassing, met name voor resource-beperkte modellen. We publiceren de code en modellen op https://github.com/baoguangsheng/faast.

IndicMedDialog: Een parallelle multi-beurt medische dialoogdataset voor toegankelijke gezondheidszorg in Indische talen
IndicMedDialog: A Parallel Multi-Turn Medical Dialogue Dataset for Accessible Healthcare in Indic Languages

May 13

ByShubham Kumar Nigam, Suparnojit Sarkar, Piyush Patel

De meeste bestaande medische dialoogsystemen opereren in een enkelvoudig vraag-en-antwoordparadigma of zijn gebaseerd op sjabloongestuurde datasets, wat de conversationele realisme en meertalige toepasbaarheid beperkt. We introduceren IndicMedDialog, een parallelle meertraps medische dialoogdataset die Engels en negen Indische talen omvat: Assamees, Bengaals, Gujarati, Hindi, Marathi, Punjabi, Tamil, Telugu en Urdu. De dataset breidt MDDial uit met door LLM gegenereerde synthetische consultaties, vertaald met TranslateGemma, geverifieerd door moedertaalsprekers en verfijnd via een schriftbewuste nabehandelingspijplijn om fonetische, lexicale en karakterafstandsfouten te corrigeren. Voortbouwend op deze dataset finetunen we IndicMedLM via parameter-efficiënte aanpassing van een gekwantiseerd klein taalmodel, waarbij optionele patiëntprecontext wordt opgenomen om meertraps symptoomuitvraging te personaliseren. We evalueren tegen zero-shot meertalige basislijnen, voeren systematische foutenanalyse uit over tien talen en valideren klinische plausibiliteit via medische expertbeoordeling.

PersonalAI 2.0: Verbeteren van kennisgraaf-traversal/retrieval met planningsmechanisme voor gepersonaliseerde LLM-agenten
PersonalAI 2.0: Enhancing knowledge graph traversal/retrieval with planning mechanism for Personalized LLM Agents

May 13

ByMikhail Menschikov, Matvey Iskornev, Alexander Kharitonov, Alina Bogdanova, Mikhail Belkin, Ekaterina Lisitsyna, Artyom Sosedka, Victoria Dochkina, Ruslan Kostoev, Ilia Perepechkin, Evgeny Burnaev

We introduceren PersonalAI 2.0 (PAI-2), een nieuw raamwerk dat is ontworpen om op grote taalmodellen (LLM's) gebaseerde systemen te verbeteren door integratie van externe kennisgrafen (KG). De voorgestelde aanpak pakt belangrijke beperkingen van bestaande Graph Retrieval-Augmented Generation (GraphRAG)-methoden aan door een dynamische, meertraps queryverwerkingspijplijn te implementeren. Het centrale punt van het ontwerp van PAI-2 is het vermogen om adaptieve, iteratieve informatiezoekopdrachten uit te voeren, geleid door geëxtraheerde entiteiten, gematchte graafknopen en gegenereerde clue-queries. Uitgevoerde evaluatie over zes benchmarks (Natural Questions, TriviaQA, HotpotQA, 2WikiMultihopQA, MuSiQue en DiaASQ) toont verbetering in feitelijke correctheid van het genereren van antwoorden in vergelijking met analoge methoden (LightRAG, RAPTOR en HippoRAG 2). PAI-2 behaalt een gemiddelde winst van 4% volgens LLM-as-a-Judge over vier benchmarks, wat de effectiviteit weerspiegelt in het verminderen van hallucinatiepercentages en het verhogen van precisie. We tonen aan dat het gebruik van graaftraversale algoritmen (bijv. BeamSearch, WaterCircles) superieure resultaten oplevert in vergelijking met standaard flatten retriever met gemiddeld 6%, terwijl het ingeschakelde zoekplanverbeteringsmechanisme een boost van 18% geeft ten opzichte van het uitgeschakelde mechanisme volgens LLM-as-a-Judge over zes datasets. Bovendien onthult een ablatiestudie dat PAI-2 het SOTA-resultaat behaalt op de MINE-1-benchmark, met een informatieretentiescore van 89%, gebruikmakend van LLM's uit de 7-14B-klasse. Gezamenlijk onderstrepen deze bevindingen het potentieel van PAI-2 om te dienen als een fundamenteel model voor de volgende generatie gepersonaliseerde AI-toepassingen, die schaalbare, contextbewuste kennisrepresentatie en redeneervermogens vereisen.

Bron of het is niet gebeurd: een multi-agent-framework voor detectie van citaathallucinaties
Source or It Didn't Happen: A Multi-Agent Framework for Citation Hallucination Detection

May 9

ByMingzhe Li, Zhiqiang Lin, Shiqing Ma

Grote taalmodellen worden steeds vaker gebruikt in wetenschappelijk schrijven, maar ze kunnen citatievormige referenties verzinnen die plausibel lijken, maar niet door bibliografische verificatie komen. Bestaande detectoren beperken verificatie vaak tot binaire gevonden/niet-gevonden beslissingen en vertrouwen op fragiele parsing of onvolledige ophaling, waardoor auditors weinig signaal op veldniveau krijgen. Wij herkaderen detectie van citatiehallucinaties als taxonomie-afgestemde adjudicatie op veldniveau en introduceren een 12-codige taxonomie die Echte, Potentiële en Gehallucineerde citaten omvat. Op basis van deze taxonomie bouwen we CiteTracer, een trapsgewijze multi-agent detector die gestructureerde citaten extraheert uit PDF en BibTeX, bewijs ophaalt via cache-opzoekingen, URL-ophaling, scholar-connectors en webzoekopdrachten, deterministische veldmatching toepast en dubieuze gevallen doorstuurt naar klasse-specialistische beoordelaars. We brengen een benchmark uit van 2.450 synthetische citaten gebouwd uit echte seed-citaten met gecontroleerde LLM-mutaties, gepaard met 957 in de echte wereld verzonnen citaten afkomstig uit ICLR 2026 en anonieme conferentie-inzendingen die redactioneel zijn afgewezen. CiteTracer behaalt 97,1% nauwkeurigheid op de synthetische benchmark, met F1-scores op klasseniveau van 97,0, 95,8 en 98,5 voor respectievelijk Echt, Potentieel en Gehallucineerd, en detecteert 97,1% van de verzinsels in de echte-wereldset zonder zich te onthouden. Code: https://github.com/aaFrostnova/CiteTracer.

F-GRPO: Gefactoriseerde Groepsrelatieve Beleidsoptimalisatie voor Geünificeerde Kandidaatgeneratie en Rangschikking
F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking

May 13

ByRohan Surana, Gagan Mundada, Junda Wu, Xintong Li, Yizhu Jiao, Bowen Jin, Sizhe Zhou, Tong Yu, Ritwik Sinha, Jiawei Han, Jingbo Shang, Julian McAuley

Traditionele retrievalpijplijnen optimaliseren het nut via stadia van kandidaatretrieval en herrangschikking, waarbij de rangschikking werkt over een vooraf gedefinieerde kandidaatset. Grote Taalmodellen (LLM's) verbreden dit tot een generatief proces: gegeven een kandidatenpool kan een LLM een subset genereren en deze ordenen in één autoregressieve doorgang. Deze flexibiliteit introduceert echter een nieuwe optimalisatie-uitdaging: het model moet een combinatorische uitvoerruimte doorzoeken, terwijl het pas nutsfunctie-feedback ontvangt nadat de volledige gerangschikte lijst is gegenereerd. Omdat deze feedback is gedefinieerd over de voltooide sequentie, kan deze niet onderscheiden of een slecht resultaat voortkomt uit het niet genereren van een relevante subset of uit het niet correct rangschikken van die subset. Deze kloof in credittoewijzing maakt end-to-end optimalisatie instabiel en sample-inefficiënt. Bestaande systemen pakken dit vaak aan door kandidaatgeneratie te scheiden van rangschikking. Een dergelijke ontkoppeling blijft echter niet afgestemd op het downstream nut, omdat de rangschikking wordt beperkt door de kandidaatset die zij ontvangt. Om deze kloof te overbruggen, stellen we een uniform raamwerk voor dat beide uitvoert binnen een enkele autoregressieve rollout en ze end-to-end optimaliseert via gefactoriseerde groepsrelatieve beleidsoptimalisatie (F-GRPO). Ons raamwerk factoriseert het beleid in kandidaatgeneratie en rangschikking, terwijl het één enkele LLM-backbone deelt, en traint ze gezamenlijk met een volgorde-invariante dekkingsbeloning en een positiebewuste nutsfunctiebeloning. Om het resulterende fase-specifieke credittoewijzingsprobleem aan te pakken, gebruiken we afzonderlijke groepsrelatieve voordelen voor generatie en rangschikking binnen een tweefasig sequentieniveau-doel. Op benchmarks voor sequentiële aanbevelingen en multi-hop vraagbeantwoording verbetert F-GRPO de best gerangschikte prestaties ten opzichte van GRPO en ontkoppelde baselines, presteert het beter dan gesuperviseerde alternatieven en blijft het concurrerend met sterke zero-shot herrangschikkers, zonder architecturale wijzigingen tijdens de inferentie.

Van generalistische naar specialistische representatie
From Generalist to Specialist Representation

May 12

ByYujia Zheng, Fan Feng, Yuke Li, Shaoan Xie, Kevin Murphy, Kun Zhang

Gegeven een generalistisch model is het leren van een taakrelevante specialistische representatie fundamenteel voor downstream-toepassingen. Identificeerbaarheid, de asymptotische garantie om de grondwaarheidsrepresentatie te herstellen, is cruciaal omdat deze de ultieme limiet van elk model vaststelt, zelfs met oneindige data en rekenkracht. We bestuderen dit probleem in een volledig niet-parametrische setting, zonder gebruik te maken van interventies, parametrische vormen of structurele beperkingen. We bewijzen eerst dat de structuur tussen tijdstappen en taken volledig ongesuperviseerd identificeerbaar is, zelfs wanneer sequenties strikte temporele afhankelijkheid missen en onderbroken kunnen zijn, en taaktoewijzingen willekeurig complexe en door elkaar lopende structuren kunnen volgen. Vervolgens bewijzen we dat, binnen elke tijdstap, de taakrelevante latente representatie kan worden ontward van het irrelevante deel onder een eenvoudige regularisatie voor schaarste, zonder enige aanvullende informatie of parametrische beperkingen. Samen leggen deze resultaten een hiërarchische basis: taakstructuur is identificeerbaar over tijdstappen heen, en taakrelevante latente representaties zijn identificeerbaar binnen elke stap. Voor zover wij weten biedt elk resultaat een eerste algemene niet-parametrische identificeerbaarheidsgarantie, en samen vormen ze een stap richting het bewijsbaar overgaan van generalistische naar specialistische modellen.

Frequentiebias en OOD-generalisatie in neurale operatoren onder een golfvergelijking met variabele coëfficiënten
Frequency Bias and OOD Generalization in Neural Operators under a Variable-Coefficient Wave Equation

May 13

ByRunlong Xie, An Luo

Neurale operatoren leren om begincondities af te beelden op de eindoplossing van partiële differentiaalvergelijkingen (PDV's), en vormen zo een surrogaat voor de volledige operatorafbeelding. Dit maakt snelle voorspellingen mogelijk voor verschillende invoerconfiguraties. Hoewel recente neurale operatorarchitecturen sterke prestaties hebben laten zien op diverse PDV-taken, blijft hun gedrag onder gestructureerde verschuivingen in de verdeling onvoldoende begrepen. Om dit te onderzoeken bestuderen we operatorleren in een golfvoortplantingscontext die wordt beschreven door een eendimensionale golfvergelijking met variabele coëfficiënten, met behulp van twee representatieve architecturen: de Fourier Neural Operator (FNO) en het Deep Operator Network (DeepONet). Om hun generalisatie onder verschuivingen in de verdeling te onderzoeken, beschouwen we gestructureerde out-of-distribution (OOD)-omgevingen die onafhankelijk de invoerfrequentie en de gladheid van de coëfficiënt variëren. De resultaten tonen aan dat onder verschuivingen in gladheid beide modellen stabiele prestaties behouden, waarbij FNO lagere fout bereikt. Daarentegen vertoont FNO onder frequentieverschuivingen een sterke toename in fout bij ongeziene hoogfrequente invoer, terwijl DeepONet een mildere achteruitgang laat zien, ondanks een hogere totale fout. Onze analyse laat zien dat deze verschillen voortkomen uit hoe elke architectuur variaties in frequentiestructuur representeert en erop reageert. Samen benadrukken deze bevindingen een fundamentele kloof tussen sterke prestaties binnen de verdeling en generalisatie onder verschuivingen in de verdeling bij operatorleren, en onderstrepen ze de rol van architecturale representatiebias bij het ontwikkelen van betrouwbaardere neurale operatoren voor fysica-gebaseerde PDV-simulaties buiten de trainingsverdeling.

M2Retinexformer: Multi-Modale Retinexformer voor Laaglichtbeeldverbetering
M2Retinexformer: Multi-Modal Retinexformer for Low-Light Image Enhancement

May 11

ByYoussef Aboelwafa, Hicham G. Elmongui, Marwan Torki

Verbetering van beelden met weinig licht is een uitdaging vanwege complexe degradaties, zoals versterkte ruis, artefacten en kleurvervorming. Hoewel op Retinex gebaseerde deep learning-methoden veelbelovende resultaten hebben opgeleverd, vertrouwen zij voornamelijk op enkelvoudige RGB-informatie. Wij stellen M2Retinexformer (Multi-Modal Retinexformer) voor, een nieuw raamwerk dat Retinexformer uitbreidt door dieptesignalen, luminantieprioriteiten en semantische kenmerken te integreren in een progressieve verfijningspijplijn. Diepte biedt geometrische context die invariant is voor lichtvariaties, terwijl luminantie- en semantische kenmerken expliciete begeleiding geven over helderheidsverdeling en scènebegrip. Modaliteiten worden op meerdere schalen geëxtraheerd en samengevoegd via kruisaandacht, met adaptieve gating die dynamisch de verlichtingsgestuurde zelfaandacht en kruisaandacht balanceert op basis van de betrouwbaarheid van hulpsignalen. Evaluaties op de LOL-, SID-, SMID- en SDSD-benchmarks tonen algehele verbeteringen aan ten opzichte van Retinexformer en recente state-of-the-art methoden. Code en voorgetrainde gewichten zijn beschikbaar op https://github.com/YoussefAboelwafa/M2Retinexformer.

Van pixels naar concepten: Begrijpen segmentatiemodellen wat ze segmenteren?
From Pixels to Concepts: Do Segmentation Models Understand What They Segment?

May 10

ByShuang Liang, Zeqing Wang, Yuxian Li, Xihui Liu, Han Wang

Segmentatie is een fundamentele visietaak die ten grondslag ligt aan talloze downstream-toepassingen. Recente promptbare segmentatiemodellen, zoals het Segment Anything Model 3 (SAM3), breiden segmentatie uit van categorie-agnostische maskervoorspelling naar conceptgestuurde lokalisatie, geconditioneerd op hoogwaardige tekstuele prompts. Bestaande benchmarks evalueren echter voornamelijk de maskernauwkeurigheid of de aanwezigheid van objecten, waardoor onduidelijk blijft of deze modellen het opgevraagde concept getrouw grondvesten of in plaats daarvan vertrouwen op visueel opvallende maar semantisch misleidende aanwijzingen. We introduceren CAFE: Counterfactual Attribute Factuality Evaluation (Evaluatie van tegenfeitelijke attribuutfeiten), een nieuwe benchmark voor het evalueren van conceptgetrouwe segmentatie in promptbare segmentatiemodellen. Onze CAFE is gebaseerd op tegenfeitelijke manipulatie op attribuutniveau: het doelgebied en het grondwaarheidsmasker worden behouden, terwijl attributen zoals uiterlijk van het oppervlak, context of materiaalsamenstelling worden gewijzigd om misleidende semantische aanwijzingen te introduceren. De benchmark bevat 2.146 gepaarde testvoorbeelden, elk bestaande uit een doelafbeelding, een grondwaarheidsmasker, een positieve prompt en een misleidende negatieve prompt. Deze voorbeelden beslaan drie tegenfeitelijke categorieën: Superficial Mimicry (SM), Context Conflict (CC) en Ontological Conflict (OC). We evalueren verschillende modeltypen en -groottes op onze CAFE. Experimenten onthullen een systematische kloof tussen lokalisatiekwaliteit en conceptdiscriminatie: modellen genereren vaak nauwkeurige maskers, zelfs voor misleidende prompts, wat suggereert dat sterke maskervoorspelling niet noodzakelijkerwijs getrouwe semantische grondvesting impliceert. Onze CAFE biedt een gecontroleerde benchmark voor het diagnosticeren of promptbare segmentatiemodellen conceptgetrouwe grondvesting uitvoeren in plaats van shortcut-gestuurde maskerterugwinning.

SafeHarbor: Hiërarchische geheugengeaugmenteerde veiligheidsbarrière voor LLM-agentveiligheid
SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety

May 7

ByZhe Liu, Zonghao Ying, Wenxin Zhang, Quanchen Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang, Hao Peng

Met de snelle evolutie van funderingsmodellen hebben Large Language Model (LLM)-agenten steeds krachtigere mogelijkheden voor toolgebruik gedemonstreerd. Deze vaardigheid brengt echter aanzienlijke veiligheidsrisico's met zich mee, aangezien kwaadwillende actoren agenten kunnen manipuleren om tools uit te voeren en schadelijke inhoud te genereren. Hoewel bestaande verdedigingsmechanismen effectief zijn, lijden ze vaak aan het over-weigeringsprobleem, waarbij een verhoogde veiligheidsstrengheid de bruikbaarheid van de agent voor goedaardige taken in gevaar brengt. Om deze afweging te verzachten, stellen we SafeHarbor voor, een nieuw raamwerk dat is ontworpen om precieze beslissingsgrenzen voor LLM-agenten vast te stellen. In tegenstelling tot statische richtlijnen extraheert SafeHarbor contextbewuste verdedigingsregels via verbeterde adversariële generatie. We ontwerpen een lokaal hiërarchisch geheugensysteem voor dynamische regelinjectie, wat een training-vrije, efficiënte en plug-and-play-oplossing biedt. Verder introduceren we een op informatie-entropie gebaseerd zelfevolutiemechanisme dat continu de geheugenstructuur optimaliseert door dynamische nodesplitsing en -samenvoeging. Uitgebreide experimenten tonen aan dat SafeHarbor state-of-the-art prestaties levert op zowel dubbelzinnige goedaardige taken als expliciete kwaadaardige aanvallen, met name het bereiken van een piek goedaardige bruikbaarheid van 63,6% op GPT-4o terwijl een robuust weigeringspercentage van meer dan 93% tegen schadelijke verzoeken wordt gehandhaafd. De broncode is openbaar beschikbaar op https://github.com/ljj-cyber/SafeHarbor.

Een empirische studie naar het automatiseren van agentenevaluatie
An Empirical Study of Automating Agent Evaluation

May 12

ByKang Zhou, Sangmin Woo, Haibo Ding, Kiran Ramnath, Subramanian Chidambaram, Aosong Feng, Vinayak Arannil, Muhyun Kim, Ishan Singh, Darren Wang, Zhichao Xu, Megha Gandhi, Nirmal Prabhu, Soumya Smruti Mishra, Vivek Singh, Gouri Pandeshwar, Lin Lee Cheong

Agentenevaluatie vereist het beoordelen van complexe meerstapsgedragingen waarbij gebruik wordt gemaakt van hulpmiddelen en tussentijdse redeneringen, wat het kostbaar en expertise-intensief maakt. Een voor de hand liggende vraag rijst: kunnen geavanceerde codeerassistenten dit evaluatieproces op betrouwbare wijze automatiseren? Onze studie toont aan dat het simpelweg aansturen van codeerassistenten onvoldoende is voor deze taak. Zonder domeinspecifieke evaluatiekennis behalen geavanceerde codeerassistenten slechts een uitvoeringssuccespercentage van 30% en produceren ze overontworpen evaluaties met gemiddeld 12+ metrieken per agent, wat aangeeft dat sterke codeervaardigheid niet automatisch leidt tot betrouwbare agentenevaluatie. We introduceren EvalAgent, een AI-assistent die de end-to-end agentenevaluatiepijplijn automatiseert. EvalAgent codeert evaluatiedomeinexpertise als evaluatievaardigheden (procedurele instructies, herbruikbare code en sjablonen, en dynamisch opgehaalde API-documentatie) die samen een traceerbare pijplijn vormen die volledige evaluatieartefacten produceert, waaronder metrieken, uitvoerbare code en rapporten. Om gegenereerde evaluaties systematisch te beoordelen, introduceren we een meta-evaluatiekader samen met AgentEvalBench, een benchmark bestaande uit 20 agenten, elk gekoppeld aan evaluatievereisten en testsituaties. Verder stellen we de Eval@1-metriek voor om te meten of gegenereerde evaluatiecode zowel wordt uitgevoerd als zinvolle resultaten oplevert bij de eerste run. Onze experimenten tonen aan dat EvalAgent gerichte evaluaties produceert, met een verbetering van Eval@1 van 17,5% naar 65% en een menselijke expertvoorkeur van 79,5% ten opzichte van basisbenaderingen. Verdere ablatiestudies tonen aan dat evaluatievaardigheden cruciaal zijn voor het afhandelen van complexe evaluaties: het verwijderen ervan zorgt dat Eval@1 aanzienlijk daalt van 65% naar 30%.

ShapeCodeBench: Een Hernieuwbare Benchmark voor Perceptie-naar-Programma Reconstructie van Synthetische Vormscènes
ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes

May 12

ByShivam Kumar

Wij introduceren ShapeCodeBench, een synthetische benchmark voor perceptie-naar-programma-reconstructie: gegeven een gerenderde rasterafbeelding moet een model een uitvoerbaar tekenprogramma genereren dat een deterministische evaluator opnieuw rendert en vergelijkt met het doel. De v1 DSL heeft vier primitieven op een 512×512 zwart-op-wit canvas, maar elke instantie wordt gegenereerd uit een gezaaide RNG, zodat er nieuwe aparte sets kunnen worden aangemaakt om exacte-instantiebesmetting te verminderen. Wij publiceren een bevroren eval_v1-splitsing met 150 voorbeelden verdeeld over gemakkelijke, middelmatige en moeilijke niveaus, gescoord op exacte overeenkomst, pixelnauwkeurigheid, voorgrond-IoU, parseersucces en uitvoeringssucces. Wij evalueren een lege-programma-baseline, een klassieke computer vision-heuristiek, Claude Opus 4.7 op hoog en maximaal inzetniveau, en GPT-5.5 op gemiddeld en extra hoog redeneerniveau. De heuristiek is concurrerend op gemakkelijke scènes maar stort in wanneer overlappingen componenten samensmelten; de sterkste multimodale configuratie behoudt veel van de voorgrondstructuur maar mist nog steeds exacte overeenkomst vanwege kleine parameterfouten. De beste algehele exacte overeenkomst blijft laag, dus ShapeCodeBench is verre van verzadigd. De benchmarkcode, de bevroren dataset, de uitvoeringsartefacten en de paperbronnen worden vrijgegeven om onafhankelijke replicatie en uitbreiding te ondersteunen.

Federatie van Experts: Communicatie-efficiënte Gedistribueerde Inferentie voor Grote Taalmodellen
Federation of Experts: Communication Efficient Distributed Inference for Large Language Models

May 7

ByMuhammad Shahir Abdurrahman, Chun Deng, Azalia Mirhoseini, Philip Levis

Mengsel van Experts is uitgegroeid tot het primaire mechanisme om grote taalmodellen (Large Language Models, LLMs) rekenkundig efficiënt te maken. In gedistribueerde omgevingen vormt de communicatie van token-embeddings tussen experts echter een aanzienlijke bottleneck. We presenteren de nieuwe Federatie van Experts (Federation of Experts, FoE)-architectuur. FoE herstructureert het MoE-blok van een transformerlaag in meerdere MoE-clusters. Elk cluster is verantwoordelijk voor slechts één van de KV-koppen, en er wordt expert-parallellisme toegepast tussen deze experts. Tussen clusters zorgt een som voor synchronisatie van de post-attention-residuen, die vervolgens de routering en verzending naar het volgende MoE-blok aanstuurt. In een single-node-opstelling elimineert FoE alle all-to-all-communicatie, omdat alle experts binnen een groep zich op dezelfde GPU bevinden. In multi-node-opstellingen beperkt FoE de all-to-all-communicatie tot het intra-node-netwerk, waardoor de communicatie-overhead aanzienlijk wordt verminderd. Een implementatie van FoE toont aan dat op LongBench FoE de inferentiedoorvoer en latentie significant verbetert, zowel in single-node- als multi-node-opstellingen, met een reductie van de end-to-end forward-pass-latentie met tot 5,2×, TTFT met 3,62× en TBT met 1,95×. Dit wordt bereikt met een generatiekwaliteit die vergelijkbaar is met die van een Mengsel van Experts-model van dezelfde omvang en trainingsconfiguratie.

WriteSAE: Sparse Auto-encoders voor Recurrente Toestand
WriteSAE: Sparse Autoencoders for Recurrent State

May 12

ByJack Young

Wij introduceren WriteSAE, de eerste sparse autoencoder die de matrix-cache-schrijfhandeling van toestandsruimte- en hybride recurrente taalmodellen ontleedt en bewerkt, waar residuele SAE’s niet bij kunnen. Bestaande SAE’s lezen residuele stromen, maar Gated DeltaNet, Mamba-2 en RWKV-7 schrijven naar een d_k bij d_v cache via rang-1-updates k_t v_t^top die geen vectoratoom kan vervangen. WriteSAE ontleedt elk decoderatoom in de oorspronkelijke schrijfvorm, legt een gesloten vorm bloot voor de per-token logitverschuiving, en traint onder een gematchte Frobenius-norm zodat atomen telkens één cacheslot verwisselen. Atoomsubstitutie verslaat gematchte-norm-ablatie op 92,4% van n=4.851 ontladingen bij Qwen3.5-0.8B L9 H4, de 87-atoom populatietest staat op 89,8%, de gesloten vorm voorspelt gemeten effecten met R²=0,98, en Mamba-2-370M substitueert op 88,1% over 2.500 ontladingen. Aanhoudende drieposities-installaties realiseren een 3x verhoging van het midrank-doel-in-continuatie van 33,3% naar 100% onder greedy decoding, de eerste gedragsinstallatie op de matrix-recurrente schrijfplaats.

FlowCompile: Een optimaliserende compiler voor gestructureerde LLM-workflows
FlowCompile: An Optimizing Compiler for Structured LLM Workflows

May 13

ByJunyan Li, Zhang-Wei Hong, Maohao Shen, Yang Zhang, Chuang Gan

Gestructureerde LLM-werkstromen, waarin gespecialiseerde LLM-subagenten uitvoeren volgens een vooraf gedefinieerde graaf, zijn uitgegroeid tot een krachtige abstractie voor het oplossen van complexe taken. Het optimaliseren van dergelijke werkstromen, d.w.z. het selecteren van configuraties voor elke subagent om nauwkeurigheid en latentie in evenwicht te brengen, is uitdagend vanwege de combinatorische ontwerpruimte over modelkeuzes, redeneerbudgetten en werkstroomstructuren. Bestaande kostenbewuste methoden behandelen werkstrooptimalisatie grotendeels als een routeringsprobleem, waarbij tijdens de inferentie voor elke query een configuratie wordt geselecteerd op basis van de tijdens de training gebruikte nauwkeurigheid-latentiedoelstelling. Wij stellen dat gestructureerde LLM-werkstromen ook vanuit een compilatieperspectief kunnen worden geoptimaliseerd: vóór implementatie kan het systeem de werkstroomontwerpruimte globaal verkennen en een herbruikbare set werkstroomniveauconfiguraties construeren die een breed scala aan afwegingen tussen nauwkeurigheid en latentie omvat. Geïnspireerd door machine learning-compilers introduceren wij FlowCompile, een gestructureerde LLM-werkstroomcompiler die compilatietijdontwerpruimteverkenning uitvoert om een hoogwaardige, herbruikbare afwegingenset te identificeren. FlowCompile ontleedt een werkstroom in subagenten, profileert elke subagent onder diverse configuraties en combineert deze metingen via een structuurbewuste proxy om de werkstroomniveau-nauwkeurigheid en -latentie te schatten. Vervolgens identificeert het in een enkele compilatietijdpassage diverse hoogwaardige configuraties, zonder hertraining of online aanpassing. Experimenten met diverse werkstromen en uitdagende benchmarks tonen aan dat FlowCompile consequent beter presteert dan heuristisch geoptimaliseerde werkstroomconfiguraties en routeringsgebaseerde basislijnen, met een versnelling tot 6,4x. De gecompileerde configuratieset dient verder als een herbruikbaar optimalisatie-artefact, waardoor flexibele implementatie onder variërende runtime-voorkeuren mogelijk is en stroomafwaartse selectie of routering wordt ondersteund.

Actieve Tabulaire Augmentatie via Policy-Gestuurde Diffusie-Inpainting
Active Tabular Augmentation via Policy-Guided Diffusion Inpainting

May 11

ByZheyu Zhang, Shuo Yang, Bardh Prenkaj, Gjergji Kasneci

Generatieve tabelaugmentatie is aantrekkelijk in domeinen met schaarse gegevens, maar de heersende nadruk op distributionele getrouwheid leidt niet betrouwbaar tot betere stroomafwaartse modellen. We formaliseren een getrouwheid-nutskloof: gangbare generatieve doelstellingen geven prioriteit aan distributionele plausibiliteit, terwijl augmentatie alleen slaagt wanneer ingebrachte monsters het evaluatieverlies op de weggelaten data van de huidige lerende verlagen. Deze kloof motiveert het leren van niet alleen hoe te genereren, maar ook wat te genereren en wanneer in te brengen naarmate de training vordert. We stellen TAP (Tabular Augmentation Policy) voor, dat diffusie-inpainting koppelt aan een lichtgewicht, op de leerder geconditioneerd beleid om generatie naar hoog-nuttige regio's te sturen en veilige injectie controleert via expliciete poortschakeling en conservatief venstergebonden commitment. Onder ernstige gegevensschaarste presteert TAP consequent beter dan sterke generatieve baselines op zeven real-world datasets, met een verbetering van de classificatienauwkeurigheid tot 15,6 procentpunt en een vermindering van de regressie-RMSE tot 32%.

Leren exploreren: het opschalen van agentisch redeneren via exploratiebewuste beleidsoptimalisatie
Learning to Explore: Scaling Agentic Reasoning via Exploration-Aware Policy Optimization

May 12

ByXingyuan Hua, Sheng Yue, Ju Ren

Recente vooruitgang in agentische testtijdschaling stelt modellen in staat om omgevingsfeedback te verzamelen alvorens definitieve acties te ondernemen. Een belangrijke beperking van bestaande methoden is dat ze doorgaans ongedifferentieerde exploratiestrategieën hanteren, zonder het vermogen om adaptief te onderscheiden wanneer exploratie daadwerkelijk nodig is. In dit artikel introduceren we een exploratiebewust raamwerk voor reinforcement learning dat LLM-agenten in staat stelt alleen adaptief te exploreren wanneer de onzekerheid hoog is. Onze methode introduceert een fijnmazige beloningsfunctie via variationele inferentie die exploratieve acties expliciet evalueert door hun potentieel om toekomstige besluitvorming te verbeteren te schatten, samen met een exploratiebewust groeperingsmechanisme dat exploratieve acties scheidt van taakvoltooiingsacties tijdens optimalisatie. Door zich te richten op informatielacunes stelt dit ontwerp agenten in staat selectief te exploreren en over te gaan tot uitvoering zodra de taakcontext duidelijk is. Empirisch tonen we aan dat onze aanpak consistente verbeteringen behaalt over een reeks uitdagende tekstgebaseerde en GUI-gebaseerde agent-benchmarks. Code is beschikbaar op https://github.com/HansenHua/EAPO-ICML26 en modellen zijn beschikbaar op https://huggingface.co/hansenhua/EAPO-ICML26.