Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Naarmate hoogwaardige publieke tekstbronnen uitgeput raken, een fenomeen bekend als de 'Data Wall', verschuift pre-training van meer tokens naar betere tokens. Bestaande methoden vertrouwen echter op heuristische statische filters die trainingsdynamiek negeren, of gebruiken dynamische maar optimizer-agnostische criteria gebaseerd op ruwe gradients. Wij stellen OPUS voor (Optimizer-induced Projected Utility Selection), een dynamisch dataselectiekader dat nuttigheid definieert in de door de optimizer geïnduceerde update-ruimte. OPUS scoort kandidaat-tokens door hun effectieve updates, gevormd door moderne optimizers, te projecteren op een doelrichting afgeleid van een stabiele, in-distributie proxy. Voor schaalbaarheid gebruiken we de Ghost-techniek met CountSketch voor computationele efficiëntie, en Boltzmann-steekproeven voor datadiversiteit, met slechts 4,7% extra rekenoverhead. OPUS behaalt opmerkelijke resultaten across diverse corpora, kwaliteitsniveaus, optimizers en modelschalen. In pre-training van GPT-2 Large/XL op FineWeb en FineWeb-Edu met 30B tokens, overtreft OPUS industriële benchmarks en zelfs volledige training met 200B tokens. Bovendien verbetert OPUS, gecombineerd met industriële statische filters, de pre-trainingsefficiëntie verder, zelfs met data van lagere kwaliteit. In voortgezette pre-training van Qwen3-8B-Base op SciencePedia bereikt OPUS superieure prestaties met slechts 0,5B tokens vergeleken met volledige training met 3B tokens, wat significante data-efficiëntiewinst aantoont in gespecialiseerde domeinen.
Autonome GUI-agenten interageren met omgevingen door interfaces waar te nemen en acties uit te voeren. Als virtuele sandbox stelt het GUI World-model agenten in staat om menselijk vooruitziend vermogen te verkrijgen door middel van actie-gestuurde voorspelling. Bestaande op tekst en pixels gebaseerde methoden slagen er echter niet in om tegelijkertijd hoge visuele kwaliteit en fijnmazige structurele beheersbaarheid te bereiken. Daarom stellen wij Code2World voor, een vision-language coder die de volgende visuele toestand simuleert via renderbare code-generatie. Specifiek, om het probleem van dataschaarste aan te pakken, construeren wij AndroidCode door GUI-trajecten om te zetten in hoogwaardige HTML en de gesynthetiseerde code te verfijnen via een revisiemechanisme met visuele feedback, wat resulteert in een corpus van meer dan 80K hoogwaardige scherm-actieparen. Om bestaande VLMs aan te passen voor codevoorspelling, voeren we eerst SFT uit als een koude start voor het volgen van formaatlay-outs, en passen we vervolgens Render-Aware Reinforcement Learning toe, waarbij de gerenderde uitkomst als beloningssignaal wordt gebruikt door visuele semantische trouw en actieconsistentie af te dwingen. Uitgebreide experimenten tonen aan dat Code2World-8B de beste prestaties levert voor volgende UI-voorspelling en kan rivaliseren met de competitieve GPT-5 en Gemini-3-Pro-Image. Opmerkelijk is dat Code2World op een flexibele manier de slagingspercentages voor downstream navigatie aanzienlijk verbetert, door Gemini-2.5-Flash met +9,5% te verbeteren op AndroidWorld-navigatie. De code is beschikbaar op https://github.com/AMAP-ML/Code2World.
GUI-agents zijn een krachtig paradigma geworden voor het automatiseren van interacties in digitale omgevingen, maar het bereiken van zowel brede generaliteit als consistente sterke taakprestaties blijft een uitdaging. In dit rapport presenteren we UI-Venus-1.5, een uniforme, end-to-end GUI-agent die is ontworpen voor robuuste toepassingen in de praktijk. De voorgestelde modellenfamilie bestaat uit twee *dense* varianten (2B en 8B) en één *mixture-of-experts* variant (30B-A3B) om aan verschillende downstream-toepassingsscenario's te voldoen. Vergeleken met onze vorige versie introduceert UI-Venus-1.5 drie belangrijke technische verbeteringen: (1) een uitgebreide *Mid-Training*-fase met gebruikmaking van 10 miljard tokens uit meer dan 30 datasets om een fundamentele GUI-semantiek te vestigen; (2) *Online Reinforcement Learning* met volledige traject-uitvoeringen, waardoor de trainingsdoelen worden afgestemd op navigatie op lange termijn in dynamische, grootschalige omgevingen; en (3) een enkele uniforme GUI-agent, geconstrueerd via *Model Merging*, die domeinspecifieke modellen (*grounding*, web en mobiel) synthetiseert tot één samenhangend checkpoint. Uitgebreide evaluaties tonen aan dat UI-Venus-1.5 nieuwe state-of-the-art prestaties vestigt op benchmarks zoals ScreenSpot-Pro (69,6%), VenusBench-GD (75,0%) en AndroidWorld (77,6%), en daarmee eerdere sterke baselines significant overtreft. Bovendien toont UI-Venus-1.5 robuuste navigatiecapaciteiten in diverse Chinese mobiele apps, waarbij gebruikersinstructies effectief worden uitgevoerd in realistische scenario's. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus
Menselijk probleemoplossen is nooit de herhaling van een enkele denkwijze, waarmee we een afzonderlijke modus van cognitieve verwerking bedoelen. Bij het aanpakken van een specifieke taak vertrouwen we niet op één enkele denkwijze; in plaats daarvan integreren we meerdere denkwijzen binnen het enige oplossingsproces. Bestaande LLM-redeneermethoden vallen echter in een veelvoorkomende valkuil: ze passen dezelfde vaste denkwijze toe in alle stappen, waarbij over het hoofd wordt gezien dat verschillende fasen van hetzelfde probleem fundamenteel verschillende denkwijzen vereisen. Deze eenzijdige aanname voorkomt dat modellen het volgende intelligentieniveau bereiken. Om deze beperking aan te pakken, stellen we Chain of Mindset (CoM) voor, een trainingsvrij agentframework dat stapniveau-adaptieve orkestratie van denkwijzen mogelijk maakt. CoM deelt redeneren op in vier functioneel heterogene denkwijzen: Ruimtelijk, Convergent, Divergent en Algoritmisch. Een Meta-Agent selecteert dynamisch de optimale denkwijze op basis van de evoluerende redeneertoestand, terwijl een bidirectionele Contextpoort de informatiestroom tussen modules filtert om effectiviteit en efficiëntie te behouden. Experimenten over zes uitdagende benchmarks op het gebied van wiskunde, codegeneratie, wetenschappelijke Q&A en ruimtelijk redeneren tonen aan dat CoM state-of-the-art prestaties bereikt, met een verbetering van 4,96% en 4,72% in algemene nauwkeurigheid ten opzichte van de sterkste baseline op respectievelijk Qwen3-VL-32B-Instruct en Gemini-2.0-Flash, waarbij tevens de redeneerefficiëntie in balans wordt gehouden. Onze code is openbaar beschikbaar op https://github.com/QuantaAlpha/chain-of-mindset.
Grote Taalmodellen (LLM) als agents leveren indrukwekkende resultaten bij complexe taken, maar opereren vaak geïsoleerd en leren niet van eerdere ervaringen. Bestaande methoden op basis van geheugen slaan voornamelijk ruwe trajecten op, die vaak redundant zijn en veel ruis bevatten. Hierdoor kunnen agents geen hoogwaardige, herbruikbare gedragspatronen extraheren die essentieel zijn voor generalisatie. In dit artikel stellen we SkillRL voor, een raamwerk dat de kloof tussen ruwe ervaring en beleidsverbetering overbrugt door automatische vaardigheidsontdekking en recursieve evolutie. Onze aanpak introduceert een op ervaring gebaseerd distillatiemechanisme om een hiërarchische vaardighedenbibliotheek (SkillBank) op te bouwen, een adaptieve retrievestrategie voor algemene en taakspecifieke heuristieken, en een recursief evolutiemechanisme waarmee de vaardighedenbibliotheek kan co-evolueren met het beleid van de agent tijdens reinforcement learning. Deze innovaties verminderen de token-footprint aanzienlijk en verbeteren tegelijkertijd de redeneernuttigheid. Experimentele resultaten op ALFWorld, WebShop en zeven taken met zoekversterking tonen aan dat SkillRL state-of-the-art prestaties bereikt, sterke baseline-methoden met meer dan 15,3% overtreft en robuustheid behoudt naarmate de taakcomplexiteit toeneemt. Code is beschikbaar op https://github.com/aiming-lab/SkillRL.
De overgang van symbolische manipulatie naar wetenschappelijk-kwalitatief redeneren vormt een cruciaal front voor Grote Taalmodellen (LLM's), waarbij natuurkunde dient als het essentiële testanker om abstracte logica aan de fysieke realiteit te verbinden. Natuurkunde vereist dat een model fysieke consistentie handhaaft met de wetten die het universum beheersen, een taak die fundamenteel multimodale perceptie vereist om abstracte logica in de realiteit te verankeren. Op Olympiadeniveau zijn diagrammen vaak constitutief in plaats van illustratief; ze bevatten essentiële beperkingen, zoals randvoorwaarden en ruimtelijke symmetrieën, die afwezig zijn in de tekst. Om deze visueel-logische kloof te overbruggen, introduceren wij P1-VL, een familie van open-source vision-language modellen, ontworpen voor geavanceerd wetenschappelijk redeneren. Onze methode harmonieert Curriculum Reinforcement Learning, dat progressieve moeilijkheidsuitbreiding gebruikt om post-training te stabiliseren, met Agentic Augmentation, wat iteratieve zelfverificatie tijdens inferentie mogelijk maakt. Geëvalueerd op HiPhO, een rigoureus benchmarkplatform bestaande uit 13 examens van 2024-2025, wordt ons vlaggenschip P1-VL-235B-A22B het eerste open-source Vision-Language Model (VLM) dat 12 gouden medailles behaalt en bereikt het state-of-the-art prestaties onder de open-source modellen. Ons agent-augmented systeem behaalt de 2e algemene positie wereldwijd, slechts gevolgd door Gemini-3-Pro. Buiten de natuurkunde toont P1-VL een opmerkelijke wetenschappelijke redeneercapaciteit en generaliseerbaarheid, en vestigt het een significante voorsprong op basismodellen in STEM-benchmarks. Door P1-VL open source te maken, zetten we een fundamentele stap richting algemeen-toepasbare fysieke intelligentie om visuele waarnemingen beter af te stemmen op abstracte natuurwetten voor wetenschappelijke ontdekking door machines.
Recente vooruitgang in grote taalmodellen (LLM's) heeft autonome agents in staat gesteld complexe taken uit te voeren die multi-turn interacties met tools en omgevingen vereisen. Het schalen van dergelijke agenttraining wordt echter beperkt door een gebrek aan diverse en betrouwbare omgevingen. In dit artikel stellen we Agent World Model (AWM) voor, een volledig synthetische pijplijn voor het genereren van omgevingen. Met deze pijplijn schalen we op naar 1.000 omgevingen die alledaagse scenario's bestrijken, waarin agents kunnen interacteren met uitgebreide toolsets (gemiddeld 35 tools per omgeving) en hoogwaardige observaties kunnen verkrijgen. Opmerkelijk is dat deze omgevingen code-gedreven en ondersteund door databases zijn, wat betrouwbaardere en consistentere toestandsovergangen biedt dan omgevingen gesimuleerd door LLM's. Bovendien maken ze efficiëntere agentinteractie mogelijk in vergelijking met het verzamelen van trajecten uit realistische omgevingen. Om de effectiviteit van deze bron aan te tonen, voeren we grootschalige reinforcement learning uit voor multi-turn agents die tools gebruiken. Dankzij de volledig uitvoerbare omgevingen en toegankelijke databasetoestanden kunnen we ook betrouwbare beloningsfuncties ontwerpen. Experimenten op drie benchmarks tonen aan dat training uitsluitend in synthetische omgevingen, in plaats van benchmarkspecifieke, sterke out-of-distribution generalisatie oplevert. De code is beschikbaar op https://github.com/Snowflake-Labs/agent-world-model.
Blok-sparse aandacht is veelbelovend voor het versnellen van het pre-fillen van LLM's met lange context, maar het efficiënt identificeren van relevante blokken blijft een knelpunt. Bestaande methoden gebruiken typisch grofkorrelige aandacht als benadering voor het schatten van blokimportantie, maar nemen vaak hun toevlucht tot dure token-level zoekopdrachten of scoring, wat leidt tot aanzienlijke selectie-overhead. In dit werk herleiden we de onnauwkeurigheid van standaard grofkorrelige aandacht via gemiddelde pooling naar een theoretische oorzaak: de interactie tussen gemiddelde pooling en Rotary Positional Embeddings (RoPE). Wij bewijzen dat gemiddelde pooling fungeert als een laagdoorlaatfilter dat destructieve interferentie induceert in hoogfrequente dimensies, wat effectief een "blinde vlek" creëert voor lokale positionele informatie (bijv., slash-patronen). Om dit aan te pakken, introduceren we Prism, een trainingsvrije spectraal-bewuste aanpak die blokselectie decomposeert in hoogfrequente en laagfrequente takken. Door op energie gebaseerde temperatuurkalibratie toe te passen, herstelt Prism de verzwakte positionele signalen direct uit de gepoolde representaties, waardoor blokimportantieschatting mogelijk wordt met puur blok-level operaties, wat de efficiëntie verbetert. Uitgebreide evaluaties bevestigen dat Prism de nauwkeurigheid van volledige aandacht evenaart en tegelijkertijd een versnelling tot 5,1 keer oplevert.
Onlangs hebben Diffusion Large Language Models (dLLM's) unieke efficiëntievoordelen aangetoond, mogelijk gemaakt door hun inherent parallelle decodeermechanisme en flexibele generatieparadigma. Ondertussen wordt de praktische inzet van zoekagentschappen, ondanks hun snelle ontwikkeling, beperkt door een fundamentele uitdaging, namelijk: 1) De latentie-uitdaging: de seriële uitvoering van multi-round redenering, tool-aanroepingen en het wachten op tool-antwoorden onder het ReAct-agentparadigma veroorzaakt ernstige end-to-end latentie. Intuïtief gezien kunnen dLLM's hun onderscheidende sterke punten benutten om de operationele efficiëntie van agentschappen onder het ReAct-agentparadigma te optimaliseren. In de praktijk kampen bestaande dLLM-backbones echter met de 2) Agent-vaardigheidsuitdaging. Dat wil zeggen, bestaande dLLM's vertonen opmerkelijk zwakke redeneer- en tool-aanroepcapaciteiten, waardoor deze voordelen in de praktijk niet effectief gerealiseerd kunnen worden. In dit artikel stellen we DLLM-Searcher voor, een optimalisatieraamwerk voor op dLLM gebaseerde zoekagentschappen. Om de Agent-vaardigheidsuitdaging op te lossen, ontwerpen we een tweefasen post-training pipeline bestaande uit Agentic Supervised Fine-Tuning (Agentic SFT) en Agentic Variance-Reduced Preference Optimization (Agentic VRPO), waarmee de informatiezoek- en redeneercapaciteiten van de backbone dLLM worden verbeterd. Om de latentie-uitdaging te mitigeren, benutten we het flexibele generatiemechanisme van dLLM's en stellen we een nieuw agentparadigma voor, genaamd Parallel-Reasoning and Acting (P-ReAct). P-ReAct leidt het model ertoe om prioriteit te geven aan het decoderen van tool_aanroep-instructies, waardoor het model kan blijven nadenken terwijl het wacht op de terugkeer van de tool. Experimentele resultaten tonen aan dat DLLM-Searcher prestaties bereikt die vergelijkbaar zijn met mainstream op LLM gebaseerde zoekagentschappen en dat P-ReAct een inferentieversnelling van ongeveer 15% oplevert. Onze code is beschikbaar op https://anonymous.4open.science/r/DLLM-Searcher-553C.
Multi-agent LLM-systemen maken geavanceerd redeneren en gereedschapsgebruik mogelijk via specialisatie van rollen, maar betrouwbare reinforcement learning (RL) na de training voor dergelijke systemen blijft moeilijk. In dit werk wijzen we theoretisch een belangrijke oorzaak aan van trainingsinstabiliteit bij het uitbreiden van op groepen gebaseerde RL naar multi-agent LLM-systemen. We tonen aan dat onder GRPO-stijl optimalisatie, een globale normalisatie-baseline kan afwijken van de diverse beloningsverdelingen van agents, wat uiteindelijk leidt tot gradient-norm instabiliteit. Gebaseerd op deze bevinding stellen we Dr. MAS voor, een eenvoudig en stabiel RL-trainingsrecept voor multi-agent LLM-systemen. Dr. MAS gebruikt een agent-gerichte oplossing: het normaliseren van voordelen per agent met behulp van de eigen beloningsstatistieken van elke agent, wat de gradientschalen kalibreert en de training zowel theoretisch als empirisch aanzienlijk stabiliseert. Naast het algoritme biedt Dr. MAS een end-to-end RL-trainingsraamwerk voor multi-agent LLM-systemen, met ondersteuning voor schaalbare orchestratie, flexibele per-agent LLM-serving en optimalisatieconfiguraties, en gedeelde resourceplanning van LLM-actor-backends. We evalueren Dr. MAS op multi-agent wiskundig redeneer- en multi-turn zoekbenchmarks met behulp van Qwen2.5- en Qwen3-serie modellen. Dr. MAS behaalt duidelijke verbeteringen ten opzichte van standaard GRPO (bijv. +5,6% avg@16 en +4,6% pass@16 op wiskunde, en +15,2% avg@16 en +13,1% pass@16 op zoeken) terwijl gradientpieken grotendeels worden geëlimineerd. Bovendien blijft het zeer effectief onder heterogene agent-modeltoewijzingen terwijl de efficiëntie verbetert.
Wij bestuderen instructiegebaseerde beeldbewerking volgens professionele workflows en identificeren drie hardnekkige uitdagingen: (i) editors passen vaak overbewerking toe, waarbij ze meer content wijzigen dan de bedoeling van de gebruiker is; (ii) bestaande modellen zijn grotendeels enkelvoudig (single-turn), terwijl bewerkingen in meerdere stappen (multi-turn) de getrouwheid van objecten kunnen aantasten; en (iii) evaluatie bij ongeveer 1K-resolutie is niet in lijn met echte workflows die vaak werken met ultrahoogwaardige beelden (bijv. 4K). Wij stellen Agent Banana voor, een hiërarchisch agent-gebaseerd planner-uitvoerder raamwerk voor hoogwaardige, objectbewuste en weloverwogen beeldbewerking. Agent Banana introduceert twee belangrijke mechanismen: (1) Context Folding, dat lange interactiegeschiedenissen comprimeert tot gestructureerd geheugen voor stabiele controle over lange trajecten; en (2) Beeldlaagdecompositie, dat gelokaliseerde bewerkingen op basis van lagen uitvoert om niet-doelgebieden te behouden en tegelijkertijd uitvoer op native resolutie mogelijk maakt. Om rigoureuze evaluatie te ondersteunen, bouwden wij HDD-Bench, een hoogwaardige, op dialoog gebaseerde benchmark met verifieerbare stapsgewijze doelen en native 4K-beelden (11,8 miljoen pixels) voor het diagnosticeren van fouten over lange trajecten. Op HDD-Bench behaalt Agent Banana de beste consistentie over meerdere stappen en achtergrondgetrouwheid (bijv. IC 0,871, SSIM-OM 0,84, LPIPS-OM 0,12), terwijl het concurrerend blijft wat betreft het opvolgen van instructies, en laat het ook sterke prestaties zien op standaard benchmarks voor enkelvoudige bewerking. Wij hopen dat dit werk betrouwbare, professionele agent-gebaseerde beeldbewerking en de integratie daarvan in echte workflows bevordert.
Het schalen van actie-bestuurbare wereldmodellen wordt beperkt door de schaarste aan actielabels. Hoewel latent actieleren de belofte inhoudt om besturingsinterfaces te extraheren uit ongelabelde video, slagen geleerde latenties er vaak niet in om over contexten heen te transfereren: ze verstrengelen context-specifieke signalen en missen een gedeeld coördinatensysteem. Dit gebeurt omdat standaarddoelstellingen alleen binnen elke clip opereren, zonder mechanisme om actiesemantiek tussen contexten uit te lijnen. Ons belangrijkste inzicht is dat hoewel acties niet geobserveerd worden, hun semantische effecten wel observeerbaar zijn en kunnen dienen als een gedeelde referentie. Wij introduceren SeqΔ-REPA, een sequentie-niveau controle-effect aligneringsdoelstelling die geïntegreerde latente actie verankert aan temporele featureverschillen van een bevroren, zelf-gesuperviseerde videocodering. Hierop voortbouwend presenteren we Olaf-World, een pijplijn die actie-geconditioneerde videowereldmodellen voor-traint op grootschalige passieve video. Uitgebreide experimenten tonen aan dat onze methode een meer gestructureerde latente actieruimte leert, wat leidt tot sterkere zero-shot actietransfer en een data-efficiëntere aanpassing aan nieuwe besturingsinterfaces dan state-of-the-art baselines.
Grote taalmodellen (LLM's) worden steeds vaker gebruikt in softwareontwikkeling, maar hun neiging om onveilige code te genereren blijft een grote barrière voor praktische implementatie. Bestaande methoden voor het afstemmen van veilige code lijden vaak onder een functionaliteit-veiligheid-paradox, waarbij veiligheid wordt verbeterd ten koste van aanzienlijk functieverlies. Wij stellen SecCoderX voor, een online reinforcement learning-framework voor het genereren van veilige code die functionaliteit behoudt. SecCoderX verbindt eerst kwetsbaarheidsdetectie en het genereren van veilige code door volwassen detectiebronnen op twee manieren te hergebruiken: (i) het synthetiseren van diverse, op de realiteit gebaseerde codeertaken die kwetsbaarheden veroorzaken voor online RL-rollouts, en (ii) het trainen van een op redenering gebaseerd kwetsbaarheidsbeloningsmodel dat schaalbare en betrouwbare veiligheidstoezicht biedt. Samen worden deze componenten verenigd in een online RL-lus om code-LLM's af te stemmen op het genereren van veilige en functionele code. Uitgebreide experimenten tonen aan dat SecCoderX state-of-the-art prestaties bereikt, waarbij de Effectieve Veiligheidsratio (ESR) met ongeveer 10% verbetert ten opzichte van niet-afgestemde modellen, terwijl eerdere methoden de ESR vaak met 14-54% verslechteren. Wij geven onze code, dataset en modelcheckpoints vrij op https://github.com/AndrewWTY/SecCoderX.
Autoregressieve videogeneratie maakt lange videosynthese mogelijk door elke nieuwe reeks frames iteratief te conditioneren op eerder gegenereerde inhoud. Recent onderzoek heeft echter aangetoond dat dergelijke pijplijnen lijden onder ernstige temporele drift, waarbij fouten zich over lange tijdshorizonten opstapelen en versterken. Wij veronderstellen dat deze drift niet primair voortkomt uit onvoldoende modelcapaciteit, maar veeleer uit foutpropagatie tijdens de inferentiefase. Concreet stellen wij dat drift ontstaat door het ongecontroleerde hergebruik van gecorrumpeerde latente conditioneringstokens tijdens autoregressieve inferentie. Om deze opeenstapeling van fouten te corrigeren, stellen wij een eenvoudige methode voor tijdens de inferentie die temporele drift vermindert door onstabiele latente tokens te identificeren en te verwijderen voordat ze worden hergebruikt voor conditionering. Hiertoe definiëren wij onstabiele tokens als latente tokens waarvan de representaties significant afwijken van die van de eerder gegenereerde reeks, wat duidt op mogelijke corruptie of semantische drift. Door expliciet gecorrumpeerde latente tokens uit de autoregressieve context te verwijderen, in plaats van hele ruimtelijke regio's of modelparameters aan te passen, voorkomt onze methode dat onbetrouwbare latente informatie toekomstige generatiestappen beïnvloedt. Het resultaat is een aanzienlijke verbetering van de temporele consistentie over lange horizonnen, zonder aanpassing van de modelarchitectuur, trainingsprocedure of het verlaten van de latente ruimte.
Het omvormen van een groot taalmodel (LLM) naar een vision-language model (VLM) kan worden bereikt door de visuele tokens van een vision-encoder af te beelden naar de embeddedingsruimte van een LLM. Opmerkelijk genoeg kan deze afbeelding zo eenvoudig zijn als een ondiepe MLP-transformatie. Om te begrijpen waarom LLM's visuele tokens zo gemakkelijk kunnen verwerken, hebben we interpreteerbaarheidsmethoden nodig die onthullen wat er is gecodeerd in de visuele tokenrepresentaties in elke laag van de LLM-verwerking. In dit werk introduceren we LatentLens, een nieuwe benadering voor het afbeelden van latente representaties naar beschrijvingen in natuurlijke taal. LatentLens werkt door een grote tekstcorpus te encoderen en gecontextualiseerde tokenrepresentaties voor elke token in die corpus op te slaan. Visuele tokenrepresentaties worden vervolgens vergeleken met hun gecontextualiseerde tekstuele representaties, waarbij de top-k dichtstbijzijnde buurrepresentaties beschrijvingen van de visuele token opleveren. We evalueren deze methode op 10 verschillende VLM's en tonen aan dat veelgebruikte methoden, zoals LogitLens, de interpreteerbaarheid van visuele tokens aanzienlijk onderschatten. Met LatentLens daarentegen zijn de meeste visuele tokens interpreteerbaar in alle bestudeerde modellen en alle lagen. Kwalitatief tonen we aan dat de door LatentLens geproduceerde beschrijvingen semantisch betekenisvol zijn en fijnmazigere interpretaties voor mensen bieden vergeleken met individuele tokens. In bredere zin dragen onze bevindingen bij aan nieuw bewijs over de afstemming tussen visie- en taalrepresentaties, wat nieuwe richtingen opent voor het analyseren van latente representaties.
Het vooraf trainen van Vision-Language-Action (VLA)-beleid op internet-schaal video is aantrekkelijk, maar huidige latent-actie-doelstellingen leren vaak het verkeerde: ze blijven verankerd aan pixelvariaties in plaats van aan actie-relevante toestandsovergangen, waardoor ze kwetsbaar zijn voor verschijningsbias, storende beweging en informatie-lek. Wij introduceren VLA-JEPA, een JEPA-stijl voor-trainingsraamwerk dat deze valkuilen by design omzeilt. Het kernidee is lek-vrije toestandspredictie: een target-encoder produceert latente representaties uit toekomstige frames, terwijl de student-stroom alleen de huidige observatie ziet – toekomstige informatie wordt uitsluitend gebruikt als supervisiedoelen, nooit als invoer. Door in de latente ruimte te voorspellen in plaats van in de pixelruimte, leert VLA-JEPA dynamiekabstracties die robuust zijn voor camerabeweging en irrelevante achtergrondveranderingen. Dit levert een eenvoudig tweefasenrecept op – JEPA voor-training gevolgd door fine-tuning van de actie-kop – zonder de meervoudige complexiteit van eerdere latent-actie-pipelines. Experimenten op LIBERO, LIBERO-Plus, SimplerEnv en real-world manipulatietaken tonen aan dat VLA-JEPA consistente winst behaalt in generalisatie en robuustheid ten opzichte van bestaande methoden.
Vision-Language-Action (VLA)-modellen zijn naar voren gekomen als een veelbelovend paradigma voor algemene robotbesturing, waarbij test-time scaling (TTS) aandacht krijgt om de robuustheid voorbij de trainingsfase te verbeteren. Bestaande TTS-methoden voor VLA's vereisen echter aanvullende training, verificatoren en meerdere voorwaartse passes, wat ze onpraktisch maakt voor implementatie. Bovendien grijpen ze alleen in bij actiedecodering, terwijl visuele representaties onveranderd blijven – onvoldoende bij perceptuele ambiguïteit, waar heroverweging van de perceptie even belangrijk is als de beslissing over de actie. Om deze beperkingen aan te pakken, stellen we SCALE voor, een eenvoudige inferentiestrategie die visuele perceptie en actie gezamenlijk moduleert op basis van 'zelf-onzekerheid', geïnspireerd door onzekerheidsgedreven exploratie in de Active Inference-theorie. SCALE vereist geen extra training, geen verificator en slechts één voorwaartse pass. SCALE verbreedt de exploratie in zowel perceptie als actie bij hoge onzekerheid, terwijl het focust op exploitatie bij vertrouwen – wat adaptieve uitvoering in uiteenlopende omstandigheden mogelijk maakt. Experimenten op gesimuleerde en real-world benchmarks tonen aan dat SCALE state-of-the-art VLA's verbetert en beter presteert dan bestaande TTS-methoden, terwijl de efficiëntie van een enkele pass behouden blijft.
Recente studies hebben autoregressieve modellen voor beeldgeneratie onderzocht met veelbelovende resultaten, en hebben diffusiemodellen gecombineerd met autoregressieve raamwerken om beeldgeneratie via diffusieverliezen te optimaliseren. In deze studie presenteren wij een theoretische analyse van diffusie- en autoregressieve modellen met diffusieverlies, waarbij we de voordelen van de laatste benadrukken. Wij presenteren een theoretische vergelijking van conditionele diffusie en autoregressieve diffusie met diffusieverlies, waaruit blijkt dat patch-denoisingsoptimalisatie in autoregressieve modellen conditiefouten effectief vermindert en leidt tot een stabiele conditieverdeling. Onze analyse toont ook aan dat autoregressieve conditiegeneratie de conditie verfijnt, waardoor de invloed van conditiefouten exponentieel afneemt. Daarnaast introduceren wij een nieuwe conditieverfijningsaanpak gebaseerd op de optimale transporttheorie (OT) om "conditie-inconsistentie" aan te pakken. Wij tonen theoretisch aan dat het formuleren van conditieverfijning als een Wasserstein-gradiëntstroom convergentie naar de ideale conditieverdeling garandeert, waardoor conditie-inconsistentie effectief wordt verminderd. Experimenten tonen de superioriteit van onze methode aan boven diffusie- en autoregressieve modellen met diffusieverliesmethoden.
Grote Taalmodellen (LLM's) hebben hun belofte getoond bij het oplossen van complexe wiskundige problemen, maar slagen er nog steeds niet in om consistente en accurate oplossingen te produceren. Reinforcement Learning (RL) is een raamwerk om deze modellen af te stemmen op taakspecifieke beloningen, wat de algehele kwaliteit en betrouwbaarheid verbetert. Group Relative Policy Optimization (GRPO) is een efficiënt, waardefunctievrij alternatief voor Proximal Policy Optimization (PPO) dat gebruikmaakt van groep-relatieve beloningsnormalisatie. Wij introduceren Iterative Group Relative Policy Optimization (iGRPO), een tweefasen extensie van GRPO die dynamische zelf-conditionering toevoegt via modelgegenereerde concepten. In Fase 1 bemonstert iGRPO meerdere verkennende concepten en selecteert het concept met de hoogste beloning met behulp van hetzelfde scalaire beloningssignaal dat voor optimalisatie wordt gebruikt. In Fase 2 voegt het dit beste concept toe aan de originele prompt en past een GRPO-achtige update toe op concept-geconditioneerde verfijningen, waarbij het beleid wordt getraind om zich te verbeteren ten opzichte van zijn sterkste eerdere poging. Bij gelijke roll-outbudgets presteert iGRPO consistent beter dan GRPO op verschillende basismodellen (bijvoorbeeld Nemotron-H-8B-Base-8K en DeepSeek-R1 Distilled), wat de effectiviteit ervan valideert op diverse redeneerbenchmarks. Bovendien behaalt het toepassen van iGRPO op OpenReasoning-Nemotron-7B, getraind op AceReason-Math, nieuwe state-of-the-art resultaten van respectievelijk 85,62% en 79,64% op AIME24 en AIME25. Ablatiestudies tonen verder aan dat de verfijningswrapper generaliseert buiten GRPO-varianten, profiteert van een generatieve beoordelaar, en de leer dynamiek verandert door entropie-collaps uit te stellen. Deze resultaten onderstrepen het potentieel van iteratieve, op zelf-feedback gebaseerde RL voor het bevorderen van verifieerbaar wiskundig redeneren.
Het uitrusten van belichaamde agents met het vermogen om te redeneren over taken, fysieke uitkomsten te voorzien en precieze acties te genereren, is essentieel voor algemeen inzetbare manipulatie. Hoewel recente Vision-Language-Action (VLA)-modellen gebruikmaken van vooraf getrainde foundation-modellen, richten ze zich doorgaans afzonderlijk op óf linguïstische planning óf visuele voorspelling. Deze methoden integreren zelden beide capaciteiten gelijktijdig om actiegeneratie te sturen, wat leidt tot suboptimale prestaties bij complexe, langetermijnmanipulatietaken. Om deze kloof te overbruggen, stellen we BagelVLA voor, een uniform model dat linguïstische planning, visuele voorspelling en actiegeneratie integreert binnen een enkel kader. Geïnitialiseerd vanuit een voorgetraind uniform begrips- en generatief model, wordt BagelVLA getraind om tekstueel redeneren en visuele voorspelling direct te verweven in de actie-uitvoeringslus. Om deze modaliteiten efficiënt te koppelen, introduceren we Residual Flow Guidance (RFG), dat initialiseert vanuit de huidige observatie en gebruikmaakt van enkelstaps-denoising om voorspellende visuele kenmerken te extraheren, waardoor actiegeneratie met minimale latentie wordt gestuurd. Uitgebreide experimenten tonen aan dat BagelVLA bestaande baseline-methoden met een aanzienlijke marge overtreft op meerdere gesimuleerde en real-world benchmarks, met name bij taken die multi-staps redeneren vereisen.
Het trainen van agentische modellen voor terminalgebaseerde taken is sterk afhankelijk van hoogwaardige terminaltrajecten die realistische, langetermijninteracties in diverse domeinen vastleggen. Het op schaal construeren van dergelijke data blijft echter uitdagend vanwege twee kernvereisten: \emph{Uitvoerbaarheid}, omdat elke instantie een geschikte en vaak unieke Docker-omgeving vereist; en \emph{Verifieerbaarheid}, omdat heterogene taakuitvoeringen een uniforme, gestandaardiseerde verificatie in de weg staan. Om deze uitdagingen aan te pakken, stellen wij TerminalTraj voor, een schaalbare pijplijn die (i) hoogwaardige repositories filtert om Docker-uitvoeringsomgevingen te construeren, (ii) Docker-afgestemde taakinstanties genereert, en (iii) agenttrajecten synthetiseert met uitvoerbare validatiecode. Met TerminalTraj hebben wij 32K Docker-images samengesteld en 50.733 geverifieerde terminaltrajecten gegenereerd verspreid over acht domeinen. Modellen die op deze data zijn getraind met de Qwen2.5-Coder-backbone behalen consistente prestatieverbeteringen op TerminalBench (TB), met winsten tot 20\% op TB~1.0 en 10\% op TB~2.0 ten opzichte van hun respectievelijke backbones. Opmerkelijk is dat TerminalTraj-32B sterke prestaties levert onder modellen met minder dan 100B parameters, met 35.30\% op TB~1.0 en 22.00\% op TB~2.0, en verbeterd schaalgedrag tijdens testtijd demonstreert. Alle code en data zijn beschikbaar op https://github.com/Wusiwei0410/TerminalTraj.
Het leren van overdraagbare kennis uit ongelabelde videogegevens en deze toepassen in nieuwe omgevingen is een fundamentele capaciteit van intelligente agenten. Dit werk presenteert VideoWorld 2, dat VideoWorld uitbreidt en het eerste onderzoek biedt naar het direct leren van overdraagbare kennis uit ruwe real-world video's. De kern van VideoWorld 2 is een dynamiek-versterkt Latent Dynamics Model (dLDM) dat actiedynamiek ontkoppelt van visueel uiterlijk: een vooraf getraind videodiffusiemodel verzorgt de modellering van visueel uiterlijk, waardoor de dLDM latente codes kan leren die zich richten op compacte en betekenisvolle taakgerelateerde dynamiek. Deze latente codes worden vervolgens autoregressief gemodelleerd om taakbeleid te leren en langetermijnredenering te ondersteunen. We evalueren VideoWorld 2 op uitdagende real-world handwerk taken, waar eerdere videogeneratie- en latent-dynamiekmodellen moeite hebben om betrouwbaar te functioneren. Opmerkelijk is dat VideoWorld 2 tot 70% verbetering bereikt in taaksuccespercentage en coherente video's met lange uitvoering produceert. In de robotica tonen we aan dat VideoWorld 2 effectieve manipulatiekennis kan verwerven uit de Open-X dataset, wat de taakprestatie op CALVIN aanzienlijk verbetert. Deze studie onthult het potentieel van het direct leren van overdraagbare wereldkennis uit ruwe video's, waarbij alle code, data en modellen worden openbaar gemaakt voor verder onderzoek.
Hoogwaardige en open datasets blijven een grote knel voor tekst-naar-beeld (T2I) fine-tuning. Ondanks snelle vooruitgang in modelarchitecturen en trainingspijplijnen lijden de meeste openbaar beschikbare fine-tuning datasets aan een lage resolutie, slechte tekst-beeldafstemming of beperkte diversiteit, wat resulteert in een duidelijke prestatiekloof tussen open onderzoeksmodellen en modellen van bedrijfsniveau. In dit werk presenteren we Fine-T2I, een grootschalige, hoogwaardige en volledig open dataset voor T2I fine-tuning. Fine-T2I omvat 10 taakcombinaties, 32 promptcategorieën, 11 visuele stijlen en 5 promptsjablonen, en combineert synthetische afbeeldingen gegenereerd door sterke moderne modellen met zorgvuldig geselecteerde echte afbeeldingen van professionele fotografen. Alle steekproeven zijn rigoureus gefilterd op tekst-beeldafstemming, visuele kwaliteit en promptkwaliteit, waarbij meer dan 95% van de initiële kandidaten werd verwijderd. De uiteindelijke dataset bevat meer dan 6 miljoen tekst-beeldparen, ongeveer 2 TB op schijf, en benadert de schaal van pretrainingsdatasets terwijl de kwaliteit op fine-tuningniveau behouden blijft. Over een diverse reeks voorgetrainde diffusie- en autoregressieve modellen verbetert fine-tuning op Fine-T2I consistent zowel de generatiekwaliteit als de instructienaleving, zoals gevalideerd door humanevaluatie, visuele vergelijking en automatische metrieken. We geven Fine-T2I vrij onder een open licentie om te helpen de datakloof in T2I fine-tuning binnen de open gemeenschap te dichten.
Het trainen van generalistische agents die zich kunnen aanpassen aan diverse scenario's vereist interactieve omgevingen voor zelfexploratie. Interactieve omgevingen zijn echter nog steeds schaars, en bestaande synthesemethoden kampen met aanzienlijke beperkingen op het gebied van omgevingsdiversiteit en schaalbaarheid. Om deze uitdagingen aan te pakken, introduceren we ScaleEnv, een raamwerk dat volledig interactieve omgevingen en verifieerbare taken volledig vanaf de grond opbouwt. Specifiek waarborgt ScaleEnv de betrouwbaarheid van de omgeving via procedurele tests, en garandeert het de volledigheid en oplosbaarheid van taken via de uitbreiding van tool-afhankelijkheidsgrafen en de verificatie van uitvoerbare acties. Door agents in staat te stellen te leren via exploratie binnen ScaleEnv, demonstreren we significante prestatieverbeteringen op onbekende, multi-turn tool-use benchmarks zoals τ²-Bench en VitaBench, wat sterke generalisatiecapaciteiten aantoont. Verder onderzoeken we de relatie tussen een toenemend aantal domeinen en de generalisatieprestaties van het model, en leveren we empirisch bewijs dat het opschalen van omgevingsdiversiteit cruciaal is voor robuust agent-leren.
In dit werk presenteren wij Covo-Audio, een end-to-end LALM met 7B parameters die continue audio-input direct verwerkt en audio-output genereert binnen een enkele, uniforme architectuur. Door grootschalige, zorgvuldig samengestelde voorafgaande training en gerichte nabehandeling behaalt Covo-Audio state-of-the-art of concurrerende prestaties ten opzichte van modellen van vergelijkbare schaal op een breed scala aan taken, waaronder spraak-tekstmodellering, gesproken dialoog, spraakbegrip, audiobegrip en full-duplex spraakinteractie. Uitgebreide evaluaties tonen aan dat het vooraf getrainde foundation-model sterke spraak-tekstbegrip en semantische redeneervaardigheden vertoont op meerdere benchmarks, waarbij het representatieve open-source modellen van vergelijkbare schaal overtreft. Bovendien toont Covo-Audio-Chat, de dialooggerichte variant, sterke gesproken gespreksvaardigheden, waaronder begrip, contextueel redeneren, het opvolgen van instructies en het genereren van contextueel passende en empathische reacties, wat de toepasbaarheid ervan in realistische scenario's voor conversatie-assistenten valideert. Covo-Audio-Chat-FD, het geëvolueerde full-duplex model, behaalt aanzienlijk superieure prestaties op zowel gesproken dialoogvaardigheden als full-duplex interactiegedrag, wat zijn bekwaamheid in praktische robuustheid aantoont. Om de hoge kosten van het inzetten van end-to-end LALM's voor natuurlijke conversatiesystemen te beperken, stellen wij een intelligentie-spreker-ontkoppelingsstrategie voor die dialoogintelligentie scheidt van stemweergave, waardoor flexibele stemaanpassing mogelijk wordt met minimale text-to-speech (TTS) data, terwijl de dialoogprestaties behouden blijven. Over het geheel genomen benadrukken onze resultaten het sterke potentieel van modellen op 7B-schaal om geavanceerde audio-intelligentie te integreren met hoogwaardig semantisch redeneren, en wijzen zij op een schaalbare weg naar capabelere en veelzijdigere LALM's.
Het verzamelen van real-world data voor belichaamde agents blijft kostbaar en onveilig, wat de vraag oproept naar schaalbare, realistische en simulator-klare 3D-omgevingen. Bestaande systemen voor scènegeneratie vertrouwen echter vaak op op regels gebaseerde of taakspecifieke pijplijnen, wat leidt tot artefacten en fysiek ongeldige scènes. Wij presenteren SAGE, een agent-gebaseerd framework dat, gegeven een door de gebruiker gespecificeerde belichaamde taak (bijvoorbeeld "pak een kom op en zet deze op tafel"), de intentie begrijpt en automatisch op grote schaal simulator-klare omgevingen genereert. De agent koppelt meerdere generators voor indeling en objectcompositie aan critics die de semantische plausibiliteit, visuele realisme en fysieke stabiliteit evalueren. Door iteratief redeneren en adaptieve toolselectie verfijnt het de scènes zelfstandig totdat deze voldoen aan de gebruikersintentie en fysieke geldigheid. De resulterende omgevingen zijn realistisch, divers en direct inzetbaar in moderne simulators voor beleidstraining. Beleiden die uitsluitend op deze data zijn getraind, vertonen duidelijke schaalbaarheidstrends en generaliseren naar onbekende objecten en indelingen, wat de belofte aantoont van simulatie-gedreven schaalvergroting voor belichaamde AI. Code, demo's en de SAGE-10k-dataset zijn te vinden op de projectpagina hier: https://nvlabs.github.io/sage.
Wereldmodellen streven ernaar dynamische visuele omgevingen te begrijpen, te onthouden en te voorspellen, maar een uniforme benchmark voor het evalueren van hun fundamentele capaciteiten ontbreekt nog steeds. Om deze leemte op te vullen, introduceren wij MIND, de eerste open-domain closed-loop herbezochte benchmark voor het evalueren van Geheugenconsistentie en actiecontrole in wereldmodellen. MIND bevat 250 hoogwaardige video's in 1080p en 24 FPS, waaronder 100 (eerstepersoons) + 100 (derdepersoons) videofragmenten binnen een gedeelde actieruimte en 25 + 25 fragmenten over verschillende actieruimten verspreid over acht uiteenlopende scènes. Wij ontwerpen een efficiënt evaluatieraamwerk om twee kernvaardigheden te meten: geheugenconsistentie en actiecontrole, waarmee temporele stabiliteit en contextuele samenhang tussen gezichtspunten worden vastgelegd. Verder ontwerpen wij diverse actieruimten, inclusief verschillende karakterbewegingssnelheden en camerarotatiehoeken, om de actiegeneraliseerbaarheid over verschillende actieruimten binnen gedeelde scènes te evalueren. Om toekomstige prestatiebenchmarking op MIND te vergemakkelijken, introduceren wij MIND-World, een nieuwe interactieve Video-naar-Wereld-basislijn. Uitgebreide experimenten tonen de volledigheid van MIND aan en onthullen cruciale uitdagingen in huidige wereldmodellen, waaronder de moeilijkheid om langetermijngeheugenconsistentie te behouden en te generaliseren over actieruimten. Projectpagina: https://csu-jpg.github.io/MIND.github.io/
Het heersende paradigma in robotleren probeert te generaliseren over omgevingen, embodimenten en taken met behulp van taalprompts tijdens runtime. Een fundamentele spanning beperkt deze aanpak: taal is vaak te abstract om het concrete fysieke begrip te sturen dat nodig is voor robuuste manipulatie. In dit werk introduceren we Contact-Anchored Policies (CAP), die taalconditionering vervangen door punten van fysiek contact in de ruimte. Tegelijkertijd structureren we CAP als een bibliotheek van modulaire utility-modellen in plaats van een monolithisch generalistisch beleid. Deze factorisatie stelt ons in staat om een real-to-sim iteratiecyclus te implementeren: we bouwen EgoGym, een lichtgewicht simulatiebenchmark, om snel faalmodi te identificeren en onze modellen en datasets te verfijnen vóór inzet in de echte wereld. We tonen aan dat CAP, door te conditioneren op contact en te itereren via simulatie, out-of-the-box generaliseert naar nieuwe omgevingen en embodimenten voor drie fundamentele manipulatievaardigheden, met slechts 23 uur aan demonstratiedata, en state-of-the-art VLAs verslaat in zero-shot evaluaties met 56%. Alle modelcheckpoints, codebase, hardware, simulatie en datasets worden open-source gemaakt. Projectpagina: https://cap-policy.github.io/
Grote Taalmodellen (LLM's) kampen met aanzienlijke uitdagingen bij de verwerking van lange contexten, waaronder kwadratische rekenkosten, het vergeten van informatie en de contextfragmentatie die inherent is aan retrieval-augmented generation (RAG). Wij stellen een cognitief geïnspireerd raamwerk voor voor efficiënte inferentie bij lange contexten, gebaseerd op chunkgewijze compressie en selectief geheugenrecall, in plaats van het verwerken van alle ruwe tokens. Het raamwerk segmenteert lange invoer in chunks en codeert elke chunk in gecomprimeerde geheugenrepresentaties met behulp van een aangeleerde compressor. Een gatingmodule selecteert dynamisch relevante geheugenblokken, die vervolgens iteratief worden verwerkt door een redeneermodule met een evoluerend werkgeheugen om downstreamtaken op te lossen. De compressor en de redeneermodule worden gezamenlijk geoptimaliseerd via end-to-end reinforcement learning, terwijl de gatingmodule apart wordt getraind als een classifier. Experimentele resultaten tonen aan dat de voorgestelde methode een competitieve nauwkeurigheid bereikt op multi-hop redeneerbenchmarks zoals RULER-HQA, de contextlengte extrapoleert van 7K naar 1,75M tokens, en een gunstige nauwkeurigheid-efficiëntie-afweging biedt in vergelijking met sterke lange-context-baselines. In het bijzonder bereikt het een reductie van tot 2 keer in het piek-GPU-geheugengebruik en een 6 keer snellere inferentie dan MemAgent.
Chain-of-thought (CoT) redenering en zijn varianten hebben de prestaties van taalmodelen op complexe redeneertaken aanzienlijk verbeterd, maar de precieze mechanismen waarmee verschillende strategieën generalisatie vergemakkelijken, blijven slecht begrepen. Hoewel huidige verklaringen vaak wijzen op een verhoogde rekentijd tijdens het testen of structurele begeleiding, blijft het een uitdaging om een consistente, kwantificeerbare relatie tussen deze factoren en generalisatie vast te stellen. In dit werk identificeren we intrinsieke dimensionaliteit als een kwantitatieve maatstaf voor het karakteriseren van de effectiviteit van redeneerketens. Intrinsieke dimensionaliteit kwantificeert het minimale aantal modeldimensies dat nodig is om een bepaalde nauwkeurigheidsdrempel op een bepaalde taak te bereiken. Door de modelarchitectuur constant te houden en de taakformulering te variëren via verschillende redeneerstrategieën, tonen we aan dat effectieve redeneerstrategieën consistent de intrinsieke dimensionaliteit van de taak verlagen. Door dit te valideren op GSM8K met Gemma-3 1B en 4B, observeren we een sterke omgekeerde correlatie tussen de intrinsieke dimensionaliteit van een redeneerstrategie en zijn generalisatieprestatie op zowel in-distributie als out-of-distributie gegevens. Onze bevindingen suggereren dat effectieve redeneerketens het leren vergemakkelijken door de taak beter te comprimeren met minder parameters, wat een nieuwe kwantitatieve metriek biedt voor het analyseren van redeneerprocessen.
Activation steering is naar voren gekomen als een veelbelovende aanpak om grote taalmodellen (LLM's) efficiënt aan te passen voor downstream gedrag. De meeste bestaande stuurmethoden zijn echter gebaseerd op een enkele statische richting per taak of concept, waardoor ze inflexibel zijn bij taakvariatie en ontoereikend voor complexe taken die meerdere gecoördineerde capaciteiten vereisen. Om deze beperking aan te pakken, stellen we STEER2ADAPT voor, een lichtgewicht framework dat LLM's aanpast door stuurvectoren te combineren in plaats van nieuwe vectoren vanaf nul te leren. In veel domeinen (bijvoorbeeld redeneren of veiligheid) delen taken een kleine set onderliggende conceptdimensies. STEER2ADAPT vat deze dimensies samen als een herbruikbare, laagdimensionale semantische prior-subruimte, en past zich aan nieuwe taken aan door dynamisch een lineaire combinatie van basisvectoren te ontdekken op basis van slechts een handvol voorbeelden. Experimenten over 9 taken en 3 modellen in zowel de redeneer- als veiligheidsdomeinen tonen de effectiviteit van STEER2ADAPT aan, met een gemiddelde verbetering van 8,2%. Uitgebreide analyses tonen verder aan dat STEER2ADAPT een data-efficiënte, stabiele en transparante aanpassingsmethode is voor LLM's tijdens de inferentiefase.
Diffusietransformers integreren doorgaans tekstuele informatie via aandachtlagen en een modulatiemechanisme dat gebruikmaakt van een gepoolde tekstembedding. Toch negeren recente benaderingen op tekst gebaseerde modulatie en vertrouwen ze uitsluitend op aandacht. In dit artikel onderzoeken we of op modulatie gebaseerde tekstconditionering noodzakelijk is en of het een prestatievoordeel kan bieden. Onze analyse toont aan dat de gepoolde embedding in haar conventionele gebruik weinig bijdraagt aan de algehele prestaties, wat suggereert dat aandacht alleen over het algemeen voldoende is om promptinformatie getrouw door te geven. Echter, wij tonen aan dat de gepoolde embedding aanzienlijke verbeteringen kan opleveren wanneer ze vanuit een ander perspectief wordt gebruikt – namelijk als richtsnoer om stuurbare verschuivingen naar wenselijkere eigenschappen mogelijk te maken. Deze aanpak is trainingsvrij, eenvoudig te implementeren, veroorzaakt verwaarloosbare runtime-overhead en kan op diverse diffusiemodellen worden toegepast, wat verbeteringen oplevert voor uiteenlopende taken, waaronder tekst-naar-beeld/video-generatie en beeldbewerking.
Dit artikel daagt de dominantie van continue pijplijnen in visuele generatie uit. Wij onderzoeken systematisch de prestatiekloof tussen discrete en continue methoden. In tegenstelling tot de heersende opvatting dat discrete tokenizers intrinsiek inferieur zijn, tonen wij aan dat de discrepantie primair ontstaat door het totale aantal bits dat in de latente ruimte wordt toegewezen (d.w.z. de compressieratio). Wij laten zien dat het opschalen van de codeboekgrootte deze kloof effectief overbrugt, waardoor discrete tokenizers hun continue tegenhangers evenaren of overtreffen. Echter, bestaande discrete generatiemethoden slagen er niet in om dit inzicht te benutten; zij lijden onder prestatieverlies of onbetaalbare trainingskosten bij een opgeschaald codeboek. Om dit aan te pakken, stellen wij gemaskeerd Bit AutoRegressief modelleren (BAR) voor, een schaalbaar raamwerk dat willekeurige codeboekgroottes ondersteunt. Door een autoregressieve transformer uit te rusten met een gemaskeerde bit-modelleerkop, voorspelt BAR discrete tokens door hun samenstellende bits progressief te genereren. BAR behaalt een nieuwe state-of-the-art gFID van 0.99 op ImageNet-256, presteert beter dan toonaangevende methoden binnen zowel continue als discrete paradigma's, en vermindert tegelijkertijd de steekproefkosten aanzienlijk en convergeert sneller dan eerdere continue benaderingen. De projectpagina is beschikbaar op https://bar-gen.github.io/.
Het stateloze karakter van foundation models vormt een bottleneck voor het vermogen van agent-systemen om continu te leren, een kerncompetentie voor langetermijnredenering en aanpassing. Om deze beperking aan te pakken, integreren agent-systemen doorgaans geheugenmodules om eerdere ervaringen vast te houden en te hergebruiken, met als doel continu te leren tijdens de testfase. De meeste bestaande geheugenontwerpen zijn echter door mensen ontworpen en vastgelegd, wat hun vermogen beperkt om zich aan te passen aan de diversiteit en non-stationariteit van real-world taken. In dit artikel introduceren we ALMA (Automated meta-Learning of Memory designs for Agentic systems), een framework dat geheugenontwerpen meta-leert om handmatig ontworpen geheugenarchitecturen te vervangen, waardoor menselijke inspanning wordt geminimaliseerd en agent-systemen in staat worden gesteld om continue leerlingen te worden in diverse domeinen. Onze aanpak gebruikt een Meta-Agent die op een open-ended manier zoekt naar geheugenontwerpen die als uitvoerbare code worden uitgedrukt, wat in theorie de ontdekking van willekeurige geheugenontwerpen mogelijk maakt, inclusief databaseschema's en hun retrieval- en updatemechanismen. Uitgebreide experimenten in vier sequentiële besluitvormingsdomeinen tonen aan dat de geleerde geheugenontwerpen effectiever en efficiënter leren van ervaring mogelijk maken dan state-of-the-art, door mensen ontworpen geheugenarchitecturen op alle benchmarks. Mits veilig ontwikkeld en ingezet, vertegenwoordigt ALMA een stap in de richting van zelfverbeterende AI-systemen die leren om adaptieve, continue leerlingen te zijn.
Het effectief schalen van GUI-automatisering is essentieel voor computer-use agents (CUA's); bestaand werk richt zich echter voornamelijk op het schalen van GUI-gronding in plaats van de crucialere GUI-planning, wat geavanceerdere gegevensverzameling vereist. In werkelijkheid volgt het verkenningsproces van een CUA over apps/desktopomgevingen/webpagina's typisch een boomstructuur, waarbij eerdere functionele toegangspunten vaak frequenter worden verkend. Het organiseren van grootschalige trajecten in boomstructuren kan daarom de datakosten verlagen en de gegevensschaling voor GUI-planning stroomlijnen. In dit werk stellen we TreeCUA voor om GUI-automatisering efficiënt te schalen met boomgestructureerde verifieerbare evolutie. We introduceren een multi-agent samenwerkingsframework om de omgeving te verkennen, acties te verifiëren, trajecten samen te vatten en kwaliteit te evalueren om hoogwaardige en schaalbare GUI-trajecten te genereren. Om de efficiëntie te verbeteren, ontwerpen we een nieuwe boomgebaseerde topologie om dubbele verkenningsknooppunten op te slaan en af te spelen, en ontwikkelen we een adaptief verkenningsalgoritme om diepte (d.w.z. trajectmoeilijkheid) en breedte (d.w.z. trajectdiversiteit) in evenwicht te brengen. Bovendien ontwikkelen we wereldkennishandhaving en globaal geheugen-backtracking om gegenereerde trajecten van lage kwaliteit te vermijden. Ten slotte breiden we TreeCUA natuurlijk uit en stellen we de TreeCUA-DPO-methode voor, gebruikmakend van de overvloedige boomknoopinformatie, om de GUI-planningscapaciteit te verbeteren door te refereren aan de takinformatie van aangrenzende trajecten. Experimentele resultaten tonen aan dat TreeCUA en TreeCUA-DPO significante verbeteringen bieden, en out-of-domain (OOD)-studies demonstreren verder sterke generalisatie. Alle trajectknoopinformatie en code zullen beschikbaar zijn op https://github.com/UITron-hub/TreeCUA.
Planning is uitgegroeid tot een centrale capaciteit voor hedendaagse agentsystemen bij het navigeren door complexe taken met een lange horizon. Toch baseren bestaande benaderingen zich voornamelijk op vaste, handmatig gemaakte planningstructuren die de flexibiliteit missen om zich aan te passen aan de structurele diversiteit van open-einde problemen. Om deze beperking aan te pakken, introduceren wij TodoEvolve, een meta-planningparadigma dat autonoom taakspecifieke planningarchitecturen synthetiseert en dynamisch reviseert. Concreet construeren wij eerst PlanFactory, een modulaire ontwerpruimte die diverse planningparadigma's standaardiseert binnen een uniforme codebase die topologie, initialisatie, adaptatie en navigatie omvat, waardoor een gemeenschappelijke interface voor heterogene planningpatronen wordt geboden. Gebruikmakend van PlanFactory, verzamelen wij hoogwaardige planningtrajecten en trainen Todo-14B via Impedance-Guided Preference Optimization (IGPO), een multi-objectief reinforcement learning-doel dat de generatie aanmoedigt van planningssystemen die presterend, stabiel en token-efficiënt zijn voor willekeurige taken en agent-backbones. Empirische evaluaties op vijf agent-gebaseerde benchmarks tonen aan dat TodoEvolve consistent zorgvuldig ontworpen planningmodules overtreft, terwijl het economische API-kosten en runtime-overhead behoudt.
Versterkend leren verbetert het redeneervermogen van grote taalmodellen aanzienlijk, maar heeft ook de neiging om de ketting-van-gedachte-uitvoer te verlengen en de rekenkosten tijdens zowel training als inferentie te verhogen. Hoewel er methoden voor lengtecontrole zijn voorgesteld, blijft het onduidelijk wat de optimale uitvoerlengte is om efficiëntie en prestaties in evenwicht te brengen. In dit werk vergelijken we verschillende lengtecontrolemethoden op twee modellen, Qwen3-1.7B Base en DeepSeek-R1-Distill-Qwen-1.5B. Onze resultaten geven aan dat lengtestraffen de verwerving van redeneervermogen kunnen belemmeren, terwijl goed afgestelde lengtecontrole de efficiëntie kan verbeteren voor modellen met een sterk voorafgaand redeneervermogen. Door eerder werk uit te breiden naar met RL getrainde policies, identificeren we twee faalwijzen: 1) lange uitvoer vergroot de dispersie, en 2) korte uitvoer leidt tot onder-denken.
Parallel denken is naar voren gekomen als een nieuw paradigma voor grote redeneermodellen (LRM's) bij het aanpakken van complexe problemen. Recente methoden maken gebruik van Reinforcement Learning (RL) om parallel denken te verbeteren, met als doel de beperkingen in rekenresources en effectiviteit van supervised fine-tuning te ondervangen. Echter, de meeste bestaande onderzoeken richten zich voornamelijk op het optimaliseren van de aggregatiefase, met beperkte aandacht voor de verkenning van redeneerpaden. In dit artikel analyseren we theoretisch de optimalisatie van parallel denken onder de Reinforcement Learning with Verifiable Rewards (RLVR) setting, en stellen vast dat de mutual information bottleneck tussen verkenningpaden de algehele prestatie fundamenteel beperkt. Om dit aan te pakken, stellen we Outline-Guided Path Exploration (OPE) voor, die de oplossingsruimte expliciet partitioneert door eerst diverse redeneerschema's te genereren alvorens tot parallelle padredenering over te gaan, waardoor informatie-redundantie wordt verminderd en de diversiteit van de vastgelegde informatie over verkenningpaden verbetert. We implementeren OPE met een iteratieve RL-strategie die het plannen van redeneerschema's en schema-gestuurd redeneren onafhankelijk optimaliseert. Uitgebreide experimenten op meerdere uitdagende wiskundige benchmarks tonen aan dat OPE de redeneerprestaties effectief verbetert bij verschillende aggregatiestrategieën, waardoor LRM's correcte oplossingen betrouwbaarder kunnen ontdekken.
Simulatie is een essentieel instrument geworden voor het trainen en evalueren van huishoudrobots op grote schaal, maar bestaande omgevingen slagen er niet in de diversiteit en fysieke complexiteit van echte binnenruimtes weer te geven. Huidige methoden voor scènesynthese produceren karig ingerichte kamers die het dichte rommel, gearticuleerd meubilair en de fysieke eigenschappen missen die essentieel zijn voor robotmanipulatie. Wij introduceren SceneSmith, een hiërarchisch agent-gebaseerd raamwerk dat simulatieklare binnenomgevingen genereert op basis van natuurlijke taalprompts. SceneSmith bouwt scènes op via opeenvolgende fasen – van architectonische indeling tot meubelplaatsing en populatie met kleine objecten – waarbij elke fase wordt geïmplementeerd als een interactie tussen VLM-agents: ontwerper, criticus en orkestrator. Het raamwerk integreert strak asset-generatie via tekst-naar-3D-synthese voor statische objecten, datasetretrieval voor gearticuleerde objecten en schatting van fysieke eigenschappen. SceneSmith genereert 3-6x meer objecten dan eerdere methoden, met <2% onderlinge objectbotsingen en 96% van de objecten blijft stabiel onder fysicasimulatie. In een gebruikersstudie met 205 deelnemers behaalt het 92% gemiddelde realisme en 91% gemiddelde prompt-getrouwheid winpercentages ten opzichte van referentiemethoden. Wij tonen verder aan dat deze omgevingen kunnen worden gebruikt in een end-to-end pijplijn voor automatische evaluatie van robotbeleid.
End-to-end GUI-agents voor echte desktopomgevingen vereisen grote hoeveelheden hoogwaardige interactiedata, maar het verzamelen van menselijke demonstraties is kostbaar en bestaande synthetische pijplijnen kampen vaak met beperkte taakdiversiteit of ruisige, doeldriftende trajecten. Wij presenteren een trajectuitbreidingsraamwerk genaamd Anchor dat schaalbare desktop-supervisie bootstrapt vanuit een kleine set geverifieerde seed-demonstraties. Uitgaande van elke seed identificeren we vertakkingspunten die overeenkomen met betekenisvolle staatsovergangen en stellen we nieuwe, op de staat gegronde taakvarianten voor, geconditioneerd op de huidige GUI-context. Een uitvoerende agent volgt vervolgens de voorgestelde instructies om nieuwe trajecten te genereren, terwijl een verifier de taakvoltooiing afdwingt via staatbewuste controles en trajectconsistentie. Om de kwaliteit van de supervisie te verbeteren, passen we verder stapgefiltering toe, geconditioneerd op de taak, om ongegronde acties te verwijderen en ontruisen we post-vertakkingssegmenten om coherente intentie te behouden. Experimenten op standaard desktop benchmarks, OSWorld en WindowsAgentArena, tonen aan dat modellen die zijn verfijnd op onze uitgebreide corpus consistente verbeteringen behalen ten opzichte van zero-shot agents en representatieve synthese-baselines, en generaliseren over applicaties en besturingssystemen heen.
In dit artikel streven we ernaar om test-time-training te verbinden met een nieuw type parametrisch geheugen dat flexibel kan worden losgekoppeld van of geïntegreerd in modelparameters. Wij presenteren Locas, een lokaal ondersteund parametrisch geheugen dat het ontwerp deelt met FFN-blokken in moderne transformers. Hierdoor kan het flexibel worden gepermanentiseerd in de modelparameters, terwijl het efficiënt continu leren ondersteunt. Wij bespreken twee belangrijke varianten van Locas: één met een conventioneel twee-laags MLP-ontwerp dat een duidelijker theoretische garantie biedt; de andere deelt dezelfde GLU-FFN-structuur met state-of-the-art LLM's en kan eenvoudig aan bestaande modellen worden toegevoegd voor zowel parameter- als reken-efficiënt continu leren. Cruciaal is dat we aantonen dat een juiste initialisatie van dergelijke low-rank zijwaartse-FFN-geheugens – uitgevoerd op een principiële manier door hergebruik van modelparameters, activaties en/of gradiënten – essentieel is voor snelle convergentie, verbeterde generalisatie en het voorkomen van catastrofaal vergeten. Wij valideren het voorgestelde geheugenmechanisme op de PG-19 whole-book taalmodellering en LoCoMo lange-context dialoogvraag-antwoordtaken. Met slechts 0,02% extra parameters in het gunstigste geval, is Locas-GLU in staat om informatie uit eerdere context op te slaan terwijl een veel kleiner contextvenster wordt aangehouden. Daarnaast testen we ook het verlies van algemene capaciteit van het model na het memoriseren van een volledig boek met Locas, via vergelijkende MMLU-evaluatie. De resultaten tonen de veelbelovende mogelijkheid van Locas om eerdere context te permanentiseren in parametrische kennis met geminimaliseerd catastrofaal vergeten van de bestaande interne kennis van het model.
Parallelle diffusiedecodering kan de inferentie van diffusietaalmodellen versnellen door meerdere tokens per stap te onthullen, maar agressieve parallelisatie gaat vaak ten koste van de kwaliteit. Herroepbare decodering vermindert dit door eerdere tokens opnieuw te controleren, maar wij observeren dat bestaande verificatieschema's vaak leiden tot flip-flop oscillaties, waarbij tokens opnieuw worden gemaskeerd en later ongewijzigd worden hersteld. Dit gedrag vertraagt de inferentie op twee manieren: het opnieuw maskeren van geverifieerde posities verzwakt de conditionerende context voor parallelle drafting, en herhaalde remask-cycli verbruiken het revisiebudget met weinig netto vooruitgang. Wij stellen COVER voor (Cache Override Verification for Efficient Revision), dat leave-one-out-verificatie en stabiele drafting uitvoert binnen een enkele voorwaartse pass. COVER construeert twee aandachtsperspectieven via KV-cache-override: geselecteerde seeds worden gemaskeerd voor verificatie, terwijl hun gecachede key-value-toestanden worden geïnjecteerd voor alle andere queries om contextuele informatie te behouden, met een gesloten-vorm diagonale correctie die zelf-lekkage op de seedposities voorkomt. COVER prioriteert seeds verder met een stabiliteitsbewuste score die onzekerheid, downstream-invloed en cache-drift balanceert, en het past het aantal geverifieerde seeds per stap aan. Over benchmarks heen vermindert COVER merkbaar onnodige revisies en levert het snellere decodering op terwijl de uitvoerkwaliteit behouden blijft.
Het gebruik van representatie-encoders voor generatieve modellering biedt een weg naar efficiënte, hoogwaardige synthese. Standaard diffusie-transformers slagen er echter niet in om rechtstreeks op deze representaties te convergeren. Waar recent werk dit toeschrijft aan een capaciteitsknelpunt en rekentechnisch dure schaalvergroting van diffusie-transformers voorstelt, tonen wij aan dat de oorzaak fundamenteel geometrisch is. Wij identificeren 'Geometrische Interferentie' als de grondoorzaak: standaard Euclidische flow matching dwingt waarschijnlijkheidspaden door de lage-dichtheid kern van de hypersferische kenmerkruimte van representatie-encoders, in plaats van het oppervlak van de variëteit te volgen. Om dit op te lossen, stellen wij Riemanniaans Flow Matching met Jacobi Regularisatie (RJF) voor. Door het generatieve proces te beperken tot de geodeten van de variëteit en foutpropagatie door kromming te corrigeren, stelt RJF standaard Diffusion Transformer-architecturen in staat te convergeren zonder schaalvergroting. Onze methode RJF stelt de standaard DiT-B-architectuur (131M parameters) in staat effectief te convergeren, met een FID van 3.37 waar eerdere methoden niet convergeren. Code: https://github.com/amandpkr/RJF
Zelfcorrectie is essentieel voor het oplossen van complexe redeneerproblemen in visie-taalmodellen (VLM's). Bestaande methoden voor reinforcement learning (RL) slagen er echter niet in dit aan te leren, omdat effectief zelfcorrigerend gedrag slechts zelden optreedt, wat de leer signalen extreem schaars maakt. Om deze uitdaging aan te pakken, stellen we correctie-specifieke rollouts (Octopus) voor, een RL-raamwerk voor rollout-augmentatie dat dichte zelfcorrectie-voorbeelden synthetiseert door bestaande rollouts te hercombineren. Deze augmentatie verbetert tegelijkertijd de sample-efficiëntie door hergebruik van rollouts en stabiliseert de RL-optimalisatie door gebalanceerd toezicht. Verder introduceren we een respons-maskerstrategie die zelfcorrectie ontkoppelt van direct redeneren, waardoor signaalconflicten worden vermeden en beide gedragingen effectief kunnen worden aangeleerd. Hierop voortbordurend introduceren we Octopus-8B, een redeneer-VLM met een beheerbare zelfcorrectie-capaciteit. Op 7 benchmarks behaalt het state-of-the-art (SoTA) prestaties onder open-source VLM's, waarbij het de beste RLVR-baseline met 1.0 score verslaat terwijl het slechts 0.72 keer de trainings tijd per stap nodig heeft.
AI-agents met tool-aanroepmogelijkheden zijn vatbaar voor Indirecte Prompt Injectie (IPI) aanvallen. In dit aanvalsscenario misleiden kwaadaardige commando's, verborgen in niet-vertrouwde content, de agent om onbevoegde acties uit te voeren. Bestaande verdedigingen kunnen het aanvalssucces verminderen, maar lijden vaak onder het oververdedigingsdilemma: ze zetten kostbare, altijd-actieve sanitisatie in, ongeacht de werkelijke dreiging, wat het nut en de latentie aantast, zelfs in goedaardige scenario's. Wij herbezien IPI vanuit een causaal ablatieperspectief: een succesvolle injectie manifesteert zich als een dominantieverschuiving waarbij het gebruikersverzoek niet langer doorslaggevende steun biedt voor de geprivilegieerde actie van de agent, terwijl een specifiek niet-vertrouwd segment, zoals een opgehaald document of tool-output, een disproportioneel toerekenbare invloed uitoefent. Gebaseerd op deze signatuur stellen wij CausalArmor voor, een selectief verdedigingskader dat (i) lichtgewicht, op leave-one-out-ablatie gebaseerde attributies berekent op geprivilegieerde beslispunten, en (ii) gerichte sanitisatie activeert alleen wanneer een niet-vertrouwd segment de gebruikersintentie domineert. Daarnaast gebruikt CausalArmor retroactieve Chain-of-Thought-masking om te voorkomen dat de agent handelt op basis van 'vergiftigde' redeneersporen. Wij presenteren een theoretische analyse die aantoont dat sanitisatie gebaseerd op attributiemarges onder voorwaarden een exponentieel kleine bovengrens oplevert voor de waarschijnlijkheid van het selecteren van kwaadaardige acties. Experimenten op AgentDojo en DoomArena tonen aan dat CausalArmor de beveiliging van agressieve verdedigingen evenaart, terwijl het de verklaarbaarheid verbetert en het nut en de latentie van AI-agents behoudt.
Op LLM gebaseerde codeeragentschappen tonen sterke prestaties op benchmarks voor geautomatiseerde issue-oplossing, maar bestaande evaluaties richten zich grotendeels op de uiteindelijke taaksucces, wat beperkt inzicht biedt in hoe agentschappen codecontext ophalen en gebruiken tijdens het probleemoplossend proces. Wij introduceren ContextBench, een procesgerichte evaluatie van contextretrieval in codeeragentschappen. ContextBench bestaat uit 1.136 issue-oplossingstaken uit 66 repositories in acht programmeertalen, elk aangevuld met door mensen geannoteerde gouden contexten. Verder implementeren we een geautomatiseerd evaluatieraamwerk dat agenttrajecten volgt en contextrecall, -precisie en -efficiëntie meet gedurende het issue-oplossingsproces. Met ContextBench evalueren we vier frontier-LLM's en vijf codeeragentschappen. Onze resultaten tonen aan dat geavanceerde agent-scaffolding slechts marginale verbeteringen oplevert in contextretrieval ("De Bittere Les" van codeeragentschappen), dat LLM's consistent recall verkiezen boven precisie, en dat er aanzienlijke kloof bestaat tussen verkende en gebruikte context. ContextBench breidt bestaande end-to-end benchmarks uit met intermediaire gouden-contextmetrieken die het issue-oplossingsproces openen. Deze contexten bieden waardevolle intermediaire signalen voor het sturen van LLM-redenering in softwaretaken.
Activeringsdecompositiemethoden in taalmodelen zijn nauw verbonden met geometrische aannames over hoe concepten worden gerepresenteerd in de activeringsruimte. Bestaande benaderingen zoeken naar individuele globale richtingen, waarbij ze impliciet lineaire scheidbaarheid veronderstellen, wat concepten met niet-lineaire of multidimensionale structuur over het hoofd ziet. In dit werk benutten we Mixtures of Factor Analyzers (MFA) als een schaalbare, onbewaakte alternatief dat de activeringsruimte modelleert als een verzameling Gaussische regio's met hun lokale covariantiestructuur. MFA ontbindt activeringen in twee compositionele geometrische objecten: het zwaartepunt van de regio in de activeringsruimte, en de lokale variatie ten opzichte van dit zwaartepunt. We trainen grootschalige MFA's voor Llama-3.1-8B en Gemma-2-2B, en tonen aan dat ze complexe, niet-lineaire structuren in de activeringsruimte vastleggen. Evaluaties op localisatie- en stuurbenchmarks tonen verder aan dat MFA onbewaakte basislijnen overtreft, competitief is met bewaakte localisatiemethoden, en vaak een sterkere stuurprestatie bereikt dan sparse auto-encoders. Samen positioneren onze bevindingen lokale geometrie, uitgedrukt door deelruimten, als een veelbelovende analyse-eenheid voor schaalbare conceptontdekking en modelcontrole, waarbij rekening wordt gehouden met complexe structuren die geïsoleerde richtingen niet kunnen vangen.
Hoewel flow matching elegant is, leidt de afhankelijkheid van voorwaardelijke snelheden met één steekproef tot trainingsdoelen met hoge variantie, wat de optimalisatie destabiliseert en de convergentie vertraagt. Door deze variantie expliciet te karakteriseren, identificeren we 1) een regime met hoge variantie nabij de prior, waar optimalisatie uitdagend is, en 2) een regime met lage variantie nabij de datadistributie, waar voorwaardelijke en marginale snelheden vrijwel samenvallen. Gebruikmakend van dit inzicht stellen we Stable Velocity voor, een uniform raamwerk dat zowel de training als de bemonstering verbetert. Voor de training introduceren we Stable Velocity Matching (StableVM), een zuivere variantiereductie-doelstelling, samen met Variance-Aware Representation Alignment (VA-REPA), dat adaptief de ondersteunende supervisie versterkt in het lage-variantie regime. Voor de inferentie tonen we aan dat dynamica in het lage-variantie regime gesloten-vorm vereenvoudigingen toelaat, wat Stable Velocity Sampling (StableVS) mogelijk maakt, een versnelling zonder fine-tuning. Uitgebreide experimenten op ImageNet 256×256 en grote voorgetrainde tekst-naar-beeld en tekst-naar-video modellen, waaronder SD3.5, Flux, Qwen-Image en Wan2.2, tonen consistente verbeteringen in trainings efficiëntie en meer dan 2 keer snellere bemonstering binnen het lage-variantie regime zonder verlies van samplekwaliteit. Onze code is beschikbaar op https://github.com/linYDTHU/StableVelocity.
Grootschalige taalmodelen (LLM's) worden steeds vaker ingezet in hoog-risicodomeinen, waar zeldzame maar ernstige fouten onomkeerbare schade kunnen veroorzaken. Huidige evaluatiebenchmarks reduceren complex sociaal risico echter vaak tot gemiddelde-centerede scalaire scores, waardoor de distributionele structuur, kruisdimensionale interacties en worst-case gedrag worden verhuld. Dit artikel introduceert Social Harm Analysis via Risk Profiles (SHARP), een raamwerk voor multidimensionale, distributiebewuste evaluatie van sociale schade. SHARP modelleert schade als een multivariate stochastische variabele en integreert een expliciete decompositie in bias, eerlijkheid, ethiek en epistemische betrouwbaarheid met een union-of-failures-aggregatie die is geherparameteriseerd als additief cumulatief log-risico. Het raamwerk hanteert verder risicogevoelige distributionele statistieken, met Conditional Value at Risk (CVaR95) als primaire metriek, om het worst-case gedrag van modellen te karakteriseren. Toepassing van SHARP op elf frontier-LLM's, geëvalueerd op een vaste corpus van n=901 sociaal gevoelige prompts, laat zien dat modellen met een vergelijkbaar gemiddeld risico meer dan een tweevoudig verschil kunnen vertonen in tail exposure en volatiliteit. Over de modellen heen varieert de dimensionale marginale tail-systematiek per schadedimensie: bias vertoont de sterkste tail-severity, epistemische en eerlijkheidsrisico's bevinden zich in een intermediair regime, en ethische misalignement is consistent lager; samen onthullen deze patronen heterogene, modelafhankelijke faalstructuren die door scalaire benchmarks worden samengevoegd. Deze bevindingen geven aan dat verantwoorde evaluatie en governance van LLM's een verschuiving vereisen van scalaire gemiddelden naar multidimensionale, tail-gevoelige risicoprofielen.
Indirecte prompt-injectie vormt een bedreiging voor LLM-agenten door kwaadaardige instructies in externe content in te bedden, waardoor onbevoegde acties en datadiefstal mogelijk worden. LLM-agenten onderhouden een werkgeheugen via hun contextvenster, dat de interactiegeschiedenis opslaat voor besluitvorming. Conventionele agenten accumuleren alle tool-uitvoer en redeneersporen ongereguleerd in dit geheugen, wat twee kritieke kwetsbaarheden creëert: (1) geïnjecteerde instructies blijven gedurende de hele workflow aanwezig, waardoor aanvallers meerdere kansen krijgen om gedrag te manipuleren, en (2) uitgebreide, niet-essentiële content verslechtert de besluitvormingscapaciteiten. Bestaande verdedigingen behandelen opgeblazen geheugen als gegeven en richten zich op veerkracht, in plaats van onnodige accumulatie te verminderen om de aanval te voorkomen. Wij presenteren AgentSys, een framework dat beschermt tegen indirecte prompt-injectie via expliciet geheugenbeheer. Geïnspireerd door procesgeheugenisolatie in besturingssystemen, organiseert AgentSys agenten hiërarchisch: een hoofdagent start werknemer-agenten voor toolaanroepen, elk uitgevoerd in een geïsoleerde context en in staat geneste werknemers voor subtaken te starten. Externe data en subtraces komen nooit in het geheugen van de hoofdagent; alleen schema-gevalideerde retourwaarden kunnen grenzen overschrijden via deterministische JSON-parsing. Ablatiestudies tonen aan dat isolatie alleen de aanvalssuccesreduceert tot 2,19%, en het toevoegen van een validator/sanitizer verbetert de verdediging verder met gebeurtenis-gestuurde controles waarvan de overhead meeschaalt met operaties in plaats van contextlengte. Op AgentDojo en ASB behaalt AgentSys een aanvalssucces van respectievelijk 0,78% en 4,25% terwijl het de functionele bruikbaarheid licht verbetert ten opzichte van onbeschermde baselines. Het blijft robuust tegen adaptieve aanvallers en over meerdere foundation-modellen, wat aantoont dat expliciet geheugenbeheer veilige, dynamische LLM-agentarchitecturen mogelijk maakt. Onze code is beschikbaar op: https://github.com/ruoyaow/agentsys-memory.
Continue-tijd generatieve modellen, zoals diffusiemodellen, flow matching en rectified flow, leren tijdafhankelijke vectorvelden maar worden doorgaans getraind met doelfuncties die tijdstappen onafhankelijk behandelen, wat leidt tot hoge schattervariantie en inefficiënte sampling. Eerdere benaderingen verminderen dit via expliciete gladstrafpunten, trajectregularisatie of aangepaste waarschijnlijkheidspaden en oplossers. Wij introduceren Temporale Paarconsistentie (TPC), een lichtgewicht variantieverlagingsprincipe dat snelheidsvoorspellingen koppelt bij gepaarde tijdstappen langs hetzelfde waarschijnlijkheidspad, opererend volledig op schatterniveau zonder de modelarchitectuur, het waarschijnlijkheidspad of de oploser aan te passen. Wij bieden een theoretische analyse die aantoont dat TPC een kwadratische, trajectgekoppelde regularisatie induceert die aantoonbaar de gradiëntvariantie vermindert terwijl het onderliggende flow-matching-doel behouden blijft. Geïmplementeerd binnen flow matching verbetert TPC de samplekwaliteit en -efficiëntie op CIFAR-10 en ImageNet bij meerdere resoluties, waarbij een lagere FID wordt bereikt tegen gelijke of lagere computationele kosten dan eerdere methoden, en integreert naadloos in moderne SOTA-pijplijnen met ruis-aangevulde training, score-gebaseerde denoisering en rectified flow.
Vision-Language Models (VLMs) hebben indrukwekkende prestaties geleverd in cross-modale begrip van tekstuele en visuele invoer, maar bestaande benchmarks richten zich voornamelijk op zuiver tekstuele vragen. In realistische scenario's verschijnt taal echter ook vaak als gevisualiseerde tekst die in afbeeldingen is ingebed, wat de vraag opwerpt of huidige VLMs dergelijke invoerverzoeken vergelijkbaar goed verwerken. Wij introduceren VISTA-Bench, een systematische benchmark die zich uitstrekt van multimodale perceptie en redenering tot unimodale begripsdomeinen. Het evalueert het begrip van gevisualiseerde tekst door vragen met zuivere tekst en gevisualiseerde tekst onder gecontroleerde weergavecondities te vergelijken. Een uitgebreide evaluatie van meer dan 20 representatieve VLMs onthult een aanzienlijke modaliteitskloof: modellen die goed presteren op zuiver tekstuele vragen, gaan vaak aanzienlijk achteruit wanneer equivalente semantische inhoud als gevisualiseerde tekst wordt gepresenteerd. Deze kloof wordt verder versterkt door een toegenomen perceptuele moeilijkheidsgraad, wat de gevoeligheid voor weergavevariaties benadrukt ondanks ongewijzigde semantiek. Over het algemeen biedt VISTA-Bench een principieel evaluatieraamwerk om deze beperking te diagnosticeren en vooruitgang te begeleiden naar meer uniforme taalrepresentaties over getokeniseerde tekst en pixels heen. De brondataset is beschikbaar op https://github.com/QingAnLiu/VISTA-Bench.
Het uitvoeren van LLM's met uitgebreide redeneercapaciteiten voor elk probleem is kostbaar, maar het blijft een uitdaging om te bepalen welke invoer daadwerkelijk extra rekenkracht vereist. Wij onderzoeken of de eigen waarschijnlijkheid van succes kan worden afgeleid uit hun interne representaties vóór generatie, en of dit signaal kan worden gebruikt om efficiëntere inferentie te sturen. We trainen lineaire probes op pre-generatie-activaties om modelspecifiek succes te voorspellen bij wiskunde- en codeertaken, wat aanzienlijk beter presteert dan oppervlakkige kenmerken zoals vraag lengte en TF-IDF. Met behulp van E2H-AMC, dat zowel menselijke als modelprestaties op identieke problemen biedt, tonen we aan dat modellen een modelspecifiek moeilijkheidsbegrip coderen dat verschilt van menselijke moeilijkheid, en dat dit onderscheid toeneemt bij uitgebreid redeneren. Door gebruik te maken van deze probes demonstreren we dat het routeren van queries over een pool van modellen het beste presterende model kan overtreffen, terwijl de inferentiekosten op MATH met tot 70% worden verminderd. Dit toont aan dat interne representaties praktische efficiëntiewinsten mogelijk maken, zelfs wanneer ze afwijken van menselijke intuïties over moeilijkheid. Onze code is beschikbaar op: https://github.com/KabakaWilliam/llms_know_difficulty
Toegekende Grafclusteren (AGC) is een fundamentele onbewaakte taak die structurele topologie en knooppuntkenmerken integreert om latente patronen in grafgestructureerde gegevens te ontdekken. Ondanks het belang ervan in industriële toepassingen zoals fraude detectie en gebruikerssegmentatie, blijft er een significante kloof bestaan tussen academisch onderzoek en praktische implementatie. Huidige evaluatieprotocollen lijden onder kleinschalige, hoog-homofiele citatiedatasets, niet-schaalbare volledige-batch trainingsparadigma's, en een afhankelijkheid van bewaakte metrieken die de prestaties in label-arme omgevingen niet weerspiegelen. Om deze kloven te overbruggen, presenteren we PyAGC, een uitgebreid, productiegereed benchmark en bibliotheek ontworpen om AGC-methoden stresstests te laten ondergaan over diverse schalen en structurele eigenschappen. We verenigen bestaande methodologieën in een modulair Encodeer-Cluster-Optimaliseer raamwerk en bieden voor het eerst geheugenefficiënte, mini-batch implementaties voor een breed scala aan state-of-the-art AGC-algoritmen. Onze benchmark bevat 12 diverse datasets, variërend van 2.7K tot 111M knopen, en omvat specifiek industriële grafieken met complexe tabelkenmerken en lage homofilie. Verder pleiten we voor een holistisch evaluatieprotocol dat onbewaakte structurele metrieken en efficiëntieprofiling naast traditionele bewaakte metrieken verplicht stelt. Dit benchmark, beproefd in hoog-risico industriële workflows bij Ant Group, biedt de gemeenschap een robuus, reproduceerbaar en schaalbaar platform om AGC-onderzoek richting realistische implementatie te bevorderen. De code en bronnen zijn publiekelijk beschikbaar via GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc), en Documentatie (https://pyagc.readthedocs.io).
Test-time training (TTT) past taalmodellen aan door middel van op gradienten gebaseerde updates tijdens de inferentiefase. Maar is aanpassing wel de juiste strategie? Wij bestuderen compute-optimale test-time strategieën voor verifieerbare, op uitvoering gegronde (VEG) taken, domeinen zoals GPU-kerneloptimalisatie waarbij een deterministische evaluator dichte, continue beloningssignalen verschaft. Met KernelBench als onze testomgeving en een 120B-parameter model (GPT-OSS-120B met LoRA-aanpassing) constateren we dat zoeken superieur is aan minimale aanpassing (1-5 gradientstappen): Best-of-N bemonstering behaalt 90% taaksucces (18/20 taken) bij K=64 over de volledige KernelBench L1-evaluatieset, terwijl het beste checkpoint van TTT slechts 30,6% bereikt (gemiddelde over 3 seeds), waarbij de "equivalente K" van TTT onder de 1 valt, slechter dan inferentie met één steekproef. De faalmodus is over-scherping: gradient-updates doen de diversiteit instorten naar middelmatige oplossingen in plaats van optimale te ontdekken. Onze belangrijkste bijdrage is verrassingsgeleide selectie: het selecteren van de meest verrassende (minst zelfverzekerde) correcte steekproef levert 80% succes op versus 50% voor de meest zelfverzekerde selectie, een verbetering van 30%. Uitbreiding naar verrassingsgeleide-top3 evenaart de orakelprestatie met 100%. Deze nul-kosten strategie, gevalideerd door lengte-gecontroleerde analyse, herstelt de orakelprestatie. Voor VEG-taken met dichte beloningen moet rekencapaciteit worden toegewezen aan steekproefdiversiteit en intelligente selectie in plaats van aan gradientaanpassing. Het verrassingsgeleide selectieprincipe kan generaliseren naar andere op uitvoering gegronde domeinen waar optimale oplossingen in de staart van de verdeling liggen.
Moderne implementaties vereisen dat grote taalmodellen (LLM's) veiligheidsbeleid op schaal handhaven, maar veel controles zijn afhankelijk van interventies tijdens de inferentie die terugkerende rekenkosten en complexiteit in de dienstverlening met zich meebrengen. Sturing van activeringen wordt veel gebruikt, maar vereist runtime-hooks en schaalt de kosten met het aantal gegenereerde outputs; conditionele varianten verbeteren de selectiviteit door sturing te conditioneren, maar behouden nog steeds een controlepad tijdens de inferentie. Wij onderzoeken of selectieve weigering volledig offline kan worden verplaatst: kan een mechanistisch begrip van categorie-specifieke weigering worden gedistilleerd tot een gewichtsupdate die beperkt is tot een specifiek circuit en kan worden geïmplementeerd als een standaard checkpoint? Wij stellen C-Δθ voor: Circuit Restricted Weight Arithmetic, dat (i) weigeringscausale berekening lokaliseert als een spaarzaam circuit met behulp van EAP-IG en (ii) een beperkte gewichtsupdate ΔθC berekent die alleen op dat circuit wordt toegepast (meestal <5% van de parameters). Het toepassen van ΔθC resulteert in een direct bruikbaar, bewerkt checkpoint zonder runtime-hooks, waardoor de kosten worden verschoven van interventie per aanvraag naar een eenmalige offline update. Wij evalueren categorie-gerichte selectiviteit en het behoud van capaciteiten op weigerings- en functionaliteitsbenchmarks.
Met de wijdverspreide inzet van Computergebruikende Agents (CUA's) in complexe real-world omgevingen leiden veelvoorkomende langetermijnrisico's vaak tot ernstige en onomkeerbare gevolgen. De meeste bestaande beveiligingsmaatregelen voor CUA's hanteren een reactieve aanpak, waarbij het gedrag van de agent alleen binnen de huidige observatieruimte wordt beperkt. Hoewel deze maatregelen onmiddellijke kortetermijnrisico's kunnen voorkomen (bijvoorbeeld het klikken op een phishinglink), kunnen ze langetermijnrisico's niet proactief vermijden: schijnbaar redelijke acties kunnen leiden tot hoogrisicogevolgen die met vertraging optreden (bijvoorbeeld het opschonen van logs waardoor toekomstige audits niet traceerbaar zijn), welke reactieve beveiligingsmaatregelen niet kunnen identificeren binnen de huidige observatieruimte. Om deze beperkingen aan te pakken, stellen we een predictieve beveiligingsaanpak voor, met als kernidee het afstemmen van voorspelde toekomstige risico's op huidige beslissingen. Gebaseerd op deze aanpak presenteren we SafePred, een predictief beveiligingskader voor CUA's dat een risico-naar-beslissing-lus establish om veilig agentgedrag te waarborgen. SafePred ondersteunt twee sleutelcapaciteiten: (1) Kort- en langetermijnrisicovoorspelling: door veiligheidsbeleid als basis voor risicovoorspelling te gebruiken, benut SafePred de voorspellingscapaciteit van het wereldmodel om semantische representaties van zowel kort- als langetermijnrisico's te genereren, waardoor acties die tot hoogrisicotoestanden leiden worden geïdentificeerd en gesnoeid; (2) Beslissingsoptimalisatie: het vertalen van voorspelde risico's naar uitvoerbare veilige beslissingsrichtlijnen via interventies op stapniveau en herplanning op taakniveau. Uitgebreide experimenten tonen aan dat SafePred hoogrisicogedrag significant reduceert, met een veiligheidsprestatie van meer dan 97,6% en een taaknut verbetert tot wel 21,4% vergeleken met reactieve baseline-methoden.