Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Repository-niveau codeerbenchmarks zoals SWE-bench hebben geleid tot een snelle toename van de mogelijkheden van codeeragenten. Toch behandelen ze codeertaken doorgaans als een holistisch, binair voorspellingsprobleem (bijv. opgelost of niet opgelost), waarbij fijnmazige agentcapaciteiten zoals repository-begrip, contextophaling, codelokalisatie en foutdiagnose worden verwaarloosd. In dit artikel introduceren we SWE-Explore, een benchmark die de evaluatie van repository-verkenning isoleert, een cruciale capaciteit van codeeragenten. Gegeven een repository en een issue vraagt SWE-Explore een verkennende agent om een gerangschikte lijst van relevante coderegio's terug te geven binnen een vastgesteld regelbudget. SWE-Explore omvat 848 issues in 10 programmeertalen en 203 open-source repositories. Voor elke instantie leiden we grondwaarheid op regelniveau af uit onafhankelijke agenttrajecten die hetzelfde issue met succes hebben opgelost, waarbij we de specifieke coderegio's distilleren die hun oplossingspaden daadwerkelijk hebben geraadpleegd. We evalueren verkenning langs de dimensies dekking, rangschikking en context-efficiëntie, en tonen aan dat deze metrieken sterk correleren met het daaropvolgende herstelgedrag. Over een breed scala aan retrievemethoden, algemene codeeragenten en gespecialiseerde localizers heen, zien we dat agentische verkenners een duidelijke laag boven klassieke retrieval vormen. Hoewel lokalisatie op bestandsniveau voor moderne methoden al sterk is, blijven dekking op regelniveau en efficiënte rangschikking de belangrijkste assen waarlangs state-of-the-art verkenners zich onderscheiden.
Recente AI-systemen hebben sterke resultaten behaald op een breed scala aan benchmarks, maar deze winst heeft zich niet vertaald in economisch betekenisvolle implementatie in veel professionele domeinen. Wij stellen dat deze kloof grotendeels een evaluatieprobleem is: veelgebruikte benchmarks missen aanhoudende prestatiemeting op echte en economisch waardevolle workflows. Dit artikel introduceert Agents' Last Exam (ALE), een benchmark die is ontworpen om AI-agenten te evalueren op langdurige, economisch waardevolle, realistische taken met verifieerbare uitkomsten. Ontwikkeld in samenwerking met meer dan 250 industriële experts, bestrijkt ALE niet-fysieke industrieën die zijn gedefinieerd aan de hand van O*NET / SOC 2018 (de Amerikaanse federale beroepenclassificatie). Het is georganiseerd rond een taakclassificatie met 55 subvelden gegroepeerd in 13 industrieclusters die meer dan 1.000 taken omvatten. Huidige resultaten tonen aan dat de moeilijkste laag nog lang niet verzadigd is: bij gangbare harness- en backbone-configuraties bedraagt het gemiddelde volledige slagingspercentage 2,6%. ALE is ontworpen als een levende benchmark: de takenpool groeit continu naarmate nieuwe workflows en industrieën worden toegevoegd. In bredere zin is ALE niet louter bedoeld als nog een ranglijst, maar als een instrument om de kloof te dichten tussen benchmarksucces en bbp-relevante impact.
On-policy distillatie (OPD) wordt steeds vaker gebruikt om het redeneren van grote taalmodellen te verbeteren, maar de trainingsdynamiek ervan blijft slecht begrepen. We karakteriseren het traject van OPD-updates in de parameterruimte en vergelijken dit met gesuperviseerde finetuning (SFT) en reinforcement learning met verifieerbare beloningen (RLVR). Een reeks diagnostieken in de parameterruimte plaatst OPD consistent in een ontspannen off-principaal regime: in vergelijking met SFT beïnvloeden de updates minder gewichten en vermijden ze sterker de principale richtingen, terwijl ze in vergelijking met RLVR minder strak beperkt blijven. Voorbij deze statische lokalisatie vertoont OPD subruimtevergrendeling: de cumulatieve updates komen snel in een nauw laagdimensionaal kanaal terecht. Het beperken van de training tot de updatesubruimte die vroeg in de training wordt gevormd, behoudt de OPD-prestaties, maar verslechtert SFT aanzienlijk, wat aangeeft dat de vergrendelde subruimte functioneel voldoende is voor OPD. Controle-experimenten tonen verder aan dat het versparsen van de updatetokens en het verschuiven van de rolloutgeneratie naar off-policy de rangdynamiek behouden, terwijl het mengen van de OPD-doelfunctie met RLVR deze verandert. Over het geheel genomen suggereren deze resultaten dat OPD niet slechts een tussenpunt is tussen SFT en RLVR, maar zijn eigen updatemeetkunde in de parameterruimte induceert.
Agentsystemen maken steeds vaker gebruik van tekstuele vaardigheden om herbruikbare taakprocedures te coderen, maar het injecteren van deze vaardigheden in de prompt bij elke stap brengt een aanzienlijke contextoverhead met zich mee en stelt de inhoud van de vaardigheden bloot als platte tekst. Wij presenteren LatentSkill, een raamwerk dat tekstuele vaardigheden omzet in plug-and-play LoRA-adapters via een voorgetraind hypernetwerk. LatentSkill slaat vaardigheidskennis op in de gewichtsruimte in plaats van de contextruimte, waardoor per-stap vaardigheidstokens worden verwijderd terwijl modulair laden, schalen en samenstellen behouden blijft. Op ALFWorld en Search-QA presteert LatentSkill beter dan de corresponderende in-context vaardigheidsbaseline, terwijl het aanzienlijk minder prefill-tokens gebruikt: het verbetert het succes op ALFWorld met 21,4 en 13,4 punten op respectievelijk de geziene en ongeziene splitsingen, met 64,1% minder prefill-tokens, en verbetert de exacte overeenkomst op Search-QA met 3,0 punten bij 72,2% lagere vaardigheidstoken-overhead. Verdere analyse toont aan dat gegenereerde vaardigheid-LoRA's een gestructureerde semantische geometrie vormen, nauwkeurig kunnen worden gecontroleerd via de LoRA-schalingscoëfficiënt, en kunnen worden samengesteld via parameterruimte-rekenkunde wanneer vaardigheidscomponenten zijn uitgelijnd. Deze bevindingen suggereren dat gewichtsruimtevaardigheden een efficiënt, modulair en minder blootgesteld substraat bieden voor het uitbreiden van LLM-agenten.
Videowereldmodellen die 3D-ruimtelijke consistentie behouden over gegenereerde frames, vertrouwen doorgaans op expliciet puntwolkgeheugen dat is opgebouwd in RGB-ruimte. Dit ontwerp is zowel rekenkundig duur, omdat het herhaaldelijk renderen en VAE-codering vereist, als inherent verlieslatend, omdat de heen-en-weerbeweging door de pixelruimte rijke kenmerken van de geleerde latente representatie verwijdert. In dit artikel introduceren we latente ruimtelijke geheugen voor videowereldmodellen, een persistent 3D-cache die scène-informatie direct in de diffusie-latente ruimte opslaat, waardoor reconstructie in de pixelruimte wordt vermeden. Hierop voortbouwend stellen we Mirage voor, een latent-ruimtelijk geheugenframework dat het geheugen construeert door latente tokens via dieptegeleide terugprojectie naar 3D te tillen en het bevraagt door nieuwe aanzichten te synthetiseren via directe latente-ruimtevervorming. Deze uniforme formulering elimineert zowel het informatieverlies van pixelruimtereconstructie als de rekenlast van herhaalde codering en rendering. Experimenten tonen aan dat latente ruimtelijke geheugen tot 10,57 keer snellere end-to-end videogeneratie en 55 keer reductie in geheugenvoetafdruk bereikt ten opzichte van expliciete 3D-baselines. Door gebruik te maken van het geometrische prior van het diffusiemodel behaalt Mirage state-of-the-art prestaties op WorldScore en sterke reconstructiekwaliteit op RealEstate10K.
Hoewel recente tekstgestuurde videobewerkingsmodellen uitblinken in elementaire taken (bijv. stijloverdracht, objectinvoeging), zijn verzoeken van gebruikers in de praktijk sterk compositorisch. Een enkele prompt vereist vaak meerdere gekoppelde bewerkingen, zoals het wijzigen van onderwerpen, acties en camerastandpunten, terwijl niet-gerelateerde spatiotemporele inhoud strikt behouden blijft. Bestaande benchmarks, sterk beperkt door geïsoleerde bewerkingen en grove globale metrieken, slagen er niet in te diagnosticeren hoe modellen dergelijke complexe workflows aanpakken. Om deze leemte aan te pakken, introduceren we CoVEBench, een compositorische videobewerkingsbenchmark bestaande uit 416 samengestelde bronvideo's, 626 meerpuntsbewerkingsinstructies en 9.990 fijnmazige checklistitems. CoVEBench bestrijkt diverse bewerkingsdimensies en evalueert modellen via MLLM-beoordeelde instructienaleving en videotrouw, naast geautomatiseerde metrieken voor videokwaliteit. Uitgebreide experimenten tonen aan dat compositorische bewerking een grote uitdaging blijft: huidige modellen laten vaak bewerkingen weg, schenden behoudsbeperkingen of introduceren artefacten bij het gelijktijdig uitvoeren van meerdere bewerkingen. CoVEBench biedt een uitdagend, diagnostisch testbed om videobewerking richting realistische gebruikersworkflows te brengen.
Conventionele LLM's houden tijdens het decoderen de volledige KV-cache geladen, wat een ernstig GPU-geheugenknelpunt veroorzaakt bij het verwerken van extreem lange contexten. In dit rapport stellen we Lookahead Sparse Attention (LSA) voor, een nieuw inferentieparadigma aangedreven door een neurale geheugenindexeerder gebouwd op de DeepSeek-V4-architectuur. In plaats van passief aandacht te besteden aan alle historische tokens, voorspelt LSA proactief toekomstige contextbehoeften en bewaart alleen de query-kritische KV-chunks in het GPU-geheugen. Cruciaal is dat we deze architectuur implementeren via een backbone-vrije ontkoppelde trainingsstrategie. Door de indexeerder te formuleren als een standaard dual-encoderarchitectuur, trainen we deze onafhankelijk met standaard retrieval-trainingskaders, zonder ooit het massieve backbonemodel in het GPU-geheugen te laden. We tonen aan dat dit "minder is meer"-paradigma de serveerefficiëntie aanzienlijk maximaliseert, terwijl het fungeert als een effectieve aandachtsdenoiser in taken die afhankelijk zijn van langetermijn-globaal geheugen. In primaire lange-context-evaluatiesuites (bijv. LongBench-v2, LongMemEval en RULER) comprimeert FM-DS-V4 de gemiddelde fysieke KV-cache-voetafdruk tot slechts 13,5% van de volledige-context-baseline, terwijl het consistent de downstream-nauwkeurigheid behoudt of licht verhoogt (gemiddeld +0,6% absolute marge). Cruciaal is dat FlashMemory bij extreme 500K-schalen de fysieke KV-cache-overhead met meer dan 90% onderdrukt zonder de kernredeneervermogens van de backbone te destabiliseren.
Ruimtelijk redeneren is een fundamentele capaciteit voor multimodale grote taalmodellen (MLLM's) om de fysieke wereld waar te nemen en erin te opereren. Bestaande benchmarks steunen echter voornamelijk op passieve evaluatie (bijv. statische VQA) of simulatorspecifieke pijplijnen, waardoor algemeen interactief ruimtelijk begrip niet wordt beoordeeld. We introduceren SpatialWorld, een uniforme benchmark die specifiek is ontworpen voor het evalueren van het interactieve ruimtelijke begrip van multimodale agenten in complexe realistische taken. Door acht heterogene simulatie-backends te integreren onder een gedeeld, simulatoronafhankelijk protocol, omvat SpatialWorld 760 door mensen geannoteerde taken in diverse domeinen (bijv. huishoudelijke routines, reizen, sociale samenwerking). Agenten moeten taken oplossen onder alleen-visuele gedeeltelijke waarneembaarheid, actief egocentrisch visueel bewijs verzamelen en beslissingen uiten via een uniforme, tekstgebaseerde actie-interface die native is voor MLLM's. Voor een betrouwbare evaluatie bevat elke taak een door mensen gevalideerde begintoestand, een referentietraject en een eindtoestandverificateur. Evaluatie van 15 geavanceerde agenten laat zien dat robuust ruimtelijk taakoplossen een uitdaging blijft: het sterkste model, GPT-5, behaalt een gemiddeld taaksuccespercentage (TSR) van slechts 17,4%, terwijl het toonaangevende opensource-model, Qwen-3.5, 14,1% bereikt. Verdere analyse onthult een duidelijke mismatch tussen taaksucces en uitvoeringsefficiëntie, naast aanzienlijke domeinspecifieke prestatievariaties. Deze knelpunten in actieve exploratie en lange-termijnplanning positioneren SpatialWorld als een rigoureuze testomgeving voor toekomstige ruimtelijke agenten.
We onderzoeken of psychometrische vragenlijsten voor mensen kunnen dienen als betrouwbare instrumenten voor het karakteriseren en voorspellen van het gedrag van grote taalmodellen (LLM's) in alledaagse gebruikersinteracties. We analyseren acht opensource-LLM's door hun waarde- en persoonlijkheidsprofielen te vergelijken, afkomstig van twee verschillende methoden: Likert-zelfrapportages op gevestigde vragenlijsten (PVQ-40/21 en BFI-44/10) en generatiekansen over waardegeladen antwoorden op alledaagse gebruikersvragen. De twee profielen wijken aanzienlijk van elkaar af. De consistentie van items binnen een construct, vaak aangehaald als bewijs van stabiele LLM-eigenschappen, verdwijnt in generatiekansen. We schrijven dit verschil toe aan het feit dat expliciete lexicale aanwijzingen in gevestigde vragenlijstitems modellen in staat stellen het doelconstruct te herkennen en op een uitlijningsconsistente, sociaal wenselijke manier te reageren, terwijl realistische gebruikersvragen dergelijke aanwijzingen niet bieden. Bovendien verschuiven demografische persona-prompts de antwoorden van modellen op menselijke vragenlijsten op een manier die overeenkomt met echte menselijke patronen, maar dergelijke verschuivingen treden niet op in de generatiekansen van antwoorden op realistische gebruikersvragen, wat wijst op hun beperkte vermogen om het gedrag van doelgroepen in echte gebruikersinteracties te simuleren. Over het geheel genomen toont onze studie aan dat menselijke psychometrische vragenlijsten ontoereikende instrumenten zijn voor het voorspellen van LLM-gedrag en suggereert dat generatie-gebaseerde profilering een nauwkeurigere maatstaf is.
We presenteren Echo-Memory, een gecontroleerde studie van geheugenmechanismen in actie-geconditioneerde wereldmodellen. Deze modellen genereren multi-segment video's vanuit een eerste frame, een tekstprompt en een camera-actie-sequentie, maar hun centrale falen is vaak het geheugen, niet de lokale beeldensynthese: nadat de camera is verplaatst en terugkeert, kan de scène of het opvallende object stilzwijgend veranderen. Bestaande geheugenontwerpen zijn moeilijk te vergelijken omdat de voordelen verstrengeld zijn met verschillen in backbone, training, retrieval en evaluatie. Echo-Memory fixeert de actie-naar-video-interface en varieert alleen hoe de geschiedenis wordt opgeslagen en gelezen door de generator. Onder een gedeelde video-diffusie-backbone, optimizer, camera-actie-representatie, sampler en evaluatiepijplijn vergelijken we ruwe context, compressie-gebaseerd geheugen, ruimtelijke samenvattingen met verschillende uitleespaden, en toestandsruimte-recurrentie. Deze gematchte matrix scheidt vier anderszins verstrengelde assen: capaciteit, compressie, uitlees en recurrentie. We evalueren ook geheugen via een drie-vertakkingsprotocol: replay-kwaliteit, in-domein loop-herbezoek, en open-domein terugkeerprobes. De vertakkingen zijn het routinematig oneens, wat aantoont dat replay-getrouwheid geen voldoende proxy is voor het onthouden van een wereld. Drie bevindingen volgen. Ruwe context is een sterke capaciteitsbaseline en verbetert open-domein terugkeer veel meer dan het replay-metrics verbetert. Compactheid is geen gratis substituut voor capaciteit: agressieve ruimtelijke en hybride-compressieherinneringen verliezen het opvallende bewijs dat nodig is voor terugkeer. Ten slotte is bloksgewijze toestandsruimte-recurrentie het sterkste open-domein terugkeermechanisme in onze matrix, wat aantoont dat de structuur van impliciet geheugen even belangrijk is als de beslissing om het te gebruiken. Deze resultaten bieden een compact protocol voor het bestuderen van geheugen in actie-wereldmodellen voorbij geïsoleerde replay-metrics.
De inferentie van een lang-context taalmodel wordt beperkt door geheugen, aangezien de KV-cache toeneemt met de contextlengte. Recente technieken om de KV-cache te comprimeren schieten tekort: ze verminderen de modelkwaliteit aanzienlijk of vergen aanzienlijke tijd en rekenkracht om een enkele lange prompt te comprimeren. Bovendien vereisen veel methoden dat de invoer binnen het contextvenster van het doelmodel past, en zijn ze over het algemeen incompatibel met moderne productie-inferentie-engines. Encoder-decoder compressoren, die een lange tokenreeks omzetten in een kortere reeks latente embeddings die door een decoder worden verbruikt, zijn in principe een aantrekkelijk alternatief. Echter, bestaande benaderingen zijn niet concurrerend met KV-cachecompressie op de nauwkeurigheid-efficiëntiegrens. In dit werk heroverwegen we encoder-decodercompressie en dichten we deze kloof. We voeren eerst een architectuurzoektocht uit, waarbij we vele varianten vanaf nul voortrainen om te bepalen hoe encoder-decodercompressoren het best ontworpen en getraind kunnen worden. Geleid door onze bevindingen trainen we continu een familie van 0.6B-encoder, 4B-decodermodellen op elk meer dan 350B tokens, bij compressieverhoudingen van 1:4, 1:8 en 1:16. We introduceren Latent Context Language Models (LCLM's), een familie van compressoren die de Pareto-grens verbeteren op het gebied van algemene taakprestatie, compressiesnelheid en piekgeheugengebruik. We tonen aan dat LCLM's dienen als efficiënte ruggengraat voor lange-horizon agents, waarbij de agent een gecomprimeerde lange context kan doorlopen en adaptief relevante segmenten op verzoek kan uitbreiden.
Visie-taalmodellen (VLM's) worden als agenten steeds vaker ingezet in interactieve spelomgevingen. Echter, game-benchmarks voor VLM-agenten rapporteren doorgaans slechts één score per (agent, game)-paar van de eerste poging, richten zich op single-agent solo-spel, en missen uniforme protocollen voor het evalueren van heterogene agentklassen (commerciële VLM's, open-gewicht VLM's en gespecialiseerde spelbeleidsregels) op gelijke voet. We vullen deze hiaten met OmniGameArena, een real-time benchmark van twaalf nieuw gebouwde Unreal Engine 5-games, variërend van solo (7), PvP (3) en coöperatief (2) met uniforme actie-interfaces, en de Improvement Dynamics Curve (IDC), een agentische-reflectie-harnas waarin een tool-gebruikende reflector-LLM autonoom een begrensd vaardigheidsprompt verfijnt over meerdere rondes. Naast koude-start-klassementscores onthult IDC twee extra waarneembare grootheden voor elk (agent, game)-paar: hoe de score evolueert over reflectierondes, en hoe de geleerde vaardigheid zich gedraagt op achtergehouden taakvarianten. We rapporteren deze waarneembare grootheden voor twaalf VLM-agenten op het koude-start-klassement en vier topagenten onder IDC.
Lineaire activatiesturing is populair geworden als een eenvoudige en empirisch effectieve manier om het gedrag van taalmodellen te beheersen. Meer recent zijn er sferische sturingsparadigma's voorgesteld om beperkingen van additieve interventies aan te pakken, vaak gemotiveerd door de aanname dat de norm van verborgen toestanden geen concept-relevante informatie bevat. In dit werk herzien we deze aanname door middel van een gecontroleerde empirische studie die is ontworpen om de rollen van hoek- en radiale componenten te ontwarren. We laten zien dat sturingsmethoden voornamelijk verschillen in hoe ze twee geometrische effecten koppelen: het veranderen van de hoekuitlijning van een token met een conceptrichting en het veranderen van de norm van de verborgen toestand. Over zeven taalmodellen heen vinden we dat concepten voornamelijk worden vertegenwoordigd in hoekstructuur, wat de motivatie voor sferische methoden ondersteunt, maar dat norm belangrijk blijft voor de stabiliteit en downstream-effecten van sturing. Onze resultaten verklaren waarom interventies met vergelijkbare effecten op conceptniveau zich anders kunnen gedragen, en suggereren dat activatiesturing moet worden geparametriseerd door interpreteerbare hoek- en radiale componenten van de interventie, in plaats van door een enkele additieve coëfficiënt die deze twee effecten verstrengelt.
LLM-agenten vertrouwen steeds meer op externe inferentiecondities: prompts, tools, geheugen, SOP's, vaardigheden en harness-feedback. Deze assets kunnen de taakuitvoering verbeteren zonder de modelgewichten te wijzigen, maar worden vaak herzien door heuristische reflectie of door het herbruiken van waargenomen successen en mislukkingen alsof tellingen op zichzelf al een betrouwbare overtuiging vormen. We introduceren Bayesian-Agent, een native en cross-harness raamwerk dat herbruikbare vaardigheden en SOP's behandelt als hypotheses over de vraag of een bevroren model zal slagen onder een specifieke prompt, context en harness-omgeving. Bayesian-Agent registreert geverifieerd trajectbewijs, onderhoudt een kenmerk-geconditioneerde categorische posterior over elke vaardigheid, en vertaalt de posterior-toestand naar inspecteerbare acties zoals patchen, splitsen, comprimeren, terugtrekken en verkennen. Modelgerichte prompts ontvangen uitvoerbare vangrails en foutmoduspatches, terwijl posterior-samenvattingen beschikbaar blijven voor audit. Met deepseek-v4-flash verbetert incrementele reparatie SOP-Bench van 80% naar 95%, Lifelong AgentBench van 90% naar 100% en RealFin-Bench van 45% naar 65%. We evalueren verder de native backend van Bayesian-Agent en optionele GenericAgent-, mini-swe-agent- en Claude Code-backends. De resultaten omvatten positieve, negatieve, verzadigde en casestudy-instellingen, wat suggereert dat de evolutie van agentvaardigheden het best kan worden beschouwd als posterior-gestuurde harness-optimalisatie in plaats van ongekalibreerde promptaccumulatie. De broncode is beschikbaar op https://github.com/DataArcTech/Bayesian-Agent.
Real-time videorestauratie (VR) voor livestreams vereist hoge-resolutie-outputs onder strikte latentiebeperkingen per frame. Bestaande éénstapsdiffusiegebaseerde VR-modellen blijven moeilijk inzetbaar op consumenten-GPU's vanwege twee belangrijke knelpunten: kwadratische ruimtelijke aandacht bij hoge resoluties en de latentie-geheugenoverhead van grote video-autoencoders. Wij presenteren SwiftVR, een streamend éénstapsgeneratief VR-framework dat beide knelpunten vermindert onder een causaal chunk-gewijs protocol. Voor aandacht gebruikt maskervrije verschoven-venster zelfaandacht die elk ruimtelijk venster verzamelt in een dichte tensor via deterministische indexering, waarbij alle aandachtsaanroepen op het dichte geschaalde puntproduct aandachtspad blijven zonder maskers, cyclische verschuivingen, opvulling of hardwarespecifieke sparse kernels. Omdat SwiftVR alleen standaard dichte SDPA-aanroepen gebruikt, kan het getrainde model worden overgezet naar consumenten-GPU's zonder hertraining of aangepaste kernels. Voor autoencoding maakt een lichte restauratiebewuste autoencoder snelle chunk-gewijze decodering mogelijk met behoud van reconstructiekwaliteit. Op een enkele H100 handhaaft SwiftVR 31 FPS bij 2560x1440 en 14 FPS bij 3840x2160, terwijl alle vergeleken diffusiegebaseerde VR-baselines de geheugenlimiet overschrijden bij 4K. Op een consumenten-RTX 5090 bereikt SwiftVR 26 FPS bij 1920x1080. Voor zover wij weten is SwiftVR het eerste generatieve VR-model dat real-time 1080p-streaming op een consumenten-GPU realiseert, terwijl het een sterke referentieloze perceptuele kwaliteit behaalt met lagere inferentiekosten. Het project is beschikbaar op https://h-oliday.github.io/SwiftVR.
Wereld-actiemodellen zijn naar voren gekomen als een veelbelovend paradigma voor robotmanipulatie, waarbij visuele scènedynamiek en acties gezamenlijk worden gemodelleerd om fysieke voorkennis in te brengen in het aanleren van beleid. Echter, bestaande wereld-actiemodellen koppelen wereldvoorspelling en actie-uitvoering op dezelfde temporele resolutie, waardoor de wereldtak wordt gedwongen om nabije framevariaties te modelleren die redundant en weinig informatief zijn. Wij stellen dat het strikt binden van wereldvoorspelling en actie-uitvoering aan hetzelfde temporele ritme het potentieel van de videotak voor belichaamde controle mogelijk onderbenut. Daarom introduceren we AHA-WAM, een Asynchroon Horizon-Adaptief Wereld-Actiemodel gebouwd op een dubbele Diffusie-Transformer (DiT) architectuur die wereld-actiemodellering reorganiseert rond deze temporele asymmetrie. AHA-WAM instantieert de video DiT als een laagfrequente wereldplanner die een rollend key-value geheugen bijhoudt over eerdere observaties en herbruikbare laagsgewijze latente context blootlegt die langetermijn scène-evolutie codeert, terwijl een hoogfrequente actie DiT korte actiebrokken uitvoert in een gesloten lus door deze context te bevragen via laagsgewijze gezamenlijke aandacht. Om asynchrone uitvoering te ondersteunen, introduceren we horizon-adaptieve offsettraining en Observatie-Gestuurde Video-Context Routing (OVCR), die samen de actie-expert in staat stellen om langetermijn wereldcontext te benutten terwijl deze responsief blijft op de real-time uitvoeringstoestand zonder de video DiT opnieuw uit te voeren. Experimenten op RoboTwin en real-world manipulatietaken tonen aan dat AHA-WAM state-of-the-art prestaties behaalt zonder enige voorafgaande training op robotdata, met een gemiddeld succes van 92,80% op RoboTwin en 78,3% succes over 4 real-world taken, terwijl het een gesloten-lusregeling van 24,17 Hz bereikt met een versnelling van 4,59x ten opzichte van Fast-WAM.
Whisper, een veelgebruikt ASR-model, staat erom bekend te lijden aan hallucinaties – samenhangende transcripties die worden gegenereerd voor niet-spraak audio en die volledig losstaan van de invoer. We onderzoeken of hallucinaties kunnen worden gedetecteerd en beperkt via de interne representaties van Whisper. We extraheren audio-encoderactivaties en evalueren twee representatieruimten: ruwe Whisper-activaties en Sparse AutoEncoder (SAE)-latenten. We tonen aan dat beide ruimten lineair scheidbare hallucinatiegerelateerde informatie coderen, waarbij het onderscheidend vermogen geconcentreerd is in een spaarse kenmerkdeelverzameling en toeneemt naarmate de encoderlagen dieper worden. We stellen twee sturingsstrategieën voor: sturing in de activatieruimte en sturing in de SAE-latente ruimte. Op SAE gebaseerde sturing vermindert het hallucinatiepercentage van 72,63% naar 14,11% voor Whisper small en van 86,88% naar 27,33% voor Whisper large-v3 op de volledige niet-spraaktestset, met een kleine WER-verslechtering op spraakdata, waarmee de prestaties van op fine-tuning gebaseerde methoden worden benaderd.
Wij presenteren DEI: Diversiteit in Evolutionaire Inferentie, een gedistribueerd Quality-Diversity (QD)-zoekraamwerk dat heterogene grote taalmodellen (LLM's) als mutatieoperatoren toewijst over peerknooppunten die communiceren via niet-blokkerende collectieve operaties. In tegenstelling tot homogeen parallel zoeken, dat de inductieve biases van één enkel model repliceert over alle workers, behandelt DEI elk uniek creatief prior van een LLM als een complementaire bron van gedragsnieuwheid. Door het Digital Red Queen-raamwerk met DEI uit te breiden, delen knooppunten aan het einde van elke ronde lokale optimale oplossingen om de populatie van de volgende ronde te bezaaien. Dit creëert een cross-model adversariële druk die robuustheid stimuleert die verder gaat dan intra-model zelfspel. Geëvalueerd op het Core War-domein, een competitieve programmeerbenchmark waarin Redcode-krijgerprogramma's strijden in een gesimuleerde machine, behaalt een heterogeen ensemble van vier knooppunten (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2 en Claude Haiku 4.5) een 124 procent hogere gemengde-archief QD-Score (45,90 vs. 20,46) en 28 procent hogere dekking (80,6 procent vs. 63,0 procent van de cellen) dan een baseline met één knooppunt bij gelijk totaal LLM-aanroepbudget. Het heterogene ensemble overtreft ook een gelijk gebudgetteerd homogeen ensemble op QD-Score, dekking en uitgesloten oplossingsgeneraliteit over alle vier de modelfamilies. Deze resultaten leveren het eerste empirische bewijs dat modeldiversiteit, niet slechts parallelisme, de belangrijkste drijver is van winst in gedistribueerd LLM-gebaseerd QD-zoeken.
Beloningsmodellen (RMs) leveren kritische feedbacksignalen voor post-training van LLMs, met name in versterkte fijnafstemming (RFT) en reinforcement learning (RL) pijplijnen. De huidige beloningsevaluatie is echter gebaseerd op heterogene criteria zoals op regels gebaseerde verificatoren, grondwaarheidreferenties, procedurele checklists en complexe rubrieken, waarbij een uniform mechanisme om alle soorten bewijs te integreren onontgonnen blijft. Hiertoe stellen we het Skill Reward Model (Skill-RM) voor, een uniform raamwerk dat beloningsmodellering herformuleert als de uitvoering van een herbruikbare Belonings-Evaluatievaardigheid. Door beloningsberekening te behandelen als een gestructureerde agentische taak, biedt Skill-RM een consistente interface om heterogene bronnen te orkestreren, waarbij dynamisch bewijsmateriaal wordt geselecteerd en samengevoegd dat is afgestemd op de specifieke vereisten van elke invoer. Deze aanpak stelt het beloningsmodel in staat om verder te gaan dan statische evaluatie, waarbij consistentie en transparantie over diverse taken worden gewaarborgd. Uitgebreide experimenten op beloningsbenchmarks en downstreamtoepassingen, waaronder best-of-N selectie en reinforcement learning, tonen aan dat Skill-RM consequent beter presteert dan traditionele rechter-baselines. Onze bevindingen suggereren dat Skill-RM niet alleen een uniforme oplossing biedt voor beloningsmodellering, maar ook superieure prestaties levert door de strategische en dynamische orkestratie van bewijsmateriaal. De code is beschikbaar op https://github.com/Qwen-Applications/Skill-RM.
Hoewel Omni-modale Grote Taalmodellen (OLLM's) indrukwekkende capaciteiten hebben getoond in het gezamenlijk verwerken van audio- en visuele stromen, blijft hun vermogen om strikt complexe, veelzijdige gebruikersinstructies te volgen grotendeels onontgonnen. Bestaande benchmarks richten zich voornamelijk op holistisch videobegrip of tekst-only instructie-opvolging, en slagen er niet in de ingewikkelde wisselwerking tussen modaliteiten en gebruikersbeperkingen vast te leggen. Om deze kloof te overbruggen, introduceren we OmniCap-IF, de eerste uitgebreide benchmark die specifiek is ontworpen om instructie-opvolgingscapaciteiten in omni-modale captioning te evalueren. OmniCap-IF bevat een systematisch raamwerk dat bijschriften beoordeelt op twee dimensies: formaatcorrectheid en inhoudscorrectheid. Onze benchmark omvat 50 verschillende beperkingstypen over pure visuele, pure audio- en audio-visuele modaliteiten, terwijl het Temporal Grounding integreert om spatio-temporele precisie te beoordelen. Uitgebreide evaluaties van prominente modellen op 1.920 hoogwaardige voorbeelden onthullen aanzienlijke prestatieverschillen. Verder onthult onze analyse een kritieke 'formaat-inhoud-afweging', waaruit blijkt dat het verhogen van de formatteringscomplexiteit direct de omni-modale redeneervermogens van modellen aantast. Ten slotte, om het vakgebied vooruit te helpen, stellen we een 54K instructie-tuning dataset samen, OmniCap-IF-54K, en presenteren we OmniCaptioner-IF, dat opmerkelijke verbeteringen behaalt in zowel complexe instructietrouw als algemene omni-modale captioningprestaties.
Muon verbetert de trainingsefficiëntie bij het trainen van grote taalmodellen met ongeveer een factor twee ten opzichte van Adam, maar de lokale geometrische bron van dit voordeel blijft onduidelijk. Ons werk zet een eerste stap in het ontrafelen van Muons superioriteit ten opzichte van Adam vanuit een krommingsperspectief. Ten eerste passen we een tweede-orde Taylor-benadering toe op het trainingslandschap en tonen aan dat Muon een grotere éénstapsverliesafname behaalt dan Adam bij een overeenkomend validatieverlies. De twee optimalisatoren hebben vergelijkbare eerste-ordewinsten, maar Muon ondervindt consequent een kleinere tweede-orde krommingspenalty. Ten tweede ontleden we deze krommingspenalty in het kwadraat van de updatenorm en de genormaliseerde richtingsscherpte (Normalized Directional Sharpness, NDS). We vinden dat Muon en Adam vergelijkbare updatenormen hebben, dus Muons kleinere krommingspenalty wordt gedreven door een lagere NDS, niet door een kleinere updategrootte. Ten derde onderzoeken we hoe trainingsgegevens en modelstructuur Muons NDS-voordeel vormgeven. Met behulp van Zipf-probabilistische contextvrije grammatica (PCFG)-data met gecontroleerde onevenwichtigheid tonen we aan dat data-onevenwichtigheid Muons NDS-voordeel ten opzichte van Adam versterkt. Een ontleding in termen van binnenlaagse en tussenlaagse kromming laat verder zien dat Muons lagere NDS in de midden- en late stadia van de training voornamelijk in stand wordt gehouden door kleinere kromming binnen de lagen. Naast empirisch bewijs analyseren we gestileerde kwadratische problemen met heterogene kromming en gradiëntuitlijning richting hoogkrommingsmodi. We bewijzen dat Muon een kleinere gemiddelde NDS behaalt dan GD door de updatenergie over krommingsgroepen in evenwicht te brengen; wanneer de krommingsheterogeniteit voldoende sterk is, levert dit ook een lager lokaal kwadratisch verlies op na hetzelfde aantal stappen.
Diepgaande onderzoeksagenten hebben opmerkelijke capaciteiten getoond in complexe informatiezoekopdrachten, maar deze kracht gaat gepaard met hoge computationele kosten. Aangedreven door nauwkeurigheidsgerichte trainingsparadigma's hanteren huidige modellen brute-krachtstrategieën die worden gekenmerkt door blinde toolafhankelijkheid en performatief redeneren – het genereren van lange, redundante trajecten die verre van noodzakelijk zijn voor het oplossen van deze taken, wat leidt tot verspillende tool-aanroepen en overmatig tokenverbruik. Om deze efficiëntieval te overwinnen, stellen we SlimSearcher voor, een principieel raamwerk dat de Pareto-grens tussen nauwkeurigheid en computationele kosten verlegt, zowel bij Supervised Fine-Tuning (SFT) als Reinforcement Learning (RL). In de SFT-fase gebruikt SlimSearcher Pareto-efficiënte filtratie om trajecten te distilleren die zowel succesvol als economisch zijn, waardoor het model wordt gestuurd naar inherent efficiëntiebewuste zoekgedragingen. Tijdens RL introduceren we Adaptive Reward Gating, een dynamisch beloningsvormingsmechanisme dat de relatieve tool- en tokenefficiëntie binnen een gesamplede cohort evalueert. Door deze adaptieve efficiëntiemetrieken te cascaderen met een strikte correctheidspoort, vermijdt onze aanpak effectief de bondigheidsbias die gepaard gaat met absolute straffen en beperkt het beloningshacking. Uitgebreide experimenten op lange-horizon benchmarks, waaronder GAIA, BrowseComp en XBenchDeepSearch, tonen aan dat SlimSearcher het gemiddelde aantal tool-aanroeprondes met 17%-58% vermindert, terwijl de nauwkeurigheid behouden blijft of verbetert.
Op spraak gebaseerde grote taalmodellen zijn doorgaans beperkt tot gesproken antwoorden, wat hun gebruikersgerichte outputs beperkt tot wat verbaal kan worden uitgedrukt en onderdrukt tekst-native mogelijkheden zoals codegeneratie, gestructureerde analyse en meerstapsredenering in realtime interactie, voor taken die persistente, gestructureerde en inspecteerbare tussentijdse outputs vereisen. Bestaand werk verbetert gesproken redeneren of full-duplex beurtwisseling, maar behandelt tekst nog steeds als een verborgen tussentoestand of een ondergeschikte modaliteit in plaats van een eersteklas outputkanaal. Wij stellen Listen-Write-Speak (LWS) voor, een tekst-eerst driekanaals paradigma waarin een enkel autoregressief LLM continu naar gebruikersaudio luistert, zichtbare vrije-vorm tekst schrijft als primaire output, en parallel een realtime mondeling antwoord spreekt onder een gedeelde causale aandachtcontext. Dit gedrag wordt volledig geïmplementeerd via een Token Schema, zonder architecturale aanpassingen, en aangeleerd via een tweetraps data-pijplijn die per seconde cognitieve annotaties synthetiseert die consistent zijn met de onthulde invoertijdlijn. Empirisch toont LWS sterke full-duplex interactie aan op Full-Duplex-Bench, bereikt 4,72 op VoiceBench AlpacaEval, behaalt 92,6% schrijf-spreek consistentie, en presteert consequent beter dan zijn interne ablatie-experimenten op URO-Bench. Deze resultaten suggereren dat zichtbaar schrijven kan dienen als een eersteklas outputkanaal voor spraakinteractie zonder realtime responsiviteit op te offeren. De code en dataset zijn beschikbaar op de projectpagina: https://royalzhang.com/project/lws-page/.
Reinforcement learning met verifieerbare beloningen (RLVR) is een toonaangevend paradigma geworden voor het verbeteren van het redeneervermogen van grote taalmodellen door middel van uitkomstgebaseerd toezicht. Echter, verifieerbare beloningen worden vaak oninformatief op groepsniveau: wanneer alle gesamplede traces van een bepaalde prompt identieke beloningen ontvangen, levert groepsrelatieve voordeelschatting geen gradientsignaal op, ook al kunnen de traces aanzienlijk verschillen in redeneerkwaliteit. We stellen Reasoning Arena voor, een adaptief trainingsraamwerk dat dergelijke niet-diverse beloningsgroepen naar een beoordelaarssysteem stuurt in plaats van ze weg te gooien. Naast het onderzoeken van het uiteindelijke antwoord, construeert Reasoning Arena trace-toernooien, waarin redeneertraces head-to-head worden vergeleken om fijnmazigere voorkeuren binnen de groep bloot te leggen, waardoor redeneerkwaliteit wordt omgezet in rijke relatieve beloningssignalen. Om de beloningsschatting efficiënt te maken, wordt in plaats van elk paar uitputtend te vergelijken, elke nieuwe trace geëvalueerd tegen een kleine, dynamisch bijgewerkte pool van eerder gegenereerde traces als ankers om efficiënt een relatieve rangschikking vast te stellen. Vervolgens passen we een Bradley-Terry-model toe op de onvolledige vergelijkingsgraaf, wat schaalbare RL-integratie mogelijk maakt zonder kwadratische paarsgewijze vergelijkingen. Empirische resultaten tonen aan dat Reasoning Arena de RLVR-baseline gemiddeld met 7,6% overtreft in competitiewiskunde- en codeerbenchmarks. Door anderszins verspilde nulvoordeelvoorbeelden om te zetten in nuttige gradiëntupdates, versnelt onze methode de training met 27% tot 41%, bespaart het bijna 50% van de generatieberekeningen en verbetert het de algehele redeneerprestaties aanzienlijk.
Wereldactiemodellen (WAM's) breiden het leren van robotbeleid uit door toekomstvoorspelling als extra trainingsdoel op te nemen, waardoor het beleid wordt aangemoedigd om taakrelevante temporele structuur in zijn representaties te coderen. Huidige WAM's zijn vaak afhankelijk van grootschalige generatieve architecturen, die hoge trainingskosten en inferentielatentie met zich meebrengen, waardoor ze moeilijk inzetbaar zijn als efficiënte closed-loop-beleidsregels. Wij stellen Light-WAM voor, een lichtgewicht World Action Model voor efficiënte robotmanipulatie. Het is specifiek gebouwd met een compacte videobackbone en voert toekomst-video-supervisie uit in een gedownsamplede latente ruimte, waardoor de kosten van video-co-training worden verlaagd terwijl de voordelen voor representatieleren behouden blijven. Voor actievoorspelling introduceert Light-WAM de StateFusionActionExpert, die aangepaste toestanden uit meerdere backbone-lagen leest, deze samenvoegt via learned-query-pooling, en direct action chunks voorspelt in een enkele forward pass. Dit ontwerp biedt een efficiënte interface tussen videobackbone-representaties en robotacties, waardoor de noodzaak voor zware generatieve actie-experts wordt vermeden. Experimenten tonen aan dat Light-WAM sterke prestaties levert op LIBERO en bruikbare multi-taskprestaties behaalt op RoboTwin 2.0, terwijl het slechts 0,44B trainbare parameters gebruikt. Het behaalt ook een inferentielatentie van 72,03 ms met een piek-GPU-geheugen van 4,1 GiB en een verbeterde trainingsdoorvoer.
Zoekgestuurde QA-pijplijnen leiden opgehaalde passages vaak door een LLM-herschrijver voordat ze een kleinere lezer bereiken, wat de F1-score op meerstaps benchmarks met tientallen punten verhoogt; deze winst wordt doorgaans toegeschreven aan verbeterde bewijskwaliteit. Wij vragen of die verhoging causaal wordt gedreven door het verschijnen van de gouden antwoordtekenreeks in de herschreven context in plaats van door de bewerking op zich, met behulp van een gecontroleerde interventie-audit. Voor elke herschreven context voeren we de lezer opnieuw uit na een van vier gecontroleerde bewerkingen aan de compilatie-uitvoer: het verwijderen van de gouden antwoordspan, het vervangen door een lengtegematchede willekeurige niet-antwoordspan (placebo), of het injecteren van het goud in herschrijvingen waar het ontbrak (aan het prefix of op een zinsgrens halverwege). Over twaalf voltooide (cel, basislijn) interventieruns die drie lezerfamilies (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), twee datasets (HotpotQA, 2WikiMultihopQA), en drie compileropstellingen (alleen MA, alleen MB, MA+verify) omvatten, verlaagt het verwijderen van het gouden antwoord de lezer-F1 met 28 tot 64 punten meer dan de lengtegematchede placebo op gepaarde antwoord-in-compilatie strata, en het voorvoegen van het goud in herschrijvingen die het misten verhoogt de F1 met +0.7 tot +9.7 punten in 10 van de 12 (cel, basislijn) combinaties. Een bijbehorende vijf-sentinel audit toont aan dat de conventionele enkele-[MASK]-probe zelf sentinel-kwetsbaar is: op 2Wiki rapporteert het een +4.12~F1 ``niet-lekkage residu'' dat omslaat naar -3.33 tot -7.81~F1 onder vier alternatieve sentinels en faalt voor een equivalentietoets voor drie van die vier (1/4~slaagt). Wij stellen geen nieuwe herschrijver of mitigatie voor; wij geven de interventie-uitvoerder en het sentinelpanel vrij, zodat andere claims over herschrijverwinst tegen dezelfde standaard kunnen worden getest.
Deep Research (DR) is naar voren gekomen als een nieuw agentisch paradigma voor het aanpakken van complexe, open onderzoekstaken, waarbij systemen nodig zijn die iteratief problemen kunnen formuleren, bewijsmateriaal kunnen verzamelen, bronnen kunnen verifiëren en langere rapporten kunnen synthetiseren. In de praktijk worden huidige DR-systemen echter beperkt door vier onderling samenhangende tekortkomingen: planning op lange termijn over een onderbepaalde reikwijdte, de bottleneck van het opsplitsen en plannen van dergelijke taken binnen één enkele agent, hallucinatierisico bij synthese van langere teksten, en beperkte procescontroleerbaarheid. Dit technisch rapport presenteert DuMate-DeepResearch, een multi-agent DR-raamwerk gebouwd op de Qianfan Agent Foundry. Dit raamwerk ontkoppelt de Agent Core, die taakbegrip, planning en scheduling verzorgt, van een uitbreidbaar Tool Ecosystem voor zoekopdrachten, bewijsverzameling en rapportweergave, waardoor elke tussenliggende beslissing en toolaanroep expliciet traceerbaar wordt. Voortbouwend op deze infrastructuur introduceert DuMate-DeepResearch drie mechanismen: (i) een grafgebaseerde dynamische planningsstrategie die de onderzoeksroute van grof naar fijn uitbreidt en continu bijstuurt via reflectie, herplanning, terugkoppeling en parallelle vertakkingen; (ii) een recursieve uitvoering op twee niveaus die elke complexe deeltaak voor zoekopdrachten delegeert aan een interne Search Agent met een eigen planningslus, waardoor ruisrijke zoekopdrachten worden geïsoleerd en de stabiliteit van langetermijnuitvoering wordt vergroot; (iii) een rubriekgebaseerde optimalisatie bij testtijd die dynamisch taakspecifieke kwaliteitscriteria genereert en deze gebruikt als levende redeneersteigers voor op bewijs gebaseerde synthese en adaptieve stopcondities. Op twee diepgaande onderzoeksbenchmarks behaalt DuMate-DeepResearch nieuwe state-of-the-art resultaten: de hoogste totale score (58,03%) op DeepResearch Bench, en de hoogste totale score (61,95%) op DeepResearch Bench II, met een eerste plaats op het gebied van informatieherinnering en -analyse.
Tekst-naar-beeldmodellen vertrouwen op tekstprompts als hun primaire interface voor menselijke intentie. Prompts worden door een tekstencoder gecodeerd in embeddings die het beeldgeneratieproces conditioneren. Naast individuele tokenbetekenissen coderen tekstembeddings contextuele informatie over de volledige prompt, zoals compositionaliteit en attribuutbinding. Of beeldmodellen deze rijkere informatie daadwerkelijk benutten, blijft echter onderbelicht. Hier behandelen we de vraag: welke aspecten van tekstrepresentatie zijn essentieel voor beeldgeneratie? We tonen aan dat op diffusietransformator gebaseerde tekst-naar-beeldmodellen doorgaans slechts vertrouwen op twee relatief eenvoudige aspecten van tekstrepresentaties: (i) het samenvoegen van aangrenzende tokens tot een woordrepresentatie, voor woorden die meerdere tokens beslaan, en (ii) woordvolgorde, die wordt ingeprent door de positionele embedding van de tekstencoder. Om dit aan te tonen, construeren we een nieuwe tekstembedding die alleen individuele woordbetekenissen en -volgorde codeert, maar geen contextuele informatie over de volledige prompt bevat. We ontdekken dat deze 'bag of position-tagged words'-representatie voldoende is om beeldgeneratie succesvol te sturen, met een visuele kwaliteit en tekstgetrouwheid die gelijkwaardig zijn aan generatie gestuurd door volledige tekstembeddings. Dit toont aan dat, in tegenstelling tot wat vaak wordt aangenomen, tekst-naar-beeldmodellen vaak de rijke informatie in de tekstembedding niet gebruiken naast individuele woordbetekenissen en woordvolgorde. In plaats daarvan wordt het decoderen van complexe linguïstische structuren uitgevoerd door het beeldmodel zelf. Projectwebpagina: https://nsping13.github.io/contextless-TTI/
Visie-taal-actie (VLA) modellen komen naar voren als een veelbelovend paradigma voor robotmanipulatie, doordat zij algemeen toepasbare beleidsregels mogelijk maken die zijn getraind op grote verzamelingen demonstraties en actieannotaties. Het aanpassen van deze modellen aan nieuwe taken vereist echter nog steeds doorgaans taakspecifieke demonstraties, actieannotaties en extra fijnafstemming, wat de implementatie kostbaar en moeilijk schaalbaar maakt. Wij stellen WIZARD voor, een meta-leerraamwerk in de gewichtsruimte dat taakspecifieke fijnafstemming omzeilt door taakspecifieke LoRA-parameters te genereren voor een bevroren VLA-beleid. Op basis van slechts een taalopdracht en een korte demonstratievideo voorspelt WIZARD de bijbehorende aanpassingsgewichten in een enkele voorwaartse doorgang, zonder actielabels van de doeltaak of optimalisatie tijdens testtijd. Tijdens meta-training leert WIZARD om taakbewijs direct te koppelen aan LoRA-updates van experts, waarbij relaties tussen taken in de gewichtsruimte worden vastgelegd. Experimenten op LIBERO tonen aan dat WIZARD de prestaties verbetert met tot ~2x op ongeziene datasetverzamelingen en tot ~14x op ongeziene taken. Op een Franka Emika Panda presteert WIZARD consistent beter dan een op het echte domein aangepaste basislijn, wat aantoont dat gegenereerde adapters taakspecifieke specialisatie bieden die verder gaat dan simulatie.
On-policy distillatie (OPD) is een centraal post-traininginstrument geworden voor grote taalmodellen (LLM's), dat dichte per-token begeleiding door de leraar biedt tijdens de eigen rollouts van de student. In dit werk identificeren we een veelvoorkomende structurele oorzaak die ten grondslag ligt aan OPD, die we prefixfalen noemen. Bij prefixfalen induceert dichte per-token begeleiding een bimodale mix van leraren en gefragmenteerde gradiënten die token-niveau verliesafkapping of herweging niet kan aanpakken. Deze observatie motiveert ons om verder te gaan dan interventies op token-niveau en over te stappen naar correcties op trajectniveau. Daarom stellen we Traject-Verfijnde Distillatie (TRD) voor, een correctiemethode op trajectniveau die de rollout van de student herziet onder begeleiding van de leraar, terwijl deze binnen de on-policy ondersteuning blijft. Door problematische prefixen te corrigeren vóór distillatie, vermindert TRD prefixfalen bij de bron. Bovendien verbetert TRD de exploratie door de student bloot te stellen aan alternatieve geldige afleidingen onder begeleiding van de leraar, zelfs wanneer de oorspronkelijke rollouts al correct zijn. TRD kan ook worden toegepast op on-policy zelfdistillatie (OPSD), een parameter-delende variant die het studentmodel, geconditioneerd op bevoorrechte informatie, als leraar gebruikt. Over een breed scala aan benchmarks en basismodellen op meerdere schalen presteert TRD consequent beter dan eerdere basislijnen, verbetert het de nauwkeurigheid bij een enkele poging en verbreedt het de redeneerdekking. Code is beschikbaar op https://github.com/louieworth/trd
Reinforcement learning met verifieerbare beloningen heeft het redeneren in visie-taalmodellen snel vooruitgeholpen. Voor de generatie van röntgenverslagen van de borstkas zijn de standaardbeloningen (d.w.z. exacte-overeenkomstnauwkeurigheid en stapsgewijze processen) echter ongeschikt, omdat de verslagen bestaan uit ongeordende en orthogonale bevindingen, in plaats van een causale redeneerketen. Wij pakken deze lacune aan met een set-gebaseerd perspectief: elk verslag wordt opgesplitst in zinnen en ingebed door een bevroren zintransformator, wat leidt tot ongeordende inbeddingsets. Wij stellen voor om set-tot-set afstanden tussen gegenereerde en referentie-inbeddingen te gebruiken als continue, permutatie-invariante beloningen. Over twee datasets en drie visie-taalmodellen (Qwen3-VL-2B/4B, Gemma3-4B) heen presteert post-training met op set-tot-set afstand gebaseerde beloningen via GRPO consequent beter dan gesuperviseerde fine-tuning en exacte-overeenkomst GRPO op alle hoofdmetrieken (BERTScore, RadGraph F1 en CheXbert F1 met respectievelijk gemiddelde relatieve verbeteringen van 6,80%, 7,82% en 4,45%). Dezelfde setafstanden maken ook best-of-N selectie tijdens testtijd mogelijk: het scoren van kandidaten op basis van hun afstand tot inbeddingen van trainingsverslagen presteert beter dan willekeurige selectie op onze getrainde modellen en ook op drie closed-source LLM's (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) met een gemiddelde relatieve verbetering van 16,4% op BERTScore. Gebruikt als streamsignaal ondersteunen ze een efficiëntere vorm van testtijdsschaling: het midden in de generatie snoeien van laag scorende kandidaten vermindert de gegenereerde tokens met meer dan 50% terwijl de kwaliteit van de bevindingen van volledige best-of-N selectie behouden blijft. Samen vestigen deze resultaten setafstandbeloningen als een uniform signaal voor zowel post-training als testtijdsschaling bij de generatie van röntgenverslagen van de borstkas. Onze code is openbaar beschikbaar op https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA.
Vision Transformers werken op vaste patchrasters, wat fase-afhankelijke instabiliteit kan introduceren voor dichte voorspelling: het wijzigen van de patchindeling kan het tokenbewijs dat beschikbaar is voor een pixel veranderen, vooral nabij grenzen. We formaliseren de patchrastrfase als een storingsvariabele en stellen Fasemarginalisatie voor, een post-hoc marginalisatiemethode die gestructureerde patchrastrfases evalueert, dichte uitvoeren omgekeerd uitlijnt en deze aggregeert in het oorspronkelijke beeldcoördinatensysteem. De centrale variant, Uniforme Fasemarginalisatie met K = 4, is trainingsvrij en presteert beter dan de canonieke K = 1 baseline in gemeten segmentatie-, diepte- en lokale matchinginstellingen. In een gecontroleerd Cityscapes-experiment biedt Uniforme Fasemarginalisatie een bescheiden compute-gematcht voordeel ten opzichte van generieke verschuivingsgebaseerde vier-voorwaartse testtijdaugmentatie (TTA) (+0,31 gemiddelde Intersection-over-Union ten opzichte van de sterkste geteste generieke rij). Een schalingsstudie toont verder aan dat K = 4 een praktische kosten-nauwkeurigheid-afweging is: K = 8 is in wezen onveranderd en K = 16 voegt weinig nauwkeurigheid toe bij veel hogere latentie. Deze resultaten positioneren patchrastrfase als een meetbare storingsvariabele en Fasemarginalisatie als een eenvoudige diagnostische en post-hoc marginalisatiebaseline voor dichte ViT-voorspelling.
Het trainen van visie-taal webagenten met meerstaps RL is rekenintensief, met twee dominante vormen van inefficiëntie: inactieve GPU's in synchrone RL, en trajecten die meer stappen en tokens gebruiken dan nodig. We presenteren AsyncWebRL, dat beide aanpakt. Aan de systeemkant overlapt een asynchroon ontwerp rollout, gradientupdate en policy refresh over iteraties, samen met twee webagent-specifieke aanpassingen, namelijk een eeuwigdurende rollout pool en lichtgewicht screenshotverwerking, die samen een tot 2,9 keer versnelling van de end-to-end trainingsdoorvoer opleveren ten opzichte van de eerder snelste open synchrone pipeline (WebGym). Aan de algoritmische kant identificeren we de per-trajectory normalizer 1/|τ_i| in meerstaps GRPO als de hoofdoorzaak van inefficiëntie op traject- en tokenniveau: omdat mislukkingen systematisch langer zijn dan successen, vermindert het het gewicht van de negatieve gradient op mislukte tokens, waardoor het beleid blijft zorgen voor breedsprakige geheugenschema's. Het vervangen van 1/|τ_i| door een constante 1/k verbreekt deze koppeling, verkort trajecten terwijl het totale succes behouden blijft. Samen zetten deze bijdragen een nieuwe open-source state of the art op de WebGym out-of-distribution testsplit (+5,8% relatief ten opzichte van het eerdere beste resultaat van 42,9%), met de grootste winst op de moeilijkere slices (+42% relatief op Medium, +48% relatief op Hard).
Zwak-naar-sterk generalisatie bestudeert hoe een sterke student verbeterd kan worden met behulp van supervisie van een zwakkere leraar wanneer betrouwbare labels schaars zijn. Wij beschouwen dit primair als een dataselectieprobleem, waarbij de grootste uitdaging is om te bepalen welke zwakke labels betrouwbaar genoeg zijn om als trainingssignaal te dienen. Hiervoor introduceren wij vertrouwensfuncties die aan elk zwak label een scalaire vertrouwensscore toekennen, waarmee we zwakke supervisie filteren. In verschillende domeinen, waaronder wereldkennis, kwantitatief redeneren en strategische spellen, leidt vertrouwensfiltering tot studenten die gelijkwaardig presteren aan en soms beter zijn dan supervisie op basis van grondwaarheid, wat resulteert in nagenoeg verliesvrije zwak-naar-sterk generalisatie. Bovendien maken vertrouwensfuncties een iteratieve zwak-naar-sterk keten mogelijk die de winst versterkt door een student te trainen en deze opnieuw als volgende leraar te gebruiken, waardoor de behaalde voordelen worden vergroot. Er zijn verschillende mechanismen waaraan het voordeel van vertrouwensfuncties kan worden toegeschreven.
Keten-van-Gedachten (CoT) verbetert de prestaties van Grote Taalmodellen (LLM's) en is uitgebreid naar Multimodale Grote Taalmodellen (MLLM's). Recenter werk gaat verder van tekstgebaseerd multimodaal redeneren naar interleaved-modale redenering, waarbij tussenstappen zowel tekstuele redeneringen als visueel bewijs kunnen omvatten. In dit werk stellen we een gedurfder en ambitieuzer idee voor: kunnen afbeeldingen alleen dienen als het redeneermiddel voor zowel taal- als multimodale taken? Om dit te onderzoeken introduceren we optisch redeneren, dat afbeeldingen behandelt als een zelfstandig redeneermiddel. We concretiseren dit concept met twee varianten: typografisch gebaseerd optisch redeneren, dat visuele lay-outs optimaliseert voor compacte weergave van redeneringen, en grafisch gebaseerd optisch redeneren, dat tekst en grafische elementen combineert tot gestructureerde visuele redeneringen. Bij benchmarks voor wiskundig, wetenschappelijk en interleaved-modal redeneren kan optisch redeneren traditioneel tekstredeneren evenaren of zelfs overtreffen, terwijl het het aantal redeneertokens gemiddeld met 28,57% vermindert bij taaltaken en met 16% bij multimodale taken, wat resulteert in 1,96 keer de tokenefficiëntie van tekstredeneren. Deze resultaten tonen aan dat afbeeldingen effectief en efficiënt redeneringen kunnen coderen, terwijl ze een uniform visueel canvas voor redeneren bieden.
Recente videogebaseerde wereldmodellen hebben pixel-omgevingen interactief gemaakt op cameraniveau: gebruikers kunnen door gezichtspunten navigeren terwijl het model coherente visuele voortzettingen genereert. Toch blijven hun actieruimten onvolledig: gebruikers kunnen de camera verplaatsen, maar niet handelen op individuele objecten. Omdat interactie in de echte wereld inherent objectgericht is, blijven dergelijke modellen dichter bij passieve waarnemers van scènes dan bij werkelijk manipuleerbare omgevingen. Wij presenteren WorldCraft, een raamwerk dat interactieve videowereldmodellen uitbreidt van cameranavigatie naar objectniveau-trajectacties. Gegeven een gebruikersklik en een getekend pad, genereert WorldCraft toekomstige frames waarin het geselecteerde object het voorgeschreven traject volgt terwijl de camera de scène blijft verkennen. WorldCraft bereikt dit via een trajectgecentreerde besturingspijplijn: Ten eerste stelt Normalized World Trajectory (NWT) de door de gebruiker getekende beweging voor in een camerainvariant wereldcoördinatensysteem en projecteert het deze dynamisch opnieuw onder de huidige camerapositie, waardoor objectbeweging wordt gescheiden van door camera veroorzaakte schermverschuiving; Spatial-Pathway LoRA (SP-LoRA) injecteert vervolgens dit wereldruimtesignaal via de ruimtelijke besturingsroute van het model, waardoor objectmanipulatie mogelijk wordt gemaakt terwijl de vooraf getrainde camerabesturing behouden blijft; ten slotte behandelt Trajectory-Anchored State Persistence (TASP) het wereldtraject als een persistente ruimtelijke toestand en ververst het het autoregressieve geheugen na trajectgestuurde generatie, zodat verplaatste objecten opnieuw verschijnen op hun bijgewerkte posities nadat ze uit het camerabeeld zijn verdwenen. Experimenten tonen aan dat WorldCraft nauwkeurige objectbesturing mogelijk maakt, de camerabetrouwbaarheid van het videogebaseerde wereldmodel behoudt onder cameragebaseerde evaluatie, en de objecttoestand handhaaft over lange autoregressieve uitrolsessies met verplaatsingen buiten beeld.
AI-evaluatieresultaten worden op schaal geproduceerd, maar worden inconsistent gerapporteerd in ranglijsten, modelkaarten, benchmarkartikelen en bedrijfsblogs. De kostprijs is interpretatief: lezers kunnen resultaten niet betrouwbaar vergelijken tussen bronnen, ontdekken wat een rapport weglaat, of een geaggregeerde bewaring herleiden tot het onderliggende bewijsmateriaal. Recente inspanningen pakken geïsoleerde componenten aan, maar laten drie hiaten: ze beslaan slechts smalle delen van de evaluatielevenscyclus en vormen geen samenhangend, interpreteerbaar geheel; ze specificeren statische representaties die geen onderscheid maken tussen de vragen die verschillende belanghebbenden stellen aan hetzelfde bewijsmateriaal; en ze blijven voorstellen op papier, zonder de extractie-infrastructuur die nodig is voor adoptie op schaal. We presenteren , een operationele rapportagelaag die benchmarkmetagegevens, evaluatie-uitvoergegevens en modelmetagegevens samenbrengt in een uniforme registratie. We (1) leiden een rapportageschema af uit een gestructureerde analyse van 52 artikelen en 10 interviews met belanghebbenden, (2) implementeren vier interpretatieve signalen (reproduceerbaarheid, documentatievolledigheid, herkomst en risico, en scoresoortvergelijking), weergegeven via leesmodi die zijn afgestemd op onderzoeks- en niet-onderzoekspubliek, en (3) zetten een monitoringtool in die toepast op 5.816 modellen, 635 benchmarks en 101.843 resultaten, waarbij systematische hiaten in de huidige rapportagepraktijk worden blootgelegd.
Prompt-injectiedetectoren zijn heterogeen: elk is sterk op een ander deel van aanvallen, en geen enkele is altijd betrouwbaar. Toch behandelen bestaande systemen detectie nog steeds als een vaste pijplijn met één detector, waarbij elk verzoek wordt overgelaten aan de blinde vlekken van één detector. We herformuleren verdediging als detectorallocatie: gegeven een heterogene pool, per verzoek beslissen welke detectoren moeten worden uitgevoerd en of moet worden geëscaleerd naar een LLM-rechter. Ons raamwerk SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage) maakt deze beslissing dynamisch door de betrouwbaarheid per monster en de latentie van elke detector te voorspellen op basis van hoe deze zich gedroeg op vergelijkbare eerdere inputs, en stelt een enkele veiligheids-nutsdrempel bloot aan de operator (waarbij nut het goedaardige slagingspercentage en wandkloktijd omvat). Om deze setting te evalueren, bouwen we SCOUT-450, een benchmark die de structureel complexe, agent-gerichte injecties vastlegt die oudere prompt-injectiesets ondervertegenwoordigen. Op SCOUT-450 vermindert een veiligheidsgericht werkpunt het aanvalssuccespercentage met 46% en de totale wandkloktijd met 40% ten opzichte van een altijd-actieve GPT-4o-rechter, bij een daling van 5,1 punt in goedaardig nut. SCOUT transfereert ook naar drie externe benchmarks (BIPIA, IPI en IHEval), waardoor de veiligheids-nutsgrens wordt verbeterd.
Agent-benchmarks beoordelen inzendingen met uitkomstverificateurs die typisch handgeschreven en breekbaar zijn, waardoor ze vatbaar zijn voor beloningshacking. We auditen 1.968 taken over vijf terminal-agent-benchmarks en vinden 323 (16%) die hackbaar zijn door geavanceerde modellen met alleen de taakomschrijving. Dit corrumpeert zowel leaderboard-ranglijsten als RL-trainingssignaal, maar de standaardreactie is handmatig en reactief. We introduceren de hacker-fixer-loop, een methode voor het bouwen van exploitbestendige verificateurs zonder per taak handmatig te patchen. De loop wisselt drie LLM-agenten af: een hacker probeert de verificateur te passeren zonder de taak op te lossen, een fixer past de verificateur aan om elke ontdekte exploit af te wijzen, en een solver bevestigt dat de gepatchte verificateur nog steeds legitieme oplossingen toelaat. De loop herhaalt zich: elke patch hervormt wat de verificateur beloont, waardoor de volgende exploit aan het licht komt. We voegen verder verificateurstoegang toe en laten patches overdragen tussen taken, om de exploits die de loop ontdekt te verbreden. Op KernelBench drijft de loop het aanvalsuccespercentage van 62% naar 0% op een aparte corpus van openbaar gerapporteerde exploits. We vinden ook dat zwakkere agenten in de loop kunnen verdedigen tegen veel sterkere hackers: de loop van Gemini 3 Flash drijft het aanvalsuccespercentage van de sterkere Gemini 3.1 Pro en Claude Opus 4.7 van respectievelijk 76% en 61% naar 0% op KernelBench, en dat van Gemini 3.1 Pro van 39% naar 17% op Terminal Bench over 77 taken. We brengen Terminal Wrench (323 hackbare omgevingen, 3.632 hacktrajecten) uit als een momentopname van het huidige aanvalsoppervlak, onze gepatchte verificateurs, de exploits die de loop ontdekte, en onze implementatie als basis voor toekomstig werk.
Bestaande benchmarks voor wetenschappelijke relatie-extractie richten zich voornamelijk op domeinen zoals informatica, waar entiteiten taken, methoden, datasets, materialen of metrieken zijn. Dit laat een leemte in variabelegerichte empirische velden zoals psychologie, waar bevindingen worden uitgedrukt als relaties tussen constructen, metingen, interventies en uitkomsten. We introduceren variabelegerichte empirische grafiextractie, de taak om wetenschappelijke abstracts om te zetten in getypeerde grafen waarvan de knooppunten genormaliseerde variabelen zijn en waarvan de verbindingen empirische en hiërarchische relaties vertegenwoordigen. Om deze taak te ondersteunen, construeren we EmpiriGraph-Psy, een benchmark van 210 abstracts uit de psychologie, geannoteerd door domeingetrainde annotatoren met genormaliseerde variabelen, concepthiërarchieën, empirische relatetypen en validatiestaten. We evalueren geavanceerde en open-weight LLM's met zowel directe extractie als een gefaseerde grafiekconstructiepijplijn die variabelextractie, normalisatie, hiërarchieconstructie, evidence-selectie, relatie-extractie en kantvalidatie scheidt. De gefaseerde pijplijn presteert aanzienlijk beter dan directe extractie, waarbij de beste configuratie een macro-F1 van 0,74 behaalt. Foutenanalyse toont aan dat moderatierelaties en concepthiërarchieën de meest uitdagende gevallen blijven, wat de moeilijkheid benadrukt van het extraheren van empirische beweringen van hogere orde en impliciete abstractiestructuur uit wetenschappelijke abstracts.
Het begrijpen van wat generatieve modellen van trainingsgegevens behouden blijft uitdagend, met implicaties voor auteursrecht en privacy. Naast letterlijke reproductie kunnen modellen subtielere sporen van hun trainingsgegevens coderen die nooit in hun uitvoer verschijnen maar toch exploiteerbaar blijven. We bestuderen dit regime voor Rectified Flows, die steeds vaker worden gebruikt in ingezette generatieve systemen. We analyseren het interpolatiepad X_λ = (1-λ)X_0 + λX_1 dat de Rectified Flow-training definieert. We tonen aan dat er een kloof bestaat tussen de reconstructie van trainings- en testgegevens die een klokvormige curve over λ volgt, die tijdens de training accumuleert, terwijl de validatiemetrieken stabiel blijven. Het signaal heeft een maximum waarvan we de locatie in gesloten vorm afleiden onder Gaussiaanse aannames. We valideren deze voorspellingen op zowel audio als afbeeldingen en tonen aan dat de klokvormige structuur universeel is, terwijl de piekvoorspelling geldt wanneer aan onze aannames wordt voldaan. Als proof of concept maken we gebruik van deze specifieke λ-opgeloste structuur om een lidmaatschapsinferentieaanval uit te voeren, waarbij leden van de trainingsset van niet-leden worden onderscheiden.
Van medische agentsystemen wordt steeds vaker verwacht dat ze interactieve klinische besluitvorming ondersteunen in plaats van alleen statische vraagbeantwoording. In dergelijke omgevingen moeten effectieve agenten eerdere ervaringen hergebruiken bij evoluerende casussen, maar bestaande geheugenmechanismen bewaren vaak ruwe historische sporen die redundant, ruisachtig en moeilijk te beheren zijn. Belangrijker nog, ze maken zelden onderscheid welke herinneringen werkelijk nuttig zijn voor toekomstige redeneringen. Dit beperkt hun vermogen om compacte en betrouwbare ervaring op te bouwen voor langdurige klinische redeneringen. Om deze kloof te dichten stellen we SkeMex voor, een post-implementatie zelfevolutieframework dat medische agenten verbetert via een op vaardigheden gebaseerd geheugen zonder modelgewichten bij te werken. SkeMex distilleert informatieve interactietrajecten tot gestructureerde vaardigheden die herbruikbare procedurele kennis coderen, en organiseert ze in een multibranch-repository die algemene, taakspecifieke en actieniveau-ervaring omvat. Om te bepalen welke herinneringen hergebruikt en behouden moeten worden, schat SkeMex contextafhankelijk nut in via omgevingsfeedback en gebruikt dit om waarde-bewuste ophaling en repositorybeheer te sturen. Een gesloten cyclus van 'Lezen--Schrijven--Beoordelen--Beheren' ondersteunt verdere continue evolutie door nieuwe vaardigheden te schrijven, nut bij te werken, nuttige herinneringen te bevorderen en schadelijke items te verwijderen. Experimenten met diverse klinische taken tonen aan dat SkeMex consequent beter presteert dan representatieve geheugengebaseerde agenten in zowel offline als online omgevingen. Het generaliseert ook over modelbackbones en ondersteunt overdraagbare vaardigheidsgeheugen. Alle gegevens en code zullen openbaar worden vrijgegeven.
Wij presenteren SigmaScale, een methode voor het leren van hulp-schalingsmatrices S ter ondersteuning van compressie van grote taalmodellen (LLM's) op basis van getrunceerde singulierewaardedecompositie (SVD). In plaats van schalingsmatrices analytisch af te leiden, optimaliseert SigmaScale twee sets vectoren die diagonale rij- en kolomschalings-transformaties definiëren onder een activatiebewuste compressieverliesfunctie. Wij tonen aan dat geleerd schalen de effectieve intrinsieke rang van gewichtsmatrices verlaagt, zoals blijkt uit reducties in effectieve-rangentropie, en dat deze reductie sterk gecorreleerd is met compressieverlies. Experimenten op Llama 3.1 8B Instruct en Qwen3-8B laten zien dat SigmaScale concurrerend is met nauw verwante state-of-the-art SVD-gebaseerde compressiemethoden op het gebied van perplexiteit en zero-shot benchmarks. Door gebruik te maken van geleerde activatiebewuste transformaties verkent SigmaScale een flexibelere route naar laagrangige LLM-compressie door zich aan te passen aan de structuur van individuele modelgewichten. Het voordeel dat wordt waargenomen bij specifieke taken maakt onze benadering een valide optie voor toepassingen die een verminderde rekenkost voor LLM-inferentie vereisen.
Grote taalmodellen worden steeds vaker geëvalueerd door andere modellen, wat een natuurlijke vraag oproept: kan een model voorspellen hoe een beoordelaar de eigen output zal beoordelen? We ontdekken dat dit vermogen grotendeels aanwezig is vóór enige gerichte training: met few-shot prompting voorspelt een basismodel al de multi-attribuut kwaliteitsscores van een externe beoordelaar voor open antwoorden, ruim boven het kansniveau, over drie benchmarks. We introduceren Self-Evaluation Elicitation (SEE), een methode die dit latente vermogen naar boven haalt via een korte cyclus bestaande uit een calibratie-gekoppelde reinforcement learning fase die het antwoord verbetert en de beoordelaar voorspelt, gevolgd door een gemaskeerde distillatiefase die de voorspelling aanscherpt terwijl het antwoord onaangetast blijft. Met 160 unieke voorbeelden, ongeveer 31 keer minder dan een reinforcement learning baseline, verbetert SEE de calibratie op een aparte validatieset over drie benchmarks, terwijl de antwoordkwaliteit behouden blijft. De geëliciteerde zelfevaluatie is scherp gelokaliseerd binnen de eigen tokenverdeling van het model en stabiel over beoordelaars waartegen het nooit getraind is, wat wijst op een overdraagbaar kwaliteitsbegrip in plaats van een voorkeur van een enkele beoordelaar. Deze resultaten herkaderen beoordelaar-afgestemde zelfevaluatie als een probleem van eliciteren in plaats van verwerven.
Latente visuele redenering (LVR) voegt gesuperviseerde latente tokens in tussen perceptie en antwoordgeneratie in visie-taalmodellen (VTM’s). Het veld gebruikt de overeenstemming tussen deze latenten en hun visuele doelen, d.w.z. cosinusovereenkomst of gemiddelde kwadratische fout (MSE), zowel als trainingsverlies als kwaliteitsmaatstaf, in de veronderstelling dat betere overeenstemming leidt tot een beter antwoord. We testen dit met een ontworpen matrix van vijf LVR-varianten en vinden de aanname omgekeerd: cosinusovereenkomst is negatief gecorreleerd met nauwkeurigheid over alle vijf (r=-0,94). Om dit te verklaren introduceren we PRISM, een paar inferentiediagnostieken: een lineaire probe die vraagt waar het antwoord decodeerbaar is, en een corruptietest die vraagt of het latent draagkrachtig is. De gesuperviseerde latenten worden grotendeels omzeild. Het corrumperen ervan verschuift de nauwkeurigheid met maximaal vier punten. Het antwoord is decodeerbaar stroomafwaarts van het latent, maar niet ervan, en de grootte van deze decodeerbaarheidskloof voorspelt in hoeverre elke variant op zijn latent vertrouwt onder verstoring. In overeenstemming met een Informatieknelpunt-interpretatie van het verlies, hervormt de hulpdoelstelling het taalmodel via gedeelde parameters in plaats van via de latente variabele die het nominaal optimaliseert.
Standaard transformators passen overal in elke laag en voor elk token dezelfde self-attention toe, ongeacht of de invoer dynamische interactie tussen tokens vereist. Wij stellen CHIAR-Former (Chiaroscuro Attention) voor, een hybride transformator met 4 lagen die elk token routeert naar een van drie operatoren – DCT-spectrale menging, RBF-kernelmenging of volledige self-attention – op basis van per-token spectrale entropie, een theoretisch onderbouwd complexiteitssignaal. Door systematische ablatie op WikiText-103 ontdekken we routingcollapse: de router wijst RBF consequent af ten gunste van DCT en attention, wat onthult dat spectrale menging en dynamische attention complementair en voldoende zijn. Een speciaal ontworpen DCT+Attention-only variant behaalt Val PPL 36,54 op WikiText-103 – een verbetering van 45% ten opzichte van een full-attention baseline (PPL 66,62) bij 62,5% minder attention-FLOPs. We breiden de evaluatie uit naar WikiText-2, IMDB-sentimentclassificatie en synthetische ListOps-bewerkingen, en stellen een duidelijk werkingsregime vast: CHIAR-Former blinkt uit op grootschalige naturalistische tekst waar tokendiversiteit spectrale specialisatie ondersteunt, terwijl full-attention zijn voordeel behoudt op kleine datasets en synthetische patroonherkenningstaken. Deze bevindingen – zowel de winsten als de verliezen – definiëren samen wanneer en waarom spectrale routering zijn waarde bewijst.
Langetermijnagenttaken vormen een fundamentele uitdaging voor de toewijzing van krediet bij uitkomstgebaseerde reinforcement learning: beloningen op trajectniveau verifiëren de uiteindelijke correctheid, maar bieden beperkte aanwijzingen over welke tussenliggende redeneerstappen of toolinteracties bijdragen aan de uitkomst. De moeilijkheid is vooral uitgesproken bij multi-turn zoekagenten, waar succesvolle trajecten misleidende acties kunnen bevatten en mislukte trajecten waardevolle stappen voor het verzamelen van bewijs kunnen bevatten. Wij stellen PBSD (Geprivilegieerde Bayesiaanse Zelfdistillatie) voor, een Bayes-gekalibreerde zelfdistillatiemethode voor fijnmazige toewijzing van krediet onder schaarse eindbeloningen. PBSD meet de trajectkwaliteit via de posteriori-tot-priori waarschijnlijkheidsratio van het geverifieerde antwoord en past de regel van Bayes toe om deze moeilijk te schatten antwoordzijde ratio om te zetten in een tractabele waarschijnlijkheidsratio tussen een standaard studentmodel en een geprivilegieerd antwoord-geconditioneerd docentmodel. Autoregressieve decompositie van deze Bayesiaanse evidentiescore levert signalen op beurtniveau die identificeren of elke tussenliggende beurt de geverifieerde uitkomst ondersteunt of ondermijnt. Bijgevolg biedt PBSD een principieel en elegant herwegingsschema dat schaarse uitkomstsupervisie omzet in Bayes-gekalibreerde creditsignalen op beurtniveau, terwijl het volledig compatibel blijft met standaard beleidsoptimalisatie. Experimenten tonen aan dat PBSD consequent de prestaties verbetert in zowel binnen-domein als buiten-domein instellingen, en effectief kennis overdraagt van korte-context training naar lange-context inferentie, wat suggereert dat het fijnmazige mechanisme voor toewijzing van krediet een effectievere beleidsleren mogelijk maakt en leidt tot verbeterde generalisatie.
Recente vooruitgang in robotmanipulatie wordt grotendeels gedreven door leren van grootschalige demonstraties. Voor humanoïde robot loco-manipulatietaken dwingen bestaande databronnen echter tot een onbevredigende afweging tussen trajectkwaliteit en schaalbaarheid. Teleoperatie in de echte wereld levert trajecten van de hoogste kwaliteit, maar vereist een speciale fysieke ruimte en tijdrovende scèneresets. Simulatie biedt een alternatieve uitweg uit dit dilemma: het kan schone, op de belichaming afgestemde data op schaal produceren zonder enige fysieke hardware. In dit artikel stellen we OASIS voor, een door simulatiegegevens aangedreven raamwerk voor humanoïde loco-manipulatie. OASIS reconstrueert automatisch realistische objectassets uit echte wereldbeelden met behulp van een 3D-generatief model. Op basis van deze assets worden eerst trajecten verzameld via teleoperatie in simulatie, en vervolgens aangevuld onder diverse domeinrandomisaties in een nabewerkingsfase. Met de resulterende simulatiegegevens ontwerpen we verder een hiërarchisch visuomotorisch beleid voor humanoïde loco-manipulatie. Uitgebreide experimenten op de echte humanoïde robot tonen aan dat, onder zero-shot inzet, het beleid getraind op onze simulatiegegevens hogere succespercentages behaalt op de meeste taken dan dat getraind op echte robotteleoperatiegegevens, grotendeels dankzij de brede belichtings- en omgevingsvariaties die onze simulatieweergave dekt, die echte robotgegevens niet kunnen vastleggen. De projectpagina is beschikbaar op https://oasis-humanoid.github.io/.
Dit artikel onderzoekt agentisch 3D-ruimtelijk begrip, d.w.z. MLLM-agenten die 3D-redeneringen uitvoeren door middel van toolgebruik. Bestaande methoden misbruiken vaak tools en vertonen een bevooroordeelde toolvoorkeur in 3D-scenario's, waardoor het agentische paradigma slechts marginale winst boekt ten opzichte van niet-agentische strategieën. We tonen aan dat 3D-ruimtelijke redeneertaken heterogeen zijn over scènes heen, terwijl deze agenten een uniforme toolgebruikstrategie toepassen op alle scènes, in plaats van tools te selecteren op basis van de specifieke scène en taak. Om dit aan te pakken stellen we Skill-3D voor, een raamwerk dat zelf-evoluerende scènebewuste vaardigheden leert. Specifiek identificeert Skill-3D de taakscène en registreert het toolgebruikstraject van de agent in een Scene Memory, waar succesvolle trajecten van vergelijkbare scènes worden samengevoegd en gedistilleerd tot een herbruikbare scènebewuste vaardigheid, waarbij mislukte trajecten aan de vaardigheid worden toegevoegd als lessen. Tijdens de training, zodra een vergelijkbare scène zich voordoet, wordt de bijbehorende vaardigheid geïnjecteerd om de agent te begeleiden, wat nieuwe trajecten produceert waarvan de successen en mislukkingen de vaardigheid verder verfijnen, waardoor een lus ontstaat waarin het geheugen en de vaardighedenbibliotheek co-evolueren. Experimenten tonen aan dat Skill-3D het toolgebruik in 3D-ruimtelijk redeneren aanzienlijk verbetert (van 39% naar 78% op VSI-Bench), wat de agent aanzet tot correct en voldoende toolgebruik. Zo verbetert het Gemini-3-Flash met 67% op MMSI-Bench. Bovendien voeren we agentische post-training uit op vaardigheid-geleide trajecten, wat Qwen3-VL-8B met 43% verhoogt op VSI-Bench.
Het uitrusten van grote taalmodellen (Large Language Models, LLM's) om betrouwbare meerstaps-workflows uit te voeren, is een centrale uitdaging geworden in de kunstmatige intelligentie. Ondanks recente vooruitgang in de agentische mogelijkheden van LLM's, beschikken de meeste agentsystemen nog steeds niet over formele methoden om hun workflows en uitvoeringstrajecten te specificeren, te verifiëren en te debuggen. Deze uitdaging weerspiegelt een al lang bestaand probleem in de wiskunde, waar de ambiguïteit van natuurlijke talen (NT's) de ontwikkeling van formele talen (FT's) motiveert. Geïnspireerd door dit paradigma stellen wij **Lean4Agent** voor, voor zover wij weten het eerste raamwerk dat Lean4, een afhankelijkheidstype FT, gebruikt om agentgedrag te modelleren en te verifiëren. **Lean4Agent** lanceert **FormalAgentLib**, een uitbreidbare Lean4-bibliotheek voor het formeel modelleren en verifiëren van de semantische consistentie van agentworkflows onder expliciete aannames, en voor het lokaliseren van fouten tijdens de uitvoering die door trajecten aan het licht komen. Voortbouwend op **FormalAgentLib** ontwikkelen we verder **LeanEvolve**, dat de resultaten in **FormalAgentLib** toepast om workflows te herzien en zo de capaciteit ervan te verbeteren. Uitgebreide experimenten op een moeilijke probleemdeelverzameling van SWE-Bench-Verified en een deelverzameling van ELAIP-Bench bij vijf toonaangevende LLM's geven aan dat de verificatie-doorstane workflows het gemiddeld **11,94%** beter doen dan de falende, en **LeanEvolve** verbetert de SWE-prestaties verder met gemiddeld **7,47%**. Bovendien legt **Lean4Agent** een basis voor een nieuw vakgebied waarin expressieve afhankelijkheidstype FT's worden gebruikt om agentgedrag formeel te modelleren en te verifiëren.
Mixture-of-Experts (MoE) is nu de dominante architectuur voor geavanceerde taalmodellen, maar vereist dat alle expertparameters in het geheugen worden geladen, waardoor het minder geschikt is voor implementatie met geheugenbeperkingen. Bestaande compressiemethoden verminderen het aantal experts, maar het resultaat blijft een MoE-model met dezelfde fundamentele beperking. Wij presenteren het eerste systematische raamwerk voor het converteren van een getraind MoE naar een standaard volledig dichte architectuur: experts worden gescoord, geselecteerd en gegroepeerd, vervolgens samengevoegd tot een dichte FFN en verfijnd door kennisdistillatie van de MoE-leraar. We evalueren 7 scorings-, 5 groeperings- en 2 magnitudeschalingsmethoden over een reeks geselecteerde expertantallen op Qwen3-30B-A3B, wat 350 configuraties oplevert. We vinden dat de keuze van de scoringsmethode de grootste impact heeft, waarbij onze nieuwe diversiteitsbewuste scoringsmethode consequent beter presteert dan eerdere methoden op Qwen3-30B-A3B, DeepSeek-V2-Lite en GPT-OSS-20B. Onder een gecontroleerde vergelijking bij een gelijk aantal parameters presteert MoE-naar-dicht beter dan dicht-naar-dicht snoeien met +6,3 procentpunt in gemiddelde downstream-nauwkeurigheid na ~4B-token distillatie bij 1,6x snellere wandkloktijd tijdens training.
Reflexion-achtige agents vertrouwen op zelf gegenereerde reflecties als geheugen, waarbij impliciet wordt aangenomen dat agents hun eigen fouten accuraat kunnen diagnosticeren. Wij tonen aan dat deze aanname systematisch kan falen: in ALFWorld en HumanEval slaan agents zelfverzekerde maar onjuiste interpretaties van de taak op en blijven zij hiernaar handelen gedurende opeenvolgende pogingen, ondanks dat de omgeving telkens terugkeert naar de correcte taak. Deze faalmodus noemen wij geheugenconfabulatie en introduceren wij de Reflectieherhalingsratio (RRR), een op logs gebaseerde metriek die herhaaldelijk vertrouwen op onjuiste reflectieve inhoud detecteert. Met behulp van RRR identificeren wij 16 bevroren omgevingen in ALFWorld, waarin 0 van de 121 reflecties het juiste doelobject vermelden, en 4 analoge gevallen in HumanEval. Onze mitigatie vervangt open-einde zelfdiagnose door programmatische extractie van faalsignalen op trajectniveau, waardoor het aantal correcte objectvermeldingen stijgt van 0% naar 86%, de RRR daalt van 0,64 naar 0,10 en 3 van de 16 bevroren ALFWorld-omgevingen worden opgelost. Dit suggereert dat reflectief geheugen valse overtuigingen eerder versterkt dan corrigeert.
Passieve lange-golf infrarood (LWIR) hyperspectrale beeldvorming onder een standoff-geometrie is afhankelijk van atmosferische absorptie en emissie, evenals gereflecteerde straling, waardoor atmosferische compensatie essentieel is om kennis te verkrijgen over een interessant doelwit. Ondanks het belang ervan wordt deze compensatie grotendeels over het hoofd gezien vanwege de praktische en modelmatige moeilijkheden. In dit artikel presenteren wij een lichtgewicht, op sets gebaseerd deep learning-raamwerk dat meerdere stralingsmetingen, verzameld op verschillende standoff-afstanden, als input neemt en gezamenlijk de transmissie, atmosferische padstraling en een gedeeld downwelling-spectrum schat. We analyseren de geleerde representatie met een sparse autoencoder en observeren dat verschillende latente kenmerken activeren op geografisch coherente subsets van de testdata, ondanks het ontbreken van locatiesupervisie. Experimenten op een met MODTRAN gegenereerde standoff LWIR-dataset tonen een lage spectrale vervorming aan voor alle geschatte producten. De dataset en code zijn openbaar beschikbaar op: https://factral.co/SAE-LWIR/
Cross-view geo-localisatie schat de geografische locatie van een grondbeeld door het te matchen met een database van luchtbeelden. Bestaande methoden pakken dit aan via grootschalige retrieval of nauwkeurige pose-schatting, maar niet beide: retrieval-gebaseerde methoden maken breed-areaal zoeken mogelijk ten koste van de lokalisatienauwkeurigheid, terwijl pose-schattingsmethoden hoge precisie bereiken binnen slechts een smalle zoekruimte. Het naïef achter elkaar schakelen van deze pipelines introduceert foutenpropagatie en inconsistente kenmerkrepresentaties. Wij formuleren cross-view geo-localisatie als een verenigd probleem dat gelijktijdige stedelijke retrieval en nauwkeurige 3-DoF pose-schatting vereist. Wij stellen CIPER (Cross-view Image-retrieval and Pose-estimation transformER) voor, een enkele architectuur die beide taken gezamenlijk uitvoert door middel van wederzijds voordelig kenmerkenleren. CIPER gebruikt een gedeelde transformer encoder met taakspecifieke tokens om globale retrievalkenmerken te ontwarren van ruimtelijke lokalisatieaanwijzingen. Om de grote domeinkloof tussen grond- en luchtbeelden te overbruggen, introduceren wij een tweerichtings transformer pose decoder die grondkenmerken gebruikt als ruimtelijke queries voor bidirectionele cross-attentie. Een setvoorspellingsstrategie maakt verder stabiele 3-DoF regressie mogelijk onder een verenigde multi-taakdoelstelling. Experimenten op VIGOR, KITTI en Ford Multi-AV tonen concurrerende prestaties, vooral onder beperkt gezichtsveld en willekeurige oriëntatieomstandigheden. Code is beschikbaar op https://github.com/yurimjeon1892/CIPER.
Referentievrije getrouwheidsmetrieken verifiëren elke atomaire bewering die een model doet tegen de grondwaarheid en worden steeds vaker gebruikt om gegronde generatie te evalueren. We laten zien dat ze een blinde vlek delen: ze meten alleen precisie – worden de gestelde beweringen ondersteund? – en belonen daarom onthouding, aangezien een model bijna perfecte getrouwheid kan scoren door vrijwel niets te zeggen. We maken dit meetbaar met behulp van Formule 1-telemetrie, een domein waar strategische grondwaarheid deterministisch en, cruciaal, volledig wordt afgeleid: voor elke beslissing kennen we de volledige set feiten die ertoe deden. Deze volledigheid – afwezig in open-domein getrouwheidsbenchmarks – stelt ons in staat om recall (dekking van de relevante feiten) exact te meten, naast precisie. Op een meertalige (EN/ES/PT) benchmark van 7.253 beslissingsgevallen over 150 races beslaat het meest precieze frontiermodel minder dan de helft van de relevante feiten en staat het als laatste op F1, dus het vereisen van dekking herordent de systemen; hetzelfde effect treedt op in een tweede domein met volledig orakel (NOAA-weersvoorspellingen). Een prompt-ablatie toont aan dat de lage dekking geen onder-prompt-artefact is: expliciet vragen om grondigheid verkleint de kloof niet. We koppelen getrouwheid aan dekking in één score, valideren de metriek (gecontroleerde perturbatie; overeenstemming tussen een modelvrije regex-extractor en een cross-family LLM-extractor, systeemniveau Spearman 1.0) en geven een verifiërer-gestuurde generatiemethode die precisie en recall verbetert zonder referenties. We publiceren de benchmark, gestructureerde annotaties, metriek, basislijnen en een interactieve demo.
Grote taalmodellen (LLM's) bieden een veelbelovende benadering voor machinevertaling (MV) voor talen met extreem weinig bronmateriaal, door taalkundige bronnen te integreren via in-context leren. LLM's hebben echter vaak moeite om grammaticale informatie effectief toe te passen tijdens het vertalen. Geïnspireerd door recente vooruitgang in keten-van-gedachten redeneren, onderzoeken we of MV voor talen met weinig bronmateriaal kan profiteren van gestructureerde tussenstappen van taalkundige analyse en grammaticale redenering. We stellen een pijplijn voor voor het automatisch genereren van stapsgewijze taalkundige redeneersporen op basis van Universal Dependencies treebanks, woordenboeken en grammaticaregelbanken. We evalueren deze sporen in drie settings: in-context leren (ICL), gesuperviseerde fine-tuning (SFT) en versterkingsleren fine-tuning (RFT), met Xibe en Chintang als testgevallen. Onze resultaten tonen aan dat taalkundige redeneersporen het meest effectief zijn als begeleiding tijdens de inferentie: bij ICL verbeteren betrouwbare, zinspecifieke sporen de vertaalprestaties aanzienlijk voor de meeste modellen, talen en metrieken. Daarentegen levert het gebruik van de taalkundige redeneersporen als trainingsdata kleinere en minder consistente winsten op, omdat modellen het spoorformaat leren maar vaak foutieve inhoud genereren. Deze bevindingen suggereren dat LLM's grammaticale informatie kunnen benutten voor MV van talen met weinig bronmateriaal wanneer betrouwbare taalkundige analyses worden gegeven, terwijl het leren genereren van dergelijke analyses een belangrijke bottleneck blijft.
Enterprise-eigenschapsgrafen variëren sterk in schemastructuur, interne terminologie, domeinaannames, governancebeperkingen en gebruikersinteractiepatronen. Een implementatierelevante Text2Cypher-benchmark weerspiegelt daarom de vragen die gebruikers en agenten daadwerkelijk aan die graaf stellen. Het creëren van een dergelijke benchmark is moeilijk omdat schema's en waarden uniek zijn en de grafstructuur in de loop van de tijd verandert. Elk NL-querypaar moet ook uitvoerbaar zijn, echte graafentiteiten gebruiken, diversiteit behouden en in balans blijven over querytypen en moeilijkheidsgraden. Wij presenteren PIPE-Cypher, een lokale benchmarkgeneratiepipeline die een live eigenschapsgraaf en optionele seedqueries van klantvragen, analistenlogs of agent-toolaanroepen omzet in gebalanceerde NL-naar-Cypher-benchmarks. PIPE-Cypher combineert schemaprofiling, reverse-query grounding, constrained generation, deterministische Cypher-governance, executievalidatie, redactie, diversiteitscontroles en een gekalibreerde lokale LLM-beoordelaar. Met behulp van lokale Qwen3.5-9B-generatie en -beoordeling exporteert PIPE-Cypher 3.000 geaccepteerde FinBench/SNB-voorbeelden, voltooit het drie geauditeerde ablatiereeksen, kalibreert het beoordelaarsgedrag met menselijke labels en evalueert het 11 lokale downstream-modellen. De resulterende benchmark is opzettelijk discriminerend: zero-shot transfer is zwak, terwijl een few-shot-controle laat zien dat schema-specifieke voorbeeldbanken compatibele modelfamilies kunnen helpen. Samen maakt PIPE-Cypher van Text2Cypher-benchmarking een herhaalbaar proces dat evolueert met de graaf, zijn gebruikers en zijn doelworkloads.
We introduceren EMMA, een fysica-geïnformeerd multimodaal raamwerk dat alle identificeerbare dynamische parameters van een systeem direct reconstructeert uit ruwe video-, audio- en beeldgebaseerde tijdreeksobservaties. In tegenstelling tot eerdere video-only benaderingen die worstelen met geoccludeerde toestanden, verborgen actuatie-ingangen of aannames over bekende begincondities en coördinatenstelsels, voert EMMA een gezamenlijke inferentie uit van expliciete parameters, impliciete dynamische componenten en kalibratie-invarianten binnen een uniform continu-tijdsmodel. EMMA maakt gebruik van een Liquid Time-Constant (LTC) netwerk om latente dynamica te leren uit heterogene modaliteiten, terwijl een fysica-beperkte verliesfunctie consistentie met de bepalende differentiaalvergelijkingen afdwingt. Een uniforme kenmerkpijplijn zorgt voor consistente uitlijning van videotrajecten, akoestische kenmerken en grafiek-afgeleide metingen, waardoor EMMA parameters kan schatten onder gedwongen, impliciete en multivariate dynamica zonder segmentatiemaskers, differentieerbare rendering of gespecialiseerde sensoren. Over meer dan 100 scenario's, waaronder vijf standaard dynamische benchmarks (75 Delfys-video's), realistische rover- en quadrotorsystemen met verborgen ingangen, en simulatie-grafiek case studies van biologische en chaotische systemen, levert EMMA robuust multi-parameter herstel en presteert het significant beter dan bestaande enkel-modale en vergelijkingsontdekkingsbaselines. Onze resultaten tonen aan dat EMMA een algemene, schaalbare oplossing is voor fysica-consistente modelextractie uit opportunistische multimodale data. Code en data zijn beschikbaar op: https://github.com/ImpactLabASU/EMMA-CVPR2026