Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ultra-lange-contextcapaciteit wordt onmisbaar voor grensverleggende LLM's: agentische workflows, coderedenering op repository-schaal en persistent geheugen vereisen allemaal dat het model gezamenlijk aandacht besteedt aan honderdduizenden tot miljoenen tokens, maar de kwadratische kosten van softmax-attentie maken dit onhoudbaar bij implementatie op schaal. We introduceren MiniMax Sparse Attention (MSA), een bloksgewijze sparse attentie gebouwd op Gegroepeerde Queryattentie (GQA). Een lichte Indexvertakking scoort sleutel-waardeblokken en selecteert onafhankelijk een Top-k-deelverzameling voor elke GQA-groep, wat groepspecifieke sparse terugwinning mogelijk maakt met behoud van efficiënte uitvoering op blokniveau; de Hoofdvertakking voert vervolgens exacte blok-sparse attentie uit over alleen de geselecteerde blokken. Ontworpen rond een principe van eenvoud en schaalbaarheid, is MSA bewust gestroomlijnd, waardoor het eenvoudig is om efficiënt in te zetten op een breed scala aan GPU's. Om sparsity te vertalen naar praktische versnellingen, ontwerpen we MSA samen met een GPU-uitvoeringspad dat exp-vrije Top-k-selectie en KV-outer sparse attentie gebruikt om tensorcore-benutting te verbeteren bij toegang op blokgranulariteit. Op een 109B-parametermodel met native multimodale training presteert MSA vergelijkbaar met GQA, terwijl de attentie-berekening per token met 28,4x wordt verminderd bij 1M context. In combinatie met onze co-ontworpen kernel behaalt MSA 14,2x prefill- en 7,6x decoding-wandkloksnelheidsversnellingen op H800. Onze inferentie kernel is beschikbaar op: https://github.com/MiniMax-AI/MSA. Een productieklaar native multimodaal model aangedreven door MSA is openbaar uitgebracht op: https://huggingface.co/MiniMaxAI/MiniMax-M3.
Grote taalmodellen (LLM)-agenten hebben sterke prestaties behaald op een breed scala aan benchmarks, maar de meeste evaluaties gaan uit van statische omgevingen. In de praktijk is implementatie in de echte wereld echter inherent dynamisch, waardoor agenten hun kennis, vaardigheden en gedrag continu moeten afstemmen op veranderende omgevingen en bijgewerkte taakcondities. Om deze kloof te overbruggen, introduceren we EvoArena, een benchmark suite die omgevingsveranderingen modelleert als reeksen van progressieve updates in terminal-, software- en sociale domeinen. We stellen verder EvoMem voor, een patch-gebaseerd geheugenparadigma dat geheugenevolutie vastlegt als gestructureerde updategeschiedenissen, waardoor agenten kunnen redeneren over omgevingsevolutie aan de hand van veranderingen in hun geheugen. Experimenten tonen aan dat huidige agenten moeite hebben met EvoArena, met een gemiddelde nauwkeurigheid van 39,6% in evoluerende terminal-, software- en sociale-voorkeursdomeinen. EvoMem verbetert consistent de prestaties, met een gemiddelde winst van 1,5% op EvoArena en verbetert ook standaard benchmarks zoals GAIA en LoCoMo met respectievelijk 6,1% en 4,8%. Naast individuele taken verbetert EvoMem de accuraatheid op ketenniveau met 3,7% op EvoArena, waarbij succes vereist dat een aaneengesloten reeks van gerelateerde evolutionaire subtaken wordt voltooid. Mechanistische analyse toont aan dat EvoMem de bewijsvastlegging in het geheugen verbetert, wat duidt op een betere instandhouding van volledige evoluerende omgevingstoestanden. Onze resultaten benadrukken het belang van het modelleren van evolutie in zowel evaluatie als geheugen voor betrouwbare inzet van agenten.
Computergebruikagenten (CUA's) opereren steeds vaker in runtimes die visuele desktopbesturing, commandoregeluitvoering, codebewerking, browsers en externe hulpmiddelen combineren. Bestaande benchmarks evalueren deze interfaces echter vaak als afzonderlijke capaciteiten, waardoor orkestratie over meerdere interfaces in langdurige taken onderbelicht blijft. Daarom introduceren wij WeaveBench, een langetermijnbenchmark met hybride interfaces, bestaande uit 114 taken uit 8 realistische werkdomeinen, gebaseerd op echte gebruikersverzoeken en publiekelijk verifieerbare artefacten. Elke taak vereist dat agenten GUI-waarnemingen/-acties combineren met CLI/code-operaties binnen één traject. Wij evalueren deze taken op een echte Ubuntu-desktop in geïmplementeerde CLI-agentruntimes, uitgebreid met een minimale plugin voor desktopbesturing. Ook stellen wij een bijbehorende trajectoriebewuste beoordelaar voor die afleveringen, bestanden, schermafbeeldingen, logboeken en actiesporen inspecteert, terwijl shortcut-gedrag zoals gefabriceerd visueel bewijs of hard-coded meetgegevens wordt gedetecteerd. Over verschillende combinaties van grensverleggende modellen en runtimes heen bereikt de beste PassRate slechts 41,2%, wat aantoont dat de benchmark nog lang niet verzadigd is. De trajectoriebewuste beoordelaar onthult bovendien dat uitsluitend op uitkomsten gebaseerde beoordeling de prestaties van agenten aanzienlijk overschat. Al met al legt WeaveBench een kritiek gat bloot in de evaluatie van CUA's en biedt het een effectieve testomgeving om te meten of agenten GUI-, CLI- en code-operaties kunnen orkestreren bij langdurige realistische taken.
Ruimtelijk redeneren, het vermogen om te bepalen waar objecten zich bevinden, hoe ze zich tot elkaar verhouden en hoe ze bewegen in 3D, blijft een fundamentele uitdaging voor visie-taalmodelen (VLMs). Hulpmiddel-verrijkte agenten proberen dit aan te pakken door VLMs te voorzien van gespecialiseerde perceptiemodules, maar hun effectiviteit wordt begrensd door de actie-interface waarmee die hulpmiddelen worden aangeroepen. In dit werk bestuderen we hoe het ontwerp van deze interface het vermogen van de agent voor open-einde ruimtelijk redeneren vormgeeft. Bestaande ruimtelijke agenten gebruiken ofwel een eenmalige code-uitvoering, die zich vastlegt op een volledige analysestrategie voordat enig tussentijds resultaat wordt waargenomen, of ze vertrouwen op een gestructureerde hulpmiddel-aanroepinterface die vaak minder flexibiliteit biedt voor het vrij combineren van operaties of het aanpassen van de analyse aan elke taak. Beide ontwerpen bieden beperkte flexibiliteit voor open-einde, complex 3D/4D ruimtelijk redeneren. Daarom stellen we SpatialClaw voor, een trainingsvrij raamwerk voor ruimtelijk redeneren dat code als actie-interface gebruikt. SpatialClaw houdt een stateful Python-kernel bij die vooraf is geladen met invoerframes en een reeks perceptie- en geometrische primitieven, waardoor een VLM-ondersteunde agent per stap één uitvoerbare cel kan schrijven, geconditioneerd op alle eerdere uitvoer, wat de agent in staat stelt om flexibel perceptieresultaten te combineren en te manipuleren en zijn analyse aan te passen aan zowel tussentijdse tekst- en visuele waarnemingen als de eisen van elk probleem. Geëvalueerd over 20 ruimtelijke redeneerbenchmarks die een breed scala aan statische en dynamische 3D/4D ruimtelijke redeneertaken bestrijken, behaalt SpatialClaw een gemiddelde nauwkeurigheid van 59,9%, waarmee het de recente ruimtelijke agent met +11,2 punten overtreft, met consistente verbeteringen over zes VLM-backbones van twee modelfamilies zonder enige benchmark- of modelspecifieke aanpassing.
Wij presenteren MaxProof, een populatiegericht testtijd-schalingsraamwerk voor wiskundige bewijzen op wedstrijdniveau in de MiniMax-M3-serie. M3 traint eerst drie bewijsgerichte vaardigheden — bewijsgeneratie, bewijsverificatie en op kritiek gebaseerd bewijsherstel — met behulp van een gelaagde generatieve verificateur die is ontworpen voor een lage fout-positiefratio. Deze vaardigheden worden samengevoegd in één uitgebracht M3-model. Tijdens de testfase behandelt MaxProof het model als een generator, verificateur, verfijner en rangschikker, doorzoekt het een populatie van kandidaat-bewijzen en levert het één eindbewijs op via toernooiselectie. Met MaxProof-testtijd-schaling behaalt het M3-model 35/42 op de IMO 2025 en 36/42 op de USAMO 2026, waarmee het op beide de menselijke goudenmedailedrempel overschrijdt.
Recente beeldgeneratoren hebben indrukwekkende fotorealistische en instructie-volgende capaciteiten laten zien in het genereren en bewerken van enkele afbeeldingen. Echter, beperkt door hun architectuur, kunnen ze geen interleaved generatie (tekst-beeldsequentie) realiseren, wat cruciale toepassingen heeft in visuele verhalen, begeleiding en belichaamde manipulatie. Zelfs de nieuwste open-source Unified Multimodal Models (UMM's) vertonen beperkte prestaties op dit gebied. In dit artikel introduceren we InterleaveThinker, de eerste multi-agentpijplijn die ontworpen is om elke bestaande beeldgenerator te voorzien van interleaved generatiecapaciteiten. Specifiek gebruiken we een planner-agent om de beeld-tekstinvoerreeks te organiseren en de beeldgenerator te instrueren over de vereiste uitvoering bij elke stap. Vervolgens introduceren we een critic-agent om de output van de generator te evalueren, afwijkingen van de geplande instructies te identificeren en de instructies te verfijnen voor hergeneratie. Om deze pijplijn te implementeren, construeren we de Interleave-Planner-SFT-80k en Interleave-Critic-SFT-112k voor een formattering-koude start. Daarna ontwikkelen we Interleave-Critic-RL-13k om de stapsgewijze instructiecorrectiecapaciteit binnen een generatietraject te versterken met GRPO. Aangezien een enkel interleaved generatietraject meer dan 25 generatoraanroepen kan omvatten, is optimalisatie van het volledige traject computationeel onpraktisch. Daarom stellen we nauwkeurigheidsbeloning en stapsgewijze beloning voor, waardoor RL met één stap het hele generatietraject effectief kan sturen. De resultaten tonen aan dat InterleaveThinker de prestaties verbetert bij verschillende beeldgeneratoren. Op interleaved generatiebenchmarks bereikt het prestaties vergelijkbaar met Nano Banana en GPT-5. Verrassend genoeg verbetert het ook aanzienlijk het basismodel op redeneer-gebaseerde benchmarks; bijvoorbeeld op 4-staps FLUX.2-klein zien we substantiële winst op WISE en RISE.
Multimodale grote taalmodellen (MLLM's) hebben opmerkelijk succes geboekt in visueel begrip, maar hun prestaties nemen aanzienlijk af onder realistische visuele corrupties. Hoewel er bestaande benaderingen zijn voor robuustheidsverbetering, zijn deze beperkt: black-box-kenmerkafstemming mist interpreteerbaarheid en white-box tekstgebaseerd redeneren kan verloren pixelniveau-details niet herstellen. Dit werk onderzoekt een fundamentele onderzoeksvraag: Kunnen MLLM's zelf gecorrumpeerde visuele inhoud herstellen? Om dit aan te pakken, stellen we Robust-U1 voor, een nieuw raamwerk dat MLLM's uitrust met expliciete visuele zelfherstelcapaciteit voor robuust begrip. De aanpak omvat drie kernfasen: gesuperviseerde fijnafstemming voor initiële reconstructie, versterkend leren met dubbele beloningen (SSIM op pixelniveau en CLIP-gelijkenis op semantisch niveau) voor het afstemmen op hoge visuele kwaliteit, en multimodaal redeneren dat zowel de gecorrumpeerde invoer als het herstelde beeld gezamenlijk beschouwt. Uitgebreide experimenten tonen aan dat Robust-U1 state-of-the-art robuustheid bereikt op de realistische corruptiebenchmark en superieure prestaties handhaaft onder adversariële corrupties op algemene VQA-benchmarks. Analyse bevestigt dat visueel herstel van hoge kwaliteit direct de redeneerprestaties verbetert, waarmee zelfherstel wordt gevestigd als een cruciaal mechanisme voor robuust visueel begrip. De broncode is beschikbaar op https://github.com/jqtangust/Robust-U1.
Het trainen van diepe zoekagenten vereist verifieerbare vragen waarvan de antwoorden pas beschikbaar komen nadat voldoende bewijs is verkregen door te zoeken. Bestaande synthesemethoden verhogen vaak de schijnbare moeilijkheid door grafstructuren te verrijken, maar structurele complexiteit alleen garandeert geen gerealiseerde zoekmoeilijkheid: het beoogde zoekproces kan instorten via een goedkopere identificatieroute. We formaliseren deze kloof met een shortcut-bewust moeilijkheidskader en identificeren vier uitvoerbare shortcutrisico's: bewijsco-dekking, single-clue selectiviteit, blootgestelde constanten en prior-kennis binding. Om hun gerealiseerde effecten te diagnosticeren, gebruiken we trajectoriemerktekens, waaronder oplossingskosten, antwoordvindtijd en prior-shortcutpercentage. Geleid door dit kader introduceren we FORT, een Framework van Shortcut-bestendige Training-Data Synthese. FORT construeert shortcut-bestendige trainingsdata door shortcutrisico's te beheersen bij entiteitsselectie, bewijsgrafconstructie, vraagformulering en adversariële verfijning. Experimenten tonen aan dat FORT langere zoektochten vóór het antwoord en minder shortcutpatronen induceert dan bestaande open-source diepe zoekdatasets. Met behulp van de resulterende trajecten trainen we FORT-Searcher met alleen begeleide fijnafstelling (SFT), en het behaalt de beste algemene prestaties onder open-source zoekagenten van vergelijkbare grootte op uitdagende deep search-benchmarks. Relevante bronnen zullen beschikbaar worden gesteld op https://github.com/RUCAIBox/FORT-Searcher.
Wetenschappelijke laboratoria vertrouwen steeds vaker op AI-systemen om over experimenten te redeneren, maar de fysieke handeling van het wetenschap bedrijven blijft grotendeels buiten hun bereik. AI kan helpen bij het lezen van literatuur, het genereren van hypothesen en het plannen van protocollen, maar de uitvoering van die protocollen aan de labtafel vereist nog steeds een menselijke operator. Visie-Taal-Actie (VTA)-modellen bieden een mogelijke interface tussen geschreven protocollen en robotuitvoering, maar bestaande beleidslijnen worden voornamelijk getraind op huishoudelijke en tafelblad-demonstraties en komen zelden in aanraking met de instrumenten, transparante vloeistoffen of vaste protocolworkflows die in wetenschappelijke laboratoria worden aangetroffen. Het overbruggen van deze kloof vereist zowel laboratoriespecifiek toezicht als een uniform leerkader dat tegemoet kan komen aan de diverse robotuitvoeringsvormen die worden gebruikt om experimentele protocollen uit te voeren. Daarom identificeren we data en belichaming als centrale knelpunten naast modelontwerp. Om de datakant aan te pakken, bouwen we RoboGenesis, een simulatiegebaseerde workflow en data-engine die geconfigureerde laboratoriumworkflows samenstelt uit atomaire vaardigheden, rollouts valideert en filtert, en gestructureerde demonstraties exporteert voor ondersteunde robotprofielen. Aan de beleidskant presenteren we LabVLA, getraind met een tweetrapsrecept: FAST-actie-token-voorbereiding maakt eerst de Qwen3-VL-4B-Instruct-backbone actiebewust voordat er continue controle wordt geleerd, en flow matching natraining koppelt vervolgens een DiT-actie-expert onder kennisisolatie. Op de LabUtopia-benchmark behaalt LabVLA het hoogste gemiddelde slagingspercentage van alle geëvalueerde baselines onder zowel in-distributie- als out-of-distributie-instellingen.
Speculatieve decodering (SD) pakt de hoge inferentiekosten van LLM's aan door lichtgewicht draftmodellen kandidaten te laten genereren die grote verificateurs parallel kunnen valideren. Bestaande draft-verify methoden gebruiken binaire beslissingen: accepteren of volledig herberekenen. We constateren echter dat veel afgewezen tokens correct kunnen worden geverifieerd door een slank submodel dat via intra-model routering is afgeleid van de volledige verificateur, in plaats van door de volledige verificateur. Dit motiveert onze slanke verificateur om tokens te behandelen die gematigde verificatiebronnen vereisen, waardoor dure aanroepen van het grote model worden verminderd. We stellen Verification via Intra-Model Routing for Speculative Decoding (VIA-SD) voor, een meertraps raamwerk dat gebruikmaakt van een gerouteerde slanke verificateur. Draft tokens worden hiërarchisch verwerkt: directe acceptatie voor gevallen met hoge betrouwbaarheid, regeneratie door de slanke verificateur voor gevallen met gemiddelde betrouwbaarheid, en verificatie door het volledige model voor onzekere gevallen. Over vier representatieve taken en meerdere modelfamilies heen verlaagt VIA-SD de afwijzingspercentages met 0,10–0,22 en levert het 10–20% versnellingen op ten opzichte van sterke SD-basislijnen, terwijl het een versnelling van 2,5–3x bereikt ten opzichte van decodering zonder draft modellen. Bovendien is VIA-SD compatibel met bestaande SD-raamwerken zonder dat hun trainingsprocedures moeten worden aangepast. Onze resultaten wijzen op meertraps SD als een algemeen paradigma voor schaalbare en efficiënte LLM-inferentie. Projectpagina: https://zju-xyc.github.io/VIA-SD-Project-Page/
Multimodale beeldfusie streeft ernaar complementaire informatie uit verschillende modaliteiten te integreren in een gefuseerd beeld dat rijke lokale details behoudt terwijl een globaal consistent uiterlijk wordt gehandhaafd. Bestaande benaderingen bouwen gedeelde representaties op 2D kenmerkrasters, die uitblinken in het modelleren van lokale structuren maar beperkte invloed hebben op beeldniveau globale uiterlijkfactoren. Om deze doelstellingen in evenwicht te brengen, introduceren we een compacte 1D tokeninterface gebaseerd op een bevroren voorgetrainde beeldtokenizer voor het modelleren van niet-lokale uiterlijk-/basisfactoren. In plaats van de tokenizer te gebruiken als reconstructie-backbone, gebruikt ons ontwerp de 1D tokenruimte als een globale drager terwijl het 2D ruimtelijke pad wordt behouden voor herstel van lokale structuren. Specifiek introduceren we Selectieve Tokenbewerking (STE), die een kleine set kritische tokens spaarzaam bijwerkt/vervangt, wat een lichtgewicht mechanisme biedt om globale uiterlijkcoherentie te sturen terwijl de fusie-backbone ongewijzigd blijft en extra verliezen worden vermeden. Experimenten op vier veelgebruikte benchmarks tonen aan dat onze methode de beste algehele prestaties bereikt, met consistente, multi-metrische verbeteringen in zowel globale coherentie als lokale getrouwheid. Projectpagina: https://zju-xyc.github.io/1D-Fusion-Project-Page/
Holistische visuele tokenizers zijn fundamenteel voor uniforme multimodale modellen (UMM's) omdat ze diverse visuele inputs in een uniforme representatieruimte in kaart brengen. In dit artikel presenteren we HYDRA-X, de eerste UMM die afbeelding- en videotokenisatie binnen één Vision Transformer (ViT) verenigt. Ons ontwerp wordt gedreven door twee kernuitdagingen: het efficiënt injecteren van spatiotemporele reconstructiecapaciteit in een native ViT, en het inbedden van semantisch bewustzijn op beeld- en videoniveau in de latente ruimte. Om de eerste aan te pakken, onthullen uitgebreide ablatiestudies twee belangrijke bevindingen: (1) causale temporele aandacht op frameniveau is voldoende voor visuele reconstructie, terwijl volledige spatiotemporele aandacht deze verslechtert; en (2) hiërarchische temporele compressie presteert aanzienlijk beter dan alternatieven in één stap. Om de tweede aan te pakken, stellen we een lichtgewicht decompressor voor die temporeel gecomprimeerde kenmerken opsamplt onder gezamenlijk toezicht van een leraar op beeld en video, waardoor complementaire semantische structuren in de compacte latente ruimte worden afgedwongen. Voortbouwend op deze holistische tokenizer stellen we verder een principiële verbetering van de bewerkingspijplijn voor: bron-doel-interactie moet plaatsvinden op het latente niveau binnen de tokenizer in plaats van op het semantische niveau binnen de LLM, wat de bewerkingsconsistentie aanzienlijk verbetert en de convergentie versnelt. Geïnstantieerd op het 7B dichte model, behaalt HYDRA-X sterke prestaties op het gebied van beeld- en videobegrip en -generatietaken, wat de weg vrijmaakt voor toekomstige UMM's met uniforme tokenizers.
Op LLM gebaseerde agenten tonen een toenemende potentie in het automatiseren van wetenschappelijke ontdekkingen. Gegeven een optimaliseerbare metriek en een uitvoeringsomgeving kunnen zij wetenschappelijke oplossingen voorstellen, valideren en itereren, en hebben zij resultaten opgeleverd die door mensen ontworpen benaderingen overtreffen. Naarmate de modelcapaciteiten blijven verbeteren, stellen wij dat het knelpunt voor autonome wetenschappelijke ontdekking verschuift van het voorschrijven van agentwerkstromen naar het ontwerpen van agentomgevingen: de middelen, beperkingen en interfaces die het gedrag van agenten vormgeven. We beschouwen dit als omgevingsengineering: het bouwen van omgevingen die productief gedrag versterken, zoals open einde verkenning, systematisch beheer van artefacten en samenwerking tussen agenten, en schadelijk gedrag onderdrukken, zoals beloningsmanipulatie en menselijk toezicht met hoge wrijving. We presenteren EurekAgent, een omgevingstechnisch agentensysteem voor metriekgestuurde autonome wetenschappelijke ontdekking. EurekAgent ontwerpt de omgeving langs vier dimensies: rechtenengineering voor begrensde agentuitvoering en geïsoleerde evaluatie; artefactengineering voor bestandssysteem- en Git-gebaseerde samenwerking; budgetengineering voor budgetbewuste verkenning; en mens-in-de-lus engineering voor eenvoudig menselijk toezicht en interventie. EurekAgent behaalt nieuwe state-of-the-art resultaten op meerdere wiskunde-, kernel engineering- en machine learning-taken, waaronder nieuwe state-of-the-art 26-cirkel pakkingsresultaten die zijn ontdekt met minder dan $11 aan totale API-kosten. We stellen onze code en resultaten open source beschikbaar en roepen op om omgevingsengineering als een kernonderzoeksrichting te beschouwen voor het ontwikkelen van betrouwbare autonome onderzoeksagenten.
Het succes van Large Language Models bij wiskundig redeneren hangt sterk af van het genereren van diverse en geldige oplossingspaden tijdens de rollout-fase. Huidige rollout-technieken kennen echter een fundamentele afweging: sampling op token-niveau levert vaak redundante trajecten op die alleen verschillen in herformulering, terwijl methoden op embedding-niveau die gebruikmaken van willekeurige ruis vaak de semantische consistentie verstoren. Om dit op te lossen introduceren we N-GRPO, een nieuwe exploratiestrategie die is geïntegreerd in het Group Relative Policy Optimization (GRPO)-raamwerk. In plaats van te vertrouwen op sampling op token-niveau of native ruis op embedding-niveau, maakt onze aanpak gebruik van Semantic Neighbor Mixing. Dit mechanisme construeert dynamisch invoerrepresentaties door de embeddings van een ankertoken en de dichtstbijzijnde semantische buren te mengen, waardoor diversiteit wordt geïnjecteerd terwijl strikt wordt vastgehouden aan de lokale semantische manifold. Experimentele evaluaties op de DeepSeek-R1-Distill-Qwen-modellen van verschillende groottes tonen aan dat N-GRPO niet alleen consistente verbeteringen behaalt ten opzichte van sterke baselines op benchmarks voor wiskundig redeneren, maar ook robuuste generalisatiecapaciteiten vertoont op taken buiten de distributie.
Latente chain-of-thought comprimeert redeneren door zichtbare redeneersporen te vervangen door continue verborgen-toestandsrecurrentie, maar bestaande formuleringen zijn moeilijk te optimaliseren met standaard on-policy reinforcement learning (RL) en moeilijk causaal te interpreteren. Ons belangrijkste inzicht is dat een enkel paar expliciete grenstokens beide problemen tegelijk kan aanpakken: discrete in- en uitgangsankers maken het latente blok compatibel met standaard on-policy RL, en dezelfde ankers bieden een natuurlijk aangrijpingspunt voor mechanistische analyse. Gemotiveerd door dit, stellen we SWITCH voor, een schakelbaar latent redeneerframework. Het model genereert <swi> om de latente modus te betreden en </swi> om deze te verlaten. Omdat de grenzen gewone discrete tokens zijn, is de GRPO-beleidsratio op elk beslissingspunt goed gedefinieerd. Dezelfde ankers stellen de latente stappen ook bloot aan directe probing en causale interventie. We trainen het model met een zichtbaar-naar-latent curriculum en een Switch-GRPO-doelstelling die gradiënten propageert door recurrente latente berekening. SWITCH presteert consequent beter dan eerdere verborgen-toestandsrecurrentie latente redeneeraanpakken op vergelijkbare schaal. Mechanistische analyse via de grenstokens onthult verder drie bevindingen: (i) <swi> is een scherp gelokaliseerd, aangeleerd schakelbeleid in plaats van een stilistisch artefact; (ii) de latente stap die het opent, voert probleemspecifieke, causaal belangrijke berekening uit in plaats van te fungeren als een inert placeholder; en (iii) die berekening is geconcentreerd op een enkele verborgen-toestandsovergang bij binnenkomst. Samen tonen deze resultaten aan dat verborgen-toestandsrecurrentie latent redeneren zowel RL-traineerbaar is als openstaat voor directe mechanistische analyse, inclusief hoe on-policy RL zelf het model van binnenuit verbetert.
Wij introduceren VideoMDM, een diffusiegebaseerd raamwerk dat 3D-menselijke bewegingspriors direct traint op basis van nauwkeurige 2D-poses, geëxtraheerd uit monovisie video's, zonder enige 3D-grondwaarheid. Een voorgetrainde 2D-naar-3D lifter levert benaderende 3D-posereeksen die dienen als een ruizige leraar: deze worden gediffundeerd, door het model in 3D ontruist, en in 2D gesuperviseerd door de voorspelling te herprojecteren en te vergelijken met nauwkeurige keypoints. Wij tonen aan dat, onder milde aannames, een dieptegewogen 2D-herprojectieverlies in verwachting equivalent is aan directe 3D-supervisie, en wij passen standaard 3D-bewegingsregularizers - snelheidsconsistentie en overgeparametriseerde representatie-uitlijning - aan deze 2D-setting aan. In tegenstelling tot methoden die 2D slechts bij inferentie naar 3D liften, leert VideoMDM een coherente 3D-bewegingsmanifold tijdens de training. Op HumanML3D overbrugt het bijna de kloof naar volledig 3D-gesuperviseerd MDM (FID 0,88 versus 0,54); op echte videodatasets Fit3D en NBA leert de methode bewegingen te genereren die consistent door mensen worden verkozen, met sterke kwantitatieve resultaten.
Ondanks het genereren van steeds fotorealistischere beelden vertonen tekst-naar-beeld (T2I) modellen nog steeds gelokaliseerde, subtiele en structureel complexe fouten. Het diagnosticeren van deze fouten vereist feedback op instantieniveau die aangeeft waar een defect optreedt, welk type het is, waarom het defect is en wat het belang ervan is voor de algehele beeldkwaliteit. Hoewel recente dichte-feedbackmethoden verder gaan dan scalaire supervisie, formuleren hun hittekaartgecentreerde representaties diagnostiek nog steeds als pixelveldregressie, waardoor het moeilijk wordt om defecten met variabele kardinaliteit te lokaliseren en semantische redenen aan individuele fouten te koppelen. Om deze representatieknelpunt aan te pakken, stellen wij Gestructureerde Defectgronding (SDG) voor, die T2I-diagnostiek herformuleert als gestructureerde setvoorspelling door elk defect te modelleren als een (locatie, type, reden, belang)-tupel. Om deze formulering trainbaar en meetbaar te maken, introduceren wij SDG-30K, een dataset van 30.000 beelden met doosgegronde annotaties afkomstig van vier moderne T2I-generatoren, samen met een specifiek evaluatieprotocol, SDG-Eval. Voortbouwend op deze gestructureerde representatie presenteren wij verder een diagnostiek-naar-afstemmingsraamwerk waarin een Visie-Taalmodel (VTM) fungeert als SDG-detector, en BoxFlow-GRPO voorspelde defectsets omzet in van dozen afgeleide, belanggewogen ruimtelijke beloningen voor diffusiemodelafstemming. Uitgebreide experimenten tonen aan dat onze SDG-detector toonaangevende propriëtaire VTM's overtreft in gestructureerde defectgronding, terwijl SDG-gestuurde beloningen consistent de T2I-afstemming verbeteren en gelokaliseerde beeldverfijning ondersteunen. Deze resultaten vestigen SDG als een uniforme interface op instantieniveau voor het diagnosticeren, evalueren en verbeteren van moderne generatieve modellen.
We presenteren MoVerse, een real-time videowereldmodel dat een interactief navigeerbare scène creëert vanuit een enkel beeld met een smal gezichtsveld. Deze situatie is uitdagend omdat de invoer slechts een klein deel van de omgeving waarneemt, terwijl interactief rondlopen een complete omringende wereld, persistente geometrie, controleerbare camerabeweging en temporeel coherente waarnemingen van hoge kwaliteit vereist. MoVerse pakt dit probleem aan door wereldconstructie te scheiden van waarnemingsrendering. Het breidt eerst de invoer uit naar een zwaartekracht-uitgelijnd 360°-panorama met topologiebewuste diffusie, waarbij het ontbrekende gezichtsveld wordt gesloten voordat er 3D-redenering plaatsvindt. Vervolgens tilt het het panorama op naar een persistent 3D-Gaussiaans raamwerk met behulp van panoramische geometriebewuste residupredictie, wat resulteert in een dicht en direct renderbaar ruimtelijk geheugen. Ten slotte vertaalt een Gaussiaans-geconditioneerde videorenderer de raamwerkrenderingen langs door de gebruiker gespecificeerde cameratrajecten naar fotorealistische video. Om deze renderer praktisch te maken voor interactie, trainen we een bidirectionele diffusieleraar voor conditionele rendering van hoge kwaliteit en destilleren we deze naar een causaal autoregressieve student voor streaming met begrensde latentie. Dit ontwerp combineert de beheersbaarheid en consistentie over lange afstand van expliciete 3D-representaties met de perceptuele kwaliteit van generatieve videomodellen. MoVerse ondersteunt real-time scènerondlopen met 8 FPS op een enkele NVIDIA RTX 4090 GPU, wat een praktische weg demonstreert naar wereldcreatie vanuit één beeld met interactieve video-uitvoer.
Grote taalmodellen worden steeds vaker ingezet als agenten voor langetermijn taken, maar hun prestaties worden niet alleen bepaald door de capaciteit van het model en het ontwerp van de omgeving, maar ook door het harnas dat de interactie tussen agent en omgeving medieert. Bestaande harnassen zijn grotendeels handmatig ontworpen, waardoor ze moeilijk schaalbaar zijn naarmate trajecten langer worden en interacties complexer. In dit werk onderzoeken we of een harnas gegenereerd kan worden door een leerbare plug-in module die end-to-end getraind kan worden. We introduceren HarnessBridge, een lichtgewicht leerbare harnascontroller die de agent-omgeving interface parametriseert als een bidirectionele projectie. HarnessBridge leert twee bidirectionele projecties: observatieprojectie, die ruwe trajecten distilleert naar compacte, beslissingsrelevante toestanden, en actieprojectie, die voorgestelde acties omzet in uitvoerbare overgangen of baangebaseerde afwijzingen. We trainen HarnessBridge op een harnas-supervisiedataset via uniforme instructie-afstemming. Op Terminal-Bench 2.0 en SWE-bench Verified evenaart of overtreft HarnessBridge sterke gespecialiseerde harnassen, terwijl het tokenverbruik en de baanglengte aanzienlijk worden gereduceerd, en het generaliseert van kleinere generators naar grotere commerciële modellen.
Weinige-stap diffusiedestillatie is steeds volwassener geworden voor generatie in 4 tot 8 stappen, maar het verder doorzetten naar 2 stappen blijft uitdagend. In dit werk introduceren we Z-Image Turbo++, een hoogwaardig model voor beeldgeneratie in 2 stappen, gedistilleerd uit de 8-staps Z-Image Turbo leraar. Onze methode pakt de centrale knelpunten aan van de toegenomen taakmoeilijkheid en beperkte modelcapaciteit bij generatie in 2 stappen, door middel van drie eenvoudige maar effectieve ontwerpkeuzes die zijn afgestemd op dit regime. Ten eerste stellen we Distributie-afgestemd Adversarieel Leren voor, waarbij door de leraar gegenereerde afbeeldingen in plaats van externe echte afbeeldingen worden gebruikt als echte monsters voor GAN-training, wat een beter haalbaar en informatiever adversarieel doel oplevert. Ten tweede passen we Stap-ontkoppelde Parametrisering toe, waarbij onafhankelijke modelparameters worden toegewezen aan de twee denoisingstappen om beter aan te sluiten bij hun verschillende capaciteitsvereisten. Ten derde voeren we End-to-end Training met Iteratieve Regularisatie uit, waardoor de eerste stap gradiënten kan ontvangen van de uiteindelijke beeldkwaliteit, terwijl een betekenisvolle tussentijdse generatie behouden blijft via een expliciet stap-1 verlies. Samen verkleinen deze ontwerpen aanzienlijk de kwaliteitskloof tussen generatie in 2 stappen en 8 stappen, zowel in kwalitatieve als kwantitatieve evaluaties. Dit benadrukt het potentieel van zorgvuldig toegesneden distillatiestrategieën voor het verbeteren van de kwaliteit-efficiëntie afweging bij generatie met weinig stappen.
Diepe zoekopdrachten vereisen dat agenten complexe vragen beantwoorden door middel van meerstaps zoeken op het web, browsen, het vergelijken van bewijsmateriaal en synthese. Een centrale uitdaging is het bepalen van de zoekstrategie wanneer meerdere richtingen plausibel lijken, maar slechts enkele later tot betrouwbaar bewijs leiden. Als een agent gretig de huidige beste richting volgt, kan hij een zwakke vervolgroute blijven uitbreiden. Als hij zonder discipline verkent, kan hij het budget verspillen aan onsamenhangende pogingen. Wij stellen TreeSeeker voor, een raamwerk voor gecontroleerd vallen-en-opstaan tijdens de inferentiefase in diep zoeken. TreeSeeker organiseert het zoeken als een tak-en-terugkeer-zoekmethode over boomstructuurtoestanden, waarbij elke tak een voorlopige richting voor een subdoel vertegenwoordigt. In elke ronde leest TreeSeeker alle subdoelbomen, identificeert actieve doelen en gebruikt textuele UCB-signalen (waarde, onzekerheid en risico) om te kiezen tussen het exploiteren van een veelbelovende tak, het verkennen van een onzeker alternatief, of het wegsnoeien van een onproductief vervolg en terugkeren naar een eerder vertakkingspunt. TreeMem ondersteunt deze controlekringloop door bewijs, onzekerheid, conflicten, voortgang en mislukkingsaanwijzingen te koppelen aan de takken die ze hebben opgeleverd, zodat de uitkomsten van pogingen latere beslissingen kunnen sturen. Experimenten op XBench-DeepSearch, BrowseComp en BrowseComp-ZH tonen aan dat TreeSeeker consequent beter presteert dan sterke open-source basislijnen, wat suggereert dat expliciete tak-en-terugkeer-controle een aanvulling vormt op sterkere redeneer- en tooluitvoering.
Adversariële robuustheidsevaluaties van grote taalmodellen (LLM's) rapporteren doorgaans het aanvalsuccespercentage (ASR) onder vaste querybudgetten, waarbij impliciet alle aanvallen als even duur worden beschouwd. In de praktijk kunnen de rekenkosten van verschillende aanvalsstrategieën echter met ordes van grootte variëren. Bijgevolg kan ASR bij een vast budget de werkelijke inspanning verhullen die nodig is om een model te jailbreaken, waardoor het moeilijk wordt te bepalen of de kosten van een aanval de opbrengst voor de aanvaller rechtvaardigen. Wij stellen een rekenbewust evaluatiekader voor, gebaseerd op rekenkundige druk, gemeten in cumulatieve floating-point-bewerkingen (FLOPs), als proxy voor de adversariële inspanning. We introduceren risico-rekencurves, die rekenbudgetten koppelen aan aanvalsrisico, en leiden twee metrieken af die de gemiddelde druk samenvatten die nodig is voor een bepaalde aanval om te slagen. Over tien modellen, verspreid over drie families en vier verschillende stadia in taalmodeltraining en -alignering, geëvalueerd met drie aanvalsstrategieën (gradiëntgebaseerd, iteratieve verfijning en sjabloongebaseerd) op twee benchmarks voor jailbreak-robuustheid, vinden we: (1) aligneringstraining heeft niet-monotone effecten op robuustheid in de rekenruimte; (2) het opschalen van de modelgrootte vermindert de effectiviteit van gradiëntgebaseerde aanvallen, maar heeft beperkte invloed op goedkopere sjabloongebaseerde aanvallen; (3) gradiëntgebaseerde aanvallen die zijn geoptimaliseerd op een surrogaatmodel kunnen overdragen naar een afzonderlijk doelmodel, wat een manier biedt om de aanvalskosten te verlagen; (4) de rekenkosten variëren tot ~5× tussen schadecategorieën binnen één enkel model; en (5) veiligheidsgealineerd RL verhoogt de totale kosten, maar laat sommige categorieën onevenredig toegankelijk. We stellen ons kader beschikbaar om rekenbewuste risicobeoordeling en -evaluatie mogelijk te maken.
Visueel redeneren vereist het integreren van bewijs dat verspreid is over regio's, attributen en relaties, waardoor ketenredenering vatbaar is voor vroegtijdige perceptuele binding en hallucinatie. Wij stellen Visual Para-Thinker++ voor, een multi-agent framework met één enkel beleid waarin één gedeeld MLLM-beleid wordt geïnstantieerd als rol-afhankelijke Main-, Worker- en Summary Agents. De Main Agent ontleedt de taak met vaste allocatiepatronen; Worker Agents redeneren parallel onder contextisolatie; en de Summary Agent integreert volledige redeneersporen van Workers in plaats van meerderheidsstemming over eindlabels. Het gedeelde beleid wordt getraind door Multi-Agent Capability Injection en Role-Decoupled Multi-Agent Optimization, die rol-specifieke beloningen en voordelen toewijzen aan corresponderende tokensegmenten om gradientconflicten tussen samenwerkende rollen te verminderen. Een native inference-engine maakt efficiënte multi-agent rollout mogelijk door gedeelde visuele prefix en KV-cache-hergebruik. Op V*, CountBench, de RefCOCO-familie en HallusionBench presteert Visual Para-Thinker++ consequent beter dan single-trajectory en inference-time parallelle baselines, met bijzonder sterke verbeteringen op hallucinatiegevoelig visueel redeneren.
Het voorspellen van gedragstendensen van LLM's op basis van goedkope psychometrische sondes is cruciaal voor veilige implementatie, maar alleen als zelfrapportages (ZR) gedrag betrouwbaar voorspellen. Recent onderzoek documenteerde een aanzienlijke dissociatie tussen zelfrapportage en gedrag bij LLM's, maar baseerde zich op brede persoonlijkheidstrekken (Big Five) die specifiek gedrag zwak voorspellen, zelfs bij mensen. Bovendien liet de isolatie van conversatiesessies in combinatie met zwakke contextovereenstemming de vraag open of LLM's werkelijk coherentie missen, of dat de voorwaarden om dergelijke coherentie te detecteren niet waren vervuld. We contrasteren de Big Five met de Theorie van Gepland Gedrag (TGG), die intentie meet die gericht is op een specifiek gedrag en menselijk gedrag aanzienlijk beter voorspelt dan brede trekken. We voeren experimenten uit over vier gedragstaken en 11 geavanceerde LLM's, terwijl we ook de sessiecontext en identiteitsinductie variëren. We vinden dat coherentie tussen zelfrapportage en gedrag bestaat, maar selectief is. 1) Binnen een gedeeld gesprek bereikt de Theorie van Gepland Gedrag coherentie op menselijk niveau; de Big Five niet. 2) Over afzonderlijke gesprekken heen blijft coherentie alleen bestaan voor gedragingen die buiten de directe prompt zijn verankerd, zoals impliciete vooroordelen gevormd door training, en stort in elkaar wanneer gedrag sterk door context wordt geprimed, zoals bij vleierij. 3) Personaprompting maakt zelfrapportages consistenter over gesprekken heen, maar brengt gedrag niet in overeenstemming. Deze bevindingen suggereren dat grove persoonlijkheidskaders, zoals de Big Five, mogelijk niet de beste instrumenten zijn voor het testen van implementatiegedrag. Er zijn meer taak- en gedragsspecifieke instrumenten nodig, en zelfs deze moeten over taken en contexten worden geëvalueerd.
On-policy destillatie (OPD) traint een student op zijn eigen trajecten met dichte per-token supervisie van een sterkere leraar en presteert vaak beter dan off-policy destillatie en standaard reinforcement learning. We constateren echter dat de effectiviteit ervan impliciet steunt op twee aannames die in de praktijk vaak niet opgaan: alignment op trajectniveau tussen de student en de leraar, en uniforme betrouwbaarheid op token-niveau van de voorkeuren van de leraar. Daarom stellen we Sign-Gated On-Policy Distillation (SG-OPD) voor, die een binaire verificateur gebruikt als vertrouwenssignaal voor de leraar op twee complementaire granulariteiten: gefaseerde lerarensampling mengt door de verificateur goedgekeurde lerarenrollouten bij de koude start, en een tekenconsistentiepoort extrapoleert de destillatie-update op tokens waar de leraar het eens is met de door de verificateur gecorrigeerde richting en interpoleert deze waar hij het oneens is. Experimenten op benchmarks voor wiskundig redeneren op competitieniveau tonen aan dat SG-OPD consequent beter presteert dan standaard OPD, met gemiddelde winsten van respectievelijk 1,98 en 7,50 op het niveau van per sample en per vraag.
Compacte taalmodellen (LMs) verlagen kosten, latentie en implementatierisico voor toolagenten. Toch vereist MCP-stijl toolgebruik meer dan geïsoleerde functieaanroepen: een agent moet tools ontdekken uit live catalogen, schema's vervullen, afhankelijkheden over tussentijdse uitkomsten behouden en uiteindelijke antwoorden baseren op uitgevoerd bewijs. Kleine planners genereren vaak plausibele workflowgrafieken die falen bij toolresolutie, parametervalidatie, afhankelijkheidsregistratie of uitvoering. Wij stellen dat deze faalmodus slecht wordt aangepakt door distillatie op basis van een kleine corpus. Een paar honderd lerarentraces kunnen workflowformaat aanleren, maar dekken zelden het herstelgedrag dat nodig is om mislukte plannen te repareren bij veranderende toolcatalogen. We introduceren Evoflux, een evolutionaire zoekmethode tijdens inferentie, die compact toolgebruik beschouwt als het repareren van uitvoerbare toolworkflows. Het evolueert getypeerde workflowgrafieken via gestructureerde bewerkingen, uitvoeringsfeedback, adaptieve intensiteit, meta-gestuurd herontwerp en diversiteitssnoei. Op vastgehouden MCP-Bench-taken die live MCP-servers en 250 tools omvatten, verhoogt Evoflux de uitvoerbaarheid van ongeveer 3% naar 17-24% bij kleine planners. Daarentegen evenaren, presteren SFT en SFT+DPO op dezelfde door zoekopdrachten gewonnen data slechter of kelderen onder zero-shot prestaties; ReAct bereikt hogere pieken, maar met hogere variantie en tokkenkosten. Deze resultaten tonen aan dat op uitvoering gebaseerd zoeken betrouwbaarder is bij beperkte lerarentracebudgetten.
Interactieve LLM-agenten worden onderdeel van het dagelijkse werk, maar ze worden na verloop van tijd niet betrouwbaar gemakkelijker om mee te werken: een correctie die in één sessie wordt onthouden, kan in de volgende sessie nog steeds worden overtreden. Wij bestuderen deze kloof tussen preferentietoegang en preferentienaleving. In taken die zijn afgeleid van geanonimiseerde wrijvingsgevallen van echte gebruikers, laat Mem0-geheugen nog steeds 57,5% van de toepasselijke preferentiecontroles overtreden. Wij introduceren Test-time Rule Acquisition and Compiled Enforcement (TRACE), een drop-in skill-layer-pijplijn voor coding-agent runtimes die gebruikerscorrecties ontgint, ze herschrijft als atomische regels, en ze compileert tot runtime-controles die moeten worden doorstaan voordat een agent toekomstige taken voltooit. In tegenstelling tot runtime-controles die vooraf door ontwikkelaars zijn geschreven, komen TRACE-vaardigheden uit de eigen chatcorrecties van de gebruiker. Wij evalueren TRACE met gesimuleerde user-in-the-loop-experimenten op ClawArena-codeeragenttaken en van MemoryArena afgeleide geheugenintensieve taken. Op ClawArena vermindert TRACE de overtreding van uitgesloten preferenties van 100,0% naar 37,6% op binnen-verdelingstaken en van 100,0% naar 2,0% op buiten-verdelingstaken. Op van MemoryArena afgeleide taken vermindert TRACE de overtreding binnen de verdeling van 100,0% naar 60,5%, terwijl het de sterkste geheugenbaseline op taakpassing evenaart of overtreft. Deze resultaten suggereren dat het compileren van correcties in runtime-handhaving een herhaald wrijvingsfalen kan aanpakken dat geheugen alleen niet betrouwbaar oplost, waardoor de noodzaak voor gebruikers om dezelfde correctie in toekomstige sessies opnieuw te vermelden, wordt verminderd. De experimentcode is beschikbaar op https://github.com/YujunZhou/TRACE_exp, en de inzetbare vaardigheid is beschikbaar op https://github.com/YujunZhou/tellonce.
Zoekagenten – grote taalmodellen aangevuld met zoekinstrumenten – hebben de behoefte aan toekomstbestendige evaluatiebenchmarks versterkt. Bestaande benchmarks zoals BrowseComp zijn afhankelijk van statische kennis, waardoor ze kwetsbaar zijn voor testsetcontaminatie en parametrische memorisatie. Bijgevolg kunnen modellen hoge scores behalen door feiten te herinneren in plaats van daadwerkelijk te zoeken, waardoor de echte browsecompetentie wordt verdoezeld via redeneersnelkoppelingen. In dit artikel introduceren we EvoBrowseComp, een evoluerende benchmark van 400 Engelse en 400 Chinese contaminatievrije complexe vragen die zijn gesynthetiseerd via live-webdoorkruising. Om deze vragen te verzamelen, ontwerpen we een raamwerk met drie samenwerkende agenten: (1) een QA-syntheseagent die actuele kennis van het live-web ophaalt om QA-paren te synthetiseren; (2) een informatiefilterende agent die opgehaalde kennis filtert op geloofwaardigheid en populariteit om parametrische snelkoppelingen te blokkeren; en (3) een hoog-niveau begeleidingsagent die vragen formaliseert in redeneergrafieken om logische redundantie en snelkoppelingen in gesynthetiseerde QA-paren te verminderen. Omdat het raamwerk volledig geautomatiseerde synthese ondersteunt, kan EvoBrowseComp regelmatig worden bijgewerkt om datacontaminatie te voorkomen en de temporele actualiteit te behouden. Uitgebreide experimenten bevestigen de grote moeilijkheidsgraad, die een breed horizontaal zoeken vereist. Het schept een schaalbaar paradigma voor automatisch bij te werken, hoog-moeilijkheidsbenchmarks die gelijke tred houden met zowel evoluerende wereldkennis als voortschrijdende agentmogelijkheden.
Geometrie is invariant aan gezichtspunt, waardoor elke verzameling afbeeldingen een redundante codering vormt van een enkele 3D-toestand. Bestaande feed-forward reconstructiemodellen slagen er niet in hiervan gebruik te maken: per-aanzicht methoden genereren overlappende, niet-uitgelijnde puntenkaarten die lineair groeien met het aantal invoerbeelden, terwijl globale-latent methoden zich vastleggen op een vaste uitvoer met lage resolutie. We introduceren Surflo, dat een variabel aantal ongeposeerde RGB-aanzichten comprimeert tot K latente tokens — één globale toestand — en georiënteerde 3D-oppervlakpunten decodeert door ze via flow matching onafhankelijk van ruis naar het oppervlak te transporteren. Dit bevrijdt de uitvoer van enig vast raster of tokenbudget: dezelfde latent levert in één enkele forward pass van enkele duizenden tot een miljoen punten op. Om de lokale inconsistenties te onderdrukken die inherent zijn aan onafhankelijke per-punt decodering, wordt tijdens de inferentie een begeleidingsterm gebruikt die nabijgelegen punten correleert door een fotometrische gradiënt in te brengen tijdens ODE-integratie. Surflo evenaart of overtreft feed-forward baselines op oppervlaktematen, is een orde van grootte sneller dan optimalisatiegebaseerde methoden die honderden aanzichten vereisen, en is de enige feed-forward benadering die een globale latent combineert met decodering op willekeurige resolutie.
We presenteren Flash-GMM, een gefuseerde Triton-kernel voor efficiënte berekening van Gaussian Mixture Models (GMM's) over grootschalige data in één enkele GPU-passage. Door de noodzaak om de volledige verantwoordelijkheidsmatrix in het GPU-geheugen te materialiseren weg te nemen, behaalt Flash-GMM een 20-voudige versnelling ten opzichte van bestaande implementaties en maakt het training mogelijk op datasets die meer dan 100 keer groter zijn dan voorheen haalbaar op één apparaat. Om de impact ervan te demonstreren, integreren we Flash-GMM in de IVF-grove quantizer voor approximate nearest-neighbor (ANN) search. We laten zien dat zachte GMM-clustering nu een haalbare directe vervanging is voor k-means, en dat GMM-verantwoordelijkheden kunnen worden benut om grensvectoren aan meerdere clusters toe te wijzen. Onze benadering bereikt vaste recall-doelen met tot 1,7 keer minder afstandsberekeningen, of equivalent, levert +2--12 recall@10 bij gelijke rekenkosten. We brengen de kernel uit als een open-sourceproject.
Het afstemmen van representaties op voorgetrainde visiemodellen heeft recentelijk veel potentieel getoond voor het versnellen van de training van diffusietransformers. Door tussenliggende diffusiekenmerken af te stemmen op representaties van schone beelden uit zelfgecontroleerde visie-encoders, verbeteren bestaande methoden de convergentie en de generatiekwaliteit. Echter, een dergelijke afstemming introduceert ook een niet-triviale beperking: diffusiemodellen werken op ruizige invoer waarvan de bruikbare informatie varieert over tijdsstappen, terwijl de referentiekenmerken worden geëxtraheerd uit schone beelden. In dit artikel bekijken we deze mismatch opnieuw vanuit een token-niveau perspectief. We vinden dat, onder volledige token-representatie-afstemming, tokens met grote afstemmingsgradiëntnormen een stabiele ruimtelijke voorkeur vertonen, wat suggereert dat het afstemmingsdoel niet alle tokens gelijkmatig beïnvloedt en het model kan aanmoedigen om te vertrouwen op de volledige set van schone beeldtokens. Om dit probleem aan te pakken, stellen we MaskAlign voor, een token-subset representatie-afstemmingsmethode die afstemming toepast op willekeurig geselecteerde tokensubsets tijdens de training. Door het model bloot te stellen aan verschillende tokensubsets over iteraties heen, vermindert MaskAlign de afhankelijkheid van representatie-afstemming van de volledige tokenset en stimuleert het afstemmingsgedrag dat stabieler is onder tokensubset-verstoringen. Om het informatieverlies door het direct weglaten van tokens te beperken, introduceren we verder een lichtgewicht pre-mask token-mixblok dat informatie deelt over tokens heen voordat masking wordt toegepast.
Robotsimulatoren vormen een hoeksteen van modern onderzoek in de luchtrobotica; ze dienen zowel als vehikel voor de ontwikkeling van nieuwe regelalgoritmen als als databron voor het trainen van reinforcement learning (RL)-beleid. Toch hebben bestaande quadcopter-leeromgevingen vaak te maken met een afweging tussen fysieke getrouwheid, ondersteuning voor meerdere agenten en de doorvoersnelheid die moderne deep RL-pijplijnen vereisen. In dit artikel presenteren we MuJoCo-Drones-Gym, een open-source, Gymnasium-compatibele multi-drone omgeving gebouwd bovenop de MuJoCo-fysica-engine. MuJoCo-Drones-Gym ondersteunt een willekeurig aantal Bitcraze Crazyflie 2.x nano-quadcopters en biedt een modulaire API voor het selecteren van (i) het fysica-model (starre-lichaams MuJoCo, expliciete Python-dynamica, of een willekeurige subset van grondeffect, bladweerstand en inter-drone downwash), (ii) de actie-interface (per-motor RPM's, collectieve genormaliseerde stuwkracht, snelheidsdoelwaarden of PID-waypointcommando's), en (iii) de observatieruimte (kinematische toestandsvectoren, RGB-/diepte-/segmentatiecamera's of buurtadjacentie-informatie). Een PettingZoo ParallelEnv-wrapper maakt drop-in multi-agent reinforcement learning mogelijk, terwijl een reeks van zeven taakomgevingen – hover, snelheidsvolging, multi-drone hover, waypoint-navigatie, formatievlucht, gate racing en een generiek multi-agent sjabloon – de breedte van de interface demonstreert. We beschrijven het omgevingsontwerp, de onderliggende fysica en quadcopter-dynamica, en illustreren het gebruik ervan aan de hand van stuur- en leervoorbeelden die een afspiegeling zijn van die van het nauw verwante gym-pybullet-drones-project, terwijl we profiteren van de verbeterde contactafhandeling, rendering en paralleliseerbaarheid van MuJoCo.
Multi-agentsystemen communiceren meestal via tekst, wat een verliesgevende en dure decodeer- en hercodeerkost met zich meebrengt. KV-cachecommunicatie is een veelbelovend alternatief, maar het meeste eerdere werk is homogeen, waarbij duplicaten van hetzelfde model worden gebruikt, en vermijdt de centrale uitdaging van cross-model latente alignering; bestaande heterogene methoden zijn ook restrictief, nemen typisch gedeelde input aan en gebruiken overgedragen caches voornamelijk voor sturing. We bestuderen een fundamentelere vraag: kunnen heterogene agenten voldoende worden uitgelijnd om echte 'gedachtenlezing' uit te voeren en zowel over te dragen wat een agent ziet als hoe het denkt? Onze informatie-structuuranalyse onthult een dualiteit: contextbewuste overdracht wordt gedreven door schaarse redeneersignalen, terwijl contextonbewuste overdracht, waarbij de ontvanger geen input ziet, een dichte contextuele kennisbehoud vereist. Gemotiveerd door dit stellen we dichte alignering voor heterogene KV-cachecommunicatie voor via een lichtgewicht cross-model cachetransformatie en tweefasentraining: reconstructie gevolgd door generatie. Over alle zes richtingen van {Qwen3-4B, 8B, 14B} en zes in-domain en out-of-domain benchmarks, presteert onze methode beter dan eerdere heterogene baselines, evenaart of overtreft tekstcommunicatie in contextbewuste omgevingen met ruwweg 2 tot 3 keer lagere rekenkosten, en blijft effectief in contextonbewuste overdracht waar eerdere methoden falen.
De potentiële impact van wereldmodellen (WMs, ofwel aangeleerde simulatoren) op robotica is verreikend: beleidsevaluatie, beleidsverbetering en planning tijdens de test – allemaal met beperkte interactie met de echte wereld. Om deze downstream-mogelijkheden te ontgrendelen, moet een WM gelijktijdig voldoen aan drie vereisten: (i) getrouwheid (d.w.z. het genereren van gesimuleerde trajecten die correleren met de werkelijkheid), (ii) consistentie (d.w.z. het genereren van gesimuleerde trajecten die coherent zijn over lange tijdshorizonten) en (iii) efficiëntie (d.w.z. het snel genereren van gesimuleerde trajecten). We stellen WEAVER (World Estimation Across Views for Embodied Reasoning) voor: een WM-architectuur die gelijktijdig aan alle drie de vereisten voldoet en state-of-the-art resultaten levert op robotmanipulatietaken. WEAVER is een multi-view WM dat is getraind om toekomstige latente variabelen en beloningswaarden te voorspellen via een stromingsafstemmingsverlies (flow-matching loss). We destilleren de belangrijkste ontwerpbeslissingen met betrekking tot modelarchitectuur, geheugen en voorspellingsdoelen die nodig zijn om de soort langdurige dynamische manipulatietaken te ontgrendelen die eerdere wereldmodelbenaderingen hebben verward. We passen WEAVER toe op robotica-hardware en tonen de effectiviteit aan bij beleidsevaluatie (ρ=0,870 correlatie met succespercentage in de echte wereld), beleidsverbetering (38% verbetering van het succespercentage in de echte wereld bovenop het π_{0.5} robotfundamentmodel) en planning tijdens de test (14% verbetering van het succespercentage in de echte wereld met een 5-10x versnelling ten opzichte van eerdere WMs). WEAVER presteert ook beter dan eerdere WMs bij evaluatie op out-of-distribution-scenario's. Code, modellen en video's op: https://arnavkj1995.github.io/WEAVER/ .
Autonome webnavigatie blijft uitdagend voor LLM-agenten, en de sterkste generalistische systemen zijn afhankelijk van propriëtaire redeneermodellen waarvan de inferentiekosten prohibitief zijn voor de repetitieve taken waarvoor dergelijke agenten het nuttigst zouden zijn. Wij stellen dat deze kloof niet voortkomt uit onvoldoende modelcapaciteit, maar uit agentarchitecturen die er niet in slagen drie menselijke cognitieve voordelen te repliceren: selectieve aandacht voor relevante paginaregio's, blijvend geheugen van websitestructuur en procedurele vloeiendheid in gangbare interactiepatronen. We introduceren WebChallenger, een webagentframework dat elke kloof aanpakt via architectuurontwerp in plaats van modelschaal, gebouwd rond PageMem: een gestructureerde paginarepresentatie die deterministisch wordt geconstrueerd uit de DOM en elke pagina presenteert als een hiërarchie van semantische secties met korte samenvattingen. Op deze gedeelde ondergrond bouwen we drie mechanismen die de drie cognitieve voordelen weerspiegelen: een verdeel-en-heers observatiepijplijn waarmee de agent sectiesamenvattingen kan scannen en alleen details uit taakrelevante regio's kan extraheren; een lichtgewicht exploratie- en geheugensysteem dat elke website eenmalig doorloopt om een herbruikbare kaart van pagina's en elementgedragingen op te bouwen; en samengestelde actieworkflows die gangbare meerstapsinteracties samenvatten tot enkele agentacties, met automatische afhandeling van gedeeltelijke statuswijzigingen. Omdat alle drie over PageMem opereren, generaliseert het framework over websites heen zonder websitespecifieke adapters. Met standaard opengewichtmodellen zonder fine-tuning bereikt ons systeem 56,3% op WebArena, 48,7% op VisualWebArena, 51,0% op Online-Mind2Web en 70,9% op WorkArena, waarmee het de prestaties van geavanceerde propriëtaire systemen benadert tegen een fractie van de kosten. Onze code is uitgebracht op https://github.com/jayoohwang1/webchallenger.
Gebaseerd op voorgetrainde visie-fundamentmodellen (VFMs) zijn representatie-auto-encoders (RAEs) recentelijk naar voren gekomen als een veelbelovende aanpak voor het construeren van semantisch rijke latente ruimtes voor beeldgeneratie. Hun reconstructiekwaliteit blijft echter vaak suboptimaal, grotendeels omdat diepe VFM-representaties onvoldoende fijnmazig visueel detail behouden. Deze beperking wordt nog ernstiger na discretisatie, waar ontbrekende laag-niveau-informatie moeilijk te herstellen is. In feite observeren we dat ondiepe VFM-kenmerken aanzienlijk rijkere lokale verschijnings- en structuurdetails bevatten, wat een aanvulling vormt op de hoog-niveau-semantiek die wordt gedragen door diepe kenmerken die in bestaande RAEs worden gebruikt. Gemotiveerd door deze complementaire eigenschap stellen we Ideal voor, een diepgaand aligneringskader voor discrete representatie-auto-encodering. Door gekwantificeerde tokens gezamenlijk uit te lijnen met zowel ondiepe als diepe VFM-kenmerken, stelt Ideal de resulterende discrete visuele tokens in staat om zowel visuele getrouwheid als rijke semantiek te behouden. Uitgebreide experimenten tonen aan dat Ideal superieure reconstructieprestaties levert, met een rFID van 0,61 op ImageNet, waarmee de vorige beste methode met 0,28 wordt overtroffen. Bij gebruik voor autoregressieve beeldgeneratie produceert Ideal verder een gFID van 1,89, waarmee een nieuwe state-of-the-art voor autoregressieve beeldgeneratie wordt gevestigd.
Multimodale Grote Taalmodellen (MLLM's) tonen veelbelovende redeneervermogens in algemene domeinen, maar hun prestaties blijven beperkt in gespecialiseerde omgevingen zoals de gezondheidszorg, met name in meertalige en laag-bronnen scenario's. Deze kloof is kritiek in regio's zoals het platteland van India, waar patiënten vaak complexe medische vragen stellen in inheemse Indiase talen en afhankelijk zijn van multimodale invoer zoals medische beelden. Bestaande Engels-centrische MLLM's kunnen dergelijke gebruikssituaties niet goed ondersteunen, wat de gelijke toegang tot AI-gestuurde gezondheidszorgassistentie belemmert. Om deze uitdaging aan te pakken introduceren we ArogyaBodha, een grootschalige meertalige multimodale medische vraag-antwoorddataset samengesteld uit acht heterogene bronnen, die 31 lichaamssystemen, zes beeldvormingsmodaliteiten en 21 klinische domeinen bestrijkt in het Engels en zeven belangrijke Indiase talen. Verder stellen we ArogyaSutra voor, een actor-criticus gebaseerd multi-agent raamwerk dat tool-gronding integreert met duale geheugenmechanismen voor stapsgewijze, redeneringsbewuste besluitvorming, en gebruikmaakt van opgeslagen actor-criticus simulatiepaden voor distillatie. Experimenten tonen aan dat onze dataset en raamwerk de meertalige medische redeneernauwkeurigheid in alle Indiase talen verbeteren, waarbij ablatiestudies de bijdrage van elke component valideren. De broncode en dataset zijn beschikbaar op: https://iitp-cse.github.io/ArogyaSutra/
We worden omringd door diverse objecten met beweegbare, gearticuleerde onderdelen, zoals dozen, handvatten en deuren. Een nauwkeurige en generaliseerbare perceptie van gearticuleerde onderdelen is essentieel om robotmanipulatievaardigheden te verbeteren. Voortbouwend op deze behoefte zijn recente inspanningen op het gebied van perceptie van gearticuleerde onderdelen in twee hoofdlijnen te verdelen: Eén onderzoekslijn maakt gebruik van pose-gebaseerde representatie, wat hoge handmatige kosten met zich meebrengt; parallel hieraan extraheren affordance-gebaseerde methoden toekomstige objectbeweging uit punttracking zonder extra handmatige inspanning, maar lijden onder data van lage kwaliteit. In dit artikel stellen we een nieuwe representatie van gearticuleerde onderdelen voor, Geometrische Primaire Structuur (GPS), een abstractie van de geometrische structuur van onderdelen om schaalbaarheid en kwaliteit in balans te brengen. Voor een efficiënte en schaalbare dataverzameling wordt GPS geïntegreerd met een draagbaar Virtual Reality (VR)-apparaat en vereist slechts één minuut om één objectsequentie te annoteren. Deze directe menselijke annotatie levert hogere kwaliteit dan de geschatte affordance. Met dit efficiënte VR-GPS-systeem verzamelen we 41K frames voor 234 objecten over zes onderdeelklassen en trainen we een generaliseerbaar GPS-model met een enkele RGB-D objectafbeelding als invoer. Voor objectmanipulatie implementeren we een heuristisch beleid gebaseerd op GPS-voorspelling. Zonder enige domeinspecifieke fine-tuning behaalt onze methode een succespercentage van 73%, waarbij 270 begintoestanden voor 9 objecten worden gedekt. Onze code, data en herbruikbare tool zijn beschikbaar op https://enlighten0707.github.io/gps.
Zijn LLM-agenten die tools aanroepen even veilig gedurende een gesprek? We ontdekken dat ze dat niet zijn: agenten zijn het meest kwetsbaar aan het begin van een sessie en worden aanzienlijk veiliger na een paar reguliere agenttaken – een fenomeen dat we de cold-startveiligheidskloof noemen. Om dit systematisch te bestuderen, introduceren we Safety Over Depth for Agents (SODA), een benchmark die controleert hoeveel reguliere agenttaken de agent voltooit voordat hij een veiligheidsdreiging tegenkomt, met ondersteuning voor maximaal 20 voorgaande taken. Bij het evalueren van 7 modellen uit 4 families verbetert de veiligheid met 9–52% naarmate het aantal voorgaande reguliere agenttaken toeneemt van nul naar twintig. Representatieanalyse bevestigt dat de verborgen toestanden van het model geleidelijk verschuiven naar een veiligheidsgeoriënteerd gebied naarmate er meer voorgaande taken aanwezig zijn. Door systematisch te bestuderen welk deel van het voorgaande gesprek het meest belangrijk is, ontdekken we dat de reguliere agenttaken zelf de primaire drijfveer voor veiligheid zijn, terwijl de eigen eerdere antwoorden van de agent minder effect hebben op veiligheid maar essentieel zijn voor het behoud van latere bruikbaarheid. Deze conclusie wordt verder ondersteund door evaluatie op open-source veiligheidsbenchmarks (AgentHarm, Agent Safety Bench) en nuttigheidsbenchmarks (BFCL, API-Bank), wat bevestigt dat het opwarmen van de agent met reguliere agenttaken vóór inzet de agent veiliger maakt en de volledige capaciteit behoudt. Op basis van deze bevindingen bevelen we een eenvoudige implementatiestrategie aan: de agent een paar reguliere agenttaken laten voltooien voordat hij mogelijk wordt blootgesteld aan veiligheidskritieke verzoeken vermindert de cold-startveiligheidskloof. Onze code is beschikbaar op https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap.
Grote taalmodellen die als agents worden ingezet over grote toolcatalogi staan voor een kritieke bottleneck bij het ophalen van tools. Aangezien op embeddings gebaseerde retrievalmethoden afhankelijk zijn van compacte encoders die mogelijk gespecialiseerde tool-semantiek onvoldoende vastleggen, pakt parametrische tool-retrieval dit aan door elke tool te coderen als een virtuele token die aan de LLM-vocabulaire wordt toegevoegd, fijn afgesteld in twee fasen (memorisatie gevolgd door retrieval SFT) om de LLM als retriever te gebruiken, wat sterke prestaties levert op standaard ToolBench retrieval-benchmarks. Toch gebruiken deze benchmarks breedsprakige, volledig gespecificeerde queries, en hun evaluatie past constrained decoding toe die outputs beperkt tot geldige tokenpaden, maar onthult niet of het model zijn tools daadwerkelijk begrijpt. We introduceren ToolSense, een open-source, door LLM aangedreven diagnostisch raamwerk dat elke toolcatalogus als invoer neemt en automatisch drie benchmarks genereert: een Realistic Retrieval Benchmark (RRB) met queries op drie dubbelzinnigheidsniveaus, een MCQ-probingbenchmark en een QA-probingbenchmark. Het toepassen van ToolSense op ToolBench (~47k tools) en het evalueren van vijf parametrische modeltrainingsconfiguraties onthult een kennis-retrievaldissociatie: bij RRB-queries vallen verschillende configuraties met ~50-64 procentpunten terug vergeleken met volledig gespecificeerde ToolBench-benchmarks, en komen ze onder de baseline van het embeddingmodel terecht. Bovendien scoren sommige modellen, ondanks sterke retrievalprestaties, bijna willekeurig op feitelijke probes, wat wijst op een kennis-retrievaldissociatie. We bieden het ToolSense-raamwerk en de ToolBench-diagnostische benchmarks aan als open-source op https://github.com/SAP/toolsense.
Expressieve uitvoeringsweergave (EPR) heeft tot doel realistische uitvoeringen te genereren die worden beperkt door reeksen noten. Flow-matching-audiobewerkingsmodellen manipuleren echter alleen gesynchroniseerde muzieksamples van dezelfde duur, wat hun begrip van expressieve timing beperkt. We introduceren PianoKontext, een flow-matching-weergavemodel voor klassieke pianomuziek dat uitvoeringen van variabele lengte genereert in de latente ruimte van een voorgetraind Music2Latent-model. We zetten MIDI-partituren om in neutrale audio en passen Dynamic Time Warping (DTW) toe in de latente ruimte om gepaarde data voor training samen te stellen. De uitgelijnde embeddings worden samengevoegd in DiT-blokken, wat een eenvoudige en effectieve aanpak mogelijk maakt voor het leren van de afhankelijkheden tussen de partituur en uitvoeringen. Audiovoorbeelden zijn beschikbaar op onze demo-pagina: https://realfolkcode.github.io/pianokontext_demo/.
Vooruitgang in handgeschreven tekstherkenning heeft grootschalige transcriptie van historische documenten mogelijk gemaakt, maar biedt nog steeds beperkte toegang tot interpreteerbare visuele metingen voor paleografie, de studie van historische schriften. In dit artikel is ons belangrijkste inzicht dat morfologische schriftanalyse, met name het vermogen om karakterprototypen te leren uit transcripties op lijnniveau, de definitie mogelijk maakt van schaalbare, betekenisvolle en stabiele paleografische metingen. Preciezer: we maken gebruik van een transformer-gebaseerde detectiearchitectuur samen met een prototype-gebaseerde lijnreconstructiemodule om prototypische karakters en hun voorkomen, vervorming en positionering te leren. Onze bijdragen zijn tweeledig. Ten eerste introduceren we een diepe architectuur en leermethodologie die efficiënte karaktermodellering mogelijk maakt met alleen toezicht op lijnniveau, wat een aanzienlijke verbetering betekent ten opzichte van de Leerbare Typemachine-baseline en het nauwkeurig voorspellen van begrenzingskaders voor karakters mogelijk maakt, waardoor het potentieel voor paleografische metingen wordt ontsloten. Ten tweede introduceren en demonstreren we de paleografische relevantie van automatische metingen die door onze architectuur mogelijk worden gemaakt voor karakters, bigrammen en spaties tussen grafische eenheden. Voor deze demonstratie breiden we de annotaties van de codex Paris, BnF, fr. 2813, besteld eind veertiende eeuw door Karel V en gekopieerd door vier handen, uit tot 160 pagina's. We visualiseren onze metingen over deze pagina's en tonen aan hoe ze ons niet alleen in staat stellen om grafische profielen te onderscheiden, maar ook om subtiele variaties te ontdekken en te analyseren. Deze casestudy illustreert de schaalbaarheid van onze aanpak en de zuinigheid ervan in termen van benodigde trainingsdata, aangezien een enkele kolom tekst voldoende is om onze metingen op elk van de 160 pagina's uit te voeren. Data en code zijn openbaar beschikbaar op: https://malamatenia.github.io/morphology4metrology-analysis.
Het leren van compatibele representaties heeft als doel kenmerkrepresentaties te leren die in de loop van de tijd uitwisselbaar kunnen worden gebruikt wanneer een model updates ondergaat. In dit artikel tonen we aan dat stationaire representaties die worden geleerd door d-Simplex vaste classifiers compatibiliteit impliceren zoals in de formele definitie. Dit resultaat legt een basis voor toekomstig werk en kan direct worden benut in praktische leerscenario's. We pakken de uitdaging aan van het leren van compatibiliteit met behulp van d-Simplex vaste classifiers wanneer het model sequentieel fijn wordt afgesteld. Leren volgens een d-Simplex vaste classifier met het kruisentropieverlies stemt kenmerkverdelingen af op eerste-orde statistieken. Bijgevolg kan het mogelijk niet volledig de hogere-orde afhankelijkheden in de representatie tussen modelupdates vastleggen. Om dit probleem aan te pakken, tonen we aan dat het trainen van het model met behulp van een d-Simplex vaste classifier via een convexe combinatie van het kruisentropieverlies en een contrastief verlies niet alleen hogere-orde afhankelijkheden vastlegt, maar ook equivalent is aan leren met de kruisentropie onder de compatibiliteitsbeperkingen. We bevestigen onze bevindingen met uitgebreide experimenten, waarbij we ook een nieuw scenario overwegen waarin een voorgetraind model sequentieel fijn wordt afgesteld en af en toe wordt vervangen door een verbeterd model. We laten zien dat stationaire representaties ononderbroken retrievaldiensten mogelijk maken (zonder galerijbeelden opnieuw te verwerken) terwijl de prestaties tijdens modelupdates en -vervangingen verbeteren, wat resulteert in state-of-the-art prestaties. Code op https://github.com/miccunifi/iamcl2r.
Grote taalmodellen (LLM's) worden steeds vaker gebruikt voor zero-shot annotatie en LLM-als-beoordelaar taken, maar hun betrouwbaarheid hangt af van hoe model-interne a priori kennis interageert met door de gebruiker verstrekte instructies. We onderzoeken drie dimensies van deze interactie: (1) hoe de bekendheid van een LLM met data en taakdefinities de prestaties beïnvloedt, (2) in hoeverre aanvullende informatie in prompts zero-shot fouten kan corrigeren ("beslissingshardnekkigheid"), en (3) de gevoeligheid van het model voor misaligned taakdefinities. Door middel van experimenten op toxiciteitsdetectie in uiteenlopende datasets (variërend van sociale media, gaming, nieuws en forums) met zowel dichte als mixture-of-experts modellen, vinden we dat bijna twee derde van de zero-shot fouten resistent is tegen correctie, met een totaal reddingspercentage (fractie van initiële fouten gecorrigeerd door prompting) van slechts 34,8%. Fouten met hoge betrouwbaarheid blijken bijzonder resistent tegen correctie. Wanneer LLM's misaligned definities krijgen, volgen ze deze terwijl de betrouwbaarheidsniveaus ongewijzigd blijven ten opzichte van de aligned conditie. Cruciaal is dat we Definitie-Specifieke Familiariteit (DSF) introduceren, die de afstemming meet tussen het interne concept van een model en de taakdefinitie. Na controle voor confounders op datasethiveau vertoont DSF een positieve associatie met modelprestaties (partiële r = +0,41), terwijl drie verschillende memorisatiemetrieken (ROUGE-L, BERTScore en embedding cosinusgelijkenis) allemaal geen positieve associatie laten zien. Deze bevindingen tonen de beperkingen aan van prompt-gebaseerde correctie in annotatietaken en benadrukken het belang van definitie-afstemming boven tekstniveau memorisatie.