Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Met de snelle vooruitgang in videobegrip raken bestaande benchmarks steeds meer verzadigd, wat een kritieke kloof blootlegt tussen opgeblazen leaderboard-scores en de daadwerkelijke capaciteiten van modellen in de praktijk. Om deze groeiende kloof te dichten, introduceren we Video-MME-v2, een uitgebreide benchmark die ontworpen is om de robuustheid en betrouwbaarheid van videobegrip rigoureus te evalueren. Om modelcapaciteiten systematisch te beoordelen, hebben we een progressieve drielaagse hiërarchie ontworpen die de complexiteit van videobegrip stapsgewijs verhoogt, variërend van aggregatie van multi-punt visuele informatie, naar modellering van temporele dynamiek, en uiteindelijk naar complexe multimodale redenering. Daarnaast stellen we, in tegenstelling tot conventionele nauwkeurigheid per vraag, een op groepen gebaseerde niet-lineaire evaluatiestrategie voor die zowel consistentie tussen gerelateerde queries als samenhang in meerstapsredenering afdwingt. Deze strategie bestraft gefragmenteerde of op gokken gebaseerde correctheid en kent alleen punten toe aan antwoorden die worden ondersteund door geldige redenering. Om de datakwaliteit te garanderen, is Video-MME-v2 opgebouwd via een streng gecontroleerd pijplijnproces voor menselijke annotatie, waarbij 12 annotators en 50 onafhankelijke reviewers betrokken waren. Gestut door 3.300 mensuren en tot wel 5 kwaliteitscontrolecycli, beoogt Video-MME-v2 een van de meest gezaghebbende videobenchmarks te worden. Uitgebreide experimenten tonen een aanzienlijke kloof tussen het huidige beste model Gemini-3-Pro en menselijke experts, en onthullen een duidelijk hiërarchisch knelpunt waarbij fouten in visuele informatie-aggregatie en temporele modellering doorwerken om hoogwaardige redenering te beperken. Verder constateren we dat denkgebaseerde redenering sterk afhankelijk is van tekstuele aanwijzingen, wat de prestaties met ondertitels verbetert maar deze soms verslechtert in puur visuele settings. Door deze beperkingen bloot te leggen, vestigt Video-MME-v2 een veeleisende nieuwe testomgeving voor de ontwikkeling van volgende generatie video-MLLM's.
Grootschalige taalmodellen worden steeds vaker ingezet als autonome agents die meerstaps werkstromen uitvoeren in reële software-omgevingen. Bestaande benchmarks voor agents kampen echter met drie kritieke beperkingen: (1) traject-onduidelijke beoordeling die alleen de eindresultaten controleert, (2) ondermaats gespecificeerde evaluatie van veiligheid en robuustheid, en (3) beperkte modaliteitsdekking en interactieparadigma's. Wij introduceren Claw-Eval, een end-to-end evaluatiesuite die alle drie deze hiaten aanpakt. Deze omvat 300 door mensen geverifieerde taken, verdeeld over 9 categorieën in drie groepen (algemene service-orchestratie, multimodale perceptie en generatie, en multi-turn professionele dialoog). Elke agentactie wordt vastgelegd via drie onafhankelijke bewijskanalen (uitvoeringstrajecten, auditlogboeken en omgevingsmomentopnamen), wat trajectbewuste beoordeling mogelijk maakt op basis van 2.159 gedetailleerde rubricapunten. Het scoringsprotocol evalueert Voltooiing, Veiligheid en Robuustheid, en rapporteert Gemiddelde Score, Pass@k en Pass^k over drie pogingen om werkelijke capaciteit te onderscheiden van geluksresultaten. Experimenten met 14 frontier-modellen tonen aan dat: (1) traject-onduidelijke evaluatie systematisch onbetrouwbaar is en 44% van de veiligheidschendingen en 13% van de robuustheidsfouten mist die onze hybride pijplijn detecteert; (2) gecontroleerde foutinjectie vooral de consistentie aantast in plaats van de piekcapaciteit, met een daling van Pass^3 tot 24% terwijl Pass@3 stabiel blijft; (3) multimodale prestaties sterk variëren, waarbij de meeste modellen slechter presteren op video dan op documenten of afbeeldingen, en geen enkel model dominant is across alle modaliteiten. Naast benchmarking belicht Claw-Eval actierichte richtingen voor agentontwikkeling en werpt het licht op wat nodig is om agents te bouwen die niet alleen capabel maar ook betrouwbaar inzetbaar zijn.
Informatieretrieval (IR)-systemen zijn traditioneel ontworpen en getraind voor menselijke gebruikers, waarbij 'learning-to-rank'-methoden sterk leunen op grootschalige menselijke interactielogboeken, zoals klikken en 'dwell time'. Met de snelle opkomst van zoekagenten aangedreven door grote taalmmodellen (LLM's) wordt retrievel echter steeds vaker gebruikt door agenten in plaats van door mensen, en is het ingebed als een kerncomponent binnen meerzijdige redeneer- en actielussen. In deze context vertonen retrievalmodellen die zijn getraind onder mensgerichte aannames een fundamentele mismatch met de manier waarop agenten queries uitvaardigen en resultaten verwerken. In dit werk beargumenteren we dat retrievalmodellen voor agent-gebaseerd zoeken rechtstreeks getraind moeten worden met interactiegegevens van agenten. We introduceren 'learning to retrieve from agent trajectories' als een nieuw trainingsparadigma, waarbij supervisie wordt afgeleid uit meerstaps interacties van agenten. Via een systematische analyse van zoekagenttrajecten identificeren we cruciale gedragssignalen die de bruikbaarheid van documenten onthullen, waaronder bladeracties, niet-bekeken afwijzingen en redeneersporen na het bekijken. Geleid door deze inzichten stellen we LRAT voor, een eenvoudig maar effectief framework dat hoogwaardige retrievalsupervisie uit agenttrajecten haalt en relevantie-intensiteit incorporeert via gewogen optimalisatie. Uitgebreide experimenten op zowel in-domein als out-of-domein 'deep research'-benchmarks tonen aan dat retrievers getraind met LRAT consistent de terugvindbaarheid van bewijs, end-to-end taaksucces en uitvoeringsefficiëntie verbeteren across diverse agentarchitecturen en -schalen. Onze resultaten benadrukken agenttrajecten als een praktische en schaalbare supervisiebron, wat wijst op een veelbelovende richting voor retrievel in het tijdperk van agent-gebaseerd zoeken.
Het selecteren van LLM-gegenereerde codekandidaten met behulp van LLM-gegenereerde tests is uitdagend omdat de tests zelf onjuist kunnen zijn. Bestaande methoden behandelen alle tests gelijkelijk of vertrouwen op ad-hoc heuristieken om onbetrouwbare tests te filteren. Maar het bepalen van de juistheid van een test vereist kennis over welke codes correct zijn, wat een circulaire afhankelijkheid creëert. Onze belangrijkste inzicht is dat we de juistheid van tests helemaal niet hoeven te bepalen: teststemmen moeten rangschikken, niet slechts tellen. Wat telt is niet hoeveel codes een test doorstaan, maar of de test correcte van incorrecte code kan onderscheiden. Wij doorbreken de circulaire afhankelijkheid via leave-one-out-evaluatie: houd één test buiten beschouwing, rangschik codes op basis van hun geaggregeerde scores op alle overige tests, en meet of het pass/fail-patroon van de weggelaten test overeenkomt met deze rangschikking. We formaliseren deze overeenkomst als de leave-one-out AUC (LOO-AUC) en bewijzen dat de verwachte LOO-AUC evenredig is aan het vermogen van elke test om correcte van incorrecte code te scheiden. Hierop voortbordurend stellen we ACES (AUC ConsistEncy Scoring) voor met twee complementaire varianten: ACES-C biedt gesloten-formule gewichten die onder een milde aanname over de gemiddelde testkwaliteit verwachtingsgewijs de orakelbenadering benaderen; ACES-O laat deze aanname vallen en optimaliseert iteratief een differentieerbaar LOO-AUC-doel. Beide werken uitsluitend op de binaire pass-matrix met verwaarloosbare overhead en behalen state-of-the-art Pass@k op meerdere codegeneratiebenchmarks.
De autonome ontdekking van bugs blijft een grote uitdaging in moderne softwareontwikkeling. In vergelijking met codegeneratie maakt de complexiteit van dynamische runtime-omgevingen bugdetectie aanzienlijk moeilijker voor grote taalmodellen (LLM's). In dit artikel nemen we spelontwikkeling als representatief domein en introduceren we de Game Benchmark voor Kwaliteitsborging (GBQA), een benchmark met 30 spellen en 124 door mensen geverifieerde bugs over drie moeilijkheidsniveaus, om te evalueren of LLM's softwarebugs autonoom kunnen detecteren. De benchmark is geconstrueerd met een multi-agent systeem dat op schaalbare wijze spellen ontwikkelt en bugs injecteert, waarbij menselijke experts betrokken zijn om de correctheid te waarborgen. Bovendien bieden we een baseline interactieve agent uitgerust met een multi-round ReAct-lus en een geheugenmechanisme, die langetermijnverkenning van spelomgevingen mogelijk maakt voor bugdetectie over verschillende LLM's. Uitgebreide experimenten met toonaangevende LLM's tonen aan dat autonome bugdetectie zeer uitdagend blijft: het best presterende model, Claude-4.6-Opus in denkmodus, identificeert slechts 48,39% van de geverifieerde bugs. Wij geloven dat GBQA een adequate testomgeving en evaluatiecriterium biedt, en dat verdere vooruitgang hierop zal helpen de kloof in autonome software-engineering te dichten.
Wij introduceren ThinkTwice, een eenvoudig tweefasenraamwerk dat grote taalmodellen (LLMs) gezamenlijk optimaliseert om redeneerproblemen op te lossen en de antwoorden te verfijnen, gebaseerd op Group Relative Policy Optimization (GRPO). In elk paar trainingsstappen optimaliseert ThinkTwice eerst het model voor het oplossen van redeneerproblemen, en vervolgens optimaliseert het het model voor het verfijnen van zijn eigen oplossingen voor dezelfde problemen. Hierbij wordt in beide fasen dezelfde binaire correctheidsbeloning gebruikt, zonder correctheidssignalen of kritiekannotaties. Op vijf wiskundige redeneerbenchmarks en twee modelfamilies, waaronder Qwen3-4B en Olmo3-7B, verbetert ThinkTwice zowel de redeneer- als de verfijningsprestaties aanzienlijk in vergelijking met competitieve online policy-optimalisatie-baselines. Specifiek presteert ThinkTwice op Qwen3-4B, gemeten met pass@4, 5 procentpunt beter dan GRPO op AIME vóór verfijning en 11,5 punten beter na één zelfverfijningsstap. Analyse van de traingsdynamiek van ThinkTwice onthult een impliciet 'corrigeer-en-versterk'-curriculum: verfijning corrigeert aanvankelijk vooral fouten en verschuift naarmate het model verbetert van nature naar het behouden van reeds correcte oplossingen, wat een meer gecorrigeerd beloningssignaal oplevert. Ons werk vestigt de gezamenlijke training van redeneren en zelfverfijning als een principiële en effectieve methodologie voor RLVR (Reinforcement Learning from Verifier Feedback).
Wij presenteren Vanast, een uniform kader dat geanimeerde video's met kledingoverdracht direct genereert vanuit een enkele menselijke afbeelding, kledingafbeeldingen en een videoposegids. Conventionele pipelines in twee fasen behandelen op afbeeldingen gebaseerd virtueel passen en pose-gestuurde animatie als afzonderlijke processen, wat vaak leidt tot identiteitsverandering, kledingvervorming en voor-achter inconsistentie. Ons model lost deze problemen op door het gehele proces in één uniforme stap uit te voeren voor een coherente synthese. Om deze setting mogelijk te maken, construeren we grootschalige triplettoezicht. Onze datageneratiepipeline omvat het genereren van identiteitbewarende menselijke afbeeldingen in alternatieve outfits die verschillen van kledingcatalogusafbeeldingen, het vastleggen van volledige boven- en onderkledingtriplets om de beperking van paren met één kledingstuk en pose te overwinnen, en het samenstellen van diverse tripletten uit de praktijk zonder kledingcatalogusafbeeldingen nodig te hebben. Wij introduceren verder een Dual Module-architectuur voor videodiffusietransformers om de training te stabiliseren, de vooraf getrainde generatieve kwaliteit te behouden, en de kledingnauwkeurigheid, posevolging en identiteitsbehoud te verbeteren, terwijl zero-shot kledinginterpolatie wordt ondersteund. Gezamenlijk stellen deze bijdragen Vanast in staat om hoogwaardige, identiteitconsistente animatie te produceren voor een breed scala aan kledingtypes.
In real-world scenario's voor Tool-Integrated Reasoning (TIR), waarbij grote taalmodellen redeneren afwisselen met externe tool-aanroepen, is een belangrijke bron van inefficiëntie dat de tool-aanroepen pauzes creëren tussen LLM-verzoeken en KV-cache-verwijdering veroorzaken, wat herberekening forceert. Bovendien zorgt het lange, ongefilterde antwoord dat door externe tools wordt teruggegeven voor een opgeblazen KV-cache, waardoor elke decodeerstap meer tijd besteedt aan het laden van de groeiende cache en dus geleidelijk langzamer wordt naarmate de contextlengte toeneemt. Bestaande efficiëntiemetrieken zoals tokenaantallen en tool-aanroepaantallen slagen er echter niet in de werkelijke inferentielatentie van het model vast te leggen. Om dit aan te pakken, introduceren we PTE (Prefill Token Equivalents), een hardwarebewuste TIR-efficiëntiemetriek die de kosten van interne redenering en extern toolgebruik verenigt, waarbij expliciet rekening wordt gehouden met niet-herbruikbare KV-cache en scenario's met lange tool-antwoorden. Validatie in een industriële setting met hoge gelijktijdigheid geeft aan dat PTE aanzienlijk beter overeenkomt met de wall-clock latentie dan standaard tokenaantallen, terwijl consistente efficiëntieranglijsten worden gehandhaafd across diverse hardwareprofielen. We voeren uitgebreide experimenten uit across vijf TIR-referentiepunten, kwantificeren hun PTE-kosten en identificeren vier inefficiëntiepatronen die voorkomen in TIR. We ontdekken ook dat trajecten met hogere PTE-kosten de neiging hebben een lagere redeneernauwkeurigheid te hebben, wat aangeeft dat het simpelweg gebruiken van meer tools de kwaliteit van het antwoord niet verbetert.
Wij presenteren MegaTrain, een geheugengericht systeem dat grote taalmodellen van 100B+ parameters efficiënt traint in volledige precisie op een enkele GPU. In tegenstelling tot traditionele GPU-gerichte systemen, slaat MegaTrain parameters en optimizer-statussen op in het hostgeheugen (CPU-geheugen) en behandelt het GPU's als tijdelijke rekenengines. Voor elke laag streamen we parameters naar binnen en berekenen we gradiënten naar buiten, waardoor de persistente toestand op het apparaat wordt geminimaliseerd. Om de CPU-GPU-bandbreedtebeperking te bestrijden, passen we twee belangrijke optimalisaties toe. 1) We introduceren een gepipelinde execution engine met dubbele buffering die parameter-prefetching, berekening en gradient-offloading overlapt over meerdere CUDA-streams, waardoor continue GPU-uitvoering mogelijk wordt. 2) We vervangen persistente autograd-grafieken door stateless laagsjablonen, waarbij we gewichten dynamisch binden tijdens het binnenstromen. Dit elimineert persistente grafiekmetagegevens en biedt tegelijkertijd flexibiliteit in planning. Op een enkele H200-GPU met 1,5 TB hostgeheugen traint MegaTrain betrouwbaar modellen tot 120B parameters. Het behaalt ook een 1,84 keer hogere trainthroughput dan DeepSpeed ZeRO-3 met CPU-offloading bij het trainen van 14B-modellen. MegaTrain maakt tevens training van 7B-modellen met een context van 512k tokens mogelijk op een enkele GH200.
Het is cruciaal voor vision-language modellen (VLM's) om visuele, temporele en tekstuele aanwijzingen volledig te begrijpen. Ondanks snelle vooruitgang in multimodale modellering blijft de prestaties op het gebied van videobegrip echter achter bij tekstgebaseerd redeneren. In dit werk constateren wij dat de vooruitgang zelfs slechter is dan voorheen werd aangenomen: algemeen gerapporteerde benchmarks voor lang videobegrip bevatten 40-60% van de vragen die uitsluitend met tekstuele aanwijzingen kunnen worden beantwoord. Bovendien stellen wij vast dat deze problemen ook wijdverbreid zijn in veelgebruikte post-training datasets, wat het vermogen van post-training om het videobegrip van VLM's te verbeteren potentieel ondermijnt. Geleid door deze observatie introduceren wij VidGround als een eenvoudige doch effectieve oplossing: het gebruik van alleen de daadwerkelijk visueel gegronde vragen, zonder linguïstische vertekeningen, voor post-training. Wanneer deze techniek in combinatie met RL-gebaseerde post-training algoritmen wordt gebruikt, verbetert de prestatie met tot 6,2 punten ten opzichte van het gebruik van de volledige dataset, terwijl slechts 69,1% van de oorspronkelijke post-training data wordt gebruikt. Bovendien tonen wij aan dat datacuratie met een eenvoudig post-training algoritme verschillende complexere post-training technieken overtreft, wat benadrukt dat data kwaliteit een grote bottleneck vormt voor het verbeteren van videobegrip in VLM's. Deze resultaten onderstrepen het belang van het samenstellen van post-training data en evaluatiebenchmarks die daadwerkelijk visuele gronding vereisen om de ontwikkeling van capabelere VLM's te bevorderen. Projectpagina: http://vidground.etuagi.com.
Agentvaardigheden, herbruikbare, domeinspecifieke kennisartefacten, zijn een populair mechanisme geworden voor het uitbreiden van op LLM's gebaseerde agents. Toch blijft formele benchmarking van de prestaties bij het gebruik van vaardigheden schaars. Bestaande benchmarking-inspanningen richten zich op overdreven geïdealiseerde omstandigheden, waarbij LLM's direct handmatig gemaakte, nauw toegesneden, taakspecifieke vaardigheden voor elke taak krijgen aangeleverd. In veel realistische situaties moet de LLM-agent echter mogelijk zelf relevante vaardigheden zoeken en selecteren, en zelfs de best passende vaardigheden zijn mogelijk niet goed toegesneden op de taak. In dit artikel voeren we de eerste uitgebreide studie uit naar het nut van vaardigheden onder progressief uitdagendere realistische omstandigheden, waarbij agents vaardigheden moeten ophalen uit een grote collectie van 34k real-world vaardigheden en mogelijk geen toegang hebben tot handmatig geselecteerde vaardigheden. Onze bevindingen tonen aan dat de voordelen van vaardigheden fragiel zijn: prestatieverbeteringen nemen consistent af naarmate de omstandigheden realistischer worden, waarbij de slagingspercentages in de meest uitdagende scenario's naderen tot baseline-niveaus zonder vaardigheden. Om deze kloof te verkleinen, bestuderen we strategieën voor het verfijnen van vaardigheden, waaronder queryspecifieke en query-agnostische benaderingen. We tonen aan dat queryspecifieke verfijning substantieel verloren prestaties herstelt wanneer de initiële vaardigheden van redelijke relevantie en kwaliteit zijn. We demonstreren verder de generaliseerbaarheid van retriev
De snelle groei van wetenschappelijke literatuur maakt het voor onderzoekers steeds moeilijker om relevante publicaties efficiënt te ontdekken, te evalueren en te synthetiseren. Recente vooruitgang in multi-agent large language models (LLM's) heeft een sterk potentieel getoond voor het begrijpen van gebruikersintentie en ze worden getraind om diverse tools te gebruiken. In dit artikel introduceren we Paper Circle, een multi-agent onderzoeksontdekkings- en analysesysteem dat is ontworpen om de inspanning die nodig is om academische literatuur te vinden, beoordelen, organiseren en begrijpen te verminderen. Het systeem bestaat uit twee complementaire pijplijnen: (1) een Ontdekkingspijplijn die offline- en online-retrieval uit meerdere bronnen integreert, samen met scoring op basis van meerdere criteria, diversiteitsbewuste rangschikking en gestructureerde outputs; en (2) een Analysepijplijn die individuele artikelen omzet in gestructureerde kennisgrafieken met getypeerde nodes, zoals concepten, methoden, experimenten en figuren, waardoor grafiekbewuste vraagbeantwoording en dekkingverificatie mogelijk wordt. Beide pijplijnen worden geïmplementeerd binnen een op coder-LLM gebaseerd multi-agent orchestration-framework en produceren volledig reproduceerbare, gesynchroniseerde outputs – waaronder JSON, CSV, BibTeX, Markdown en HTML – bij elke agentstap. Dit artikel beschrijft de systeemarchitectuur, agentrollen, retrieval- en scoringsmethoden, kennisgrafiekschema en evaluatie-interfaces die gezamenlijk de Paper Circle-onderzoeksworkflow vormen. We evalueren Paper Circle op zowel artikelretrieval als het genereren van artikelenreviews, en rapporteren hitrate, MRR en Recall@K. Resultaten tonen consistente verbeteringen met sterkere agentmodellen. We hebben de website openbaar vrijgegeven op https://papercircle.vercel.app/ en de code op https://github.com/MAXNORM8650/papercircle.
Evolutie is een buitengewone motor voor enzymatische diversiteit, maar de chemie die zij heeft verkend, blijft een smalle doorsnede van wat DNA kan coderen. Diepe generatieve modellen kunnen nieuwe eiwitten ontwerpen die liganden binden, maar geen ervan heeft enzymen gecreëerd zonder vooraf specifieke katalytische residuen op te geven. Wij introduceren DISCO (DIffusion for Sequence-structure CO-design), een multimodaal model dat eiwitsequenties en 3D-structuur gezamenlijk ontwerpt rondom willekeurige biomoleculen, evenals schaalingsmethoden voor inferentietijd die doelstellingen over beide modaliteiten optimaliseren. Uitsluitend geconditioneerd op reactieve intermediairen, ontwerpt DISCO diverse heem-enzymen met nieuwe actieve-site-geometrieën. Deze enzymen katalyseren nieuwe-voor-de-natuur carbene-overdrachtsreacties, waaronder alkeencyclopropanering, spirocyclopropanering, B-H-inserties en C(sp³)-H-inserties, met hoge activiteiten die die van gemanipuleerde enzymen overtreffen. Willekeurige mutagenese van een geselecteerd ontwerp bevestigde verder dat de enzymactiviteit kan worden verbeterd door middel van gerichte evolutie. Door een schaalbare route naar evolueerbare enzymen te bieden, verbreedt DISCO het potentiële bereik van genetisch codeerbare transformaties. Code is beschikbaar op https://github.com/DISCO-design/DISCO.
Diffusie large language models (dLLM's) doen zich gelden als een aantrekkelijk alternatief voor de dominante autoregressieve modellen, waarbij strikt sequentiële token-generatie wordt vervangen door iteratieve ruisverwijdering en parallelle generatiedynamiek. Hun open-source-ecosysteem blijft echter gefragmenteerd over verschillende modelfamilies en, in het bijzonder, over post-trainingspijplijnen, waarbij reinforcement learning-doelstellingen, rollout-implementaties en evaluatiescripts vaak worden vrijgegeven als paperspecifieke codebibliotheken. Deze fragmentatie vertraagt de onderzoeksiteratie, verhoogt de technische last voor reproductie en bemoeilijkt een eerlijke vergelijking tussen algoritmen. Wij presenteren DARE (dLLMs Alignment and Reinforcement Executor), een open raamwerk voor het post-trainen en evalueren van dLLM's. Gebouwd bovenop verl~sheng2024hybridflow en OpenCompass~2023opencompass, verenigt DARE supervised fine-tuning, parameter-efficient fine-tuning, preference-optimalisatie en dLLM-specifieke reinforcement learning onder een gedeelde uitvoeringsstack voor zowel gemaskeerde als block-diffusie-taalmmodellen. Over representatieve modelfamilies, waaronder LLaDA, Dream, SDAR en LLaDA2.x, biedt DARE brede algoritmische dekking, reproduceerbare benchmarkevaluatie en praktische versnelling. Uitgebreide empirische resultaten tonen aan dat DARE dient als een herbruikbaar onderzoekssubstraat voor het ontwikkelen, vergelijken en implementeren van post-trainingsmethoden voor huidige en opkomende dLLM's.
Grootschalige taalmodel (LLM) agenten worden steeds vaker ingezet om productiviteitstaken te automatiseren (bijv. e-mail, planning, documentbeheer), maar het evalueren ervan op live diensten is riskant vanwege mogelijk onomkeerbare veranderingen. Bestaande benchmarks maken gebruik van vereenvoudigde omgevingen en slagen er niet in realistische, stateful, multi-service werkstromen vast te leggen. Wij introduceren ClawsBench, een benchmark voor het evalueren en verbeteren van LLM-agenten in realistische productiviteitsomgevingen. Deze omvat vijf mockdiensten van hoge kwaliteit (Gmail, Slack, Google Agenda, Google Documenten, Google Drive) met volledig state management en deterministische snapshot/herstel-functionaliteit, samen met 44 gestructureerde taken die single-service, cross-service en veiligheidskritieke scenario's bestrijken. We ontleden agent scaffolding in twee onafhankelijke hefbomen (domainevaardigheden die API-kennis injecteren via progressieve openbaarmaking, en een meta-prompt die gedrag coördineert over diensten heen) en variëren beide om hun afzonderlijke en gecombineerde effecten te meten. Experimenten over 6 modellen, 4 agent-harnassen en 33 condities tonen aan dat agenten met volledige scaffolding taaksuccespercentages van 39-64% behalen, maar onveilige actiepercentages van 7-33% vertonen. Op OpenClaw vallen de top vijf modellen binnen een bandbreedte van 10 procentpunt voor taaksucces (53-63%), met onveilige actiepercentages van 7% tot 23% en geen consistente rangschikking tussen de twee metrieken. We identificeren acht terugkerende patronen van onveilig gedrag, waaronder multi-stap sandbox-escalatie en stille contractwijziging.
Het statische "trainen en dan implementeren"-paradigma beperkt grote taalmodellen (LLM's) fundamenteel in hun vermogen om hun gewichten dynamisch aan te passen aan continue stromen van nieuwe informatie die inherent zijn aan real-world taken. Test-Time Training (TTT) biedt een overtuigend alternatief door een subset van modelparameters (snelle gewichten) bij te werken tijdens de inferentiefase, maar het potentieel ervan in het huidige LLM-ecosysteem wordt belemmerd door kritieke barrières, waaronder architectuurincompatibiliteit, computationele inefficiëntie en niet-uitgelijnde doelstellingen voor snelle gewichten bij taalmodellering. In dit werk introduceren we In-Place Test-Time Training (In-Place TTT), een raamwerk dat LLM's naadloos voorziet van Test-Time Training-vermogen. In-Place TTT behandelt de laatste projectiematrix van de alomtegenwoordige MLP-blokken als aanpasbare snelle gewichten, wat een "drop-in"-verbetering voor LLM's mogelijk maakt zonder kostbare hertraining vanaf nul. Verder vervangen we het generieke reconstructiedoel van TTT door een toegesneden, theoretisch onderbouwd doel dat expliciet is afgestemd op de Next-Token-Prediction-taak die autoregressieve taalmodellering beheerst. Dit principiële doel, gecombineerd met een efficiënt chunk-gewijs update-mechanisme, resulteert in een zeer schaalbaar algoritme dat compatibel is met context-parallelisme. Uitgebreide experimenten valideren de effectiviteit van ons raamwerk: als een in-place verbetering stelt het een model van 4B parameters in staat superieure prestaties te leveren bij taken met contexten tot 128k, en wanneer het vanaf nul wordt voorgetraind, presteert het consistent beter dan competitieve TTT-gerelateerde benaderingen. Resultaten van ablatiestudies bieden verder dieper inzicht in onze ontwerpkeuzes. Collectief vestigen onze resultaten In-Place TTT als een veelbelovende stap naar een paradigma van continu leren in LLM's.
Netwerkpruning, waarbij minder belangrijke parameters of architecturen worden verwijderd, wordt vaak verwacht de efficiëntie te verbeteren terwijl de prestaties behouden blijven. Deze verwachting gaat echter niet consistent op voor alle taaltaken: geprunte modellen kunnen goed presteren op niet-generatieve taken, maar falen vaak in generatieve settings. Om deze discrepantie te begrijpen, analyseren we netwerkpruning vanuit een representatiehiërarchie-perspectief, waarbij we de interne berekening van taalmodellen ontbinden in drie opeenvolgende ruimten: embedding (verborgen representaties), logit (pre-softmax-uitvoeren) en waarschijnlijkheid (post-softmax-verdelingen). We ontdekken dat representaties in de embedding- en logitruimten grotendeels robuust zijn voor door pruning geïnduceerde verstoringen. De niet-lineaire transformatie van logits naar waarschijnlijkheden versterkt deze afwijkingen echter, die zich over tijdstappen opstapelen en leiden tot aanzienlijke degradatie tijdens generatie. Daarentegen ondersteunt de stabiliteit van de categorische-token-waarschijnlijkheidsdeelruimte, samen met de robuustheid van de embeddingruimte, de effectiviteit van pruning voor niet-generatieve taken zoals retrieval en multiple-choice-selectie. Onze analyse ontwart de effecten van pruning over taken heen en biedt praktische richtlijnen voor de toepassing ervan. Code is beschikbaar op https://github.com/CASE-Lab-UMD/Pruning-on-Representations.
Wij introduceren MedGemma 1.5 4B, het nieuwste model in de MedGemma-collectie. MedGemma 1.5 breidt MedGemma 1 uit door extra mogelijkheden te integreren: hoogdimensionale medische beeldvorming (CT/MRI-volumes en histopathologie whole slide images), anatomische lokalisatie via bounding boxes, analyse van thoraxfoto's over meerdere tijdstippen, en een verbeterd begrip van medische documenten (labrapporten, elektronische patiëntendossiers). Wij lichten de innovaties toe die nodig waren om deze modaliteiten binnen één architectuur mogelijk te maken, waaronder nieuwe trainingsdata, long-context 3D-volume-segmentatie en whole-slide pathologiebemonstering. Vergeleken met MedGemma 1 4B toont MedGemma 1.5 4B significante verbeteringen in deze nieuwe gebieden, met een verbetering van de nauwkeurigheid van 3D MRI-conditieclassificatie met 11% en 3D CT-conditieclassificatie met 3% (absolute verbeteringen). Bij whole slide pathologiebeeldvorming behaalt MedGemma 1.5 4B een winst van 47% in macro F1. Daarnaast verbetert het de anatomische lokalisatie met een stijging van 35% in Intersection over Union op thoraxfoto's en behaalt het een macro-nauwkeurigheid van 4% voor longitudinale (multi-timepoint) thoraxfoto-analyse. Naast de verbeterde multimodale prestaties ten opzichte van MedGemma 1, verbetert MedGemma 1.5 ook op tekstgebonden klinische kennis en redenering, met een verbetering van 5% op MedQA-nauwkeurigheid en 22% op EHRQA-nauwkeurigheid. Het behaalt tevens een gemiddelde van 18% macro F1 op 4 verschillende datasets voor informatie-extractie uit labrapporten (EHR Datasets 2, 3, 4, en Mendeley Clinical Laboratory Test Reports). Samengevat dient MedGemma 1.5 als een robuuste, open bron voor de gemeenschap, ontworpen als een verbeterde basis waarop ontwikkelaars de volgende generatie medische AI-systemen kunnen bouwen. Middelen en tutorials om verder te bouwen op MedGemma 1.5 zijn te vinden op https://goo.gle/MedGemma.
Wereldactiemodellen (WAM's) zijn een veelbelovende richting geworden voor het leren van robotbeleid, omdat ze krachtige videobackbones kunnen benutten om toekomstige toestanden te modelleren. Bestaande benaderingen vertrouwen echter vaak op afzonderlijke actiemodules, of gebruiken actierepresentaties die niet in pixels zijn verankerd, waardoor het moeilijk is om de vooraf getrainde kennis van videomodellen volledig te benutten en de overdracht tussen gezichtspunten en omgevingen wordt beperkt. In dit werk presenteren we Actiebeelden, een verenigd wereldactiemodel dat beleidsleren formuleert als multiview-videogeneratie. In plaats van controle te coderen als laagdimensionale tokens, vertalen we 7-DoF-robotacties naar interpreteerbare actiebeelden: multiview-actievideo's die verankerd zijn in 2D-pixels en de beweging van de robotarm expliciet volgen. Deze in pixels verankerde actierepresentatie stelt de videobackbone zelf in staat om op te treden als een zero-shot-beleid, zonder een aparte beleidskop of actiemodule. Naast controle ondersteunt hetzelfde verenigde model gezamenlijke video-actie-generatie, actie-geconditioneerde videogeneratie en actielabeling onder een gedeelde representatie. Bij evaluaties op RLBench en in de echte wereld behaalt ons model de hoogste zero-shot-succespercentages en verbetert het de kwaliteit van gezamenlijke video-actie-generatie ten opzichte van eerdere wereldmodellen in de videoruimte, wat suggereert dat interpreteerbare actiebeelden een veelbelovende route zijn voor beleidsleren.
MLLM's zijn met succes toegepast op multimodale inbeddingstaken, maar hun generatieve redeneervermogen blijft onderbenut. Het direct integreren van chain-of-thought-redenering in inbeddingsleren brengt twee fundamentele uitdagingen met zich mee. Ten eerste kan structurele misalignering tussen instantieniveau-redenering en paarsgewijze contrastieve supervisie leiden tot shortcut-gedrag, waarbij het model slechts het oppervlakkige formaat van redeneren aanleert. Ten tweede is redeneren niet altijd voordelig voor inbeddingstaken. Het afdwingen van redenering voor alle invoeren kan onnodige rekenkosten en latentie introduceren, en kan zelfs voor eenvoudige gevallen belangrijke semantische signalen vertroebelen. Om deze problemen aan te pakken, stellen wij MMEmb-R1 voor, een adaptief op redenering gebaseerd multimodaal inbeddingsraamwerk. Wij formuleren redenering als een latente variabele en introduceren paar-bewuste redeneerselectie die contrafeitelijke interventie gebruikt om redeneerpaden te identificeren die gunstig zijn voor query-doel-alignering. Verder passen wij reinforcement learning toe om redenering selectief aan te roepen, alleen wanneer dit nodig is. Experimenten op de MMEB-V2-benchmark tonen aan dat ons model een score van 71,2 behaalt met slechts 4B parameters, wat een nieuwe state-of-the-art vestigt terwijl de redeneeroverhead en inferentielatentie aanzienlijk worden verminderd.
Multimodale LLM-agenten die opereren in complexe spelomgevingen moeten voortdurend eerder opgedane ervaring hergebruiken om nieuwe taken efficiënt op te lossen. In dit werk stellen we Echo voor, een transfergericht geheugenkader dat agenten in staat stelt om actiegerichte kennis af te leiden uit eerdere interacties, in plaats van geheugen te behandelen als een passieve opslagplaats van statische gegevens. Om transfer expliciet te maken, ontleedt Echo herbruikbare kennis in vijf dimensies: structuur, attribuut, proces, functie en interactie. Deze formulering stelt de agent in staat om terugkerende patronen die gedeeld worden tussen verschillende taken te identificeren en af te leiden welke eerdere ervaring van toepassing blijft in nieuwe situaties. Voortbordurend op deze formulering, benut Echo In-Context Analogie Leren (ICAL) om relevante ervaringen op te halen en deze aan te passen aan onbekende taken door middel van contextuele voorbeelden. Experimenten in Minecraft tonen aan dat Echo, onder een leeromgeving vanaf nul, een 1,3x tot 1,7x versnelling bereikt bij taken voor het ontgrendelen van objecten. Bovendien vertoont Echo een kettingontgrendelingsfenomeen in de vorm van een uitbarsting, waarbij meerdere vergelijkbare items snel worden ontgrendeld binnen een kort tijdsinterval na het verwerven van overdraagbare ervaring. Deze resultaten suggereren dat ervaringsoverdracht een veelbelovende richting is voor het verbeteren van de efficiëntie en aanpasbaarheid van multimodale LLM-agenten in complexe interactieve omgevingen.
Peer review binnen machine learning staat onder toenemende druk door stijgende aantallen ingediende artikelen en beperkte beoordelaarstijd. De meeste op LLM gebaseerde beoordelingssystemen lezen alleen het manuscript en genereren commentaar op basis van de eigen narratief van het artikel. Hierdoor zijn hun uitvoeren gevoelig voor de presentatiekwaliteit en zijn ze zwak wanneer het benodigde bewijsmateriaal voor de beoordeling ligt in gerelateerd werk of vrijgegeven code. Wij presenteren FactReview, een op bewijsmateriaal gebaseerd beoordelingssysteem dat claimextractie, positionering binnen de literatuur en op executie gebaseerde claimverificatie combineert. Gegeven een ingediend artikel identificeert FactReview de belangrijkste claims en gerapporteerde resultaten, haalt verwant werk op om de technische positie van het artikel te verduidelijken, en voert – indien code beschikbaar is – de vrijgegeven repository uit binnen begrote budgetten om centrale empirische claims te testen. Vervolgens produceert het een beknopte review en een bewijsrapport dat elke hoofdclaim voorziet van een van vijf labels: **Ondersteund**, **Ondersteund door het artikel**, **Gedeeltelijk ondersteund**, **In tegenspraak**, of **Niet-conclusief**. In een casestudy over CompGCN reproduceert FactReview resultaten die nauw aansluiten bij de gerapporteerde resultaten voor link prediction en node classification, maar toont ook aan dat de bredere prestatieclaim van het artikel over taken heen niet volledig standhoudt: voor MUTAG-grafclassificatie is het gereproduceerde resultaat 88,4%, terwijl de sterkste baseline in het artikel 92,6% blijft. De claim is daarom slechts gedeeltelijk ondersteund. In bredere zin suggereert deze casus dat AI het nuttigst is in peer review niet als eindbeslisser, maar als een hulpmiddel voor het verzamelen van bewijsmateriaal en het helpen van beoordelaars om meer op bewijs gebaseerde beoordelingen te produceren. De code is openbaar op https://github.com/DEFENSE-SEU/Review-Assistant.
Coderende agenten verbruiken herhaaldelijk lange toolobservaties, ookal slechts een klein deel van elke observatie relevant is voor de volgende stap. Wij bestuderen taakgeconditioneerde tooloutput-pruning: gegeven een gefocuste query en één tooloutput, retourneer het kleinste letterlijke bewijsblok dat de agent vervolgens zou moeten inspecteren. Wij introduceren een benchmark van 11.477 voorbeelden, opgebouwd uit SWE-bench repository-interacties en synthetische multi-ecosysteem tooloutputs, met een handmatig samengestelde testset van 618 voorbeelden. Wij fine-tunen Qwen 3.5 2B met LoRA en vergelijken het met grotere zero-shot modellen en heuristische pruning-baselines. Ons model bereikt een recall van 0.86 en een F1-score van 0.80 terwijl het 92% van de invoertokens verwijdert, en presteert daarmee 11 recall-punten beter dan zero-shot Qwen 3.5 35B A3B en aanzienlijk beter dan alle heuristische baselines.
Grote Taalmodellen (LLM's) behalen sterke prestaties bij programmareparatie, maar lijden vaak aan overmatige bewerking, waarbij excessieve wijzigingen correcte code overschrijven en buglokalisatie belemmeren. Wij kwantificeren systematisch de impact hiervan en introduceren de precieze reparatietaak, waarbij het hergebruik van correcte code wordt gemaximaliseerd terwijl alleen de foutieve delen worden gerepareerd. Voortbouwend op dit inzicht stellen wij PRepair voor, een raamwerk dat overbewerking vermindert en de reparatienauwkeurigheid verbetert. PRepair heeft twee componenten: Self-Breaking, dat diverse foutieve programma's genereert via gecontroleerde buginjectie en min-max sampling, en Self-Repairing, dat modellen traint met Edit-Aware Group Relative Policy Optimization (EA-GRPO) met behulp van een bewerkingsbewuste beloning om minimale doch correcte bewerkingen aan te moedigen. Experimenten tonen aan dat PRepair de reparatienauwkeurigheid met tot 31,4% verbetert onder fix_1@1, een metriek die zowel reparatienauwkeurigheid als -omvang gezamenlijk beschouwt, en de decodeersnelheid aanzienlijk verhoogt in combinatie met speculatieve bewerking, wat het potentieel aantoont voor precieze en praktische codereparatie.
Graphics Program Synthesis is cruciaal voor het interpreteren en bewerken van visuele data, en vergemakkelijkt effectief het reverse-engineeren van statische beelden naar bewerkbare TikZ-code. Hoewel TikZ de facto de standaard is voor wetenschappelijke schema's vanwege zijn programmeerflexibiliteit, vormt de vereiste van rigoureuze ruimtelijke precisie een aanzienlijke uitdaging voor Multimodale Large Language Models. De vooruitgang wordt momenteel belemmerd door twee primaire tekortkomingen: (1) *Data Quality Gap*: bestaande beeld-TikZ-corpora missen vaak strikte uitvoerbaarheid en betrouwbare visuele alignering; (2) *Evaluation Gap*: een gebrek aan benchmarks voor zowel structurele als visuele geloofwaardigheid. Om deze problemen aan te pakken, presenteren we een *closed-loop* raamwerk met: **SciTikZ-230K**, een grootschalige, hoogwaardige dataset van onze *Execution-Centric Data Engine* die 11 diverse wetenschappelijke disciplines beslaat; **SciTikZ-Bench**, een veelzijdige benchmark die reikt van basale geometrische constructies tot complexe hiërarchische schema's om zowel visuele geloofwaardigheid als structurele logica te evalueren. Om de reikwijdte van de *visual-code* optimalisatiemethodologie verder te verbreden, introduceren we een nieuw *Dual Self-Consistency Reinforcement Learning* optimalisatieparadigma, dat *Round-Trip Verification* gebruikt om degeneratieve code te bestraffen en de algehele zelfconsistentie te verhogen. Gesterkt door deze elementen behaalt ons getrainde model **SciTikZer-8B** state-of-the-art prestaties, en presteert het consistent beter dan propriëtaire reuzen zoals Gemini-2.5-Pro en massieve modellen zoals Qwen3-VL-235B-A22B-Instruct.
Grote Taalmodellen (LLM's) tonen potentieel in het simuleren van menselijk gedrag, maar bestaande agents vertonen vaak gedragsrigiditeit, een tekortkoming die veelal wordt gemaskeerd door de zelfreferentiële bias van huidige "LLM-als-rechter"-evaluaties. Door te evalueren tegen empirische grondwaarden onthullen we een contra-intuïtief fenomeen: het intensiveren van prompt-gestuurd redeneren verbetert de geloofwaardigheid niet, maar verergert juist waardepolarisatie en doet populatiediversiteit instorten. Om dit aan te pakken, stellen we de Context-Waarde-Actie (CVA)-architectuur voor, gebaseerd op het Stimulus-Organisme-Respons (S-O-R) model en de Theorie van Basis Menselijke Waarden van Schwartz. In tegenstelling tot methoden die vertrouwen op zelfverificatie, ontkoppelt CVA actiegeneratie van cognitief redeneren via een nieuwe Waarde-Verificateur, getraind op authentieke menselijke data om expliciet dynamische waardactivering te modelleren. Experimenten op CVABench, dat meer dan 1,1 miljoen real-world interactiesporen omvat, tonen aan dat CVA baseline-methoden significant overtreft. Onze aanpak vermindert polarisatie effectief en biedt superieure gedragsfideliteit en interpreteerbaarheid.
Mixture-of-Experts (MoE) large language models (LLM's) behoren tot de best presterende architecturen. De grootste modellen, vaak met honderden miljarden parameters, vormen aanzienlijke geheugenuitdagingen voor implementatie. Traditionele benaderingen om de geheugenvereisten te verminderen omvatten gewichtspruning en kwantisatie. Geïnspireerd door Router-weighted Expert Activation Pruning (REAP) dat experts pruneert, stellen we een nieuwe methode voor, Router-weighted Expert Activation Merging (REAM). In plaats van experts te verwijderen, groepeert REAM ze en fuseert hun gewichten, waardoor de oorspronkelijke prestaties beter behouden blijven. We evalueren REAM tegenover REAP en andere baseline-methoden voor meerdere MoE LLM's op diverse multiple-choice (MC) vraag-antwoord- en generatieve (GEN) benchmarks. Onze resultaten onthullen een afweging tussen MC- en GEN-prestaties die afhangt van de samenstelling van de calibratiegegevens. Door de mix van algemene, wiskundige en programmeergegevens te controleren, onderzoeken we de Pareto-grens van deze afweging en tonen we aan dat REAM vaak de baseline-methoden overtreft en in veel gevallen vergelijkbaar is met de oorspronkelijke ongecomprimeerde modellen.
Naarmate taalmodellen verschuiven van het genereren van antwoorden in één stap naar meerstaps redeneren waarbij bewijs wordt opgehaald en verwerkt tijdens de inferentie, wordt de evaluatie van de rol van individuele opgehaalde items belangrijker. Bestaande RAG-evaluatie richt zich doorgaans op de kwaliteit van het eindantwoord, de geloofwaardigheid van citaten of attributie op antwoordniveau, maar geen van deze richt zich direct op de op interventie gebaseerde, utiliteitsvisie per bewijsitem die wij hier bestuderen. Wij introduceren CUE-R, een lichtgewicht, op interventie gebaseerd raamwerk voor het meten van de operationele utility per bewijsitem in single-shot RAG met behulp van oppervlakkige, observeerbare sporen van retrieval-gebruik. CUE-R verstoort individuele bewijsitems via REMOVE-, REPLACE- en DUPLICATE-operatoren, en meet vervolgens veranderingen langs drie utility-assen (correctheid, op proxy's gebaseerde grondigheid, en fout in vertrouwen) plus een signaal voor spoor-divergentie. We schetsen ook een operationele taxonomie van bewijsrollen voor het interpreteren van interventieresultaten. Experimenten op HotpotQA en 2WikiMultihopQA met Qwen-3 8B en GPT-5.2 onthullen een consistent patroon: REMOVE en REPLACE schaden de correctheid en grondigheid aanzienlijk en veroorzaken grote verschuivingen in de sporen, terwijl DUPLICATE vaak antwoord-redundant is maar niet volledig gedragsneutraal. Een zero-retrieval controle bevestigt dat deze effecten voortkomen uit de degradatie van betekenisvolle retrieval. Een two-support ablatie toont verder aan dat multi-hop bewijsitems niet-additief kunnen interacteren: het verwijderen van beide ondersteuningen schaadt de prestaties veel meer dan het verwijderen van slechts één. Onze resultaten suggereren dat evaluatie uitsluitend op het antwoord belangrijke bewijseffecten mist, en dat utility-analyse op basis van interventies een praktische aanvulling is voor RAG-evaluatie.
Het modelleren van langetermijn ruimtelijk-temporele dynamiek in functionele Magnetic Resonance Imaging (fMRI) blijft een grote uitdaging vanwege de hoge dimensionaliteit van de vierdimensionale signalen. Bestaande voxelgebaseerde modellen, hoewel ze uitstekende prestaties en interpretatiemogelijkheden vertonen, worden beperkt door buitensporige geheugeneisen en kunnen daardoor slechts beperkte temporele vensters vastleggen. Om dit aan te pakken, stellen we TABLeT voor (Two-dimensionally Autoencoded Brain Latent Transformer), een nieuwe aanpak die fMRI-volumes tokeniseert met behulp van een vooraf getrainde 2D-natuurbeeld-auto-encoder. Elk 3D-fMRI-volume wordt gecomprimeerd tot een compacte set continue tokens, waardoor modellering van lange sequenties mogelijk wordt met een eenvoudige Transformer-encoder met beperkt VRAM. Op grootschalige benchmarks, waaronder de UK-Biobank (UKB), het Human Connectome Project (HCP) en de ADHD-200-datasets, presteert TABLeT beter dan bestaande modellen bij meerdere taken, en laat het aanzienlijke winst zien in reken- en geheugenefficiëntie vergeleken met de state-of-the-art voxelgebaseerde methode bij dezelfde invoer. Verder ontwikkelen we een zelfgesuperviseerde aanpak voor gemaskeerde tokenmodellering om TABLeT voor te trainen, wat de prestaties van het model voor verschillende downstreamtaken verbetert. Onze bevindingen suggereren een veelbelovende aanpak voor schaalbare en interpreteerbare ruimtelijk-temporele modellering van hersenactiviteit. Onze code is beschikbaar op https://github.com/beotborry/TABLeT.
Diffusie-taalmmodellen (DLM's) maken parallelle, niet-autoregressieve tekstgeneratie mogelijk, maar bestaande DLM mixture-of-experts (MoE) modellen erven token-choice (TC) routering van autoregressieve systemen, wat leidt tot belastingsonbalans en rigide compute-toewijzing. Wij tonen aan dat expert-choice (EC) routering beter geschikt is voor DLM's: het biedt door ontwerp deterministische belastingsbalancering, wat een hogere doorvoer en snellere convergentie oplevert dan TC. Voortbouwend op de eigenschap dat EC-capaciteit extern aanstuurbaar is, introduceren we tijdstap-afhankelijke expertcapaciteit, die de experttoewijzing varieert volgens de denoisingsstap. Wij constateren dat het toewijzen van meer capaciteit aan stappen met een lage maskerratio consequent de beste prestaties bereikt bij gelijke FLOPs, en geven een mechanistische verklaring: tokens in contexten met een lage maskerratio vertonen een leerefficiëntie die een orde van grootte hoger ligt, waardoor het concentreren van compute op deze stappen het grootste marginale rendement oplevert. Ten slotte tonen we aan dat bestaande voorgetrainde TC DLM's kunnen worden omgebouwd naar EC door alleen de router te vervangen, wat snellere convergentie en verbeterde nauwkeurigheid oplevert bij diverse downstreamtaken. Samen vestigen deze resultaten EC-routering als een superieur paradigma voor DLM MoE-modellen en demonstreren ze dat compute in DLM's kan worden behandeld als een adaptief beleid in plaats van een vaste architecturale constante. Code is beschikbaar op https://github.com/zhangshuibai/EC-DLM.