Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De router is het fundamentele onderdeel van Mixture-of-Experts-modellen. Als expert-proxy's berekenen de rijen van de routermatrix hun overeenkomst met de MoE-ingangen om te bepalen welke subset van experts wordt geactiveerd. Idealiter is elke routerrij ontworpen om de expertmatrix te coderen in deze representatieve vector, zodat het inwendige product met de token de token-expert-affiniteit beter kan weergeven. Er bestaan echter geen ontwerpprincipes om deze condensatie af te dwingen. In dit artikel stellen we voor om elke routerrij uit te lijnen met de principale singuliere richting van de bijbehorende expert, aangezien deze richting de meest expressieve wiskundige beschrijving van een matrix biedt. Op basis van dit principe stellen we een herontwerp van de router voor met Manifold Power Iteration (MPI). Specifiek introduceert het een 'Power-then-Retract'-paradigma, waarbij een power-iteratiestap wordt uitgevoerd op de routergewichten, gevolgd door een retractie om een normbeperking op te leggen om zowel efficiëntie als stabiliteit te waarborgen. Theoretisch tonen we aan dat MPI routerrijen laat convergeren naar de principale singuliere richtingen van bijbehorende experts. Empirisch pretrainen we MoE-modellen over schalen van 1B tot 11B parameters om te bevestigen dat deze uitlijning effectievere MoE-modellen mogelijk maakt.
Wetenschappelijke vooruitgang is afhankelijk van een herhaalde cyclus van exploratie, experimentatie en abstractie. Onderzoekers testen kandidaatrichtingen, interpreteren het bewijsmateriaal en nemen de resulterende lessen mee naar latere pogingen. We bestuderen hoe een AI-agent deze cyclus autonoom kan uitvoeren over lange tijdsperioden. We introduceren Arbor, een algemeen raamwerk voor autonoom onderzoek dat een langlevende coördinator, kortlevende uitvoerders en Hypothesis Tree Refinement (HTR) combineert: een persistente boom die hypothesen, artefacten, bewijs en gedistilleerde inzichten door de tijd heen verbindt. De coördinator beheert de globale onderzoeksstrategie over de boom, terwijl uitvoerders individuele hypothesen implementeren en testen in geïsoleerde werkbomen. Wanneer resultaten terugkomen, werkt Arbor de boom bij, verspreidt herbruikbare lessen, verfijnt de zoekgrens en neemt geverifieerde verbeteringen op. Dit ontwerp verandert autonoom onderzoek van een reeks lokale pogingen in een cumulatief proces waarin strategie, uitvoering en bewijs door de tijd heen worden meegenomen. We evalueren Arbor onder Autonomous Optimization (AO), een operationele setting waarin een agent een initieel onderzoeksartefact verbetert door iteratief experimenteren zonder stapsgewijze menselijke supervisie. Over zes echte onderzoekstaken op het gebied van modeltraining, harness engineering en datasynthese behaalt Arbor het beste held-out resultaat op alle zes taken, met meer dan 2,5 keer de gemiddelde relatieve held-out winst van Codex en Claude Code onder dezelfde taakinterface en middelenbudget. Op MLE-Bench Lite bereikt Arbor 86,36% Any Medal met GPT-5.5, het sterkste resultaat in onze vergelijking.
Omgevingen fungeren als interactieve systemen voor op grote taalmodellen (LLM) gebaseerde agenten in diverse scenario's en spelen een cruciale rol in het aandrijven van de voortdurende evolutie van modelcapaciteiten. Ondanks dit belang ontbreekt het in bestaand werk aan een systematische categorisering en diepgaande analyse. Dit artikel bestudeert systematisch het huidige onderzoek naar agentomgevingen vanuit het perspectief van de levenscyclus van omgevingsengineering, waarbij de nadruk ligt op hun modellering, synthese, evaluatie en toepassing. Specifiek introduceert het artikel eerst representatieve omgevingen vanuit het perspectief van acht kenmerken en acht domeinen, met gedetailleerde analyses van hun ontwikkelingspaden en een belichting van hun kerncapaciteiten. Ten tweede worden er voor geautomatiseerde omgevingssynthese twee paradigma's geïntroduceerd, zoals symbolische synthese en neurale synthese. Dit artikel toont ook verschillende evaluatiemethoden voor omgevingen binnen elk paradigma. Ten derde worden de bijbehorende omgevingstoepassingen besproken vanuit het perspectief van co-evolutie van agent en omgeving. Specifiek kenmerkt het artikel de primaire paden voor agente-evolutie in dynamische omgevingen vanuit vier complementaire perspectieven: geheugengerichte ervaringsevolutie, orkestratiegerichte workflow-evolutie, trajectgerichte offline evolutie en exploratiegerichte online evolutie. Daarnaast worden drie paradigma's van omgevingsevolutie geïdentificeerd, namelijk neuraal gestuurde, moeilijkheidsgestuurde en schalingsgestuurde benaderingen. Tot slot worden enkele veelbelovende toekomstige richtingen besproken, waaronder Omgeving-als-een-Dienst, Multi-agentomgevingen en Neuraal-Symbolische Omgevingen.
Algemene agenten zoals OpenClaw worden steeds vaker ingezet als autonome toolgebruikers, maar hun codeervaardigheid is moeilijk te meten onder SWE-bench: een generieke agent voldoet op zichzelf niet aan het schone Docker-werkruimte-, patch- en predictiecontract dat nodig is voor scoring. We introduceren Claw-SWE-Bench, een meertalige benchmark in SWE-bench-stijl en een adapterprotocol dat heterogene agent-harnesses, ofwel klauwen, vergelijkbaar maakt onder eerlijke omstandigheden, waaronder een vast prompt, runtime-budget, werkruimtecontract, patchextractieprocedure en evaluator. De volledige benchmark bevat 350 GitHub-issue-oplossingsinstanties in 8 talen en 43 repositories, afkomstig van SWE-bench-Multilingual en SWE-bench-Verified-Mini na opschoning van toekomstige commits. We brengen ook Claw-SWE-Bench Lite uit voor snellere validatie, een subset van 80 instanties geselecteerd via een kostenbewuste, rangbewuste procedure over 17 kalibratiekolommen. Op de volledige benchmark scoort OpenClaw met een minimale direct-diff-adapter slechts 19,1% Pass@1, terwijl de volledige adapter 73,4% bereikt met dezelfde GLM 5.1-backbone, wat aantoont dat adapterontwerp essentieel is om OpenClaw-achtige harnesses in staat te stellen codeertaken effectief uit te voeren. In een OpenClaw maal negen-model sweep en een vijf-klauw maal twee-model sweep verandert modelkeuze de Pass@1 met 29,4 procentpunt en harnesskeuze met 27,4 procentpunt bij vaste modellen; systemen met vergelijkbare nauwkeurigheid kunnen aanzienlijk verschillen in totale API-kosten. Claw-SWE-Bench behandelt daarom harness- en kostentoerekening als eersteklas assen van SWE-achtige codeeragent-evaluatie en biedt zowel een volledige benchmark als een goedkope referentieset voor reproduceerbare vergelijking. De gegevens zijn beschikbaar op https://github.com/opensquilla/claw-swe-bench en https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.
Beloningsmodellen staan centraal in de nabewerking van tekst-naar-beeld, maar visuele voorkeur is subjectief en kan beter worden weergegeven als een verdeling over rubricscores dan als een deterministische scalar. Bestaande scalaire, scoretoken- en paarsgewijze beloningsmodellen comprimeren onzekerheid en fijnmazige scoreverschillen te veel, terwijl redeneergebaseerde generatieve beloningen sterkere oordelen geven, maar duur zijn om in te zetten en moeilijk te gebruiken als directe optimalisatiesignalen. Wij stellen Z-Reward voor, een teacher-student beloningsmodelleringsraamwerk dat redeneerintensieve oordeelvorming loskoppelt van efficiënte beloningsinzet. De teacher is een groot VLM dat redenering gebruikt om rubric-afgestemde scoreverdelingen af te leiden en wordt getraind met Group-wise Direct Score Optimization (GDSO), dat policy-gradient beloningen uit distributieverwachtingen combineert met directe puntsgewijze en paarsgewijze supervisie op scoreverdelingen en scoreverschillen. De student wordt getraind met Reasoning-Internalized Score Distillation (RISD), dat de redeneerafhankelijke scoreverdeling van de teacher overdraagt naar een compact VLM zonder dat er expliciete redeneerketens nodig zijn bij inferentie. Op onze intern geannoteerde evaluatieset bereikt de 27B GDSO teacher een nauwkeurigheid van 89,6% in menselijke voorkeur en presteert daarmee beter dan SFT, RewardDance en GRPO, terwijl de 9B RISD student 88,6% bereikt, beter dan de OPD-baseline en dicht bij de grotere teacher. We laten verder zien dat Z-Reward kan dienen als een differentieerbaar beloningssignaal voor tekst-naar-beeld optimalisatie, wat een netto verbetering van 41,3% in menselijke voorkeur oplevert ten opzichte van de SFT-baseline.
Tabulaire encoders worden gewoonlijk geëvalueerd binnen taakspecifieke end-to-end-pijplijnen, waardoor modellen uit verschillende trainingsparadigma's moeilijk direct te vergelijken zijn, zelfs wanneer ze op vergelijkbare tabulaire signalen werken. Wij introduceren TRL-Bench, een multi-granulaire benchmark voor tabulaire representatie learning (TRL) die de evaluatie op representatieniveau over paradigma's heen standaardiseert: elke encoder exporteert rij-, kolom- of tabelembeddings via de ondersteunde wrapper, en gedeelde lichtgewicht koppen onderzoeken deze in drie suites: TRL-CTbench (kolom/tabel), TRL-Rbench (rij) en TRL-DLTE (compositionele Data-Lake Table Enrichment die alle drie granulariteiten beslaat). Om deze gestandaardiseerde setting te ondersteunen, geven we samengestelde benchmark-assets en taakherformuleringen vrij, waaronder 50 OpenML-tabellen met 123 geverifieerde doelen, 16 herschrijvingen voor rij-paarkoppeling, en een DLTE-lake van 47.772 tabellen afgeleid van 1.379 moedertabellen. Over 20 modellen en 16 taken toont TRL-Bench aan dat, zodra de downstream-condities zijn gestandaardiseerd, de encoderkwaliteit capaciteitsspecifiek is en niet wordt vastgelegd door een enkele ranglijst. In TRL-CTbench presteren generieke tekst-encoders vaak het best op taken met een sterk oppervlakte-tekstsignaal, terwijl tabulaire specialisten winnen waar hun pretrainingdoelstelling overeenkomt met de taak. In TRL-Rbench bevoordelen voorspellingen binnen dezelfde tabel en koppelingen tussen tabellen verschillende trainingsregimes, waarbij de prestatie van atomaire koppeling sterk correleert met de rij-matchingsfase van DLTE-pijplijnen. In TRL-DLTE combineren de sterkste pijplijnen capaciteit-gematchte specialisten in plaats van één enkele encoder te hergebruiken, en hangt de hoogste end-to-end kwaliteit af van niet-additieve compositionele fit, niet alleen van marginale rang per fase. TRL-Bench biedt een gemeenschappelijk protocol voor het meten van herbruikbaar signaal in geëxporteerde tabulaire representaties onder gedeelde downstream-condities. Code en data: https://github.com/LOGO-CUHKSZ/TRL-Bench
Ruimtelijk redeneren op basis van egocentrische video's is inherent uitdagend omdat het waarneembare bewijs wordt beperkt door het cameratraject. Bestaande methoden vertrouwen op eenmalige inferentie, waardoor modellen worden gedwongen geometrische ambiguïteit op te lossen via semantische voorkennis in plaats van verifieerbaar bewijs. Wij stellen dat ruimtelijk redeneren herzienbaar moet zijn: conclusies die worden gevormd op basis van beperkt bewijs moeten open blijven voor herziening wanneer complementaire gezichtspunten beschikbaar komen. Voortbouwend op dit inzicht stellen wij Reason, then Re-reason (ReRe) voor, een trainingsvrij, inferentie-tijdraamwerk met twee fasen: in de Reason-fase vormt een MLLM een ruimtelijke hypothese op basis van de originele video; in de Re-reason-fase verifieert of herziet het de hypothese door een gesynthetiseerde nieuw-zichtvideo te observeren. Om effectieve kruislingse herziening mogelijk te maken, ontwerpen we een Geometry-to-Video-pijplijn die strategisch complementaire nieuwe gezichtspunten weergeeft op basis van voorspelde 3D-geometrie. Deze gezichtspunten kenmerken zich door een verhoogd, schuin perspectief met scènedekkende reikwijdte, terwijl de oorspronkelijke video-interface van de MLLM behouden blijft zonder architecturale aanpassingen. Uitgebreide evaluaties op VSI-Bench en STI-Bench tonen aan dat ReRe opensource-MLLM's aanzienlijk verbetert, zodat ze kunnen concurreren met propriëtaire state-of-the-art prestaties. Projectpagina: https://zhenjiemao.github.io/ReRe/
Naarmate de mogelijkheden van op LLM gebaseerde code-agenten blijven toenemen, breidt hun verwachte rol zich uit van gelokaliseerde bugfixes in bestaande codebases naar het ontwerpen en implementeren van volledige software-repositories op basis van specificaties op hoog niveau. Het trainen van agenten voor dergelijke langdurige software engineering taken blijft echter moeilijk vanwege de schaarste aan grootschalige, verifieerbare data voor het genereren van volledige repositories. In dit artikel introduceren we DeNovoSWE, een grootschalige dataset voor het genereren van volledige repositories. DeNovoSWE omvat 4.818 hoogwaardige instanties, waarbij elke instantie vereist dat een complete repository wordt gegenereerd op basis van documentatie. Onze dataset wordt automatisch geconstrueerd via een zorgvuldig ontworpen gesandboxte agentische workflow, wat schaalbare curatie mogelijk maakt zonder menselijke annotatie. DeNovoSWE is gebouwd met een 'verdeel en heers'- en kritiek-reparatie filosofie. Om datakwaliteit en -diversiteit in evenwicht te brengen, introduceren we verder een moeilijkheidsbewuste trajectfilteringsstrategie. Fine-tuning van Qwen3-30B-A3B op DeNovoSWE verbetert de prestaties op het gebied van langdurige SWE aanzienlijk, waarbij de score op de uitdagende BeyondSWE-Doc2Repo-benchmark stijgt van 5,8% naar 47,2%.
Visie-Taal-Actie (VLA)-modellen erven semantische verankering van grootschalige voorafgaande training en presteren bekwaam in manipulatietaken binnen de verdeling. Deze verankering is echter gebaseerd op statische beeld-tekstparen, terwijl manipulatie een continu, contactrijk proces is waarvan de dynamiek niet door deze voorafgaande training kan worden vastgelegd. We presenteren World Pilot, een VLA-raamwerk dat het beleid verrijkt met priori uit een Wereld-Actie Model (WAM), dat via twee complementaire paden in de beslissingsketen wordt geleid. Latente Sturing conditioneert de perceptielaag op een latent van scène-evolutie, en Actiesturing levert een verwachte trajectorie als bewegingsprior voor de actiegenerator. Samen voorzien de twee priori de VLA van een verwacht beeld van de scène en een trajectorie-niveau bewegingshint naast de semantische conditionering, en de scène-evolutieprior blijft effectief, zelfs wanneer geleverd door een op video voorgetraind wereldmodel dat niet actie-nabewerkt is. World Pilot behaalt een state-of-the-art Totaal succespercentage van 84,7% op de LIBERO-Plus zero-shot OOD-benchmark en het hoogste succespercentage in elke echte robotomgeving bij vier manipulatie taken, met de grootste marges onder verschuivingen in gezichtspunt, geometrie, vervormbare toestand en pose. Projectwebsite: https://world-pilot.github.io/
Transformers domineren moderne sequentiemodellering, maar hun kwadratische aandacht brengt aanzienlijke rekenkosten met zich mee. Subkwadratische architecturen bieden een schaalbaar alternatief. Het blijft echter onduidelijk welke ontwerpen de meest effectieve sequentiemodellen opleveren. We vergelijken drie toonaangevende benaderingen: xLSTM, Mamba-2 en Gated DeltaNet. We evalueren deze modellen op taken met complexe afhankelijkheden: (1) pre-training van codemodellen, (2) distillatie van codemodellen uit grote taalmodellen, en (3) pre-training van funderingsmodellen voor tijdreeksen. In al deze omgevingen levert xLSTM de sterkste algehele prestaties. Om het voordeel van xLSTM te verklaren, presenteren we een uniforme formulering en analyseren we de onderliggende architectuurmechanismen, met de focus op toestandsregistratie en geheugendynamiek. Onze resultaten tonen aan dat xLSTM flexibelere en stabielere geheugencorrectie mogelijk maakt via zijn gating-schema. We bevestigen deze bevindingen op gecontroleerde synthetische lengtegeneralizatietaken. Over het algemeen wijzen onze bevindingen erop dat de winst van xLSTM op complexe taken voortkomt uit robuuste toestandsregistratie en accumulatie.
Combinatoriek staat centraal in het oplossen van wiskundige problemen op olympiadeniveau, waarbij diepgaand discreet redeneren, creatieve constructies en rigoureus structureel inzicht vereist zijn. Recent bewijs suggereert dat zelfs de sterkste frontiermodellen van vandaag nog steeds ongelijkmatig presteren op olympiadecombinatoriek, wat een kloof in creatief wiskundig redeneren aan het licht brengt. Wij introduceren ComBench, een combinatoriekbenchmark op olympiadeniveau voor het evalueren en diagnosticeren van de combinatorische redeneervaardigheden van grote taalmodellen. ComBench bevat 100 door mensen geannoteerde problemen op wedstrijdniveau, georganiseerd rond twee complementaire instellingen: analysegerichte problemen, die voornamelijk rigoureuze wiskundige argumenten vereisen, en constructiegerichte problemen, die expliciete constructies vereisen naast verantwoording van de juistheid. Het evaluatieprotocol combineert rubric-gestuurde bewijswaardering met deterministische constructieverificatie, waarbij gevallen aan het licht komen waar bewijskwaliteit en constructievaliditeit uiteenlopen. Experimenten met frontiermodellen met open en gesloten broncode tonen aan dat ComBench verre van verzadigd is: het sterkste model bereikt 65,4% overall gemiddelde en 75,3% overall Best@4. Wij ontdekken verder dat Rigoureus Bewijs Redeneren en Constructieve Realisatie verschillende vaardigheden zijn: Kimi-K2.6 blijft achter bij GPT-5.5 op analysegerichte bewijswaardering, maar overtreft het op constructiegerichte Best@4, terwijl Existentie- en Constructieproblemen consequent het moeilijkst blijven bij representatieve frontiermodellen.
De recente vooruitgang in funderingsmodellen is verschoven richting agentisch gedrag, waarbij meervoudige redeneerstappen en het gebruik van hulpmiddelen centraal staan. Open-source inspanningen richten zich echter voornamelijk op tekstdominante omgevingen, waardoor langdurige multimodale taken onderbelicht blijven. Deze lacune is duidelijk zichtbaar bij videotaken die een aanhoudend temporeel begrip en iteratieve interactie vereisen. We presenteren InternVideo3, een raamwerk dat deze mogelijkheden versterkt via Multimodale Contextuele Redenering (MCR). MCR beschouwt begrip als een gesloten-lus proces over een gedeelde, evoluerende context die observaties, instructies, redeneringen, toolacties en geheugen omvat. Dit kadert het begrijpen van lange video’s als het accumuleren en verifiëren van bewijs. Om efficiëntie te waarborgen, introduceren we Multimodale Multi-head Latente Aandacht (M^2LA), een token-bewarende herparametrisering die KV-cache-toestanden comprimeert terwijl de volledige tokenstroom behouden blijft. Onze gefaseerde training omvat voortgezette voortraining, kort-naar-lang gesuperviseerd finetunen, op regels gebaseerde reinforcement learning en on-policy distillatie. Experimenten tonen aan dat InternVideo3 sterke prestaties levert op benchmarks zoals Video-MME, MLVU en EgoSchema. We instantieren het model verder als een video-agent met zoekhulpmiddelen, wat robuust, op bewijs gebaseerd gedrag demonstreert. Onze resultaten suggereren dat efficiënte contextverwerking en gesloten-lus redenering essentieel zijn voor het aanpassen van open multimodale modellen aan langdurige, visueel gefundeerde agentische capaciteiten.
Grote Taalmodellen (Large Language Models, LLM’s) worden steeds vaker gebruikt voor het genereren van code, wat de zorg oproept dat ze misbruikt kunnen worden om kwaadaardige code te produceren. Tegelijkertijd wordt Grammatica-Gebonden Decodering (Grammar-Constrained Decoding, GCD) breed toegepast om de betrouwbaarheid van door LLM’s gegenereerde code te verbeteren door syntactische geldigheid af te dwingen. In dit artikel onthullen we een tegenintuïtief risico: deze op betrouwbaarheid gerichte techniek kan zelf een aanvalsoppervlak worden. We ontdekken een nieuwe jailbreak-aanval, genaamd CodeSpear, die GCD misbruikt om LLM’s ertoe aan te zetten kwaadaardige code te genereren. Onze experimenten tonen aan dat het simpelweg toepassen van een onschuldige grammaticabeperking voor code LLM’s effectief kan jailbreaken. Om deze kwetsbaarheid aan te pakken, stellen we CodeShield voor, een veiligheidsafstemmingsaanpak die veilig gedrag robuust behoudt, zelfs onder door aanvallers gecontroleerde grammaticabeperkingen. CodeShield stemt het model af in de codemodaliteit door het te leren honeypot-code te genereren onder GCD. Dergelijke code is semantisch onschadelijk, zodat het de kwaadaardige aanvraag niet implementeert, en structureel divers, zodat het moeilijk te onderdrukken is door aanscherping van de grammatica. Tegelijkertijd behoudt CodeShield weigeringen in natuurlijke taal wanneer natuurlijke taal beschikbaar is. Experimenten op 10 populaire LLM’s over 4 benchmarks laten zien dat CodeSpear representatieve jailbreak-baselines overtreft en het aanvalsuccespercentage gemiddeld met meer dan 30 procentpunten verhoogt. CodeShield herstelt ook de veiligheid onder CodeSpear, terwijl het onschadelijk nut behouden blijft. Onze bevindingen onthullen een fundamenteel risico van GCD en roepen op tot meer aandacht voor de mogelijke beveiligingsimplicaties ervan.
Reinforcement learning (RL) is een essentieel onderdeel geworden van moderne grote taalmodellen, maar de uitrolfase blijft de grootste bottleneck in RL-trainingspijplijnen. Hoewel Meer-Token Voorspelling (MTP) een natuurlijke oplossing biedt om uitrol te versnellen via speculatieve decodering, laten veel studies zien dat MTP-acceptatiepercentages tijdens RL-training aanzienlijk dalen, wat leidt tot beperkte snelheidswinst. Om deze bottleneck aan te pakken presenteren wij Bebop, een systematische studie van MTP in de post-training van grote taalmodellen, en bieden praktische recepten om MTP te integreren in grootschalige RL-pijplijnen. Ten eerste tonen we aan dat het MTP-acceptatiepercentage fundamenteel wordt begrensd door de fluctuatie van modelentropie, die een duidelijke negatieve lineaire relatie vertoont met de stijging van entropie in de RL-fase. Ten tweede laten we zien dat probabilistische verwerpingssteekproef de verstoring door entropie in RL grotendeels vermindert in vergelijking met greedy ontwerpsteekproef. Verder identificeren we dat de conventionele MTP-trainingsdoelen (kruisentropie of KL) suboptimaal zijn in dergelijke settings, en daarom stellen we een nieuw end-to-end TV-verlies voor dat direct het acceptatiepercentage van meerstapsverwerpingssteekproef optimaliseert, wat leidt tot een verbetering van ~10% in acceptatiepercentage, met tot 95% acceptatiepercentages en tot 25% extra inferentiedoorvoerwinst voor wiskundig redeneren, codegeneratie en agentische taken. Ten derde testen we verschillende online MTP-trainingsstrategieën tijdens RL en tonen aan dat pre-RL MTP-training met end-to-end TV-verlies en verwerpingssteekproef een consistent acceptatiepercentage en snelheidswinst gedurende de gehele RL handhaaft, waardoor de noodzaak voor kostbare online MTP-updates verdwijnt. We leveren uitgebreide experimenten en analyses die onze bevindingen valideren. Experimentele resultaten tonen aan dat onze methode tot 1,8x end-to-end versnelling behaalt in asynchrone RL-training van Qwen3.5-, Qwen3.6- en Qwen3.7-modellen.
Reinforcement learning met verifieerbare beloningen (RLVR) is een veelbelovende aanpak voor het verbeteren van redeneren en agentisch gedrag in grote taalmodellen. Uitrolintensieve beleidsoptimalisatie wordt echter vaak beperkt door onvoldoende beloningscontrast, wat ontstaat wanneer te eenvoudige of te complexe prompts feedback met lage variantie genereren en wanneer uitkomst-alleen-beloningen aan elke beslissing in een meerstapsuitrol dezelfde eindbeoordeling toekennen. Eerdere inspanningen waren gericht op het toewijzen van beschikbare uitrolmiddelen aan veelbelovende prompts, maar ze benutten alleen de informatieve waarde van steekproeven op promptniveau en negeren variatie in prefix-niveau informatieve waarde tussen stappen binnen dezelfde uitrol. Dit werk richt zich op meerstaps agentisch RL door elke ReAct-achtige gedachte-actie-waarneming stap te modelleren als een semantisch distinct knooppunt, waardoor budgettoewijzing kan worden uitgebreid van promptwortels naar prefixen op stapniveau met verdere voortzettingen, wat van nature een boomstructuur in de uitrollen vormt. We introduceren Tree Rollout Allocation for Contrastive Exploration (TRACE), een uniform raamwerk voor uitroltoewijzing dat het beloningscontrast binnen een vast steekproefbudget verbetert. Technisch gezien wijst TRACE uitrolbudget toe aan zowel promptwortels als tussenliggende prefixen die het meest waarschijnlijk gemengde eindbeloningen opleveren. Een gedeelde generaliseerbare voorspeller schat de conditionele succeswaarschijnlijkheid bij deze ankers op basis van prefixgeschiedenissen om deze toewijzing te sturen. De resulterende adaptieve boomstructuur verrijkt uitkomst-alleen-feedback en versterkt het beleidsupdatesignaal. Empirisch gezien behaalt TRACE concurrerende prestaties en efficiëntiewinsten op typische agentische benchmarks, bijvoorbeeld door de gemiddelde nauwkeurigheid van Qwen3-14B Multi-Hop QA met 2,8 punten te verbeteren ten opzichte van competitieve baselines bij gelijke steekproefkosten.
Visie-taalmodelen (VLMs) projecteren afbeeldingen in honderden tot duizenden visuele tokens, waardoor decoder-inferentie duur wordt, zowel qua aandachtberekening als KV-cachegeheugen. Bestaande methoden voor visuele tokenreductie volgen grotendeels een rangschik-en-verwijder paradigma: ze beoordelen visuele tokens, houden een compacte subset over en verwijderen de rest permanent. Wij tonen aan dat deze onomkeerbare handeling fragiel is omdat het belang van visuele tokens verandert naarmate de decoder dieper wordt; tokens die in een vroeg stadium laag worden gerangschikt, kunnen in latere lagen relevant worden, vooral voor grounding-gevoelige queries. Wij stellen Reroute voor, een trainingsvrije plug-in die verwijdering vervangt door herstelbare routering. In elke routeringsfase passeren geselecteerde visuele tokens decoderblokken, terwijl uitgestelde tokens de fase overslaan en bij de volgende routeringsbeslissing opnieuw in de kandidaatpool worden opgenomen. Reroute hergebruikt bestaande aandachtsscore-rangschikkingsregels en fasegewijze schema's, waardoor de theoretische TFLOPs- en KV-cachebudgetklasse van de snoeimethode die het uitbreidt, behouden blijft. Bij FastV-, PDrop- en Nüwa-varianten op LLaVA-1.5- en Qwen-backbones verbetert Reroute de grounding bij agressieve tokenreductie, terwijl de algemene VQA-prestaties behouden blijven. Deze resultaten suggereren dat VLM-tokenreductie niet alleen moet worden gezien als onomkeerbaar snoeien, maar ook als herstelbare routering. De code is te vinden op: https://github.com/elmma/mllm-reroute/
Het vinden van interpreteerbare richtingen in representaties van taalmodellen is cruciaal voor het begrijpen en beheersen van modelgedrag. Sparse autoencoders (SAE's) zijn hiervoor de standaardtool geworden, maar het gebruik ervan als standaard eerste lens vereist vaak het trainen, opslaan en evalueren van grote overcomplete woordenboeken. Deze bottleneck beperkt snelle verkenning en roept een fundamentele vraag op: hoeveel interpreteerbare structuur is al zichtbaar vanuit de activatiegeometrie voordat er een nieuw neuraal woordenboek wordt getraind? Onze intuïtie is eenvoudig: veel interpreteerbare richtingen zijn selectief op tokens, en deze richtingen zouden minder Gaussiaans moeten lijken dan willekeurige richtingen. Daarom heroverwegen we onafhankelijke componentenanalyse (ICA), een klassieke methode voor het vinden van niet-Gaussiaanse richtingen, als een compacte lens voor de interpreteerbaarheid van taalmodellen. We ontdekken dat ICA wordt onderschat voor LLM-interpreteerbaarheid, omdat eerdere toepassingen vaak vertrouwden op kant-en-klare ICA-implementaties die breekbaar zijn op LLM-activaties en geen systematische hulpmiddelen hadden voor het inspecteren en evalueren van de teruggevonden richtingen. Om deze hiaten te overbruggen introduceren we ICALens, de eerste praktische workflow voor stabiele, efficiënte en controleerbare ICA-analyse van LLM-representaties. Het combineert een geoptimaliseerde GPU-parallelle FastICA-pijplijn met LLM-specifieke stabiliteitsrecepten en betere diagnostiek voor modelpassing, waardoor efficiënte en betrouwbare laagsgewijze analyse mogelijk wordt. Over GPT-2 Small, Gemma 2 2B en Qwen 3.5 2B Base heen herstelt ICALens efficiënt compacte, voor mensen interpreteerbare richtingen zonder per-laag gradient-gebaseerd woordenboektraining. Op SAEBench is ICA concurrerend met publieke SAE's in sparse probing en overtreft het hen in gerichte probe-perturbatie onder kleine tot middelgrote budgetten. Deze resultaten suggereren dat ICA niet moet worden gezien als een zwakke baseline, maar als een efficiënte en complementaire eerste lens voor het verkennen van representaties van taalmodellen.
Autonome LLM-training wordt vaak omlijst als een receptzoektocht, waardoor het trainingsharnas grotendeels statisch blijft. Deze beperking wordt scherper in agentische RL, waar verschuivende knelpunten en scalaire beloningen diverse faalwijzen verbergen. We introduceren EvoTrainer, een autonoom trainingsframework dat LLM-beleid en trainingszijde harnassen co-evolueert door middel van empirische feedback: het diagnosticeert rollout-niveau bewijs, herziet diagnostiek, test interventies terug en accumuleert herbruikbare vaardigheden. Geëvalueerd op wiskundig redeneren, competitieve programmeercodegeneratie en repository-niveau software-engineering, evenaart of overtreft EvoTrainer de door mensen ontworpen RL-referenties onder dezelfde data, codebase en evaluatieprotocol, met de grootste winst op langetermijn agentische SWE. Trajectanalyse toont aan dat behouden strategieën per domein verschillen, dat evoluerende diagnostiek voorkomt dat ongeldige hoogscorende takken worden gepromoveerd, en dat herbruikbare vaardigheden latere zoektocht vormen. Autonome LLM-RL moet verder gaan dan receptzoektocht naar gezamenlijke evolutie van beleid en de trainingsharnassen die ze interpreteren.
We introduceren Embodied-R1.5, een uniform Embodied Foundation Model (EFM) dat uitgebreide belichaamde redeneercapaciteiten integreert—variërend van belichaamde cognitie, taakplanning, correctie en aanwijzen—binnen één enkele architectuur richting algemene fysieke intelligentie. Gebruikmakend van drie geautomatiseerde dataconstructiepijplijnen om de datadekking van kritieke capaciteiten aanzienlijk uit te breiden, bouwen we een grootschalig datasysteem van meer dan 15B tokens, en ontwerpen we een multi-task gebalanceerd RL-recept om heterogene taakconflicten te verminderen. We introduceren verder een Planner-Grounder-Corrector (PGC) closed-loop framework dat een enkel model in staat stelt autonoom taken uit te voeren en zichzelf te corrigeren over langetermijntaken. Met slechts 8B parameters behaalt Embodied-R1.5 SOTA op 16 van de 24 belichaamde VLM-benchmarks, waarmee het toonaangevende modellen zoals Gemini-Robotics-ER-1.5 en GPT-5.4 overtreft. Dankzij de geïnternaliseerde belichaamde capaciteiten kan Embodied-R1.5 met slechts een kleine hoeveelheid data worden gefinetuned tot een VLA, waarmee het toonaangevende VLA-modellen zoals π_{0.5} overtreft op 4 populaire manipulatiebenchmarksuites. We voeren verder uitgebreide zero-shot echte robotexperimenten uit, waarbij we de prestaties valideren op het gebied van instructievolging, affordance-gronding, manipulatie van gelede objecten en complexe langetermijntaken, wat een sterke generalisatie naar de fysieke wereld aantoont. We open-sourcen modelgewichten, datasets, trainingscode en EmbodiedEvalKit, een evaluatieframework dat is afgestemd op belichaamde taken, om toekomstig onderzoek naar EFM's te vergemakkelijken.
Reinforcement Learning (RL) met verifieerbare omgevingen is naar voren gekomen als een krachtige benadering om de redeneervermogens van grote taalmodellen (LLM’s) te verbeteren. Hoewel eerder onderzoek aantoont dat het schalen van het aantal omgevingen de RL-prestaties verbetert, lijden bestaande handmatige of individuele constructiemethoden onder lineaire schalingslimieten, wat schaalbare redeneergeneralisatie belemmert. Dit artikel introduceert RACES (Recursive Automated Composition for Environment Scaling), een raamwerk dat verifieerbare omgevingen conceptualiseert als composable bouwstenen die recursief kunnen worden samengesteld. Het belangrijkste inzicht is dat wanneer het codomein (uitvoertype) van de ene omgeving overeenkomt met het domein (invoertype) van een andere, ze automatisch kunnen worden samengevoegd tot een nieuwe verifieerbare omgeving, waardoor recursieve compositie mogelijk wordt. RACES is geïmplementeerd met 300 individuele omgevingen en definieert een reeks compositieoperatoren (SEQUENTIAL, PARALLEL, SORT en SELECT) die diverse redeneerpatronen induceren. Uitgebreide experimenten tonen aan dat RL-training op deze composiete omgevingen consistent de redeneergeneralisatie verbetert. Specifiek verbetert RACES DeepSeek-R1-Distill-Qwen-14B met gemiddeld 3,1 punten (van 48,2 naar 51,3) en verhoogt het de prestaties van Qwen3-14B van 58,8 naar 61,1 op zes benchmarks, die niet zijn gezien tijdens de constructie van trainingsomgevingen. Bovendien bereikt RACES prestaties die vergelijkbaar zijn met training op 300 individuele omgevingen, waarbij slechts 50 basisomgevingen worden gebruikt, wat een significante efficiëntie in omgevingsgebruik aantoont.
Voorgetrainde videogeneratoren zijn veelbelovende visuele wereldmodellen die opkomende taakoplossende vermogens vertonen; hun afhankelijkheid van gedetailleerde tekstuele beschrijvingen beperkt echter hun directe gebruik voor planning en besluitvorming. Bestaande benaderingen besteden deze redenering ofwel uit aan taal- of visie-taalmodelen, of vertrouwen op gesuperviseerde fijnafstemming met gepaarde taakuitvoeringsvideo's, die kostbaar zijn om te verzamelen en moeilijk op te schalen. Wij stellen een schaalbaar raamwerk voor dat taakoplossend vermogen in dergelijke modellen ontlokt door zelfdestillatie te combineren met versterkend leren. Gegeven een ongelabelde scèneafbeelding genereert een visie-taalmodel een kandidaattaak en een gedetailleerde stapsgewijze oplossing. De oplossing conditioneert een voorgetraind videodiffusiemodel, de Demonstrator; we destilleren zijn gedrag in een Executor die alleen geconditioneerd is op de afbeelding en een korte taakprompt. Dit brengt uitvoeringskennis over van bijschriftgestuurde generatie naar instructiegeconditioneerd taakoplossen zonder samengesteld taak-videotoezicht. We verbeteren de Executor verder met versterkend leren van VLM-feedback, waarbij we gebruikmaken van de asymmetrie tussen het beoordelen of een gesamplede video aan een taak voldoet en het genereren van de oplossing. Experimenten op onze voorgestelde WorldTasks-Benchmark en de DreamGen-robotica-benchmark tonen aan dat de Executor de Demonstrator overtreft onder ons VLM-gebaseerde evaluatieprotocol en concurrerend overbrengt naar robotica-taken.
Pijplijnparallellisme is essentieel voor het trainen van grote neurale netwerken, maar bestaande schema's maken een afweging tussen doorvoer, geheugen en optimalisatieconsistentie. Synchrone pijplijnen behouden voorwaartse/achterwaartse gewichtsconsistentie maar hebben last van bellen; asynchrone pijplijnen verwijderen bellen maar introduceren een gewichtsversie-mismatch, wat doorgaans weight stashing, voorspelling of correctiemechanismen vereist. We introduceren PACI (Pijplijn Asynchrone training met Beheerste Inconsistentie), een bellenvrije asynchrone pijplijnmethode die de voorwaartse/achterwaartse versie-afwijking begrenst zonder weight stashing, voorspelling, extra parameterkopieën of globale synchronisatie. Het sleutelidee is om lokale gradiëntaccumulatie te gebruiken als versiebeheermechanisme: door de parameter-versie-evolutie te vertragen ten opzichte van de pijplijnvertraging, beperkt PACI het aantal optimizer-updates dat een micro-batch doorkruist, terwijl steady-state benutting behouden blijft. In GPT-achtige taalmodel-pretraining evenaart PACI de stabiliteit en uiteindelijke perplexiteit van synchrone 1F1B-flush, behoudt hetzelfde piekgeheugengebruik, bereikt volledig benutte pijplijndoorvoer en verbetert de trainingstijd tot nauwkeurigheid met tot 1,69 keer ten opzichte van de snelste flush-baseline. Deze resultaten tonen aan dat voorwaartse/achterwaartse inconsistentie niet geëlimineerd hoeft te worden: wanneer expliciet begrensd, kan het veilig worden ingeruild voor aanzienlijke efficiëntiewinsten.
Diffusiemodellen hebben consequent vooruitgang geboekt in tekst-naar-beeld generatie. Het is echter een uitdaging om recente vooruitgang toe te schrijven aan specifieke model- en datakeuzes: state-of-the-art open-gewichtsmodellen bieden beperkte ablatiestudies en maken hun trainingsgegevens en volledige trainingsdetails niet openbaar. De onderzoeksgemeenschap heeft volledig open (gewichten, data en code) modellen nodig als basis voor verder onderzoek; toch blijven bestaande volledig open modellen aanzienlijk achter bij toonaangevende modellen wat prestaties betreft. In dit project voeren we een systematisch onderzoek uit naar de model- en dataontwerpkeuzes in tekst-naar-beeld diffusietraining en -inferentie met 300+ gecontroleerde experimenten in totaal 700K+ TPU v6e-uren. Onze experimenten benadrukken verschillende empirische bevindingen (bijv. gelijke weging is een sterke standaard voor het mengen van samengestelde datasets) en eenvoudige ontwerpbeslissingen (bijv. grotere tekstencoderadapters verbeteren prestaties met minimale toegevoegde parameters) voor het trainen van sterke modellen. Geleid door deze inzichten trainen we i1, een 3B-parameter tekst-naar-beeld diffusiemodel dat alleen gebruikmaakt van openbaar beschikbare datasets. i1 is concurrerend met toonaangevende modellen op vijf representatieve benchmarks (GenEval, DPG, PRISM, CVTG-2K en LongText) en presteert gemiddeld 29,5 absolute procentpunten beter dan het beste bestaande volledig open model. We verstrekken de i1-checkpoints, trainings- en inferentiecode en de dataverwerkingspijplijn. Samen leggen onze bevindingen en het i1-recept een praktische basis voor toekomstig open onderzoek naar tekst-naar-beeld diffusiemodellen. Onze code is beschikbaar op https://github.com/zlab-princeton/i1.
Computergebruikagenten (CUAs) zijn afhankelijk van visuele waarnemingen van grafische gebruikersinterfaces, waarbij elke schermafbeelding wordt gecodeerd in een groot aantal visuele tokens. Naarmate interactietrajecten langer worden, stijgen de tokenkosten snel, waardoor de hoeveelheid geschiedenis die kan worden opgenomen onder vaste context- en rekenbudgetten beperkt wordt. Dit heeft geresulteerd in geen of zeer beperkte verbetering van de prestaties bij het gebruik van geschiedenis, in tegenstelling tot andere domeinen. We pakken deze inefficiëntie aan door ReVision te introduceren, waarmee multimodale taalmodellen worden getraind op trajecten waar overbodige visuele patches worden verwijderd met behulp van een geleerde patchselector die patchrepresentaties tussen opeenvolgende schermafbeeldingen vergelijkt, terwijl de ruimtelijke structuur die het model nodig heeft, behouden blijft. Op drie benchmarks, OSWorld, WebTailBench en AgentNetBench, vermindert ReVision bij het verwerken van trajecten met 5 historische schermafbeeldingen met Qwen2.5-VL-7B het tokenverbruik met gemiddeld 46%, terwijl het slagingspercentage met 3% verbetert ten opzichte van de baseline zonder weglating. Dit levert een duidelijke efficiëntiewinst op, waardoor agenten langere trajecten kunnen verwerken met minder tokens. Dankzij deze verbeterde efficiëntie bekijken we de rol van geschiedenis in CUAs opnieuw en stellen we vast dat de prestaties blijven verbeteren naarmate meer eerdere waarnemingen worden opgenomen wanneer redundantie wordt verwijderd.
Agentvaardigheden bieden een lichtgewicht mechanisme voor het uitbreiden van algemene agenten, maar hun open formaat stelt hen bloot aan vaardigheidsvergiftigingsaanvallen. Een praktisch gevaarlijke injectie moet onzichtbaar blijven: als het uitvoeren van de payload de legitieme taak van de gebruiker ontspoort, nodigt het resulterende faalsignaal uit tot inspectie van de vaardigheid. Daarom evalueren we aanvallen op basis van het Aanvalsuccespercentage (ASR), dat vereist dat de geïnjecteerde payload wordt uitgevoerd en dat de taak van de gebruiker nog steeds door de verificateur komt in dezelfde proef. Eerdere vaardigheidsvergiftigingsaanvallen staan onder deze lens voor een afweging tussen betrouwbaarheid en onzichtbaarheid: YAML-koptekstinjecties worden betrouwbaar geladen maar zijn gemakkelijk te inspecteren, terwijl onopvallendere body-injecties die expliciete kwaadaardige commando's in de vaardigheidstekst plaatsen minder betrouwbaar zijn omdat uit-context-commando's het eigen wantrouwen van de agent oproepen. We introduceren POISE, een positiebewuste aanval die de trigger comprimeert tot een enkele, onschuldig ogende body-instructie, deze op een haalbare positie plaatst en een contextbewuste generator gebruikt om het te laten samenvallen met nabijgelegen opzet- of vereiste stappen. Op Skill-Inject met codex+gpt-5.2 behaalt POISE een ASR van 89,3%, 28,0 punten boven een body-baseline met willekeurige plaatsing en 2,6 punten boven een YAML-only baseline, terwijl het het voordeel van onzichtbaarheid van body-plaatsing behoudt. Die onzichtbaarheid is de beslissende marge: omdat legitieme vaardigheidsbodies van nature geprivilegieerde tooloperaties vereisen, zijn LLM-scanners hypergevoelig en markeren ze gemiddeld 74,6% van de schone vaardigheden ten onrechte als verdacht, over vier beoordelaars en beide benchmarks. Door zich te mengen in deze valse alarmen, zorgt POISE ervoor dat slechts 5,6% van de vergiftigde varianten een nieuw hoogrisico-alarm krijgt boven hun schone baselines, waardoor huidige statische verdedigingsmechanismen ineffectief worden.
Voorspelling van de resterende nuttige levensduur (RUL) is essentieel voor voorspellend onderhoud in de industrie, maar veel leergebaseerde benaderingen steunen op uitgebreide kenmerkextractie of grote gelabelde datasets om taakspecifieke sequentiemodellen te trainen. In dit werk introduceren we een lichtgewicht leerbenadering, waarbij we een bevroren voorgetraind tijdreeks-fundamentmodel (TSFM) inzetten en combineren met een kleine regressiekop voor RUL-schatting uit multivariate sensorstromen. Meer specifiek gebruiken we Chronos-2 als een bevroren backbone om contextvensterkenmerken te extraheren en trainen we een lichtgewicht regressie neuraal netwerk voor RUL-voorspelling. Experimenten op echte industriële sensordata van twee apparaattypen tonen aan dat Chronos-2-kenmerken consistent beter presteren dan recurrente, convolutionele, op Transformers gebaseerde en gradient-boosting baselines onder hetzelfde voorverwerkings- en evaluatieprotocol. We analyseren verder de invloed van contextlengte en ontdekken dat de prestaties aanzienlijk verbeteren met langere geschiedenissen, wat erop wijst dat TSFM-representaties een praktisch en data-efficiënt alternatief bieden voor RUL-schatting in industriële omgevingen.
Veel moderne visie-taalmodelen (VTM's) bouwen voort op autoregressieve decodering van discrete tokens. Hoewel tekstgebaseerde uitvoerinterfaces schaalbare pretraining en sterke zero-shot generalisatie over diverse taken mogelijk maken, zijn ze slecht geschikt voor problemen die precieze continue uitvoer vereisen, zoals het lokaliseren van temporele grenzen van gebeurtenissen of het genereren van robotbesturingsacties. Om deze uitdaging aan te pakken, stellen we DRIFT voor, een algemeen raamwerk voor het aanpassen van voorgetrainde VTM's aan continue decoderingstaken. DRIFT combineert een basisvoorspeller, die een ruwe schatting van de doeluitvoer geeft, met een generatieve verfijningsmodule gebaseerd op flow matching die de voorspelling iteratief verbetert. Deze residuele formulering transformeert het generatieve modelleerprobleem van het leren van een globale uitvoerverdeling naar het modelleren van een gelokaliseerde residuele verdeling rond een sterke prior, wat de optimalisatie aanzienlijk vereenvoudigt. We evalueren DRIFT op zowel perceptie- als planningstaken, waaronder visuele grounding en robotbesturing. Over meerdere taken en architecturen, waaronder MLLM's, VLA's en WAM's, presteert DRIFT consequent beter dan een sterke reeks op regressie en generatieve methoden gebaseerde oplossingen.
Er zijn twee belangrijke technieken voor parameter-efficiënte fijnafstemming (PEFT) van grote taalmodellen (GTM’s). Terwijl laagrangadaptatie (LoRA) extra gewichten tussen de GTM-lagen introduceert, voegt zachte prompting extra fijnafstemmingsspecifieke ruwe tokens toe aan een GTM-invoer. Beide vereisen echter aanpassingen aan de computationele grafen van voorgecompileerde, voorgeoptimaliseerde GTM’s. Hierdoor wordt geen van beide volledig ondersteund in doorvoerhoge engines zoals vLLM. Wij stellen fijnafstemming voor met ART (Art-based Reinforcement Training). De methode injecteert informatie in een bevroren multimodaal groot taalmodel (MGTM) door alleen de ruwe visuele invoer ervan te optimaliseren, waardoor de zachte-tokenbenadering op voorgecompileerde computationele grafen mogelijk wordt. Het vertrouwt op terugpropagatie van gradiënten naar een gewone pixelarray en ondersteunt daardoor elke fijnafstemmingsdoelstelling. Bovendien kan de geoptimaliseerde visuele invoer worden gestileerd als taakrelevante computationele kunstwerken. De effectiviteit van de aanpak wordt bevestigd voor verschillende groottes van een populaire open Qwen-architectuur en voor meerdere tekstuele benchmarks. In het bijzonder bereikt ART een nauwkeurigheid die concurrerend is met LoRA op benchmarks voor wiskunde en gestructureerd hulpmiddelgebruik.
Eerder onderzoek heeft aangetoond dat op instructie afgestemde grote taalmodellen (LLMs) slechter gekalibreerd zijn dan hun oorspronkelijke voorgangers. Er is echter weinig bekend over het effect van de veelgebruikte chat-template op de kalibratie van conversatie-LLMs. In dit werk onderzoeken we de mechanismen die deze foutkalibratie veroorzaken door de effecten van het post-training algoritme en het chat-formaat te ontkoppelen. We ontdekken dat, hoewel instructie-afstemming de kalibratie fundamenteel schaadt, de chat-template het probleem verergert door een 'eigendomsbias' — modellen zijn significant zelfverzekerder over hun eigen antwoorden dan over identieke antwoorden die door een gebruiker zijn gegeven. Uitgebreide experimenten met zes recente open-weight LLMs, drie benchmarks en drie methoden voor het opwekken van vertrouwen tonen aan dat modellen tot 26% meer vertrouwen toekennen aan hun eigen antwoorden. Gebruikmakend van dit inzicht, stellen we een eenvoudige inferentiestrategie voor: het framen van het antwoord van het model als gebruikersinput tijdens het opwekken van vertrouwen. Deze aanpak vermindert oververtrouwen aanzienlijk en verbetert de kalibratie met tot 26% zonder dat hertraining nodig is, waarmee de kloof tussen basis- en instructie-afgestemde modellen wordt verkleind.
Grote Taalmodellen (LLM's) bieden nieuwe mogelijkheden voor vertaaltaken, maar presteren vaak minder goed bij talen met weinig bronnen. Om deze beperking aan te pakken, stellen we een aanpak voor voor het fine-tunen van LLM's op een taal met weinig bronnen, het Kupang Maleis. Onze aanpak omvat het ontwerpen van een reeks instructies door expliciete lexicale en semantische kenmerken uit een tweetalig woordenboek te benutten, en het introduceren van Continue Instructie-afstemming (CIT), een trainingsparadigma dat iteratieve instructiegebaseerde training mogelijk maakt. Experimentele resultaten tonen aan dat ons model, genaamd Lius, aanzienlijke verbeteringen laat zien ten opzichte van standaard instructie-afgestemde modellen, met 4-6 punten betere prestaties, en zowel Neurale Machinevertaling (NMV) als meertalige LLM-modellen met 10-13 punten overtreft op verschillende evaluatiemaatstaven. Deze bevindingen benadrukken het potentieel van onze aanpak om de afhankelijkheid van grootschalige parallelle data bij vertalingen van talen met weinig bronnen te verminderen.
Grote taalmodellen (LLM's) worden veelvuldig ingezet voor complexe taken met autonome workflows. Recentelijk zijn herbruikbare natuurlijke-taalvaardigheden een populair paradigma geworden om procedurele kennis in LLM-toepassingen te injecteren. Aangezien populaire vaardigheden vaak herhaaldelijk worden opgeroepen, verhoogt het plaatsen van hun volledige tekst in elke context aanzienlijk de prefill-kosten en latentietijd. Hoewel tekstcompressietechnieken het potentieel hebben om dit probleem op te lossen, zijn de meeste bestaande methoden ontworpen om feitelijke kennis in documenten te comprimeren in plaats van procedurele kennis, waardoor ze onvoldoende zijn voor vaardigheidscompressie. In dit artikel stellen we dat een effectieve vaardigheidscompressiemethode: 1) logische afhankelijkheden tussen workflows en toolprotocollen moet behouden, 2) lichtgewicht, offline compressie mogelijk moet maken voor veelgebruikte gemeenschapsvaardigheden, en 3) aanpasbaar moet zijn aan variërende complexiteit tussen vaardigheden. Om dit aan te pakken presenteren we SKIM (SKIll coMpression), een adaptief multi-resolutie zacht-tokencompressieraamwerk voor procedurele vaardigheden. Afhankelijk van de complexiteit van elke vaardigheid creëert SKIM een verschillend aantal zachte tokens die niet alleen de efficiëntie van LLM-inferentie verbeteren, maar ook de effectiviteit van het gebruik van vaardigheden behouden. Experimenten tonen aan dat SKIM vaardigheden comprimeert tot 30 tot 60 procent van hun oorspronkelijke tokenlengte, terwijl de taakprestaties beter behouden blijven dan bij bestaande compressiemethoden. We hebben onze code vrijgegeven op https://github.com/bebr2/SKIM .
Het begrijpen en voorspellen van hoe sociale overtuigingen evolueren in reactie op gebeurtenissen – van beleidsveranderingen tot wetenschappelijke doorbraken – blijft een fundamentele uitdaging in de sociale wetenschappen. Gezien de algemene kennis en sociale intelligentie van LLM's, vragen we ons af: Kunnen LLM's de dynamiek van sociale overtuigingen na sociale gebeurtenissen modelleren? In dit werk introduceren we het concept van het Social World Model (SWM), een algemeen raamwerk ontworpen om vast te leggen hoe sociale overtuigingen evolueren in reactie op grote gebeurtenissen. SWM leert toestandsovergangsfuncties voor sociale overtuigingen door temporele patronen in sociale data te ontginnen en de evidence lower bound te optimaliseren, zonder behoefte aan expliciete menselijke annotaties die gebeurtenissen koppelen aan verschuivingen in overtuigingen, of aan dure censusdata. Om SWM te evalueren, introduceren we een benchmark, SWM-bench, afgeleid van real-world voorspellingsmarkten, met name Kalshi en Polymarket. SWM-bench bevat meer dan 12k datapunten voor voorspellingstaken van sociale overtuigingen, verspreid over diverse domeinen zoals politiek, financiën en cryptocurrency. Onze experimentele resultaten tonen aan dat SWM significant beter presteert dan tijdreeks-basismodellen, state-of-the-art resultaten behaalt op Kalshi-data en concurrerende prestaties levert op Polymarket-data, terwijl het interpreteerbare inzichten biedt in de onderliggende mechanismen van de dynamiek van sociale overtuigingen.
Grote taalmodellen (Large Language Models, LLM's) worden steeds vaker ingezet om wetenschappelijke ontdekkingen te versnellen, met name bij geavanceerde taken zoals het genereren van valide wetenschappelijke hypothesen. In veel ontdekkingscontexten is het doel echter niet om één enkele beste hypothese te identificeren, omdat validatie kostbaar en ruisgevoelig kan zijn, en wetenschappers baat hebben bij een set hoogwaardige alternatieve hypothesen die bescherming bieden tegen stroomafwaartse onzekerheid over de beste oplossingen. Desondanks hebben veelgebruikte evolutionaire zoekrecepten de neiging om optimalisatie boven exploratie te prioriteren bij het genereren van hypothesen, en de resulterende selectiedruk tijdens het zoekproces leidt tot diversiteitsinstorting. Gemotiveerd door deze beperkingen formuleren we hypothesenonderzoek als een steekproefprobleem, waarbij het doel is om efficiënt diverse, hoogwaardige hypothesen te produceren binnen een vast validatiebudget. Voortbouwend op dit perspectief stellen we \ours voor, een evolutionair raamwerk geïnspireerd door het klassieke parallel-temperingalgoritme dat hypothesen doorzoekt op meerdere temperatuurniveaus en een principiële informatie-uitwisseling tussen temperaturen mogelijk maakt, wat exploratie verbetert zonder convergentie te verstoren. In domeinen zoals moleculaire ontdekking, vergelijkingenontdekking en algoritme-ontdekking verbetert onze aanpak consistent zowel de kwaliteit als diversiteit van hypothesen binnen hetzelfde validatiebudget, en levert kandidaten op die robuust blijven bij duurdere stroomafwaartse computationele validaties.
Generieke tijdreeks-fundamentmodellen presteren slecht op telemetrie van draadloze netwerken, waarvan de signalen burst-achtig, nul-geïnflateerd en over protocol lagen heen gekoppeld zijn. We presenteren APEX, een netwerk-native, decoder-only transformer voor het voorspellen van telemetrie van bedrijfs-AP's, en evalueren dit model op DHCP-degradatie als representatieve netwerktaak. APEX is voorgetraind op 10-kanaals multivariate telemetrie van ~4.500 productieve draadloze netwerken (~100K AP-tijdreeksen, 34 metrieken per AP) en is beschikbaar als APEX-Large (269M, cloud) en APEX-Edge (10,5M, edge). Op een 192-staps (4 dagen) DHCP-degradatiebenchmark verlaagt APEX-Large de MAE met 18% ten opzichte van de sterkste fundamentmodel-baseline (Toto) en 38% ten opzichte van SARIMA, met een anomaliedetectie-F1 van 0,93, terwijl APEX-Edge subseconden, privacybehoudende inferentie mogelijk maakt op AP-klasse edge-hardware. Deze resultaten suggereren dat netwerk-native voortraining een praktisch fundament vormt voor proactieve draadloze operaties.
Nu aanbevelingssystemen overgaan naar agentische, meerrondige conversationele interfaces, kunnen evaluatieparadigma's niet goed meer meekomen. Huidige benchmarks vertrouwen vaak op "LLM-als-rechter"-evaluaties, die subjectiviteit, hoge kosten en inconsistentie introduceren. We presenteren τ-Rec, een benchmark voor agentische aanbevelingssystemen die subjectieve evaluatie vervangt door verifieerbare beloningen en een onthullingsgemerkte elicitatie (RTE)-mechanisme dat regelt hoe taakbeperkingen tijdens de dialoog naar voren komen. Door agenten te testen tegen gestructureerde cataloguspredicaten en een pass^k-betrouwbaarheidsmetriek te gebruiken, biedt τ-Rec een systematische test voor consistente redenering. Onze evaluatie van negen configuraties over vijf modelfamilies — GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B en GPT-5 mini — onthult een steile betrouwbaarheidsklif, waarbij zelfs het beste model slechts ~57% op pass^1 en ~38% op pass^4 haalt, wat een kritiek hiaat in de huidige inzet van conversationele agenten benadrukt. Alle code en gegevens zijn openbaar beschikbaar op https://github.com/nbharaths/tau-rec.
Het cureren van trainingsdata is een van de meest invloedrijke, maar ook meest arbeidsintensieve onderdelen van de moderne AI-ontwikkeling: beoefenaars itereren door het proposeren, implementeren, evalueren en herzien van databeleid op basis van ruisachtige benchmarkterugkoppeling. We vragen ons af of generalistische codeeragenten deze data-curatielus kunnen automatiseren. We introduceren *Curation-Bench*, een agent-centrische benchmark die het model, het trainingsrecept en de evaluatiesuite vastlegt, terwijl agenten via de commandoregel toegang krijgen om data te inspecteren, beleid te implementeren, deze in te dienen bij een vaste trainings-/evaluatiepijplijn en te herzien. In een instantiatie van visie-taal instructie-tuning bereiken out-of-the-box agenten binnen tien iteraties sterke gepubliceerde basislijnen voor dataselectie. Trajectanalyse onthult echter een aanhoudende *uitvoerings-onderzoekskloof*: agenten stemmen voornamelijk lokale beleidsvarianten af in plaats van nieuwe beleidsfamilies te verkennen, zelfs wanneer ze strategiegidsen en literatuurverwijzingen krijgen. Scaffolds die vereisen dat elke iteratie een eerdere methode citeert, instantiëert en aanpast, sturen agenten richting methodegestuurde verkenning. De scaffolded agent stelt autonoom – zonder menselijke ontwerpinbreng – een dataselectiebeleid samen dat beter presteert dan sterke gepubliceerde basislijnen met een tiende van hun databudget. Over het geheel genomen kunnen huidige agenten de curatielus doorlopen, maar betrouwbaar dataonderzoek vereist scaffolded methode-aanpassing, niet alleen open-eind prompting. Code en benchmark zijn open-source beschikbaar.
Post-training voor redeneringsmodellen combineert doorgaans begeleid finetunen met reinforcement learning op basis van verifieerbare beloningen, meestal met GRPO. Dit algoritme heeft echter last van schaarse beloningen, beperkte exploratie en mode collapse. Voortbouwend op recent werk over zelfdistillatie stellen we Feedback Distillation voor, een trainingsmethode waarbij het model op token-niveau wordt getraind om zijn eigen distributie te matchen, geconditioneerd op geprivilegieerde feedback die door een taalmodel wordt geproduceerd. Feedback Distillation biedt supervisie op token-niveau en kan externe kennis injecteren. Bij de evaluatie van onze methode voor stellingbewijzen in Lean4 zien we dat Feedback Distillation een grotere diversiteit behoudt in gegenereerde trajecten dan GRPO, wat leidt tot een hogere beleidsentropie en betere pass@k-schaling. Beide methoden zijn complementair: het initialiseren van GRPO vanuit een Feedback Distillation-checkpoint presteert beter dan elk van beide methoden afzonderlijk. Al met al suggereren onze resultaten een veelbelovende weg om post-training voor complex redeneren te verbeteren.
Magnetische Resonantiebeeldvorming van de hersenen (MRI) speelt een centrale rol bij het bestuderen van neurologische ontwikkeling, veroudering en ziekten. Een belangrijke toepassing is hersencleeftijdvoorspelling (BAP), die de biologische hersencleeftijd van een individu schat op basis van MRI-gegevens. Effectieve BAP-modellen vereisen grote, diverse en leeftijdsgebalanceerde datasets, terwijl bestaande 3D-MRI-datasets demografisch scheef zijn, wat de eerlijkheid en generaliseerbaarheid beperkt. Het verkrijgen van nieuwe gegevens is kostbaar en ethisch beperkt, wat generatieve data-augmentatie motiveert. Huidige generatieve methoden zijn vaak gebaseerd op latente diffusiemodellen, die werken in aangeleerde laagdimensionale latente ruimtes om aan de geheugeneisen van volumetrische MRI-gegevens te voldoen. Deze methoden zijn echter typisch traag bij inferentie, kunnen artefacten introduceren door latente compressie, en zijn zelden geconditioneerd op leeftijd, wat de BAP-prestaties beïnvloedt. In dit werk stellen we FlowLet voor, een conditioneel generatief raamwerk dat leeftijdgeconditioneerde 3D-MRI's synthetiseert door gebruik te maken van flow matching binnen een inverteerbaar 3D-waveletdomein, wat helpt reconstructieartefacten te vermijden en de rekenvereisten te verminderen. Experimenten tonen aan dat FlowLet volumes met hoge getrouwheid genereert met weinig bemonsteringsstappen. Het trainen van BAP-modellen met door FlowLet gegenereerde gegevens verbetert de prestaties voor ondervertegenwoordigde leeftijdsgroepen, en regio-gebaseerde analyse bevestigt het behoud van anatomische structuren.
Moderne LLM-trainingspijplijnen maken steeds vaker gebruik van andere modellen om gegevens te genereren, corpora te filteren, uitvoer te beoordelen en ontwikkelingsbeslissingen te sturen. Deze afhankelijkheden zijn recursief: een model kan afhankelijk zijn van een stroomopwaarts artefact waarvan de eigen afhankelijkheden alleen in afzonderlijke releases en artefacten zijn gedocumenteerd. Hierdoor is de volledige afhankelijkheidsstructuur versnipperd over heterogene publieke artefacten, met een complexiteit en recursieve diepgang die het menselijk vermogen om deze te traceren ver overtreffen. Wij introduceren ModSleuth, een agentisch systeem dat op recursieve wijze LLM-afhankelijkheidsgrafieken reconstrueert uit publieke artefacten met bron-gestuurd bewijs. We stellen vast dat de primaire uitdaging niet langer informatie-extractie is, maar het definiëren van wat een afhankelijkheid inhoudt en het reconcilieren van artefactverwijzingen over inconsistente documentatie heen. We pakken deze uitdagingen aan via een formalisering die onderscheid maakt tussen directe en indirecte afhankelijkheden, heterogene pijplijnrollen vertegenwoordigt via operatiegerichte relaties, en artefactidentiteiten resolveert over namen, versies en repositories heen. Door ModSleuth toe te passen op vier LLM-releases die rijk zijn aan publieke artefacten, hebben we 1.060 bron-geverifieerde afhankelijkheden hersteld en grootschalige afhankelijkheidsgrafieken van moderne LLM-ontwikkeling geconstrueerd. Deze grafieken onthullen meerstapslicentieverplichtingen, train-evaluatiekoppeling, discrepanties tussen vrijgegeven en trainingstijdartefacten, en documentatie-inconsistenties die anders moeilijk te ontdekken zouden zijn. We stellen ModSleuth en de resulterende afhankelijkheidsgrafieken beschikbaar om transparante analyse te ondersteunen van de steeds complexere ecosystemen die ten grondslag liggen aan moderne LLM's.
Schaarse aandacht vermindert de rekenkracht en geheugenbandbreedte voor inferentie van lange-context LLM's. Er blijven echter twee belangrijke uitdagingen: (1) de KV-cachecapaciteit groeit nog steeds met de sequentielengte, en offloaden naar CPU-geheugen introduceert een PCIe-overdrachtsknelpunt; (2) de schaarse selectiestap zelf behoudt O(T²)-complexiteit en kan bij lange contexten de aandachtskosten domineren. Wij stellen SparDA voor, een ontkoppelde schaarse aandachtsarchitectuur die een vierde projectie per laag introduceert, de Forecast, naast Query, Key en Value. De Forecast voorspelt de KV-blokken die de volgende laag nodig heeft, waardoor vooruitkijkende selectie mogelijk wordt die CPU-naar-GPU prefetch overlapt met de uitvoering van de huidige laag. Omdat Forecast is ontkoppeld van de aandachtsquery, gebruikt onze GQA-implementatie één Forecast-hoofd per GQA-groep, waardoor de selectie-overhead wordt verminderd ten opzichte van de oorspronkelijke multi-head selector. SparDA voegt <0,5% parameters toe en traint alleen de Forecast-projecties door de aandachtsdistributie van de oorspronkelijke selector te matchen. Op twee schaars voorgetrainde 8B-modellen evenaart of verbetert SparDA de nauwkeurigheid en levert het tot 1,25 keer prefill-versnelling en 1,7 keer decode-versnelling op ten opzichte van de schaarse-aandacht-offload-baseline. Door grotere haalbare batchgroottes op een enkele GPU mogelijk te maken, bereikt SparDA verder tot 5,3 keer hogere decode-doorvoer dan de schaarse baseline zonder offload. Onze broncode is beschikbaar op https://github.com/NVlabs/SparDA.