Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het inzetten van multimodale funderingsmodellen als gesloten-lusbeleid vereist in toenemende mate dat acties worden gebaseerd op waarnemingen die niet langer zichtbaar zijn. Bestaande benchmarks geven echter ofwel de volledige toestand prijs, verwarren reconstructie van verborgen toestanden met andere agentvaardigheden, of testen herinnering alleen nadat een episode is afgelopen. Wij introduceren RNG-Bench (Reconstructieve Non-Markov Spellen), een benchmarksuite die is ontworpen om het vermogen van een basismodel om eerdere waarnemingen te reconstrueren en erop te handelen tijdens interactie in meerdere stappen te isoleren. RNG-Bench omvat twee complementaire spellen: Matching Pairs, waarbij kaartidentiteiten die kortstondig op specifieke locaties worden getoond later moeten worden herinnerd, en 3D Doolhof, waarbij egocentrische aanzichten moeten worden geïntegreerd in een ruimtelijke kaart. Beide spellen worden geëvalueerd onder een uniform testraamwerk met drie gecontroleerde moeilijkheidsassen: rastergrootte, visueel patroon en observatiemodaliteit. De benchmark introduceert verder een head-to-head duelprotocol om variantie op instantieniveau te controleren en een Memory Gap-maatstaf die vergeten loskoppelt van slechte actiekeuze. De moeilijkste configuraties vereisen contexten van ruwweg 128K tokens en 350 beeldinvoeren per episode, en blijven verre van verzadigd door geavanceerde MLLM's. Memory Gap-analyse toont aan dat de meeste residuele fouten voortkomen uit het vergeten van eerdere waarnemingen in plaats van uit suboptimale besluitvorming. Ten slotte verbetert fijnafstemming van Qwen3.5-9B op optimaal-beleidrollouts en gefilterde modeldemonstraties de prestaties op RNG-Bench en draagt het over naar bestaande benchmarks zonder de algemene multimodale capaciteit aan te tasten.
Bewegingsvoorspelling staat centraal in visuele intelligentie: agenten moeten anticiperen op hoe objecten zullen bewegen om acties te plannen, fysieke interacties te beredeneren en realistische toekomsten te synthetiseren. Wij betogen dat 3D-punten in wereldcoördinaten een algemene representatie bieden die klasse-agnostisch, zichtstabiel, compact en direct bruikbaar is voor downstream-taken. We formaliseren de taak van doelgeconditioneerde 3D-puntbewegingsvoorspelling: gegeven een korte visuele geschiedenis, een set 3D-querypunten op een object van interesse, en een taalomschrijving van het beoogde doel, voorspelt het model het toekomstige 3D-traject van elk punt. We introduceren een volledige stack om deze taak op schaal te bestuderen: (1) MolmoMotion-1M is een groot corpus van actie-beschreven, object-gefundeerde 3D-punttrajecten geannoteerd uit 1,16M onbeperkte video's; (2) PointMotionBench is een door mensen geverifieerde benchmark die 111 objectcategorieën en 61 bewegingstypen omvat; en (3) MolmoMotion is een algemeen bewegingsvoorspellingsmodel dat zowel autoregressieve coördinatenvoorspelling als op stroommatching gebaseerde trajectgeneratie ondersteunt. MolmoMotion voorspelt nauwkeurig diverse bewegingspatronen met verschillende taalinstucties en presteert aanzienlijk beter dan bestaande bewegingsvoorspellingsbaselines op PointMotionBench. Tot slot tonen we aan dat de geleerde 3D-bewegingsprior goed overdraagt naar downstream-toepassingen: het verbetert de trainingsefficiëntie en generalisatie voor robotmanipulatie, en de voorspelde trajecten bieden effectieve bewegingsbegeleiding voor generatieve modellen om video's met realistischere objectbeweging te synthetiseren.
Wereldmodellen maken een overgang van passieve visuele generatoren naar een fundamentele, operationele infrastructuur voor Fysieke AI: ze moeten wereldkennis van nature verwerven uit heterogene ervaringen, persistente toestanden handhaven over lange horizonnen en efficiënt functioneren binnen reële implementatiebeperkingen. We introduceren Kairos, een native wereldmodel-stack die rond deze vereisten is ontworpen. (1) Kairos leert de wereld door baanbrekend werk met een Native Pre-training Paradigma dat wordt geregeerd door een Cross-Embodiment Data Curriculum, dat open-wereldvideo's, menselijk gedragsdata en robotinteracties organiseert in een progressief ontwikkelingspad. (2) Kairos onderhoudt de wereld door een verenigd wereldbegrip, generatie en voorspelling binnen een Native Unified Architectuur uitgerust met Hybride Lineaire Temporele Aandacht, waarbij schuivend-vensteraandacht lokale dynamiek vastlegt, opgerekte schuivende vensters middellangeafstandsafhankelijkheden vastleggen en gegate lineaire aandacht een persistent globaal geheugen onderhoudt. We stellen formele theoretische grenzen vast die aantonen dat deze temporele factorisatie foutaccumulatie strikt beperkt, wat wiskundig de toestandsvoortplanting over uitgebreide horizonnen garandeert. (3) Kairos runt de wereld door een Deployment-Aware System Co-Design te integreren om low-latency rollout-generatie op server- en consumentenhardware te ondersteunen voor reële observatie-actie-feedbacklussen. Experimenten op belichaamde wereldmodel-, lange-horizon- en actie-beleidsbenchmarks tonen aan dat Kairos topniveau prestaties behaalt terwijl het een sterke efficiëntie-capaciteitsafweging biedt. Samen positioneren deze resultaten Kairos als een samenhangende operationele basis voor toekomstige zelf-evoluerende fysieke intelligentie.
Taalmodellen getraind op grootschalige visie-taaldatasets hebben een sterk potentieel aangetoond voor belichaamde agenten. Het inzetten van modellen via belichaamd gereedschapsgebruik biedt een veelbelovend alternatief voor end-to-end visie-taal-actiesystemen door hoge-niveau redeneren te combineren met externe modules voor perceptie, planning en controle. Het blijft echter onduidelijk wat een effectieve harness vormt voor belichaamde manipulatie, en in hoeverre een dergelijke harness belichaamde capaciteiten kan ontsluiten in een breed scala aan redeneermodellen. In dit werk presenteren we Guava, een harness-raamwerk voor belichaamd gereedschapsgebruik, ontwikkeld door systematische verkenning van de ontwerpruimte van agentworkflows, actieruimtes en observatieruimtes. Onze studie identificeert drie belangrijke ingrediënten voor effectieve belichaamde agenten: iteratieve perceptie-redeneren-actielussen, semantische actieabstracties en multimodale observaties. Om te begrijpen of deze ontwerpprincipes universeel zijn, zelfs voor kleine modellen, ontwikkelen we een end-to-end trainingspijplijn die belichaamde manipulatiecapaciteiten destilleert in een open-source model van 4B parameter met minder dan 2K trajecten, volledig verzameld in simulatie. Experimentele resultaten in zowel simulatie- als echte omgevingen tonen prestaties die vergelijkbaar zijn met geavanceerde propriëtaire modellen, terwijl ze sterke generalisatie vertonen naar ongeziene objecten, nieuwe instructies en taken met een lange horizon. De resultaten suggereren dat een goed ontworpen harness kan dienen als een schaalbaar, model-agnostisch interface voor belichaamde manipulatie, waardoor sterke emergente belichaamde capaciteiten mogelijk worden in compacte open-source modellen met minimale trainingsdata.
Score- en flow-matching modellen steunen vaak op preferentie-gebaseerd reinforcement learning voor twee doeleinden: het afstemmen op subjectieve voorkeuren en, verrassend genoeg, het herstellen van eigenschappen zoals visuele realisme en samenhangende objectstructuur, die matching-gebaseerde training juist uit de data zelf zou moeten leren. Wij stellen dat dit een structurele mismatch weerspiegelt. Matching-verliezen meten de ell_2-regressiefout op het snelheids- of scoreveld onder de randverdelingen tijdens training, een proxy die slecht is afgestemd op de visuele en semantische eigenschappen die de steekproefkwaliteit bij inferentie bepalen. Met een beloning die is afgestemd op deze eigenschappen, omzeilt RL de mismatch door het model te evalueren op zijn eigen steekproeven en direct de beloningslandschap te volgen. De uitdaging is om een dergelijke beloning te verkrijgen zonder afhankelijk te zijn van menselijke voorkeuren, die kostbaar zijn en datarealisme vermengen met de neigingen van de annotator. Wij stellen Discriminator-Guided RL (DRL) voor. DRL traint een discriminator om data te scheiden van basis-model steekproeven in een voorgetrainde representatieruimte en gebruikt zijn logit als de beloning in KL-geregulariseerd RL. De voorgetrainde ruimte beperkt de discriminator tot perceptueel betekenisvolle richtingen, en de logit schat de log-likelihood ratio tussen data en model, wat de optimale beloning is om de dataverdeling te benaderen. Over SiT, JiT, REPA en RAE heen vermindert DRL de guidance-vrije FID (bijv. van 9,38 naar 2,62 op SiT) en de semantische ruimte FD (bijv. van 88,2 naar 19,3 op DINOv3 voor SiT), met consistente verbeteringen over alle backbones, en verbetert het de menselijke-preferentie beloningen zonder daarop te trainen. Het levert ook een betere Pareto-frontier op tussen preferentiebeloning en beeldgetrouwheid bij daaropvolgende preferentie-gebaseerde post-training, waarbij de afstemming toeneemt terwijl laagniveau-artefacten zoals oververzadiging en overmatige helderheid worden verminderd.
Reinforcement learning (RL) is uitgegroeid tot een representatief post-trainingparadigma voor grote taalmodellen (LLM's), waarmee sterke redeneer- en agentische capaciteiten mogelijk worden gemaakt. De rolloutgeneratie blijft echter een dominant latentieknelpunt, omdat autoregressieve sampling responses sequentieel decodeert en een klein aantal langstaartgeneraties vaak de voltooiingstijd bepaalt. Speculatieve decodering (SD) biedt een natuurlijke manier om dit knelpunt aan te pakken, aangezien het een gevestigde techniek is voor het serveren van vaste LLM's die latentie vermindert door snel tokens te ontwerpen en deze te accepteren via parallelle verificatie, terwijl de verdeling van het doelmodel behouden blijft. De praktische snelheidswinsten zijn echter niet direct overdraagbaar naar RL-rollouts: (i) het evoluerende doelbeleid zorgt ervoor dat elke vaste draftmodel steeds meer mismatch vertoont met de outputverdeling van het beleid; en (ii) de actieve batchgroottes nemen af tijdens rollout-decodering, waardoor de decodering verschuift van rekengebonden naar geheugengebonden regimes, waarin parallelle verificatie onderbenutte rekenkracht kan benutten. Daarom vereist het versnellen van RL-rollouts zowel een draftmodel dat effectief blijft onder lange, hoge-temperatuur generaties van een evoluerend beleid, als een systeembewust gebruik van SD dat rekengebonden regimes vermijdt. We presenteren EfficientRollout, een systeembewust zelf-SD-raamwerk dat is ontworpen om deze kloof voor RL-rollouts te overbruggen. EfficientRollout genereert een gekwantiseerd draftmodel uit het doelmodel (d.w.z. zelf-speculatieve decodering), waardoor het gekoppeld blijft aan het evoluerende beleid zonder aparte pre-training of online aanpassing van het draftmodel. Verder coördineert het een systeembewust SD-schakelbeleid met acceptatiebewuste draftlengte-aanpassing, waardoor speculatie alleen in gunstige regimes plaatsvindt en het draftbudget wordt afgestemd op de evoluerende kwaliteit van het draftmodel. EfficientRollout vermindert de rollout- en end-to-end-latentie met respectievelijk tot 19,6% en 12,7% ten opzichte van een versnelde AR-rollout-baseline, terwijl de uiteindelijke modelkwaliteit behouden blijft.
Sparse Autoencoders (SAE's) ontleden activaties in de residustroom in interpreteerbare kenmerken. Recente verdedigingen in de latente ruimte steunen steeds vaker op deze ontledingen, onder de aanname dat geïdentificeerde 'onveilige' SAE-kenmerken dienen als hanteerbare handvatten voor monitoring en interventie. In dit paradigma wordt verwacht dat het vastzetten van een specifiek schadelijk kenmerk betrouwbaar modelmisgedrag voorkomt. Wij tonen echter aan dat dit succes een herstelbare foutmodus kan verbergen: het vastzetten kan een zichtbare route naar een gedrag blokkeren zonder het gedrag zelf te elimineren. We formuleren deze kwetsbaarheid als herstel na interventie, een beperkt optimalisatieprobleem in de residu-ruimte. Uitgaande van de residutoestand na interventie optimaliseren we residu-perturbaties om het gedrag van vóór de interventie te herstellen, terwijl de waarden na interventie van de beoogde SAE-kenmerken behouden blijven. Zelfs onder een sterk dreigingsmodel waarbij de interventie actief blijft gedurende optimalisatie en generatie, blijft herstel mogelijk. Om uit te sluiten dat herstel simpelweg de interventie ongedaan maakt, gebruiken we encoder-orthogonale updates voor interventies op één laag en de corresponderende Jacobiaan van de kenmerkafbeelding in de kruislaagsetting. In experimenten met TPP, unlearning, IOI en weigeringssturing onthult deze stresstest herstelbaar gedrag ondanks succesvolle interventie op kenmerkniveau. Vooral in de veiligheidskritische setting van weigeringssturing behalen we een herstelpercentage van 95,8% op geldige monsters, terwijl de relatieve drift van verdedigde kenmerken op 0,131 blijft, aanzienlijk lager dan op suffix gebaseerde basislijnen. Een attributieanalyse van het herstelpad lokaliseert dit herstel verder naar het reconstructieresidu van de SAE, de component die niet door de SAE wordt verklaard. Deze resultaten onthullen een kloof tussen controle op kenmerkniveau en gedragscompleetheid: SAE-kenmerken kunnen causale interventie ondersteunen, maar het controleren ervan garandeert geen controle over het onderliggende gedrag.
Reinforcement learning-pijplijnen voor het trainen van grote taalmodellen (LLM's) steunen vaak op handmatig herontworpen omgevingen tussen stadia, waardoor beoefenaars heuristisch moeten afleiden welke configuratie het huidige beleid het beste zal verbeteren. Om dit proces te automatiseren, stellen wij het LLM-as-Environment-Engineer-framework voor, waarin het huidige beleidsmodel faaltrajecten samen met contextuele informatie analyseert en aanpassingen voorstelt aan de omgevingsconfiguratie van het volgende trainingsstadium. We introduceren ook MAPF-FrozenLake, een beheersbaar testbed waarvan de generator multidimensionale omgevingsconfiguraties blootlegt, waardoor het geschikt is voor het bestuderen en benchmarken van omgevingsherontwerp. Op dit testbed conditioneren we de environment engineer op gestructureerde samenvattingen van beleidsgedrag, faalgevallen en omgevingsstatistieken, op basis waarvan het de configuratie voor het volgende trainingsstadium produceert. Met Qwen3-4B als backbone behaalt ons framework de sterkste geaggregeerde prestaties op onze benchmarks, en overtreft het grotere propriëtaire LLM's (bv. GPT, Gemini) en baselines met training in vaste omgevingen. We analyseren verder welke vormen van context het meest effectief zijn, en vinden dat succesvolle omgevingsupdates afhankelijk zijn van faalbewijs en configuraties behouden die al werken. Interessant is dat de huidige RL-checkpoint een betere environment engineer blijkt dan het oorspronkelijke basismodel, wat erop wijst dat het leren van beleid het vermogen van het model om zijn resterende zwaktes te diagnosticeren, verbetert.
Ruimtelijke VLM's hebben aanzienlijke vooruitgang geboekt op het gebied van geometrische waarneming, maar complexe ruimtelijke redeneringen die meerstapsinferentie over diepte, afstand en scène-relaties vereisen, blijven een uitdaging. Bovendien vragen verschillende ruimtelijke queries om fundamenteel verschillende strategieën: sommige kunnen het beste worden aangepakt met puur taalkundige, stapsgewijze deductie, terwijl andere expliciete 3D-verankering vereisen alvorens kwantitatieve inferentie. We presenteren Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs (SR-REAL), een uniform raamwerk dat een ruimtelijke VLM uitrust met twee complementaire redeneerpaden: Language-Only Reasoning (LOR), dat stapsgewijze taalkundige deductie uitvoert, en Detect-Then-Reason (DTR), dat via regiotokens 3D geometrische aanwijzingen (bijv. middelpunten of begrenzingskaders) detecteert alvorens expliciete geometrische inferentie. SR-REAL begint met een koude-start begeleide fijnregelingsfase die LOR- en DTR-chain-of-thought-supervisie construeert en een regio-naar-3D-interface blootlegt, gevolgd door RL dat het beleidsmodel optimaliseert met nauwkeurigheids- en formaatbeloningen; voor DTR verfijnt een discrete, op centrum gebaseerde detectiebeloning de geometrische uitlijning verder. In diverse ruimtelijke benchmarks presteert SR-REAL aanzienlijk beter dan ruimtelijke VLM-baselines: (i) een enkel met RL getraind model ondersteunt beide redeneerpaden, waarbij DTR uitblinkt in regio-bewuste taken door precieze 3D-lokalisatie en LOR algemene ruimtelijke redenering verbetert; (ii) het gezamenlijk trainen van beide paden bevordert wederzijdse versterking; (iii) hoogwaardige, gemengde koude-startgegevens zijn cruciaal voor stabiele RL-optimalisatie; en (iv) het model generaliseert over datasets en domeinen zonder aanpassing per taak, wat wijst op positieve overdracht tussen LOR en DTR.
GUI-grounding vereist dat visie-taalmodellen (VTM's) kleine doelelementen in hoge-resolutie schermafbeeldingen identificeren en precieze schermcoördinaten voorspellen. On-policy zelfdistillatie (OPSD) is een veelbelovende post-training aanpak voor deze coördinaatgevoelige taak, aangezien het dichte token-niveau teacher-signalen biedt die verder gaan dan harde coördinaatlabels. Echter, naïeve OPSD is niet goed geschikt voor GUI-grounding: OPSD evalueert de teacher op door student gegenereerde prefixen, waardoor de kwaliteit van coördinaat-token teacher-signalen kan afnemen wanneer het prefix al is afgeweken van de doelcoördinaat, wat leidt tot onbetrouwbare teacher-signalen. Om dit te mitigeren, stellen we kwaliteitsbewuste zelfdistillatie voor voor VLM-gebaseerde GUI-grounding, die de kwaliteit van coördinaat-token teacher-signalen verbetert door middel van zachte correctheidsbewuste gating en teacher-waarschijnlijkheidsschaling. De zachte correctheidsbewuste gate controleert of de huidige coördinaat-token voorspelling van de teacher nog kan worden gecompleteerd tot de ground-truth box onder het door student gegenereerde prefix. Zo niet, dan wordt het corresponderende teacher-signaal omlaag gewogen. Teacher-waarschijnlijkheidsschaling gebruikt vervolgens het vertrouwen van de teacher als een lichtgewicht factor om de sterkte van de gegate supervisie verder te kalibreren. Een belangrijke empirische bevinding is dat geen van beide componenten afzonderlijk de algehele prestatie verbetert, terwijl combinatie ervan de prestatie consistent verbetert. Dit suggereert dat de twee mechanismen complementaire rollen spelen: correctheidsbewuste gating onderdrukt onbetrouwbare coördinaat-token supervisie, terwijl teacher-waarschijnlijkheidsschaling de sterkte van de resterende signalen kalibreert. Experimenten over zes GUI-grounding benchmarks tonen aan dat onze methode het basismodel consistent verbetert en sterke basislijnen overtreft.
Passieve modellen voor het begrijpen van lange video's vertrouwen doorgaans op een 'bekijk-alles'-paradigma, waarbij frames uniform worden verwerkt ongeacht de moeilijkheidsgraad van de query, waardoor de rekenkosten toenemen met de videoduur. Hoewel er interactieve raamwerken zijn ontstaan, vertrouwen ze vaak op globale voorafscannen, en hun contextkosten schalen nog steeds met de videolengte. Wij stellen OmniAgent voor, de eerste native omni-modale agent die videobegrip formuleert als een op POMDP gebaseerde iteratieve Observatie-Gedachte-Actie-cyclus. OmniAgent voert on-demand acties uit om selectief audio-visuele aanwijzingen te distilleren naar een persistent tekstueel geheugen, waardoor de redeneercomplexiteit effectief wordt ontkoppeld van de ruwe videoduur. Om dit te operationaliseren introduceren we (1) Agentic Supervised Fine-Tuning om native actieve perceptie te bootstrappen via best-of-N-trajectoriessynthese met tweefasige kwaliteitscontrole, en (2) Agentic Reinforcement Learning met TAURA (Turn-aware Adaptive Uncertainty Rescaled Advantage), dat gebruikmaakt van turn-level-entropie om krediettoewijzing te sturen naar cruciale ontdekkingsbeurten. Cruciaal is dat OmniAgent positieve test-tijdsschaling vertoont, waarbij de prestaties verbeteren naarmate het aantal redeneerbeurten toeneemt, wat de effectiviteit van actieve perceptie bevestigt. Empirische resultaten over tien benchmarks (bijv. VideoMME, LVBench) tonen aan dat OmniAgent state-of-the-art prestaties behaalt onder open-source modellen. Opmerkelijk is dat op LVBench onze 7B-agent beter presteert dan de 10 keer grotere Qwen2.5-VL-72B (50,5% vs. 47,3%).
Versterkend leren met verifieerbare beloningen (RLVR) algoritmen zoals GRPO zijn naar voren gekomen als het dominante post-training paradigma voor complex redeneren in LLMs, maar hebben vaak te maken met instorting van de beleidsentropie tijdens training. Wij voeren een eerste-orde gradientanalyse uit van token-niveau entropiedynamiek onder GRPO en identificeren een token-niveau krediettoewijzingsmismatch: de per-token entropievariatie ontleedt in het product van het traject-niveau voordeel en een entropiegevoeligheidsfunctie over de volgende-token verdeling, wat resulteert in een voordeel-verrassing vierkwadrantenstructuur en een bijna-kritikaliteitseigenschap. Gemotiveerd hierdoor stellen wij STARE voor (Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability), dat entropie-kritieke tokensubsets identificeert via batch-interne verrassingskwantielen, selectief hun effectieve voordelen herweegt, en een doel-entropie gesloten-lus regelaar integreert voor stabiele entropieregulatie. Over modelschalen van 1.5B tot 32B en drie taakfamilies (Short CoT, Long CoT en Multi-Turn Tool Use) handhaaft STARE stabiele RL-training over duizenden stappen terwijl de beleidsentropie binnen de doelband blijft. Op AIME24 en AIME25 presteert STARE 4%-8% beter dan DAPO en andere competitieve baselines in gemiddelde nauwkeurigheid, terwijl reflectietokens en responslengte gelijkmatig groeien, wat wijst op een aanhoudende exploratie-exploitatiebalans die het RL-trainingspotentieel verder ontgrendelt. Code is beschikbaar op https://github.com/hp-luo/STARE.
Diffusiemodellen zijn een veelbelovend alternatief geworden voor autoregressieve modellen. Onder deze modellen maken uniforme diffusie-taalmodelen (UDLM's) het mogelijk om elke token bij elke stap bij te werken, wat in principe meer flexibele generatie mogelijk maakt. Er is echter nog geen UDLM vanaf scratch voorgetraind op zowel grote parameterschaal als groot tokenbudget. Zowel autoregressieve modellering als gemaskeerde diffusiemodellering hebben al capabele modellen op schaal waar de gemeenschap op kan studeren en voortbouwen; uniforme diffusie heeft dat niet. Een vanaf scratch voorgetraind UDLM op schaal zou een schoon referentiepunt bieden voor het bestuderen van schalingsgedrag, generatiedynamiek, beheersbaarheid en afwegingen ten opzichte van gevestigde autoregressieve en gemaskeerde diffusiemodellen. Daartoe introduceren we Sumi ("inkt" in het Japans), een volledig open 7B uniform diffusie-taalmodel dat vanaf scratch is voorgetraind op 1,5T tokens. Sumi presteert concurrerend met autoregressieve modellen die zijn getraind op vergelijkbare tokenbudgetten op benchmarks voor kennis, redeneren en coderen, maar presteert minder op commonsense-benchmarks, waaraan onze datamix met veel educatieve gegevens waarschijnlijk bijdraagt. We geven onze modelgewichten, checkpoints en volledige trainingsrecept vrij, inclusief een volledige specificatie van de datamix over openbare corpora. We hopen dat deze release de gemeenschap in staat stelt om native uniforme diffusie op schaal te bestuderen en werk aan de nog slecht begrepen aspecten ervan te katalyseren.
Aangezien een groeiende meerderheid van mondiale video-inhoud wordt geconsumeerd op sociale platforms voor interactieve sociale doeleinden, zijn videogeneratiemodellen gebouwd voor sociale werelden belangrijk maar grotendeels over het hoofd gezien door eerdere studies. In dit werk definiëren we de positie van sociale wereldmodellen en bouwen we een prototype model als eerste stap richting dit doel. Terwijl eerdere wereldmodellen met succes fysieke omgevingen of verkenning van gamewerelden simuleerden, blijven ze fundamenteel losgekoppeld van mensgerichte sociale dynamiek. Om deze kloof te overbruggen als eerste stap naar sociale wereldmodellen, presenteren we MaineCoon, het eerste real-time audio-visuele autoregressieve model dat 22B parameters heeft en in staat is tot real-time streaming generatie en sub-seconde interactie, met een recordbrekende framesnelheid van maximaal 47,5 FPS op een enkele GPU. Voor zover wij weten is MaineCoon ook het eerste real-time audio-visuele generatiemodel dat specifiek is geoptimaliseerd voor sociaal-interactieve toepassingen. Om efficiënte en stabiele training mogelijk te maken, introduceren we verschillende nieuwe technieken in MaineCoon, waaronder self-resampling, cross-modale representatie-uitlijning, domeinbewuste preferentieoptimalisatie en versterkte online-beleidsdistillatie (ROPD). We ontwerpen ook het eerste agentische streaming inferentieframework dat generatie op duizenden seconden of zelfs langer ondersteunt, terwijl drift wordt beperkt met agentisch cachebeheer en promptplanning. Deze innovaties versnellen de training aanzienlijk terwijl de real-time inferentieprestaties worden geoptimaliseerd. Wij geloven dat dit werk niet alleen een nieuwe state-of-the-art (SOTA) prestatiebenchmark stelt voor hoogwaardige, lage latentie en lange horizon audio-visuele autoregressieve modellen, maar ook wijst op de paradigmaverschuiving die gewenst is voor de volgende generatie AI-native sociale platforms.
Multiculturele multi-agentsystemen worden in toenemende mate ingezet in wereldwijd diverse omgevingen, waar verschillende agenten zijn geworteld in uiteenlopende culturele achtergronden. Huidige culturele evaluatie richt zich op waardenafstemming: hoe nauw een individuele agent overeenkomt met een doelcultuur. Afstemming is echter een eigenschap per agent en kan niet onthullen of een systeem als geheel de culturele pluraliteit behoudt die het beoogt te vertegenwoordigen. Wij stellen waardendiversiteit voor als een evaluatie-as op systeemniveau voor multiculturele agentsystemen, gedefinieerd door de dissimilariteit tussen cultureel geconditioneerde agentresponsen op een gedeelde waardevragenlijst. Met behulp van de World Values Survey evalueren we 19 culturen en 18 backbonemodellen over een breed scala aan systeemconfiguraties. We vinden dat diversiteit grotendeels ongecorreleerd is met afstemming, wat aangeeft dat de twee complementaire systeemeigenschappen vastleggen, en dat huidige multiculturele agentsystemen substantieel onder menselijke samenlevingen blijven wat betreft waardendiversiteit. Systemen met gemengde backbones verkleinen deze kloof, maar sluiten haar niet, en de kloof blijft bestaan over cultuursamenstellingen en agentschalen. Sociale interactie erodeert diversiteit verder door agenten naar consensus te drijven, en een casestudy naar participatief budgetteren toont aan dat deze homogenisering de breedte van collectieve besluitvorming vernauwt. Samen vestigen onze resultaten waardendiversiteit als een aparte evaluatie-as voor multiculturele multi-agentsystemen en onthullen ze een aanhoudende homogeniseringstendens in huidige op LLM gebaseerde samenlevingen. Onze code en data zijn openbaar beschikbaar op https://github.com/iNLP-Lab/MultiAgent-Diversity.
Taalmodelagenten worden steeds vaardigere uitvoerders van geïsoleerde, kortetermijntaken zoals software engineering en klantenservice. Toch vereisen uitdagingen in de echte wereld een combinatie van geavanceerde vaardigheden die bij agenten grotendeels ongetest blijven: (1) navigeren over lange tijdshorizons in onzekere omstandigheden; (2) informatie verzamelen in ruizige omgevingen; (3) aanpassen aan een veranderende wereld; (4) coördineren van meerdere bewegende delen richting een samenhangend doel. We introduceren CEO-Bench, dat deze capaciteiten gezamenlijk evalueert door het simuleren van een representatieve echte taak: het runnen van een startup gedurende 500 dagen. Een agent beheert prijzen, marketing, budgettering en vele andere aspecten van een fictief bedrijf via een programmeerbare Python-interface, waarbij hij opereert in dezelfde omgeving en dezelfde uitdagingen tegenkomt als een menselijke CEO. Succes vereist het analyseren van ruizige, onderling verbonden bedrijfsdatabases, het vertalen van signalen naar een degelijke strategie, en het coördineren van vele beslissingen met programmeren. De meest capabele agenten schrijven geavanceerde code die klantsegmenten simuleert om toekomstige kasstromen te voorspellen en onderhandelingsgeschiedenis doorzoekt om verborgen klantvoorkeuren te ontdekken. Desondanks worstelen de meeste modernste modellen in deze omgeving. Alleen Claude Opus 4.8 en GPT-5.5 eindigen boven het startkapitaal van $1M, en geen van beide maakt consequent winst. CEO-Bench zet een eerste stap in het meten van de intelligentie die nodig is om aanhoudende, adaptieve vooruitgang in de loop van de tijd te stimuleren.
Vision Transformers (ViTs) zijn een dominante architectuur geworden voor visuele representatielearning, met uitzonderlijk sterke en breed herbruikbare backbone-kenmerken. ViTs worden echter vaak toegepast op relatief kleine patch-token roosters vanwege de kwadratische kosten van globale self-attention, wat een aanhoudende bottleneck vormt voor dichte voorspellingstaken zoals semantische segmentatie en diepteschatting. Dit heeft de ontwikkeling van taakonafhankelijke kenmerk-opsamplers gestimuleerd. Hoewel recente state-of-the-art methoden visueel scherpe dichte representaties opleveren, kan hun afhankelijkheid van ondiepe beeldencoders voor geleide opsampling leiden tot kenmerklekken, fragmentatie en vervaging. Wij introduceren ViT-Up, een impliciet kenmerk-opsamplingraamwerk dat externe beeldbegeleiding vervangt door laagsgewijze queryconstructie uit tussentijdse ViT-verborgen toestanden. Dit maakt kenmerkvoorspelling mogelijk op willekeurige continue beeldcoördinaten, terwijl de afstemming met de backbone-kenmerkruimte behouden blijft. Experimenten tonen aan dat ViT-Up consequent beter presteert dan state-of-the-art beeldgeleide opsamplers voor zowel dichte voorspelling als semantische correspondentie. Op DINOv3-S+ verbetert ViT-Up de prestaties ten opzichte van eerdere methoden met tot +2,07 mIoU op Cityscapes en +4,17 PCK@0,10 op SPair-71k. Met de grotere DINOv3-B backbone stijgen deze winsten tot +3,36 mIoU en +8,09 PCK@0,10, wat aantoont dat ViT-Up gunstig schaalt met de backbone-capaciteit.
Wereld funderingsmodellen (WFM's) zijn krachtige simulatoren, maar ze opereren hoofdzakelijk in een enkelvoudig beeld en missen de multi-view 3D-consistentie die vereist is voor robotmanipulatie. Hoewel robotsystemen afhankelijk zijn van meerdere camera's (egocentrisch, oog-tot-hand en pols gemonteerd) voor beleidsleren, voegen huidige multi-view wereldmodellen eenvoudigweg beeldtokens samen zonder expliciet geometrisch redeneren. Dit veroorzaakt cross-view objectdrift, diepte-inconsistentie en textuur-misalignatie. We herleiden deze tekortkomingen tot twee gebreken: de afwezigheid van een expliciet inter-view communicatiemechanisme en het ontbreken van een 3D geometrische voorkennis. We stellen dat het gelijktijdig oplossen van beide noodzakelijk en voldoende is. Om dit aan te pakken presenteren we PAIWorld, een raamwerk dat diffusie-transformer wereldmodellen uitbreidt met drie kerncomponenten: (1) Geometrie-bewuste Cross-view Aandachtblokken die een expliciet pad tussen beelden creëren, (2) Geometric Rotary Position Embedding dat camerastraalrichtingen en extrinsieke poses in het aandachtsmechanisme codeert, en (3) Latent 3D-REPA, dat 3D-bewuste kenmerken uit bevroren 3D funderingsmodellen destilleert om 3D-consistentie te waarborgen. Gebouwd op een DiT-gebaseerd wereld funderingsmodel behaalt PAIWorld state-of-the-art multi-view 3D-consistentie op robotmanipulatie-benchmarks, met een 1e plaats op de WorldArena-leaderboard en een 2e plaats op de AgiBot-Challenge2026-leaderboard, terwijl het downstream toepassingen mogelijk maakt zoals modelgebaseerd plannen, wereldactiemodellen en multi-view beleid post-training.
Redeneren op het niveau van wetenschappelijke toponderzoek blijft een grote uitdaging voor grote taalmodellen (LLMs), waarbij zelfs de sterkste commerciële systemen tekortschieten ten opzichte van expertniveau. Een nadere blik op het modelgedrag onthult een aanzienlijke complementariteit die evaluatie op basis van één model verbergt: verschillende topmodellen blinken uit in verschillende vraagtypen, en geen enkel model geeft het volledige beeld. We presenteren SciOrch, een raamwerk dat een lichtgewicht 8B-model traint om top-LLMs te orkestreren voor wetenschappelijk redeneren. De orkestrator ontleedt elke vraag, delegeert deelproblemen aan geselecteerde commerciële modellen via API-aanroepen, en synthetiseert een eindantwoord. Het trainen van een dergelijke orkestrator is fundamenteel moeilijker dan conventionele agentische RL: elke actie triggert een API-aanroep die duur is zowel qua dollarkosten als latentie, waardoor standaard online rollouts onuitvoerbaar zijn. We pakken dit aan met een op MCTS gebaseerde aanpak, waarbij we diverse orkestratietrajecten produceren, per-knoop enkele-stap samples extraheren, en de orkestrator optimaliseren met GRPO-achtige training. Op een testset van 240 vragen uit SGI-Reasoning en Scientists' First Exam behaalt SciOrch een gemiddelde nauwkeurigheid van 56,66%, waarmee het het sterkste enkele commerciële model met 3,74% en de sterkste multi-agentbaseline met 3,33% overtreft. Het behaalt ook de beste nauwkeurigheid op zowel SGI als SFE met minder dan de helft van de API-kosten van typische multi-agentmethoden.
Multi-turn tool-use RL wordt gefleste door de snelle uitputting van informatieve samples in statische datasets. We observeren dat het gradiëntsignaal in GRPO zich concentreert op taken met de hoogste rollout-beloningsvariantie, een gevolg van de Popoviciu-bovengrens. Hierdoor leveren samples nabij de capaciteitsgrens van de agent – waar successen en mislukkingen ongeveer in evenwicht zijn – onevenredig grote beleidsgradiënten. Naarmate de training vordert, verschuift deze grens continu, waardoor de pool van informatieve samples in een statische dataset geleidelijk wordt uitgeput. We stellen RODS (Reward-driven Online Data Synthesis) voor om deze uitputting tegen te gaan. RODS sluit de lus tussen RL-training en datageneratie door de voortgangsbeloningsvariantie te hergebruiken als een praktische, kosteloze grensdetector die geen extra inferentie vereist naast de rollouts die al voor de training worden berekend. Het identificeert continu dergelijke grenssamples, synthetiseert nieuwe multi-turn varianten die overeenkomen met hun structurele complexiteit (bijv. API-topologie en afhankelijkheidsdiepte) via een vaardigheid-afgestemde hersamplepijplijn, en beheert een dynamische herhalingsbuffer die co-evolueert met het beleid. Uitgaande van 400 menselijke zaadjes en een actieve trainingspool van ~800 samples, bereikt RODS een vergelijkbare prestatie als een offline pijplijn met 17K samples, terwijl het ongeveer 20x minder trajecten vereist, en verbetert het ten opzichte van fixed-data RL en omgevingsaugmentatie in onze gecontroleerde opstelling.
Offline reinforcement learning wordt doorgaans geanalyseerd onder procesniveau beloningssupervisie, maar veel sequentiële beslissingsdatasets registreren slechts uitkomsten op trajectniveau. We ontwikkelen een statistische theorie voor offline beleidsoptimalisatie vanuit dergelijke supervisie op uitkomstniveau. We bestuderen eerst de canonieke setting waarin het doel de verwachte cumulatieve beloning blijft, maar elk offline traject slechts een scalaire label geeft waarvan de conditionele verwachting de cumulatieve opbrengst is. We stellen OPAC voor, een pessimistisch actor-critic algoritme dat een latent beloningsmodel leert en een beleid optimaliseert op basis van labels op trajectniveau. We bewijzen een waarborg met hoge waarschijnlijkheid van orde \(\widetilde{O}\!\left(H^2 C_{s,a}(\pi^{\star})/n\right)\) en een bijpassende ondergrens, die de scherpe statistische kosten karakteriseren van het vervangen van procesniveau beloningen door één label op trajectniveau. We breiden het principe vervolgens uit naar op voorkeur gebaseerde feedback, waarbij de leidende horizon- en concentreerbaarheidsafhankelijkheid behouden blijft tot aan constanten van het voorkeursmodel. Ten slotte bestuderen we algemene uitkomstgebaseerde offline RL, waarbij zowel de supervisie als de doelstelling hoeveelheden op trajectniveau zijn, veroorzaakt door een niet-lineaire aggregatie van latente beloningen per stap. Dit probleem is in het algemeen niet leerbaar: voor all-success-doelstellingen kan elke offline leerder \(\Omega(2^{H})\) trajecten nodig hebben, zelfs met deterministische overgangen en constante concentreerbaarheid. Vervolgens identificeren we een hanteerbaar regime via twee structurele coëfficiënten, \(\kappa_{\mu}(\sigma)\) en \(\chi_{\mu}(\sigma)\), die informatieverlies in uitkomstenaggregatie en gegeneraliseerde Bellman-updates vatten, waaronder gegeneraliseerde OPAC polynomiale steekproefcomplexiteit bereikt. Samen schetsen onze resultaten wanneer supervisie op uitkomstniveau steekproefefficiënte offline controle mogelijk maakt en wanneer ontbrekende procesniveau beloningen fundamentele statistische barrières creëren.
Het leren simuleren van menselijke gebruikers in interactieve omgevingen kan de training van agentassistenten, de evaluatie van personalisatiesystemen, onderzoek in de sociale wetenschappen en meer bevorderen. Bestaande benaderingen doen dit doorgaans door een groot taalmodel (LLM) te trainen om overeen te komen met één enkele grondwaarheidsrespons, hetzij door de log-waarschijnlijkheid te maximaliseren, hetzij door een overeenkomstbeloning te gebruiken. Wij stellen daarentegen {Turing-RL} voor: een op Turing-Test gebaseerde reinforcement learning-aanpak voor het trainen van gebruikersimulatormodellen. {Turing-RL} gebruikt een discriminatieve Turing-beloning met een LLM-beoordelaar om te scoren hoe niet te onderscheiden een gegenereerde respons is van de echte gebruiker, gegeven de geschiedenis van de gebruiker, en de gebruikersimulator-LLM leert responsen te produceren die niet te onderscheiden zijn van wat de gebruiker had kunnen zeggen met dergelijke beloningen. In twee verschillende domeinen—conversationele chat en Reddit-forumdiscussie—vinden we dat {Turing-RL} consequent beter presteert dan basismethoden op zowel LLM- als menselijke evaluatiemetrieken. Onze studie suggereert dat optimaliseren voor niet-te-onderscheidenheid, in plaats van responsmatching, effectief is voor het leren van gebruikersimulatoren.
Video generatieve modellen (VGM's) zijn een nieuw front geworden dat niet alleen kan worden gebruikt voor videogeneratie, maar ook voor een groot aantal stroomafwaartse taken, waaronder wereldmodellering. Om deze taken te bevorderen, moet een goed videomodel de fysieke realiteit van de wereld begrijpen. Het evalueren van dit begrip is een opkomend vakgebied en heeft geleid tot de Physics-IQ-benchmark, die dit expliciet kwantificeert door door modellen gegenereerde video's te vergelijken met echte video's van fysische experimenten. In dit werk presenteren we een systematische audit van de Physics-IQ-benchmark, leggen we tekortkomingen bloot en stellen we drie oplossingen voor die scherper stellen hoe we het fysisch begrip van VGM's kunnen meten. In het bijzonder verbeteren we de kwaliteit van prompts en grondwaarheid om de invloed van verstorende factoren te verminderen, en introduceren we verder een scoringssysteem op steekproefniveau dat elk steekproef en elke metriek gelijk weegt. Onze resulterende benchmark, Physics-IQ Verified, verfijnt 57,6% van alle steekproeven en verbetert 34,8% van de prompts. In een vergelijkende studie met zes beeld-naar-video generatieve modellen observeren we gematigde maar betekenisvolle veranderingen in rangschikking (Kendall's τ = 0,46). We hopen dat Physics-IQ Verified de gemeenschap vooruit helpt door een betrouwbaarder signaal te bieden voor fysisch accurate VGM's. De code voor de benchmark is toegankelijk op https://github.com/google-deepmind/physics-iq-benchmark.
AI-systemen kunnen steeds vaker wetenschappelijke workflows automatiseren, maar de redenering die eerder bewijs, gegenereerde ideeën, experimenten en uiteindelijke beweringen met elkaar verbindt, blijft vaak impliciet binnen modelinferentie. Hier introduceren we Xcientist, een onderzoeksframework dat onderzoekssynthese en experimentele validatie externaliseert tot inspecteerbare, contractgestuurde processen. Xcientist organiseert literatuurbewijs, ideetoestanden, implementatieplannen, ablatieregistraties en herstelsporen als blijvende onderzoeksartefacten, zodat gegenereerde mechanismen kunnen worden onderbouwd, uitgevoerd, getest en herzien zonder hun bewijsbasis te verliezen. We identificeren claimdrift als een faalmodus van geautomatiseerd onderzoek, waarbij uitvoerbare artefacten niet langer het oorspronkelijk geclaimde mechanisme ondersteunen. In trainingsvrije geheugensystemen, grafgestructureerde verkeersvoorspelling en multischaal fysica-geïnformeerde neurale netwerken behoudt Xcientist traceerbare trajecten van probleemformulering tot mechanismeontwerp, validatie en begrensde herziening. Deze resultaten suggereren dat AI-wetenschappers niet alleen moeten worden beoordeeld op hun uiteindelijke artefacten, maar ook op de vraag of hun synthese- en validatieprocessen toerekenbaar, inspecteerbaar en wetenschappelijk verantwoord blijven.
Testtijd-schaling via sequentiële revisie is naar voren gekomen als een krachtig paradigma voor het verbeteren van het redeneervermogen van grote taalmodellen (LLM's). Standaard post-trainingsmethoden optimaliseren echter voornamelijk eenmalige doelen, wat een fundamentele mismatch creëert met de dynamiek van meerstapsinferentie. Hoewel recent werk dit behandelt als meerronde-reinforcement learning (RL), optimaliseren conventionele benaderingen direct de meerstapstrajecten, waardoor ze de hoogwaardige fouten in tussenstappen niet verder benutten waar het model van kan leren door ze te corrigeren. Wij stellen een tweefasig iteratief raamwerk voor dat afwisselt tussen online data-/promptaangroei en beleidsoptimalisatie. Door de tussenstappen ("bijna-goede" antwoorden) in de succesvolle hersteltrajecten om te zetten in ontkoppelde revisie- en verificatieprompts, concentreert onze aanpak de training op zowel effectieve antwoordtransformatie als foutidentificatie. Deze aanpak maakt efficiënte off-policy datageneratie mogelijk en vermindert de computationele overhead van langdurige bemonstering in vergelijking met standaard meerronde-RL. Op LiveCodeBench, met behulp van openbaar beschikbare testgevallen als feedback, zien we winsten van +6,5 punten ten opzichte van de RL-baseline en +4,0 punten ten opzichte van standaard meerronde-training. Naast coderen evenaart onze aanpak het eerder gerapporteerde SOTA-resultaat voor cirkelpakking, terwijl het het kleinste basismodel (4B) gebruikt en veel minder rollouts dan de veel grotere evolutionaire zoeksystemen. Wiskunderesultaten onder grondwaarheidsverificatie bevestigen verder een verbeterd correctievermogen. Het generaliseert ook naar beperkingsbevredigingspuzzels buiten de distributie, zoals n-koninginnen en mini-sudoku, waar correctheid volledig wordt gedefinieerd door probleembeperkingen. Code is beschikbaar op https://github.com/yxliu02/REVES.git.
Huidige benchmarks voor computergebruikagenten evalueren modellen in onpersoonlijke omgevingen. Dit laat een kloof tussen evaluatie en implementatie, waar persoonlijke assistenten worden verwacht te werken over het hele digitale leven van een gebruiker, inclusief hun context, historische gegevens en ingelogde accounts. Deze kloof is het grootst bij webtaken, waar live web-evaluaties geen sites kunnen testen die inloggen of persoonlijke informatie vereisen, het soort site dat een echte persoonlijke assistent moet bedienen. We introduceren MyPCBench, dat computergebruikagenten test als persoonlijke assistenten op een Linux-desktop met 17 gesimuleerde realistische webapplicaties en een volledige desktopstack, allemaal ingezaaid voor één canonieke persona: Michael Scott uit The Office. We definiëren 184 taken in deze omgeving, elk geïnspireerd door een echt verzoek uit de OpenClaw-gemeenschap, en benchmarken zes gesloten en opengewichtmodellen met een uniforme computer+bash tool-interface. We vinden dat het beste model, Claude Opus 4.6, 55,4% van de taken volledig oplost, het enige model boven de 50%. Modelmislukkingen clusteren op taken die veel applicaties overspannen en op lange trajecten, waar personalisatie een assistent het meest onder druk zet. We geven de omgeving, takenverzameling en het agentharnas vrij op https://mypcbench.com.
Een bruikbare telefoonagent moet persoonlijk intelligent zijn. Het moet redeneren over de identiteit, geschiedenis en voorkeuren van een gebruiker zoals die op het apparaat bestaan, niet alleen geïsoleerde instructies opvolgen in een onpersoonlijke zandbak. Bestaande mobiele agent-benchmarks missen dit soort personalisatie. We introduceren iOSWorld, de eerste interactieve native iOS-simulatorbenchmark die is opgebouwd rond een blijvende gebruikersidentiteit en 26 nieuw ontwikkelde iOS-apps omvat. Deze apps bevatten onderling verbonden gegevens zoals transacties, berichten, reisgegevens, sociale relaties en financiële activiteiten. iOSWorld omvat 133 taken verdeeld over drie in moeilijkheidsgraad toenemende categorieën: taken voor één app (27) testen één app, taken voor meerdere apps (60) beslaan 2 tot 8 apps, en geheugen- en personalisatietaken (46) vereisen dat agenten patronen afleiden uit persoonlijke gegevens. We evalueren geavanceerde en open-source computergebruiksmodellen in zowel alleen-visie als bevoorrechte visie+XML-instellingen. De beste configuratie haalt 52% algemeen, maar slechts 37% op taken voor meerdere apps. Bevoorrechte visie+XML-toegang verbetert geavanceerde modellen met maximaal 26 procentpunten, terwijl kleinere modellen geen baat hebben bij toegevoegde toegankelijkheidsboom-invoer. We brengen iOSWorld uit als een open-source benchmark met alle apps, gezaaide gegevens, taken, beoordelingscriteria en evaluatiecode.
Industriële producten zoals kleppen en stroomonderbrekers worden gedefinieerd door gedetailleerde technische specificaties die inkoop, compatibiliteit en veiligheid in toeleveringsketens bepalen. Deze specificaties zijn verspreid over meerdere heterogene productafbeeldingen, waaronder specificatietabellen, typeplaatjes en technische tekeningen, maar of Multimodale Grote Taalmodellen (MLLM's) ze betrouwbaar kunnen extraheren blijft onderbelicht. Om deze leemte te vullen introduceren we IndustryBench-MIPU, de eerste grootschalige benchmark voor begrip van industriële producten uit meerdere afbeeldingen, gebouwd rond gestructureerde attribuutextractie – het extraheren van eigenschap-waardeparen uit productafbeeldingen. Deze taak test gezamenlijk tekstherkenning op specificatietabellen en typeplaatjes, visueel redeneren over technische tekeningen, domeinkennis om industriële terminologie te ontcijferen, en integratie van bewijs over afbeeldingen om verspreide specificaties samen te voegen. Concreet omvat de benchmark 4.559 producten over 27.652 afbeeldingen met 103.703 annotaties verspreid over 18 industriële categorieën, geconstrueerd via multi-modelconsensus en kwaliteitsborging op drie niveaus. Evaluatie van negen MLLM's in zowel instellingen met één afbeelding als met meerdere afbeeldingen op productniveau onthult een scherpe volledigheidskloof: modellen behalen hoge precisie (86–94%), maar het beste model extraheert slechts 49,9% van de attributen op productniveau; de overgang van extractie uit één afbeelding naar meerdere afbeeldingen kost 15–34 procentpunt aan recall. Volledigheid over meerdere afbeeldingen, niet nauwkeurigheid op één afbeelding, is de kernfles. De dataset en code zijn openbaar beschikbaar.
We tonen aan dat de standaardbasis van verborgen toestanden in transformatoren reeds een trainingsvrije, architectuur-algemene kenmerkbasis vormt. Individuele dimensies coderen semantische inhoud via hun tekens (+/-1) en vertrouwen via hun magnitudes, en fungeren als onafhankelijke binaire registers; een kenmerk is een subset van dimensies met een consistent tekenpatroon, uitgelezen door tekenovereenkomsten te tellen zonder geleerde rotatie. We valideren dit Bag of Dims-raamwerk over zeven modellen, variërend over taal (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), visie (DINOv2, ViT-Base) en audio (AST). Alleen tekens dragen al voorspellende inhoud: tekenpatronen met eenheidsmagnitude behouden 60-93% top-5 volgende-token nauwkeurigheid via de LM-head, en decoder-vrije Hamming-score bereikt 80-90% top-4096. Vanuit een enkel-token cache (één voorwaartse doorgang per token, geen context, geen labels) detecteren we 175 categorieën met AUC 0,97-0,99 via tekenovereenkomst; een getrainde probe voegt slechts +0,018 AUC toe en convergeert naar as-uitgelijnde gewichten. Deze kenmerken zijn causaal werkzaam: ze overleven de K/V-aandachtsprojecties, zijn herleidbaar tot de FFN-neuroncoalities die ze schrijven (willekeurige gewichtscontroles reproduceren dit nooit), en het omdraaien van een kenmerkens tekens tijdens de live voorwaartse doorgang onderdrukt het concept in vier taalmodellen, magnitude-gematcht en conceptspecifiek. Dimensies blijven onafhankelijk gedurende het proces (paarsgewijze wederzijdse informatie onder 0,006 bits). De structuur is niet specifiek voor taal: dezelfde per-dimensie tekens verschijnen in zelf-gesuperviseerd zicht (DINOv2, 9/12 ImageNet-superklassen), gesuperviseerd zicht (ViT-Base, 11/12) en audio (AST, 50/50 ESC-50-categorieën), dus het weerspiegelt algemene transformator-training, niet de taalmodelleringsdoelstelling. De standaardbasis is al voldoende voor kenmerk-uitlezing in één voorwaartse doorgang, zonder optimalisatie, zonder GPU-dagen. Het open probleem verschuift van het vinden van de juiste rotatie naar het catalogiseren van wat elke dimensie codeert.
Creatieve beeldbewerkingstools, zoals de knoppen Verwijderen of Generatief vullen van Photoshop, staan centraal in het dagelijks gebruik door klanten en zijn verantwoordelijk voor een groot deel van het verkeer in Photoshop en Lightroom. Huidige generatieve AI-modellen hebben echter te maken met aanzienlijke latentie-uitdagingen, die nog duidelijker worden bij de overgang van op convolutie gebaseerde U-Nets naar diffusietransformers (DiT's). In onze evaluatie op honderden representatieve beeldbewerkingsvoorbeelden met een breed scala aan maskerverhoudingen, is de DiT-module alleen al verantwoordelijk voor gemiddeld 73% van de totale modellatentie, zelfs nadat deze is gedestilleerd van 50 naar 8 tijdstappen. Om deze uitdaging aan te pakken, stellen we HiLo-Token voor, een invoeradaptief tokencompressieraamwerk dat meer tokenbudget toewijst aan hoogfrequente, contextrijke gebieden, terwijl minder tokens aan laagfrequente gebieden worden toegewezen. Specifiek, voor het bewerkingsgebied dat door het gebruikersmasker is aangegeven, behouden we alle tokens binnen een gedilateerd masker om sterke localiteit en contextuele relevantie te behouden. Buiten het bewerkingsgebied introduceren we een eenvoudige maar effectieve strategie voor het selecteren van hoogfrequente tokens op basis van ruimtelijke frequentie om belangrijke lokale details vast te leggen, terwijl we tokens van een 16x verkleinde afbeelding gebruiken om laagfrequente componenten weer te geven en de onscherpe maar globale structuur te behouden. Uitgebreide experimenten op productie-evaluatiegegevens bevestigen de effectiviteit van de voorgestelde methode, met versnellingen van respectievelijk 3,13x, 2,59x en 1,67x voor DiT op A100-80GB voor beeldbewerkingstaken in de categorieën kleine, middelgrote en grote maskerverhoudingen met gemiddelde verhoudingen van respectievelijk 6,38%, 15,92% en 35,36%, zonder enige achteruitgang in generatiekwaliteit.
On-policy zelfdistillatie (OPSD) traint een model op zijn eigen rollouts en gebruikt een bevroren kopie om dichte token-niveaudoelen te bieden, geconditioneerd op een referentiedoel. Dit werkt goed voor redeneren met LLM's, maar een directe uitbreiding naar multimodale grote taalmodellen (MLLM's) kan een shortcut creëren: het bevoorrechte doel kan tokens voornamelijk sturen op basis van het tekstuele referentiedoel in plaats van de afbeelding. We stellen ViGOS voor, een visueel verankerd OPSD-framework voor post-training van MLLM's. De student schrijft eerst een visuele beschrijving en redeneert vervolgens naar het uiteindelijke antwoord. Voor geldige rollouts houdt een alleen-beeld-perceptiedocent toezicht op de beschrijving, terwijl een bevoorrechte redeneerdocent toezicht houdt op de redenering en het uiteindelijke antwoord op hetzelfde student-prefix. Een referentiedocent wordt alleen gebruikt voor ongeldige rollouts om het uitvoerformaat te herstellen. Over algemene visie-taalbenchmarks, expertredenering, visuele wiskunde, ruimtelijke verankering en visuele-taal-voorafbenchmarks heen, behoudt ViGOS de belangrijkste voordelen van OPSD en verbetert het beeld-verankerd gedrag in shortcut-gevoelige settings.
Turks is agglutinerend: betekenis wordt gedragen door morfemen, maar de subwoordtokenizers die moderne taalmodellen aansturen, splitsen woorden op basis van corpusstatistieken, waardoor semantisch belaste achtervoegsels worden gefragmenteerd – en bij WordPiece en regelgebaseerde analyzers – lukt het niet om hun output terug te decoderen naar de originele tekst. Dit artikel presenteert Morpheus, een neuraal morfeemgrens-model voor Turks dat tegelijkertijd een verliesloze, morfologiebewuste tokenizer en een woord-embedding-producent is. Een differentieerbaar Poisson-binomiaal dynamisch programma zet per-karakter kansgrenzen om in zachte morfeemlidmaatschappen tijdens training en exacte segmenten tijdens inferentie, zonder stringnormalisatie, zodat decode(encode(w)) = w per constructie geldt. Omdat het model neuraal is, produceert dezelfde forward pass die tokeniseert ook een gestructureerde woordembedding. Onder de omkeerbare tokenizers – de enige die geldig zijn voor generatie – behaalt Morpheus de laagste bits per teken (1,425), verdubbelt het ruwweg de gouden morfologische uitlijning van de subwoordfamilie (MorphScore macro-F1 0,61 vs. ~0,32), en gebruikt het ~19% minder GPU-geheugen dan subwoordtokenizers met een vocabulaire van 64K. Als embedder leiden bevroren Morpheus-vectoren bij lexicale retrieval (root-family MAP 0,85) en same-root verificatie (ROC-AUC 1,00), waarmee ze de meertalige retriever BGE-M3 en BERTurk overtreffen; bij context- en flexieafhankelijke taken (NER, case/number probing) blijven de zwaardere contextuele encoders voorop – een afweging die we toeschrijven aan de root-centrische geometrie van Morpheus. Code: https://github.com/lonewolf-rd/TurkishMorpheus; model: https://huggingface.co/lonewolflab/Morpheus-TR-50K; interactieve demo: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.
Ondanks de groeiende interesse zijn de meeste evaluaties van de personalisatiecapaciteiten van grote taalmodellen (LLM's) gebaseerd op synthetische data. Het blijft onduidelijk hoe goed huidige personalisatiesystemen werken voor echte gebruikers. In dit artikel bestuderen we de kloof in personalisatieprestaties van LLM's bij het gebruik van synthetische versus menselijke data. We verzamelen menselijke gesprekken (550 gesprekken) en beoordelingen over drie fasen van personalisatie: het extraheren van gebruikerskenmerken uit gesprekken (5.949 beoordelingen), het koppelen van relevante kenmerken aan nieuwe prompts (11.919) en het integreren van relevante kenmerken in een gepersonaliseerde reactie (1.101). Het integreren van menselijke data onthult systeembeperkingen in elke fase. Modellen hebben moeite met het extraheren van kenmerken uit menselijke gesprekken, zijn het oneens met menselijke beoordelingen over relevante kenmerken, en genereren gepersonaliseerde reacties die mensen niet beter beoordelen dan generieke reacties (hoewel LLM's die zelf breed als beter beoordelen). We introduceren twee lichtgewicht trainingsgebaseerde interventies die geautomatiseerde personalisatie-evaluatie dichter bij menselijke data brengen in onze eerste twee fasen. In onze derde fase vinden we echter dat aangeleerde beloningsmodellen slechts een bescheiden correlatie vertonen met menselijke beoordelingen, wat suggereert dat mensgerichte personalisatiekwaliteitsoordelen moeilijk direct te modelleren zijn. Onze verzamelde data biedt een basis voor het bestuderen van hoe modellen gebruikersinformatie moeten extraheren, selecteren en integreren op manieren die mensen nuttig vinden.
Voorspellende code-aanvulling versnelt aanzienlijk hoe snel ontwikkelaars werken. In spreadsheets, hoewel ze veel gangbaarder zijn, bestaan dergelijke automatische aanvullingsfuncties vrijwel niet. Om deze leemte aan te pakken, introduceren we een benchmark voor systemen die een reeks gebruikersacties in een spreadsheet observeren en toekomstige acties voorspellen. Twee uitdagingen zijn (1) het ontbreken van bewerkingsgeschiedenissen in openbare spreadsheetcorpora en (2) de complexe ruimte van spreadsheetacties (ruimtelijk, temporeel, samengesteld). Om (1) aan te pakken, stellen we handmatig 52 reeksen van 12K acties samen die spreadsheets uit openbare corpora reconstrueren, geïnitieerd door geparametriseerde heuristieken en LLM-verfijning. Om (2) aan te pakken, stellen we een online evaluatie voor die na elke gebruikersactie een voorspelling verwacht, die voorspelling accepteert of verwerpt, bij acceptatie de toekomstige acties bijwerkt, en dit herhaalt totdat de doelspreadsheet is verkregen. We gebruiken meerdere basisvoorspellers (waaronder zero-shot LLM's, fijn afgestemde SLM's en klassieke modellen) en analyseren verschillende eigenschappen die onze benchmark ons leert, waaronder maar niet beperkt tot: eigenschappen van opgeslagen acties en vals-positieven, efficiëntie, effect van gebruikersprofielen, effect van triggers, en effect van context.
Robotische systemen nemen de wereld waar via meerdere invoermodaliteiten – waaronder visuele camerastromen en natuurlijke taalopdrachten – en moeten op basis van deze signalen de juiste acties kiezen. Het is echter onrealistisch om aan te nemen dat alle invoerapparaten permanent beschikbaar zijn, aangezien sensoren kunnen falen, geblokkeerd raken of volledig uitvallen tijdens de inzet. Robuust omgaan met dergelijke scenario's van ontbrekende modaliteiten is daarom essentieel voor realistische robotwerking. Dit artikel introduceert RL4IL, een door reinforcement learning gestuurde methode voor imitatie leren die de meest geschikte actie voor een gegeven waarneming selecteert door de meest relevante expertdemonstraties uit een trainingsbibliotheek te identificeren. Een reinforcement learning-beleid, getraind via Proximal Policy Optimization op basis van Breadth-First Search-kandidaatsets, rangschikt kandidaatdemonstraties en een soft cross-attention-fusiehoofd aggregeert hun actiesignalen om de uiteindelijke voorspelling te genereren. Wanneer een modaliteit ontbreekt tijdens de inferentie, identificeert een specifiek per-modaliteit RL-retrievalbeleid donordemonstraties uit de trainingsbibliotheek, en een zacht imputatiehoofd reconstrueert de ontbrekende inbedding via cross-attention over de best gerangschikte donoren – zonder dat enige hertraining van het systeem nodig is. Experimenten op drie LIBERO-benchmarksuites tonen aan dat RL4IL aanzienlijk beter presteert dan state-of-the-art imitatieleermethoden onder sensoruitvalcondities, terwijl er geen training van het beleidsnetwerk vereist is. De code is te vinden op https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera.
De Network Data Analytics Function (NWDAF) staat centraal in het mogelijk maken van zero-touch netwerkbeheer in vijfde generatie (5G) netwerken door het ondersteunen van realtime analyses en closed-loop automatisering. Ondanks zijn cruciale rol blijven open-source NWDAF-implementaties beperkt in reikwijdte en toegankelijkheid. In dit artikel ontwikkelen we een open-source NWDAF, compatibel met het open-source kernnetwerk Free5GC, dat netwerkgegevens verzamelt via abonnementen op Netwerkfuncties (NF's), en ook een geïntegreerde Large Language Model (LLM)-interface bevat die natuurlijke taalinteractie met menselijke operators mogelijk maakt. De interface verwerkt gebruikersintenties, codeert ze met behulp van een semantisch inbeddingsmodel en wijst ze toe aan een van zeven vooraf gedefinieerde intentiecategorieën om analysequery's of gebeurtenisabonnementscommando's te activeren. Deze architectuur abstraheert de complexiteit van traditionele interfaces, waardoor niet-deskundige gebruikers netwerkanalyses en abonnementen gemakkelijk kunnen beheren. Het systeem ondersteunt Access and Management Function (AMF)- en Session Management Function (SMF)-gebeurtenisabonnementen, realtime monitoring en het ophalen van analyses via Prometheus, allemaal toegankelijk via een conversationele interface. Door AI-gestuurde intentieherkenning te overbruggen met gestandaardiseerde netwerkanalyses, verbetert onze implementatie de bruikbaarheid voor operators en biedt het een basis voor AI-native 6G-netwerken. De broncode en datasets die tijdens het huidige onderzoek zijn gegenereerd, zijn beschikbaar in de GitHub-repository, https://github.com/HenokDanielbfg/testbed.