Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Vision-Language-Action (VLA)-modellen hebben als doel een enkele generalistische controller voor robots te bieden, maar de huidige systemen schieten tekort op de criteria die van belang zijn voor inzet in de praktijk. Frontier-modellen zijn gesloten, open-weight alternatieven zijn gekoppeld aan dure hardware, reasoning-augmented policies betalen een verboden hoge latentie voor hun grounding, en fijn afgestemde slagingspercentages blijven onder de drempel voor betrouwbaar gebruik. Wij presenteren MolmoAct2, een volledig open action reasoning-model gebouwd voor praktische inzet, dat zijn voorganger op vijf assen verbetert. Wij introduceren MolmoER, een VLM-backbone gespecialiseerd in ruimtelijk en embodied reasoning, getraind op een corpus van 3,3 miljoen samples met een specialiseer-dan-repeteer recept. Wij brengen drie nieuwe datasets uit die low-to-medium cost platforms bestrijken, waaronder MolmoAct2-BimanualYAM, 720 uur aan telegeoperreerde bimanuele trajecten die de grootste open bimanuele dataset tot op heden vormen, samen met kwalitatief gefilterde Franka (DROID) en SO100/101 subsets. Wij bieden OpenFAST, een open-weight, open-data action tokenizer getraind op miljoenen trajecten over vijf embodimenten. Wij herontwerpen de architectuur om een flow-matching continuous-action expert te enten op een discrete-token VLM via per-layer KV-cache conditioning. Ten slotte stellen wij MolmoThink voor, een adaptieve-diepte reasoning-variant die alleen dieptetokens opnieuw voorspelt voor scènegebieden die tussen tijdstappen veranderen, waardoor geometrische grounding behouden blijft tegen een fractie van de eerdere latentie. In de meest uitgebreide empirische studie van enige open VLA tot nu toe, die 7 simulatie- en praktijkbenchmarks omvat, presteert MolmoAct2 beter dan sterke baselines, waaronder Pi-05, terwijl MolmoER GPT-5 en Gemini Robotics ER-1.5 overtreft over 13 embodied-reasoning benchmarks. Wij geven modelgewichten, trainingscode en complete trainingsdata vrij. Projectpagina: https://allenai.org/blog/molmoact2
Veel real-worldtaken vereisen dat taalmodelen kunnen redeneren over complexe contexten die hun parametrische kennis overstijgen. Dit vraagt om contextleren, waarbij taalmodelen relevante kennis rechtstreeks uit de gegeven context leren. Een intuïtieve oplossing is vaardigheidsuitbreiding tijdens inferentie: het extraheren van regels en procedures uit de context naar natuurlijke-taalskills. Het construeren van dergelijke skills voor contextleerscenario's kampt echter met twee uitdagingen: de onhoudbare kosten van handmatige skillannotatie voor lange, technisch dense contexten, en het ontbreken van externe feedback voor geautomatiseerde skillconstructie. In dit artikel stellen we Ctx2Skill voor, een zelf-evoluerend framework dat autonoom context-specifieke skills ontdekt, verfijnt en selecteert zonder menselijk toezicht of externe feedback. Centraal staat een multi-agent self-play-lus met een Challenger die verkennende taken en rubrics genereert, een Reasoner die deze probeert op te lossen geleid door een evoluerende skillset, en een neutrale Judge die binaire feedback verschaft. Cruciaal is dat zowel de Challenger als de Reasoner evolueren door opgestapelde skills: toegewijde Proposer- en Generator-agents analyseren faalgevallen en synthetiseren deze tot gerichte skillupdates voor beide kanten, wat geautomatiseerde skillontdekking en -verfijning mogelijk maakt. Om adversariële collaps te voorkomen – veroorzaakt door steeds extremere taakgeneratie en overgespecialiseerde skillaccumulatie – introduceren we een Cross-time Replay-mechanisme dat de skillset identificeert die de beste balans bereikt over representatieve gevallen voor de Reasoner-kant, zodat robuuste en generaliseerbare skill-evolutie gewaarborgd is. De resulterende skills kunnen in elk taalmodel worden ingeplugd om betere contextleercapaciteit te verkrijgen. Geëvalueerd op vier contextleertaken uit CL-bench verbetert Ctx2Skill consistent de oplossingspercentages across backbone-modellen.
Recent onderzoek heeft aangetoond dat het filteren van enorme Engelstalige webcorpora naar hoogwaardige subsets de trainingsefficiëntie aanzienlijk verbetert. Voor talen met veel bronnen, zoals Duits, Frans of Japans, creëert agressief filteren echter een strategisch dilemma: moeten beoefenaars diversiteit prioriteren door één keer te trainen op grote hoeveelheden licht gefilterde webgegevens, of moeten ze kwaliteit prioriteren door strikt te filteren voor een hoogwaardige kern en deze over meerdere epochs te herhalen? Wij onderzoeken deze afweging voor het Duits door hiërarchische kwaliteitsfilters te construeren die worden toegepast op 500 miljoen webdocumenten, waarbij we training over meerdere epochs op de gefilterde subsets vergelijken met single-pass training op een divers corpus. Onze experimenten over verschillende modelschalen en tokenbudgets tonen aan dat het herhalen van hoogwaardige gegevens consistent beter presteert dan single-pass training op grotere, minder gefilterde sets. Opmerkelijk is dat het prestatieverschil aanhoudt, zelfs na 7 epochs. Onze bevindingen suggereren dat voor niet-Engelstalige LLM's semantische concentratie door kwaliteitsfiltering een haalbaarder pad biedt naar efficiënte taalmodellering dan het simpelweg maximaliseren van het volume unieke gegevens. Wij geven onze Duitse taalmodelen (genaamd Boldt), evenals onze opgeschoonde evaluatiebenchmarks, vrij aan de onderzoeksgemeenschap. Onze experimenten geven aan dat zij state-of-the-art resultaten behalen, ondanks training op 10-360x minder tokens dan vergelijkbare modellen.
Hoewel autoregressieve grote visueel-taalmodelen (LVLM's) opmerkelijke bekwaamheid vertonen in multimodale taken, kampen ze met een "verdunning van visuele signalen": de opeenstapeling van tekstuele geschiedenis vergroot de partitiefunctie van aandacht, waardoor de visuele aandacht omgekeerd evenredig afneemt met de gegenereerde sequentielengte. Om dit tegen te gaan, stellen wij Persistent Visueel Geheugen (PVM) voor, een lichtgewicht leerbare module die duurzame, op vraag gebaseerde visuele perceptie garandeert. Geïntegreerd als een parallelle tak naast het Feed-Forward Netwerk (FFN) in LVLM's, creëert PVM een afstandsongevoelig retrievpad dat direct visuele inbeddingen verschaft voor precieze visuele perceptie, waardoor de inherente signaalonderdrukking bij diepe generatie structureel wordt gemitigeerd. Uitgebreide experimenten met Qwen3-VL-modellen tonen aan dat PVM aanzienlijke verbeteringen oplevert met verwaarloosbare parameteroverhead, en consistente gemiddelde nauwkeurigheidswinst biedt op zowel 4B- als 8B-schaal, vooral in complexe redeneertaken die aanhoudende visuele perceptie vereisen. Verder toont diepgaande analyse aan dat PVM lengte-geïnduceerde signaalverval kan weerstaan en interne voorspellingsconvergentie versnelt.
De uitgestrekte en onderbelichte oceaan speelt een cruciale rol in de regulering van het wereldwijde klimaat en het ondersteunen van mariene biodiversiteit, maar kunstmatige intelligentie heeft tot dusver een beperkte impact geleverd in dit domein vanwege een fundamenteel dataknelpunt. Concreet zijn oceaangegevens sterk gefragmenteerd over uiteenlopende bronnen en vertonen ze inherent multi-modale, ruisgevoelige en zwak gelabelde kenmerken, waarbij uniforme schema's en semantische afstemming ontbreken. Hoewel Multimodale Large Language Models (MLLM's) opmerkelijke successen hebben geboekt in algemene domeinen, blijft hun toepassing in de oceanografie ernstig beperkt door het ontbreken van grootschalige, goed afgestemde multimodale datasets die zijn toegesneden op mariene omgevingen. Om deze kloof te overbruggen, introduceren wij OceanPile, een grootschalig multimodaal corpus voor oceanische foundation-modellen. Het omvat drie kerncomponenten: OceanCorpus, een uniforme verzameling van sonardata, onderwaterbeelden, marien-wetenschappelijke visuals en wetenschappelijke tekst uit diverse gezaghebbende bronnen; OceanInstruction, een hoogwaardige instructiedataset gesynthetiseerd via een nieuwe pijplijn geleid door een hiërarchische Ocean Concept Knowledge Graph; en OceanBenchmark, een handmatig samengestelde evaluatiestandaard voor rigoureuze beoordeling. Wij hebben een meerfasen kwaliteitscontroleproces opgezet om wetenschappelijke validiteit en afstemming tussen modaliteiten te waarborgen. Experimentele validatie toont significante prestatieverbeteringen aan voor modellen die op onze data zijn getraind. Alle datasets worden openbaar vrijgegeven om het vakgebied van mariene kunstmatige intelligentie vooruit te helpen en domeinspecifieke MLLM's te versterken.
Ondanks aanzienlijke vooruitgang in feitelijke betrouwbaarheid, blijven fouten – vaak aangeduid als hallucinaties – een groot probleem vormen voor generatieve AI, vooral nu van grote taalmodellen (LLM's) in toenemende mate wordt verwacht dat ze behulpzaam zijn in complexere of genuanceerdere situaties. Maar zelfs in de eenvoudigste setting – het beantwoorden van feitelijke vragen met een duidelijke grondwaarheid – blijven toonaangevende modellen zonder externe hulpmiddelen hallucineren. Wij stellen dat de meeste verbeteringen in feitelijkheid op dit gebied zijn voortgekomen uit het verleggen van de kennisgrenzen van het model (het coderen van meer feiten) in plaats van uit het verbeteren van het bewustzijn van die grenzen (het onderscheiden van bekende van onbekende informatie). Onze veronderstelling is dat dit laatste inherent moeilijk is: modellen hebben mogelijk niet het onderscheidend vermogen om waarheden perfect van fouten te scheiden, wat een onvermijdelijke wisselwerking creëert tussen het elimineren van hallucinaties en het behouden van functionaliteit. Deze wisselwerking verdwijnt bij een andere benadering. Als we hallucinaties opvatten als zelfverzekerde fouten – incorrecte informatie die zonder de juiste kwalificatie wordt gepresenteerd – dan duikt er een derde weg op, voorbij de dichotomie van antwoorden of afzien: het uiten van onzekerheid. Wij stellen *getrouwe onzekerheid* voor: het afstemmen van linguïstische onzekerheid op intrinsieke onzekerheid. Dit is een facet van metacognitie – het vermogen om zich bewust te zijn van de eigen onzekerheid en ernaar te handelen. Voor directe interactie betekent handelen naar onzekerheid dat men deze eerlijk communiceert; voor agent-systemen wordt het de controlelaag die bepaalt wanneer er gezocht moet worden en wat vertrouwd kan worden. Metacognitie is daarom essentieel om LLM's zowel betrouwbaar als capabel te maken; wij sluiten af door belangrijke openstaande problemen te belichten die moeten worden opgelost om dit doel te bereiken.
Benchmarks binnen het OpenClaw-ecosysteem hebben tot dusver uitsluitend assistent-niveau taken geëvalueerd, waardoor de academische capaciteiten van OpenClaw grotendeels ononderzoek zijn gebleven. Wij introduceren AcademiClaw, een tweetalige benchmark bestaande uit 80 complexe, langetermijntaken die rechtstreeks afkomstig zijn uit de werkelijke academische workflows van universiteitsstudenten – huiswerk, onderzoeksprojecten, competities en persoonlijke projecten – die volgens hen niet effectief konden worden opgelost door huidige AI-agenten. De definitieve takenreeks, gecureerd uit 230 door studenten ingediende kandidaten via een rigoureuze expertreview, beslaat meer dan 25 professionele domeinen, variërend van olympiade-niveau wiskunde en taalkundige problemen tot GPU-intensieve reinforcement learning en full-stack systeemdebugging, waarbij 16 taken CUDA GPU-uitvoering vereisen. Elke taak wordt uitgevoerd in een geïsoleerde Docker-sandbox en wordt beoordeeld op taakvoltooiing aan de hand van multidimensionale rubrics die zes complementaire technieken combineren, met een onafhankelijke veiligheidsaudit in vijf categorieën voor aanvullend gedragsanalyse. Experimenten met zes frontier-modellen tonen aan dat zelfs het beste model slechts een slagingspercentage van 55\% behaalt. Verdere analyse onthult scherpe capaciteitsgrenzen tussen taakdomeinen, uiteenlopende gedragsstrategieën tussen modellen en een kloof tussen tokenverbruik en outputkwaliteit, wat fijnmazige diagnostische signalen oplevert die verder gaan wat aggregatemetrieken onthullen. Wij hopen dat AcademiClaw en zijn open-source data en code een nuttige bron kunnen zijn voor de OpenClaw-gemeenschap, en vooruitgang kunnen stimuleren naar agenten die capabeler en veelzijdiger zijn in de volledige breedte van reële academische eisen. Alle data en code zijn beschikbaar op https://github.com/GAIR-NLP/AcademiClaw.
In dit artikel onderzoeken we een onderbelichte maar belangrijke factor van diffusiegeneratieve modellen, namelijk de combinatorische complexiteit. Datamonsters zijn over het algemeen hoogdimensionaal, en voor diverse gestructureerde generatietaken worden aanvullende attributen gecombineerd om aan datamonsters te koppelen. Wij tonen aan dat de ruimte die wordt opgespannen door de combinatie van dimensies en attributen onvoldoende wordt gedekt door bestaande trainingsschema's van diffusiegeneratieve modellen, wat de prestaties tijdens de testfase mogelijk beperkt. Wij presenteren een eenvoudige oplossing voor dit probleem door stochastische processen te construeren die de combinatorische structuren volledig benutten, vandaar de naam ComboStoc. Met deze eenvoudige strategie tonen we aan dat netwerktraining aanzienlijk wordt versneld over diverse datamodaliteiten, waaronder afbeeldingen en gestructureerde 3D-vormen. Bovendien stelt ComboStoc een nieuwe manier van genereren tijdens de testfase in staat, waarbij asynchrone tijdstappen worden gebruikt voor verschillende dimensies en attributen, waardoor verschillende gradaties van controle over deze mogelijk worden. Onze code is beschikbaar op: https://github.com/Xrvitd/ComboStoc
Wij introduceren PhysicianBench, een benchmark voor het evalueren van LLM-agenten op artsentaken, gebaseerd op een reële klinische setting binnen elektronische patiëntendossier (EPD)-omgevingen. Bestaande medische agentenbenchmarks richten zich voornamelijk op statische kennisrecall, enkelstaps atomische acties, of actie-intentie zonder verifieerbare uitvoering tegen de omgeving. Hierdoor slagen zij er niet in om de langetermijn, samengestelde workflows vast te leggen die kenmerkend zijn voor echte klinische systemen. PhysicianBench omvat 100 langetermijntaken, aangepast uit echte consultatiegevallen tussen huisartsen en specialisten, waarbij elke taak onafhankelijk werd beoordeeld door een apart panel van artsen. Taken worden geïnstantieerd in een EPD-omgeving met echte patiëntendossiers en toegankelijk gemaakt via dezelfde standaard-API's die door commerciële EPD-leveranciers worden gebruikt. De taken beslaan 21 specialismen (bijv. cardiologie, endocrinologie, oncologie, psychiatrie) en diverse workflowtypen (bijv. diagnose-interpretatie, medicatievoorschrijven, behandelplanning), waarbij gemiddeld 27 toolaanroepen per taak nodig zijn. Het oplossen van elke taak vereist het ophalen van gegevens across encounters, redeneren over heterogene klinische informatie, het uitvoeren van consequente klinische acties en het produceren van klinische documentatie. Elke taak wordt opgedeeld in gestructureerde checkpoints (670 in totaal verspreid over de benchmark) die afzonderlijke voltooiingsstadia vastleggen, beoordeeld door taakspecifieke scripts met op uitvoering gebaseerde verificatie. Over 13 propriëtaire en open-source LLM-agenten heen, behaalt het best presterende model slechts een slagingspercentage van 46% (pass@1), terwijl open-source modellen maximaal 19% bereiken, wat een aanzienlijke kloof onthult tussen de huidige agentcapaciteiten en de eisen van real-world klinische workflows. PhysicianBench biedt een realistische en op uitvoering gebaseerde benchmark om de voortgang naar autonome klinische agenten te meten.
Recente vooruitgang in multi-turn reinforcement learning (RL) heeft de prestaties van redenerende grote taalmodelen (LLMs) op complexe interactieve taken aanzienlijk verbeterd. Ondanks vorderingen in stabilisatietechnieken zoals fijnmazige credit assignment en trajectfiltering, blijft instabiliteit wijdverbreid en leidt dit vaak tot trainingscollaps. Wij stellen dat deze instabiliteit voortvloeit uit inefficiënte exploratie in multi-turn settings, waarbij beleidsmodellen aanhouden met het genereren van acties met weinig informatie, die noch onzekerheid verminderen noch de taakvoortgang bevorderen. Om dit probleem aan te pakken, stellen wij Token- en Turn-level Policy Optimization (T²PO) voor, een onzekerheidsbewust raamwerk dat exploratie expliciet aanstuurt op fijnmazige niveaus. Op tokenniveau monitort T²PO de onzekerheidsdynamiek en activeert het een denkinterventie zodra de marginale onzekerheidsverandering onder een drempelwaarde zakt. Op turnniveau identificeert T²PO interacties met verwaarloosbare exploratievooruitgang en resamplet het dergelijke turns dynamisch om verspilling van rollouts te voorkomen. Wij evalueren T²PO in diverse omgevingen, waaronder WebShop, ALFWorld en Search QA, en tonen substantiële winst aan in trainingsstabiliteit en prestatieverbeteringen met een betere exploratie-efficiëntie. Code is beschikbaar op: https://github.com/WillDreamer/T2PO.
Retrieval-augmented generation (RAG) versterkt grote taalmodel(len) met externe kennis, waarbij op bomen gebaseerde RAG documenten organiseert in hiërarchische indexen om queries op meerdere granulariteiten te ondersteunen. Bestaande Tree-RAG-methoden, ontworpen voor retriev(al) uit één document, kampen echter met kritieke uitdagingen bij het schalen naar multi-hop vragen over meerdere documenten: (1) slechte distributie-adaptatie, waarbij k-means-clustering ruis introduceert door rigide distributieaannames; (2) structurele isolatie, omdat boomindexen expliciete verbindingen tussen documenten missen; en (3) grove abstractie, waardoor fijnmazige details verloren gaan. Om deze beperkingen aan te pakken, stellen we Ψ-RAG voor, een tree-RAG-framework met twee kerncomponenten. Ten eerste een hiërarchische abstracte boomindex, opgebouwd via een iteratief "samenvoeg- en collaps"-proces dat zich aanpast aan datadistributies zonder a priori-aanname. Ten tweede een multi-granulaire retriev(al)-agent die intelligent interacteert met de kennisbank via herziene queries en een hybride retriever aangedreven door een agent. Ψ-RAG ondersteunt uiteenlopende taken, van vraagbeantwoording op tokenniveau tot samenvatting op documentniveau. Op benchmarks voor multi-hop vraagbeantwoording over meerdere documenten presteert het gemiddeld 25,9% beter dan RAPTOR en 7,4% beter dan HippoRAG 2 in F1-score. Code is beschikbaar op https://github.com/Newiz430/Psi-RAG.
Ondanks het succes van Large Vision Language Models (LVLMs) slagen algemene optimalisatiedoelen (zoals standaard MLE) er niet in visuele trajecten te begrenzen, wat leidt tot taalvervorming en hallucinatie. Om dit te beperken, introduceren huidige methoden geometrische prioren van visuele experts als aanvullende supervisie. Wij merken echter op dat dergelijke supervisie typisch suboptimaal is: ze is bevooroordeeld naar geometrische precisie en biedt beperkte redeneernuttigheid. Om deze kloof te overbruggen, stellen wij Perceptual Flow Network (PFlowNet) voor, dat rigide afstemming met de expertprioren vermijdt en interpreteerbaar doch effectiever visueel redeneren bereikt. Concreet ontkoppelt PFlowNet perceptie van redenering om een zelf-geconditioneerd generatieproces op te zetten. Op basis hiervan integreert het multidimensionale beloningen met vicinale geometrische vormgeving via variational reinforcement learning, waardoor redeneringsgerichte perceptuele gedragingen worden gefaciliteerd terwijl visuele betrouwbaarheid behouden blijft. PFlowNet biedt een bewijsbare prestatiegarantie en competitieve empirische resultaten, waarbij het met name nieuwe state-of-the-art records vestigt op V* Bench (90,6%) en MME-RealWorld-lite (67,0%).
Frontline coderende AI-agenten lossen complexe taken op wanneer ze volledige context krijgen, maar falen wanneer specificaties onvolledig of dubbelzinnig zijn. Het knelpunt is niet de ruwe capaciteit, maar het beoordelingsvermogen: weten wanneer autonoom te handelen en wanneer om hulp te vragen. Huidige benchmarks zijn blind voor deze faalmodus. Zij verstrekken eenduidige, gedetailleerde instructies en belonen alleen uitvoeringsnauwkeurigheid, waardoor een agent die een ontbrekende vereiste gelukkig raadt, dezelfde score krijgt als een agent die zou hebben gevraagd om zekerheid. Wij presenteren HiL-Bench (Human-in-the-Loop Benchmark) om deze vaardigheid van selectieve escalatie te meten. Elke taak bevat door mensen gevalideerde blokkades (ontbrekende informatie, vage verzoeken, tegenstrijdige informatie) die alleen naar voren komen door progressieve verkenning, niet door voorafgaande inspectie. Onze kernmetriek, Ask-F1, het harmonisch gemiddelde van vraagprecisie en blokkade-recall, vat de spanning tussen overmatig vragen en stilzwijgend gissen; de structuur ervan voorkomt architectonisch misbruik door vraagspam. Evaluatie in de domeinen Software Engineering (SWE) en tekst-naar-SQL onthult een grote, universele kloof in het beoordelingsvermogen: geen enkel frontlinie-model herstelt meer dan een fractie van zijn prestaties bij volledige informatie wanneer het zelf moet beslissen of het moet vragen. Foutenanalyse identificeert drie belangrijke hulpzoekpatronen: overmoedige verkeerde overtuigingen zonder kloopdetectie; hoge onzekerheidsdetectie maar aanhoudende fouten; brede, onnauwkeurige escalatie zonder zelfcorrectie. Deze consistente patronen bevestigen dat slecht hulp zoeken een modelniveau-fout is, niet taakspecifiek. RL-training met een gevormde Ask-F1 beloning laat zien dat beoordelingsvermogen trainbaar is: een 32B-model verbetert zowel de kwaliteit van het hulp zoeken als de taakslaagpercentages, waarbij de winst overdraagbaar is tussen domeinen. Het model leert geen domeinspecifieke heuristieken voor wanneer het moet vragen; het leert om onoplosbare onzekerheid te detecteren en ernaar te handelen.
Wij presenteren Orbit-Space Geometric Probability Paths (OGPP), een deeltjes-native flow-matching-framework voor generatieve modellering van deeltjessystemen. OGPP is gemotiveerd door twee inzichten: (i) deeltjes zijn gedefinieerd op permutatiesymmetrieën na, waardoor anonieme indexering de variantie per index opblaast en gebogen, moeilijk aan te leren flows oplevert; en (ii) deeltjes bevinden zich in de fysieke ruimte, waardoor de eindsnelheid van de flow een fysieke betekenis heeft en geometrische attributen kan coderen, zoals oppervlaknormalen. OGPP implementeert drie kerncomponenten: (1) kanonisering van het eindpunt van de waarschijnlijkheidspad in de baanruimte, (2) inbeddingen van deeltjesindexen voor rollenspecialisatie, en (3) geometrische waarschijnlijkheidspaden met booglengte-bewuste eindsnelheden die normalen genereren als een bijproduct van de flow. Wij evalueren OGPP op minimale-oppervlak-benchmarks, waar het de metrieke fout met tot twee orden van grootte reduceert in één inferentiestap; op ShapeNet, waar het de stand-van-de-techniek evenaart met 5x minder stappen en een EMD voor vliegtuigen bereikt die vergelijkbaar is met DiT-3D met 26x minder parameters en 5x minder stappen; en op encodering van enkele vormen, waar het normalen en reconstructies produceert die concurrerend zijn met 6D-generatoren, terwijl het volledig in 3D opereert.
Bestaand onderzoek schrijft het wereldwijde sequentiemodelleringsvermogen van Transformers grotendeels toe aan de expliciete berekening van aandachtswaarden, een proces dat inherent kwadratische computationele complexiteit met zich meebrengt. In dit werk bieden wij een nieuw perspectief: wij tonen aan dat aandacht wiskundig kan worden herformuleerd als een Multi-Layer Perceptron (MLP) uitgerust met dynamisch voorspelde parameters. Door deze lens verklaren we het globale modelleringsvermogen van aandacht niet als een expliciete aggregatie van tokens, maar als een impliciet proces waarbij dynamisch gegenereerde parameters fungeren als een gecomprimeerde representatie van de globale context. Geïnspireerd door dit inzicht onderzoeken we een fundamentele vraag: kunnen we Transformer-niveau van globale sequentiemodellering volledig bereiken via dynamische parameterisatie met behoud van lineaire complexiteit, en daarbij expliciete aandacht effectief vervangen? Om dit te verkennen, ontwerpen we verschillende strategieën voor dynamische parameterpredictie en integreren deze in standaard netwerklagen. Uitgebreide empirische studies met visionmodellen tonen aan dat dynamische parameterisatie inderdaad een zeer effectief, lineair-complex alternatief kan zijn voor expliciete aandacht, wat nieuwe wegen opent voor efficiënte sequentiemodellering. Code is beschikbaar op https://github.com/LeapLabTHU/WeightFormer.
Dit position paper betoogt dat agentische AI-systemen moeten worden ontworpen en geëvalueerd als economieën voor marginale tokenallocatie, in plaats van als tekstgeneratoren die per eenheid worden geprijsd. We volgen een enkele verzoek – een ontwikkelaar die een codeeragent vraagt een falende test te repareren – door vier economische lagen die tegenwoordig geïsoleerd worden ontworpen: een router die beslist welk model antwoordt, een agent die beslist of hij moet plannen, handelen, verifiëren of uitstellen, een serverstack die beslist hoe elke token wordt geproduceerd, en een trainingspijplijn die beslist of de trace de moeite waard is om van te leren. We tonen aan dat alle vier de lagen dezelfde eerstegraadsvoorwaarde oplossen – marginaal voordeel is gelijk aan marginale kosten plus latentiekosten plus risicokosten – maar met verschillende indexverzamelingen en verschillende prijzen. Het kader is opzettelijk minimaal: we stellen geen complete theorie van AI-economie voor. Maar door marginale tokenallocatie als het gedeelde boekhoudkundige object te adopteren, verklaart het waarom systemen die tokens lokaal minimaliseren ze globaal verkeerd alloceren, voorspelt het een kleine set terugkerende faalwijzen (over-routing, over-delegatie, onder-verificatie, servercongestie, verouderde rollouts, misbruik van cache), en wijst het naar een concrete onderzoeksagenda voor tokenbewuste evaluatie, autonomieprijzing, congestiegeprijsde servering en risicogecorrigeerde RL-begroting.
Grote taalmodellen presteren sterk op benchmarks voor wiskundig redeneren, coderen en documentanalyse, wat wijst op een breed vermogen om instructies te volgen. Het blijft echter onduidelijk of dit succes een algemene logische competentie weerspiegelt, de herhaalde toepassing van aangeleerde procedures, of patroonherkenning die regeluitvoering nabootst. Wij onderzoeken deze vraag door de Introductie van Stabiel Telvermogen, een toets waarbij modellen herhaalde symbolen tellen totdat ze falen. Deze toets verwijdert kennisdependencies, semantiek en ambiguïteit uit de evaluatie, vermijdt lexicale en tokenisatieverstorende factoren, en biedt een directe maatstaf voor procedurele betrouwbaarheid die verder gaat dan standaard kennisgebaseerde benchmarks. Hier tonen wij aan, over meer dan 100 modelvarianten, dat het stabiele telvermogen ver onder de geadverteerde contextlimieten blijft. Het modelgedrag is consistent noch met open-ended logica, noch met de stabiele toepassing van een aangeleerde regel, maar eerder met het gebruik van een beperkte set telachtige interne toestanden, vergelijkbaar met tellen op de vingers. Zodra deze resource uitgeput is, verdwijnt de schijn van regelvolgend gedrag en stort exacte uitvoering ineen in gokken, zelfs met extra rekencapaciteit tijdens het testen. Deze bevindingen tonen aan dat vloeiende prestaties van huidige taalmodellen geen algemene, betrouwbare regelvolging garanderen.
Dit rapport documenteert de paraatheidsbeoordeling van Code World Model (CWM), een model van Meta voor codegeneratie en redeneren over code. Wij hebben pre-releasetests uitgevoerd op domeinen die in ons Frontier AI-raamwerk zijn geïdentificeerd als mogelijk catastrofale risico's met zich meebrengend, en hebben tevens de verkeerd afgestelde neigingen van het model geëvalueerd. Onze beoordeling concludeert dat CWM geen additionele frontierrisico's vormt buiten de reeds aanwezige risico's in het huidige AI-ecosysteem. Derhalve geven wij het vrij als een model met open gewichten.
Chirurgische resectie blijft de enige potentieel curatieve behandeling voor ductaal adenocarcinoom van de pancreas (PDAC), en geschiktheid hiervoor hangt af van een nauwkeurige beoordeling van vasculaire invasie (VI), ofwel de uitbreiding van de tumor naar aangrenzende kritieke bloedvaten. Ondanks het belang voor preoperatieve stadiering en chirurgische planning blijft computationele VI-beoordeling onderbelicht. Twee grote uitdagingen zijn het gebrek aan openbare datasets en de diagnostische ambiguïteit aan het tumor-vat grensvlak, wat leidt tot aanzienlijke variabiliteit tussen beoordelaars, zelfs onder ervaren radiologen. Om deze beperkingen aan te pakken, introduceren we de CURVAS-PDACVI Dataset en Challenge, een open benchmark voor onzekerheidsbewuste kunstmatige intelligentie bij PDAC-stadiering, gebaseerd op een dicht geannoteerde dataset met vijf onafhankelijke expertannotaties per scan. Wij stellen ook een multi-metrisch evaluatieraamwerk voor dat verder gaat dan ruimtelijke overlap en ook probabilistische kalibratie en VI-beoordeling omvat. Evaluatie van zes state-of-the-art methoden toont aan dat een sterke globale volumetrische overlap niet noodzakelijkerwijs vertaalt naar betrouwbare prestaties op klinisch kritieke tumor-vat grensvlakken. Met name methoden geoptimaliseerd voor binaire segmentatie presteren competitief op gemiddelde overlapmetrieken, maar verslechteren vaak in gevallen met hoge complexiteit en lage expertconsensus, waarbij ze ofwel in volume ineenstorten of zich overmatig uitbreiden bij onzekere grenzen. Daarentegen produceren methoden die de meningsverschillen tussen beoordelaars modelleren beter gekalibreerde probabilistische kaarten en tonen ze grotere robuustheid in deze ambigue gevallen. De benchmark benadrukt de beperkingen van volumetrische nauwkeurigheid als maatstaf voor gelokaliseerde chirurgische bruikbaarheid, en pleit voor onzekerheidsbewuste probabilistische modellen voor preoperatieve besluitvorming.
Tabulaire Foundation Models (TFM's) bereiken state-of-the-art zero-shot nauwkeurigheid op kleine tabulaire datasets door meta-leren over synthetische data-genererende processen – wat ze zeer aantrekkelijk maakt voor praktijkmensen die zich grote geannoteerde corpora niet kunnen veroorloven. Hun in-context leermechanisme veronderstelt echter ongeveer schone invoer: ontbrekende waarden, uitschieters en duplicaten in real-world data creëren een prior-mismatch die zowel de nauwkeurigheid als de betrouwbaarheidscalibratie gelijktijdig aantast. Het corrigeren van deze mismatch vereist sequentiële beslissingen over opschoningsoperatoren waarvan de interacties door geen enkele statische voorverwerkingsregel kunnen worden voorzien - een natuurlijke toepassing voor reinforcement learning (RL). Wij introduceren L2C2, het eerste deep RL-framework dat het opschonen van tabulaire data formuleert als prior-alignering: een geleerd beleid sequentieert operatoren om de distributionele kloof tussen vuile invoer en de synthetische prior van de TFM te minimaliseren. Zes experimenten op tien OpenML-benchmarkdatasets tonen aan: 1) drie van zeven beloningsontwerpen vervallen tot gedegenereerde triviale opschoningsstrategieën – principieel beloningsontwerp is wetenschappelijk niet-triviaal; 2) de nieuwe TFMAwareReward-beloning die wij voorstellen selecteert structureel verschillende pijplijnen op 4/10 datasets en behaalt een hogere TabPFN-nauwkeurigheid in die afwijkende gevallen (gemiddeld 0,851 vs. 0,843; Wilcoxon p=0,063, n=4) zonder ooit slechter te presteren; 3) geparametriseerde opschoningsacties verbeteren de beloning van de best gevonden pijplijn op 9/10 datasets (Wilcoxon p=0,004); en 4) een beleid vooraf getraind op één enkele brondataset overtreft training vanaf nul bij het 2.000-staps fine-tuning-controlepunt op alle drie de achtergehouden datasets (tot +28,8% na volledige fine-tuning), wat kruis-datasettransfer van prior-aligneringskennis aantoont. Deze bevindingen bevestigen dat prior-alignering een principiële data-voorbereidingsstrategie is voor TFM-implementatie op real-world tabulaire data.
Autoregressieve videogeneratieparadigma's bieden theoretisch potentieel voor lange videosynthese, maar hun praktische inzet wordt belemmerd door de computationele last van sequentiële iteratieve denoising. Hoewel cache-hergebruikstrategieën generatie kunnen versnellen door overbodige denoisingstappen over te slaan, vertrouwen bestaande methoden op grofkorrelige chunk-level overslaan dat geen fijnkorrelige pixeldynamiek vastlegt. Dit overzicht is cruciaal: pixels met hoge beweging vereisen meer denoisingstappen om foutaccumulatie te voorkomen, terwijl statische pixels agressief overslaan tolereren. We formaliseren dit inzicht theoretisch door cachefouten te koppelen aan residuele instabiliteit, en stellen MotionCache voor, een motion-aware cache-framework dat inter-frame verschillen benut als een lichtgewicht proxy voor pixel-level bewegingseigenschappen. MotionCache hanteert een coarse-to-fine strategie: een initiële warm-upfase stelt semantische coherentie vast, gevolgd door motion-weighted cache-hergebruik dat updatefrequenties per token dynamisch aanpast. Uitgebreide experimenten op state-of-the-art modellen zoals SkyReels-V2 en MAGI-1 tonen aan dat MotionCache significante versnellingen bereikt van respectievelijk 6,28× en 1,64×, terwijl de generatiekwaliteit effectief behouden blijft (VBench: respectievelijk 1%↓ en 0,01%↓). De code is beschikbaar op https://github.com/ywlq/MotionCache.
De automatische generatie van uitvoerbare Blendercode uit natuurlijke taal blijft een uitdaging, waarbij state-of-the-art LLM's frequente syntaxisfouten en geometrisch inconsistente objecten produceren. Wij presenteren BlenderRAG, een retrieval-augmented generation-systeem dat werkt op een gecureerde multimodale dataset van 500 door experts gevalideerde voorbeelden (tekst, code, afbeelding) verspreid over 50 objectcategorieën. Door het ophalen van semantisch vergelijkbare voorbeelden tijdens de generatie, verbetert BlenderRAG het compilatiesuccespercentage van 40,8% naar 70,0% en de genormaliseerde semantische overeenkomst van 0,41 naar 0,77 (CLIP-gelijkenis) over vier state-of-the-art LLM's, zonder fine-tuning of gespecialiseerde hardware nodig te hebben, waardoor het direct inzetbaar is. De dataset en code zijn beschikbaar op https://github.com/MaxRondelli/BlenderRAG.
Videogame-engines zijn een belangrijke bron geweest voor het genereren van grote hoeveelheden visuele synthetische datasets voor het trainen en evalueren van computervisie-algoritmen die in de echte wereld moeten worden ingezet. Hoewel de visuele weergave van moderne game-engines aanzienlijk is verbeterd met technologieën zoals ray-tracing, blijft er een opmerkelijk sim2real-uitstralingsgat tussen de synthetische en de echte wereldbeelden bestaan, wat het gebruik van synthetische datasets in real-world toepassingen beperkt. In dit artikel onderzoeken we het vermogen van een state-of-the-art diffusiemodel voor beeldgeneratie en -bewerking (FLUX.2-4B Klein) om de fotorealistische kwaliteit van synthetische datasets te verbeteren en vergelijken we de prestaties met een traditioneel image-to-image-vertaalmodel (REGEN). Verder stellen we een hybride aanpak voor die de sterke geometrie- en materiaaltransformaties van diffusiegebaseerde methoden combineert met de distributie-matchingcapaciteiten van image-to-image-vertaaltechnieken. Uit experimenten blijkt dat REGEN beter presteert dan FLUX.2-4B Klein en dat door een combinatie van zowel FLUX.2-4B Klein- als REGEN-modellen een betere visuele realiteit kan worden bereikt in vergelijking met het afzonderlijk gebruik van elk model, waarbij de semantische consistentie behouden blijft. De code is beschikbaar op: https://github.com/stefanos50/Hybrid-Sim2Real
De integratie van moleculaire, morfologische en klinische gegevens is essentieel voor fundamenteel en translationeel biomedisch onderzoek, maar systematische kaders voor het gezamenlijk modelleren van deze modaliteiten blijven beperkt. Hier presenteren we Haiku, een trimodaal contrastief leermodel getraind op gemultiplexte immunofluorescentie (mIF). Het omvat 26,7 miljoen spatiale proteomische patches van 3.218 weefselsecties van 1.606 patiënten verspreid over 11 orgeltypen, met gematchte histologie (hematoxyline en eosine, H&E) en klinische metadata, uitgelijnd in een gedeelde embeddedruimte. Haiku maakt drieweg cross-modale retrieval mogelijk, verbetert downstream classificatie- en klinische voorspeltaken ten opzichte van unimodale basislijnen, en ondersteunt zero-shot biomarkerinferentie via fuseretrieval geconditioneerd op uitsluitend tekstbeschrijvingen van klinische metadata. Bij alle taken presteert Haiku beter dan concurrerende benaderingen, met cross-modale retrieval (Recall@50 tot 0,611 versus een bijna-nul basislijn), overlevingsvoorspelling (C-index 0,737, +7,91% relatieve verbetering) en zero-shot biomarkerinferentie (gemiddelde Pearson-correlatie 0,718 over 52 biomarkers). Verder introduceren we een contrafeitelijk voorspellingskader waarin alleen klinische metadata worden aangepast terwijl de weefselmorfologie constant wordt gehouden, om nichespecifieke moleculaire verschuivingen bloot te leggen die geassocieerd zijn met progressie van borstkankerstadia en overlevingsuitkomsten bij longkanker. In een longadenocarcinoom casestudy herstelt de contrafeitelijke analyse nichespecifieke verschuivingen die worden gekenmerkt door verhoogde CD8 en granzyme B, verminderde PD-L1 en verlaagde Ki67, in brede overeenstemming met patronen gerapporteerd voor gunstige uitkomsten. We presenteren deze contrafeitelijke resultaten als verkennende, hypothesegenererende signalen in plaats van mechanistische claims. Deze mogelijkheden tonen aan dat trimodale alignering via Haiku integratieve analyse van spatiale biologie mogelijk maakt, waarbij moleculaire metingen worden verbonden met de klinische context voor biologisch onderzoek.