Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Speculatief decoderen versnelt autoregressieve generatie door een lichtgewicht draft-model toekomstige tokens te laten voorspellen, die een groter target-model vervolgens parallel verifieert. In de praktijk worden draft-modellen echter meestal getraind op brede, generieke corpora, waardoor het onduidelijk blijft in hoeverre de kwaliteit van speculatief decoderen afhangt van de draft-trainingsdistributie. Wij onderzoeken deze vraag met lichtgewicht HASS- en EAGLE-2 drafters, getraind op MathInstruct, ShareGPT en gemengde-data varianten, geëvalueerd op MT-Bench, GSM8K, MATH-500 en SVAMP. Gemeten aan de hand van acceptatielengte leidt taakspecifieke training tot duidelijke specialisatie: op MathInstruct getrainde drafts presteren het best op redeneerbenchmarks, terwijl op ShareGPT getrainde drafts het sterkst zijn op MT-Bench. Training met gemengde data verbetert de robuustheid, maar grotere mengsels domineren niet over verschillende decodeertemperaturen. Wij bestuderen ook hoe gespecialiseerde drafters tijdens inferentie gecombineerd kunnen worden. Naïeve checkpoint-averaging presteert slecht, terwijl confidence-gebaseerde routing verbetert ten opzichte van enkel-domein drafts en merged-tree-verificatie de hoogste algemene acceptatielengte oplevert voor beide backbones. Ten slotte is confidence een nuttiger routingsignaal dan entropie: verworpen tokens hebben tendentieel een hogere entropie, maar confidence produceert veel duidelijkere benchmark-level routingbeslissingen. Deze resultaten tonen aan dat de kwaliteit van speculatief decoderen niet alleen afhangt van de draft-architectuur, maar ook van de match tussen de draft-trainingsdata en de downstream-workload, en dat gespecialiseerde drafters beter gecombineerd kunnen worden tijdens inferentie dan in gewichtsruimte.
Autonome systemen die wetenschappelijke hypothesen genereren, experimenten uitvoeren en manuscripten opstellen zijn recent naar voren gekomen als een veelbelovend paradigma om ontdekkingen te versnellen. Echter, bestaande AI-wetenschappers zijn grotendeels domein-agnostisch, wat hun toepasbaarheid beperkt voor de klinische geneeskunde, waar onderzoek moet zijn gebaseerd op medisch bewijs met gespecialiseerde datamodaliteiten. In dit werk introduceren we Medical AI Scientist, het eerste autonome onderzoeksraamwerk dat is toegesneden op klinisch autonoom onderzoek. Het maakt klinisch onderbouwde ideeënvorming mogelijk door uitgebreid bestudeerde literatuur om te zetten in bruikbaar bewijs via een klinicus-ingenieur co-reasoning mechanisme, wat de traceerbaarheid van gegenereerde onderzoeksideeën verbetert. Het vergemakkelijkt verder het opstellen van manuscripten die evidence-based zijn en worden geleid door gestructureerde medische compositieconventies en ethische beleidsregels. Het raamwerk opereert volgens 3 onderzoeksmodi, namelijk op papier gebaseerde reproductie, door literatuur geïnspireerde innovatie, en taakgedreven exploratie, elk corresponderend met een distinct niveau van geautomatiseerd wetenschappelijk onderzoek met progressief toenemende autonomie. Uitgebreide evaluaties door zowel grote taalmodellen als menselijke experts tonen aan dat de ideeën gegenereerd door de Medical AI Scientist van aanzienlijk hogere kwaliteit zijn dan die geproduceerd door commerciële LLM's, gebaseerd op 171 casussen, 19 klinische taken en 6 datamodaliteiten. Tegelijkertijd bereikt ons systeem een sterke alignering tussen de voorgestelde methode en de implementatie ervan, en laat het significant hogere slagingspercentages zien in uitvoerbare experimenten. Dubbelblinde evaluaties door menselijke experts en de Stanford Agentic Reviewer suggereren dat de gegenereerde manuscripten MICCAI-kwaliteit benaderen, terwijl ze consistent die van ISBI en BIBM overtreffen. De voorgestelde Medical AI Scientist benadrukt het potentieel van het inzetten van AI voor autonome wetenschappelijke ontdekkingen in de gezondheidszorg.
Recente beeldgeneratiemodellen hebben sterke capaciteiten getoond in het genereren van hoogwaardige en fotorealistische beelden. Ze worden echter fundamenteel beperkt door bevroren interne kennis, waardoor ze vaak falen in realistische scenario's die kennisintensief zijn of actuele informatie vereisen. In dit artikel presenteren we Gen-Searcher, als eerste poging om een met zoekfunctionaliteit versterkte beeldgeneratie-agent te trainen, die multi-hop redenering en zoekacties uitvoert om de benodigde tekstuele kennis en referentiebeelden voor gegronde generatie te verzamelen. Om dit te bereiken, construeren we een op maat gemaakt datapijplijn en stellen we twee hoogwaardige datasets samen, Gen-Searcher-SFT-10k en Gen-Searcher-RL-6k, die diverse zoekintensieve prompts en bijbehorende grondwaarheid-synthesebeelden bevatten. We introduceren verder KnowGen, een uitgebreide benchmark die expliciet op zoekacties gegronde externe kennis vereist voor beeldgeneratie en modellen vanuit meerdere dimensies evalueert. Gebaseerd op deze bronnen, trainen we Gen-Searcher met SFT gevolgd door agent-gebaseerde reinforcement learning met dubbele beloningsfeedback, die op tekst gebaseerde en op beelden gebaseerde beloningen combineert om meer stabiele en informatieve leer signalen te bieden voor GRPO-training. Experimenten tonen aan dat Gen-Searcher substantiële verbeteringen oplevert, waarbij Qwen-Image met ongeveer 16 punten verbetert op KnowGen en 15 punten op WISE. We hopen dat dit werk kan dienen als een open fundament voor zoekagenten in beeldgeneratie, en we stellen onze data, modellen en code volledig open source.
Multi-agent systemen die zijn samengesteld uit grote generatieve modellen ontwikkelen zich snel van laboratoriumprototypes naar praktische implementaties, waarbij zij gezamenlijk plannen, onderhandelen en gedeelde middelen toewijzen om complexe taken op te lossen. Hoewel dergelijke systemen een ongekende schaalbaarheid en autonomie beloven, brengen hun collectieve interacties ook faalmechanismen met zich mee die niet kunnen worden herleid tot individuele agents. Het begrijpen van deze opkomende risico's is daarom cruciaal. Hier presenteren wij een baanbrekende studie naar dergelijke opkomende multi-agent risico's in workflows die competitie om gedeelde middelen (zoals rekenresources of marktaandeel), sequentiële samenwerking met overdracht (waarbij downstream agents alleen de output van voorgangers zien), collectieve besluitaggregatie en andere scenario's omvatten. In deze settings observeren wij dat dergelijke groepsgedragingen frequent optreden bij herhaalde experimenten en onder uiteenlopende interactiecondities, in plaats van als zeldzame of pathologische gevallen. Met name fenomenen zoals collusie-achtige coördinatie en conformisme ontstaan met aanzienlijke frequentie onder realistische resourcebeperkingen, communicatieprotocollen en roltoewijzingen, waarbij zij bekende pathologieën uit menselijke samenlevingen weerspiegelen ondanks het ontbreken van expliciete instructies. Bovendien kunnen deze risico's niet worden voorkomen door bestaande veiligheidsmaatregelen op agentniveau alleen. Deze bevindingen onthullen de schaduwzijde van intelligente multi-agent systemen: een sociaal-intelligentierisico waarbij agentcollectieven, zonder daartoe opdracht te krijgen, spontaan bekende faalpatronen uit menselijke samenlevingen reproduceren.
Algemene technologieën hervormen economieën minder door individuele tools te verbeteren dan door nieuwe manieren van productieorganisatie en coördinatie mogelijk te maken. Wij geloven dat AI-agenten een soortgelijk kantelpunt naderen: naarmate foundation models brede taakuitvoering en toolgebruik steeds toegankelijker maken, verschuift de beperkende factor van ruwe capaciteit naar hoe werk wordt gedelegeerd, geverifieerd en beloond op grote schaal. Wij introduceren EpochX, een kredieten-native marktplaatsinfrastructuur voor mens-agent productienetwerken. EpochX behandelt mensen en agents als gelijkwaardige deelnemers die taken kunnen aanbieden of claimen. Geclaimde taken kunnen worden opgesplitst in subtaken en uitgevoerd via een expliciet afleverwerkproces met verificatie en acceptatie. Cruciaal is dat EpochX zo is ontworpen dat elke voltooide transactie herbruikbare ecosysteemactiva kan opleveren, waaronder vaardigheden, werkstromen, uitvoeringstraces en gedistilleerde ervaring. Deze activa worden opgeslagen met een expliciete afhankelijkheidsstructuur, waardoor retrievable, compositie en cumulatieve verbetering in de tijd mogelijk wordt. EpochX introduceert ook een native kredietenmechanisme om deelname economisch levensvatbaar te maken onder reële rekenkosten. Kredieten reserveren taakbeloningen, budgetdelegatie, vereffenen beloningen bij acceptatie, en compenseren makers wanneer geverifieerde activa worden hergebruikt. Door het end-to-end transactiemodel samen met zijn activa- en incentive-lagen te formaliseren, herformuleert EpochX agentische AI als een organisatieontwerpprobleem: het bouwen van infrastructuren waar verifieerbaar werk persistente, herbruikbare artefacten nalaat, en waar waardestromen duurzame mens-agent samenwerking ondersteunen.
Token-level sparse aandachtmechanismen, zoals geïllustreerd door DeepSeek Sparse Attention (DSA), bereiken fijnmazige key-selectie door elke historische token voor elke query te scoren met een lichtgewicht indexeerder, en vervolgens aandacht alleen te berekenen over de geselecteerde subset. Hoewel de downstream sparse aandacht efficiënt schaalt, scant de indexeerder voor elke query nog steeds het volledige prefix, wat een O(L²)-bottleneck per laag introduceert die onhanteerbaar wordt naarmate de contextlengte groeit. Wij stellen HISA (Hierarchical Indexed Sparse Attention) voor, een drop-in vervanging voor de indexeerder die het zoekproces transformeert van een platte token-scan naar een tweestaps hiërarchische procedure. Eerst filtert een blokniveau grove filter gepoolde blokrepresentaties om irrelevante regio's uit te sluiten. Vervolgens past een token-niveau verfijning de originele indexeerder alleen toe binnen de overgebleven kandidaatblokken. HISA behoudt het exacte token-level top-k sparsity-patroon dat vereist is door de downstream Sparse MLA-operator en vereist geen aanvullende training. Op kernel-niveau benchmarks behaalt HISA een 2x versnelling bij een contextlengte van 32K en 4x bij 128K. Op Needle-in-a-Haystack en LongBench vervangen we de indexeerder in DeepSeek-V3.2 direct door HISA, zonder enige fine-tuning. HISA benadert de kwaliteit van de originele DSA nauwkeurig en presteert significant beter dan block-sparse baseline-modellen. Bovendien vertonen de door HISA en de originele DSA geproduceerde tokenselectiesets een gemiddelde IoU van meer dan 99%, wat aangeeft dat de efficiëntiewinsten gepaard gaan met vrijwel geen verlies aan selectiegetrouwheid.
Multimodal Continual Instruction Tuning heeft als doel Large Vision Language Models (LVLMs) voortdurend te verbeteren door te leren van nieuwe gegevens zonder eerder verworven kennis te vergeten. Mixture of Experts (MoE)-architecturen faciliteren dit van nature door incrementeel nieuwe experts toe te voegen en routers uit te breiden, terwijl de bestaande bevroren blijven. Ondanks de isolatie van experts lijden op MoE gebaseerde continuële leersystemen echter nog steeds aan vergeten als gevolg van routing-drift: tokens van oude taken worden ten onrechte aangetrokken tot nieuw toegevoegde experts, wat de prestaties op eerdere taken aantast. Wij analyseren de faalwijze op tokenniveau en onthullen het dilemma van de token: dubbelzinnige en oude tokens in nieuwe-taakgegevens bieden minimaal leervoordeel, maar induceren vergeten wanneer ze naar nieuwe experts worden gerouteerd, vanwege hun dubbelzinnige routeringstoewijzing tijdens de training. Gemotiveerd door dit inzicht stellen wij LLaVA-DyMoE voor, een dynamisch MoE-raamwerk dat de MoE incrementeel uitbreidt met drift-aware token-toewijzing. Wij karakteriseren tokentypes via hun routeringsscoreverdelingen en passen gerichte regularisatie toe. Specifiek stuurt een token-level toewijzingsrichtlijn dubbelzinnige en oude tokens weg van nieuwe experts om gevestigde routeringspatronen te behouden en routing-drift te verlichten, terwijl complementaire routeringsscoreregelisaties scheiding tussen expertgroepen afdwingen en specialisatie van nieuwe experts bevorderen. Uitgebreide experimenten tonen aan dat onze LLaVA-DyMoE effectief door routing-drift geïnduceerd vergeten vermindert, met een winst van meer dan 7% in gemiddelde eindnauwkeurigheid en een vermindering van 12% in vergeten vergeleken met de basislijnen. De projectpagina is https://zhaoc5.github.io/DyMoE.
Recente vooruitgang in beeldbewerking heeft modellen in staat gesteld om complexe instructies met indrukwekkend realisme te verwerken. Bestaande evaluatieramen lopen hier echter op achter: huidige benchmarks kampen met een beperkte taakdekking, terwijl standaardmetrieken er niet in slagen om visuele consistentie adequaat te vatten, dat wil zeggen het behoud van identiteit, structuur en semantische samenhang tussen bewerkte en originele afbeeldingen. Om deze beperkingen aan te pakken, introduceren we GEditBench v2, een uitgebreide benchmark met 1.200 real-world gebruikersquery's verspreid over 23 taken, inclusief een speciale open-set categorie voor onbeperkte, out-of-distribution bewerkinstructies die verder gaan dan vooraf gedefinieerde taken. Verder stellen we PVC-Judge voor, een open-source paarsgewijs beoordelingsmodel voor visuele consistentie, getraind via twee nieuwe pijplijnen voor de synthese van voorkeursdata met ontkoppelde regio's. Daarnaast construeren we VCReward-Bench met door experts geannoteerde voorkeursparen om de afstemming van PVC-Judge met menselijke oordelen over visuele consistentie-evaluatie te beoordelen. Experimenten tonen aan dat onze PVC-Judge state-of-the-art evaluatieprestaties behaalt onder open-source modellen en gemiddeld zelfs GPT-5.1 overtreft. Ten slotte tonen we, door 16 frontier-bewerkingsmodellen te benchmarken, aan dat GEditBench v2 een meer menselijk-afgestemde evaluatie mogelijk maakt, waarbij kritieke beperkingen van huidige modellen worden blootgelegd en een betrouwbare basis wordt geboden voor het bevorderen van precieze beeldbewerking.
Hoewel vision-language modellen (VLM's) dankzij grootschalige training sterke prestaties leveren in beeld- en videobegrip, blijft hun vermogen tot ruimtelijk redeneren in zowel statische scènes als dynamische video's beperkt. Recente ontwikkelingen proberen deze beperking te ondervangen door geometrietokens uit voorgetrainde 3D-basismodellen in VLM's te injecteren. Wij observeren echter dat een naïeve tokenfusie gevolgd door standaard finetuning in dit onderzoeksveld dergelijke geometrische aanwijzingen vaak onderbenut laat voor ruimtelijk redeneren, omdat VLM's de neiging hebben sterk op 2D-visuele aanwijzingen te vertrouwen. In dit artikel stellen wij GeoSR voor, een raamwerk ontworpen om geometrie relevant te maken door VLM's aan te moedigen actief te redeneren met geometrietokens. GeoSR introduceert twee kernelementen: (1) Geometry-Unleashing Masking, dat strategisch delen van 2D-visietokens tijdens de training maskeert om niet-geometrische shortcuts te verzwakken en het model te dwingen geometrietokens te raadplegen voor ruimtelijk redeneren; en (2) Geometry-Guided Fusion, een gegateerd routeringsmechanisme dat de bijdragen van geometrietokens adaptief versterkt in regio's waar geometrisch bewijs cruciaal is. Gezamenlijk benutten deze ontwerpen het potentieel van geometrietokens voor ruimtelijke redeneertaken. Uitgebreide experimenten op benchmarks voor zowel statisch als dynamisch ruimtelijk redeneren tonen aan dat GeoSR consistent beter presteert dan eerdere methoden en nieuwe state-of-the-art prestaties vestigt door effectief gebruik te maken van geometrische informatie. De projectpagina is beschikbaar op https://suhzhang.github.io/GeoSR/.
Vooruitgang in diffusie-, autoregressieve en hybride modellen heeft hoogwaardige beeld synthese mogelijk gemaakt voor taken zoals tekst-naar-beeld, bewerking en referentiegestuurde compositie. Toch blijven bestaande benchmarks beperkt: ze richten zich op geïsoleerde taken, bestrijken slechts smalle domeinen, of leveren ondoorzichtige scores zonder foutmodi te verklaren. Wij introduceren ImagenWorld, een benchmark met 3.6K conditiesets die zes kerntaken omvat (generatie en bewerking, met enkele of meerdere referenties) en zes thematische domeinen (kunstwerken, fotorealistische beelden, infographics, tekstafbeeldingen, computer graphics en schermafbeeldingen). De benchmark wordt ondersteund door 20K fijnmazige menselijke annotaties en een verklaarbaar evaluatieschema dat gelokaliseerde object- en segmentniveau fouten tagt, als aanvulling op geautomatiseerde VLM-gebaseerde metrieken. Onze grootschalige evaluatie van 14 modellen levert verschillende inzichten op: (1) modellen hebben doorgaans meer moeite met bewerkingstaken dan met generatietaken, vooral bij lokale aanpassingen. (2) modellen presteren uitstekend in artistieke en fotorealistische contexten, maar struggelen met symbolische en tekstrijke domeinen zoals schermafbeeldingen en infographics. (3) closed-source systemen leiden overall, terwijl gerichte datacuratie (bijv. Qwen-Image) de kloof verkleint in tekstrijke gevallen. (4) moderne VLM-gebaseerde metrieken bereiken Kendall-nauwkeurigheden tot 0.79, wat menselijke rangschikking benadert, maar schieten tekort in fijnmazige, verklaarbare fouttoewijzing. ImagenWorld biedt zowel een rigoureuze benchmark als een diagnostisch hulpmiddel om robuuste beeldgeneratie vooruit te helpen.
De snelle evolutie van videogeneratie heeft modellen in staat gesteld om complexe fysieke dynamiek en langetermijncausaliteiten te simuleren, waardoor ze zich positioneren als potentiële wereldsimulators. Er blijft echter een kritieke kloof bestaan tussen de theoretische capaciteit voor wereldsimulatie en de hoge computationele kosten van spatiotemporele modellering. Om dit aan te pakken, geven we een uitgebreid en systematisch overzicht van videogeneratiekaders en -technieken die efficiëntie als een cruciale vereiste voor praktische wereldmodellering beschouwen. We introduceren een nieuwe taxonomie in drie dimensies: efficiënte modelleringsparadigma's, efficiënte netwerkarchitecturen en efficiënte inferentie-algoritmen. We tonen verder aan dat het overbruggen van deze efficiëntiekloof interactieve toepassingen zoals autonoom rijden, belichaamde AI en gamesimulatie direct versterkt. Ten slotte identificeren we opkomende onderzoeksfronten in efficiënte op video gebaseerde wereldmodellering, met het argument dat efficiëntie een fundamentele voorwaarde is voor de evolutie van videogeneratoren naar algemene, real-time en robuuste wereldsimulators.
Door grote taalmodelen aangedreven AI-agenten vertonen sterke redeneer- en probleemoplossende vermogens, waardoor ze wetenschappelijke onderzoektaken kunnen ondersteunen zoals formule-afleiding en codegeneratie. Of deze agenten echter betrouwbaar end-to-end-reproductie vanuit echte wetenschappelijke artikelen kunnen uitvoeren, blijft een open vraag. Wij introduceren PRBench, een benchmark met 30 door experts samengestelde taken verspreid over 11 subvelden van de natuurkunde. Elke taak vereist dat een agent de methodologie van een gepubliceerd artikel begrijpt, de bijbehorende algoritmes vanaf nul implementeert en kwantitatieve resultaten produceert die overeenkomen met de oorspronkelijke publicatie. Agenten krijgen alleen de taakinstructie en artikelinhoud aangeboden en opereren in een afgeschermde uitvoeringsomgeving. Alle taken zijn bijgedragen door domeinexperts van meer dan 20 onderzoeksgroepen aan de School of Physics van de Peking University, elk gebaseerd op een echt gepubliceerd artikel en gevalideerd door end-to-end-reproductie met geverifieerde grondwaarheid-resultaten en gedetailleerde beoordelingsrubrics. Met behulp van een geautomatiseerd beoordelingsproces evalueren we een reeks coderingsagenten op PRBench en analyseren we hun capaciteiten op belangrijke dimensies van wetenschappelijk redeneren en uitvoering. De best presterende agent, OpenAI Codex aangedreven door GPT-5.3-Codex, behaalt een gemiddelde algemene score van 34%. Alle agenten vertonen een succespercentage van nul voor end-to-end-reproductie, met bijzonder zwakke prestaties op het gebied van gegevensnauwkeurigheid en codecorrectheid. We identificeren verder systematische faalwijzen, waaronder fouten in formule-implementatie, onvermogen om numerieke simulaties te debuggen en vervalsing van uitvoergegevens. Over het geheel genomen biedt PRBench een rigoureuze benchmark voor het evalueren van vooruitgang richting autonoom wetenschappelijk onderzoek.
Wij presenteren Kernel-Smith, een raamwerk voor het genereren van hoogwaardige GPU-kernels en operatoren dat een stabiele, evaluatiegestuurde evolutionaire agent combineert met een op evolutie gericht post-trainingsrecept. Aan de agentzijde houdt Kernel-Smith een populatie van uitvoerbare kandidaten bij en verbetert deze iteratief met behulp van een archief van toppresterende en diverse programma's, samen met gestructureerde uitvoeringsfeedback over compilatie, correctheid en snelheidswinst. Om deze zoektocht betrouwbaar te maken, bouwen we backend-specifieke evaluatiediensten voor Triton op NVIDIA GPU's en Maca op MetaX GPU's. Aan de trainingszijde zetten we lange-termijn evolutietrajecten om in stapgerichte supervisie- en reinforcement learning-signalen door correctheid-bewarende revisies met hoge winst te behouden, zodat het model wordt geoptimaliseerd als een sterke lokale verbeteraar binnen de evolutionaire lus in plaats van als een one-shot generator. Onder een uniform evolutionair protocol behaalt Kernel-Smith-235B-RL state-of-the-art algemene prestaties op KernelBench met de Nvidia Triton-backend, met de beste gemiddelde snelheidsverhouding en presteert het beter dan vooraanstaande propriëtaire modellen zoals Gemini-3.0-pro en Claude-4.6-opus. We valideren het raamwerk verder op de MetaX MACA-backend, waar onze Kernel-Smith-MACA-30B grootschalige tegenhangers zoals DeepSeek-V3.2-think en Qwen3-235B-2507-think overtreft, wat het potentieel voor naadloze aanpassing over heterogene platformen benadrukt. Naast benchmarkresultaten levert dezelfde workflow upstream-bijdragen aan productiesystemen zoals SGLang en LMDeploy, wat aantoont dat LLM-gedreven kerneloptimalisatie kan worden overgedragen van gecontroleerde evaluatie naar praktische implementatie.
Het begrijpen van grafieken vereist dat modellen gezamenlijk kunnen redeneren over geometrische visuele patronen, gestructureerde numerieke gegevens en natuurlijke taal – een capaciteit waarin huidige visie-taalmodellen (VLM's) beperkt blijven. Wij introduceren ChartNet, een hoogwaardige, multimodale dataset op miljoenschaal, ontworpen om grafiekinterpretatie en -redenering te bevorderen. ChartNet maakt gebruik van een nieuwe code-gestuurde synthese-pijplijn om 1,5 miljoen diverse grafiekvoorbeelden te genereren, verdeeld over 24 grafiektypes en 6 plotbibliotheken. Elk voorbeeld bestaat uit vijf uitgelijnde componenten: plotcode, gerenderde grafiekafbeelding, gegevenstabel, samenvatting in natuurlijke taal en vraag-antwoord met redenering, waardoor een fijnmazige cross-modale uitlijning wordt geboden. Om het volledige spectrum van grafiekbegrip te omvatten, bevat ChartNet bovendien gespecialiseerde subsets met door mensen geannoteerde gegevens, real-world gegevens, veiligheid en gronding. Daarnaast zorgt een rigoureus kwaliteitsfilteringsproces voor visuele trouw, semantische nauwkeurigheid en diversiteit in grafiekrepresentaties. Fine-tuning op ChartNet levert consistente verbeteringen op across benchmarks, wat de bruikbaarheid ervan als grootschalige supervisie voor multimodale modellen aantoont. Als de grootste open-source dataset in zijn soort, beoogt ChartNet de ontwikkeling van foundation-modellen te ondersteunen met robuuste en generaliseerbare capaciteiten voor het begrijpen van datavisualisaties. De dataset is openbaar beschikbaar op https://huggingface.co/datasets/ibm-granite/ChartNet.
Moderne tekst-naar-beeld (T2I) diffusiemodellen hebben een opmerkelijke semantische uitlijning bereikt, maar lijden vaak aan een aanzienlijk gebrek aan variatie, waarbij ze convergeren naar een beperkte set van visuele oplossingen voor een gegeven prompt. Deze typiciteitsbias vormt een uitdaging voor creatieve toepassingen die een breed scala aan generatieve uitkomsten vereisen. Wij identificeren een fundamentele wisselwerking in huidige benaderingen voor diversiteit: het aanpassen van modelinputs vereist kostbare optimalisatie om feedback van het generatieve pad te incorporeren. Daarentegen verstoort ingrijpen op ruimtelijk vastgelegde tussenliggende latenties de zich vormende visuele structuur, wat leidt tot artefacten. In dit werk stellen wij voor om afstoting toe te passen in de Contextuele Ruimte als een nieuw kader voor het bereiken van rijke diversiteit in Diffusion Transformers. Door in te grijpen in de multimodale aandachtskanalen, passen we dynamische afstoting toe tijdens de forward pass van de transformer, waarbij we de interventie injecteren tussen blokken waar tekstconditionering wordt verrijkt met emergente beeldstructuur. Dit maakt het mogelijk om de begeleidingstrajectorie te heroriënteren nadat deze structureel is geïnformeerd, maar voordat de compositie vaststaat. Onze resultaten tonen aan dat afstoting in de Contextuele Ruimte een aanzienlijk rijkere diversiteit oplevert zonder in te leveren op visuele kwaliteit of semantische trouw. Bovendien is onze methode uniek efficiënt, voegt ze een kleine computationele overhead toe en blijft ze effectief, zelfs in moderne "Turbo"- en gedistilleerde modellen waar traditionele op trajectorie gebaseerde interventies doorgaans falen.
Onderzoeksagenten hebben recent aanzienlijke vooruitgang geboekt in het zoeken naar en synthetiseren van informatie uit heterogene tekstuele en visuele bronnen. In dit artikel introduceren we MuSEAgent, een multimodale redeneeragent die de besluitvorming verbetert door de mogelijkheden van onderzoeksagenten uit te breiden om stateful ervaringen te ontdekken en te benutten. In plaats van te vertrouwen op retrieval op trajectniveau, stellen we een stateful ervaringsleerparadigma voor dat interactiedata abstraheert naar atomische beslissingservaringen via hindsight reasoning. Deze ervaringen worden georganiseerd in een gekwaliteitsgefilterde ervaringsbank die retrieval van ervaringen op basis van beleid ondersteunt tijdens inferentie. Concreet stelt MuSEAgent adaptieve ervaringsbenutting mogelijk via complementaire brede- en diepzoekstrategieën, waardoor de agent dynamisch multimodale richtlijnen kan ophalen over diverse compositionele semantische perspectieven. Uitgebreide experimenten tonen aan dat MuSEAgent consistent sterke baseline-methoden voor ervaringsretrieval op trajectniveau overtreft, zowel voor fijnmazige visuele perceptie als voor complexe multimodale redeneertaken. Deze resultaten valideren de effectiviteit van stateful ervaringsmodellering voor het verbeteren van multimodaal redeneren bij agenten.
Het genereren van wetenschappelijke manuscripten vereist het behoud van consistentie tussen narratieve redenering, experimenteel bewijs en visuele elementen gedurende de volledige documentlevenscyclus. Bestaande generatiepijplijnen met taalmodellen baseren zich op onbeperkte tekstsynthese met validatie die pas na generatie plaatsvindt, wat vaak leidt tot structurele afwijkingen, ontbrekende figuren of tabellen, en inconsistenties tussen secties. Wij introduceren Story2Proposal, een contractgestuurd multi-agentframework dat een onderzoeksverhaal omzet in een gestructureerd manuscript via gecoördineerde agents die opereren onder een persistent gedeeld visueel contract. Het systeem organiseert architect-, schrijver-, verfijnings- en renderagents rond een contractstatus die de sectiestructuur en geregistreerde visuele elementen bijhoudt, terwijl evaluatieagents feedback leveren in een generate-evaluate-adapt-cyclus die het contract tijdens de generatie actualiseert. Experimenten met taken afgeleid van de Jericho-onderzoekscorpus tonen aan dat Story2Proposal een expertbeoordelingsscore van 6.145 behaalde versus 3.963 voor DirectChat (+2.182) over GPT-, Claude-, Gemini- en Qwen-backbones. Vergeleken met de gestructureerde generatie-baseline Fars behaalde Story2Proposal een gemiddelde score van 5.705 versus 5.197, wat wijst op verbeterde structurele consistentie en visuele afstemming.
Diepgaande onderzoeksagenten voeren autonoom open-einde onderzoeken uit, waarbij ze complexe informatieverwerking combineren met meerstapsredenering over diverse bronnen om real-world problemen op te lossen. Om dit vermogen bij langetermijntaken te behouden, is betrouwbare verificatie cruciaal tijdens zowel training als inferentie. Een belangrijke bottleneck in bestaande paradigma's ontstaat door het ontbreken van expliciete verificatiemechanismen bij QA-datasynthese, trajectconstructie en testtime-schaling. Fouten die in elke fase worden geïntroduceerd, planten zich stroomafwaarts voort en verslechteren de algehele agentprestatie. Om dit aan te pakken, presenteren we Marco DeepResearch, een diepgaande onderzoeksagent geoptimaliseerd met een verificatiegericht kaderontwerp op drie niveaus: (1)~QA-datasynthese: We introduceren verificatiemechanismen in op grafen en agenten gebaseerde QA-synthese om de vraagmoeilijkheid te beheersen en tegelijkertijd te garanderen dat antwoorden uniek en correct zijn; (2)~Trajectconstructie: We ontwerpen een verificatiegedreven trajectsynthesemethode die expliciete verificatiepatronen in trainingspaden injecteert; en (3)~Testtime-schaling: We gebruiken Marco DeepResearch zelf als verifier tijdens inferentie en verbeteren effectief de prestaties op uitdagende vragen. Uitgebreide experimentele resultaten tonen aan dat onze voorgestelde Marco DeepResearch-agent aanzienlijk beter presteert dan 8B-schaal diepgaande onderzoeksagenten op de meest uitdagende benchmarks, zoals BrowseComp en BrowseComp-ZH. Cruciaal is dat Marco DeepResearch onder een maximaal budget van 600 toolaanroepen zelfs verschillende 30B-schaal agenten overtreft of benadert, zoals Tongyi DeepResearch-30B.
Multimodale Large Language Models (MLLM's) bereiken een sterker visueel begrip door de invoerfideliteit op te schalen, maar de resulterende groei van visuele tokens maakt het gezamenlijk handhaven van een hoge ruimtelijke resolutie en een lange temporele context onhaalbaar. Wij stellen dat de bottleneck niet ligt in hoe post-encoding representaties worden gecomprimeerd, maar in het volume pixels dat de encoder ontvangt, en adresseren dit met ResAdapt, een input-side adaptatieraamwerk dat leert hoeveel visueel budget elk frame zou moeten ontvangen vóór de encoding. ResAdapt koppelt een lichtgewicht Allocator aan een ongewijzigde MLLM-backbone, zodat de backbone zijn oorspronkelijke visuele token-interface behoudt terwijl hij een door de operator getransformeerde invoer ontvangt. Wij formuleren allocatie als een contextueel bandietenprobleem en trainen de Allocator met Cost-Aware Policy Optimization (CAPO), dat schaarse rollout-feedback omzet in een stabiel nauwkeurigheid-kosten-leersignaal. Over budget-gecontroleerde video QA, temporele grounding en beeldredeneertaken verbetert ResAdapt low-budget werkpunten en bevindt zich vaak op of nabij de efficiëntie-nauwkeurigheid-grens, met de duidelijkste winst op reasoning-intensieve benchmarks onder agressieve compressie. Opmerkelijk is dat ResAdapt tot 16x meer frames ondersteunt bij hetzelfde visuele budget, terwijl het een prestatieverbetering van meer dan 15% oplevert. Code is beschikbaar op https://github.com/Xnhyacinth/ResAdapt.
Diffusiemodellen hebben aanzienlijke vooruitgang geboekt in zowel tekst-naar-beeld (T2I) generatie als tekstgestuurd beeldbewerking. Deze modellen zijn echter doorgaans opgebouwd uit miljarden parameters, wat leidt tot een hoge latentie en grotere implementatie-uitdagingen. Hoewel on-device diffusiemodellen de efficiëntie verbeteren, richten ze zich grotendeels op T2I-generatie en ontbreekt ondersteuning voor beeldbewerking. In dit artikel presenteren we DreamLite, een compact, verenigd on-device diffusiemodel (0,39B) dat zowel T2I-generatie als tekstgestuurd beeldbewerking ondersteunt binnen een enkel netwerk. DreamLite is gebouwd op een uitgedunde mobiele U-Net-backbone en verenigt conditionering door in-context spatiale concatenatie in de latente ruimte. Het concateneert afbeeldingen horizontaal als invoer, waarbij een (doel | leeg) configuratie wordt gebruikt voor generatietaken en (doel | bron) voor bewerkingstaken. Om de training van dit compacte model te stabiliseren, introduceren we een taakprogressieve gezamenlijke pretrainingsstrategie die achtereenvolgens gericht is op T2I-, bewerkings- en gezamenlijke taken. Na hoogwaardige SFT en reinforcement learning behaalt DreamLite een GenEval (0,72) voor beeldgeneratie en ImgEdit (4,11) voor beeldbewerking, waarmee het bestaande on-device modellen overtreft en competitief blijft met verschillende server-side modellen. Door gebruik te maken van stapdistillatie reduceren we de denoiseringsverwerking verder tot slechts 4 stappen, waardoor onze DreamLite een 1024 x 1024 afbeelding kan genereren of bewerken in minder dan 1 seconde op een Xiaomi 14-smartphone. Voor zover ons bekend is DreamLite het eerste verenigde on-device diffusiemodel dat zowel beeldgeneratie als beeldbewerking ondersteunt.
Recente vooruitgang in videogrote-taalmmodellen (Video-LLM's) heeft krachtige offline redenering over lange en complexe video's mogelijk gemaakt. In praktijkimplementaties is er echter een toenemende behoefte aan streamingperceptie en proactieve interactie, waarbij videoframes online binnenkomen en het systeem niet alleen moet beslissen wat te antwoorden, maar ook wanneer te antwoorden. In dit werk benaderen we proactieve activering in streamingvideo opnieuw als een gestructureerd sequentiemodelprobleem, gemotiveerd door de observatie dat temporele overgangen in streamingvideo van nature span-gestructureerde activeringspatronen vormen. Om deze span-niveau structuur vast te leggen, modelleren we activeringssignalen gezamenlijk over een glijdend temporeel venster en werken we deze iteratief bij wanneer nieuwe frames arriveren. Wij stellen STRIDE voor (Gestructureerde Temporele Verfijning met Iteratieve Denoisering), dat een lichtgewicht gemaskeerd diffusiemodule gebruikt op de activeringsinterface om gezamenlijk activeringssignalen over het venster te voorspellen en progressief te verfijnen. Uitgebreide experimenten op diverse streamingbenchmarks en downstreammodellen tonen aan dat STRIDE betrouwbaardere en temporeel coherentere proactieve reacties vertoont, waardoor de kwaliteit van 'wanneer-te-spreken'-beslissingen in online streaming scenario's aanzienlijk verbetert.
Het evalueren van productie-LLM-responses en het routeren van verzoeken tussen verschillende aanbieders in LLM-gateways vereist gedetailleerde kwaliteitssignalen en operationeel onderbouwde beslissingen. Om deze leemte op te vullen, presenteren we SEAR, een op schema's gebaseerd evaluatie- en routeringssysteem voor multi-model, multi-provider LLM-gateways. SEAR definieert een uitbreidbaar relationeel schema dat zowel LLM-evaluatiesignalen omvat (context, intentie, responskenmerken, probleemtoewijzing en kwaliteitsscores) als gateway-operationele metrieken (latentie, kosten, doorvoer), met kruistabel-consistentieverbindingen over ongeveer honderd getypeerde, SQL-querybare kolommen. Om de evaluatiesignalen betrouwbaar in te vullen, stelt SEAR zelfstandige signaalinstructies, redenering in het schema en meertrapsgeneratie voor die gestructureerde, database-klare uitvoer produceert. Omdat signalen worden afgeleid via LLM-redenering in plaats van oppervlakkige classificatoren, vangt SEAR complexe verzoek semantiek af, maakt het menselijk interpreteerbare routeringsverklaringen mogelijk en verenigt het evaluatie en routering in een enkele querylaag. Over duizenden productiesessies bereikt SEAR een hoge signaalmauwkeurigheid op door mensen gelabelde gegevens en ondersteunt het praktische routeringsbeslissingen, inclusief aanzienlijke kostenverlagingen bij vergelijkbare kwaliteit.
Hoewel de synthese van menselijke beweging een snelle vooruitgang heeft geboekt, blijven realistische handbewegingen en bimanuele interacties onderbelicht. Whole-body modellen missen vaak de fijnmazige signalen die behendig gedrag, vingerarticulatie, contacttiming en coördinatie tussen handen sturen, en bestaande bronnen ontberen hoogwaardige bimanuele sequenties die genuanceerde vingerdynamiek en samenwerking vastleggen. Om deze leemte op te vullen, presenteren wij HandX, een uniform fundament dat data, annotatie en evaluatie omvat. Wij consolideren en filteren bestaande datasets op kwaliteit en verzamelen een nieuwe motion-capture dataset die gericht is op ondervertegenwoordigde bimanuele interacties met gedetailleerde vingerdynamiek. Voor schaalbare annotatie introduceren wij een ontkoppelde strategie die representatieve bewegingskenmerken extraheert, zoals contactgebeurtenissen en vingerflexie, en vervolgens redenering van large language models benut om fijnmazige, semantisch rijke beschrijvingen te produceren die op deze kenmerken zijn afgestemd. Voortbouwend op de resulterende data en annotaties, evalueren wij diffusion- en autoregressieve modellen met veelzijdige conditioneringsmogelijkheden. Experimenten tonen hoogwaardige generatie van behendige bewegingen aan, ondersteund door onze nieuw voorgestelde handgerichte metrieken. Wij observeren verder duidelijke schaalwetten: grotere modellen getraind op grotere, kwalitatief betere datasets produceren semantisch coherentere bimanuele beweging. Onze dataset wordt vrijgegeven om toekomstig onderzoek te ondersteunen.
Wij presenteren KAT-Coder-V2, een agent-gebaseerd coderingsmodel ontwikkeld door het KwaiKAT-team van Kuaishou. KAT-Coder-V2 hanteert een "Specialiseer-dan-Verenig"-paradigma dat agent-gebaseerd coderen opdeelt in vijf expertgebieden - SWE, WebCoding, Terminal, WebSearch en Algemeen - die elk onafhankelijke supervised fine-tuning en reinforcement learning ondergaan, voordat ze worden geconsolideerd tot één enkel model via on-policy distillatie. Wij ontwikkelden KwaiEnv, een modulaire infrastructuur die tienduizenden gelijktijdige sandbox-instanties ondersteunt, en schalen RL-training op langs taakcomplexiteit, intentie-uitlijning en scaffold-generalizatie. Verder stellen wij MCLA voor om MoE RL-training te stabiliseren en Tree Training om redundante berekeningen over boomgestructureerde trajecten te elimineren met een versnelling tot 6.2x. KAT-Coder-V2 behaalt 79.6% op SWE-bench Verified (vs. Claude Opus 4.6 op 80.8%), 88.7 op PinchBench (beter dan GLM-5 en MiniMax M2.7), staat op de eerste plaats in alle drie frontend-estheticascenario's, en behoudt sterke generalistenscores op Terminal-Bench Hard (46.8) en tau^2-Bench (93.9). Ons model is openbaar beschikbaar op https://streamlake.com/product/kat-coder.
Mobiele apparaten communiceren continu met cellulaire basisstations, wat enorme hoeveelheden signaleringsrecords genereert die een brede dekking bieden voor het begrijpen van menselijke mobiliteit. Dergelijke records bieden echter alleen grove locatie-informatie (bijvoorbeeld identifiers van de bedienende cel) en beperken daardoor hun directe gebruik in toepassingen die hoogwaardige GPS-trajecten vereisen. Dit artikel bestudeert het Sig2GPS-probleem: het reconstrueren van GPS-trajecten uit cellulaire signalering. Geïnspireerd door domeinexperts die vaak het signaleringsspoor op de kaart leggen en de bijbehorende GPS-route schetsen, wordt Sig2GPS – in tegenstelling tot conventionele oplossingen die afhankelijk zijn van complexe, meerfasige technische pijplijnen of coördinaten regresseren – herkaderd als een beeld-naar-video-generatietaak die rechtstreeks in het visuele kaartdomein opereert: signaleringssporen worden weergegeven op een kaart, en een videogeneratiemodel wordt getraind om een continu GPS-pad te tekenen. Om dit paradigma te ondersteunen, wordt een gekoppelde dataset van signalering-naar-trajectvideo's geconstrueerd om een open-source videomodel te fine-tunen, en wordt een trajectbewuste, op reinforcement learning gebaseerde optimalisatiemethode geïntroduceerd om de generatiefideliteit te verbeteren via beloningen. Experimenten op grootschalige real-world datasets tonen substantiële verbeteringen ten opzichte van sterke technische en op leren gebaseerde basislijnen, terwijl aanvullende resultaten voor volgende GPS-voorspelling schaalbaarheid en overdraagbaarheid tussen steden aantonen. Over het geheel genomen suggereren deze resultaten dat visuele kaartvideogeneratie een praktische interface biedt voor trajectdatamining door directe generatie en verfijning van continue paden onder kaartbeperkingen mogelijk te maken.
Gegevens bestaan in vele vormen. Vanuit een oppervlakkig perspectief kunnen ze worden ingedeeld als gestructureerd (bijvoorbeeld als een relatie, als sleutel-waardeparen) of ongestructureerd (bijvoorbeeld tekst, afbeeldingen). Tot nu toe zijn machines redelijk goed in staat geweest om gestructureerde gegevens met een precies schema te verwerken en te analyseren. De heterogeniteit van gegevens vormt echter een aanzienlijke uitdaging voor de zinvolle opslag en verwerking van uiteenlopende gegevenscategorieën. Dataintegratie, een cruciaal onderdeel van de data-engineeringpijplijn, lost dit op door verschillende gegevensbronnen te combineren en eindgebruikers uniforme gegevenstoegang te bieden. Tot dusver hebben de meeste dataintegratiesystemen zich voornamelijk gericht op het combineren van gestructureerde gegevensbronnen. Niettemin bevatten ongestructureerde gegevens (ook wel vrije tekst genoemd) eveneens een schat aan kennis die kan worden benut. Daarom beargumenteren we in dit hoofdstuk eerst de integratie van tekstuele gegevens, om vervolgens de uitdagingen, de stand van zaken en openstaande problemen te presenteren.
Zachte contextcompressie vermindert de computationele werklast voor het verwerken van lange contexten in LLM's door lange context te coderen in een kleiner aantal latente tokens. Bestaande frameworks passen echter uniforme compressieverhoudingen toe, zonder rekening te houden met de extreme variatie in informatiedichtheid van natuurlijke taal. Hoewel het gebruik van een dynamische, op dichtheid afgestemde compressieverhouding intuïtief lijkt, tonen empirische onderzoeken aan dat modellen intrinsieke moeite hebben met bewerkingen die geparametriseerd worden door invoerafhankelijke, continue structurele hyperparameters. Om deze valkuil op te lossen, introduceren wij het Semi-Dynamisch Contextcompressie-framework. Onze aanpak omvat een Discrete Ratio Selector, die een compressiedoel voorspelt op basis van de intrinsieke informatiedichtheid en deze kwantiseert naar een vooraf gedefinieerde set van discrete compressieverhoudingen. Deze wordt efficiënt gezamenlijk getraind met de compressor op synthetische data, waarbij de samenvattingslengtes als proxy dienen om labels te creëren voor de voorspelling van de compressieverhouding. Uitgebreide evaluaties bevestigen dat ons op dichtheid afgestemd framework, dat mean pooling als backbone gebruikt, consistent beter presteert dan statische baseline-methoden, en daarmee een robuust Pareto-frontier vestigt voor contextcompressietechnieken. Onze code, data en modelgewichten zijn beschikbaar op https://github.com/yuyijiong/semi-dynamic-context-compress.
Aanwijzen is een fundamentele capaciteit geworden van visueel-taalkundige modellen (VTM's). De meeste bestaande VTM's wijzen aan door coördinaten te genereren als onderdeel van hun tekstuele output, wat het aanleren van een complex coördinatensysteem vereist en resulteert in een hoog aantal tokens. In plaats daarvan stellen wij een intuïtiever aanwijsmechanisme voor dat direct de visuele tokens selecteert die het doelconcept bevatten. Ons model genereert een speciaal aanwijstoken dat middels cross-attentie de input beeld- of videotokens analyseert en de juiste selecteert. Om dit model fijnmaziger te maken, laten we deze aanwijstokens volgen door een aanvullend speciaal token dat een fijnmazig subgedeelte binnen het initieel geselecteerde gebied kiest, en vervolgens een derde token dat een locatie binnen dat subgedeelte specificeert. Verder tonen we aan dat de prestaties verbeteren door punten sequentieel in een consistente volgorde te genereren, de relatieve positie van het eerder geselecteerde punt te coderen, en een speciale klasse voor 'geen-punten-meer' op te nemen bij het selecteren van visuele tokens. Met deze methode vestigen we een nieuwe state-of-the-art voor beeldaanwijzing (70,7% op PointBench), een nieuwe state-of-the-art onder volledig open modellen voor GUI-aanwijzing (61,1% op ScreenSpotPro), en verbeteren we video-aanwijzing (59,1% menselijke voorkeur winstpercentage vs. een tekstcoördinaten-basislijn) en tracking (+6,3% winst op Molmo2Track). Daarnaast tonen we aan dat onze methode een aanzienlijk hogere sample-efficiëntie bereikt en bespreken we de kwalitatieve verschillen die uit deze ontwerpwijziging voortvloeien.
Het vooruitzicht van kunstmatige superintelligentie – AI-agenten die mensen over het algemeen kunnen overtreffen in cognitieve taken en economisch waardevolle activiteiten – zal de rechtsorde zoals wij die kennen ingrijpend veranderen. AI-agenten, die autonoom opereren of onder slechts beperkt menselijk toezicht, zullen een groeiend aantal rollen in het rechtssysteem gaan vervullen. Ten eerste zullen AI-agenten door het nemen van ingrijpende beslissingen en het ondernemen van acties in de echte wereld de facto rechtssubjecten worden. Ten tweede zullen AI-agenten, om samen te werken en te concurreren met andere actoren (menselijk of niet-menselijk), conventionele juridische instrumenten en instituties zoals contracten en rechtbanken gaan benutten, waardoor zij consumenten van recht worden. Ten derde zullen AI-agenten, voor zover zij functies vervullen zoals het schrijven, interpreteren en toepassen van wetgeving, producenten en handhavers van recht worden. Deze ontwikkelingen, wanneer zij zich uiteindelijk voordoen, zullen fundamentele veronderstellingen in de rechtsleer en rechtstheorie in twijfel trekken, vooral voor zover deze de legitimiteit van juridische instituties grondvesten in hun menselijke oorsprong. Pogingen om AI-agenten af te stemmen op het bestaande menselijke recht zullen eveneens voor nieuwe uitdagingen komen te staan, aangezien AI-agenten niet alleen een primair doelwit van het recht zullen zijn, maar ook een kerngebruiker van en een bijdrager aan het recht. Om het tijdperk van superintelligentie het hoofd te bieden, zullen wetgevers – zowel nieuwe als traditionele – helderziend moeten zijn: zij moeten zowel de kans onderkennen om juridische instituties vorm te geven terwijl de samenleving zich opmaakt voor superintelligentie, als de realiteit dat dit op de lange termijn een gezamenlijke mens-AI-inspanning kan worden.
Recente modellen voor Kunstmatige Intelligentie (AI) hebben menselijke experts geëvenaard of overtroffen in verschillende benchmarks voor biomedische taken, maar blijven achter op benchmarks voor chirurgische beeldanalyse. Omdat chirurgie vereist dat uiteenlopende taken worden geïntegreerd – waaronder multimodale gegevensintegratie, menselijke interactie en fysieke effecten – zouden algemeen inzetbare AI-modellen bijzonder aantrekkelijk kunnen zijn als collaboratief hulpmiddel indien de prestaties verbeterd kunnen worden. Enerzijds is de klassieke aanpak van het opschalen van de architectuurgrootte en trainingsdata aantrekkelijk, vooral omdat er jaarlijks miljoenen uren aan chirurgische videogegevens worden gegenereerd. Anderzijds vereist het voorbereiden van chirurgische data voor AI-training aanzienlijk hogere niveaus van professionele expertise, en het trainen op die data vereist dure computationele middelen. Deze afwegingen schetsen een onzeker beeld of, en in hoeverre, moderne AI de chirurgische praktijk zou kunnen ondersteunen. In dit artikel onderzoeken we deze vraag via een casestudy over de detectie van chirurgisch gereedschap met behulp van state-of-the-art AI-methoden die in 2026 beschikbaar zijn. We tonen aan dat zelfs met modellen van meerdere miljarden parameters en uitgebreide training, huidige Vision Language Models tekortschieten in de ogenschijnlijk eenvoudige taak van gereedschapsdetectie in de neurochirurgie. Daarnaast tonen we schaalexperimenten die aangeven dat het vergroten van de modelgrootte en de traintijd slechts leidt tot afnemende verbeteringen in relevante prestatiemetingen. Onze experimenten suggereren dus dat huidige modellen nog steeds significante obstakels kunnen ondervinden in chirurgische toepassingen. Bovendien kunnen sommige obstakels niet eenvoudigweg worden 'weggeschaald' met extra rekenkracht en blijven ze bestaan across diverse modelarchitecturen, wat de vraag opwerpt of de beschikbaarheid van data en labels de enige beperkende factoren zijn. We bespreken de belangrijkste oorzaken van deze beperkingen en dragen mogelijke oplossingen aan.
Het begrijpen van lange video's blijft een uitdaging voor Multimodale Large Language Models (MLLM's) vanwege hoge geheugenkosten en contextlengtebeperkingen. Eerdere benaderingen proberen dit te verlichten door frames/tokens binnen korte clips te scoren en te selecteren, maar zij missen een principieel mechanisme om (i) relevantie te vergelijken tussen ver uit elkaar liggende videoclips en (ii) te stoppen met verwerken zodra voldoende bewijs is verzameld. Wij stellen AdaptToken voor, een trainingsvrij framework dat de zelfonzekerheid van een MLLM omzet in een globaal controlesignaal voor de selectie van tokens in lange video's. AdaptToken splitst een video in groepen, extraheert cross-modale aandacht om tokens binnen elke groep te rangschikken, en gebruikt de entropie van het modelantwoord om de relevantie van elke groep voor de prompt in te schatten. Dit entropiesignaal maakt een globale toewijzing van het tokenbudget over groepen mogelijk en ondersteunt verder vroegtijdig stoppen (AdaptToken-Lite), waarbij de resterende groepen worden overgeslagen zodra het model voldoende zeker wordt. Over vier lange-videobenchmarks (VideoMME, LongVideoBench, LVBench en MLVU) en meerdere basis-MLLM's (7B-72B) verbetert AdaptToken consistent de nauwkeurigheid (bijv. gemiddeld +6,7 ten opzichte van Qwen2.5-VL 7B) en blijft het profiteren van extreem lange invoer (tot 10.000 frames), terwijl AdaptToken-Lite de inferentietijd ongeveer halveert met vergelijkbare prestaties. Projectpagina: https://haozheqi.github.io/adapt-token
De computationele pathologie heeft behoefte aan foundationmodellen voor whole-slide images (WSI's) die generaliseren naar diverse klinische taken. Huidige methoden zijn echter grotendeels slide-gecentreerd, zijn vaak afhankelijk van private data en dure supervisie met gekoppelde pathologiereports, en modelleren niet expliciet de relaties tussen meerdere slides van dezelfde patiënt. Wij presenteren MOOZY, een patiënt-gericht pathologie foundationmodel waarin de patiëntcasus, en niet de individuele slide, de kern van de representatie vormt. MOOZY modelleert expliciet afhankelijkheden tussen alle slides van dezelfde patiënt via een case-transformer tijdens de pretraining, door multi-stage open self-supervision te combineren met geschaalde, goedkope tasksupervisie. In Fase 1 pretrainen we een visueel slide-encoder-model op 77.134 publieke slide-featuregrids met behulp van gemaskeerde zelf-distillatie. In Fase 2 aligneren we deze representaties met klinische semantiek met behulp van een case-transformer en multi-task supervisie over 333 taken uit 56 publieke datasets, waaronder 205 classificatie- en 128 overlevingstaken voor vier eindpunten. In evaluaties op acht buiten-beschouwing-gelaten taken met five-fold frozen-feature probe evaluation behaalt MOOZY de beste of gedeeld beste prestaties op de meeste metrieken en verbetert het de macro-gemiddelden ten opzichte van TITAN met +7,37%, +5,50% en +7,83% en ten opzichte van PRISM met +8,83%, +10,70% en +9,78% voor respectievelijk gewogen F1, gewogen ROC-AUC en gebalanceerde nauwkeurigheid. MOOZY is ook parameter-efficiënt met 85,77M parameters, 14x kleiner dan GigaPath. Deze resultaten tonen aan dat open, reproduceerbare pretraining op patiëntniveau overdraagbare embeddings oplevert, en biedt een praktisch pad naar schaalbare, patiënt-gerichte histopathologie foundationmodellen.
Generatieve modellen blinken uit in bewegingssynthese voor een vast aantal agenten, maar hebben moeite met generalisatie bij een variabel aantal agenten. Gebaseerd op beperkte, domeinspecifieke data, gebruiken bestaande methodes autoregressieve modellen om beweging recursief te genereren, wat lijdt onder inefficiëntie en foutaccumulatie. Wij stellen Unified Motion Flow (UMF) voor, dat bestaat uit Pyramid Motion Flow (P-Flow) en Semi-Noise Motion Flow (S-Flow). UMF ontbindt het aantal-onafhankelijke bewegingsgeneratie in een eenmalige prior-generatiefase voor beweging en meermalige reactie-generatiefases. Concreet benut UMF een uniforme latente ruimte om de distributiekloof tussen heterogene bewegingsdatasets te overbruggen, wat effectieve uniforme training mogelijk maakt. Voor het genereren van bewegingspriors opereert P-Flow op hiërarchische resoluties, geconditioneerd op verschillende ruisniveaus, waardoor de rekenkosten worden beperkt. Voor reactiegeneratie leert S-Flow een gezamenlijk probabilistisch pad dat adaptief reactietransformatie en contextreconstructie uitvoert, waardoor foutaccumulatie wordt verminderd. Uitgebreide resultaten en gebruikersstudies tonen de effectiviteit van UMF aan als een generalistenmodel voor bewegingsgeneratie van meerdere personen vanuit tekst. Projectpagina: https://githubhgh.github.io/umf/.
In-context segmentatie (ICS) heeft als doel willekeurige concepten, zoals objecten, onderdelen of gepersonaliseerde instanties, te segmenteren op basis van één geannoteerd visueel voorbeeld. Bestaande methoden zijn gebaseerd op (i) het fine-tunen van vision foundation models (VFM's), wat de resultaten binnen het domein verbetert maar de generalisatie schaadt, of (ii) het combineren van meerdere bevroren VFM's, wat de generalisatie behoudt maar leidt tot architecturele complexiteit en vaste segmentatiegranulariteiten. Wij benaderen ICS opnieuw vanuit een minimalistisch perspectief en stellen de vraag: Kan een enkele zelf-gesuperviseerde backbone zowel semantische matching als segmentatie ondersteunen, zonder enige supervisie of hulpmodellen? Wij tonen aan dat opgeschaalde, dense, zelf-gesuperviseerde features van DINOv3 een sterke ruimtelijke structuur en semantische correspondentie vertonen. Wij introduceren INSID3, een trainingsvrije aanpak die concepten op verschillende granulariteiten segmenteert uitsluitend op basis van bevroren DINOv3-features, gegeven een in-context voorbeeld. INSID3 behaalt state-of-the-art resultaten op het gebied van one-shot semantische, onderdeel- en gepersonaliseerde segmentatie, en presteert +7,5 % mIoU beter dan eerdere werkzaamheden, terwijl het 3x minder parameters gebruikt en zonder enige masker- of categorie-niveau supervisie. Code is beschikbaar op https://github.com/visinf/INSID3.
Plasma-modellering staat centraal bij het ontwerp van kernfusiereactoren, maar het simuleren van collisionele plasma-kinetiek vanuit eerste principes blijft een formidabele computationele uitdaging: het Vlasov-Maxwell-Landau (VML)-systeem beschrijft zesdimensionaal transport in de faseruimte onder zelfconsistente elektromagnetische velden, samen met de niet-lineaire, niet-lokale Landau-botsingsoperator. Een recente deterministische deeltjesmethode voor het volledige VML-systeem schat de snelheidsscorefunctie in via de blob-methode, een op kernels gebaseerde benadering met O(n²)-kosten. In dit werk vervangen we de blob-score-schatter door score-based transport modeling (SBTM), waarbij een neuraal netwerk on-the-fly wordt getraind via impliciete score-matching tegen O(n)-kosten. Wij bewijzen dat de benaderde botsingsoperator impuls en kinetische energie behoudt, en een geschatte entropie dissipeert. We karakteriseren ook de unieke globale evenwichtstoestand van het VML-systeem en de elektrostatische reductie ervan, wat de grondwaarheid voor numerieke validatie verschaft. Op drie canonieke benchmarks – Landau-demping, twee-stroom-instabiliteit en Weibel-instabiliteit – presteert SBTM nauwkeuriger dan de blob-methode, bereikt het correcte relaxatie op lange termijn naar het Maxwelliaanse evenwicht waar de blob-methode faalt, en levert het 50% snellere rekentijd met 4 keer lager piekgeheugengebruik.