Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Openbaar vervoerrouteplanning is traditioneel afhankelijk van gestructureerde kaartinfrastructuur en complexe routeringsalgoritmen, en er bestaat geen bestaande dataset die het trainen van modellen ondersteunt om deze afhankelijkheid te omzeilen. Wij presenteren TransitLM, een grootschalige dataset met meer dan 13 miljoen routeplanningsrecords van openbaar vervoer uit vier Chinese steden, die 120.845 stations en 13.666 lijnen beslaat, uitgebracht als een continu pre-trainingscorpus en benchmarkdata voor drie evaluatietaken met complementaire metrieken. Experimenten tonen aan dat een LLM getraind op TransitLM structureel geldige routes produceert met hoge nauwkeurigheid en impliciet willekeurige GPS-coördinaten koppelt aan geschikte stations zonder enige expliciete mapping. Deze resultaten demonstreren dat routeplanning voor openbaar vervoer volledig uit data kan worden geleerd, wat end-to-end, kaartvrije routegeneratie mogelijk maakt, direct op basis van herkomst-bestemmingsinformatie. De dataset en benchmark zijn beschikbaar op https://huggingface.co/datasets/GD-ML/TransitLM, met evaluatiecode op https://github.com/HotTricker/TransitLM.
Multimodale Grote Taalmodellen (MLLM's) worden steeds vaker ingezet in mensgerichte rollen waar persoonlijkheidsperceptie cruciaal is, maar bestaande benchmarks evalueren deze capaciteit uitsluitend op numerieke voorspelling van de Big Five-scores, waardoor onduidelijk blijft of modellen persoonlijkheid werkelijk waarnemen via gedragsbegrip of slechts vooroordelen op basis van oppervlakkige patroonherkenning. Wij vullen deze leemte met drie bijdragen. (i) Een nieuwe taak: we formaliseren Grondige Persoonlijkheidsredenering (GPR), die van MLLM's vereist om elke Big Five-beoordeling te verankeren in waarneembaar bewijs via een keten van beoordeling, redenering en gronding. (ii) Een nieuwe dataset: we publiceren MM-OCEAN (1.104 video's, 5.320 meerkeuzevragen), geproduceerd door een multi-agent pijplijn met menselijke verificatie, met tijdgestempelde gedragsobservaties, bewijsgefundeerde trekkenanalyses en zeven categorieën cue-grondings meerkeuzevragen. (iii) Benchmark en analyse: we ontwerpen een drietraps evaluatie (beoordeling, redenering, gronding) plus vier steekproefgebaseerde faalmodus-metrics: Vooroordeelpercentage (PR), Confabulatiepercentage (CR), Integratiefaalpercentage (IR) en Holistisch Grondingspercentage (HR), en benchmarken 27 MLLM's (13 gesloten, 14 open). De analyse onthult een opvallende Vooroordeelskloof: over het hele veld is 51% van de correcte beoordelingen niet verankerd in opgehaalde cues, en het Holistisch Grondingspercentage varieert slechts van 0-33,5%. Deze bevindingen leggen een disconnectie bloot tussen het krijgen van de juiste score en het redeneren om de juiste reden, en schetsen een routekaart voor gefundeerde sociale cognitie in MLLM's.
Reinforcement learning van verifieerbare beloningen (RLVR) is uitgegroeid tot een centrale techniek voor het verbeteren van de redeneervaardigheden van grote taalmodellen. Ondanks de effectiviteit ervan blijft het slecht begrepen hoe beloningen op responsniveau zich vertalen in veranderingen in waarschijnlijkheden op tokenniveau. We introduceren een discriminatorvisie op RLVR-updates, waarbij we aantonen dat de beleidsgradiënt-updaterichting impliciet fungeert als een lineaire discriminator over token-gradiëntvectoren en daarmee bepaalt welke tokenwaarschijnlijkheden tijdens het leren worden verhoogd of verlaagd. Onder standaard sequentieniveau-RLVR wordt deze discriminator geconstrueerd uit centroïden aan de positieve en negatieve zijde, gevormd door voordeel-gewogen middeling van token-gradiëntvectoren. Een dergelijke centroïdeconstructie kan echter worden gedomineerd door gedeelde hoogfrequente patronen, zoals opmaaktokens, waardoor schaarse maar discriminatieve richtingen die hoogbeloonde responsen beter onderscheiden van laagbeloonde, worden verwaterd. Om deze beperking aan te pakken, stellen we DelTA voor, een discriminatieve tokenkrediettoewijzingsmethode die tokencoëfficiënten schat om zijspecifieke token-gradiëntrichtingen te versterken en gedeelde of zwak discriminatieve richtingen te verzwakken. Deze coëfficiënten herwegen een zelf-genormaliseerd RLVR-surrogaat, waardoor de effectieve centroïden per zijde contrastiever worden en daarmee de RLVR-updaterichting wordt hervormd. Op zeven wiskundige benchmarks presteert DelTA 3,26 en 2,62 gemiddelde punten beter dan de sterkste baselines van dezelfde schaal op respectievelijk Qwen3-8B-Base en Qwen3-14B-Base. Aanvullende resultaten op codegeneratie, een andere backbone en evaluaties buiten het domein tonen verder de generalisatiecapaciteit van DelTA aan.
De opkomst van persoonlijke assistent-agenten, zoals OpenClaw, benadrukt het groeiende potentieel van grote taalmodellen om gebruikers te ondersteunen in het dagelijks leven en op het werk. Een kernuitdaging in deze context is proactieve ondersteuning, aangezien gebruikers vaak beginnen met ondergespecificeerde verzoeken en belangrijke behoeften, beperkingen of voorkeuren onvermeld laten. Bestaande benchmarks evalueren echter zelden of agenten dergelijke verborgen intenties kunnen identificeren en erop kunnen reageren voordat ze expliciet worden vermeld, met name in langdurige multi-turn-interacties waarin gebruikersbehoeften geleidelijk naar voren komen. Om deze leemte aan te pakken, introduceren we π-Bench, een benchmark voor proactieve ondersteuning bestaande uit 100 multi-turn-taken verdeeld over 5 domeinspecifieke gebruikerspersona's. Door het integreren van verborgen gebruikersintenties, inter-taakafhankelijkheden en continuïteit over sessies heen, evalueert π-Bench het vermogen van agenten om gebruikersbehoeften te anticiperen en aan te pakken gedurende langdurige interacties, waarbij proactiviteit en taakvoltooiing gezamenlijk worden gemeten in lange-termijn trajecten die beter overeenkomen met praktijkgebruik. Experimenten tonen aan dat (1) proactieve ondersteuning uitdagend blijft, (2) er een duidelijk onderscheid bestaat tussen taakvoltooiing en proactiviteit, en (3) eerdere interactie waardevol is voor het proactief oplossen van intenties in latere taken.
Inferentie over lange contexten in grote taalmodellen wordt beperkt door de kwadratische kosten van volledige aandacht. Bestaande efficiënte alternatieven vertrouwen vaak op native spaars trainen of op heuristische tokenverwijdering, wat een ongewenste afweging oplevert tussen efficiëntie, trainingskosten en nauwkeurigheid. In dit werk tonen we aan dat volledige-aandacht-LLM's al intrinsiek spaars zijn en met slechts minimale aanpassing kunnen worden omgezet in zeer spaarse modellen. Onze aanpak is gebaseerd op drie observaties: (1) slechts een kleine subset van aandachtskoppen heeft daadwerkelijk volledige verwerking van lange contexten nodig; (2) retrieval over lange afstanden wordt voornamelijk beheerst door een laagdimensionale deelruimte, waardoor relevante tokens efficiënt kunnen worden opgehaald met een 16-dimensionale indexeerder; en (3) het bruikbare tokenbudget is sterk query-afhankelijk, waardoor dynamische top-p-selectie beter geschikt is dan vaste top-k-sparstificatie. Op basis van deze inzichten stellen we RTPurbo voor, dat de volledige KV-cache alleen voor ophaalkoppen behoudt en een lichtgewicht tokenindexeerder introduceert voor spaarse aandacht. Door gebruik te maken van de intrinsieke spaarheid van het model, bereikt RTPurbo sparstificatie met slechts enkele honderden trainingsstappen. Experimenten op benchmarks voor lange contexten en redeneertaken tonen aan dat RTPurbo een vrijwel verliesloze nauwkeurigheid behoudt terwijl het aanzienlijke efficiëntiewinsten oplevert, waaronder een prefill-versnelling tot 9,36 keer bij 1M context en een decoderingsversnelling van ongeveer 2,01 keer. Deze resultaten suggereren dat sterke spaarse inferentie kan worden verkregen uit standaard volledige-aandachtstraining zonder dure native spaarse pre-training.
De recente ontwikkeling van agents heeft de vraag naar lang-context redeneercapaciteit van LLMs opnieuw aangewakkerd. Het trainen van LLMs voor deze capaciteit vereist echter kostbare curatie van lange documenten of heuristische contextsynthese. We observeren dat agents bij het oplossen van problemen massale trajecten produceren, waarbij ze over vele beurten tools aanroepen en omgevingsobservaties ontvangen. Het bewijs dat nodig is om de oorspronkelijke vraag te beantwoorden, is daardoor verspreid over deze beurten, wat integratie van verre contextsegmenten vereist. Desalniettemin maskeert standaard agent SFT toolresponsen en traint alleen turn-level toolselectie, waardoor er een supervisieblinde vlek ontstaat waarin deze verspreide signalen ongebruikt blijven. We stellen Agent Context Compilation (ACC) voor, die trajecten van zoek-, software-engineering- en databasequery-agents omzet in lange-context QA-paren die de oorspronkelijke vraag combineren met toolresponsen en omgevingsobservaties verzameld over meerdere beurten, en het model traint om direct te antwoorden zonder toolgebruik. Dit maakt de afhankelijkheden tussen de vraag en het bewijs expliciet, waardoor directe supervisie van lang-context redeneren over verre segmenten mogelijk wordt zonder extra annotatie. ACC is een eenvoudige maar effectieve aanpak die kan worden gecombineerd met elke bestaande lang-context extensie- of trainingsmethode, en biedt schaalbare gesuperviseerde fine-tuning data. We valideren ACC op lange-afstandsafhankelijkheidsmodelleringstaken via MRCR en GraphWalks, uitdagende benchmarks die cross-turn coreferentieresolutie en graafdoorloop over uitgebreide contexten vereisen. Het trainen van Qwen3-30B-A3B met ACC behaalt 68,3 op MRCR (+18,1) en 77,5 op GraphWalks (+7,6), resultaten die vergelijkbaar zijn met Qwen3-235B-A22B, terwijl algemene capaciteiten op GPQA, MMLU-Pro, AIME en IFEval behouden blijven. Verdere mechanismeanalyse onthult dat het met ACC getrainde model taakadaptieve aandachtrestructurering en expertspecialisatie vertoont.
Simulatieklare fysieke 3D-assets zijn een veelbelovende richting gebleken vanwege hun brede toepasbaarheid in downstream-taken. De meeste bestaande 3D-generatiemethoden negeren echter fysische eigenschappen of zijn beperkt tot één enkele assetcategorie, zoals starre, vervormbare of gelede objecten. Om deze beperkingen aan te pakken, introduceren we PhysX-Omni, een uniform raamwerk voor simulatieklare fysieke 3D-generatie over diverse assettypen. Specifiek ontwikkelen we een nieuwe en efficiënte geometrierepresentatie die is afgestemd op Vision-Taalmodellen, welke direct hoge-resolutie 3D-structuren codeert zonder compressie, waardoor de generatieprestaties aanzienlijk verbeteren. Daarnaast construeren we de eerste algemene simulatieklare 3D-dataset, PhysXVerse, die diverse binnen- en buitenhuis categorieën dekt. Verder stellen we PhysX-Bench voor om zowel generatieve als begripscapaciteiten in het wild uitgebreid en flexibel te evalueren, die zes belangrijke kenmerken omvat: geometrie, absolute schaal, materiaal, affordance, kinematica en functiebeschrijving. Uitgebreide experimenten met conventionele metrieken en PhysX-Bench tonen aan dat PhysX-Omni sterk presteert in zowel generatie als begrip. Bovendien bevestigen aanvullende studies het potentieel van PhysX-Omni voor toepassingen in simulatieklare scènegeneratie en robotbeleidsleren. Wij geloven dat PhysX-Omni een breed scala aan downstream-toepassingen aanzienlijk kan bevorderen, met name in belichaamde AI en fysica-gebaseerde simulatie.
Gezamenlijk audio-visueel redeneren is essentieel voor omnimodaal begrip, maar huidige multimodale grote taalmodellen (MLLM's) worstelen nog steeds wanneer het redeneren fijnmazig bewijs uit beide modaliteiten vereist. Een centrale beperking is dat expliciete op tekst gebaseerde keten-van-gedachten (CoT) continue audio-visuele signalen comprimeert tot discrete tokens, waardoor de temporele verankering verzwakt en tussenredeneringen naar taalprioriteiten verschuiven. Wij betogen dat een uniforme latente ruimte een beter medium is voor dergelijk redeneren, omdat het dichte sensorische informatie behoudt terwijl het compatibel blijft met autoregressieve generatie. Op basis van dit inzicht stellen we LatentOmni voor, een cross-modaal redeneerkader dat tekstueel redeneren afwisselt met audio-visuele latente toestanden. LatentOmni introduceert supervisie op kenmerkniveau om latente redeneertoestanden af te stemmen op taakrelevante sensorische kenmerken en gebruikt Omni-Sync Positie-Embedding (OSPE) om temporele consistentie te behouden tussen latente audio- en visuele toestanden. Verder construeren we LatentOmni-Instruct-35K, een dataset van audio-visueel intercalerende redeneringstrajecten voor het superviseren van redeneren in de latente ruimte. Uitgebreide evaluatie op meerdere audio-visuele redeneerbenchmarks toont aan dat LatentOmni de beste prestaties levert onder de geëvalueerde open-sourcemodellen en consequent beter presteert dan de expliciete-tekst-CoT-baseline, waarmee gezamenlijk redeneren in de latente ruimte wordt ondersteund als een veelbelovende weg naar sterker omnimodaal begrip.
Spreadsheetsystemen (bijv. Microsoft Excel, Google Sheets) spelen een centrale rol in moderne data-gecentreerde workflows. Naarmate AI-agenten steeds beter in staat zijn om complexe taken te automatiseren, zoals het besturen van computers en het genereren van presentaties, is het bouwen van een AI-gestuurde spreadsheetagent een veelbelovende onderzoeksrichting geworden. De meeste bestaande spreadsheetagenten vertrouwen op gespecialiseerde prompting over algemene LLM's; hoewel dit ontwerp potentieel heeft voor eenvoudige spreadsheetbewerkingen, heeft het moeite met het beheren van de complexe, meerstapswerkstromen die kenmerkend zijn voor praktijktoepassingen. We introduceren Spreadsheet-RL, een reinforcement learning (RL) fijnafstemmingsraamwerk dat is ontworpen om gespecialiseerde spreadsheetagenten te trainen in een realistische Microsoft Excel-omgeving. Spreadsheet-RL bevat een geautomatiseerde pijplijn voor schaalbare verzameling van gepaarde start-doel-spreadsheets uit online forums, evenals domeinspecifieke evaluatietaken op gebieden zoals financiën en supply chain management, die we hebben samengebracht in de nieuwe Domain-Spreadsheet benchmarkdataset. Het omvat ook een Spreadsheet Gym-omgeving die is ontworpen voor meerstaps-RL: Spreadsheet Gym stelt uitgebreide Excel-functionaliteit beschikbaar via een Python sandbox, samen met een verfijnd raamwerk dat een uitgebreide toolset en zorgvuldig ontworpen tool-routeringsregels voor spreadsheettaken bevat. Door uitgebreide experimenten tonen we aan dat Spreadsheet-RL de prestaties van AI-agenten op zowel algemene als domeinspecifieke spreadsheettaken aanzienlijk verbetert: het verhoogt Qwen3-4B-Thinking-2507's Pass@1 op SpreadsheetBench van 12,0% naar 23,4%, en verhoogt Pass@1 op onze samengestelde Domain-Spreadsheet dataset van 8,4% naar 17,2%. Deze resultaten benadrukken het sterke potentieel van Spreadsheet-RL voor generalisatie en praktijktoepassing in spreadsheetautomatisering, en in bredere zin de belofte ervan voor het verbeteren van LLM-gebaseerde interacties met data-interfaces in het dagelijkse werk.
Autoregressieve videodiffusiemodellen hebben realtime, actiegestuurde wereldgeneratie mogelijk gemaakt. Het in stand houden van een persistente wereld – waarbij het opnieuw bezoeken van een eerder gezien gezichtspunt consistente inhoud oplevert – blijft echter een open probleem. Volledige KV-cache-aandacht behoudt deze consistentie, maar doorbreekt de realtimebeperkingen: het geheugengebruik en de aandachtskosten nemen lineair toe met de uitrolduur. Sliding window-inferentie herstelt de doorvoer, maar gooit de consistentie op lange termijn weg. Wij stellen WorldKV voor, een trainingsvrij raamwerk met twee componenten: World Retrieval en World Compression. World Retrieval slaat verwijderde KV-cache-chunks op in GPU/CPU-geheugen en haalt scene-relevante chunks selectief op via camera/actie-correspondentie, waarbij ze zonder hercodering in het oorspronkelijke aandachtsvenster worden ingevoegd. World Compression snoeit redundante tokens binnen elke chunk via key-key-gelijkenis met een referentieframe, waardoor de opslag per chunk wordt gehalveerd om onder een vast budget 2x meer geschiedenis te kunnen bevatten. Op Matrix-Game-2.0 en LingBot-World-Fast evenaart of overtreft WorldKV de volledige-KV-geheugengetrouwheid bij ongeveer 2x de doorvoer en concurreert het met op geheugen getrainde baselines zonder enige fijnafstemming. Projectpagina: https://cvlab-kaist.github.io/WorldKV/
Kunstmatige intelligentie (AI) raakt steeds meer verweven met wetenschappelijke ontdekkingen, maar het blijft onduidelijk of AI wetenschappelijke vooruitgang kan voorspellen. Om deze vraag te onderzoeken introduceren we een tijdelijk gefundeerd evaluatiekader voor het voorspellen van wetenschappelijke vooruitgang onder gecontroleerde kennisbeperkingen. We presenteren CUSP (Cutoff-conditioned Unseen Scientific Progress), een multidisciplinaire benchmark op gebeurtenisniveau die wetenschappelijke voorspellingen in AI-systemen evalueert via haalbaarheidsbeoordeling, mechanistisch redeneren, generatief oplossingsontwerp en temporele voorspelling. Over 4.760 wetenschappelijke gebeurtenissen heen observeren we systematische en domeinafhankelijke beperkingen bij huidige grensmodellen. Hoewel modellen plausibele onderzoeksrichtingen uit concurrerende kandidaten kunnen identificeren, slagen ze er niet in betrouwbaar te voorspellen of wetenschappelijke doorbraken gerealiseerd zullen worden en schatten ze systematisch verkeerd in wanneer deze zullen plaatsvinden. De prestaties zijn sterk heterogeen over domeinen heen, waarbij de timing van AI-vooruitgang beter voorspelbaar is dan vooruitgang in biologie, scheikunde en natuurkunde. De prestaties zijn grotendeels ongevoelig voor of gebeurtenissen plaatsvinden voor of na de trainingsafkap, wat suggereert dat deze beperkingen niet uitsluitend kunnen worden verklaard door kennisblootstelling in trainingsdata. Onder gecontroleerde toegang tot informatie verbetert extra kennis van voor de afkap de prestaties, maar overbrugt het de kloof met volledige informatiesituaties niet, die groter wordt bij hoog geciteerde vooruitgangen. Modellen vertonen ook systematische overmoed en sterke responsbias, wat wijst op onbetrouwbare schatting van onzekerheid. Alles bij elkaar schieten huidige AI-systemen tekort als voorspellende instrumenten voor wetenschappelijke vooruitgang. Toegang tot voorkennis vertaalt zich niet in betrouwbare voorspellingen, en prestaties profiteren meer van informatie na de gebeurtenis dan van vooruitkijkende voorspelling.
Diffusietransformers (DiTs) zijn uitgegroeid tot een dominante architectuur voor tekst-naar-beeld generatie, maar hun prestaties nemen af bij het genereren op resoluties buiten hun trainingsbereik. Bestaande trainingsvrije benaderingen verminderen dit door het aandachtgedrag tijdens inferentie aan te passen, vaak via extrapolatie van Rotary Position Embeddings (RoPE) gecombineerd met aandachtsschaling. Deze strategieën passen echter een uniforme en inhoudsagnostische schaling toe over RoPE-componenten met verschillende frequentiekenmerken, wat leidt tot een afweging tussen het behoud van globale structuur en het herstellen van fijne details. Wij introduceren SEGA, een trainingsvrije methode die de aandacht dynamisch schaalt over RoPE-componenten op basis van de ruimtelijke-frequentie structuur van de latent op elke denoisingstap. Deze adaptieve schaling verbetert zowel de structurele coherentie als de getrouwheid van fijne details. Experimenten tonen aan dat SEGA consistent de synthese op hoge resolutie verbetert over meerdere doelsresoluties, en daarbij state-of-the-art trainingsvrije baselines overtreft.
Robuuste training en validatie van autonome rijsystemen (ADS) vereisen enorme, diverse datasets. Propriëtaire data verzameld door autonome voertuigvloot (AV-vloot) is weliswaar van hoge getrouwheid, maar beperkt in schaal, diversiteit van sensorconfiguraties, en geografische dekking en dekking van gedrag in de lange staart (long-tail). Daarentegen bieden data uit het wild (in-the-wild), zoals afkomstig van dashcams, een enorme schaal en diversiteit, en leggen ze kritieke langstaartscenario's en nieuwe omgevingen vast. Deze ongestructureerde videodata uit het wild is echter niet compatibel met ADS, die gestructureerde, multimodale sensorinputs verwachten voor validatie en training. Om deze datakloof te overbruggen, stellen wij Sensor2Sensor voor, een nieuw generatief modelleerparadigma dat monoculaire dashcamvideo's uit het wild omzet naar een multimodale sensorsuite (AV-logs) met hoge getrouwheid, bestaande uit beelden van meerdere camera's en LiDAR-puntenwolken. Een kernprobleem is het gebrek aan gepaarde trainingsdata. We lossen dit op door echte AV-logs om te zetten naar dashcam-achtige video's met behulp van 4D Gaussiaanse Splatting (4DGS)-reconstructie en weergave vanuit nieuwe gezichtspunten. Sensor2Sensor maakt vervolgens gebruik van een diffusiearchitectuur om de generatieve conversie uit te voeren. We voeren uitgebreide kwantitatieve evaluaties uit op de getrouwheid en het realisme van de gegenereerde sensordata. We tonen het praktische nut van Sensor2Sensor aan door uitdagende internet- en dashcambeelden uit het wild om te zetten naar realistische, multimodale dataformaten, waarmee enorme externe databronnen worden ontsloten voor de ontwikkeling van AV's.
Het verlengen van de generatiehorizon van videodiffusiemodellen naar lange sequenties blijft een langdurige en belangrijke uitdaging. Bestaande trainingsvrije benaderingen vallen in twee categorieën: uitbreidingen van bidirectionele modellen, die sterk gekoppeld zijn aan specifieke architecturen en lijden onder kwaliteitsverlies over lange horizonten, en autoregressieve modellen, die drifffouten accumuleren door expositiebias en de neiging hebben repetitieve bewegingspatronen te produceren. Om deze problemen aan te pakken, stellen we een nieuwe maar eenvoudige inferentie-tijd benadering voor lange videogeneratie voor die architectuur-agnostisch is en geen extra training vereist. Onze methode genereert lange video's via overlappende schuifvensters, waarbij voorspelde schone monsters van aangrenzende vensters worden gemengd via Tweedie-matching om zowel de variëteitsbeperking als de temporele consistentie over overlappende gebieden af te dwingen. Stochastische vroege-fase-sampling synchroniseert vervolgens de trajecten per venster door verse ruis te injecteren na elke Tweedie-matchingcorrectie in de hoge-ruisfase, alvorens over te schakelen naar deterministische ODE-sampling om fijnmazige visuele getrouwheid te behouden. Toegepast op verschillende videogeneratiemodellen genereert onze methode video's die meerdere keren langer zijn dan de oorspronkelijke vensterlengte, terwijl ze zowel trainingsvrije als autoregressieve baselines overtreft in temporele consistentie en visuele kwaliteit, en breidt zich verder uit naar audio-video gezamenlijke generatie en tekst-naar-3DGS zonder enige fine-tuning.
Multimodale Grote Taalmodellen (MLLMs) hebben grote vooruitgang geboekt op het gebied van ruimtelijke intelligentie, maar bestaande benchmarks voor ruimtelijk redeneren gaan grotendeels uit van onberispelijke visuele inputs en negeren de aantastingen die vaak voorkomen in realistische implementaties, zoals bewegingsonscherpte, weinig licht, ongunstig weer, lensvervorming en compressieartefacten. Dit roept een fundamentele vraag op: hoe robuust is de ruimtelijke intelligentie van huidige MLLMs wanneer visuele waarnemingen onvolmaakt zijn? Om deze vraag te beantwoorden introduceren we SpaceDG, de eerste grootschalige dataset voor aantastingsbewust ruimtelijk begrip. Deze is samengesteld met een fysiek onderbouwde synthese-engine voor aantastingen die het vormingsproces van aantastingen in 3D Gaussiaanse Splatting (3DGS) rendering integreert, waardoor realistische simulatie van negen aantastingstypen mogelijk is. De resulterende dataset bevat ongeveer 1M QA-paren uit bijna 1.000 binnenscènes. Verder introduceren we SpaceDG-Bench, een door mensen geverifieerde benchmark met 1.102 vragen verdeeld over 11 redeneercategorieën en 9 visuele aantastingstypen, wat resulteert in meer dan 10K VQA-instanties. Evaluatie van 25 open- en closed-source MLLMs laat zien dat visuele aantastingen consistent en aanzienlijk het ruimtelijk redeneren aantasten, wat een kritieke robuustheidskloof blootlegt. Tot slot tonen we aan dat finetuning op SpaceDG de robuustheid tegen aantastingen aanzienlijk verbetert en onder aangetaste omstandigheden zelfs menselijke prestaties kan overtreffen zonder enige prestatieverlies op schone beelden, wat de belofte van aantastingsbewuste training voor robuuste ruimtelijke intelligentie benadrukt.
De proliferatie van grote taalmodellen (LLM's) en modulaire vaardigheden heeft autonome agenten uitgerust met steeds krachtigere mogelijkheden. Bestaande raamwerken vertrouwen doorgaans op monolithische LLM's en vaste logica om met deze vaardigheden te communiceren. Dit leidt tot een cruciaal knelpunt: verschillende LLM's bieden uiteenlopende voordelen in diverse domeinen, maar huidige raamwerken slagen er niet in de complementaire sterktes van modellen en vaardigheden te benutten, waardoor hun prestaties op downstreamtaken worden beperkt. In dit artikel presenteren wij Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration), een door versterkend leren (RL) aangedreven orkestratieraamwerk dat heterogene multimodale taken herdefinieert als een sequentieel besluitvormingsproces over een hiërarchisch model-vaardighedenregister. In plaats van alle kennis in één enkel model te consolideren, traint Maestro een lichtgewicht beleid om dynamisch ensembles van bevroren expertmodellen en een tweetrapsvaardighedenbibliotheek samen te stellen, waarbij bij elke stap wordt besloten of een externe expert moet worden aangeroepen, welk model-vaardigheidspaar moet worden geselecteerd en wanneer moet worden beëindigd. Het beleid wordt geoptimaliseerd via uitkomstgebaseerd RL, zonder dat er stapsgewijze supervisie nodig is. We evalueren Maestro op tien representatieve multimodale benchmarks die wiskundig redeneren, grafiekbegrip, hoge-resolutie perceptie en domeinspecifieke analyse bestrijken. Met slechts een 4B-orkestrator behaalt Maestro een gemiddelde nauwkeurigheid van 70,1%, waarmee het zowel GPT-5 (69,3%) als Gemini-2.5-Pro (68,7%) overtreft. Cruciaal is dat het aangeleerde coördinatiebeleid generaliseert naar niet eerder geziene modellen en vaardigheden zonder herautomatisering: het uitbreiden van het register met out-of-domain experts levert een gemiddelde van 59,5% op vier uitdagende benchmarks, waarmee alle closed-source baselines worden overtroffen. Maestro handhaaft verder een hoge computationele efficiëntie met lage latentie. De broncode is beschikbaar op https://github.com/jinyangwu/Maestro.
Autoregressieve videodiffusiemodellen (ARVD's) zijn naar voren gekomen als een veelbelovende architectuur voor streaming videogeneratie, waardoor de weg wordt vrijgemaakt voor real-time interactieve videogeneratie en wereldmodellering. Ondanks hun potentieel blijven de aanzienlijke inferentiekosten van ARVD's een groot obstakel voor praktische implementatie, waardoor modelkwantisering een logische richting is om de efficiëntie te verbeteren. Kwantisering voor ARVD's is echter grotendeels onontgonnen. Onze empirische analyse toont aan dat het direct toepassen van bestaande kwantiseringsschema's die zijn ontwikkeld voor standaard diffusietransformators op ARVD's leidt tot suboptimale prestaties, waarbij kwantiseringgedrag aan het licht komt dat verschilt van dat waargenomen in bidirectionele diffusiemodellen. In dit artikel identificeren we twee cruciale uitdagingen bij het kwantiseren van ARVD's: (C1) Zeer onevenwichtige framesgewijze kwantiseringgevoeligheid. Foutaccumulatie tijdens autoregressieve generatie kan leiden tot ernstig scheve kwantiseringgevoeligheid over frames heen, volgens een exponentieel vervalpatroon. (C2) Prominente en heterogene uitbijterpatronen in gewichten. Gewichtsverdelingen vertonen uitgesproken uitbijterkanalen, waarvan de patronen aanzienlijk variëren per laagtype en blokdiepte. Om deze problemen aan te pakken, stellen we Q-ARVD voor, een nieuw raamwerk voor nauwkeurige ARVD-kwantisering. (S1) Om de zeer onevenwichtige framesgewijze gevoeligheid aan te pakken, integreert Q-ARVD een op eindkwaliteit gericht framewegingsmechanisme in de kwantiseringdoelstelling. (S2) Om te voorkomen dat heterogene uitbijters de prestaties aantasten, introduceert Q-ARVD een uitbijterbewuste adaptieve duale-schaalkwantisering, die automatisch de aanwezigheid en het aantal uitbijterkanalen detecteert voor een willekeurige laag, en deze isoleert om normale kanalen te beschermen. Uitgebreide experimenten tonen de superioriteit van Q-ARVD aan.
Procesbeloningsmodellen (PRMs) zijn een krachtig mechanisme om de redenering van grote taalmodellen te sturen door gedetailleerde, stapsgewijze supervisie te bieden. Deze effectiviteit gaat echter gepaard met aanzienlijke kosten: PRMs vereisen expertannotaties voor elke redeneerstap, wat ze kostbaar en moeilijk schaalbaar maakt. Hier stellen we een methode voor om ongesuperviseerde PRMs (uPRM) te trainen die geen menselijke supervisie vereist, noch op het niveau van stapsgewijze annotaties, noch via verificatie van de grondwaarheid van eindantwoorden. Het kernidee achter onze aanpak is het definiëren van een scorefunctie, afgeleid van de volgende-token kansen van LLMs, die gezamenlijk kandidaatposities van eerste foutieve stappen in een batch van redeneertrajecten beoordeelt. We demonstreren de effectiviteit van uPRM in diverse scenario's: (i) uPRM behaalt tot 15% absolute nauwkeurigheidsverbeteringen ten opzichte van de LLM-as-a-Judge bij het identificeren van eerste foutieve stappen op de ProcessBench-dataset; (ii) als verificateur voor testtijdschaling presteert uPRM vergelijkbaar met gesuperviseerde PRMs en presteert het tot 6,9% beter dan de meerderheidsstemmingsbasislijn; en (iii) wanneer gebruikt als beloningssignaal in versterkend leren, maakt uPRM robuustere beleidsoptimalisatie gedurende de training mogelijk in vergelijking met een gesuperviseerde PRM die getraind is met grondwaarheidslabels. Al met al opent onze resultaten een pad naar schaalbare beloningsmodellering voor complexe redeneertaken.
Lineaire aandacht vervangt de onbegrensde cache van softmax-aandacht door een recursieve toestand met vaste grootte, waardoor sequentiemenging wordt teruggebracht tot lineaire tijd en decoderen tot constant geheugen. Het lastige is niet alleen wat te vergeten, maar ook hoe dit gecomprimeerde geheugen te bewerken zonder bestaande associaties te verstoren. Deltaregelmodellen trekken de huidige uitlezing af voordat ze een nieuwe waarde schrijven, en Kimi Delta Attention (KDA) scherpt het vergeten aan met kanaalsgewijs verval. Maar de actieve bewerking gebruikt nog steeds een enkele scalaire poort om twee verschillende dingen te regelen: hoeveel oude inhoud te wissen aan de sleutelzijde en hoeveel nieuwe inhoud vast te leggen aan de waarde-zijde. We introduceren Gated DeltaNet-2, dat zowel Gated DeltaNet als KDA generaliseert door adaptief vergeten en kanaalsgewijs verval over te nemen, terwijl het hun gedeelde beperking aanpakt: de scalaire koppeling tussen wissen en schrijven. Gated Delta Rule-2 scheidt deze rollen met een kanaalsgewijze wisspoort \( b_t \) en een kanaalsgewijze schrijfpoort \( w_t \), en reduceert tot KDA wanneer beide poorten samenvallen tot dezelfde scalair en tot Gated DeltaNet wanneer het verval ook instort. We leiden een snelle-gewichtenupdateweergave af, een chunksgewijs WY-algoritme met kanaalsgewijs verval geabsorbeerd in asymmetrische wisfactoren, en een poortbewuste terugwaartse doorgang die efficiënte parallelle training behoudt. Met 1,3B parameters getraind op 100B FineWeb-Edu-tokens behaalt Gated DeltaNet-2 de sterkste algemene resultaten onder Mamba-2, Gated DeltaNet, KDA en Mamba-3 varianten op het gebied van taalmodellering, gezond verstand-redeenering en retrieval. Het voordeel is het meest uitgesproken op lange-context RULER speld-in-een-hooiberg benchmarks, waar het de geëvalueerde meervoudige-sleutelophaling verbetert en sterk blijft in zowel recursieve als hybride instellingen. Code is beschikbaar op https://github.com/NVlabs/GatedDeltaNet-2.
Open-einde beeldgeneratie is niet langer een eenvoudig prompt-naar-afbeelding probleem. Hoogwaardige generatie vereist vaak een agent die de interne generatieve vermogens van een model combineert met externe bronnen. Naarmate verzoeken diverser en veeleisender worden, streven we naar de ontwikkeling van een algemene beeldgeneratieagent die zichzelf kan laten evolueren via trajecten en die tools effectiever kan gebruiken bij uiteenlopende generatie-uitdagingen. Daartoe stellen we GenEvolve voor, een zelf-evoluerend raamwerk gebaseerd op Tool-georkestreerde Visuele Ervaringsdestillatie. In GenEvolve wordt elke generatiepoging gemodelleerd als een tool-georkestreerd traject, waarbij de agent bewijs verzamelt, referenties selecteert, generatievaardigheden aanroept en deze samenstelt tot een prompt-referentieprogramma. In tegenstelling tot bestaande agentische generatiemethoden die voornamelijk afhankelijk zijn van scalaire beloningen op afbeeldingsniveau, vergelijkt GenEvolve meerdere trajecten voor hetzelfde verzoek en abstraheert het beste-slechtste verschillen tot gestructureerde visuele ervaring, die alleen wordt verstrekt aan een bevoorrechte leraarstak. Geïnspireerd door on-policy zelfdestillatie biedt Visuele Ervaringsdestillatie dichte supervisie op tokenniveau, waardoor de student beter leert zoeken, kennis activeren, referenties selecteren en prompts construeren. We bouwen verder GenEvolve-Data en GenEvolve-Bench. Experimenten op openbare benchmarks en GenEvolve-Bench tonen aanzienlijke verbeteringen ten opzichte van sterke baselines en behalen state-of-the-art prestaties onder de huidige beeldgeneratieraamwerken. Onze website is als volgt: https://ephemeral182.github.io/GenEvolve/
LLM's worden breed toegepast in productieomgevingen, wat inferentiesystemen tot hun grenzen drijft. Gedesaggregeerde LLM-dienstverlening (bv. PD-scheiding en KV-toestandsdesaggregatie) verbetert schaalbaarheid en kostenefficiëntie, maar maakt KV ook tot een expliciete payload die netwerk- en opslaggrenzen overschrijdt, waardoor KV een dominante end-to-end bottleneck wordt. Bestaande KV-compressie is doorgaans een statische runtimeconfiguratie, terwijl de productiedienstcontext in de loop van de tijd varieert wat betreft werklastmix, bandbreedte en SLO-/kwaliteitsbudgetten. Hierdoor kan een vaste keuze suboptimaal zijn of zelfs de latentie verhogen. Wij presenteren KVServe, het eerste servicebewuste en adaptieve raamwerk voor KV-communicatiecompressie voor gedesaggregeerde LLM-dienstverlening: KVServe (1) verenigt KV-compressie in een modulaire strategieruimte met nieuwe componenten en methode-overkoepelende hercompositie; (2) introduceert een Bayesiaanse Profileringsengine die deze ruimte efficiënt doorzoekt en een 3D-Pareto-kandidaatverzameling distilleert, waardoor de offline-zoekoverhead met 50 keer wordt verminderd; en (3) implementeert een Servicebewuste Online Controller die een analytisch latentiemodel combineert met een lichtgewicht bandit-algoritme om profielen onder beperkingen te selecteren en offline-naar-online mismatch te corrigeren. Geïntegreerd in vLLM en geëvalueerd over datasets, modellen, GPU's en netwerken heen, behaalt KVServe tot 9,13 keer JCT-versnelling in PD-gescheiden dienstverlening en tot 32,8 keer TTFT-reductie in KV-gedesaggregeerde dienstverlening.
Vooruitgang in de ontwikkeling van taalmodellen wordt vaak gedreven door vergelijkende beslissingen: welke architectuur te kiezen, welk pretrainingcorpus te gebruiken, of welk trainingsrecept toe te passen. Om deze beslissingen goed te nemen, zijn betrouwbare prestatievoorspellingen nodig, maar de twee veelgebruikte signalen zijn fundamenteel beperkt. Cross-entropieverlies sluit slecht aan bij stroomafwaartse mogelijkheden, en directe stroomafwaartse evaluatie is duur, schaars en vaak niet informatief in vroege trainingsfasen. In plaats daarvan stellen we voor om proxy-metrieken te construeren door token-niveaustatistieken, zoals entropie, top-k-nauwkeurigheid en expert-tokenrang, te aggregeren uit de volgende-tokenverdeling van een kandidaatmodel over door experts geschreven oplossingen. In drie settings presteren onze proxy's consistent beter dan op verlies en rekenkracht gebaseerde basislijnen: 1) Voor cross-family modelselectie rangschikken ze een heterogene populatie van redeneermodellen met een gemiddelde Spearman-rho van 0,81 (tegenover rho = 0,36 voor cross-entropieverlies); 2) Voor pretraininggegevensselectie rangschikken ze betrouwbaar 25 kandidaatcorpora voor een doelmodel met ruwweg 10.000 keer minder rekenkracht dan directe evaluatie, waarmee de Pareto-grens verder wordt verschoven dan bestaande methoden; en 3) Voor trainingstijdvoorspelling extrapoleren ze stroomafwaartse nauwkeurigheid over een rekenhorizon van 18 keer met ongeveer de helft van de fout van bestaande alternatieven. Gezamenlijk suggereren deze resultaten dat expert-trajecten een breed bruikbare signaalbron vormen voor het beoordelen van modelcapaciteiten, waardoor betrouwbare prestatievoorspellingen mogelijk worden gedurende de gehele levenscyclus van modelontwikkeling.
Bestaande benaderingen voor de productie van digitale short-drama's vertrouwen doorgaans op eenmalige LLM-gegenereerde scripts en losjes gekoppelde pijplijnen, die niet voldoen aan drie kernvereisten voor short-drama-generatie: (1) narratieve pacing, wat leidt tot zwakke hooks, onvoldoende opbouw en onaantrekkelijke eindes; (2) ruimtelijke consistentie, wat resulteert in afdrijvende scène-indelingen en inconsistente personageposities tussen clips; en (3) productiekwaliteitscontrole, wat uitgebreide handmatige controle en correctie vereist in zowel script- als visuele fasen. We presenteren One Sentence, One Drama, een hiërarchisch multi-agent-framework dat het idee van een gebruiker in één zin omzet in een volledig geproduceerde short-drama door middel van gestructureerde tussentijdse modules en iteratieve verfijning. Onze aanpak is gebaseerd op drie kerncomponenten: (1) een op multi-agent debat gebaseerde verhaalgeneratiemodule die short-drama-pacing en narratieve samenhang afdwingt; (2) een 3D-grondig eersteframe-generatiemechanisme dat een gedeelde ruimtelijke referentie vestigt voor consistente personagepositionering en scène-indeling over clips heen; en (3) meertraps reviewer-loops die uitgebreide foutdetectie en gerichte revisie uitvoeren in de script-, visuele- en videogeneratiefasen. We introduceren ook scèneniveau-BGM-matching en scèneovergangsplanning om de immersieve ervaring van het publiek te verbeteren. Om deze taak systematisch te evalueren, introduceren we Short-Drama-Bench, een benchmark die standaard videokwaliteitsmetrieken uitbreidt met short-drama-specifieke criteria. Experimentele resultaten tonen aan dat onze methode significant beter presteert dan bestaande pijplijnen op het gebied van narratieve kwaliteit, consistentie tussen clips en algehele kijkervaring.
Grote taalmodellen (LLM's) en agentische systemen zijn veelbelovend gebleken voor klinische beslissingsondersteuning, maar bestaande werken gaan grotendeels ervan uit dat bewijsmateriaal al is samengesteld en aan het model is overhandigd. In de praktijk vereisen klinische workflows echter dat agenten actief bewijsmateriaal zoeken, iteratief plannen en multimodaal bewijsmateriaal uit heterogene bronnen synthetiseren. In dit artikel introduceren we ClinSeekAgent, een geautomatiseerd agentisch raamwerk voor dynamisch multimodaal bewijszoeken dat het paradigma verschuift van passieve bewijsconsumptie naar actieve bewijsverwerving. Uitgaande van alleen een klinische vraag en toegang tot ruwe databronnen, verzamelt ClinSeekAgent bewijs door medische kennisbanken te bevragen, ruwe EPD's te doorzoeken en medische beeldvormingstools aan te roepen; het verfijnt zijn hypothesen naarmate nieuwe informatie opkomt; en integreert het verzamelde bewijsmateriaal in gefundeerde klinische beslissingen. ClinSeekAgent dient zowel als een inferentie-tijd agent voor geavanceerde LLM's als als een training-tijd pijplijn om hoogwaardige agenttrajecten te distilleren naar compacte opensource-modellen. Om de effectiviteit tijdens inferentie te valideren, construeren we ClinSeek-Bench, dat Curated Input-redenering op basis van vast vooraf geselecteerd bewijsmateriaal koppelt aan Automated Evidence-Seeking over ruwe klinische gegevens. Bij uitsluitend tekstuele EPD-taken verbetert ClinSeekAgent Claude Opus 4.6 van 60,0 naar 63,2 overall F1 en MiniMax M2.5 van 43,1 naar 47,3, met positieve risicovoorspellingswinst in 7 van de 9 geëvalueerde hostmodellen. Bij multimodale taken verbetert ClinSeekAgent Claude Opus 4.6 van 47,5 naar 62,6 (+15,1); alle geëvalueerde modellen verbeteren in de drie aan CXR gerelateerde taakgroepen. We valideren ClinSeekAgent verder als een trainingspijplijn door agentische bewijszoektrajecten te distilleren naar ClinSeek-35B-A3B, die een gemiddelde F1 van 34,0 behaalt op bestaande AgentEHR-Bench, een verbetering van +11,9 punten ten opzichte van de Qwen3.5-35B-A3B-baseline en bijna Claude Opus 4.6 benadert.
Hoewel de meeste frames in lange video's redundant zijn, bevindt de kritieke informatie zich in temporele verrassingen: momenten waarop de werkelijke visuele kenmerken afwijken van hun voorspelde evolutie. Geïnspireerd door de voorspellende codering van het menselijk brein introduceren we Swift Sampling, een elegant, trainingsvrij frameselectiealgoritme dat automatisch momenten met hoge informatie in een video identificeert. Specifiek modelleren we een video als een differentieerbaar traject in de visuele latente ruimte en berekenen we de snelheid en versnelling van de kenmerken. Vervolgens passen we Taylor-expansie toe om het verwachte pad van volgende frames te projecteren. Frames die sterk afwijken van dit voorspelde manifold worden geïdentificeerd als temporeel verrassende frames en geselecteerd voor bemonstering. In tegenstelling tot eerdere trainingsvrije methoden die afhankelijk zijn van hulpnetwerken of videospecifieke hyperparameterafstemming, is Swift Sampling ongelooflijk lichtgewicht, met slechts 0,02x extra rekenkosten ten opzichte van de basislijn, wat het 30x goedkoper maakt dan toonaangevende basislijnen. Over drie benchmarks voor het beantwoorden van vragen over lange video's en 10 verschillende downstreamtaken heen presteert Swift Sampling beter dan uniforme bemonstering en eerdere query-agnostische basislijnen. Het is bijzonder krachtig voor lange video's met beperkte framebudgetten, met een nauwkeurigheidsverbetering tot +12,5 procentpunten.
Modelkaarten beschrijven modelgedrag via een combinatie van tekstuele beschrijvingen en gestructureerde artefacten, waaronder tabellen met prestaties, configuratie en datasets. Bestaande modelzoeksystemen vertrouwen voornamelijk op semantische gelijkenis op basis van tekst, wat kan leiden tot homogene resultatenverzamelingen en de verkenning van alternatieven beperkt. Wij stellen dat modelzoeken inherent vergelijkend is: gebruikers willen modellen die taakgericht zijn maar toch op meetbare wijze verschillen. Onze hypothese is dat deze balans vereist dat er wordt gezocht in beknopt, kwalitatief hoogstaand bewijs in plaats van uitvoerige beschrijvingen, en dat een groot deel van dat bewijs geconcentreerd is in gestructureerde tabellen. We presenteren StructuredSemanticSearch, een tabelgestuurd modelzoekraamwerk gebaseerd op de ModelTrees-benchmark. Bij een query combineert StructuredSemanticSearch een semantische basislijn voor taakafstemming met een structuurbewuste pijplijn die query-gerelateerde modelkaarttabellen ontdekt met behulp van tabelontdekkingsoperatoren zoals unionability, joinability en trefwoordzoekopdrachten. Opgehaalde tabellen worden teruggekoppeld naar modelkaarten binnen een gecontroleerd top-k-budget, waardoor een eerlijke vergelijking tussen tekstgebaseerd en tabelgebaseerd ophalen mogelijk is. Naast het ophalen past StructuredSemanticSearch tabelintegratie aan op het modeltabeldomein via oriëntatiebewuste integratie, wat leidt tot compacte geïntegreerde weergaven van tabellen uit gedeeltelijk overlappende en soms getransponeerde bewijstabellen. Voor de evaluatie introduceren we een nugget-gebaseerd, auditbaar protocol dat compacte bewijselementen uit modelkaarten haalt, queries koppelt aan conditie- of intentiespecifieke nuggets, en de bewijsdekking en diversiteit over opgehaalde modelkaartkandidatensets meet. Dit protocol biedt ook een schaalbaar pad naar benaderende, bewijsgebaseerde labeling in dynamische modelmeren. Experimenten met 597 modelaanbevelingsqueries tonen een verbeterde nuggetdekking voor de structuurbewuste pijplijn ten opzichte van de semantische basislijn.
Hoe moet een agent beslissen wanneer en hoe te plannen? Een dominante benadering bouwt agenten als reactieve beleidsvormen met adaptieve berekening (bijv. chain-of-thought), die end-to-end worden getraind in de verwachting dat planning impliciet ontstaat. Zonder controle over de aanwezigheid, structuur of horizon van planning verhogen deze systemen de redeneerlengte drastisch, wat leidt tot inefficiënt tokenverbruik zonder betrouwbare nauwkeurigheidswinst. Wij stellen dat efficiënt agentisch redeneren baat heeft bij het opsplitsen van besluitvorming in drie systemen: simulatief redeneren (System II) dat beraadslaging fundeert in toekomstvoorspelling via een wereldmodel; zelfregulatie (System III) dat via een aangeleerde configurator beslist wanneer en hoe diep te plannen; en reactieve uitvoering (System I) dat fijnmazige acties afhandelt. Simulatief redeneren biedt uniforme planning voor uiteenlopende taken zonder domeinspecifieke engineering, terwijl zelfregulatie garandeert dat de planner alleen wordt aangeroepen wanneer nodig. Om dit te testen ontwikkelen we SR²AM (Self-Regulated Simulative Reasoning Agentic LLM), waarbij beide worden gerealiseerd als afzonderlijke fases binnen de chain-of-thought van een LLM, met de LLM als wereldmodel. We verkennen twee instantiaties: het vastleggen van beslissingen uit een geprompt multimodulair systeem (v0.1) en het reconstructen van gestructureerde plannen uit sporen van voorgetrainde redenerende LLM’s (v1.0), getraind via gesuperviseerd leren gevolgd door reinforcement learning (RL). Op het gebied van wiskunde, wetenschap, tabelanalyse en webinformatie zoeken bereiken v0.1-8B en v1.0-30B Pass@1 die concurrerend is met respectievelijk systemen van 120-355B en 685B-1T parameters, terwijl v1.0-30B 25,8-95,3% minder redeneertokens gebruikt dan vergelijkbare agentische LLM’s. RL verhoogt de gemiddelde planningshorizon met 22,8% terwijl de planningsfrequentie slechts met 2,0% toeneemt, wat laat zien dat het leert verder vooruit te plannen in plaats van vaker. In bredere zin instantieert aangeleerde zelfregulatie een principe waarvan we verwachten dat het verder reikt dan planning, namelijk hoe agenten hun eigen leren en aanpassing sturen.
Traditionele methoden voor visuele objecttracking (VOT) zijn doorgaans afhankelijk van taakspecifiek gesuperviseerd trainen, wat hun generalisatie naar ongeziene objecten en uitdagende scenario's met afleidingen, occlusie en niet-lineaire bewegingen beperkt. Recente visuele funderingsmodellen, zoals SAM 2, leren sterke video-begripprioriteiten door grootschalige vooropleiding en bieden een veelbelovende basis voor het bouwen van robuustere en beter generaliseerbare trackers. Het direct toepassen van SAM 2 op VOT blijft echter suboptimaal, omdat het geen expliciete modellering van de bewegingsdynamiek van het doelwit of handhaving van geometrische en semantische consistentie over frames biedt, beide essentieel voor betrouwbare tracking. Om dit probleem aan te pakken, introduceren we SAMOSA, een nieuw trackingframework dat SAM 2 aanpast aan complexe VOT-scenario's door expliciet gebruik te maken van bewegings-, geometrische en semantische aanwijzingen. Concreet introduceren we een lichtgewicht niet-lineaire bewegingsvoorspeller om de dynamiek van het doelwit te modelleren en de maskerselectie en geheugenfiltering te sturen. Verder benutten we semantische aanwijzingen om verschuivingen van het doelwit te detecteren en te herstellen van trackingfouten, terwijl geometrische aanwijzingen worden geïntegreerd als structurele beperkingen om de trackingstabiliteit te verbeteren. Op deze manier overbrugt SAMOSA de kloof tussen de impliciete video-begripprioriteiten van SAM 2 en expliciete trackinggerichte modellering. Uitgebreide experimenten tonen aan dat SAMOSA consequent beter presteert dan state-of-the-art SAM 2-gebaseerde benaderingen op algemene benchmarks, sterkere generalisatie vertoont dan gesuperviseerde VOT-methoden en aanzienlijke winsten boekt op anti-UAV-datasets, die kenmerkend zijn voor complexe niet-lineaire bewegingsscenario's. Onze code is beschikbaar op https://github.com/DurYi/SAMOSA.
Multimodale grote taalmodellen (MLLM's) en diffusiemodellen hebben elk een opmerkelijke volwassenheid bereikt: MLLM's excelleren in het redeneren over heterogene multimodale inputs met een sterke semantische gronding, terwijl diffusiemodellen afbeeldingen en video's synthetiseren met fotorealistische getrouwheid. Wij beargumenteren dat deze twee families kunnen worden verenigd door een eenvoudige taakverdeling: MLLM's voeren semantische planning uit, terwijl diffusiemodellen pixels renderen op basis van semantische sturing op hoog niveau en visuele kenmerken op laag niveau. Voortbouwend op dit idee stellen we Bernini voor, een uniform raamwerk voor videogeneratie en -bewerking. Een op MLLM gebaseerde planner voorspelt de beoogde semantische representatie direct in de ViT-inbeddingsruimte, en een op DiT gebaseerde renderer synthetiseert pixels die worden geconditioneerd door dit plan, verrijkt met tekstkenmerken en, voor bewerking, bron-VAE-kenmerken voor detailbehoud. Omdat semantiek als interface fungeert, kunnen de planner en renderer afzonderlijk worden getraind en slechts licht worden samen getraind, waardoor de voorgetrainde sterke punten van beide componenten behouden blijven en de training efficiënt blijft. Om beter om te gaan met meerdere visuele inputs introduceren we Segmentbewuste 3D-rotatiepositie-inbedding (SA-3D RoPE), en integreren we verder keten-van-gedachten-redenering in de planner om het begrip beter over te brengen naar generatie. Bernini behaalt state-of-the-art prestaties op een breed scala aan benchmarks voor videogeneratie en -bewerking, waarbij het voorgetrainde begrip van de MLLM zich vertaalt in sterke generalisatie bij uitdagende bewerkingstaken.
Veel openbare gebouwen bieden plattegronden met een "u bent hier"-aanduiding om bezoekers te helpen oriënteren. Plattegrondlokalisatie streeft ernaar deze mogelijkheid computationeel te repliceren door te bepalen waar visuele waarnemingen binnen een plattegrond zijn vastgelegd. Bestaande methoden gaan echter doorgaans uit van gecontroleerde kleinschalige omgevingen en nauwkeurige vectorgebaseerde plattegronden, wat hun vermogen beperkt om te functioneren in grootschalige gebouwen en gerasterde plattegronden. In dit werk presenteren we een aanpak voor het uitvoeren van plattegrondlokalisatie in de praktijk door de taak te gronden in een gereconstrueerde 3D-representatie van de scène. Gegeven een onbeperkte verzameling afbeeldingen reconstrueert onze methode een zwaartekracht-gealigneerde 3D-scène en projecteert deze in een 2D-dichtheidskaart die als proxy voor de plattegrond fungeert. Plattegrondlokalisatie wordt vervolgens geformuleerd als het uitlijnen van deze proxy met de invoerplattegrond via een 2D-gelijkvormigheidstransformatie. Om de visuele kloof tussen dichtheidskaarten en architecturale plattegronden te overbruggen, passen we een 2D-fundamentmodel aan om crossmodale overeenkomsten te leren, waarbij we een fijnafstemmingsschema introduceren dat semantisch uitgelijnde overeenkomsten bevordert met behoud van structurele consistentie. Uitgebreide experimenten tonen aanzienlijke verbeteringen aan ten opzichte van eerdere methoden, zelfs in extreem schaarse omgevingen met slechts één enkele invoerafbeelding. Onze code en gegevens zullen openbaar beschikbaar worden gesteld.
Het afstemmen van tekst-naar-beeld (T2I) generatiemodellen op menselijke voorkeuren is steeds vaker afhankelijk van beeldbeloningsmodellen die gegenereerde afbeeldingen beoordelen of rangschikken op basis van promptafstemming en perceptuele kwaliteit. Bestaande beloningsmodellen worden doorgaans getraind als Bradley-Terry (BT) preferentiemodellen op grootschalige menselijke voorkeurscorpora, wat ze duur maakt om te trainen, moeilijk aanpasbaar en ondoorzichtig in hun evaluatiecriteria. Ondertussen kunnen Visie-Taal Model (VTM) beoordelaars meer gedetailleerde beoordelingen geven via tekstuele beoordelingsrichtlijnen, maar hun handmatig ontworpen of heuristisch gegenereerde scoreringsregels kunnen er niet altijd in slagen om menselijke voorkeuren betrouwbaar weer te geven. In dit artikel stellen we AutoRubric-T2I voor, het eerste leerkader voor beoordelingsrichtlijnen in T2I dat automatisch expliciete richtlijnen synthetiseert en selecteert voor het begeleiden van VTM-beoordelaars. AutoRubric-T2I synthetiseert eerst redeneersporen uit preferentieparen tot kandidaat-richtlijnen, gebruikt vervolgens een VTM-beoordelaar om gepaarde afbeeldingen onder elke richtlijn te scoren, wat leidt tot gepaarde richtlijn-scoreverschillen voor preferentieleren. Om ruis en redundantie te verwijderen, passen we verder een L1-geregulariseerde logistische regressie-verfijner toe, die de Top-N meest onderscheidende richtlijnen selecteert. Uitgebreide evaluaties tonen aan dat AutoRubric-T2I hoogwaardige, interpreteerbare beloningssignalen produceert met minder dan 0,01% van de geannoteerde preferentiegegevens, waardoor de behoefte aan grootschalige training van beloningsmodellen aanzienlijk afneemt. Op beeldbeloningsbenchmarks zoals MMRB2 overtreft AutoRubric-T2I sterke baselines van beloningsmodellen. We valideren AutoRubric-T2I verder als een RL-beloning bij downstream T2I-taken, waaronder TIIF en UniGenBench++, waar het de generatiekwaliteit verbetert ten opzichte van scalaire beloningsmodellen met behulp van de Flow-GRPO-pijplijn op diffusiemodellen.
We introduceren TerminalWorld, een schaalbare data-engine die automatisch evaluatietaken met hoge betrouwbaarheid reverse-engineert uit terminalopnames 'in het wild'. Door 80.870 terminalopnames te verwerken, levert de engine een volledige benchmark van 1.530 gevalideerde taken, die 18 categorieën uit de echte wereld bestrijken, variërend van korte alledaagse operaties tot workflows van meer dan 50 stappen, en die 1.280 unieke commando's omvatten. Hieruit stellen we een geverifieerde subset samen van 200 representatieve, handmatig beoordeelde taken. Uitgebreide benchmarking op TerminalWorld-Verified over acht frontier-modellen en zes agents toont aan dat huidige systemen nog steeds moeite hebben met authentieke terminalworkflows, met een maximaal slagingspercentage van slechts 62,5%. Bovendien legt TerminalWorld terminalcapaciteiten uit de echte wereld vast die verschillen van bestaande, door experts samengestelde benchmarks (bijv. Terminal-Bench), met slechts een zwakke correlatie met hun scores (Pearson r=0,20). De geautomatiseerde engine maakt TerminalWorld door constructie authentiek en schaalbaar, waardoor het agents kan evalueren in terminalomgevingen uit de echte wereld naarmate ontwikkelpraktijken evolueren. Gegevens en code zijn beschikbaar op https://github.com/EuniAI/TerminalWorld.
Longitudinale klinische aantekeningen bevatten rijke aanwijzingen over hoe patiënten in de loop van de tijd evolueren, maar het omzetten van dit signaal in trainingssupervisie voor klinische voorspelling blijft een uitdaging. We breiden Foresight Learning uit naar klinische voorspelling door chronologisch geordende MIMIC-III-aantekeningen om te zetten in voorbeelden die bestaan uit historische patiëntcontext, een natuurlijke-taalvraag over een mogelijke toekomstige gebeurtenis en een label dat uit latere documentatie wordt afgeleid. Dit proces levert 6.900 voorspellingsvoorbeelden op uit 702 opnames, verspreid over medicijnen, procedures, orgaanondersteuning, microbiologie en mortaliteit. Een kleine LoRA-adapter die op deze voorbeelden is getraind, presteert beter dan het gepromptte basismodel, waarbij de verwachte kalibratiefout daalt van 0,1269 naar 0,0398 en de Brier-score van 0,199 naar 0,145, terwijl het ook iets beter presteert dan de puntschattingen van GPT-5 op apart gehouden vragen. De aanpak maakt herbruikbare klinische voorspellingssupervisie mogelijk op basis van longitudinale aantekeningen, zonder handmatig ontworpen gestructureerde kenmerken of eindpunt-specifieke classificatoren.
Produceerbare chippatronen moeten voldoen aan duizenden op geometrie gebaseerde ontwerpregels, en design rule checking (DRC) handhaaft deze door uitvoerbare DRC-scripts op de patronen te draaien. Het vertalen van natuurlijke-taalregels naar correcte DRC-scripts is arbeidsintensief en vereist gespecialiseerde expertise, wat de motivatie vormt voor LLM-agenten voor DRC-scriptsynthese en -debugging. Bestaande benchmarks hebben echter kleine evaluatiesets en beoordelen scripts vaak op code-overeenkomst in plaats van uitvoeringscorrectheid, en eerdere op machinaal leren gebaseerde methoden negeren óf uitvoeringsfeedback óf vereisen gelabelde testlayouts als input voor de agent. Daartoe introduceren we Rule2DRC, een grootschalige benchmark voor DRC-scriptcoderingsagenten met 1.000 regel-naar-script taken en 13.921 evaluatie-chiplayouts voor uitvoeringsgebaseerde beoordeling. Rule2DRC biedt een evaluatiepijplijn die functionele correctheid meet via DRC-uitvoeringsresultaten zonder dat evaluatielayouts als input voor de agent nodig zijn. We stellen ook SplitTester voor, een testeragent voor programmaselectie die uitvoeringsfeedback gebruikt om onderscheidende testgevallen te genereren en eerder ononderscheidbare kandidaat-scripts te scheiden, wat de Best-of-N selectieprestaties in dit domein aanzienlijk verbetert. We publiceren de code op https://github.com/snu-mllab/Rule2DRC.
Reinforcement learning van verifieerbare beloningen (RLVR) heeft veelbelovende resultaten laten zien voor het redeneren van grote taalmodellen (LLM's), maar uitkomstgebaseerde RLVR blijft inefficiënt voor moeilijke problemen omdat correcte eindantwoord-rollouts zeldzaam zijn en krediettoewijzing op steekproefniveau geen gebruik kan maken van gedeeltelijke voortgang in mislukte pogingen. We introduceren SCRL (Subproblem Curriculum Reinforcement Learning), een curriculum-RL-framework dat verifieerbare deelproblemen afleidt uit referentieredeneringsketens en het laatste deelprobleem vaststelt als het oorspronkelijke probleem. Dit zet gedeeltelijke voortgang op moeilijke problemen om in verifieerbare leersignalen. Algoritmisch maakt SCRL gebruik van normalisatie op deelprobleemniveau, die beloningen onafhankelijk normaliseert op elke deelprobleempositie en de resulterende voordelen toewijst aan de overeenkomstige antwoordsegmenten, wat een fijnmazigere krediettoewijzing mogelijk maakt zonder externe beoordelingscriteria of beloningsmodellen. Onze analyse toont aan dat curriculum voor deelproblemen moeilijke problemen uit de dode zones van de gradient tilt, met grotere relatieve winsten naarmate het oorspronkelijke probleem moeilijker wordt. Over zeven wiskundige redeneringsbenchmarks heen presteert SCRL beter dan sterke curriculum-leerbaselines, met een verbetering van de gemiddelde nauwkeurigheid ten opzichte van GRPO van +4,1 punten op Qwen3-4B-Base en +1,9 punten op Qwen3-14B-Base. Op AIME24, AIME25 en IMO-Bench verbetert SCRL bovendien de pass@1 met +3,7 punten en de pass@64 met +4,6 punten op Qwen3-4B-Base, wat wijst op een betere exploratie van moeilijke redeneringsproblemen.
Naarmate draagbare en mobiele apparaten steeds meer in het dagelijks leven worden geïntegreerd, bieden ze een praktische manier om continu menselijke beweging in de echte wereld waar te nemen. Inertiële signalen zijn echter sterk afhankelijk van de sensoropstelling, waaronder de locatie op het lichaam, de montagepositie, de oriëntatie van de sensor, de apparaathardware en het bemonsteringsprotocol. Deze afhankelijkheid van de opstelling maakt het moeilijk om bewegingsrepresentaties te leren die overdraagbaar zijn tussen apparaten en datasets, en beperkt het bredere gebruik van draagbare IMU's tot herkenning in gesloten domeinen. We introduceren AnyMo, een geometriebewust raamwerk voor opstellingsonafhankelijke modellering van menselijke beweging. AnyMo maakt gebruik van natuurkundig onderbouwde IMU-simulatie over dichte plaatsingen op het lichaamsoppervlak om diverse en plausibele synthetische signalen te genereren, traint een grafenencoder met behulp van gepaarde synthetische plaatsingsaanzichten en gemaskeerde gedeeltelijke observaties, tokeniseert IMU-signalen van meerdere posities tot volledige lichaamsbewegingstokens en lijnt deze tokens af met een LLM voor bewegings-taalbegrip. We evalueren AnyMo op drie complementaire taken: zero-shot activiteitsherkenning over 14 niet eerder geziene stroomafwaartse datasets, cross-modale terugwinning en bewegingsondertiteling voor draagbare IMU's, waarbij het de gemiddelde nauwkeurigheid/F1/R@2 verbetert met 11,7%/11,6%/22,6% op HAR, de zero-shot IMU-naar-tekst en tekst-naar-IMU terugwinning MRR met respectievelijk 15,9% en 28,6% verhoogt, en de zero-shot ondertiteling BERT-F1 met 18,8% verbetert. Deze resultaten ondersteunen AnyMo als een generalistisch model voor het begrijpen van draagbare beweging in de echte wereld. Projectpagina: https://baiyuchen.com/project/AnyMo.
Representatie-auto-encoders (RAE's) maken gebruik van bevroren visuele funderingsmodellen (VFM's) als tokenizerencoders, die robuuste hoog-niveau representaties leveren die snelle convergentie en hoogwaardige generatie in latente diffusiemodellen mogelijk maken. Het bevriezen van het VFM beperkt echter inherent de ruimtelijke reconstructiecapaciteit, wat de fijnmazige generatie en beeldbewerking limiteert; het integreren van reconstructiegerichte signalen via fine-tuning verstoort daarentegen de voorgetrainde semantische ruimte en vermindert de generatieve getrouwheid. Om deze afweging aan te pakken, stellen we DecQ voor, een eenvoudig maar effectief raamwerk voor RAE's. Specifiek introduceert DecQ lichtgewicht detailcondenserende queries die via condensormodules fijnmazige informatie uit tussentijdse VFM-kenmerken extraheren. Deze queries worden in de decoder opgenomen om reconstructie te ondersteunen en worden tijdens generatieve modellering gezamenlijk gegenereerd met patch-tokens. Door informatie uit zowel ondiepe als diepe lagen te aggregeren, beperkt DecQ effectief de trade-off tussen reconstructie en generatie, wat zowel de reconstructiekwaliteit als de generatieve prestaties verbetert. Onze experimenten tonen aan dat: (1) met slechts 8 extra queries en 3,9% extra rekenkracht, DecQ de reconstructie verbetert ten opzichte van de bevroren op DINOv2 gebaseerde RAE, met een verhoging van de PSNR van 19,13 dB naar 22,76 dB; en (2) voor generatieve modellering bereikt DecQ een 3,3 keer snellere convergentie dan RAE, met een FID van 1,41 zonder sturing en 1,05 met sturing.
Het detecteren van Schwartz-waarden in politieke tekst is moeilijk omdat impliciete aanwijzingen vaak afhankelijk zijn van omringende argumenten en subtiele verschillen tussen naburige waarden. We onderzoeken wanneer context en expliciete morele kennis helpen bij het detecteren van waarden op zinsniveau. Met behulp van het ValuesML/Touch{é} ValueEval-formaat vergelijken we zins-, venster- en volledige-documentinvoer; no-RAG- en retrieval-augmented-instellingen met een samengestelde morele kennisbank; begeleide DeBERTa-v3-base/large encoders; en zero-shot LLMs van 12B tot 123B parameters. De resultaten tonen aan dat meer context niet uniform beter is: volledige-documentcontext verbetert begeleide DeBERTa-encoders met 3,8–4,8 macro-F1-punten ten opzichte van alleen-zinsinvoer, maar helpt zero-shot LLMs niet consistent. Opgehaalde morele kennis is consistenter nuttig in gematchte vergelijkingen, waarbij het elke geteste modelfamilie en contextconditie verbetert onder vroege fusie. Echter, opschaling van DeBERTa-v3-base naar large en van 12B naar grotere LLMs garandeert geen winst, en eenvoudige vroege fusie presteert beter dan de geteste late-fusie- en cross-attention RAG-varianten voor encoders. Analyse per waarde toont aan dat context en retrieval het meest helpen voor sociaal gesitueerde of conceptueel verwarrende waarden. Deze bevindingen suggereren dat waardengevoelige NLP context, kennis en modelfamilie gezamenlijk moet evalueren in plaats van langere invoer of grotere modellen als universele verbeteringen te beschouwen.
Omni-proactief streaming video begrip, d.w.z. autonoom beslissen wanneer te spreken en wat te zeggen uit continue audio-visuele stromen, is een opkomende capaciteit van omni-modale grote taalmodellen. Bestaande benchmarks schieten tekort op drie belangrijke aspecten: ze vertrouwen voornamelijk op visuele signalen, hanteren polling- of vast-tijdstempelprotocollen in plaats van echte proactieve evaluatie, en bestrijken slechts een beperkt aantal taken, waardoor betrouwbare beoordeling en differentiatie van omni-proactieve streamingmodellen wordt belemmerd. We presenteren OmniPro, de eerste benchmark die gezamenlijk omni-modale perceptie, proactief reageren en diverse video-begriptaken evalueert. Deze omvat 2.700 door mensen geverifieerde samples verdeeld over 9 subtaken en 3 cognitieve niveaus, die 6 basisvaardigheden voor video begrip beslaan. Opvallend is dat 84% van de samples audiosignalen vereist (spraak of niet-spraak), en elk sample is geannoteerd met modaliteit-isolatielabels om fijnmazige multimodale analyse mogelijk te maken. We introduceren verder een tweemodig evaluatieprotocol: de Probe-modus beoordeelt inhoudsbegrip door het model te ondervragen vóór en na elke grondwaarheidstrigger, terwijl de Online-modus het volledige proactieve vermogen evalueert door modellen te verplichten autonoom te beslissen wanneer te reageren in een streaming invoer. Evaluatie van 11 representatieve modellen onthult drie belangrijke bevindingen: (1) audio levert consistente winst, maar met sterk variërend gebruik tussen modellen, (2) prestaties nemen significant af over tijd, wat wijst op beperkte robuustheid op lange termijn, en (3) niet-spraak-audioperceptie blijft de zwakste dimensie.
Naarmate grote taalmodellen (LLMs) steeds meer bepalen hoe gebruikers hun doelen vormen, verfijnen en uitbreiden, wordt het toeschrijven van bijdragen in mens-AI-samenwerking cruciaal voor gebruikers om hun eigen vertrouwen te kalibreren en voor evaluatoren om AI-ondersteund werk te beoordelen. Toch richten bestaande methoden zich op eindproducten, waarbij ze het proces missen waarin doelen zelf gezamenlijk worden gevormd. We introduceren een attributieraamwerk op doelniveau, CoTrace, dat expliciete doelen opsplitst in verifieerbare vereisten en zowel directe bijdragen als indirecte invloeden over dialoogbeurten heen traceert. Door CoTrace toe te passen op 638 praktijksamenwerkingslogs, ontdekken we dat modellen weliswaar slechts 11-26% van de bijdrage aan doelvorming voor hun rekening nemen, maar aanzienlijk meer bijdragen aan het introduceren van concretere vereisten op lager niveau, en verschillende soorten indirecte bijdragen leveren. Via gecontroleerde simulaties tonen we aan dat keuzes in interactieontwerp het doelvormingsgedrag van modellen aanzienlijk beïnvloeden. In een gebruikersstudie verschuift het blootstellen van deelnemers aan analyses op doelniveau hun waargenomen bijdragen met bijna 2 punten op een 5-puntsschaal, wat systematische miskalibratie onthult in hoe gebruikers hun eigen AI-ondersteunde werk begrijpen.
We presenteren Lean Refactor, een plug-and-play retrieval-versterkt agentisch raamwerk voor multi-objectieve, controleerbare en versie-robuuste refactoring van Lean-bewijzen. LLM-gegenereerde bewijzen zijn berucht correct-maar-uitgebreid en breekbaar over bibliotheekversies heen, maar bestaande refactoringwerken zien drie praktische uitdagingen over het hoofd: 1) Lean-refactoring is van nature multi-objectief (bewijslengte, compilatiekosten en versiecompatibiliteit staan vaak op gespannen voet); 2) Lean-repositories hebben kwetsbare compatibiliteit, terwijl LLM-releases zich niet bewust zijn van Lean/Mathlib-versies; 3) Op training gebaseerde pijplijnen vereisen herhaalde fine-tuning bij elke nieuwe LLM-release en schalen noch met modelwisselingen noch met de releasecyclus van Lean. Lean Refactor stuurt een bevroren agentische LLM met ophaalacties uit een samengestelde database van multi-objectieve refactoringstrategieën, elk dicht geannoteerd met metadata zoals ondersteunde Lean/Mathlib-versies en verwachte vermindering van compilatiekosten. Experimenten tonen meer dan 70% compressie op token-niveau op competitiebenchmarks, meer dan 20% op onderzoeksrepositories en tot 60% vermindering van compilatietijd, waarmee eerdere werken en Claude Code worden overtroffen. Versie-gefilterde ophaling verbetert verder de compressie op de beoogde Lean-versie, en gerefactorde miniF2F-bewijzen vertonen sterkere zero-shot versieoverdracht naar toekomstige Lean-releases dan hun ongerefactorde tegenhangers.
Klasse-onevenwicht is een fundamentele uitdaging in medische beeldsegmentatie, waarbij frequente klassen doorgaans de training domineren ten koste van zeldzame klassen. Op verlies gebaseerde benaderingen verminderen het onevenwicht door het per-pixel verlies binnen de batch te herwegen, terwijl bemonsteringsstrategieën bepalen welke afbeeldingen de batch binnenkomen. Geen van beide controleert echter expliciet welke klassen in de batch verschijnen, waardoor de blootstelling aan zeldzame klassen slechts gedeeltelijk opnieuw in balans wordt gebracht. In dit werk passen we episodische bemonstering uit few-shot leren toe om klasse-gebalanceerde batchconstructie te bevorderen in een volledig gesuperviseerde setting. We ontkoppelen episodische bemonstering van zijn conventionele metrisch-leercontext en evalueren het in segmentatie van lichaamssamenstelling in CT. We vergelijken episodische bemonstering met willekeurige en gewogen bemonstering op negen spier- en vetweefsels, afkomstig uit 210 scans van de openbare SAROS-dataset. Training wordt uitgevoerd onder volledige en lage data-regimes, met extra vergelijkingen onder gepaarde trainingsiteratiebudgetten. Bij training met volledige data presteerden alle drie strategieën vergelijkbaar (gemiddelde Dice 0,882 voor episodisch, 0,878 voor willekeurig en gewogen). Bij training met lage data presteerde episodische bemonstering beter dan willekeurig en gewogen (0,787 versus 0,758 en 0,762), gedreven door een 12-voudig verschil in trainingsiteraties. Onder gepaarde trainingsbudgetten overfitten willekeurig en gewogen eerder, terwijl episodisch ongeveer drie keer meer iteraties verbeterde voordat het plateauvorming vertoonde. Onze bevindingen identificeren het trainingsiteratiebudget als een onderkende verstorende factor in bemonsteringsstrategieën, wat aanleiding geeft tot iteratiebewuste evaluatieprotocollen voor kleine datasets. Bovendien komt het resterende voordeel van episodische bemonstering overeen met een impliciet regularisatie-effect van klasse-gebalanceerde batches, wat een goedkope, model-agnostische strategie biedt voor klasse-onevenwichtige medische beeldsegmentatie. Code is beschikbaar op https://github.com/iasonsky/episodic-sampling.
Schaalwetten hebben ervoor gezorgd dat de prestaties van taalmodellen voorspelbaar zijn op basis van modelgrootte, data en rekenkracht, maar ze behandelen de optimizer doorgaans als een vast trainingsdetail. We laten zien dat deze aanname een fundamentele as van representatieschaling over het hoofd ziet: hoe effectief de optimizer toegevoegde FFN-breedte omzet in gebruikte spectrale capaciteit. Met behulp van eigenspectra van representaties van feed-forward netwerken, gemeten via zachte en harde spectrale rangen, vinden we dat dezelfde Transformer-architectuur aanzienlijk verschillende spectrale schaalwetten vertoont wanneer getraind met verschillende optimizers. Bij gelijkblijvende architectuur en breedteschema vertoont AdamW een zwakke harde-rangschaling (β=0,44) op representaties van zeldzame tokens (TAIL) waarvan bekend is dat leren het moeilijkst is, terwijl Muon een lineaire schaling (β=1,02) behaalt in dezelfde regimes, een toename van 2,3 keer in de schalingsexponent. Dit verschil is niet te herleiden tot validatieverlies: AdamW-configuraties kunnen, na langere training, overeenkomen met Dion-varianten met lage rang wat betreft perplexiteit, terwijl ze een scherp verschillende spectrale geometrie vertonen, wat aantoont dat overeenkomend verlies niet betekent dat de representatiestructuur overeenkomt. De asymmetrie tussen harde en zachte rangen onthult verder dat optimizers niet alleen verschillen in hoeveel capaciteit wordt gerealiseerd, maar ook in hoe die capaciteit gestructureerd is over eigenmodes. Om de effecten van de optimizer te ontwarren van architecturale effecten, vergelijken we deze met architecturale ingrepen (bijv. aandachtsrang en positionele codering), en vinden we dat door de optimizer veroorzaakte spectrale verschuivingen vaak groter zijn dan de architecturale effecten. Deze resultaten suggereren dat optimalisatie een eersteklas as van representatieschaling is, wat pleit voor co-ontwerp van optimizer en architectuur.
De Sterke Platonische Representatiehypothese stelt dat representatieconvergentie in kunstmatige neurale netwerken constructief kan worden benut: embeddings kunnen tussen modellen worden vertaald via een universele latente ruimte zonder gepaarde data. Wij vragen ons af of een analoge geometrie kan worden teruggevonden in menselijke hersenen. Met behulp van fMRI-gegevens uit de Natural Scenes Dataset stellen we een zelfgesuperviseerde encoder voor die persoonspecifieke embeddings leert uitsluitend uit hersendata door gebruik te maken van herhaalde stimuluspresentaties. We laten zien dat deze onafhankelijk geleerde ruimtes tussen proefpersonen kunnen worden vertaald met behulp van ongesuperviseerde orthogonale rotaties, zonder gepaarde cross-subject samples of tussenliggende modelrepresentaties. Het synchroniseren van paarsgewijze rotaties in een enkele gedeelde latente ruimte verbetert verder de cross-subject retrieval, wat aangeeft dat persoonspecifieke ruimtes onderling compatibel zijn met een gemeenschappelijk coördinatensysteem. Deze resultaten leveren bewijs voor een gedeelde neurale geometrie in de menselijke visuele cortex: persoonspecifieke fMRI-representaties zijn bij benadering isometrisch tussen individuen en kunnen worden vertaald door middel van zuiver geometrische transformaties.
3D-dierreconstructie in het wild blijft uitdagend vanwege grote variatie in soorten, frequente occlusies en de prevalentie van scènes met meerdere dieren, terwijl bestaande methoden zich voornamelijk richten op situaties met één dier. We presenteren SAM 3D Animal, het eerste promptbare raamwerk voor 3D-reconstructie van meerdere dieren vanuit een enkele afbeelding. Gebaseerd op het SMAL+ parametrische diermodel, reconstrueert onze methode gezamenlijk meerdere instanties en ondersteunt het flexibele prompts in de vorm van sleutelpunten en maskers, wat een betrouwbaardere disambiguatie in drukke en geoccludeerde scènes mogelijk maakt. Om zo'n model te trainen introduceren we verder Herd3D, een 3D-dataset met meerdere dieren die meer dan 5.000 afbeeldingen bevat, ontworpen om de diversiteit in soorten, interacties en occlusiepatronen te vergroten. Experimenten op de datasets Animal3D, APTv2 en Animal Kingdom tonen aan dat ons raamwerk state-of-the-art resultaten behaalt ten opzichte van zowel bestaande modelgebaseerde als modellozee methoden, wat een schaalbare en effectieve oplossing demonstreert voor promptgestuurde 3D-dierreconstructie in het wild.
Interactieve streaming muziekgeneratie belooft het gebruik van generatieve modellen voor live-optredens en co-creatie, wat onmogelijk is met offlinemodellen. Echter, state-of-the-art modellen bestaan in het discrete autoregressieve regime, wat industriële rekenkracht vereist voor zowel training als inferentie. In dit werk onderzoeken we of audiodiffusiemodellen, met hun brede ondersteuning in de open-sourcegemeenschap maar niet-streamende bidirectionele aard, efficiënt kunnen worden hergebruikt als interactieve modellen die toegankelijk zijn op consumentenhardware. Door een kritische blik te werpen op de moderne pijplijn voor bloksgewijze outpainting-diffusie, identificeren we kritieke inefficiënties tijdens inferentie die leiden tot een strikt slechtere rekenkundige efficiëntie dan hun discrete autoregressieve tegenhangers. We stellen Live Music Diffusion Models (LMDMs) voor, een eenvoudige aanpassing van het generatieve diffusieproces dat de inferentiecomplexiteit van de discrete Live Music Models (LMMs) herstelt en vervolgens overtreft door middel van bloksgewijze KV-caching. In tegenstelling tot LMMs maken LMDMs verder stabiele post-training afstemming mogelijk via ons nieuwe ARC-Forcing paradigma, waardoor foutaccumulatie wordt verminderd zonder enige expliciete RL- of beloningsmodellen. We demonstreren de toepassing van LMDMs in een aantal creatieve domeinen, waaronder tekstgestuurde generatie, op schetsen gebaseerde muzieksynthese en jammen. Tot slot tonen we hoe LMDMs kunnen worden gebruikt als een generatief instrument in een echte artiest-AI-samenwerking, waarbij LMDMs worden ingezet als een “generatieve vertraging” om de improvisatie van muzikanten live te transformeren voor variabele timbre-effecten, terwijl ze lokaal draaien op een consumenten-gaminglaptop.
Visual-Inertial Odometry (VIO), die cruciaal is voor de navigatie van mobiele robots, maakt gebruik van camera's met een groot aantal pixels. Het vastleggen en verwerken van camerabeelden vereist aanzienlijke middelen. Dit werk presenteert een minimalistische benadering van vlakke odometrie en toont aan dat slechts vier visuele metingen en een IMU robuuste bewegingsschatting kunnen leveren voor robots met differentiële aandrijving. Ons belangrijkste inzicht is dat vier naar beneden gerichte fotodiodes die de wereld waarnemen via optische Gabor-maskers signalen produceren die snelheid coderen. Op basis hiervan optimaliseren we gezamenlijk de maskerparameters samen met een Temporal Convolutional Network (TCN) met behulp van een fysisch onderbouwde simulator. Het resulterende model decodeert snelheid uit slechts de vier metingen die door de fotodiodes worden geproduceerd. Het combineren van deze schattingen met de hoeksnelheid van een IMU levert een continue vlakke baan op. We valideren onze aanpak met een prototypesensor gemonteerd op een robot met differentiële aandrijving. Op diverse binnen- en buitenterreinen volgt ons systeem de referentie-grondwaarheid nauwkeurig zonder enige aanpassing in de echte wereld. Ons werk laat zien dat minimalistische waarneming efficiënte en nauwkeurige vlakke odometrie mogelijk maakt.
Modebeeldretrieval is een hoeksteen van moderne e-commercesystemen. Een verenigd raamwerk dat diverse queryformaten en zoekintenties ondersteunt, is in de praktijk zeer gewenst. Bestaande benaderingen richten zich echter op smalle retrievaltaken en vatten deze diversiteit niet volledig. Daarom streven we in dit werk naar de ontwikkeling van een verenigd raamwerk dat diverse realistische modebeeldretrievalscenario's aankan, waarmee we werkelijk veelzijdige modebeeldretrieval realiseren. Om een databasis te leggen, introduceren we eerst U-FIRE, een uitgebreide benchmark die gefragmenteerde modedatasets consolideert in een verenigde collectie, aangevuld met twee handmatig samengestelde datasets voor het testen van generalisatie. Hierop voortbouwend stellen we FashionLens voor, een verenigd raamwerk gebaseerd op Multimodale Grote Taalmodellen. Om uiteenlopende matchingdoelen te hanteren, ontwerpen we een Proposal-Guided Spherical Query Calibrator die queryrepresentaties dynamisch verschuift naar taakafgestemde metrische ruimten via adaptieve sferische lineaire interpolatie. Daarnaast ontwikkelen we, om de optimalisatie-onbalans door variërende taakcomplexiteit en dataschalen te verminderen, een Gradient-Guided Adaptive Sampling-strategie die taken automatisch herweegt op basis van realtime leermoeilijkheid en de dataschaalprior. Experimenten op U-FIRE tonen aan dat FashionLens state-of-the-art prestaties levert in diverse retrievercenario's en robuust generaliseert naar ongeziene taken. De data en code zijn openbaar beschikbaar gesteld op https://github.com/haokunwen/FashionLens.