Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De constructie van Wereldmodellen die in staat zijn objectieve natuurwetten te leren, te simuleren en te redeneren, vormt een fundamentele uitdaging in de zoektocht naar Algemene Kunstmatige Intelligentie. Recente vooruitgang, vertegenwoordigd door videogeneratiemodellen zoals Sora, heeft het potentieel aangetoond van data-gedreven schaalwetten om fysische dynamiek te benaderen, terwijl het opkomende Unified Multimodal Model (UMM) een veelbelovend architecturaal paradigma biedt voor de integratie van perceptie, taal en redeneren. Ondanks deze vooruitgang ontbreekt het veld nog steeds aan een principieel theoretisch kader dat de essentiële eigenschappen definieert die nodig zijn voor een Algemeen Wereldmodel. In dit artikel stellen wij voor dat een Wereldmodel gegrondvest moet zijn in de Drie-eenheid van Consistentie: Modale Consistentie als de semantische interface, Ruimtelijke Consistentie als de geometrische basis en Temporele Consistentie als de causale motor. Door deze driedelige lens evalueren wij systematisch de evolutie van multimodaal leren, waarbij een traject zichtbaar wordt van losjes gekoppelde gespecialiseerde modules naar uniforme architecturen die de synergetische opkomst van interne wereldsimulators mogelijk maken. Als aanvulling op dit conceptuele kader introduceren wij CoW-Bench, een benchmark gericht op scenario's voor multi-frame redeneren en generatie. CoW-Bench evalueert zowel videogeneratiemodellen als UMM's onder een uniform evaluatieprotocol. Ons werk legt een principieel pad richting algemene wereldmodellen, waarbij zowel de beperkingen van huidige systemen als de architecturale vereisten voor toekomstige vooruitgang worden verduidelijkt.
Naarmate Large Multimodale Modellen (LMM's) schalen en methoden voor reinforcement learning (RL) volwassener worden, hebben LMM's aanzienlijke vooruitgang geboekt in complex redeneren en besluitvorming. Toch blijft de training steunen op statische data en vaste recepten, wat het moeilijk maakt om blinde vlekken in capaciteiten te diagnosticeren of dynamische, gerichte versterking te bieden. Gemotiveerd door bevindingen dat testgedreven blootstelling aan fouten en correctie op basis van feedback repetitieve oefening overtreffen, stellen we Diagnostic-driven Progressive Evolution (DPE) voor: een spiraalvormige lus waarin diagnose de datageneratie en -versterking stuurt, en elke iteratie het bijgewerkte model opnieuw diagnosticeert om de volgende ronde van gerichte verbetering aan te drijven. DPE heeft twee kernelementen. Ten eerste annoteren meerdere agenten enorme hoeveelheden ongelabelde multimodale data en voeren ze kwaliteitscontrole uit, waarbij ze tools zoals zoeken op het web en beeldbewerking gebruiken om diverse, realistische samples te produceren. Ten tweede schrijft DPE fouten toe aan specifieke zwaktes, past het datamengsel dynamisch aan en stuurt het agenten aan om data te genereren die gericht is op deze zwaktes voor gerichte versterking. Experimenten met Qwen3-VL-8B-Instruct en Qwen2.5-VL-7B-Instruct tonen stabiele, voortdurende verbeteringen aan over elf benchmarks, wat aangeeft dat DPE een schaalbaar paradigma is voor continue LMM-training onder open taakverdelingen. Onze code, modellen en data zijn openbaar beschikbaar op https://github.com/hongruijia/DPE.
Op grote taalmodellen (LLM's) gebaseerde routeplanningsagents zijn naar voren gekomen als een veelbelovend paradigma voor het ondersteunen van de dagelijkse menselijke mobiliteit via natuurlijke taalinteractie en tool-gemedieerde besluitvorming. Systematische evaluatie in realistische mobiliteitssettings wordt echter belemmerd door uiteenlopende routebehoeften, niet-deterministische kaartdiensten en beperkte reproduceerbaarheid. In deze studie introduceren we MobilityBench, een schaalbare benchmark voor het evalueren van op LLM's gebaseerde routeplanningsagents in realistische mobiliteitsscenario's. MobilityBench is opgebouwd uit grootschalige, geanonimiseerde echte gebruikersquery's verzameld van Amap en bestrijkt een breed spectrum aan routeplanningsintenties in meerdere steden wereldwijd. Om reproduceerbare, end-to-end evaluatie mogelijk te maken, ontwerpen we een deterministische sandbox voor API-herhaling die omgevingsvariantie van live diensten elimineert. Verder stellen we een multidimensionaal evaluatieprotocol voor, gecentreerd rond uitkomstvaliditeit, aangevuld met beoordelingen van instructiebegrip, planning, toolgebruik en efficiëntie. Met MobilityBench evalueren we meerdere op LLM's gebaseerde routeplanningsagents in diverse realistische mobiliteitsscenario's en bieden we een diepgaande analyse van hun gedrag en prestaties. Onze bevindingen tonen aan dat huidige modellen competent presteren bij Basisinformatieretrieval en Routeplannings taken, maar aanzienlijk moeite hebben met Routeplanning met Preferentierestricties, wat duidt op aanzienlijke verbeteringsmogelijkheden voor gepersonaliseerde mobiliteitstoepassingen. We stellen de benchmarkdata, evaluatietoolkit en documentatie openbaar beschikbaar op https://github.com/AMAP-ML/MobilityBench.
Menselijke intelligentie combineert van nature omni-modale perceptie – die zich uitstrekt over visie, audio en taal – met complexe redeneervaardigheden en gereedschapsgebruik om met de wereld te interacteren. Huidige multi-modale LLM's zijn echter voornamelijk beperkt tot bi-modale interacties (bijvoorbeeld visie-taal) en missen de verenigde cognitieve capaciteiten die nodig zijn voor algemene AI-assistenten. Om deze kloof te overbruggen, introduceren we OmniGAIA, een uitgebreide benchmark ontworpen om omni-modale agents te evalueren op taken die diepgaand redeneren en multi-turn gereedschapsuitvoering vereisen over video-, audio- en beeldmodaliteiten. Opgebouwd via een nieuwe omni-modale gebeurtenisgrafiekbenadering, synthetiseert OmniGAIA complexe, multi-hop queries afgeleid van real-world data die cross-modale redenering en integratie van externe tools vereisen. Verder stellen we OmniAtlas voor, een native omni-modale foundation-agent binnen een paradigma van tool-geïntegreerd redeneren met actieve omni-modale perceptie. Getraind op trajecten gesynthetiseerd via een hindsight-gestuurde boomverkenningsstrategie en OmniDPO voor fijnmazige foutcorrectie, verbetert OmniAtlas effectief de tool-gebruikscapaciteiten van bestaande open-source modellen. Dit werk markeert een stap naar next-generation native omni-modale AI-assistenten voor real-world scenario's.
Latente visuele redenering heeft als doel het verbeeldingsproces van de mens na te bootsen door te mediteren via de verborgen toestanden van Multimodale Grote Taalmodellen. Hoewel erkend als een veelbelovend paradigma voor visuele redenering, blijven de onderliggende mechanismen die de effectiviteit ervan drijven onduidelijk. Gemotiveerd om de ware bron van de doeltreffendheid te ontrafelen, onderzoeken we de geldigheid van latente redenering met behulp van Causale Mediatie-analyse. Wij modelleren het proces als een causale keten: de invoer als de behandeling, de latente tokens als de mediator en het uiteindelijke antwoord als de uitkomst. Onze bevindingen onthullen twee kritieke verbroken verbindingen: (a) Invoer-Latente Verbinding: dramatische verstoringen van de invoer resulteren in verwaarloosbare veranderingen in de latente tokens, wat suggereert dat latente tokens niet effectief aandacht besteden aan de invoerreeks. (b) Latente-Antwoord Verbinding: verstoringen van de latente tokens hebben minimaal effect op het uiteindelijke antwoord, wat wijst op het beperkte causale effect dat latente tokens op de uitkomst uitoefenen. Verder onthult uitgebreide probing-analyse dat latente tokens beperkte visuele informatie coderen en een hoge gelijkenis vertonen. Bijgevolg betwisten we de noodzaak van latente redenering en stellen we een eenvoudig alternatief voor genaamd CapImagine, dat het model leert expliciet te verbeelden met behulp van tekst. Experimenten op visie-gecentreerde benchmarks tonen aan dat CapImagine significant beter presteert dan complexe latentieruimte-baselines, wat het superieure potentieel van visuele redenering door expliciete verbeelding benadrukt.
Exploratie blijft de belangrijkste bottleneck voor agents van grote taalmodellen die getraind zijn met reinforcement learning. Hoewel eerdere methodes gebruikmaken van vooraf getrainde kennis, falen ze in omgevingen die de ontdekking van nieuwe toestanden vereisen. Wij stellen Exploratory Memory-Augmented On- and Off-Policy Optimization (EMPO²) voor, een hybride RL-framework dat geheugen benut voor exploratie en on- en off-policy updates combineert om grote taalmodellen goed te laten presteren mét geheugen, terwijl het ook robuustheid garandeert zónder geheugen. Op ScienceWorld en WebShop behaalt EMPO² respectievelijk 128,6% en 11,3% verbeteringen ten opzichte van GRPO. Bovendien toont EMPO² in out-of-distribution tests een superieure aanpassingsvermogen aan nieuwe taken, waarbij slechts enkele pogingen met geheugen en geen parameterupdates nodig zijn. Deze resultaten benadrukken EMPO² als een veelbelovend framework voor het bouwen van meer explorerende en generaliseerbare op grote taalmodellen gebaseerde agents.
Hoewel Multi-Agent Systemen (MAS) uitblinken in complex redeneren, hebben zij te lijden onder het cascade-effect van foutieve informatie die gegenereerd wordt door individuele deelnemers. Bestaande oplossingen grijpen vaak terug op rigide structurele engineering of kostelijke fine-tuning, wat hun inzetbaarheid en aanpasbaarheid beperkt. Wij stellen AgentDropoutV2 voor, een test-time 'rectify-or-reject' pruning-framework, ontworpen om de MAS-informatieflow dynamisch te optimaliseren zonder hertraining. Onze aanpak fungeert als een actieve firewall, die agent-output onderschept en een retrieval-augmented rectifier inzet om fouten iteratief te corrigeren op basis van een failure-driven indicatorpool. Dit mechanisme maakt een nauwkeurige identificatie van potentiële fouten mogelijk door gedistilleerde foutpatronen als voorkennis te gebruiken. Onherstelbare outputs worden vervolgens weggesnoeid om foutpropagatie te voorkomen, terwijl een fallback-strategie de systeemintegriteit waarborgt. Empirische resultaten op uitgebreide wiskundige benchmarks tonen aan dat AgentDropoutV2 de taakprestaties van het MAS aanzienlijk verbetert, met een gemiddelde nauwkeurigheidswinst van 6,3 procentpunten op wiskundige benchmarks. Verder vertoont het systeem robuuste generalisatie en adaptiviteit, door rectificatie-inspanningen dynamisch te moduleren op basis van taakmoeilijkheid en tegelijkertijd contextbewuste indicatoren te benutten om een breed scala aan foutpatronen op te lossen. Onze code en dataset zijn vrijgegeven op https://github.com/TonySY2/AgentDropoutV2.
Wij introduceren MediX-R1, een open Reinforcement Learning (RL) kader voor medische multimodale grote taalmodellen (MLLM's) dat klinisch onderbouwde, vrije-vorm antwoorden mogelijk maakt, voorbij meerkeuzeformats. MediX-R1 fine-tunt een visie-taal basisarchitectuur met Group Based RL en een samengestelde beloning die is toegesneden op medisch redeneren: een op een LLM gebaseerde nauwkeurigheidsbeloning die de semantische correctheid beoordeelt met een strikte JA/NEE-beslissing, een op medische embeddings gebaseerde semantische beloning om parafrases en terminologievarianten te vangen, en lichtgewicht formaat- en modaliteitsbeloningen die interpreteerbaar redeneren en modaliteitsherkenning afdwingen. Dit multi-signaal ontwerp biedt stabiele, informatieve feedback voor open uitvoer, waar traditionele verifieerbare of uitsluitend-meerkeuze beloningen tekortschieten. Om vooruitgang te meten, stellen we een uniform evaluatiekader voor voor zowel tekst-only als beeld+tekst taken, dat een referentie-gebaseerde LLM-as-judge gebruikt in plaats van broze string-overlap metrieken, om semantische correctheid, redenering en contextuele afstemming te vangen. Ondanks het gebruik van slechts sim51K instructievoorbeelden, behaalt MediX-R1 uitstekende resultaten op standaard medische LLM (tekst-only) en VLM (beeld + tekst) benchmarks, waarbij het sterke open-source basislijnen overtreft en met name grote vooruitgang boekt op open klinische taken. Onze resultaten tonen aan dat open RL met uitgebreide beloningssignalen en op LLM gebaseerde evaluatie een praktisch pad is naar betrouwbaar medisch redeneren in multimodale modellen. Onze getrainde modellen, gecureerde datasets en broncode zijn beschikbaar op https://medix.cvmbzuai.com.
Recente deep research-agents verbeteren de prestaties vooral door de redeneerdiepte op te schalen, maar dit leidt tot hoge inferentiekosten en latentie in zoekintensieve scenario's. Bovendien blijft generalisatie over heterogene onderzoekssettings een uitdaging. In dit werk stellen we Search More, Think Less (SMTL) voor, een raamwerk voor langetermijn agent-gebaseerd zoeken dat zowel efficiëntie als generalisatie beoogt. SMTL vervangt sequentieel redeneren door parallelle verwerving van bewijs, waardoor efficiënt contextbeheer mogelijk wordt onder beperkte contextbudgetten. Om generalisatie over verschillende taaktypen te ondersteunen, introduceren we verder een uniforme datasynthesepijplijn die zoektaken construeert die zowel deterministische vraag-antwoordscenario's als open onderzoeksscenario's omvatten, met taakgeschikte evaluatiemetrics. We trainen een end-to-end agent met supervised fine-tuning en reinforcement learning, waarbij sterke en vaak state-of-the-art prestaties worden behaald op benchmarks zoals BrowseComp (48,6%), GAIA (75,7%), Xbench (82,0%) en DeepResearch Bench (45,9%). Vergeleken met Mirothinker-v1.0 reduceert SMTL met maximaal 100 interactiestappen het gemiddeld aantal redeneerstappen op BrowseComp met 70,7%, terwijl de nauwkeurigheid verbetert.
Wij presenteren een schaalbaar 3D-reconstructiemodel dat een kritieke beperking van offline feed-forward methoden aanpakt: hun rekenkundige en geheugeneisen groeien kwadratisch ten opzichte van het aantal invoerbeelden. Onze aanpak is gebaseerd op het kerninzicht dat dit knelpunt voortkomt uit de variabele-lengte Key-Value (KV)-ruimteweergave van de scènegeometrie, die wij via test-time training destilleren in een Multi-Layer Perceptron (MLP) met vaste grootte. VGG-T³ (Visual Geometry Grounded Test Time Training) schaalt lineair met het aantal invoerbeelden, vergelijkbaar met online modellen, en reconstrueert een verzameling van 1k beelden in slechts 54 seconden, wat een versnelling van 11,6 keer oplevert ten opzichte van baseline-methoden die op softmax-attentie steunen. Omdat onze methode de globale scène-aggregatiecapaciteit behoudt, overtreft onze foutmarge bij puntwolkreconstructie andere lineaire-tijd methoden met grote marges. Ten slotte demonstreren wij de visuele localisatiemogelijkheden van ons model door de scèneweergeving te bevragen met ongeziene beelden.
Diffusiemodellen hebben opmerkelijke vooruitgang geboekt in de generatie van hoogwaardige afbeeldingen, video's en audio, maar de inferentie blijft rekenkundig kostbaar. Toch leiden huidige versnellingsmethoden voor diffusie, gebaseerd op gedistribueerde parallellisatie, tot merkbare generatie-artefacten en slagen zij er niet in een substantiële versnelling te bereiken die evenredig is met het aantal GPU's. Daarom stellen wij een hybride parallellisatieraamwerk voor dat een nieuwe data-parallelle strategie, condition-based partitioning, combineert met een optimale pipeline-schedulingsmethode, adaptive parallelism switching, om de generatielatentie te verminderen en een hoge generatiekwaliteit te bereiken in conditionele diffusiemodellen. De kernideeën zijn om (i) de conditionele en unconditionele denoiseringspaden te benutten als een nieuw perspectief voor data-partitionering en (ii) optimale pipeline-parallellisatie adaptief in te schakelen op basis van het denoiseringsverschil tussen deze twee paden. Ons raamwerk bereikt een latentievermindering van respectievelijk 2,31x en 2,07x op SDXL en SD3 met twee NVIDIA RTX~3090 GPU's, waarbij de beeldkwaliteit behouden blijft. Dit resultaat bevestigt de generaliseerbaarheid van onze aanpak over U-Net-gebaseerde diffusiemodellen en DiT-gebaseerde flow-matching architecturen. Onze aanpak overtreft ook bestaande methoden wat betreft versnelling onder instellingen voor hoogresolutie-synthese. Code is beschikbaar op https://github.com/kaist-dmlab/Hybridiff.
De belofte van algemene agentsystemen - systemen die taken uitvoeren in onbekende omgevingen zonder domeinspecifieke aanpassingen - blijft grotendeels oningelost. Bestaande agents zijn overwegend gespecialiseerd, en hoewel opkomende implementaties zoals de OpenAI SDK Agent en Claude Code wijzen op bredere capaciteiten, is er nog geen systematische evaluatie van hun algemene prestaties uitgevoerd. Huidige benchmarks voor agents veronderstellen domeinspecifieke integratie en coderen taakinformatie op manieren die een eerlijke evaluatie van algemene agents uitsluiten. Dit artikel positioneert de evaluatie van algemene agents als een primair onderzoeksdoel. Wij stellen conceptuele principes voor voor een dergelijke evaluatie, een Unified Protocol dat integratie van agent en benchmark mogelijk maakt, en Exgentic - een praktisch raamwerk voor de evaluatie van algemene agents. We evalueren vijf prominente agentimplementaties in zes omgevingen als eerste Open General Agent Leaderboard. Onze experimenten tonen aan dat algemene agents zich generaliseren over diverse omgevingen, met prestaties vergelijkbaar met domeinspecifieke agents zonder omgevingsspecifieke afstemming. We publiceren ons evaluatieprotocol, raamwerk en leaderboard om een basis te leggen voor systematisch onderzoek naar algemene agentsystemen.
Menselijk gedrag in de echte wereld codeert van nature rijke, langetermijn contextuele informatie die kan worden benut om belichaamde agents te trainen voor waarneming, begrip en handeling. Bestaande capturesystemen zijn echter doorgaans afhankelijk van kostbare studiovoorzieningen en draagbare apparaten, wat de grootschalige verzameling van scenegedane menselijke bewegingsdata in de praktijk beperkt. Om dit aan te pakken, stellen wij EmbodMocap voor, een draagbaar en betaalbaar datacollectieproces met twee bewegende iPhones. Onze kernidee is het gezamenlijk kalibreren van dubbele RGB-D-reeksen om zowel mensen als scènes binnen een verenigd metrisch wereldcoördinatenstelsel te reconstrueren. De voorgestelde methode maakt metrische schaal- en sceneconsistente capture mogelijk in alledaagse omgevingen zonder statische camera's of markers, en verbindt menselijke beweging en scènegeometrie naadloos. In vergelijking met optische capture ground truth tonen we aan dat de dual-view-opstelling een opmerkelijke capaciteit vertoont om diepte-ambiguïteit te verminderen, met superieure uitlijning en reconstructieprestaties ten opzichte van single iPhone of monocular modellen. Gebaseerd op de verzamelde data ondersteunen we drie belichaamde AI-taken: monocular human-scene-reconstruction, waarbij we feedforward-modellen finetunen die mensen en scènes op metrische schaal en uitgelijnd in de wereldruimte outputten; physics-based character animation, waarbij we aantonen dat onze data gebruikt kan worden om mens-object interactievaardigheden en scene-aware motion tracking op te schalen; en robot motion control, waarbij we een humanoïde robot trainen via sim-to-real RL om menselijke bewegingen uit video's na te bootsen. Experimentele resultaten valideren de effectiviteit van onze pijplijn en haar bijdragen aan de vooruitgang van belichaamd AI-onderzoek.
Het rigoureus evalueren van machine-intelligentie tegen het brede spectrum van de menselijke algemene intelligentie is in dit tijdperk van snelle technologische vooruitgang steeds belangrijker en uitdagender geworden. Conventionele AI-benchmarks beoordelen doorgaans slechts beperkte capaciteiten binnen een smal bereik van menselijke activiteit. De meeste zijn ook statisch en raken snel verzadigd doordat ontwikkelaars er expliciet of impliciet voor optimaliseren. Wij stellen voor dat een veelbelovendere manier om mensachtige algemene intelligentie in AI-systemen te evalueren, ligt in een bijzonder sterke vorm van general game playing: het bestuderen van hoe, en hoe goed, ze alle denkbare menselijke spellen spelen en leren spelen, in vergelijking met menselijke spelers met hetzelfde niveau van ervaring, tijd of andere middelen. We definiëren een "menselijk spel" als een spel dat door mensen is ontworpen voor mensen, en beargumenteren de geschiktheid van deze ruimte van alle spellen die mensen zich kunnen voorstellen en leuk vinden – het "Multiversum van Menselijke Spellen" – voor evaluatiedoeleinden. Als eerste stap naar deze visie introduceren we de AI GameStore, een schaalbare en open-ended platform dat gebruikmaakt van LLM's met menselijke tussenkomst om nieuwe representatieve menselijke spellen te synthetiseren, door gestandaardiseerde en gecontaineriseerde varianten van spelomgevingen automatisch te verkrijgen en aan te passen van populaire digitale gamingplatforms voor mensen. Als proof of concept genereerden we 100 van dergelijke spellen op basis van de toplijsten van de Apple App Store en Steam, en evalueerden we zeven grensverleggende vision-language modellen (VLM's) op korte speelsessies. De beste modellen behaalden minder dan 10% van de gemiddelde menselijke score op de meerderheid van de spellen, en hadden vooral moeite met spellen die wereldmodellerend leren, geheugen en planning uitdagen. We sluiten af met een reeks volgende stappen voor de verdere ontwikkeling van de AI GameStore als een praktische manier om vooruitgang richting mensachtige algemene intelligentie in machines te meten en te stimuleren.
Op energie gebaseerde voorspellende wereldmodellen bieden een krachtige aanpak voor meerstaps visuele planning door redenering over latente energielandschappen in plaats van pixels te genereren. Bestaande methoden kampen echter met twee grote uitdagingen: (i) hun latente representaties worden doorgaans geleerd in een Euclidische ruimte, waarbij de onderliggende geometrische en hiërarchische structuur tussen toestanden wordt verwaarloosd, en (ii) ze hebben moeite met voorspellingen over lange tijdshorizons, wat leidt tot snelle degradatie bij uitgebreide rollouts. Om deze uitdagingen aan te pakken, introduceren we GeoWorld, een geometrisch wereldmodel dat geometrische structuur en hiërarchische relaties behoudt via een hyperbolische JEPA, die latente representaties van de Euclidische ruimte afbeeldt op hyperbolische variëteiten. We introduceren verder Geometrische Reinforcement Learning voor op energie gebaseerde optimalisatie, waardoor stabiele meerstapsplanning in de latente hyperbolische ruimte mogelijk wordt. Uitgebreide experimenten op CrossTask en COIN tonen een verbetering van ongeveer 3% SR bij 3-staps planning en 2% SR bij 4-staps planning aan in vergelijking met de state-of-the-art V-JEPA 2. Projectwebsite: https://steve-zeyu-zhang.github.io/GeoWorld.
Recente vooruitgang in bewegingsdiffusiemodellen heeft de realiteitswaarde van menselijke bewegingssynthese aanzienlijk verbeterd. Bestaande benaderingen zijn echter ofwel gebaseerd op diffusiemodellen voor volledige sequenties met bidirectionele generatie, wat temporele causaliteit en realtime-toepasbaarheid beperkt, ofwel op autoregressieve modellen die lijden onder instabiliteit en cumulatieve fouten. In dit werk presenteren we Causale Bewegingsdiffusiemodellen (CMDM), een uniform raamwerk voor autoregressieve bewegingsgeneratie gebaseerd op een causale diffusietransformer die opereert in een semantisch uitgelijnde latente ruimte. CMDM bouwt voort op een Beweging-Taal-Uitgelijnde Causale VAE (MAC-VAE), die bewegingssequenties codeert in temporeel causale latente representaties. Bovenop deze latente representatie wordt een autoregressieve diffusietransformer getraind met causale diffusie-forcering om temporeel geordende denoisering over bewegingsframes uit te voeren. Voor snelle inferentie introduceren we een framegewijze bemonsteringsplanning met causale onzekerheid, waarbij elk volgend frame wordt voorspeld uit gedeeltelijk gedenoiseerde vorige frames. Het resulterende raamwerk ondersteunt hoogwaardige tekst-naar-beweging-generatie, streamsynthese en bewegingsgeneratie op lange termijn op interactieve snelheden. Experimenten op HumanML3D en SnapMoGen tonen aan dat CMDM bestaande diffusie- en autoregressieve modellen overtreft in zowel semantische trouw als temporele vloeiendheid, terwijl de inferentielatentie aanzienlijk wordt verminderd.
Volledig Gefragmenteerd Data Parallel (FSDP), ook bekend als ZeRO, wordt veelvuldig gebruikt voor het trainen van grootschalige modellen vanwege zijn flexibiliteit en minimale ingreep in modelcode. Huidige FSDP-systemen hebben echter moeite met structuurbewuste trainingsmethoden (zoals bloksgewijze gekwantiseerde training) en met niet-elementgewijze optimalisatoren (zoals Shampoo en Muon) die in geavanceerde modellen (zoals Gemini, Kimi K2) worden gebruikt. De vaste element- of rijgewijze fragmentatieformats van FSDP conflicteren met de blokgestructureerde berekeningen. Daarnaast schieten huidige implementaties tekort in communicatie- en geheugenefficiëntie, wat schaalbaarheid naar tienduizenden GPU's beperkt. Wij introduceren veScale-FSDP, een herontworpen FSDP-systeem dat een flexibel fragmentatieformat, RaggedShard, combineert met een structuurbewust planningsalgoritme om zowel flexibiliteit als prestaties op schaal te leveren. veScale-FSDP ondersteunt van nature efficiënte dataplaatsing die FSDP vereist, waardoor bloksgewijze kwantisatie en niet-elementgewijze optimalisatoren mogelijk worden. Hierdoor behaalt veScale-FSDP een 5-66% hogere doorvoersnelheid en 16-30% lager geheugengebruik dan bestaande FSDP-systemen, terwijl het efficiënt schaalt naar tienduizenden GPU's.
Open-vocabulary-segmentatie (OVS) breidt de zero-shot-herkenningscapaciteiten van vision-language-modellen (VLMs) uit naar pixelvoorspelling, waardoor segmentatie van willekeurige categorieën, gespecificeerd door tekstprompts, mogelijk wordt. Ondanks recente vooruitgang blijft OVS achter bij volledig gesuperviseerde benaderingen vanwege twee uitdagingen: de grove beeldniveau-supervisie die wordt gebruikt om VLMs te trainen en de semantische ambiguïteit van natuurlijke taal. Wij pakken deze beperkingen aan door een few-shot-instelling te introduceren die tekstprompts aanvult met een ondersteuningsset van pixelgeannoteerde afbeeldingen. Hierop voortbordurend stellen we een retrieval-augmented test-time-adapter voor die een lichtgewicht, per-beeld classifier leert door tekstuele en visuele ondersteuningskenmerken te fuseren. In tegenstelling tot eerdere methoden die vertrouwen op late, handmatig gemaakte fusie, voert onze aanpak geleerde, per-query-fusie uit, waardoor een sterkere synergie tussen modaliteiten wordt bereikt. De methode ondersteunt continu uitbreidende ondersteuningssets en is van toepassing op fijnmazige taken zoals gepersonaliseerde segmentatie. Experimenten tonen aan dat we de kloof tussen zero-shot en gesuperviseerde segmentatie aanzienlijk verkleinen, terwijl de open-vocabulary-mogelijkheid behouden blijft.
Versterkend Leren met Verifieerbare Beloningen (RLVR) is het toonaangevende paradigma geworden voor het verbeteren van redeneervermogen in Grote Taalmodellen (LLM's). Standaard RLVR-algoritmen lijden echter aan een goed gedocumenteerd probleem: hoewel ze de Pass@1-nauwkeurigheid verbeteren door een scherpere steekproef, vernauwen ze tegelijkertijd de redeneergrens van het model en verminderen ze de generatiediversiteit. Wij identificeren een hoofdoorzaak die bestaande methoden over het hoofd zien: de uniforme bestraffing van fouten. Huidige benaderingen – of het nu gaat om datafilteringsmethoden die prompts op moeilijkheidsgraad selecteren, of om normalisatieschema's voor voordelen – behandelen alle incorrecte rollouts binnen een groep identiek. Wij tonen aan dat deze uniformiteit ervoor zorgt dat overmoedige fouten (incorrecte redeneerpaden die het RL-proces ten onrechte heeft versterkt) blijven bestaan en de waarschijnlijkheidsmassa monopoliseren, waardoor uiteindelijk geldige verkennende trajecten worden onderdrukt. Om dit aan te pakken, stellen we de Asymmetrische Vertrouwensbewuste Foutstraf (ACE) voor. ACE introduceert een metriek voor vertrouwensverschuiving per rollout, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), om negatieve voordelen dynamisch te moduleren. Theoretisch tonen we aan dat de gradiënt van ACE kan worden ontbonden in de gradiënt van een selectieve regularisatieterm, beperkt tot overmoedige fouten, plus een goed gekarakteriseerd residu dat de sterkte van de regularisatieterm gedeeltelijk tempert. We voeren uitgebreide experimenten uit met het fine-tunen van Qwen2.5-Math-7B, Qwen3-8B-Base en Llama-3.1-8B-Instruct op de DAPO-Math-17K-dataset met behulp van GRPO en DAPO binnen het VERL-framework. Geëvalueerd op MATH-500 en AIME 2025, integreert ACE naadloos met bestaande methoden en verbetert consequent het volledige Pass@k-spectrum voor alle drie de modelfamilies en benchmarks.
Hallucinaties bij Large Language Models (LLM's) worden doorgaans beschouwd als tekortkomingen van het model of diens decodeerstrategie. Geïnspireerd door de klassieke taalkunde, stellen wij dat ook de vorm van een vraag de reactie van een luisteraar (en model) kan beïnvloeden. We operationaliseren dit inzicht door een 22-dimensionale vector van vraagkenmerken te construeren, die clause complexity, lexical rarity, en anaphora, negation, answerability, en intention grounding omvat – allemaal bekend om hun invloed op het menselijk begrip. Met behulp van 369.837 vragen uit de praktijk onderzoeken we: Zijn er bepaalde soorten vragen die hallucinatie waarschijnlijker maken? Een grootschalige analyse onthult een consistent "risicolandschap": bepaalde kenmerken, zoals diepe zinsnesting en underspecification, gaan gepaard met een hogere neiging tot hallucinatie. Daarentegen gaan duidelijke intention grounding en answerability gepaard met lagere hallucinatiepercentages. Andere kenmerken, zoals domeinspecificiteit, vertonen gemengde, dataset- en modelafhankelijke effecten. Deze bevindingen leggen dus een empirisch observeerbare voorstelling van vraagkenmerken bloot die gecorreleerd is met hallucinatierisico, wat de weg effent voor gestuurd queryherformulering en toekomstige interventiestudies.
Wij introduceren DLT-Corpus, de grootste domeinspecifieke tekstverzameling voor onderzoek naar Distributed Ledger Technology (DLT) tot op heden: 2,98 miljard tokens uit 22,12 miljoen documenten, bestaande uit wetenschappelijke literatuur (37.440 publicaties), patenten van het United States Patent and Trademark Office (USPTO) (49.023 aanvragen) en sociale media (22 miljoen posts). Bestaande Natural Language Processing (NLP)-bronnen voor DLT richten zich nauw op prijsvoorspellingen voor cryptocurrencies en smart contracts, waardoor de domeinspecifieke taal onderbelicht blijft, ondanks de marktkapitalisatie van circa $3 biljoen en de snelle technologische evolutie van de sector. Wij demonstreren de bruikbaarheid van DLT-Corpus door patronen van technologische opkomst en correlaties tussen markt en innovatie te analyseren. De bevindingen onthullen dat technologieën hun oorsprong vinden in wetenschappelijke literatuur voordat zij patenten en sociale media bereiken, in lijn met traditionele technologieoverdrachtpatronen. Hoewel het sentiment op sociale media overweldigend positief blijft, zelfs tijdens cryptowinters, groeien wetenschappelijke en patentactiviteiten onafhankelijk van marktschommelingen en volgen zij de algemene marktexpansie in een vicieuze cirkel waarin onderzoek voorafgaat aan en economische groei mogelijk maakt, wat verdere innovatie financiert. Wij maken het volledige DLT-Corpus openbaar toegankelijk; LedgerBERT, een domeinaangepast model dat een verbetering van 23% behaalt ten opzichte van BERT-base op een DLT-specifieke Named Entity Recognition (NER)-taak; en alle bijbehorende tools en code.
De geavanceerde redeneervermogens van grote taalmmodellen (LLM's) hebben geleid tot frequentere hallucinaties; toch richt het meeste mitigatiewerk zich op open-source modellen voor post-hoc detectie en parameterbewerking. Het gebrek aan studies die zich richten op hallucinaties in closed-source modellen is bijzonder zorgwekkend, aangezien deze de overgrote meerderheid van modellen in institutionele implementaties uitmaken. Wij introduceren QueryBandits, een model-agnostisch contextueel bandit-framework dat adaptief online leert om de optimale query-herschrijfstrategie te selecteren door gebruik te maken van een empirisch gevalideerde en gekalibreerde beloningsfunctie. Over 16 vraag-antwoordscenario's behaalt onze beste QueryBandit (Thompson Sampling) een winstpercentage van 87,5% ten opzichte van een No-Rewrite-basislijn en overtreft het zero-shot statische beleid (bijvoorbeeld Parafraseren of Uitbreiden) met respectievelijk 42,6% en 60,3%. Bovendien presteren alle contextuele bandits beter dan gewone bandits over alle datasets, waarbij een hogere feature-variantie samenhangt met een grotere variantie in armselectie. Dit bevestigt onze bevinding dat er geen enkele herschrijfpolicy optimaal is voor alle queries. We ontdekken ook dat bepaalde statische policies een hogere cumulatieve spijt opleveren dan No-Rewrite, wat aangeeft dat een inflexibel query-herschrijfbeleid hallucinaties kan verergeren. Het leren van een online policy over semantische features met QueryBandits kan het modelgedrag dus puur via forward-pass mechanismen verschuiven, waardoor het gebruik met closed-source modellen mogelijk wordt en de noodzaak voor hertraining of gradient-gebaseerde aanpassing wordt omzeild.
Met de vooruitgang in imitatieleren (IL) en grootschalige rijdatasets heeft end-to-end autonoom rijden (E2E-AD) recentelijk grote vooruitgang geboekt. IL-gebaseerde methoden zijn momenteel een mainstream paradigma geworden: modellen vertrouwen op standaard rijgedrag van experts en leren om het verschil tussen hun eigen acties en expertacties te minimaliseren. Dit doel van "alleen rijden zoals de expert" lijdt echter onder beperkte generalisatie: wanneer zeldzame of ongebruikelijke long-tail scenario's buiten de distributie van expertdemonstraties worden tegengekomen, produceren modellen vaak onveilige beslissingen door gebrek aan eerdere ervaring. Dit roept een fundamentele vraag op: Kan een E2E-AD-systeem betrouwbare beslissingen nemen zonder enige supervisie van expertacties? </think>Gedreven door deze vraag stellen we een uniform raamwerk voor genaamd Risk-aware World Model Predictive Control (RaWMPC) om dit generalisatiedilemma aan te pakken via robuuste controle, zonder afhankelijkheid van expertdemonstraties. </think>In de praktijk benut RaWMPC een wereldmodel om de gevolgen van meerdere kandidaatacties te voorspellen en selecteert laag-risico acties via expliciete risicobeoordeling. Om het wereldmodel het vermogen te geven de uitkomsten van riskant rijgedrag te voorspellen, ontwerpen we een risicobewuste interactiestrategie die het wereldmodel systematisch blootstelt aan gevaarlijk gedrag, waardoor catastrofale uitkomsten voorspelbaar en dus vermijdbaar worden. Verder introduceren we een zelfevaluatiedistillatiemethode om risicomijdingscapaciteiten vanuit het getrainde wereldmodel te distilleren naar een generatief actievoorstelnetwerk, zonder enige expertdemonstratie, om tijdens tests laag-risico kandidaatacties te genereren. Uitgebreide experimenten tonen aan dat RaWMPC superieure prestaties levert vergeleken met state-of-the-art methoden in zowel in-distributie als out-of-distributie scenario's, terwijl het superieure beslissingsinterpreteerbaarheid biedt.
Medische beeldsegmentatie blijft een uitdaging vanwege beperkte annotaties voor training, ambiguïteit van anatomische kenmerken en domeinverschuivingen. Hoewel vision-language modellen zoals CLIP sterke cross-modale representaties bieden, blijft hun potentieel voor dichte, tekstgestuurde medische beeldsegmentatie onderbelicht. Wij presenteren MedCLIPSeg, een nieuw framework dat CLIP aanpast voor robuuste, data-efficiënte en onzekerheidsbewuste medische beeldsegmentatie. Onze aanpak benut patch-level CLIP-embeddingen via probabilistische cross-modale aandacht, wat bidirectionele interactie tussen beeld- en teksttokens en expliciete modellering van voorspellende onzekerheid mogelijk maakt. In combinatie met een zachte patch-level contrastieve loss die genuanceerd semantisch leren over diverse tekstuele prompts bevordert, verbetert MedCLIPSeg effectief data-efficiëntie en domeingeneraliseerbaarheid. Uitgebreide experimenten over 16 datasets van vijf beeldvormingstechnieken en zes organen tonen aan dat MedCLIPSeg eerdere methoden overtreft in nauwkeurigheid, efficiëntie en robuustheid, terwijl het interpreteerbare onzekerheidskaarten biedt die de lokale betrouwbaarheid van segmentatieresultaten benadrukken. Dit werk toont het potentieel van probabilistische vision-language modellering voor tekstgestuurde medische beeldsegmentatie.
Het genereren van realistische conversatiegebaren is essentieel voor het bereiken van natuurlijke, sociaal boeiende interacties met digitale mensen. Bestaande methoden brengen echter doorgaans een enkele audiostroom naar de beweging van één spreker, zonder rekening te houden met de sociale context of de wederzijdse dynamiek tussen twee personen in een gesprek te modelleren. Wij presenteren DyaDiT, een multi-modale diffusie-transformer die contextueel passende menselijke beweging genereert uit dyadische audiosignalen. Getraind op de Seamless Interaction Dataset, gebruikt DyaDiT dyadische audio met optionele sociale-context tokens om contextueel geschikte beweging te produceren. Het fuseert informatie van beide sprekers om interactiedynamiek vast te leggen, gebruikt een bewegingenwoordenboek om beweging-priors te coderen, en kan optioneel de gebaren van de gesprekspartner benutten om responsievere beweging te genereren. Wij evalueren DyaDiT op standaard metrieken voor beweginggeneratie en voeren kwantitatieve gebruikersstudies uit, waaruit blijkt dat het niet alleen bestaande methoden op objectieve metrieken overtreft, maar ook sterk de voorkeur geniet van gebruikers. Dit onderstreept de robuustheid en sociaal wenselijke beweginggeneratie van onze methode. Code en modellen worden vrijgegeven na acceptatie.
Het schalen van multimodale afstemming tussen video en audio is een uitdaging, vooral door beperkte data en de discrepantie tussen tekstbeschrijvingen en frameniveau video-informatie. In dit werk pakken we de schaaluitdaging aan bij multimodale-naar-audiogeneratie, waarbij we onderzoeken of modellen getraind op korte fragmenten kunnen generaliseren naar langere fragmenten tijdens tests. Om deze uitdaging aan te gaan, presenteren we multimodale hiërarchische netwerken, genaamd MMHNet, een verbeterde extensie van state-of-the-art video-naar-audiomodellen. Onze aanpak integreert een hiërarchische methode en niet-causale Mamba om langere audiogeneratie te ondersteunen. Onze voorgestelde methode verbetert de generatie van lange audio aanzienlijk tot meer dan 5 minuten. We bewijzen ook dat trainen op korte fragmenten en testen op lange fragmenten mogelijk is in video-naar-audiogeneratietaken zonder training op langere duur. Onze experimenten tonen aan dat onze voorgestelde methode opmerkelijke resultaten behaalt op long-video-naar-audiobenchmarks, waarbij eerdere werken in video-naar-audiotaken worden overtroffen. Bovendien demonstreren we de capaciteit van ons model om meer dan 5 minuten te genereren, terwijl eerdere video-naar-audiomethoden tekortschieten in het genereren van lange duur.
Data-efficiënte neurale decodering vormt een centrale uitdaging voor spraak-hersen-computerinterfaces. Wij presenteren de eerste demonstratie van transfer learning en kruistaak-decodering voor MEG-gebaseerde spraakmodellen die perceptie en productie omspannen. We pre-trainen een Conformer-gebaseerd model op 50 uur aan luisterdata van een enkele proefpersoon en fine-tunen het met slechts 5 minuten data per proefpersoon over 18 deelnemers. Transfer learning levert consistente verbeteringen op, met nauwkeurigheidswinst binnen dezelfde taak van 1-4% en grotere kruistaakwinsten tot 5-6%. Pre-training verbetert niet alleen de prestaties binnen elke taak, maar maakt ook betrouwbare kruistaak-decodering mogelijk tussen perceptie en productie. Cruciaal is dat modellen getraind op spraakproductie, passief luisteren boven kansniveau kunnen decoderen, wat bevestigt dat de geleerde representaties gedeelde neurale processen weerspiegelen in plaats van taakspecifieke motorische activiteit.
Continueel leren is een kernvereiste voor geïmplementeerde taalmodel(len), maar standaard trainings- en fine-tuningpijplijnen blijven broos onder niet-stationaire gegevens. Online updates veroorzaken vaak catastrofaal vergeten, terwijl methoden die stabiliteit verbeteren vaak de latentie, het geheugengebruik of de rekenintensiteit vergroten op manieren die niet goed schalen naar lange contexten. Wij introduceren TRC² (Thalamically Routed Cortical Columns), een decoder-only backbone die continueel leren op architectuurniveau aanpakt. TRC² combineert sparse thalamische routering over corticale kolommen met mechanismen voor modulatie, voorspelling, geheugen en feedback, samen met een snelle correctieve route die snelle aanpassing ondersteunt zonder tragere parameters te destabiliseren. Het resulterende blok is sparse en chunk-parallel, wat efficiënte training en inferentie mogelijk maakt terwijl zuivere ablatiestudies van elk subsysteem behouden blijven. Wij concretiseren een reproduceerbare trainings- en evaluatiestack en een continueel-leer-harnas dat proxy-vergeten meet onder stromende domeinverschuivingen. Over benchmarks voor taalmodellering en continueel leren heen verbetert TRC² de stabiliteit-plasticiteit trade-off bij vergelijkbare rekenkosten, waardoor snelle aanpassing tijdens de stroom mogelijk is terwijl eerder verworven gedrag behouden blijft.