Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente vooruitgang in redeneringsmodellen heeft het oplossen van wiskundige en wetenschappelijke problemen op lange termijn aanzienlijk verbeterd, waarbij verschillende systemen nu prestaties op goudmedaille-niveau behalen bij problemen van de Internationale Wiskunde Olympiade (IMO) en de Internationale Natuurkunde Olympiade (IPhO). In dit artikel introduceren we een eenvoudig en uniform recept om een post-getrainde redeneringsbackbone om te zetten in een rigoureuze olympiade-oplosser. Het recept gebruikt eerst een curriculum met omgekeerde perplexiteit voor SFT om rigoureus bewijszoek- en zelfcontrole-gedrag te installeren, schaalt deze gedragingen vervolgens op via een tweetraps RL-pijplijn die overgaat van RL met verifieerbare beloningen naar een fijnmaziger bewijsniveau-RL, en verhoogt ten slotte de oplossingsprestaties met testtijd-schaalvergroting. Door dit recept toe te passen trainen we een 30B-A3B backbone met SFT op ongeveer 340K trajecten van minder dan 8K tokens, gevolgd door 200 RL-stappen. Het resulterende model, SU-01, ondersteunt stabiel redeneren bij moeilijke problemen met trajecten van meer dan 100K tokens, terwijl het prestaties op goudmedaille-niveau behaalt in wiskundige en natuurkundige olympiadecompetities, waaronder IMO 2025/USAMO 2026 en IPhO 2024/2025. Het vertoont ook sterke generalisatie van wetenschappelijk redeneren naar domeinen buiten wiskunde en natuurkunde.
Real-time interactieve videogeneratie vereist lage latentie, streaming en beheersbare uitrol. Bestaande autoregressieve (AR) diffusiedistillatiemethoden hebben sterke resultaten behaald in het chunkgewijze 4-stappenregime door bidirectionele basismodellen te distilleren naar meerstaps AR-studenten, maar ze blijven beperkt door grove responsgranulariteit en niet-verwaarloosbare samplinglatentie. In dit artikel bestuderen we een agressievere setting: framewijze autoregressie met slechts 1–2 samplingstappen. In dit regime identificeren we de initialisatie van een meerstaps AR-student als de belangrijkste bottleneck: bestaande strategieën zijn ofwel doel-misaligned, niet in staat tot generatie in weinig stappen, of te duur om op te schalen. We stellen Causal Forcing++ voor, een principiële en schaalbare pijplijn die causale consistentiedistillatie (causale CD) gebruikt voor initialisatie van AR in weinig stappen. Het kernidee is dat causale CD dezelfde AR-voorwaardelijke stroomkaart leert als causale ODE-distillatie, maar supervisie verkrijgt van een enkele online teacher ODE-stap tussen aangrenzende tijdstappen, waardoor de noodzaak om volledige PF-ODE-trajecten voor te berekenen en op te slaan wordt vermeden. Dit maakt de initialisatie zowel efficiënter als gemakkelijker te optimaliseren. De resulterende pijplijn, \ours, overtreft de SOTA 4-staps chunkgewijze Causal Forcing onder de \textbf{framewijze 2-staps setting} met 0,1 in VBench Total, 0,3 in VBench Quality en 0,335 in VisionReward, terwijl de latentie van het eerste frame met 50\% wordt verminderd en de trainingskosten van Stage 2 met ongeveer 4 keer worden verlaagd. We breiden de pijplijn verder uit naar actie-geconditioneerde wereldmodelgeneratie in de geest van Genie3. Projectpagina: https://github.com/thu-ml/Causal-Forcing en https://github.com/shengshu-ai/minWM.
Reinforcement learning (RL) is uitgegroeid tot een centraal paradigma voor de natraining van LLM-agenten, maar het beloningssignaal op trajectniveau biedt slechts grove supervisie voor interactie over lange horizon. On-Policy Self-Distillation (OPSD) vult RL aan door dichte begeleiding op tokenniveau te introduceren vanuit een teacher-tak die is voorzien van bevoorrechte context. Het overbrengen van OPSD naar multi-turn-agenten blijkt echter problematisch: cumulatieve multi-turn-instabiliteit verstoort de supervisie, terwijl vaardigheidsafhankelijke bevoorrechte begeleiding een asymmetrische behandeling vereist van negatieve teacher-afwijzingen die kunnen voortkomen uit imperfecte vaardigheden ophalen of gebruiken. Wij introduceren SDAR (Self-Distilled Agentic Reinforcement Learning), dat OPSD behandelt als een gated hulpdoelstelling, terwijl RL de primaire optimalisatieruggengraat blijft. SDAR koppelt losgekoppelde signalen op tokenniveau aan een sigmoid-poort, waardoor distillatie wordt versterkt voor door de teacher onderschreven tokens met een positieve kloof en negatieve teacher-afwijzingen zachtjes worden verzwakt. Binnen de Qwen2.5- en Qwen3-families op ALFWorld, WebShop en Search-QA levert SDAR aanzienlijke verbeteringen op ten opzichte van GRPO (+9,4% op ALFWorld, +7,0% op Search-QA, +10,2% op WebShop-Acc), voorkomt het de instabiliteit van naïeve GRPO+OPSD en presteert het consistent beter dan hybride RL-OPSD-baselines over verschillende modelschalen.
Geheugen is essentieel voor grote visie-taalmodellen (LVLMs) om lange, multimodale interacties te verwerken, waarbij twee methoderichtingen deze capaciteit bieden: lang-context LVLMs en geheugen-versterkte agents. Geen enkele bestaande benchmark voert echter een systematische vergelijking van de twee uit op vragen die daadwerkelijk multimodaal bewijs vereisen. Om deze lacune te vullen, introduceren we MEMLENS, een uitgebreide benchmark voor geheugen in multimodale multi-sessiegesprekken, bestaande uit 789 vragen over vijf geheugenvaardigheden (informatie-extractie, multi-sessie redeneren, temporeel redeneren, kennisupdate en antwoordweigering) op vier standaard contextlengtes (32K-256K tokens) onder een cross-modale token-telschema. Een beeldablatiesstudie bevestigt dat het oplossen van MEMLENS visueel bewijs vereist: het verwijderen van bewijsafbeeldingen laat twee grensverleggende LVLMs onder 2% nauwkeurigheid vallen op de 80,4% van de vragen waarvan het bewijs afbeeldingen omvat. Bij het evalueren van 27 LVLMs en 7 geheugen-versterkte agents vinden we dat lang-context LVLMs hoge korte-context nauwkeurigheid bereiken door directe visuele verankering, maar afnemen naarmate gesprekken langer worden, terwijl geheugenagents lengte-stabiel zijn maar visuele getrouwheid verliezen onder opslagtijdcompressie. Multi-sessie redeneren beperkt de meeste systemen tot onder 30%, en geen van beide benaderingen lost de taak alleen op. Deze resultaten motiveren hybride architecturen die lang-context aandacht combineren met gestructureerde multimodale terugwinning. Onze code is beschikbaar op https://github.com/xrenaf/MEMLENS.
We introduceren SANA-WM, een efficiënt opensource wereldmodel met 2,6 miljard parameters dat oorspronkelijk is getraind voor generatie van één minuut, en hifi-, 720p-, minuutlange video's synthetiseert met nauwkeurige camerabesturing. SANA-WM behaalt visuele kwaliteit vergelijkbaar met grootschalige industriële basislijnen zoals LingBot-World en HY-WorldPlay, terwijl de efficiëntie aanzienlijk wordt verbeterd. Vier kerntoepassingen drijven onze architectuur: (1) Hybride lineaire aandacht combineert framewijze Gated DeltaNet (GDN) met softmax-aandacht voor geheugenefficiënte modellering van lange contexten. (2) Tweevoudige camerabesturing zorgt voor nauwkeurige naleving van het 6-vrijheidsgradentraject. (3) Tweefasegeneratiepijplijn past een langevideo-verfijner toe op de uitvoer van fase 1, waardoor de kwaliteit en consistentie over sequenties worden verbeterd. (4) Robuuste annotatiepijplijn extraheert nauwkeurige metrische 6-vrijheidsgraden cameraposes uit openbare video's om hoogwaardige, spatiotemporeel consistente actielabels te verkrijgen. Gedreven door deze ontwerpen toont SANA-WM opmerkelijke efficiëntie in data, training en inferentiehardware: het gebruikt slechts 213.000 openbare videoclips met metrische pose-supervisie, voltooit training in 15 dagen op 64 H100's en genereert elke clip van 60 seconden op een enkele GPU; de gedistilleerde variant kan worden ingezet op een enkele RTX 5090 met NVFP4-kwantificatie om in 34 seconden ruis te verwijderen uit een 720p-clip van 60 seconden. Op onze benchmark voor minuutlange wereldmodellen toont SANA-WM een sterkere actievolgnauwkeurigheid dan eerdere opensource basislijnen en behaalt vergelijkbare visuele kwaliteit bij een 36× hogere doorvoersnelheid voor schaalbaar wereldmodelleren.
Langetermijnagentgeheugen wordt steeds multimodaler, maar bestaande evaluaties testen zelden of agenten het visuele bewijs behouden dat nodig is voor latere redeneringen. In eerder werk konden veel visueel gefundeerde vragen worden beantwoord met alleen bijschriften of tekstuele sporen, waardoor antwoorden konden worden afgeleid zonder het gedetailleerde visuele bewijs te bewaren. Tegelijkertijd ontbreken grotendeels moeilijkere gevallen die redeneringen over veranderende visuele toestanden vereisen. Daarom introduceren we MemEye, een raamwerk dat geheugencapaciteiten evalueert vanuit twee dimensies: de ene meet de granulariteit van doorslaggevend visueel bewijs (van sceneniveau tot pixelniveau), en de andere meet hoe opgehaald bewijs moet worden gebruikt (van enkelvoudig bewijs tot evolutionaire synthese). Binnen dit raamwerk construeren we een nieuwe benchmark voor 8 levensscenario-taken, met ablatie-gedreven validatiepoorten voor het beoordelen van beantwoordbaarheid, shortcutresistentie, visuele noodzaak en redeneerstructuur. Door 13 geheugenmethoden te evalueren over 4 VLM-basismodellen heen, tonen we aan dat huidige architecturen nog steeds moeite hebben met het bewaren van fijnmazige visuele details en het redeneren over toestandsveranderingen in de tijd. Onze bevindingen laten zien dat multimodal langetermijngeheugen afhankelijk is van bewijskanaalkeuze, temporele tracking en details extractie.
Wij presenteren Darwin Family, een raamwerk voor trainingsvrije evolutionaire fusie van grote taalmodellen via gradiëntvrije hercombinatie in gewichtsruimte. Wij onderzoeken of redeneerprestaties op frontniveau kunnen worden verbeterd zonder extra training, door latente capaciteiten die reeds in bestaande checkpoints zijn gecodeerd, te reorganiseren. Darwin introduceert drie kernideeën: (i) een 14-dimensionaal adaptief fusiegenoom dat fijnmazige hercombinatie op component- en blokniveau mogelijk maakt; (ii) MRI-Trust Fusion, dat adaptief diagnostische laagbelangsignalen balanceert met evolutionair zoeken via een leerbare vertrouwensparameter; en (iii) een Architecture Mapper die kruisarchitectuur-kruising tussen heterogene modelfamilies mogelijk maakt. Empirisch gezien behaalt het vlaggenschip Darwin-27B-Opus 86,9% op GPQA Diamond, waarmee het op de 6e plaats staat van 1.252 geëvalueerde modellen, en presteert het beter dan zijn volledig getrainde basismodel zonder enige gradiëntgebaseerde training. Over schalen van 4B tot 35B parameters verbeteren Darwin-modellen consequent ten opzichte van hun ouders, ondersteunen ze recursieve multi-generatie-evolutie, en maken ze een trainingsvrije evolutionaire fusie mogelijk die Transformer- en Mamba-gebaseerde componenten combineert. Samen toont de Darwin Family aan dat diagnosesturing evolutionaire fusie een praktisch en reproduceerbaar alternatief is voor dure post-training-pipelines voor redeneergerichte taalmodellen.
Op LLM gebaseerde autonome agenten hebben sterke capaciteiten getoond in redeneren, plannen en het gebruik van hulpmiddelen, maar blijven beperkt wanneer taken aanhoudende coördinatie over rollen, hulpmiddelen en omgevingen vereisen. Multi-agentsystemen pakken dit aan door gestructureerde samenwerking tussen gespecialiseerde agenten, maar strakkere coördinatie versterkt ook een minder onderzocht risico: fouten kunnen zich verspreiden over agenten en interactierondes, wat leidt tot storingen die moeilijk te diagnosticeren zijn en zelden leiden tot structurele zelfverbetering. Bestaande overzichten behandelen individuele agentcapaciteiten, multi-agentsamenwerking of agentzelfevolutie afzonderlijk, waardoor de causale afhankelijkheden daartussen onbestudeerd blijven. Dit overzicht biedt een uniforme review, georganiseerd rond vier causaal verbonden fasen, die we de LIFE-progressie noemen: Leg de capaciteitsbasis, Integreer agenten door samenwerking, Vind fouten door attributie, en Evolueer door autonome zelfverbetering. Voor elke fase bieden we systematische taxonomieën en karakteriseren we formeel de afhankelijkheden tussen aangrenzende fasen, waarmee we onthullen hoe elke fase zowel afhankelijk is van als beperkingen oplegt aan de volgende. Naast het synthetiseren van bestaand werk, identificeren we open uitdagingen op fasegrenzen en stellen we een cross-fase onderzoeksagenda voor voor closed-loop multi-agentsystemen die in staat zijn om continu storingen te diagnosticeren, structuren te reorganiseren en agentgedrag te verfijnen, waarmee huidige coördinatiekaders worden uitgebreid naar meer zelforganiserende vormen van collectieve intelligentie. Door deze voorheen gefragmenteerde onderzoekslijnen te overbruggen, beoogt dit overzicht zowel een systematische referentie als een conceptuele routekaart te bieden richting autonome, zelfverbeterende multi-agent intelligentie.
Van agenten op basis van grote taalmodellen (LLM's) wordt steeds vaker verwacht dat ze coherente, langetermijn gepersonaliseerde herinneringen onderhouden, maar huidige benchmarks meten voornamelijk statische feitenretrieval en negeren het vermogen om opgeslagen overtuigingen te herzien wanneer nieuw bewijs opduikt. We identificeren een kritieke en onderbelichte faalmodus, Impliciet Conflict: een latere observatie maakt een eerdere herinnering ongeldig zonder expliciete ontkenning, wat contextuele inferentie en gezond verstand vereist om te detecteren. Om deze capaciteit rigoureus te evalueren, introduceren we STALE, een benchmark van 400 door experts gevalideerde conflictscenario's (1.200 evaluatievragen over drie onderzoeksdimensies) die meer dan 100 alledaagse onderwerpen bestrijken met contexten tot 150K tokens. We stellen een driedimensionaal onderzoekskader voor dat test op State Resolution (detecteren dat een eerdere overtuiging verouderd is), Premise Resistance (verwerpen van queries die ten onrechte een verouderde toestand veronderstellen) en Implicit Policy Adaptation (proactief toepassen van bijgewerkte toestanden in stroomafwaarts gedrag). Een systematische evaluatie van geavanceerde LLM's en gespecialiseerde geheugenkaders onthult een wijdverbreide kloof tussen het ophalen van bijgewerkt bewijs en het ernaar handelen, waarbij zelfs het best beoordeelde model slechts 55,2% algemene nauwkeurigheid behaalt. Modellen accepteren vaak verouderde aannames die in de query van een gebruiker zijn ingebed, en ze hebben moeite om te herkennen wanneer een verandering in een aspect van de toestand van de gebruiker gerelateerde herinneringen ongeldig moet maken. Om een initiële basislijn vast te stellen voor toestandsbewust geheugen, presenteren we verder CUPMem, een prototype dat de revisie bij schrijven versterkt door gestructureerde toestandsconsolidatie en propagatiebewust zoeken, wat suggereert dat expliciete toestandsadjudicatie een veelbelovende richting is voor robuust agentisch geheugen.
Grote taal- en visie-taalmodelen drijven steeds vaker agents aan die namens een gebruiker handelen via commandoregelinterface (CLI)-harnassen. De meeste agent-benchmarks vertrouwen echter nog steeds op synthetische sandboxen, taken met een korte horizon, mock-service-API's en controles op het uiteindelijke antwoord, waardoor de vraag open blijft of agents realistisch langdurig werk kunnen voltooien in de runtime-omgevingen waarin ze worden ingezet. Dit werk presenteert WildClawBench, een native-runtime benchmark van 60 door mensen geschreven, tweetalige, multimodale taken die zes thematische categorieën bestrijken. Elke taak duurt gemiddeld ongeveer 8 minuten werkelijke tijd en meer dan 20 toolaanroepen, en wordt uitgevoerd in een reproduceerbare Docker-container die een echt CLI-agentharnas (OpenClaw, Claude Code, Codex of Hermes Agent) herbergt, met toegang tot echte tools in plaats van mock-diensten. De beoordeling is hybride en combineert deterministische regelgebaseerde controles, audits van de omgevingstoestand voor neveneffecten, en een LLM/VLM-beoordelaar voor semantische verificatie. Over 19 grensverleggende modellen bereikt het beste, Claude Opus 4.7, slechts 62,2% totaal onder OpenClaw, terwijl elk ander model onder de 60% blijft, en alleen al het wisselen van harnas verschuift een enkel model met maximaal 18 punten. Deze resultaten tonen aan dat evaluatie van agents met een lange horizon in native runtime nog steeds een verre van opgeloste taak is voor de huidige grensverleggende modellen. We geven de taken, code en gecontaineriseerde tooling vrij ter ondersteuning van reproduceerbare evaluatie.
Camera-gestuurde videogeneratie heeft aanzienlijke vooruitgang geboekt en maakt het mogelijk gegenereerde video's voorgeschreven camerapaden te laten volgen. Bestaande methoden leren echter meestal cameraspecifieke conditionering via camera-encoders, besturingstakken of aanpassingen in aandacht- en positiecodering, waarvoor vaak nabewerking op grootschalige, van camera-aantekeningen voorziene video's nodig is. Trainingsvrije alternatieven vermijden dergelijke nabewerking, maar verleggen de kosten vaak naar optimalisatie tijdens het testen of extra begeleiding tijdens het denoisingproces. Wij stellen Warp-as-History voor, een eenvoudige interface die door camera geïnduceerde warp-operaties omzet in camera-vervormde pseudo-geschiedenis met positionele uitlijning van het doelbeeld en selectie van zichtbare tokens. Gegeven een gewenst cameratraject construeer ik een camera-vervormde pseudo-geschiedenis op basis van eerdere waarnemingen en voed ik deze via het visuele-geschiedenispad van het model. Cruciaal is dat we de positiecodering ervan uitlijnen met de doelbeelden die worden gedenoised en tokens uit de vervormde geschiedenis verwijderen zonder geldige bronwaarnemingen. Zonder enige training, architectuurwijziging of optimalisatie tijdens het testen onthult deze interface een niet-triviale zero-shot-capaciteit van een bevroren videogeneratiemodel om camerapaden te volgen. Bovendien verbetert lichte offline LoRA-fijnafstemming op slechts één video met camera-aantekeningen deze capaciteit verder en generaliseert het naar niet-geziene video's, wat de camera-adherentie, visuele kwaliteit en bewegingsdynamiek verbetert zonder optimalisatie tijdens het testen of aanpassing aan de doelvideo. Uitgebreide experimenten op diverse datasets bevestigen de effectiviteit van onze methode.
Naarmate het ecosysteem van grote taalmodellen (LLM's) zich uitbreidt, vertonen individuele modellen uiteenlopende capaciteiten wat betreft queries, benchmarks en domeinen, wat de ontwikkeling van LLM-routering motiveert. Hoewel eerder onderzoek zich grotendeels heeft gericht op het ontwerp van routermechanismen, blijven LLM-profielen, die modelcapaciteiten vastleggen, onderbelicht. In dit werk vragen we: Hoe beïnvloedt het ontwerp van LLM-profielen de routeringsprestaties bij verschillende routers? Het beantwoorden van deze vraag helpt om de rol van profielen in routering te verduidelijken, het profielontwerp te ontwarren van het routerontwerp, en een eerlijkere vergelijking en meer principiële ontwikkeling van routersystemen mogelijk te maken. Hiertoe beschouwen we LLM-profilering als een gestructureerd informatie-integratieprobleem over heterogene interactiegeschiedenissen. We ontwikkelen een algemene ontwerpruimte voor LLM-profielen, genaamd RouteProfile, langs vier belangrijke dimensies: organisatievorm, representatietype, aggregatiediepte en leerconfiguratie. Door middel van systematische evaluatie over drie representatieve routers onder zowel standaard- als nieuwe-LLM-generalisatie-instellingen, tonen we aan dat: (1) gestructureerde profielen consistent beter presteren dan platte; (2) signaal op query-niveau betrouwbaarder is dan grof signaal op domeinniveau; en (3) generalisatie naar nieuw geïntroduceerde modellen het meeste baat heeft bij gestructureerde profielen onder trainbare configuraties. Over het geheel genomen benadrukt ons werk het ontwerp van LLM-profielen als een belangrijke richting voor toekomstig routeringsonderzoek.
Agentgeheugen wordt doorgaans ofwel offline opgebouwd uit geselecteerde demonstraties, ofwel online uit interacties na implementatie. Ongeacht hoe het wordt opgebouwd, wordt een agent echter geconfronteerd met een koude-startkloof wanneer hij voor het eerst wordt geïntroduceerd in een nieuwe omgeving zonder taakspecifieke ervaring. In dit artikel bestuderen we de constructie van geheugen vóór de uitvoering van taken: of een agent procedureel geheugen kan opbouwen voordat hij taken in de doelomgeving waarneemt, door alleen zelf gegenereerde synthetische oefening te gebruiken. Toch is synthetische interactie op zichzelf onvoldoende, want zonder controle over wat er geoefend en opgeslagen wordt, worden synthetische taken redundant, onuitvoerbaar en uiteindelijk niet informatief, en bovendien verslechtert het geheugen snel door ongefilterde trajecten. Om dit te overwinnen presenteren we Preping, een raamwerk voor geheugenconstructie onder leiding van een voorsteller. De kern ervan is het voorstellergeheugen, een gestructureerde controlettoestand die toekomstige oefening vormgeeft. Een Voorsteller genereert synthetische taken die afhankelijk zijn van deze toestand, een Oplosser voert ze uit, en een Validator bepaalt welke trajecten in aanmerking komen voor invoeging in het geheugen, terwijl hij ook feedback geeft om toekomstige voorstellen te sturen. Experimenten op AppWorld, BFCL v3 en MCP-Universe tonen aan dat Preping aanzienlijk verbetert ten opzichte van een basislijn zonder geheugen en prestaties behaalt die concurrerend zijn met sterke, op draaiboeken gebaseerde methoden die zijn opgebouwd uit offline of online ervaring, met implementatiekosten die 2,99 keer lager liggen op AppWorld en 2,23 keer lager op BFCL v3 dan bij online geheugenconstructie. Verdere analyses laten zien dat het belangrijkste voordeel niet alleen voortkomt uit synthetische hoeveelheid, maar uit de controle van de voorstellerkant over uitvoerbaarheid, redundantie en dekking, gecombineerd met selectieve geheugenupdates.
Langetermijngeheugen is essentieel voor LLM-agenten die over meerdere sessies opereren, maar bestaande geheugensystemen behandelen de retrievalinfrastructuur als vast: opgeslagen inhoud evolueert, terwijl scoreringsfuncties, fusiestrategieën en antwoordgeneratiebeleid bevroren blijven bij implementatie. Wij stellen dat een werkelijk adaptief geheugen co-evolutie op twee niveaus vereist: de opgeslagen kennis en het retrievalmechanisme dat deze bevraagt. We presenteren EvolveMem, een zelf-evoluerende geheugenarchitectuur die de volledige retrievalconfiguratie blootlegt als een gestructureerde actieruimte, geoptimaliseerd door een door een LLM aangedreven diagnosemodule. In elke evolutieronde leest de module per-vraag faallogboeken, identificeert grondoorzaken en stelt gerichte configuratieaanpassingen voor; een bewaakte meta-analyzer past deze toe met automatische terugdraaiing bij regressie en exploratie bij stagnatie als waarborgen. Deze gesloten-lus zelf-evolutie realiseert een AutoResearch-proces: het systeem voert autonoom iteratieve onderzoekscycli uit op zijn eigen architectuur, ter vervanging van handmatige configuratietuning. Vanaf een minimale baseline convergeert het proces autonoom en ontdekt effectieve retrievalstrategieën, inclusief volledig nieuwe configuratiedimensies die niet aanwezig waren in de oorspronkelijke actieruimte. Op LoCoMo overtreft EvolveMem de sterkste baseline met 25,7% relatief en behaalt een relatieve verbetering van 78,0% ten opzichte van de minimale baseline. Op MemBench overtreft EvolveMem de sterkste baseline met 18,9% relatief. Geëvolueerde configuraties worden positief overgedragen tussen benchmarks, zonder catastrofale overdracht, wat aangeeft dat het zelf-evolutieproces universele retrievalprincipes vastlegt in plaats van benchmarkspecifieke heuristieken. Code is beschikbaar op https://github.com/aiming-lab/SimpleMem.
We streven er vaak naar om afbeeldingen te genereren die zowel fotorealistisch als 3D-consistent zijn, met nauwkeurige controle over geometrie, materiaal en camerastandpunten. Dit wordt doorgaans bereikt door een beeldgenerator, die voorgetraind is op miljarden echte afbeeldingen, fijn af te stemmen met behulp van renders van synthetische 3D-assets, waarbij annotaties voor controlesignalen beschikbaar zijn. Hoewel deze aanpak de gewenste controles kan leren, gaat dit vaak ten koste van het realisme van de afbeeldingen vanwege de domeinkloof tussen foto's en renders. Wij observeren dat dit probleem grotendeels voortkomt uit het feit dat het model een onbedoelde associatie leert tussen de aanwezigheid van controlesignalen en het synthetische uiterlijk van de afbeeldingen. Om dit aan te pakken introduceren we Realiz3D, een lichtgewicht raamwerk voor het trainen van diffusiemodellen, dat controles en visueel domein ontkoppelt. Het belangrijkste idee is om het visuele domein, echt of synthetisch, expliciet apart van andere controlesignalen te leren door een covariaat te introduceren dat, gevoed in kleine residuele adapters, het domein verschuift. Vervolgens kan de generator worden getraind om controleerbaarheid te verkrijgen, zonder zich aan te passen aan een specifiek visueel domein. Op deze manier kan het model worden gestuurd om realistische afbeeldingen te produceren, zelfs wanneer controles worden toegepast. We verbeteren de overdraagbaarheid van controles naar het echte domein door gebruik te maken van inzichten over de rollen van verschillende lagen en ontruisstappen in diffusie-gebaseerde generatoren, wat leidt tot nieuwe trainings- en inferentiestrategieën die de kloof verder verkleinen. We demonstreren de voordelen van Realiz3D in taken zoals tekst-naar-multiview-generatie en textureren op basis van 3D-invoer, waarbij resultaten worden geproduceerd die 3D-consistent en fotorealistisch zijn.
Visueel redeneren, vaak afgewisseld met tussenliggende visuele toestanden, is naar voren gekomen als een veelbelovende richting in het vakgebied. Een eenvoudige benadering is om tijdens het redeneren direct afbeeldingen te genereren via uniforme modellen, maar dit is rekenintensief en architectonisch niet triviaal. Recente alternatieven omvatten agentisch redeneren via code- of toolaanroepen, en latent redeneren met leerbare verborgen embeddings. Echter, agentische methoden hebben last van contextwisselingslatentie door externe uitvoering, terwijl latente methoden taakgeneralisatie missen en moeilijk te trainen zijn met autoregessieve parallellisatie. Om hun sterke punten te combineren en tegelijkertijd hun beperkingen te verminderen, stellen we ATLAS voor, een raamwerk waarin een enkel discreet 'woord', aangeduid als een functioneel token, dient als zowel een agentische bewerking als een latente visuele redeneereenheid. Elk functioneel token is geassocieerd met een geïnternaliseerde visuele bewerking, maar vereist geen visueel toezicht en blijft een standaardtoken in de vocabulaire van de tokenizer, dat kan worden gegenereerd via volgende-token voorspelling. Dit ontwerp vermijdt langdradige generatie van tussenliggende visuele inhoud, terwijl de compatibiliteit met de standaard schaalbare SFT- en RL-training behouden blijft, zonder architectonische of methodologische wijzigingen. Om de schaarste van functionele tokens tijdens RL verder aan te pakken, introduceren we Latent-Anchored GRPO (LA-GRPO), dat de training stabiliseert door functionele tokens te verankeren met een statisch gewogen hulpdoelstelling, wat sterkere gradientupdates oplevert. Uitgebreide experimenten en analyses tonen aan dat ATLAS superieure prestaties levert op uitdagende benchmarks, terwijl het een duidelijke interpreteerbaarheid behoudt. We hopen dat ATLAS een nieuw paradigma biedt dat toekomstig onderzoek naar visueel redeneren inspireert.
Multi-agent padzoeken (MAPF) is een breed gebruikte abstractie voor multi-robot trajectplanningsproblemen, waarbij meerdere homogene agenten gelijktijdig bewegen in een gedeelde omgeving. Hoewel het optimaal oplossen van MAPF NP-moeilijk is, zijn schaalbare en efficiënte oplossers cruciaal voor praktische toepassingen zoals logistiek en zoek- en reddingsoperaties. Daartoe heeft de onderzoeksgemeenschap diverse gedecentraliseerde suboptimale MAPF-oplossers voorgesteld die gebruikmaken van machinaal leren. Dergelijke methoden framen MAPF (vanuit het perspectief van een enkele agent) als een Dec-POMDP waarbij een agent op elke tijdstap een actie moet kiezen op basis van de lokale observatie en het probleem doorgaans oplossen via bekrachtigingsleren of imitatieleren. Wij volgen dezelfde aanpak maar introduceren daarnaast een leerbare communicatiemodule die specifiek is ontworpen om samenwerking tussen agenten te verbeteren via efficiënte kenmerkuitwisseling. We presenteren Local Communication for Multi-agent Pathfinding (LC-MAPF), een generaliseerbaar voorgetraind model dat communicatie in meerdere rondes tussen naburige agenten toepast om informatie uit te wisselen en hun coördinatie te verbeteren. Onze experimenten tonen aan dat de geïntroduceerde methode de bestaande op leren gebaseerde MAPF-oplossers, waaronder IL- en RL-gebaseerde benaderingen, overtreft in diverse metrieken in een breed scala aan (ongeziene) testscenario's. Opmerkelijk is dat het geïntroduceerde communicatiemechanisme de schaalbaarheid van LC-MAPF niet in gevaar brengt, een veelvoorkomend knelpunt voor op communicatie gebaseerde MAPF-oplossers.
Veel praktische codeeruitdagingen in de echte wereld zijn open-eindig en kennen geen bekende optimale oplossing. Toch heeft de recente vooruitgang in LLM-codering zich gericht op duidelijk omschreven taken, zoals het implementeren van functies, het oplossen van bugs en competitief programmeren. Open-eindige codering blijft een zwak punt voor LLM's, grotendeels omdat open-eindige trainingsproblemen schaars en duur zijn om te construeren. Ons doel is om open-eindige codeerproblemen op schaal te synthetiseren om sterkere LLM-codeerders te trainen. We introduceren FrontierSmith, een geautomatiseerd systeem voor het iteratief evolueren van open-eindige problemen uit bestaande gesloten-eindige codeertaken. Beginnend met competitieve programmeerproblemen genereert FrontierSmith kandidaat open-eindige varianten door de doelen van de problemen te wijzigen, de output te beperken en de input te generaliseren. Het gebruikt vervolgens een kwantitatieve idee-divergentiemetriek om problemen te selecteren die werkelijk uiteenlopende benaderingen van verschillende oplossers ontlokken. Agenten genereren vervolgens testgevallen en verificateurs voor de overlevende kandidaten. Op twee open-eindige codeerbenchmarks levert training op onze gesynthetiseerde data aanzienlijke winsten op ten opzichte van de basismodellen: Qwen3.5-9B verbetert met +8,82 punten op FrontierCS en +306,36 (Elo-rating gebaseerde prestatie) op ALE-bench; Qwen3.5-27B verbetert met respectievelijk +12,12 en +309,12. De gesynthetiseerde problemen zorgen er ook voor dat agenten meer beurten nemen en meer tokens gebruiken, vergelijkbaar met door mensen samengestelde problemen, wat suggereert dat gesloten-eindige startpunten een praktisch uitgangspunt kunnen zijn voor codeergegevens met een lange horizon.
Het trainen van causale transformatoren bij extreme sequentielengten wordt beperkt door de kwadratische tijd en het geheugen van geschaalde puntproduct-aandacht (SDPA). In dit werk stellen wij Lighthouse Attention voor, een uitsluitend voor training bedoeld, symmetrisch, op selectie gebaseerd hiërarchisch aandachtsalgoritme dat om gewone SDPA heen functioneert en eenvoudig tegen het einde van de training verwijderd kan worden. Onze hiërarchische selectie is ook gradiëntvrij, wat ons vrijwaart van het omgaan met een complexe en mogelijk inefficiënte backward pass-kernel. Onze bijdrage is drieërlei: (i) Een subkwadratische hiërarchische voor- en nabewerkingsstap die adaptieve compressie en decompressie van de sequentie uitvoert. (ii) Een symmetrische compressiestrategie die tegelijkertijd queries, keys en values poolet, met behoud van links-naar-rechts causaliteit, wat het parallelisme aanzienlijk verbetert. (iii) Een tweefasentrainingsaanpak waarbij we het grootste deel van de tijd vooraf trainen met Lighthouse Attention en aan het einde met een korte training een volledig aandachtsmodel herstellen. We voeren voorlopige kleinschalige LLM-pre-trainingsexperimenten uit die de effectiviteit van onze methode aantonen in vergelijking met volledige aandachtstraining waarbij alle overige instellingen gelijk zijn, waarbij we een snellere totale trainingstijd en een lager eindverlies na de herstelfase behalen. Volledige code is beschikbaar op: https://github.com/ighoshsubho/lighthouse-attention
Robotinstrumentatiegegevens zijn vaak multimodaal: soortgelijke visueel-linguïstische waarnemingen kunnen gevolgd worden door verschillende actiechunks, omdat menselijke demonstranten handelen met uiteenlopende korte-termijn intenties, taakfasen of recente context. Bestaande frame-geconditioneerde VLA-beleiden leiden elke chunk af uit uitsluitend de huidige waarneming en instructie, waardoor ze bij partiële waarneembaarheid verschillende intenties over opeenvolgende herplanstappen kunnen hermonsteren, wat leidt tot conflict tussen chunks en instabiele uitvoering. We introduceren IntentVLA, een geschiedenis-geconditioneerd VLA-raamwerk dat recente visuele waarnemingen codeert in een compacte korte-termijn intentierepresentatie en deze gebruikt om chunkgeneratie te conditioneren. Verder introduceren we AliasBench, een dubbelzinnigheidsbewuste benchmark met 12 taken op RoboTwin2, met bijpassende trainingsdata en evaluatieomgevingen die korte-termijn waarnemingsaliasing isoleren. Over AliasBench, SimplerEnv, LIBERO en RoboCasa verbetert IntentVLA de uitrolstabiliteit en presteert het beter dan sterke VLA-baselines.
Reinforcement learning is uitgegroeid tot een krachtig hulpmiddel voor het verbeteren van diffusie-gebaseerde tekst-naar-beeld modellen, maar bestaande methoden zijn grotendeels beperkt tot optimalisatie van enkelvoudige taken. Het uitbreiden van RL naar meerdere taken is uitdagend: gezamenlijke optimalisatie lijdt onder kruistaakinterferentie en onbalans, terwijl cascade RL omslachtig is en vatbaar voor catastrofaal vergeten. Wij stellen DiffusionOPD voor, een nieuw multi-taak trainingsparadigma voor diffusiemodellen gebaseerd op Online Beleidsdestillatie (OPD). DiffusionOPD traint eerst taakspecifieke docenten onafhankelijk, en distilleert vervolgens hun mogelijkheden in een verenigde student langs de eigen roll-out-trajecten van de student. Dit ontkoppelt enkelvoudige-taakverkenning van multi-taakintegratie en vermijdt de optimalisatielast van het vanaf nul gezamenlijk oplossen van alle taken. Theoretisch tillen we het OPD-raamwerk van discrete tokens naar continue-toestand Markov-processen, waarbij we een gesloten-vorm per-stap KL-doelstelling afleiden die zowel stochastische SDE als deterministische ODE-verfijning verenigt via gemiddelde-matching. We tonen formeel en empirisch aan dat deze analytische gradiënt lagere variantie en betere algemeenheid biedt in vergelijking met conventionele PPO-achtige beleidsgradiënten. Uitgebreide experimenten tonen aan dat DiffusionOPD consequent zowel multi-beloning RL als cascade RL-baselines overtreft in trainingsefficiëntie en uiteindelijke prestaties, terwijl het state-of-the-art resultaten behaalt op alle geëvalueerde benchmarks.
Hoogwaardige 3D-scènereconstructie is recentelijk gevorderd richting generaliseerbare feed-forward architecturen, waardoor het genereren van complexe omgevingen in één enkele forward pass mogelijk is. Echter, ondanks hun sterke prestaties in statische scèneperceptie, blijven deze modellen beperkt in het reageren op dynamische menselijke instructies, wat hun gebruik in interactieve toepassingen beperkt. Bestaande bewerkingsmethoden vertrouwen doorgaans op een 2D-liftstrategie, waarbij afzonderlijke aanzichten onafhankelijk worden bewerkt en vervolgens terug naar 3D-ruimte worden gelift. Deze indirecte pijplijn leidt vaak tot wazige texturen en inconsistente geometrie, omdat 2D-editors het ruimtelijke bewustzijn missen dat nodig is om structuur over verschillende gezichtspunten te behouden. Om deze beperkingen aan te pakken, stellen we VGGT-Edit voor, een feed-forward raamwerk voor tekstgestuurde native 3D-scènabewerking. VGGT-Edit introduceert dieptegesynchroniseerde tekstinjectie om semantische begeleiding af te stemmen op de ruimtelijke houdingen van de backbone, wat zorgt voor stabiele instructieverankering. Dit semantische signaal wordt vervolgens verwerkt door een residuele transformatiekop, die direct 3D-geometrische verplaatsingen voorspelt om de scène te vervormen terwijl de achtergrondstabiliteit behouden blijft. Om resultaten van hoge getrouwheid te garanderen, superviseren we het raamwerk met een multi-term objectieve functie die geometrische nauwkeurigheid en cross-view consistentie afdwingt. We construeren ook de DeltaScene-dataset, een grootschalige dataset gegenereerd via een geautomatiseerde pijplijn met 3D-overeenstemmingsfiltering om de kwaliteit van de grondwaarheid te waarborgen. Experimenten tonen aan dat VGGT-Edit aanzienlijk beter presteert dan 2D-liftbaselines, met scherpere objectdetails, sterkere multi-view consistentie en bijna onmiddellijke inferentiesnelheid.
Agentisch modelleren heeft als doel LLM's te transformeren in autonome agenten die complexe taken kunnen oplossen door middel van planning, redeneren, het gebruik van hulpmiddelen en meerstapsinteractie met omgevingen. Ondanks aanzienlijke investeringen wordt open onderzoek nog steeds beperkt door hiaten in infrastructuur en training. Veel hoogwaardige systemen zijn afhankelijk van propriëtaire codebases, modellen of diensten, terwijl de meeste opensourceframeworks zich richten op orkestratie en evaluatie in plaats van schaalbare agenttraining. Wij presenteren Orchard, een opensourceframework voor schaalbaar agentisch modelleren. De kern wordt gevormd door Orchard Env, een lichtgewicht omgevingsservice die herbruikbare primitieven biedt voor sandboxlevenscyclusbeheer, toepasbaar op taakdomeinen, agent-omhulsels en pijplijnfasen. Bovenop Orchard Env bouwen we drie recepten voor agentisch modelleren. Orchard-SWE richt zich op codeeragenten. We destilleren 107K trajecten uit MiniMax-M2.5 en Qwen3.5-397B, introduceren credit-assignment SFT om te leren van productieve segmenten van niet-afgeronde trajecten, en passen Balanced Adaptive Rollout toe voor RL. Uitgaande van Qwen3-30B-A3B-Thinking behaalt Orchard-SWE 64,3% op SWE-bench Verified na SFT en 67,5% na SFT+RL, waarmee het een nieuwe state of the art vestigt onder opensourcemodellen van vergelijkbare grootte. Orchard-GUI traint een 4B visie-taal agent voor computergebruik met slechts 0,4K gedestilleerde trajecten en 2,2K open-eindtaken. Het behaalt respectievelijk 74,1%, 67,0% en 64,0% succespercentages op WebVoyager, Online-Mind2Web en DeepShop, wat het het sterkste opensourcemodel maakt en tegelijk concurrerend met propriëtaire systemen. Orchard-Claw richt zich op persoonlijke assistentagenten. Het wordt getraind met slechts 0,2K synthetische taken en behaalt 59,6% pass@3 op Claw-Eval en 73,9% wanneer het wordt gecombineerd met een sterker ZeroClaw-omhulsel. Gezamenlijk tonen deze resultaten aan dat een lichte, open, harness-agnostische omgevingslaag herbruikbare agentgegevens, trainingsrecepten en evaluaties over domeinen heen mogelijk maakt.
Elk nieuw medium wordt, zodra het opkomt, niet alleen gebruikt voor het overbrengen van expliciete inhoud. De informatie die het draagt, functioneert doorgaans op twee niveaus: het ene is de direct gepresenteerde inhoud, terwijl het andere de subtekst daaronder is – de impliciete ideeën en bedoelingen die de maker via het medium probeert over te brengen. Evenzo, sinds videotechnologieën op grote schaal zijn ingevoerd, dient video niet alleen als een krachtig hulpmiddel voor het vastleggen en communiceren van visuele informatie, maar ook als een voertuig voor emoties, attitudes en sociale betekenissen die vaak moeilijk expliciet te verwoorden zijn. De ware betekenis van veel video's ligt dus niet uitsluitend in wat er op het scherm wordt getoond; deze is vaak ingebed in context, expressiestijl en de sociale ervaring van de kijker. Sommige vormen van dergelijke videosubtekst zijn humoristisch, terwijl andere ironie, spot of kritiek bevatten. Deze impliciete betekenissen kunnen ook heel anders worden geïnterpreteerd, afhankelijk van culturele achtergronden en sociale groepen. De meeste bestaande modellen voor videobegrip richten zich echter nog primair op letterlijk visueel begrip, zoals het herkennen van objecten, acties of temporele relaties, en missen een systematisch vermogen om de metaforische, ironische en sociale betekenissen die in video's zijn ingebed te begrijpen. Om deze kloof te overbruggen, introduceren we ViMU, de eerste benchmark die is ontworpen om systematisch de subtekstbegripscapaciteiten van geavanceerde modellen in video's te evalueren. ViMU beoordeelt of videobegripsmodellen verder kunnen gaan dan letterlijke perceptie om impliciete betekenis af te leiden, terwijl ze hun interpretaties baseren op multimodaal bewijs en zowel open vragen als meerkeuzevragen beantwoorden. Belangrijk is dat alle vragen hintvrij zijn ontworpen, zodat er geen essentieel bewijs aan de modellen wordt onthuld voordat ze antwoorden.
Autoregressieve (AR) videodiffusiemodellen maken gebruik van een streaminggeneratiekader, waardoor videogeneratie over lange horizon met real-time responsiviteit mogelijk wordt, zoals geïllustreerd door het Self Forcing-trainingsparadigma. Bestaande AR-videodiffusiemodellen hebben echter nog steeds te lijden onder aanzienlijke aandachtcomplexiteit en ernstige geheugenoverhead door de redundante key-value (KV)-caches in historische frames, wat de schaalbaarheid beperkt. In dit artikel pakken we deze uitdaging aan door KV-cachecompressie te introduceren in autoregressieve videodiffusie. We observeren dat aandachtkoppen in gangbare AR-diffusiemodellen opvallend verschillende aandachtspatronen en functionele rollen vertonen die stabiel blijven over samples en denoising-stappen. Voortbouwend op ons empirische onderzoek naar functionele specialisatie per kop, verdelen we de aandachtkoppen in twee categorieën: statische koppen, die zich richten op overgangen tussen autoregressieve chunks en intra-framegetrouwheid, en dynamische koppen, die inter-framebeweging en consistentie beheren. We stellen vervolgens Forcing-KV voor, een hybride KV-cachecompressiestrategie die gestructureerde statische pruning uitvoert voor statische koppen en dynamische pruning op basis van segmentgewijze gelijkenis voor dynamische koppen. Terwijl de uitvoerkwaliteit behouden blijft, bereikt onze methode een generatiesnelheid van meer dan 29 frames per seconde op een enkele NVIDIA H200 GPU, samen met een 30% reductie van cachegeheugen, wat leidt tot snelheidsverbeteringen van 1,35x en 1,50x op LongLive en Self Forcing bij 480P-resolutie, en verder oplopend tot een 2,82x snelheidsverbetering bij 1080P-resolutie. Code en demovideo's zijn beschikbaar op https://zju-jiyicheng.github.io/Forcing-KV-Page.
Recente vooruitgang in beeldgeneratie heeft het eenvoudig gemaakt om hoogwaardige afbeeldingen te produceren. Deze outputs zijn echter inherent afgeplat, waarbij voorgrondelementen, achtergrond en tekst binnen een vast canvas met elkaar verstrengeld raken. Hierdoor blijft flexibele nabewerking na generatie een uitdaging, wat een duidelijke laatste-mijlkloof richting praktische bruikbaarheid blootlegt. Bestaande benaderingen zijn óf afhankelijk van schaarse, propriëtaire gelaagde assets, óf construeren gedeeltelijk synthetische data op basis van beperkte structurele voorkennis. Beide strategieën kennen echter fundamentele uitdagingen op het gebied van schaalbaarheid. In dit werk onderzoeken we of pure synthetische gelaagde data de decompositie van grafisch ontwerp kan verbeteren. We gaan ervan uit dat in grafisch ontwerp een effectieve decompositie niet vereist dat tussenlaagafhankelijkheden even precies worden gemodelleerd als bij de compositie van natuurlijke beelden, aangezien ontwerpelementen vaak opzettelijk worden gerangschikt als modulaire en semantisch scheidbare componenten. Concreet voeren we een data-gerichte studie uit op basis van de CLD-baseline, een state-of-the-art laagdecompositieframework. Op basis van deze baseline construeren we onze eigen synthetische dataset, SynLayers, genereren we tekstuele supervisie met visie-taalmodel en automatiseren we inferentie-inputs met VLM-voorspelde begrenzingskaders. Onze studie onthult drie belangrijke bevindingen: (1) zelfs training met uitsluitend synthetische data kan niet-schaalbare alternatieven zoals de veelgebruikte PrismLayersPro-dataset overtreffen, wat de levensvatbaarheid als schaalbaar en effectief substituut aantoont; (2) de prestaties verbeteren consistent naarmate de schaal van de trainingsdata toeneemt, terwijl de winst begint te verzadigen rond 50K samples; en (3) synthetische data maakt een gebalanceerde controle over laagtellingdistributies mogelijk, waardoor de laagtellingonevenwicht die vaak in real-world datasets wordt waargenomen, wordt vermeden. We hopen dat deze data-gerichte studie een bredere adoptie van synthetische data als praktische basis voor gelaagde ontwerpbewerkingssystemen aanmoedigt.
Causale autoregressieve videodiffusiemodellen ondersteunen real-time streaming generatie door het extrapoleren van toekomstige segmenten uit eerder gegenereerde inhoud. Het distilleren van dergelijke generatoren uit bidirectionele leraren met hoge getrouwheid levert concurrerende modellen met weinig stappen op, maar een aanhoudende kloof tussen de historiedistributies die tijdens de training worden aangetroffen en die welke tijdens de inferentie optreden, beperkt de generatiekwaliteit over lange tijdsintervallen. We introduceren het Real-time Autoregressief Video-Extrapolatienetwerk (RAVEN), een testraamwerk tijdens de training dat elke zelf-rollout herverpakt in een afgewisselde reeks van schone historische eindpunten en ruizige denoising-toestanden. Deze formulering stemt de trainingsaandacht af op de extrapolatie tijdens inferentie en stelt verliezen van downstream segmenten in staat om toezicht te houden op de historierepresentaties waarvan toekomstige voorspellingen afhangen. We stellen verder Consistentiemodel Groepsrelatieve Beleidsoptimalisatie (CM-GRPO) voor, welke een consistentie-samplingstap herformuleert als een conditionele Gaussische overgang en online versterkend leren (RL) direct op deze kern toepast, waarbij het Euler-Maruyama hulpproces wordt vermeden dat in eerdere flow-model RL-formuleringen wordt gebruikt. Experimenten tonen aan dat RAVEN recente causale videodistillatie-baselines overtreft op het gebied van kwaliteit, semantische en dynamische graadevaluaties, en dat CM-GRPO verdere winst oplevert wanneer het met RAVEN wordt gecombineerd.
Multimodale grote laboratoriummodellen (MLLM's) worstelen nog steeds met ruimtelijk begrip binnen het dominante perspectief-beeldparadigma, dat het beperkte gezichtsveld van menselijke perceptie erft. Voor navigatie, robotische zoekopdrachten en driedimensionaal scènebegrip biedt 360-graden panoramische waarneming een vorm van superwaarneming door de gehele omgeving in één keer vast te leggen. Echter, bestaande MLLM-pijplijnen ontleden panorama's doorgaans in meerdere perspectiefbeelden, waardoor de bolvormige structuur van de equirectangulaire projectie (ERP) grotendeels impliciet blijft. In dit artikel bestuderen we pano-native begrip, waarbij een MLLM een ERP-panorama moet interpreteren als een continue, waarnemer-gecentreerde ruimte. Hiertoe definiëren we eerst de belangrijkste vaardigheden voor pano-native begrip, waaronder semantische verankering, sferische lokalisatie, referentiekader-transformatie en dieptebewust driedimensionaal ruimtelijk redeneren. Vervolgens bouwen we een grootschalige metadata-constructiepijplijn die gemengde bron-ERP-panorama's omzet in geometriebewuste, taalverankerde en dieptebewuste supervisie, en instantieren we deze signalen als capaciteitsgerichte instructie-afstemmingsdata. Aan de modelzijde introduceren we PanoWorld met Sferische Ruimtelijke Kruisaandacht, die sferische geometrie in de visuele stroom injecteert. Verder construeren we PanoSpace-Bench, een diagnostische benchmark voor het evalueren van ERP-native ruimtelijk redeneren. Experimenten tonen aan dat PanoWorld aanzienlijk beter presteert dan zowel propriëtaire als open-source baselines op PanoSpace-Bench, H\* Bench en R2R-CE Val-Unseen benchmarks. Deze resultaten tonen aan dat robuust panoramisch redeneren toegewijde pano-native supervisie en geometriebewuste modelaanpassing vereist. Alle broncode en voorgestelde gegevens zullen openbaar worden gemaakt.
Geheugensystemen zijn cruciaal voor rollenspelagenten (RPA's) om consistentie over lange termijn te waarborgen. Bestaande RPA-geheugenmethoden (zoals profilering) vertrouwen echter voornamelijk op recurrente samenvatting, waarbij compressie onvermijdelijk belangrijke details weggooit. Om dit probleem aan te pakken, stellen we een op zoek gebaseerd geheugenraamwerk voor, genaamd BOOKMARKS, dat actief taakrelevante stukken bladwijzers initialiseert, onderhoudt en bijwerkt voor de huidige taak (bijv. het spelen van een personage). Een bladwijzer is gestructureerd als het antwoord op een vraag op een specifiek punt in de verhaallijn. Voor elke huidige taak selecteert BOOKMARKS herbruikbare bestaande bladwijzers of initialiseert het nieuwe (aan het begin van de verhaallijn) met nuttige vragen. Deze bladwijzers worden vervolgens gesynchroniseerd met het huidige verhaalpunt, waarbij hun antwoorden dienovereenkomstig worden bijgewerkt, zodat ze efficiënt kunnen worden hergebruikt in toekomstige verankeringsronden. In vergelijking met recurrente samenvatting biedt BOOKMARKS (1) actieve verankering voor het vastleggen van taakspecifieke details en (2) passief bijwerken om onnodige berekeningen te vermijden. In de implementatie ondersteunt BOOKMARKS concept-, gedrags- en toestandszoekopdrachten, elk aangedreven door een efficiënte synchronisatiemethode. BOOKMARKS presteert significant beter dan RPA-geheugenbaselines op 85 personages uit 16 artefacten, wat de effectiviteit aantoont van op zoek gebaseerd geheugen voor RPA's.
Wij streven naar een visie voor zelfverbeterende taalmodellen waarbij het model niet alleen problemen of sporen genereert om na te bootsen, maar de omgevingen construeert die het trainen. In nuldata- redeneringsversterkingsleren herformuleert dit zelfverbetering van een datageneratiecyclus naar een omgevingsconstructiecyclus, waarbij elk artefact een herbruikbaar uitvoerbaar object is dat instanties bemonstert, referenties berekent en reacties scoort. Of deze visie verbetering in stand houdt, hangt af van één enkele eigenschap: de omgevingen moeten een stabiele oplossen--verifiëren-asymmetrie vertonen, het model moet in staat zijn een orakel één keer te schrijven dat het niet betrouwbaar kan uitvoeren in natuurlijke taal op nieuwe instanties. Deze asymmetrie kent twee complementaire vormen. Sommige taken zijn algoritmisch moeilijk om door te redeneren maar triviaal als code: een dynamisch programmeren of graaftraversaal, eenmalig gecompileerd, levert onbegrensd veel gekalibreerde instanties op. Andere zijn intrinsiek moeilijk op te lossen maar gemakkelijk te verifiëren, zoals geplante deelsom of beperkingsbevrediging. Beide creëren een duurzame kloof tussen het voorstellen en oplossen die het beleid niet kan dichten door de verificateur te bespelen, en het is deze kloof die de beloning informatief houdt naarmate de lerende verbetert. Wij concretiseren deze visie in EvoEnv, een generator van enkelvoudig beleid, een oplosmethode die Python-omgevingen synthetiseert uit tien zaadjes en deze pas toelaat na gefaseerde validatie, semantische zelfbeoordeling, oplosser-relatieve moeilijkheidskalibratie en nieuwheidscontroles. Het sterkste bewijs komt uit het reeds sterke regime: op Qwen3-4B-Thinking verlagen vaste openbare data-RLVR en vaste handgemaakte omgeving-RLVR het gemiddelde, terwijl EvoEnv het verbetert van 72,4 naar 74,8, een relatieve winst van 3,3%. Stabiele zelfverbetering, suggereren wij, hangt niet af van het produceren van meer synthetische data, maar van modellen die leren werelden te construeren waarvan de moeilijkheid structureel buiten hun eigen bereik ligt.
Het genereren van realistische menselijke bewegingen vormt een centrale maar onopgeloste uitdaging in videogeneratie. Hoewel op reinforcement learning (RL) gebaseerde post-training recente vooruitgang heeft geboekt in de algemene videokwaliteit, wordt de uitbreiding ervan naar menselijke bewegingen nog steeds belemmerd door een beloningssignaal dat bewegingsrealisme niet betrouwbaar kan beoordelen. Bestaande videobelongen vertrouwen voornamelijk op 2D perceptuele signalen, zonder expliciet de 3D lichaamsstatus, het contact en de dynamica onderliggend aan de gearticuleerde menselijke beweging te modelleren, en kennen vaak hoge scores toe aan video's met zwevende lichamen of fysiek onwaarschijnlijke bewegingen. Om dit aan te pakken, stellen we PhyMotion voor: een gestructureerde, fijnmazige bewegingsbeloning die teruggewonnen 3D menselijke trajecten verankert in een fysicasimulator en de bewegingskwaliteit langs meerdere dimensies van fysieke haalbaarheid evalueert. Concreet reconstrueren we SMPL-lichaamsnetten uit gegenereerde video's, zetten deze over op een humanoïde in de MuJoCo-fysicasimulator, en evalueren we de resulterende beweging langs drie assen: kinematische plausibiliteit, consistentie van contact en balans, en dynamische haalbaarheid. Elke component levert een continu en interpreteerbaar signaal dat is gekoppeld aan een specifiek aspect van bewegingskwaliteit, waardoor de beloning kan vastleggen welke aspecten van beweging fysiek correct of geschonden zijn. Experimenten tonen aan dat PhyMotion een sterkere correlatie met menselijke beoordelingen vertoont dan bestaande beloningsformuleringen. Deze winsten worden doorgezet naar op RL gebaseerde post-training, waarbij optimalisatie van PhyMotion leidt tot grotere en consistentere verbeteringen dan optimalisatie van bestaande beloningen, en het realisme van beweging verbetert bij zowel autoregressieve als bidirectionele videogeneratoren, onder zowel automatische metrieken als blinde menselijke evaluatie (+68 Elo-winst). Ablatiestudies tonen aan dat de drie assen complementaire supervisiesignalen leveren, terwijl de beloning de algehele videogeneratiekwaliteit behoudt met slechts een bescheiden trainingsoverhead.
On-policy zelfdistillatie is een krachtige methode gebleken voor het redeneren van grote taalmodellen (LLM's), waarbij een bevoorrechte leraar de eigen rollouts van de student begeleidt, geconditioneerd op de referentieoplossing. Een ontwerpkeuze die echter door vrijwel al deze methoden wordt gedeeld, is onbetwist gebleven: de leraar ziet altijd de volledige referentieredenering. Wij stellen dat deze standaardkeuze zelf deel uitmaakt van het probleem en identificeren een blootstellingsmismatch aan de leraarszijde: wanneer de leraar conditioneert op redeneringen die ver buiten de huidige competentie van de student liggen, worden de resulterende token-doelen te sterk om te absorberen. Een gecontroleerde sweep met vaste blootstelling maakt dit concreet op twee fronten: 1) volledige blootstelling is niet betrouwbaar de beste keuze, en 2) de student-leraarmismatch neemt monotoon toe naarmate de leraar meer bevoorrechte redenering ziet. Dit motiveert om lerarenblootstelling niet als een vaste hyperparameter te behandelen, maar als een leerbare controlevariabele tijdens de training. Daarom stellen wij Adaptive Teacher Exposure for Self-Distillation (ATESD) voor. ATESD modelleert de onthullingsratio met een lichte Beta-beleidscontroller, geconditioneerd op compacte trainingsstatistieken, en gebruikt één gesamplede blootstelling voor een korte vasthoudperiode van studentupdates. Om deze blootstellingscontroller leerbaar te maken, optimaliseren we deze met een verdisconteerde leerprogressiebeloning die elke vasthoudbeslissing scoort op basis van het effect op de toekomstige verbetering van de student, in plaats van de onmiddellijke verandering in het verlies, waarmee we de vertraagde credit-toewijzing aanpakken die wordt veroorzaakt door on-policy distillatie. Experimenten op AIME 24, AIME 25 en HMMT 25 met Qwen3-{1.7B, 4B, 8B} tonen aan dat ATESD consequent beter presteert dan competitieve zelfdistillatie- en RL-baselines, met respectievelijk +0,95, +2,05 en +2,33 gemiddelde@12-puntenverbetering ten opzichte van OPSD, en vestigt adaptieve lerarenblootstelling als een effectieve nieuwe as voor redeneerzelfdistillatie.
Het gebruik van multimodale funderingsmodellen om tabellenafbeeldingen te analyseren is een waardevolle maar uitdagende toepassing in consumenten- en bedrijfsscenario's. Ondanks het belang ervan zijn de huidige evaluaties grotendeels gebaseerd op gestructureerde-teksttabellen of schone gerenderde afbeeldingen, waardoor de visuele complexiteit van in het wild voorkomende tabellenafbeeldingen onderbelicht blijft. Dergelijke afbeeldingen vertonen uiteenlopende lay-outs en diverse domeinen, waarvoor geavanceerde structurele perceptie en numeriek redeneren nodig is. Om deze kloof te overbruggen introduceren we WildTableBench, de eerste vraag-antwoordbenchmark voor natuurlijk voorkomende tabellenafbeeldingen uit praktijksituaties. WildTableBench omvat 402 tabellenafbeeldingen met hoge informatiedichtheid, verzameld van onlineforums en websites uit uiteenlopende domeinen, samen met 928 handmatig geannoteerde en geverifieerde vragen die 17 subtypen in vijf categorieën beslaan. We evalueren 21 toonaangevende propriëtaire en opensource multimodale funderingsmodellen met deze benchmark. Slechts één model haalt meer dan 50% nauwkeurigheid, terwijl alle overige modellen scoren tussen 4,1% en 49,9%. Verder voeren we diagnostische analyses uit om modelfouten te karakteriseren en aanhoudende zwaktes in structurele perceptie en redenering bloot te leggen. Deze resultaten en analyses bieden nuttige inzichten in de huidige modelcapaciteiten en vestigen WildTableBench als een waardevolle diagnostische benchmark voor het begrijpen van tabellenafbeeldingen.
Tekstbeeld superresolutie (Text-SR) vereist meer dan alleen visueel aannemelijke detailsynthese: kleine fouten in de slagtopologie kunnen de karakteridentiteit veranderen en de leesbaarheid aantasten. Bestaande methoden verbeteren de tekstgetrouwheid met sterkere herkenningsgebaseerde of generatieve voorkennis, maar zij blijven geconfronteerd met twee onopgeloste uitdagingen onder ernstige degradatie: de tekstconditie die uit invoer van lage kwaliteit wordt geëxtraheerd kan zelf onbetrouwbaar zijn, en een aannemelijke globale voorkennis bepaalt niet volledig de fijnmazige slagranden. Wij presenteren PRISM, een op éénstapsdiffusie gebaseerd Text-SR-raamwerk dat deze twee uitdagingen aanpakt door middel van Flow-Matching Prior Rectification (FMPR) en een Structure-guided Uncertainty-aware Residual Encoder (SURE). FMPR construeert een bevoorrechte trainingsprior uit gepaarde latenten van lage en hoge kwaliteit en leert een stroommatching die gedegradeerde inbeddingen naar deze herstellingsgerichte priorruimte transporteert, wat leidt tot nauwkeurigere en betrouwbaardere globale tekststuring. SURE voorspelt verder onzekerheidsbewuste structurele residuen om betrouwbaar lokaal randbewijs selectief op te nemen, terwijl ambigue slagaanwijzingen worden onderdrukt. Samen maken deze componenten expliciete globale priorcorrectie en lokale structuurverfijning mogelijk binnen een enkele diffusiehersteldoorgang. Experimenten op zowel synthetische als realistische benchmarks tonen aan dat PRISM state-of-the-art prestaties bereikt met inferentie op millisecondefniveau. Onze dataset en code zullen beschikbaar zijn op https://github.com/faithxuz/PRISM.
In dit artikel bestuderen we oplossingsoperatoren van fysische veldvergelijkingen op geometrische meshes vanuit een functionaalruimteperspectief. We tonen aan dat Hodge-orthogonaliteit spectrale interferentie fundamenteel oplost door niet-leerbare topologische vrijheidsgraden te isoleren van leerbare geometrische dynamica, wat een additieve benadering mogelijk maakt die beperkt blijft tot structuurbehoudende deelruimten. Gebaseerd op de Hodge-theorie en operatorsplitsing leiden we een principiële operatorniveau-ontbinding af. Het resultaat is een hybride Eulerisch-Lagrangiaanse architectuur met een algebraïsche inductieve bias die we Hodge Spectrale Dualiteit (HSD) noemen. In ons raamwerk gebruiken we discrete differentiaalvormen om topologiegedomineerde componenten vast te leggen en een orthogonale hulpruimte om complexe lokale dynamica te representeren. Onze methode behaalt superieure nauwkeurigheid en efficiëntie op geometrische grafen met een verbeterde trouw aan fysische invarianten. Onze code is beschikbaar op https://github.com/ContinuumCoder/Hodge-Spectral-Duality.
Latente flow matching voor beeldgeneratie transporteert gewoonlijk Gaussiaanse ruis naar latents van variationele auto-encoders over lineaire paden. Beide eindpunten concentreren zich echter in dunne sferische schillen, en een Euclidische koorde verlaat die schillen, zelfs wanneer voorbewerking hun stralen uitlijnt. Door elk latent token te ontleden in radiale en hoekcomponenten, tonen we via component-swap probes aan dat gedecodeerde perceptuele en semantische inhoud voornamelijk wordt gedragen door richting, waarbij de straal veel minder bijdraagt. Daarom projecteren we datalatents op een vaste tokenstraal, gebruiken we de radiale projectie van Gaussiaanse ruis als de sferische prior, finetunen we de decoder met de encoder bevroren, en vervangen we lineaire interpolatie door sferische lineaire interpolatie. De resulterende geodetische paden blijven op elk tijdstip op de bol, en hun snelheidsdoelen zijn per constructie puur hoekig. Onder gematchte training verbetert de methode consistent de klassengeconditioneerde ImageNet-256 FID over verschillende beeldtokenizers, laat de diffusiearchitectuur onveranderd en vereist geen hulpencoder of representatie-uitlijningsdoelstelling.
Het evalueren van instructiegestuurde beeldbewerkingen vereist beloningen die subtiele menselijke voorkeuren weerspiegelen, maar huidige beloningsmodellen zijn doorgaans afhankelijk van grootschalige voorkeursannotaties en extra modeltraining. Dit creëert een dataverschil: mensen kunnen vaak de beoogde evaluatiecriteria afleiden uit slechts enkele voorbeelden, terwijl modellen doorgaans worden getraind op honderdduizenden vergelijkingen. Wij presenteren RewardHarness, een zelf-evoluerend agentisch beloningskader dat beloningsmodellering herformuleert als contextevologie in plaats van gewichtsoptimalisatie. In plaats van te leren van grootschalige annotaties, stemt RewardHarness af op menselijke voorkeuren door iteratief een bibliotheek van hulpmiddelen en vaardigheden te evolueren op basis van slechts 100 voorkeursdemonstraties. Gegeven een bronafbeelding, kandidaat-bewerkte afbeeldingen en een bewerkingsinstructie, selecteert een Orchestrator de meest relevante subset van hulpmiddelen en vaardigheden uit de onderhouden bibliotheek, en een bevroren Sub-Agent gebruikt deze om een redeneringsketen op te bouwen die een voorkeursbeoordeling oplevert. Door voorspelde beoordelingen te vergelijken met grondwaarheidsvoorkeuren en successen en mislukkingen in het redeneringsproces te analyseren, verfijnt de Orchestrator automatisch zijn bibliotheek van hulpmiddelen en vaardigheden zonder extra menselijke annotatie. Met slechts 0,05% van de EditReward-voorkeursgegevens behaalt RewardHarness 47,4% gemiddelde nauwkeurigheid op evaluatiebenchmarks voor beeldbewerking, waarmee het GPT-5 met 5,3 punten overtreft. Wanneer gebruikt als beloningssignaal voor GRPO-fine-tuning, behalen met RL getunede modellen een score van 3,52 op ImgEdit-Bench. Projectpagina: https://rewardharness.com.
AI-agenten worden steeds vaker ingezet in dynamische, open omgevingen die aanpassing aan nieuwe informatie vereisen zodra deze binnenkomt. Om deze capaciteit efficiënt te meten voor realistische toepassingen, stellen we voor om grondige simulaties te bouwen die gebeurtenissen uit de echte wereld in de volgorde van optreden herhalen. We ontwikkelen FutureSim, waarin agenten wereldgebeurtenissen voorspellen die buiten hun kennisafkap vallen, terwijl ze interageren met een chronologische herhaling van de wereld: echte nieuwsartikelen die verschijnen en vragen die worden beantwoord gedurende de gesimuleerde periode. We evalueren geavanceerde agenten in hun eigen omgeving, waarbij we hun vermogen testen om wereldgebeurtenissen te voorspellen over een periode van drie maanden, van januari tot maart 2026. FutureSim toont een duidelijke scheiding in hun capaciteiten, waarbij de beste agent een nauwkeurigheid van 25% heeft en vele een slechtere Brier-vaardigheidsscore hebben dan helemaal geen voorspelling doen. Door middel van zorgvuldige ablatiestudies laten we zien hoe FutureSim een realistische setting biedt om opkomende onderzoeksrichtingen te bestuderen, zoals aanpassing op lange termijn tijdens testtijd, zoeken, geheugen en redeneren over onzekerheid. Al met al hopen we dat ons benchmarkontwerp de weg vrijmaakt om de vooruitgang van AI te meten op het gebied van open aanpassing over lange tijdshorizonten in de echte wereld.
Het genereren van een 3D-scène op straatniveau uit een enkele satellietafbeelding is een cruciale maar uitdagende taak. Huidige methoden vertonen een scherpe afweging: geometrie-kleuringmodellen bereiken een hoge geometrische getrouwheid, maar zijn doorgaans gebouwgericht en missen semantische diversiteit. Daarentegen gebruiken proxy-gebaseerde modellen feed-forward beeld-naar-3D raamwerken om holistische scènes te genereren door gelijktijdig geometrie en textuur te leren, een proces dat rijke inhoud oplevert maar grove en onstabiele geometrie. Wij wijten deze geometrische tekortkomingen aan de extreme gezichtspuntkloof en de schaarse, inconsistente supervisie die inherent zijn aan satelliet-naar-straat data. We introduceren Sat3DGen om deze fundamentele uitdagingen aan te pakken, wat een geometrie-eerst methodologie belichaamt. Deze methodologie verbetert het feed-forward paradigma door het integreren van nieuwe geometrische beperkingen met een perspectiefaanzicht trainingsstrategie, waarmee de primaire bronnen van geometrische fouten expliciet worden tegengegaan. Deze geometriegerichte strategie levert een dramatische sprong op in zowel 3D-nauwkeurigheid als fotorealisme. Ter validatie hebben we eerst een nieuwe benchmark geconstrueerd door de VIGOR-OOD testset te combineren met hoge-resolutie DSM-data. Op deze benchmark verbetert onze methode de geometrische RMSE van 6.76m naar 5.20m. Cruciaal is dat deze geometrische sprong ook het fotorealisme verbetert, waardoor de Fréchet Inception Distance (FID) daalt van sim40 naar 19 ten opzichte van de toonaangevende methode Sat2Density++, ondanks het gebruik van geen extra op maat gemaakte beeldkwaliteitsmodules. We demonstreren de veelzijdigheid van onze hoogwaardige 3D-assets door diverse stroomafwaartse toepassingen, waaronder semantische-kaart-naar-3D synthese, multi-camera videogeneratie, grootschalige meshing en ongesuperviseerde schatting van een digitaal oppervlaktemodel (DSM) op basis van één beeld. De code is uitgebracht op https://github.com/qianmingduowan/Sat3DGen.
Omni-modale taalmodellen zijn bedoeld om gezamenlijk audio, visuele inputs en taal te begrijpen, maar benchmarkwinst kan worden opgeblazen wanneer alleen visueel bewijs voldoende is om een query te beantwoorden. We bestuderen of huidige omni-modale benchmarks visuele shortcuts scheiden van echte audiovisueel-taalbewijsintegratie, en hoe post-training zich gedraagt onder een visueel gedebiasede evaluatieomgeving. We auditen negen omni-modale benchmarks met alleen-visuele probing, verwijderen visueel oplosbare queries, en behouden volledige subsets wanneer filteren ongedefinieerd is of vergelijkingen instabiel zou maken. Dit levert OmniClean op, een opgeschoond evaluatiebeeld met 8.551 behouden queries uit 16.968 geaudite queries. Op OmniClean evalueren we OmniBoost, een drietraps post-training recept gebaseerd op Qwen2.5-Omni-3B: gemengde bi-modale SFT, gemengde-modaliteit RLVR, en SFT op zelfgedistilleerde data. Gebalanceerde bi-modale SFT geeft beperkte en ongelijke winst, RLVR biedt de eerste brede verbetering, en zelfdistillatie hervormt het benchmarkprofiel. Na SFT op zelfgedistilleerde data bereikt het 3B-model prestaties die vergelijkbaar zijn met, en in totaal iets boven, Qwen3-Omni-30B-A3B-Instruct zonder gebruik te maken van een sterke omni-modale leraar. Deze resultaten tonen aan dat omni-modale vooruitgang gemakkelijker te interpreteren is wanneer evaluatie visuele lekkage controleert, en dat kleine omni-modale modellen kunnen profiteren van gefaseerde post-training met zelfgedistilleerd omni-query toezicht. Projectpagina: https://cheliu-computation.github.io/omni/
We onderzoeken de temporele concatenatie van sub-beleidsregels in Markov-beslissingsprocessen (MDP) met tijdsvariërende beloningsfuncties. We introduceren General Dijkstra Search (GDS) en bewijzen dat globaal optimale doelbereikende beleidsregels kunnen worden hersteld door temporele compositie van tussentijdse optimale sub-beleidsregels. Gemotiveerd door het 'search, select, update'-principe dat ten grondslag ligt aan GDS, stellen we Dynamic Latent Routing (DLR) voor, een post-training methode voor taalmodellen die gezamenlijk discrete latente codes, routeringsbeleidsregels en modelparameters leert via dynamisch zoeken in een enkele trainingsfase. In omgevingen met weinig data voor fine-tuning evenaart of overtreft DLR de gesuperviseerde fine-tuning op vier datasets en zes modellen, met een gemiddelde winst van +6,6 procentpunt, terwijl eerdere discrete-latente baselines consequent onderpresteren ten opzichte van SFT. Mechanistische analyses en gerichte code-ablaties tonen aan dat DLR gestructureerde routeringsgedragingen leert met duidelijke causale rollen.
Wij presenteren een nieuw computationeel raamwerk voor het detecteren en structureren van manipulatieve politieke narratieven. Een taak die belangrijker is geworden door de verschuiving van politieke discussies naar sociale media. Een van de voornaamste uitdagingen daarbij is het onderscheiden van manipulatieve politieke narratieven van legitieme kritieken. Sommige berichten kunnen ook daadwerkelijke gebeurtenissen herkaderen binnen een manipulatieve context. Om goede clusterresultaten te bereiken, filteren we vooraf manipulatieve berichten met een gedetailleerde few-shot prompt die gedocumenteerde campagnenarratieven combineert met legitieme kritieken om ze te onderscheiden. Deze prompt stelt een redeneermodel in staat om labels toe te wijzen, waarbij alleen manipulatieve narratieve berichten worden behouden voor verdere verwerking. De overgebleven berichten worden vervolgens geëmbed en dimensioneel gereduceerd met UMAP, waarna HDBSCAN wordt toegepast om narratieve groepen te ontdekken. Een belangrijk voordeel van deze ongesuperviseerde aanpak is de onafhankelijkheid van een vooraf gedefinieerde lijst van doeldategorieën, waardoor het nieuwe narratieve clusters kan ontdekken. Ten slotte wordt een redeneermodel gebruikt om het narratief achter elke cluster te achterhalen. Deze aanpak, toegepast op meer dan 1,2 miljoen sociale mediaberichten, heeft effectief 41 verschillende manipulatieve narratieve clusters geïdentificeerd door prompt-gebaseerde filtering te integreren met ongesuperviseerde clustering.
Verkiezingen vormen een cruciale mijlpaal in de voortdurende ontwikkeling van een natie. Om de politieke retoriek van verschillende stromingen, van links tot rechts, beter te begrijpen, stellen we een transformer-gebaseerd model voor dat de politieke oriëntatie van een tekst kan projecteren op een continu links-rechtsspectrum, weergegeven door een genormaliseerde scalaire d tussen -1 en 1. Deze aanpak stelt analisten in staat zich te concentreren op specifieke segmenten van het politieke landschap, zoals conservatieven, terwijl liberale en extreemrechtse bewegingen worden uitgesloten. Een dergelijke taak kan alleen worden uitgevoerd met multi-klasse classifiers, op voorwaarde dat de gewenste oriëntatie binnen een van hun vooraf gedefinieerde klassen valt. Om het meest geschikte funderingsmodel te bepalen uit 13 kandidaat-transformers voor deze taak, hebben we vier verschillende corpora samengesteld. Eén corpus bestond uit geannoteerde plenaire notulen van de Duitse Bondsdag, terwijl een ander gebaseerd was op een officieel online besluitvormingsinstrument, Wahl-O-Mat. Het derde corpus bestond uit artikelen uit 33 kranten, elk geïdentificeerd op basis van hun politieke oriëntatie, en het vierde omvatte 535.200 tweets van 597 leden van de 20e en 21e Duitse Bondsdag. Om overfitting te beperken, gebruikten we twee verschillende corpora voor training en twee voor testen. Voor prestaties binnen het domein behaalde DeBERTa-large de hoogste F1-score (F1=0,844), evenals voor de X (Twitter) out-of-domain test (ACC=0,864). Wat betreft de kranten out-of-domain test, presteerde Gemma2-2B uitstekend (MAE = 0,172). Deze studie toont aan dat transformermodellen politieke framing in Duits nieuws kunnen herkennen op het niveau van opiniepeilingen. Onze bevindingen suggereren dat zowel de modelarchitectuur als de beschikbaarheid van domeinspecifieke trainingsgegevens even invloedrijk kunnen zijn als modelgrootte voor het schatten van politieke bias. We bespreken methodologische beperkingen en schetsen richtingen voor het verbeteren van de robuustheid van biasmeting.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft groot succes geboekt bij het ontwikkelen van Grote Taalmodellen (LLMs) met chain-of-thought rollouts voor vele taken zoals wiskunde en programmeren. Niettemin heeft RLVR moeite met monsterefficiëntie bij moeilijke problemen waar correcte rollouts moeilijk te genereren zijn. Eerder werk stelt voor om dit probleem aan te pakken via demonstratie-gestuurde RLVR, d.w.z. het uitvoeren van Supervised FineTuning (SFT) wanneer RL faalt; echter, SFT vereist vaak veel data, wat duur kan zijn om te verkrijgen. In dit artikel stellen we FEST voor, een FEw-Shot demonstratie-gestuurd RLVR-algoritme. Het behaalt overtuigende resultaten met slechts 128 willekeurig geselecteerde demonstraties uit een SFT-dataset. We vinden dat drie componenten essentieel zijn voor het succes: het gesuperviseerde signaal, het on-policy signaal, en afnemende gewichten op de few-shot SFT-dataset om overfitting door training over meerdere epochs te voorkomen. Op verschillende benchmarks presteert FEST beter dan baselines met ordes van grootte minder SFT-data, en evenaart zelfs hun prestaties met de volledige dataset.
Generatieve videomodellen worden steeds vaker bestudeerd als impliciete wereldmodellen, maar het evalueren of ze fysiek plausibele 3D-structuur en beweging produceren blijft uitdagend. De meeste bestaande video-evaluatiepijplijnen zijn sterk afhankelijk van menselijk oordeel of aangeleerde beoordelaars, wat subjectief kan zijn en zwak diagnostisch voor geometrische fouten. Wij introduceren PDI-Bench (Perspective Distortion Index), een kwantitatief raamwerk voor het controleren van geometrische coherentie in gegenereerde video's. Gegeven een gegenereerde clip verkrijgen we objectgecentreerde observaties via segmentatie en puntvolging (bijv. SAM 2, MegaSaM en CoTracker3), transformeren we ze naar 3D-wereldruimtecoördinaten via monoculaire reconstructie, en berekenen we een reeks residuen van projectieve geometrie die drie faaldimensies vastleggen: schaal-diepte-uitlijning, 3D-bewegingsconsistentie en 3D-structurele stijfheid. Om systematische evaluatie te ondersteunen, bouwen we de PDI-Dataset, die diverse scenario's omvat die ontworpen zijn om deze geometrische beperkingen uit te dagen. Bij state-of-the-art videogeneratoren onthult PDI consistente geometriespecifieke faalmodi die niet worden gevangen door gangbare perceptuele metrieken, en biedt het een diagnostisch signaal voor vooruitgang richting fysiek gefundeerde videogeneratie en een fysiek wereldmodel. Onze code en dataset zijn te vinden op https://pdi-bench.github.io/.
Industriële LLM-agentsystemen scheiden planning vaak van uitvoering, maar LLM-planners produceren regelmatig structureel ongeldige of onnodig lange workflows, wat leidt tot broze fouten en vermijdbare tool- en API-kosten. Wij stellen SPIN voor, een planningswrapper die gevalideerde gerichte acyclische graaf (DAG) planning combineert met prefix-gebaseerde uitvoeringscontrole. SPIN handhaaft een strikt DAG-contract via `_validate_plan_text` en herstelpompten, waardoor uitvoerbare plannen worden gegenereerd vóór downstream-uitvoering, en evalueert vervolgens incrementeel DAG-prefixen om te stoppen wanneer het huidige prefix voldoende is om de query te beantwoorden. Op AssetOpsBench, over 261 scenario's, reduceert SPIN het aantal uitgevoerde taken van 1061 naar 623 en verbetert het de Accomplished-score van 0,638 naar 0,706, terwijl het aantal toolaanroepen per run daalt van 11,81 naar 6,82. Op MCP Bench verbetert dezelfde wrapper de scores voor planning, grounding en afhankelijkheidsgerelateerde aspecten voor zowel GPT OSS1 als Llama 4 Maverick.
Mengsel-van-Experts (MoE)-architecturen verbeteren de efficiëntie van grote taalmodellen door per token slechts een subset van experts te activeren. Standaard MoE gebruikt echter een vaste Top-K-routeringsstrategie, wat leidt tot overbodige berekeningen en suboptimale inferentielatentie. Bestaande versnellingsmethoden vereisen ofwel kostbare hertraining met architectuurwijzigingen, ofwel lijden ze onder een ernstige prestatieverlies bij hoge schaarste vanwege een mismatch tussen training en inferentie. Om deze beperkingen aan te pakken, stellen we BEAM (Binary Expert Activation Masking) voor, een nieuwe methode die token-adaptieve experts selectie leert via trainbare binaire maskers. Met behulp van een straight-through-schatter en een hulp regularisatieverlies induceert BEAM dynamische expertschaarste door middel van end-to-end training, terwijl de modelcapaciteit behouden blijft. We implementeren verder een efficiënte aangepaste CUDA-kernel voor BEAM, wat zorgt voor naadloze integratie met het vLLM-inferentieraamwerk. Experimenten tonen aan dat BEAM meer dan 98% van de oorspronkelijke modelprestaties behoudt, terwijl het aantal MoE-laag-FLOPs tot 85% wordt verminderd, met een tot 2,5 keer snellere decodering en 1,4 keer hogere doorvoer, wat de effectiviteit als een praktische, plug-and-play-oplossing voor efficiënte MoE-inferentie aantoont.
Naarmate AI-agenten verschuiven van chatinterfaces naar systemen die privégegevens uitlezen, tools aanroepen en meerstapsprocessen uitvoeren, worden veiligheidsbarrières een laatste verdedigingslinie tegen concrete implementatieschade. In deze omgevingen zijn falende barrières niet langer louter fouten in de antwoordkwaliteit: ze kunnen geheimen lekken, onveilige acties autoriseren of legitiem werk blokkeren. De moeilijkste fouten zijn vaak contextueel: of een actie aanvaardbaar is, hangt af van lokale privacynormen, organisatiebeleid en gebruikersverwachtingen die zich verzetten tegen specificatie vóór implementatie. Dit creëert een praktische kloof: barrières moeten zich aanpassen aan hun eigen operationele omgeving, maar feedback tijdens implementatie is doorgaans beperkt tot schaarse, ruisrijke door gebruikers gemelde fouten, en herhaalde fijnafstemming is vaak onpraktisch. Om deze kloof te overbruggen, stellen we LiSA (Lifelong Safety Adaptation) voor, een conservatief beleidsinductiekader dat een vaste basisbarrière verbetert via gestructureerd geheugen. LiSA zet incidentele fouten om in herbruikbare beleidsabstracties zodat schaarse meldingen kunnen generaliseren voorbij individuele gevallen, voegt conflictbewuste lokale regels toe om overgeneralisatie in contexten met gemengde labels te voorkomen, en past bewijsware vertrouwensfiltering toe via een posterieure ondergrens, zodat geheugenhergebruik schaalt met opgehoopt bewijs in plaats van alleen empirische nauwkeurigheid. Over PrivacyLens+, ConFaide+ en AgentHarm heen presteert LiSA consequent beter dan sterke geheugen-gebaseerde basislijnen onder schaarse feedback, blijft robuust onder ruisrijke gebruikersfeedback, zelfs bij 20% label-omkering, en verlegt de latentie-prestatiegrens voorbij die van de ruggengraatmodelschaling. Uiteindelijk biedt LiSA een praktische weg om AI-agenten te beveiligen tegen de onvoorspelbare lange staart van reële randrisico's.
Ondanks snelle vooruitgang zijn huidige tekst-naar-beeld (T2I)-modellen voornamelijk afhankelijk van een eenstapsgeneratieparadigma, dat worstelt met complexe semantiek en te maken heeft met afnemende meeropbrengsten bij het opschalen van parameters. Hoewel recente meerstaps redeneeraanpakken veelbelovend zijn, worden ze belemmerd door ongegronde planningshallucinaties zonder verificatie, monolithische post-hoc reflectie, optimalisatie-instabiliteiten bij lange contexten en onbetaalbare inferentielatentie. Om deze knelpunten te overwinnen, stellen wij het Closed-Loop Visual Reasoning (CLVR)-framework voor, een uitgebreid systeem dat visueel-logische planning diep koppelt aan pixel-niveau diffusiegeneratie. CLVR introduceert een geautomatiseerde data-engine met visuele verificatie per stap om betrouwbare redeneertrajecten te synthetiseren, en stelt Proxy Prompt Reinforcement Learning (PPRL) voor om optimalisatie-instabiliteiten bij lange contexten op te lossen door interleaved multimodale geschiedenissen te destilleren tot expliciete beloningssignalen voor nauwkeurige causale attributie. Verder stellen wij, om de ernstige latentieknelpunt veroorzaakt door iteratieve denoising te verminderen, Δ-Space Weight Merge (DSWM) voor, een theoretisch onderbouwde methode die aligneringsgewichten fuseert met kant-en-klare distillatiepriors, waardoor de kosten per stap worden teruggebracht tot slechts 4 NFE's zonder dure herdistillatie. Uitgebreide experimenten tonen aan dat CLVR bestaande open-source baselines overtreft op meerdere benchmarks en de prestaties van propriëtaire commerciële modellen benadert, waarmee algemene schaalbaarheid tijdens testtijd voor complexe visuele generatie wordt ontsloten.
Gespreksgebaseerde oplichting, zoals romance- en investeringsfraude, komt steeds meer naar voren als een belangrijke vorm van online fraude. In tegenstelling tot eenmalige lokmiddelen zoals neploterijen of onbetaalde tolmeldingen, ontvouwen deze vormen van oplichting zich via meerstapsgesprekken waarin oplichters slachtoffers geleidelijk manipuleren met behulp van evoluerende psychologische technieken. Bestaand onderzoek richt zich echter voornamelijk op statische opsporing van fraude of synthetische oplichting, waardoor de vraag open blijft of taalmodellen kunnen begrijpen hoe echte oplichting zich in de loop van de tijd ontwikkelt. Wij introduceren PreScam, een benchmark voor het modelleren van de progressie van oplichting vanaf vroege gesprekken. Opgebouwd uit door gebruikers ingediende frauderapporten, filtert en structureert PreScam 177.989 ruwe rapporten tot 11.573 voorbeelden van gespreksgebaseerde oplichting, verdeeld over 20 fraudecategorieën. Elk voorbeeld is hiërarchisch gestructureerd volgens de levenscyclus van oplichting zoals gedefinieerd door de voorgestelde scam kill chain, en verder geannoteerd op gespreksniveau met psychologische handelingen van de oplichter en reacties van het slachtoffer. We benchmarken modellen op twee taken: realtime voorspelling van beëindiging, die schat of een gesprek het beëindigingsstadium nadert, en voorspelling van acties van de oplichter, die de volgende acties van de oplichter voorspelt. Resultaten tonen een duidelijke kloof aan tussen oppervlakkige vloeiendheid en modellering van progressie: gesuperviseerde encoders presteren aanzienlijk beter dan zero-shot LLM's bij realtime voorspelling van beëindiging, terwijl voorspelling van de volgende actie slechts matig succesvol blijft, zelfs voor sterke LLM's. Alles bij elkaar genomen laten deze resultaten zien dat huidige modellen enkele fraudegerelateerde aanwijzingen kunnen oppikken, maar nog steeds moeite hebben om bij te houden hoe risico escaleert en hoe manipulatie zich over gespreksbeurten heen ontvouwt.
Tijdreeksvoorspelling is niet louter numerieke extrapolatie, maar vereist vaak redeneren met ongestructureerde contextuele gegevens zoals nieuws of gebeurtenissen. Hoewel gespecialiseerde Tijdreeksfundamentmodellen (TSFM's) uitblinken in het voorspellen op basis van numerieke patronen, blijven ze blind voor real-world tekstuele signalen. Omgekeerd, hoewel LLM's opkomen als nul-shot voorspellers, zijn hun prestaties nog steeds ongelijkmatig over domeinen en contextuele verankering heen. Om deze kloof te overbruggen introduceren we Nexus, een multi-agent voorspellingsraamwerk dat de voorspelling opsplitst in gespecialiseerde fasen: het isoleren van temporele fluctuaties op macro- en microniveau, en het integreren van contextuele informatie wanneer beschikbaar, alvorens een definitieve voorspelling te synthetiseren. Deze ontleding stelt Nexus in staat zich aan te passen van seizoenssignalen tot vluchtige, gebeurtenisgestuurde informatie, zonder te vertrouwen op externe statistische ankers of monolithische prompting. We tonen aan dat huidige generatie LLM's een aanzienlijk sterker intrinsiek voorspellingsvermogen bezitten dan eerder werd erkend, wat cruciaal afhangt van hoe numeriek en contextueel redeneren wordt georganiseerd. Geëvalueerd op data die strikt na de kennisafsluitdata van LLM's valt, variërend van Zillow vastgoedmetrics tot vluchtige aandelenmarktequities, evenaart of overtreft Nexus consistent state-of-the-art TSFM's en sterke LLM-baselines. Naast numerieke nauwkeurigheid produceert Nexus hoogwaardige redeneertraces die expliciet de fundamentele drijvers achter elke voorspelling tonen. Onze resultaten bevestigen dat real-world voorspelling een agentisch redeneerprobleem is dat veel verder gaat dan alleen sequentiemodellering.
Wij introduceren CurveBench, een benchmark voor hiërarchisch topologisch redeneren op basis van visuele input. CurveBench bestaat uit 756 afbeeldingen van paarsgewijs niet-snijdende Jordankrommen, verdeeld over eenvoudige, veelhoekige, door topografie geïnspireerde, doolhofachtige en dichte telconfiguraties. Elke afbeelding is geannoteerd met een gewortelde boom die de bevattingsrelaties tussen planaire gebieden codeert. We formuleren de taak als gestructureerde voorspelling: gegeven een afbeelding moet een model de volledige gewortelde bevattingsboom, veroorzaakt door de krommen, herstellen. Ondanks de visuele eenvoud van de taak, behaalt het best beoordeelde model, Gemini 3.1 Pro, slechts 71,1% boomgeneratienauwkeurigheid op CurveBench-Eenvoudig en 19,1% op CurveBench-Moeilijk. Verder tonen we het nut van de benchmark aan door middel van RLVR-stijl fine-tuning van open-gewicht visie-taalmodellen. Ons getrainde Qwen3-VL-8B-model verbetert ten opzichte van Qwen-3-VL-8B-Denken van 2,8% naar 33,3% boomgeneratienauwkeurigheid op CurveBench-Eenvoudig, waarmee het onder ons evaluatieprotocol GPT-5.4 en Claude Opus 4.5 overtreft. De resterende kloof, met name op CurveBench-Moeilijk, laat zien dat exact topologiebewust visueel redeneren nog lang niet is opgelost.
Visie-Taal-Actie (VLA) modellen vertonen een opmerkelijke flexibiliteit en generalisatie die verder gaat dan klassieke regelparadigma's. De meeste gangbare VLA's worden echter getraind onder een enkel-frame observatieparadigma, waardoor ze structureel blind zijn voor temporele dynamiek. Als gevolg hiervan presteren deze modellen aanzienlijk slechter in niet-stationaire scenario's, zelfs wanneer ze getraind of gefinetuned zijn op dynamische datasets. Bestaande benaderingen vereisen ofwel dure hertraining of hebben te kampen met latentie-knelpunten en slechte temporele consistentie over actiebrokken heen. Wij stellen Pace-and-Path Correction voor, een trainingsvrije, gesloten-vorm inferentietijd-operator die elke VLA met gechunkte acties omhult. Vanuit een enkele kwadratische kostenfunctie levert gezamenlijke minimalisatie een uniforme oplossing die orthogonal uiteenvalt in twee afzonderlijke kanalen. Het pace-kanaal comprimeert de uitvoering langs de geplande richting, terwijl het path-kanaal een orthogonale ruimtelijke verschuiving toepast, waarmee gezamenlijk de waargenomen dynamiek binnen het chunk-venster wordt geabsorbeerd. We evalueren onze aanpak op een uitgebreide diagnostische benchmark, MoveBench, die is ontworpen om beweging als enige gecontroleerde variabele te isoleren. Empirische resultaten tonen aan dat ons raamwerk consequent beter presteert dan state-of-the-art trainingsvrije omhulsels en dynamisch-adaptieve methoden, en de slagingspercentages met respectievelijk tot 28,8% en 25,9% in absolute termen verbetert ten opzichte van fundamentele VLA-modellen in uitsluitend dynamische respectievelijk gemengd statisch-dynamische omgevingen.