Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Multimodale Grote Taalmodellen (MLLM's) hebben de documentverwerking aanzienlijk verbeterd, maar de huidige Doc-VQA-evaluaties beoordelen alleen het uiteindelijke antwoord en laten het ondersteunende bewijs ongemoeid. Deze antwoordgerichte aanpak maskeert een kritieke faalmodus: een model kan het juiste antwoord geven, maar het baseren op de verkeerde passage – een ernstig risico in hoogwaardige domeinen zoals recht, financiën en geneeskunde, waar elke conclusie herleidbaar moet zijn tot een specifieke bronregio. Om dit aan te pakken introduceren wij CiteVQA, een benchmark die vereist dat modellen naast elk antwoord ook omkaderde citaten op elementniveau leveren, waarbij beide gezamenlijk worden geëvalueerd. CiteVQA bestaat uit 1.897 vragen over 711 PDF's uit zeven domeinen en twee talen, met een gemiddelde van 40,6 pagina's per document. Om betrouwbaarheid en schaalbaarheid te waarborgen, worden de grondwaarheidscitaten gegenereerd door een geautomatiseerde pijplijn – die cruciale bewijzen identificeert via maskeringsablatie – en vervolgens gevalideerd door expertbeoordeling. De kern van onze evaluatie is de Strikte Toegeschreven Nauwkeurigheid (SAA), die een voorspelling alleen goedkeurt wanneer zowel het antwoord als het geciteerde gebied correct zijn. Audit van 20 MLLM's onthult een wijdverbreide Attributiehallucinatie: modellen produceren vaak het juiste antwoord terwijl ze naar de verkeerde regio verwijzen. Het sterkste systeem (Gemini-3.1-Pro-Preview) behaalt slechts een SAA van 76,0, en het sterkste opensource-MLLM slechts 22,5. Uiteindelijk, in de richting van betrouwbare documentintelligentie, legt CiteVQA een betrouwbaarheidskloof bloot die antwoordgerichte evaluaties over het hoofd zien, en biedt het de benodigde instrumentatie om deze te dichten. Onze repository is beschikbaar op https://github.com/opendatalab/CiteVQA.
Visie-taal-actiemodellen hebben zich snel ontwikkeld, maar robotbanen alleen bieden beperkte dekking voor het leren van brede fysieke kennis. PhysBrain 1.0 bestudeert een complementaire route: het omzetten van grootschalige menselijke egocentrische video naar gestructureerde fysieke common sense-supervisie vóór robotaanpassing. Onze data-engine extraheert scène-elementen, ruimtelijke dynamiek, actie-uitvoering en dieptebewuste relaties, en zet deze vervolgens om in vraag-antwoordsupervisie voor het trainen van PhysBrain VLM's. De resulterende fysieke voorkennis wordt verder overgedragen naar VLA-beleid via een capaciteitsbehoudend en taalgevoelig aanpassingsontwerp. Over multimodale QA-benchmarks en embodied control-benchmarks, waaronder ERQA, PhysBench, SimplerEnv-WidowX, LIBERO en RoboCasa, behaalt PhysBrain 1.0 SOTA-resultaten en vertoont het bijzonder sterke out-of-domain-prestaties op SimplerEnv. Deze resultaten suggereren dat het opschalen van fysieke common sense uit menselijke interactievideo een effectieve brug kan vormen van multimodaal begrip naar robotactie.
Herbruikbare vaardigheden zijn een kernsubstraat geworden voor het verbeteren van agentcapaciteiten, maar de meeste bestaande vaardigheidspakketten coderen herbruikbaar gedrag voornamelijk als tekstuele prompts, uitvoerbare code of aangeleerde routines. Voor visuele agenten is procedurele kennis echter inherent multimodaal: hergebruik hangt niet alleen af van welke operatie moet worden uitgevoerd, maar ook van het herkennen van de relevante toestand, het interpreteren van visueel bewijs van voortgang of falen, en het beslissen wat te doen. We formaliseren deze vereiste als multimodale procedurele kennis en behandelen drie praktische uitdagingen: (I) wat een multimodaal vaardigheidspakket zou moeten bevatten; (II) waar dergelijke pakketten kunnen worden afgeleid van publieke interactie-ervaring; en (III) hoe agenten multimodaal bewijs kunnen raadplegen tijdens inferentie zonder overmatige beeldcontext of overmatige verankering aan referentieschermafbeeldingen. We introduceren MMSkills, een raamwerk voor het representeren, genereren en gebruiken van herbruikbare multimodale procedures voor visuele besluitvorming tijdens runtime. Elke MMSkill is een compact, toestandsafhankelijk pakket dat een tekstuele procedure koppelt aan runtime-toestandskaarten en multi-view keyframes. Om deze pakketten te construeren, ontwikkelen we een agentische traject-naar-vaardigheid Generator die publieke niet-evaluatietrajecten transformeert in herbruikbare multimodale vaardigheden door workflowgroepering, procedure-inductie, visuele verankering en meta-vaardigheid-gestuurde auditing. Om ze te gebruiken, introduceren we een branch-geladen multimodale vaardigheidsagent: geselecteerde toestandskaarten en keyframes worden geïnspecteerd in een tijdelijke branch, afgestemd op de live-omgeving, en gedestilleerd tot gestructureerde richtlijnen voor de hoofdagent. Experimenten op GUI- en game-gebaseerde visuele-agent benchmarks tonen aan dat MMSkills zowel frontier- als kleinere multimodale agenten consistent verbetert, wat suggereert dat externe multimodale procedurele kennis model-interne priori aanvult.
Mensgerichte videocustomisatie, met name op kledingstukniveau, heeft aanzienlijke commerciële waarde getoond. Bestaande benaderingen kunnen echter geen lage latentie en interactieve controle over kledingstukken bieden, wat cruciaal is voor toepassingen zoals e-commerce en contentcreatie. Dit artikel onderzoekt hoe interactieve videocustomisatie met meerdere kledingstukken kan worden gerealiseerd, met behoud van bewegingscoherentie, waarbij alleen videogegevens van één kledingstuk worden gebruikt. We presenteren FashionChameleon, een real-time en interactief raamwerk voor mens-kledingstuk-customisatie in autoregressieve videogeneratie, waarbij gebruikers tijdens de generatie interactief kunnen wisselen van kledingstuk. FashionChameleon bestaat uit drie kerntechnieken: (i) In plaats van te trainen op videogegevens met meerdere kledingstukken, trainen we een Leraarmodel met In-Context-Leren op een enkel referentie-kledingstuk-paar. Door het beeld-naar-video-trainingsparadigma te behouden en tegelijkertijd een mismatch tussen de referentie en de kledingstukafbeelding af te dwingen, wordt het model aangemoedigd om impliciet coherentie te behouden tijdens het wisselen van een enkel kledingstuk. (ii) Om consistentie en efficiëntie tijdens de generatie te bereiken, introduceren we Streaming Destillatie met In-Context-Leren, waarbij het model wordt verfijnd met in-context teacher forcing en de extrapolatieconsistentie wordt verbeterd via gradiënt-herwogen distributie-matching destillatie. (iii) Om het model uit te breiden voor interactieve videocustomisatie met meerdere kledingstukken, stellen we Training-Vrije KV-Cache-Herschikking voor, die bestaat uit het verversen van de kledingstuk-KV, het intrekken van historische KV en het ontwarren van referentie-KV om het wisselen van kledingstuk te realiseren met behoud van bewegingscoherentie. Onze FashionChameleon ondersteunt uniek interactieve customisatie en consistente extrapolatie van lange video's, terwijl real-time generatie wordt bereikt met 23,8 FPS op een enkele GPU, 30-180 keer sneller dan bestaande baselines.
On-policy destillatie (OPD) is naar voren gekomen als een efficiënt post-training paradigma voor grote taalmodellen. Bestaande studies schrijven dit voordeel echter grotendeels toe aan dichtere en stabielere supervisie, terwijl de mechanismen op parameterniveau die ten grondslag liggen aan de efficiëntie van OPD nog slecht worden begrepen. In dit werk stellen we dat de efficiëntie van OPD voortkomt uit een vorm van 'vooruitziendheid': het vestigt vroeg in de training een stabiel updatetraject richting het uiteindelijke model. Deze vooruitziendheid uit zich in twee aspecten. Ten eerste, op het niveau van moduletoewijzing, identificeert OPD gebieden met een laag marginaal nut en concentreert het updates op modules die kritischer zijn voor redeneren. Ten tweede, op het niveau van updaterichting, vertoont OPD een sterkere lage-rangconcentratie, waarbij de dominante deelruimten vroeg in de training nauw aansluiten bij de uiteindelijke updateruimte. Voortbouwend op deze bevindingen stellen we EffOPD voor, een plug-and-play versnellingsmethode die OPD versnelt door adaptief een extrapolatiestapgrootte te selecteren en langs de huidige updaterichting te bewegen. EffOPD vereist geen extra trainbare modules of complexe hyperparameterafstelling en behaalt een gemiddelde trainingsversnelling van 3 keer, terwijl de uiteindelijke prestaties vergelijkbaar blijven. Over het geheel genomen bieden onze bevindingen een perspectief op parameterdynamiek voor het begrijpen van de efficiëntie van OPD en praktische inzichten voor het ontwerpen van efficiëntere post-training methoden voor grote taalmodellen.
Het bereiken van manipulatie op menselijk niveau vereist behendige robot handen die complexe interacties met objecten kunnen uitvoeren. Het verder bevorderen van dergelijke capaciteiten vraagt om gestandaardiseerde benchmarks voor systematische evaluatie. Echter, bestaande benchmarks voor behendigheid missen taken die de unieke manipulatiemogelijkheden van behendige handen ten opzichte van parallelle grijpers weerspiegelen, evenals uitgebreide evaluatiepijplijnen. In dit artikel presenteren we DexJoCo, een benchmark en toolkit voor taakgerichte behendige manipulatie, bestaande uit 11 functioneel gefundeerde taken die gereedschapsgebruik, bimanuele coördinatie, uitvoering over een lange horizon en redeneren evalueren. We ontwikkelen een goedkoop dataverzamelingssysteem en verzamelen 1.1K trajecten over deze taken, met ondersteuning voor domeinrandomisatie om robuustheid te beoordelen. We benchmarken moderne modellen onder diverse instellingen, waaronder visuele en dynamische randomisatie, multi-taak training en action-head aanpassing. Door middel van uitgebreide empirische analyse identificeren we verscheidene belangrijke inzichten en veelvoorkomende beperkingen van huidige beleidsstrategieën in behendige manipulatie, wat de belangrijkste uitdagingen voor toekomstig onderzoek naar robot leren met behendige handen benadrukt. Projectpagina beschikbaar op: https://dexjoco.github.io
Het distilleren van grote redeneermodellen is essentieel om Long-CoT-redeneren praktisch toepasbaar te maken, aangezien volledige inferentie rekentechnisch onbetaalbaar blijft. Bestaande curatie-gebaseerde benaderingen selecteren post-hoc volledige redeneersporen, waarbij samenwerking tussen heterogene leraren over het hoofd wordt gezien en dynamische exploratie ontbreekt, wat leidt tot redundante bemonstering en gemist complementair redeneren. We introduceren CoRD, een collaboratief multi-teacher decodingframework dat stapsgewijze redeneersynthese uitvoert, gestuurd door predictieve perplexity-gebaseerde scoring en beam search. Hierdoor kunnen heterogene LRM's gezamenlijk coherente redeneertrajecten opbouwen, terwijl diverse, veelbelovende hypothesen efficiënt behouden blijven. Experimenten tonen aan dat CoRD redeneergegevens van hogere kwaliteit produceert en met minder, gestructureerde supervisiesignalen prestaties op bijna leraarsniveau bij studenten bereikt, zonder aanzienlijke efficiëntieoverhead. CoRD generaliseert verder goed naar buitendomein- en open-einde-instellingen. De dataset en het model zijn beschikbaar op https://github.com/DISL-Lab/CoRD.
Tekst en gezichten behoren tot de meest perceptueel opvallende en praktisch belangrijke patronen in visuele generatie, maar ze blijven een uitdaging voor autoregressieve generatoren die zijn gebouwd op discrete tokenisatie. Een centrale bottleneck is de tokenizer: agressieve downsampling en kwantisatie gooien vaak de fijnmazige structuren weg die nodig zijn om leesbare glyphs en onderscheidende gezichtskenmerken te behouden. We schrijven deze kloof toe aan het feit dat standaard discrete-tokenizerdoelstellingen zwak zijn afgestemd op tekstleesbaarheid en gezichtsgetrouwheid, aangezien deze doelstellingen typisch generieke reconstructie optimaliseren terwijl ze diverse inhoud uniform comprimeren. Om dit aan te pakken, stellen we InsightTok voor, een eenvoudig maar effectief raamwerk voor discrete visuele tokenisatie dat de getrouwheid van tekst en gezichten verbetert door middel van gelokaliseerde, inhoudsbewuste perceptuele verliezen. Met een compact codeboek van 16k en een downsamplingfactor van 16x presteert InsightTok significant beter dan eerdere tokenizers in tekst- en gezichtsreconstructie zonder de algemene reconstructiekwaliteit in gevaar te brengen. Deze winsten worden consistent overgedragen naar autoregressieve beeldgeneratie in InsightAR, wat beelden oplevert met duidelijkere tekst en getrouwere gezichtsdetails. Over het geheel genomen benadrukken onze resultaten het potentieel van gespecialiseerde supervisie in tokenizer-training voor het bevorderen van discrete beeldgeneratie.
Group Relative Policy Optimization is essentieel geworden voor het afstemmen van videodiffusiemodellen op menselijke voorkeuren, maar kent een kritieke rekenkundige bottleneck: het trainen van een model met 14 miljard parameters vereist doorgaans honderden GPU-dagen per experiment. Bestaande efficiëntiemethoden verlagen de kosten door subsampling met een schuivend venster van trainingsstappen, maar doen fundamenteel afbreuk aan de optimalisatie, wat leidt tot ernstige instabiliteit en het niet behalen van volledige trajectprestaties. Wij presenteren Flash-GRPO, een enkelstaps trainingsraamwerk dat onder lage rekenbudgetten de afstemmingskwaliteit van volledige trajecttraining overtreft en tegelijkertijd de trainingsefficiëntie aanzienlijk verbetert. Flash-GRPO pakt twee kritieke uitdagingen aan: iso-temporele groepering elimineert door tijdsstappen veroorzaakte variantie door temporele consistentie per prompt af te dwingen, waardoor beleidsprestaties worden ontkoppeld van de moeilijkheidsgraad van tijdsstappen; temporele gradientcorrectie neutraliseert de tijdsafhankelijke schaalfactor die zorgt voor sterk inconsistente gradientgroottes over tijdsstappen heen. Experimenten met modellen van 1,3 tot 14 miljard parameters valideren de effectiviteit van Flash-GRPO, met een aanzienlijke trainingsversnelling bij consistente stabiliteit en state-of-the-art afstemmingskwaliteit.
Reinforcement learning met verifieerbare beloningen (RLVR) is naar voren gekomen als een schaalbaar paradigma voor het verbeteren van de redeneercapaciteiten van grote taalmodellen. De effectiviteit ervan wordt echter fundamenteel beperkt door exploratie: het beleid kan alleen verbeteren op trajecten die het al heeft bemonsterd. Hoewel het verhogen van het aantal rollouts dit probleem verlicht, is dergelijke brute-force schaling rekenkundig duur, en bestaande benaderingen die de optimalisatiedoelstelling wijzigen bieden beperkte controle over wat er wordt onderzocht. In dit werk stellen we NudgeRL voor, een raamwerk voor gestructureerde en diversiteitsgedreven exploratie in RLVR. Onze aanpak introduceert Strategie-Nudging, waarbij elke rollout wordt geconditioneerd op lichtgewicht contexten op strategieniveau om diverse redeneertrajecten te induceren zonder afhankelijk te zijn van dure orakelsupervisie. Om effectief te leren van dergelijke gestructureerde exploratie, stellen we verder een uniforme doelstelling voor, die het beloningssignaal ontleedt in inter- en intra-context componenten en een distillatiedoelstelling integreert om ontdekte gedragingen terug te dragen naar het basisbeleid. Empirisch gezien presteert NudgeRL beter dan standaard GRPO met tot 8 keer grotere rolloutbudgetten, terwijl het gemiddeld beter presteert dan de orakelgestuurde RL-baseline op vijf uitdagende wiskundebenchmarks. Deze resultaten tonen aan dat gestructureerde, contextgedreven exploratie kan dienen als een efficiënt en schaalbaar alternatief voor zowel brute-force rollouts-schaling als haalbaarheidsgerichte methoden op basis van bevoorrechte informatie. Onze code is beschikbaar op https://github.com/tally0818/NudgeRL.
Huidige spelwereldmodellen simuleren omgevingen vanuit een subjectief, spelergericht perspectief. Echter, door de non-player character (NPC) louter als achtergrondpixels te beschouwen, kunnen deze modellen geen interacties tussen de speler en de NPC vastleggen. In die zin fungeren ze als passieve videorenderers in plaats van echte simulatoren, omdat ze het fysieke begrip missen dat nodig is om actie-geïnduceerde reacties van NPC's te modelleren. We introduceren ReactiveGWM, een reactief spelwereldmodel dat dynamische interacties tussen de speler en de NPC synthetiseert. In plaats van alle interactiedynamieken te verstrengelen, ontkoppelt ReactiveGWM expliciet de besturing van de speler van het gedrag van de NPC. Speleracties worden via een lichtgewicht additieve bias in de diffusie-backbone geïnjecteerd, terwijl hoog-niveau NPC-reacties (bijv. Aanval, Controle, Verdediging) worden verankerd via cross-attention-modules. Cruciaal is dat deze modules een spelagnostische representatie van interactieve logica leren. Dit maakt zero-shot strategieoverdracht mogelijk: onze getrainde modules kunnen direct worden ingepast in kant-en-klare, niet-geannoteerde wereldmodellen van verschillende spellen. Dit maakt direct stuurbare NPC-interacties mogelijk zonder domeinspecifieke hertraining. Geëvalueerd op twee Street Fighter-spellen, behoudt ReactiveGWM fijnmazige bestuurbaarheid voor de speler terwijl het robuuste, prompt-afgestemde naleving van de NPC-strategie bereikt, wat de weg vrijmaakt voor schaalbare, strategierijke interactie met de NPC.
Groepsrelatieve Beleidsoptimalisatie (GRPO) verbetert grote taalmodellen door voordelen te schatten over een groep gesamplede trajecten. Het mappen van deze voordelen op trajectniveau naar beleidsupdates vereist echter aggregatie van kansen op token-niveau binnen elke sequentie. Vertrouwen op een vast aggregatiemechanisme voor deze stap beperkt fundamenteel de aanpasbaarheid van het algoritme. Empirisch observeren we een kritieke afweging: bepaalde vaste aggregaties lijden vaak onder instorting van de training, terwijl andere geen bevredigende prestaties opleveren. Om dit op te lossen stellen we HölderPO voor, een gegeneraliseerd beleidsoptimalisatieraamwerk dat kansenaggregatie op token-niveau verenigt via het Hölder-gemiddelde. Door expliciet de parameter p te moduleren, biedt ons raamwerk continue controle over de afweging tussen gradiëntconcentratie en variantiegrenzen. Theoretisch bewijzen we dat een grotere p de gradiënt concentreert om schaarse leersignalen te versterken, terwijl een kleinere p de gradiëntvariantie strikt begrenst. Omdat geen statische configuratie deze concentratie-stabiliteitsafweging universeel kan oplossen, instantiëren we het raamwerk met een dynamisch annealeringsalgoritme dat p progressief inplant over de trainingslevenscyclus. Uitgebreide evaluaties tonen superieure stabiliteit en convergentie aan ten opzichte van bestaande baselines. Specifiek behaalt onze aanpak een state-of-the-art gemiddelde nauwkeurigheid van 54,9% over meerdere wiskundige benchmarks, wat een substantiële relatieve winst van 7,2% oplevert ten opzichte van standaard GRPO en een uitzonderlijk succespercentage van 93,8% op ALFWorld.
Grote taalmodellen (LLM's) hebben nog steeds moeite met de strenge redeneerveristen van moeilijk competitief programmeren. Hoewel recente multi-agent frameworks proberen deze betrouwbaarheidskloof te overbruggen, blijven ze fundamenteel staatloos: ze vertrouwen op statische retrieval en verwaarlozen de waardevolle probleemoplossings- en debugervaring die is opgedaan bij eerdere taken. Om dit aan te pakken presenteren we Solvita, een agentisch evolutieraamwerk dat continu leren mogelijk maakt zonder gewichtsupdates aan het onderliggende LLM te vereisen. Solvita herstructureert probleemoplossing in een gesloten-lussysteem van strategie selectie, programmasynthese, gecertificeerde supervisie en gericht hacken, uitgevoerd door vier gespecialiseerde agenten: Planner, Oplosser, Oracle en Hacker. Cruciaal is dat elke agent is gekoppeld aan een trainbaar, grafisch gestructureerd kennissnetwerk. Naarmate het systeem werkt, worden uitkomstsignalen, zoals pass/fail oordelen, de kwaliteit van testcertificering en adversariële kwetsbaarheden ontdekt door de Hacker, omgezet in reinforcement learning-updates van deze netwerkgewichten. Hierdoor kunnen de agenten toekomstige queries dynamisch routeren op basis van eerdere successen en mislukkingen, waardoor ze effectief overdraagbare redeneerervaring in de loop van de tijd accumuleren. Geëvalueerd op CodeContests, APPS, AetherCode en live Codeforces-rondes, vestigt Solvita een nieuwe state-of-the-art voor codegeneratie-agenten, beter presterend dan bestaande multi-agent pipelines en bijna de nauwkeurigheid van single-pass basislijnen verdubbelend.
Moderne beeldbewerkingsmodellen produceren realistische resultaten, maar hebben moeite met abstracte, meerstapsinstructies (bijv. "maak deze advertentie vegetarischer"). Eerdere agentgebaseerde methoden decomponeren dergelijke taken, maar zijn afhankelijk van handgemaakte pijplijnen of leraarimitatie, wat de flexibiliteit beperkt en het leren loskoppelt van daadwerkelijke bewerkingsresultaten. Wij stellen een ervaringsgericht framework voor voor beeldbewerking over lange horizon, waarbij een planner gestructureerde atomaire decomposities genereert en een orkestrator gereedschappen en regio's selecteert om elke stap uit te voeren. Een visueel-taalkundige rechter verschaft resultaatgerichte beloningen voor instructienaleving en visuele kwaliteit. De orkestrator wordt getraind om deze beloningen te maximaliseren, en succesvolle trajecten worden gebruikt om de planner te verfijnen. Door planning nauw te koppelen aan beloningsgestuurde uitvoering, levert onze aanpak coherentere en betrouwbaardere bewerkingen op dan eenstaps- of regelgebaseerde meerstapsbaselines.
Grote visie-taalmodellen hebben GUI-agenten aanzienlijk verbeterd, waardoor uitvoerbare interactie via web-, mobiele en desktop-omgevingen mogelijk is. Toch zijn deze winsten grotendeels gebaseerd op een tolerant regio-paradigma, waarin veel naburige pixels binnen hetzelfde onderdeel geldig blijven. Nauwkeurige geometrische constructie doorbreekt deze aanname: handelingen moeten op punten in een continue canvasruimte landen in plaats van op tolerante regio's. Omdat geometrische primitieven ontologische afhankelijkheden met zich meebrengen, kan een lokale coördinatenfout cascaderende topologische storingen veroorzaken die downstream-objecten vervormen en de uiteindelijke constructie ongeldig maken. We identificeren dit regime als precisiegevoelige GUI-taken, die nauwkeurigheid op puntniveau, geometriebewuste verificatie en robuustheid tegen door afhankelijkheden gedreven foutpropagatie vereisen. Om dit te benchmarken introduceren we PAGE Bench, met 4.906 problemen en meer dan 224K proces-gesuperviseerde, pixel-niveau GUI-acties. Verder stellen we PAGER voor, een topologiebewuste agent die constructie ontleedt in afhankelijkheidsgestructureerde planning en uitvoering op pixelniveau. Pixel-grondige gesuperviseerde afstemming vestigt een uitvoerbare actiegrammatica, terwijl precisie-uitgelijnde reinforcement learning de door rollouts veroorzaakte exposure bias vermindert via toestandsafhankelijke geometrische feedback. Experimenten onthullen een duidelijke Semantisch-Executiekloof: algemene multimodale modellen kunnen meer dan 88% actietype-nauwkeurigheid behalen, maar blijven onder 6% taaksucces. PAGER overbrugt deze kloof en levert een 4,1x hoger taaksucces dan de sterkste geëvalueerde algemene basislijn, en verhoogt de stapsuccesratio van onder 9% voor GUI-gespecialiseerde agenten naar meer dan 62%, waarmee een nieuwe state-of-the-art voor puntprecieze GUI-controle wordt gevestigd.
Modern 3D-visueel leren is afhankelijk van waarnemingen die zijn gesampled uit metrische 3D-assets, maar bestaande scans, meshes, puntenwolken, simulaties en reconstructies bieden niet direct een schaarse, vergelijkbare en geometrie-consistente panoramische trainingsinterface. Dichte trajecten dupliceren nabijgelegen aanzichten, bronspecifieke renderingstrategieën leveren heterogene annotaties op, en schaarse heuristieken kunnen belangrijke regio's missen of diepte-inconsistente waarnemingen introduceren. We onderzoeken hoe we 3D-assets kunnen omzetten in schaarse panoramische RGB-D-pose-data die volledige scènedekking behouden met lage redundantie en controleerbare herkomst. We stellen COVER (Coverage-Oriented Viewpoint curation with ERP Range-depth warping) voor, een trainingsvrije ERP-aanzichtcurator die geometrie waargenomen vanuit geselecteerde aanzichten projecteert in kandidaat-ERP-probes, incrementele dekking scoort en dieptoconflicten bestraft. Onder begrensde proxyfout behoudt de hebzuchtige dekkingsproxy het standaard dekkingsachtige benaderingsgedrag tot op een additieve foutterm. Met COVER bouwen we CM-EVS (Coverage-curated Metric ERP View Set), een panoramische RGB-D-pose-dataset met 36.373 gecureerde ERP-frames uit 1.275 binnenscènes van Blender indoor, HM3D en ScanNet++, aangevuld met buitenscènespanorama's van TartanGround en OB3D die opnieuw zijn gecodeerd in hetzelfde schema. Elk frame biedt volbol-RGB, metrische diepte en gekalibreerde pose; door COVER geproduceerde binnenscèneframes bevatten stapsgewijze herkomstlogs. Met een mediaan van slechts 25 frames per binnenscène dekt CM-EVS alle 13 uniforme kamertypen, met behoud van compacte scènedekking. Experimenten tonen aan dat COVER de dekking-conflict-afweging verbetert, waardoor CM-EVS een schaarse, compacte en controleerbare RGB-D-pose-bron wordt voor geometrie-consistent panoramisch 3D-leren.
Visie-Taalmodellen (VLMs) excelleren in 2D-taken zoals grounding en captioning, maar blijven beperkt in 3D-begrip. Een belangrijke beperking is hun uitsluitend tekstgebaseerde supervisieparadigma, dat fijnmazige visuele waarneming onvoldoende reguleert en het herstel van dichte geometrie verhindert. Eerdere methoden destilleren ofwel geometrie uit externe visiemodellen, wat leidt tot foutaccumulatie, of maken directe voorspelling mogelijk met inefficiënte per-pixel-query's of grove uitvoer op token-niveau. In dit artikel stellen we DepthVLM voor, een eenvoudig maar effectief raamwerk dat een enkel VLM omvormt tot een native voorspeller van dichte geometrie, terwijl de multimodale capaciteit behouden blijft. Door een lichtgewicht dieptehoofd aan de LLM-ruggengraat te bevestigen en te trainen onder een verenigd visie-tekst supervisieparadigma met een tweetraps schema, genereert DepthVLM dieptekaarten van volledige resolutie samen met taaluitvoer in een enkele voorwaartse doorgang. We introduceren verder een verenigde metrische dieptebenchmark voor binnen- en buitenscènes in een VLM-compatibel formaat. Experimenten tonen aan dat DepthVLM aanzienlijk beter presteert dan bestaande VLMs met hogere inferentie-efficiëntie, toonaangevende pure visiemodellen overtreft en complexe 3D-ruimtelijke redenering verbetert, waarmee het een stap zet richting een werkelijk verenigd funderingsmodel. Alle code en checkpoints zullen openbaar worden vrijgegeven.
Automatische multi-agentsystemen (MAS) streven ernaar agentworkflows te instantiëren zonder afhankelijk te zijn van handmatig ontworpen of vaste orkestratie. Bestaande automatische MAS-benaderingen blijven echter slechts gedeeltelijk adaptief: ze voeren ofwel training-vrije testtijdzoekopdrachten uit, ofwel optimaliseren de meta-ontwerper terwijl stroomafwaartse uitvoeringsagenten bevroren blijven, wat een plafond van bevroren uitvoerders creëert en de end-to-end training van zelfontwerpende en zelfuitvoerende agentische modellen onontgonnen laat. Om dit aan te pakken introduceren we MetaAgent-X, een end-to-end reinforcement learning raamwerk dat automatisch MAS-ontwerp en -uitvoering gezamenlijk optimaliseert. MetaAgent-X maakt scriptgebaseerde MAS-generatie, verzameling van uitvoeringsrollouts en krediettoewijzing voor zowel ontwerper- als uitvoerderstrajecten mogelijk. Om stabiele en schaalbare optimalisatie te ondersteunen, stellen we Executor Designer Hierarchical Rollout en Stagewise Co-evolution voor om de trainingsstabiliteit te verbeteren en de dynamiek van ontwerper-uitvoerder co-evolutie bloot te leggen. MetaAgent-X presteert consistent beter dan bestaande automatische MAS-baselines, met winsten tot 21,7%. Uitgebreide ablatiestudies tonen aan dat zowel ontwerper als uitvoerder verbeteren gedurende de training, en dat effectief automatisch MAS-leren een stapsgewijs co-evolutieproces volgt. Deze resultaten vestigen end-to-end trainbare automatische MAS als een praktisch paradigma voor het bouwen van zelfontwerpende en zelfuitvoerende agentische modellen.
Actiesturing is een populaire white-box controletechniek die modelactivaties aanpast om een abstracte gedragsverandering teweeg te brengen. Het is tevens een standaardinstrument geworden in interpreteerbaarheidsonderzoek (bijv. het onderzoeken van waarachtigheid of het vertalen van activaties naar menselijk leesbare verklaringen) en veiligheidsonderzoek (bijv. jailbreakbaarheid). Het is echter onduidelijk of gestuurd gedrag door middel van een tekstuele prompt kan worden gerealiseerd. In dit werk formuleren we deze vraag als een surjectiviteitsprobleem: voor een vast model, bezit elke gestuurde activatie een origineel beeld onder de natuurlijke voorwaartse doorgang van het model? Onder praktische aannames bewijzen we dat actiesturing de residustroom van de variëteit van toestanden afduwt die vanuit discrete prompts bereikbaar zijn. Vrijwel zeker kan geen prompt hetzelfde interne gedrag reproduceren dat door sturing wordt geïnduceerd. We illustreren deze bevinding ook empirisch voor drie veelgebruikte grote taalmodellen. Onze resultaten stellen een formeel onderscheid vast tussen white-box bestuurbaarheid en black-box prompting. We waarschuwen daarom tegen het interpreteren van het gemak en het succes van actiesturing als bewijs van prompt-gebaseerde interpreteerbaarheid of kwetsbaarheid, en pleiten voor evaluatieprotocollen die white-box- en black-box-interventies expliciet ontkoppelen.
Het monitoren van complexe industriële activa is afhankelijk van door ingenieurs geschreven symbolische regels die worden geactiveerd op basis van sensorcondities en technici ertoe aanzetten corrigerende acties uit te voeren. De bottleneck is niet detectie maar respons: het vertalen van regels naar onderhoudsstappen vereist activaspecifieke kennis die door jarenlange praktijkervaring is verworven. We onderzoeken of LLMs kunnen dienen als beslissingsondersteuning voor deze regel-naar-actie-stap en introduceren een benchmark van 6.690 door experts gevalideerde meerkeuzevragen uit 118 regel-actie-paren over 16 activatypen. We dragen bij: (i) een symbolisch-naar-MCQA-pijplijn die regels normaliseert naar Disjunctieve Normaalvorm met op embeddings gebaseerde afleidersteekproefneming, (ii) vijf varianten die verschillende faalmodi onderzoeken (Pro, Pert, Verbose, Aug, Rationale), en (iii) een benchmark van 29 LLMs en 4 baseline-embeddings. Een humanevaluatie (9 praktijkmensen, gemiddeld 45,0%) bevestigt dat specialistische kennis vereist die verder gaat dan operationele ervaring. Drie bevindingen springen eruit. De grens is gesloten: de top drie LLMs liggen binnen één Macro-punt, waarbij Bradley-Terry Elo claude-opus-4-6 30 punten boven het volgende model plaatst. Toch onthult Pro broosheid: elk model verliest 13–60% relatieve nauwkeurigheid bij uitbreiding van afleiders. Aug onthult patroonherkenning: bij conditie-inversie selecteren de grensmodelen nog steeds 49–63% van de tijd het oorspronkelijke antwoord. De implementatie-bottleneck is niet capaciteit maar kalibratie: grensmodelen kunnen sjabloonachtige foutdetectie aan, maar falen bij structurele perturbatie.
De recente vooruitgang van Vision Language Action (VLA)-modellen heeft een kritieke vraag naar grootschalige egocentrische datasets aangewakkerd. Bestaande datasets worden echter vaak beperkt door korte episode-duur, doorgaans slechts enkele minuten, waardoor de temporele afhankelijkheden op lange termijn die nodig zijn voor complexe robottaakuitvoering niet worden vastgelegd. Om deze kloof te overbruggen presenteren we MobileEgo Anywhere, een raamwerk dat is ontworpen om het verzamelen van robuuste, meer dan een uur durende egocentrische trajecten mogelijk te maken met behulp van alledaagse mobiele hardware. We maken gebruik van de alomtegenwoordige sensorsuites van moderne smartphones om hoogwaardige, langdurige camerapositietracking te bieden, waardoor de hoge hardwarebarrières die gepaard gaan met traditionele robotica-datacollectie effectief worden geëlimineerd. Onze bijdragen zijn driedelig: (1) we publiceren een nieuwe dataset bestaande uit 200 uur aan diverse, langdurige egocentrische data met persistente toestandtracking; (2) we brengen een mobiele applicatie als open source uit waarmee elke gebruiker egocentrische data kan opnemen; en (3) we bieden een uitgebreide verwerkingspijplijn om ruwe mobiele opnames om te zetten in gestandaardiseerde, trainingsgereed formaten voor onderzoek naar Vision Language Action-modellen en funderingsmodellen. Door het democratiseren van het datacollectieproces maakt dit werk de verwerving op massale schaal van data over lange horizonten in uiteenlopende mondiale omgevingen mogelijk, wat de ontwikkeling van generaliseerbare robotica-beleidslijnen versnelt.
De beeldgeneratie in weinig stappen heeft een snelle vooruitgang geboekt, waarbij op consistentie en meanflow gebaseerde methoden het aantal bemonsteringsstappen aanzienlijk hebben verminderd. Ondanks hun lage inferentiekosten hebben deze benaderingen vaak te kampen met trainingsinstabiliteit en beperkte schaalbaarheid. Sphere Encoder is een recent alternatief dat in slechts enkele stappen hoogwaardige afbeeldingen produceert; het vereist echter herhaalde overgangen tussen de pixelruimte en de latente ruimte tijdens de inferentie, terwijl reconstructie en generatie gezamenlijk worden geoptimaliseerd binnen één architectuur. Dit ontwerp leidt tot computationele inefficiëntie en een objectiefconflict tussen reconstructie en generatie. Om deze beperkingen aan te pakken, ontkoppelen we het raamwerk in een vaste voorgetrainde beeldencoder en een apart latent onruismodel dat volledig wordt getraind in een bolvormige latente ruimte. Onze aanpak elimineert herhaalde bewerkingen in de pixelruimte tijdens training en inferentie, waardoor de efficiëntie toeneemt en reconstructie en generatie onafhankelijk kunnen specialiseren. Op de datasets Animal-Faces, Oxford-Flowers en ImageNet-1K presteert onze methode significant beter dan Sphere Encoder, zowel wat betreft generatiekwaliteit als inferentiesnelheid, terwijl concurrerende resultaten worden behaald ten opzichte van sterke weinige-stap- en meerstap-basislijnen.
Grootschalige voorgetrainde visie-taalmodelen zoals CLIP vertonen een opmerkelijke zero-shot prestatie in diverse taken. Echter, het finetunen van deze modellen om de downstream-prestaties te verbeteren, vermindert vaak de robuustheid tegen distributieverschuivingen. Recente benaderingen hebben geprobeerd deze afweging te verminderen, maar vertrouwen vaak op rekenintensieve tekstbegeleiding. We stellen een nieuwe methode voor robuust finetunen voor, SAE-FT, die alleen werkt op de visuele representaties van het model. SAE-FT regulariseert veranderingen aan deze representaties door het toevoegen en verwijderen van semantisch betekenisvolle kenmerken, geïdentificeerd door een Sparse Autoencoder getraind op het voorgetrainde model, te bestraffen. Deze beperking voorkomt catastrofaal vergeten en maakt het finetuneproces interpreteerbaar, wat directe analyse van semantische veranderingen mogelijk maakt. SAE-FT is zowel mechanistisch transparant als rekenefficiënt, en evenaart of overtreft de state-of-the-art prestaties op ImageNet en de bijbehorende distributieverschuivingsbenchmarks. Code is openbaar beschikbaar op: https://github.com/Fabian-Mor/sae-ft.
Avatarenreconstructie is traditioneel afhankelijk geweest van per-subject optimalisatie die uren aan rekenkracht vereist, of van dure voorbewerking die de schaalbaarheid beperkt. We introduceren FFAvatar, een generaliseerbaar feed-forward raamwerk dat in seconden hoogwaardige, animeerbare 3D-Gaussiaanse hoofadavatars reconstrueert uit enkele niet-geposeerde portretafbeeldingen. FFAvatar fuseert informatie uit meerdere bronafbeeldingen in een uniforme canonieke Gaussiaanse representatie via Multi-View Query-Former, die wordt geanimeerd via FLAME-parameters die end-to-end direct uit pixels worden voorspeld, waardoor de overhead van offline FLAME-extractie wordt geëlimineerd. We stellen verder een driefasig trainingscurriculum voor dat zowel brede generalisatie als reconstructie met hoge getrouwheid bereikt: (i) schaalbare voortraining op uitgebreide monoscopische videogegevens met meer dan 1 miljoen identiteiten om sterke generaliseerbare prioriën te leren; (ii) multi-view fine-tuning op een kleine maar hoogwaardige dataset van 360-graden opnames om geometrische getrouwheid en bewustzijn van extreme aanzichten te verbeteren; en (iii) optionele personalisatie die zich aanpast aan specifieke identiteiten voor maximale getrouwheid binnen 500 optimalisatiestappen. Uitgebreide experimenten tonen aan dat FFAvatar een nieuwe standaard zet voor identiteitsbehoud, geometrische consistentie en animatiegetrouwheid. Op de NeRSemble benchmark overtreft het de state-of-the-art LAM met een aanzienlijke PSNR-winst van 5,5. Bovendien maakt FFAvatar real-time implementatie mogelijk, waarbij avatars worden gereconstrueerd in 2 seconden zonder personalisatie en 10 seconden met personalisatie, terwijl het 49 FPS animatie ondersteunt op een enkele NVIDIA A100 GPU.
Op grote taalmodellen gebaseerde agenten falen vaak in onbekende omgevingen door vroegtijdige exploitatie: een neiging om te handelen op basis van voorkennis voordat voldoende omgevingsspecifieke informatie is verworven. Wij identificeren autonome verkenning als een cruciale maar onderbelichte vaardigheid voor het bouwen van adaptieve agenten. Om deze vaardigheid te formaliseren en te kwantificeren, introduceren we Exploratie-Checkpoint-Dekking, een verifieerbare metriek die meet hoe breed een agent belangrijke toestanden, objecten en mogelijkheden ontdekt. Onze systematische evaluatie toont aan dat agenten die zijn getraind met standaard taakgeoriënteerd versterkingsleren consequent smal en repetitief gedrag vertonen dat de downstreamprestaties belemmert. Om deze beperking aan te pakken, ontwikkelen we een trainingsstrategie die taakuitvoeringsrollouts en verkenningsrollouts afwisselt, waarbij elk type rollout wordt geoptimaliseerd door de bijbehorende verifieerbare beloning. Voortbouwend op deze trainingsstrategie stellen we het Eerst-verkennen-dan-handelen paradigma voor, dat het verzamelen van informatie ontkoppelt van taakuitvoering: agenten gebruiken eerst een interactiebudget om gefundeerde omgevingskennis te verwerven en benutten deze vervolgens voor taakoplossing. Onze resultaten tonen aan dat het leren van systematisch verkennen noodzakelijk is voor het bouwen van generaliseerbare en praktijkrijpe agenten.
Recente 3D-wereldmodelleringssystemen gebaseerd op generatieve scènesynthese, zoals Marble, kunnen coherente en verkennbare 3D-omgevingen creëren, maar hun uitvoer bestaat doorgaans uit statische monolithische assets met beperkte bewerkbaarheid en fysieke interactie. Dit beperkt het gebruik ervan in immersieve contentcreatie en belichaamde simulatie, waar gegenereerde werelden actief moeten worden aangepast en gemanipuleerd. Om deze uitdaging aan te pakken, presenteren we WorldAct, een raamwerk dat statische gegenereerde 3D-werelden omzet in bewerkbare en interactieklare scènes. WorldAct gebruikt een multimodale agent om scènedecompositie te begeleiden, hanteerbare objecten te identificeren, geometrisch uitgelijnde meshes op objectniveau te reconstructen voor interactie, en de resterende achtergrond te herstellen via 3D-inpainting. De resulterende scènes ondersteunen bewerking op objectniveau, botsingsbewuste manipulatie en belichaamde taakuitvoering, terwijl de globale scènecoherentie behouden blijft. Experimenten tonen aan dat WorldAct rijkere interactiescenario's mogelijk maakt dan de oorspronkelijk gegenereerde scènes, wat wijst op een praktische weg naar bewerkbare en interactieve 3D-wereldmodellen.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is uitgegroeid tot een effectief paradigma voor het verbeteren van de redeneercapaciteiten van grote taalmodellen. RLVR-training wordt echter vaak belemmerd door schaarse binaire beloningen en zwakke krediettoewijzing, wat leidt tot ambigue optimalisatiesignalen en onderbenutting van de nuttige informatie die in mislukte trajecten is ingebed. Om deze uitdaging aan te pakken, stellen we Correctiegerichte Beleidsoptimalisatie (CIPO) voor, een eenvoudige en effectieve uitbreiding van RLVR die on-policy mislukte trajecten omzet in correctiegerichte supervisie, zonder afhankelijk te zijn van externe signalen. Door correctievoorbeelden, afgeleid van de eigen mislukte pogingen van het model, gezamenlijk te optimaliseren met de standaard RLVR-doelstelling, verbetert CIPO de leereffectiviteit terwijl expliciet het vermogen van het model om eigen fouten te corrigeren wordt versterkt. Uitgebreide experimenten over 11 benchmarks op het gebied van wiskundig redeneren en codegeneratie tonen aan dat CIPO consequent en significant beter presteert dan sterke baselines, zowel wat betreft redeneer- als correctieprestaties. Bovendien levert CIPO sterkere pass@K-winsten op, wat aangeeft dat het de intrinsieke redeneercapaciteit van het model verbetert in plaats van slechts de kansmassa over bestaande correcte antwoorden te herverdelen.
Op weg naar recursieve zelfverbetering onderzoeken we hoe LLM-agenten autonoom basismodellen kunnen ontwerpen die verder gaan dan standaard Transformers. We introduceren een tweeledig raamwerk: AIRA-Compose voor architectuurverkenning op hoog niveau en AIRA-Design voor implementatie van laag-niveau mechanismen. AIRA-Compose gebruikt 11 agenten om fundamentele computationele primitieven te verkennen binnen een budget van 24 uur. Agenten evalueren kandidaten met miljoenen parameters en extrapoleren de beste ontwerpen naar schalen van 350M, 1B en 3B. Dit levert 14 architecturen op in twee families: AIRAformers (Transformer-gebaseerd) en AIRAhybrids (Transformer-Mamba). Voortraining op 1B-schaal laat zien dat deze consistent beter presteren dan Llama 3.2 en door Composer gevonden basislijnen. Op downstream-taken verbeteren AIRAformer-D en AIRAhybrid-D de nauwkeurigheid met respectievelijk 2,4% en 3,8% ten opzichte van Llama 3.2. Bovendien vindt AIRA-Compose modellen met zeer efficiënte schalingsgrenzen: AIRAformer-C schaalt 54% en 71% sneller dan Llama 3.2 en Composer's beste Transformer, terwijl AIRAhybrid-C Nemotron-2 met 23% en Composer's beste hybride met 37% overtreft. AIRA-Design geeft 20 agenten de taak om nieuwe aandachtsmechanismen te schrijven voor langeafstandsafhankelijkheden en hoogwaardige trainingsscripts. Op de Long Range Arena-benchmark komen door agenten ontworpen architecturen binnen 2,3% en 2,6% van de menselijke state-of-the-art op documentmatching en tekstclassificatie. Op de Autoresearch-benchmark behaalt Greedy Opus 4.5 een validatie bits-per-byte van 0,968 onder een vast tijdsbudget, waarmee de gepubliceerde minimumwaarde wordt overtroffen. Samen tonen deze raamwerken aan dat AI-agenten autonoom architecturen en algoritmische optimalisaties kunnen ontdekken die handmatig ontworpen basislijnen evenaren of overtreffen. Dit vestigt een krachtig paradigma voor het ontdekken van de volgende generatie basismodellen en markeert een duidelijke stap in de richting van recursieve zelfverbetering.
Of we nu een gebouw navigeren, een robot besturen of een spel spelen: een agent die effectief handelt in een omgeving moet eerst een intern model leren van hoe die omgeving werkt. Gedeeltelijk waarneembare Markov-beslissingsprocessen (POMDP's) bieden een flexibele modelleerklasse voor dergelijke interne wereldmodellen, maar het leren ervan op basis van alleen observatie-actie-trajecten is uitdagend en vereist doorgaans uitgebreide interactie met de omgeving. We onderzoeken of taalmodel-priors kostbare interactie kunnen verminderen door gebruik te maken van voorkennis, en introduceren Pinductor (POMDP-inductor): een LLM stelt kandidaat-POMDP-modellen voor op basis van enkele observatie-actie-trajecten en verfijnt deze iteratief om een op overtuiging gebaseerde waarschijnlijkheidsscore te optimaliseren. Ondanks het gebruik van strikt minder informatie evenaart Pinductor de prestaties en steekproefefficiëntie van op LLM gebaseerde POMDP-leermethoden die uitgaan van bevoorrechte toegang tot de verborgen toestand, terwijl het de steekproefefficiëntie van tabulaire POMDP-baselines aanzienlijk overtreft. Verdere resultaten tonen aan dat de prestaties schalen met de LLM-capaciteit en sierlijk afnemen naarmate semantische informatie over de omgeving wordt onthouden. Samen positioneren deze resultaten taalmodel-priors als een praktisch hulpmiddel voor steekproefefficiënt wereldmodel-leren onder gedeeltelijke waarneembaarheid, en een stap richting generalistische agenten in realistische omgevingen. Code is beschikbaar op https://github.com/atomresearch/pinductor.
Spaarse Mixture-of-Experts (MoE)-lagen leiden tokens door een handvol experts, en leervrije compressie van deze lagen vermindert de inferentiekosten zonder hertraining. Een subtiele obstructie blokkeert elke bestaande compressor in deze familie: drie experts kunnen elk paarsgewijs compatibel zijn en toch een onherleidbare cyclus vormen wanneer ze worden samengevoegd, dus elke score die experts rangschikt op basis van paarsgewijze signalen is structureel blind voor welke triples gezamenlijk samenvoegbaar zijn. We tonen aan dat de obstructie een precies wiskundig object is, de harmonische kern van de simpliciale Laplaciaan op een 2-complex waarvan de hoekpunten experts zijn, de ribben KL-fusiebarrières dragen en de zijvlakken triplebarrières dragen; Hodge-decompositie van het rib-barrièresignaal isoleert de kern exact. We veranderen de diagnostiek in een selectiedoel: HodgeCover dekt gulzig de harmonisch-kritische ribben en triple-kritische driehoeken, en een hybride variant van HodgeCover combineert dit met standaard gewichtssnoei op overlevenden. Op drie open-gewicht Sparse MoE-backbones onder agressieve expertreductie evenaart HodgeCover de state-of-the-art leervrije basislijnen op de as van expertreductie, leidt het op het front van agressieve compressie van de hybride as, en balanceert het uniek de behouden massa over alle vier Hodge-componenten. Deze resultaten tonen aan dat het blootleggen van de harmonische kern van een aangeleerde MoE-structuur verandert welke compressor wint in het regime dat het meest telt.
Cross-embodiment videogeneratie heeft als doel bewegingen over te dragen tussen verschillende mensachtige embodimenten, zoals mens-naar-robot en robot-naar-robot, waardoor schaalbare datageneratie voor belichaamde intelligentie mogelijk wordt. Een belangrijke uitdaging in deze context is dat bewegingsdynamieken gedeeltelijk overdraagbaar zijn tussen embodimenten, terwijl uiterlijk en morfologie embodiment-specifiek blijven. Bestaande benaderingen verstrengelen deze factoren vaak, en vele vereisen gepaarde data voor elke doel-embodiment, wat de schaalbaarheid naar nieuwe robots beperkt. We presenteren OmniHumanoid, een raamwerk dat overdraagbaar bewegingsleren en embodiment-specifieke aanpassing factoriseert. Onze methode leert een gedeeld bewegingsoverdrachtmodel uit bewegings-uitgelijnde gepaarde video's over meerdere embodimenten, terwijl het zich aanpast aan een nieuwe embodiment met alleen ongepaarde video's via lichtgewicht embodiment-specifieke adapters. Om interferentie tussen bewegingsoverdracht en embodiment-aanpassing te verminderen, introduceren we verder een tak-geïsoleerd aandachtontwerp dat bewegingsconditionering scheidt van embodiment-specifieke modulatie. Daarnaast construeren we een synthetische cross-embodiment dataset met bewegings-uitgelijnde gepaarde video's, gerenderd over diverse mensachtige assets, scènes en gezichtspunten. Experimenten op zowel synthetische als real-world benchmarks tonen aan dat OmniHumanoid sterke bewegingsgetrouwheid en embodimentconsistentie bereikt, terwijl het schaalbare aanpassing aan ongeziene mensachtige embodimenten mogelijk maakt zonder het gedeelde bewegingsmodel opnieuw te trainen.
Teledetectieveranderingsdetectie (RSCD) heeft als doel veranderingen te lokaliseren tussen twee beelden van hetzelfde geografische gebied. In de praktijk volgen veranderingsmaskers vaak annotatieconventies op regio niveau in plaats van puur lokale verschilverschijnselen, waardoor ze contextafhankelijk en soms ambigu zijn. De meeste state-of-the-art methoden gebruiken per-pixel discriminatieve classificatie, die één enkele voorspelling per invoer produceert en er niet in slaagt het veranderde gebied expliciet als een coherent geheel te modelleren. Een natuurlijk alternatief is een generatieve formulering, die een verdeling van plausibele maskers kan modelleren, waardoor bemonstering mogelijk wordt om ambiguïteit vast te leggen en globale consistentie te bevorderen. Bestaande generatieve RSCD-methoden blijven echter doorgaans achter bij sterke discriminatieve baselines vanwege de hoge rekenkosten van pixelruimtegeneratie en de complexiteit van hun conditioneringsmechanismen. Om de beperkingen van eerdere discriminatieve en generatieve methoden aan te pakken, stellen we ChangeFlow voor, een generatief raamwerk dat veranderingsdetectie herformuleert als de synthese van een veranderingsmasker in latente ruimte via rectified flow. ChangeFlow wordt geleid door een gestructureerd maar lichtgewicht conditionering signaal, en het stochastische ontwerp ondersteunt van nature op bemonstering gebaseerde voorspellingsensembles. Het aggregeren van meerdere voorspelde veranderingsmaskers verbetert namelijk de robuustheid, terwijl steekproefovereenkomst een praktische betrouwbaarheidsschatting biedt die ambigue gebieden benadrukt. Over vier benchmarks heen behaalt ChangeFlow een gemiddelde F1 van 80,4%, een verbetering van gemiddeld 1,3 punt ten opzichte van de vorige beste methode, terwijl de inferentiesnelheid vergelijkbaar blijft met recente sterke baselines. Projectpagina: https://blaz-r.github.io/changeflow_cd
LLM-agenten worden steeds vaker uitgevoerd binnen uitvoeringsharnassen die tools verzenden, resources toewijzen en berichten routeren tussen gespecialiseerde componenten. Een harnas kan echter een correct, goedaardig antwoord retourneren over een traject dat toegang krijgt tot onbevoegde bronnen of context lekt naar de verkeerde agent. Evaluatie op outputniveau kan deze fouten niet zien, maar de meeste veiligheidsbenchmarks scoren alleen eindoutputs of terminale toestanden, hoewel veel schendingen halverwege het traject plaatsvinden in plaats van aan het einde. De centrale vraag is of het harnas de gebruikersintentie, toestemmingsgrenzen en informatiestroombeperkingen gedurende de gehele uitvoering respecteert. Om deze kloof te overbruggen, stellen we HarnessAudit voor, een framework dat volledige uitvoeringstrajecten auditeert op naleving van grenzen, uitvoeringsgetrouwheid en systeemstabiliteit, met een focus op multi-agent harnassen waar deze risico's het meest uitgesproken zijn. We introduceren verder HarnessAudit-Bench, een benchmark van 210 taken uit acht domeinen uit de echte wereld, geïnstantieerd in zowel single-agent als multi-agent configuraties met ingebedde veiligheidsbeperkingen. Door tien harnasconfiguraties te evalueren over frontier-modellen en drie multi-agent frameworks, vinden we dat: (i) taakvoltooiing niet is afgestemd op veilige uitvoering, en schendingen nemen toe met de trajectlengte; (ii) veiligheidsrisico's variëren per domein, taaktype en agentrol; (iii) de meeste schendingen concentreren zich in toegang tot bronnen en inter-agent informatieoverdracht; en (iv) multi-agent samenwerking vergroot het veiligheidsrisicooppervlak, terwijl harnasontwerp de bovengrens van veilige inzet bepaalt.
Wij doorlichten de multimodale-fysica-evaluatiepijplijn end-to-end en documenteren drie onopgemerkte constructiepraktijken die de meting van visie-taal-redeneren in het veld verstoren: train-eval-contaminatie, vertaalverschuiving en MCQ-verzadiging. (1) Openbare trainingspools (UGPhysics-Train, SciInstruct, MMK12) doorstaan een eenfase-5-gram-Jaccard-audit met nul hits in alle zes openbare fysica-evaluaties; een driefase-audit (Jaccard -> mxbai-embed-large cosine -> Haiku-4.5 LLM-jury) brengt alleen al in SciInstruct 134 bijna-duplicaten en 4.846 parafrasekandidaten aan het licht. (2) Een 17-punts-Sonnet-4.5-delta op 59 gepaarde Ests-Engelse olympiadeproblemen (30,5% vs. 13,6%; tekentest p=0,011, McNemar p=0,021, gepaarde bootstrap 95%-BI [+5,1; +28,9] pp). (3) Een 46-punts-formaat-en-nieuwheidsgradiënt op identieke Sonnet-gewichten tussen MCQ (79,7% op PhyX) en open-einde-olympiade-evaluatie (33,4% op PhysOlym-A). Wij brengen vier artefacten uit die deze hiaten aanpakken: PhysCorp-A (6.432 records in een driefase-geauditeerd multimodaal corpus), PhysR1Corp (2.268 records in een gesloten-vorm-RL-pool), PhysOlym-A (500 problemen, 99,8% nieuwe-bron-vastgehouden olympiade-evaluatie met native moeilijkheidslabels en een EN/ET-tweetalige subset), en Physics-R1, een referentierecept voor GSPO+DAPO, koudgestart vanuit Qwen3-VL-8B-Thinking. Over 3 seeds heen verhoogt Physics-R1 het geauditeerde corpus ten opzichte van de 8B-basis met +18,3 pp op PhysOlym-A liberaal (8,0 -> 26,3 ± 1,7; 7,1 pp achter Sonnet 4,5), +15,7 pp op PhysReason (23,9 -> 39,6 ± 6,4; vóór Qwen3-VL-32B en Gemini 2.5 Pro), +6,9 pp op OlympiadBench-Physics (46,2 ± 1,5), en +4,1 pp op PhyX MCQ (77,8 ± 0,3).
Multi-head Latent Attention (MLA), de aandacht gebruikt in DeepSeek-V2/V3, comprimeert gezamenlijk keys en values in een laagrangige latente representatie en sluit bijna perfect aan op de H100-rooflijn. De getrainde gewichten bieden echter slechts één decodeerpad – een geabsorbeerde MQA-vorm – die efficiënte inferentie koppelt aan H100-klasse reken-bandbreedteverhoudingen, tensorparallelisme langs de hoofdas uitsluit, en geen winst oplevert voor Multi-Token Voorspelling (MTP) op gangbare inferentie-GPU's zoals de exportbeperkte H20. Wij stellen Group-Query Latent Attention (GQLA) voor, een minimale wijziging van MLA waarvan de getrainde gewichten twee algebraïsch equivalente decodeerpaden over dezelfde parameters blootleggen: een MQA-geabsorbeerd pad identiek aan dat van MLA, en een GQA-pad met een per-groep uitgebreide cache. De runtime kiest het pad dat bij de doelhardware past – geen hertraining, geen aangepaste kernels – zodat een enkele set GQLA-gewichten de rooflijnen van zowel H100 (MQA-geabsorbeerd, s_q=1) als H20 (GQA + MTP, s_q=2) vastpint, terwijl tot 8-voudig nul-redundantie tensorparallelisme op het GQA-pad wordt ondersteund. Om training vanaf nul te vermijden, breiden we TransMLA uit tot TransGQLA, dat een voorgetraind GQA-checkpoint omzet in een GQLA-model; op LLaMA-3-8B comprimeert het de per-token KV-cache tot 28,125% van de GQA-baseline op het MQA-geabsorbeerde pad, terwijl het structureel GQA-niveauverkeer op het per-groep pad behoudt.
Standaard unlearning-evaluaties meten gedragsonderdrukking in volledige precisie, onmiddellijk na training, terwijl elk ingezet taalmodel eerst wordt gekwantiseerd. Recent werk heeft aangetoond dat 4-bit kwantisatie na training machine-unlearning kan omkeren; wij tonen aan dat dit geen afstemmingsartefact is maar een systematisch duaal falen: gradiëntgebaseerde methoden die zinvol vergeten bereiken, verliezen dit onder compressie, terwijl methoden die kwantisatie overleven het model nauwelijks veranderen. Beide vormen van falen zijn terug te voeren op dezelfde oorzaak: over alle baselines liggen per-parameterupdates 47–828 keer onder de NF4-kwantisatiebinbreedte; updates die over miljarden parameters zijn verspreid, kunnen de kwantisatiebingrenzen niet overschrijden – een gevolg dat wij formaliseren als een sparsity-permanentie-afweging. Wij presenteren MANSU (Mechanistisch-Gericht Nulruimte-Unlearning), dat beide modi aanpakt door causale circuitattributie te combineren om de minimale vergeet-set-subgraaf te isoleren, circuit-beperkte nulruimteprojectie met een diagonaal-Fisher-behoudsgrens, en een per-parameter-magnitudevloer die kwantiseringsoverleving per constructie garandeert. Daarnaast introduceren wij Circuitattributiedivergentie (CAD), een mechanistische verificatiemetriek die structureel wissen onderscheidt van gedragsonderdrukking – een onderscheid dat bestaande metrieken niet kunnen maken. Over meerdere modelfamilies en hazardbenchmarks is MANSU de eerste methode die gezamenlijk aan alle vier eigenschappen voldoet met marge op elk (zinvol vergeten, behoud van bewaarde kennis, niet-positieve PTQ-kloof en structureel wissen), terwijl gradiëntgebaseerde baselines tot +0,05 nauwkeurigheid herwinnen onder compressie.
Bestaande benaderingen voor beheersbare generatie zijn doorgaans afhankelijk van fine-tuning, hulpnetwerken of zoeken tijdens testtijd. Wij tonen aan dat flow-matching een andere besturingsinterface mogelijk maakt: adaptatie via voorbeelden. Voor deterministische interpolanten wordt het snelheidsveld uitsluitend bepaald door een conditioneel eindpuntgemiddelde; het verschuiven van dit gemiddelde verschuift de flow zelf. Dit levert een eenvoudig principe voor beheersbare generatie op: stuur een voorgetraind model door de referentieset die het volgt te wijzigen. We implementeren dit idee in twee vormen. Reference-Mean Guidance is trainingsvrij: het berekent een gesloten-vorm eindpuntgemiddeldecorrectie uit een referentiebank en past deze toe op een bevroren FLUX.2-klein (4B)-model, waarmee controle over kleur, identiteit, stijl en structuur mogelijk wordt, terwijl de prompt, seed en gewichten vast blijven. Semi-Parametrische Sturing amortiseert hetzelfde idee via een expliciet gemiddeld anker en een geleerde residuele verfijner, en evenaart de kwaliteit van onvoorwaardelijke DiT-B/4 op AFHQv2, terwijl de referentieset tijdens de inferentie kan worden omgewisseld. Deze resultaten wijzen op een bredere richting: generatieve modellen die zich aanpassen via data, niet via parameterupdates.
Het reconstrueren van een gestructureerde vectorafbeeldingrepresentatie op basis van een gerasterde plattegrondafbeelding is doorgaans een belangrijke voorwaarde voor computationele taken met plattegronden, zoals geautomatiseerde interpretatie of CAD-workflows. Bestaande technieken hebben echter moeite met het getrouw genereren van de structuur en semantiek die worden overgebracht door complexe plattegronden van grote binnenruimten met veel kamers en een variërend aantal polygoonhoeken. Daartoe stellen wij Raster2Seq voor, waarbij plattegrondreconstructie wordt ingekaderd als een sequentie-naar-sequentietaak waarin plattegrondselementen – zoals kamers, ramen en deuren – worden vertegenwoordigd als gelabelde polygoonsequenties die gezamenlijk geometrie en semantiek coderen. Onze aanpak introduceert een autoregressieve decoder die leert het volgende hoekpunt te voorspellen, geconditioneerd op beeldkenmerken en eerder gegenereerde hoekpunten, met behulp van sturing door leerbare ankerpunten. Deze ankerpunten vertegenwoordigen ruimtelijke coördinaten in de beeldruimte, waardoor het aandachtsmechanisme effectief kan worden gestuurd naar informatieve beeldgebieden. Door gebruik te maken van het autoregressieve mechanisme biedt onze methode flexibiliteit in het uitvoerformaat, wat efficiënte verwerking mogelijk maakt van complexe plattegronden met talrijke kamers en diverse polygoonstructuren. Onze methode behaalt state-of-the-art prestaties op standaard benchmarks zoals Structure3D, CubiCasa5K en Raster2Graph, en vertoont tevens sterke generalisatie naar meer uitdagende datasets zoals WAFFLE, die diverse kamerstructuren en complexe geometrische variaties bevatten.
Segment Anything Model 2 (SAM2) vertoont een sterke generalisatie voor promptbare segmentatie in videoclips; de integratie met de audiomodaliteit blijft echter nog onderbelicht. Bestaande benaderingen zetten audio via funderingsmodellen om in visuele prompts (bijv. bounding boxes) of injecteren adapters in de beeldencoder voor audiovisuele fusie. Beide richtingen schieten echter tekort in human-in-the-loop-scenario’s vanwege beperkte promptnauwkeurigheid en verhoogde inferentie-overhead. Deze op adapters gebaseerde methoden lijden in het bijzonder onder audio-promptverdunning, waarbij het signaal geleidelijk verzwakt naarmate het zich door het netwerk verspreidt. In dit werk stellen we AuralSAM2 voor, dat audio integreert in SAM2 terwijl de promptbare segmentatiecapaciteit grotendeels behouden blijft. De kernmodule, AuralFuser, fuseert audio- en visuele kenmerken om schaarse en dichte prompts te genereren. Geleid door audio en voortbouwend op de kenmerkenpiramide van SAM2 verspreiden deze prompts auditieve cues over de visuele lagen, waardoor de cross-modale invloed wordt versterkt. Om de modaliteiten verder op elkaar af te stemmen introduceren we een audio-gestuurd contrastief verlies dat auditieve relevantie benadrukt in dominante visuele kenmerken. Onze methode behaalt opmerkelijke nauwkeurigheidswinst op openbare benchmarks, met slechts minimale impact op de interactieve efficiëntie van promptbare segmentatie. Onze code is beschikbaar op https://github.com/yyliu01/AuralSAM2.
Wij introduceren ProofGrid, een benchmark-suite voor het evalueren van redeneringen van LLM's via machinaal controleerbare bewijzen in plaats van alleen eindantwoorden. ProofGrid bevat 15 taken die betrekking hebben op bewijsschrijven, bewijscontrole, bewijsmaskering en het opvullen van gaten in bewijzen. Taken worden uitgedrukt in minimale formele notatie, met name NDL, een compacte natuurlijke-deductietaal die in korte prompts past en nauwkeurige, controleerbare verificatie ondersteunt. Dit levert een mechanische, reproduceerbare en gedetailleerde evaluatie op, in plaats van beoordelingen door mensen of LLM's. ProofGrid beslaat een gekalibreerd moeilijkheidsspectrum, van fundamentele redeneertests tot structureel rijke uitdagingstaken die door geen enkel huidig model worden opgelost, terwijl de afhankelijkheid van domeinkennis, solverdelegatie en lange-contextartefacten wordt geminimaliseerd. We ontwikkelen ook een vergelijkend kader voor redeneerbenchmarks en gebruiken dit om ProofGrid te positioneren ten opzichte van bestaand werk op het gebied van representatie, verificatiegaranties en redeneerdiepte. Methodologisch introduceren we een geïnstrumenteerde bewijscontrolepijplijn die kleine oppervlakkige afwijkingen tolereert terwijl de eerste substantiële redeneerfout wordt gelokaliseerd, wat de meetresolutie verbetert en bewijsplanning scheidt van ruis op laag niveau. Met behulp van deze pijplijn evalueren we een breed scala aan open en propriëtaire modellen. Resultaten tonen snelle vooruitgang, maar aanzienlijke resterende beperkingen: geavanceerde modellen presteren goed op verschillende fundamentele taken, maar moeilijke taken, vooral die welke wereldwijde combinatorische redenering of bewijssynthese op laag niveau vereisen, blijven verre van opgelost. We identificeren ook epistemische instabiliteit, waarbij modellen gebrekkige bewijzen genereren maar die lokale gevolgtrekkingen geïsoleerd correct verwerpen, en formaliseren dit met een Epistemische Stabiliteitsindex. Ten slotte vullen we nauwkeurigheid aan met 2PL-IRT-analyses, Wright-kaarten en een genormaliseerde taakdiscriminatiemaat op basis van Fisher-informatie.
Naarmate op LLM gebaseerde agenten steeds vaker het web namens gebruikers doorzoeken, rijst een natuurlijke vraag: kunnen websites passief identificeren welk onderliggend model een agent aandrijft? Dit zou een aanzienlijk beveiligingsrisico vormen, omdat het gerichte aanvallen mogelijk maakt die zijn afgestemd op bekende modelkwetsbaarheden. Bij 14 vooraanstaande LLM's en vier webomgevingen die variëren van informatieopvraging tot winkeltaken, tonen we aan dat de acties van een agent en de tijdsinteracties, vastgelegd via een passieve JavaScript-tracker, voldoende zijn om het onderliggende model te identificeren met een F1-score tot 96%. We formaliseren dit aanvalsoppervlak door aan te tonen dat classifiers die zijn getraind op agentacties, generaliseren over modelgroottes en -families. Verder tonen we aan dat sterke classifiers kunnen worden getraind met weinig interactiesporen en dat de identiteit van de agent vroeg in een episode kan worden afgeleid. Het injecteren van willekeurige tijdsvertragingen tussen acties degradeert de classifierprestaties aanzienlijk, maar biedt geen robuuste bescherming: een classifier die opnieuw is getraind op vertraagde sporen herstelt grotendeels de prestaties. We maken ons harnas en een gelabeld corpus van agentsporen openbaar via https://github.com/KabakaWilliam/known_actions{here}.
Meertalige informatieopvraging wordt steeds belangrijker in realistische zoekomgevingen, waar gebruikers queries uitvoeren over gemengdtalige corpora. Bestaande evaluaties belonen voornamelijk taalonafhankelijke semantische relevantie en behandelen relevante passages gelijkwaardig ongeacht de taal. Toch hangt het nut van een opvraging ook af van de taal van de opgehaalde passages: gebruikers geven mogelijk de voorkeur aan resultaten die ze kunnen lezen en verifiëren in de querytaal, en een mismatch in taal tussen query en passage kan de downstream-onderbouwing en antwoordverificatie in Retrieval-Augmented Generation-systemen compliceren. Om deze taalbewuste dimensie te evalueren introduceren wij MLAIRE, een Multilingual Language-Aware Information Retrieval Evaluation-protocol dat cross-linguaal semantisch terugvinden ontkoppelt van de voorkeur voor de querytaal. MLAIRE construeert gecontroleerde pools met parallelle passages in verschillende talen, waardoor zowel de semantische opvraagnauwkeurigheid als de voorkeur voor de querytaal gemeten kunnen worden wanneer gelijkwaardige vertalingen beschikbaar zijn. Wij stellen taalbewuste metrieken voor, waaronder het Taalvoorkeurspercentage (TVP) en Lang-nDCG, samen met een 4-weg decompositie die semantische fouten en fouten in de querytaalvoorkeur scheidt. Door 31 dichte, schaarse en late-interactie retrievers te evalueren tonen wij aan dat standaardmetrieken verschillende gedragingen verbergen: semantisch sterke retrievers kunnen correcte inhoud ophalen in een niet-querytaal, terwijl retrievers met een sterkere voorkeur voor de querytaal mogelijk minder semantisch relevante passages ophalen.
Geospatiale funderingsmodellen (GFM's) zijn voorgesteld als generaliseerbare ruggengraten voor rampenbestrijding, landbedekkingskartering, voedselzekerheidsmonitoring en andere hoogstaande aardobservatietaken. Toch biedt de gepubliceerde literatuur over deze modellen beoordelaars of gebruikers onvoldoende informatie om te bepalen welk model geschikt is voor een specifieke taak. Wij stellen dat niemand weet wat de huidige stand der techniek is op het gebied van geospatiale funderingsmodellen. De methoden kunnen nuttig zijn, maar de GFM-literatuur standaardiseert evaluaties, trainings- en testprotocollen, vrijgegeven gewichten of pretrainingscontroles niet voldoende om modellen te kunnen vergelijken of rangschikken. In een audit van 152 papers vinden wij 46 cross-paper meningsverschillen van ten minste 10 punten voor hetzelfde model, dezelfde benchmark en hetzelfde protocol; 94 van de 126 papers met extraheerbare pretrainingsdata gebruiken een configuratie die geen enkel ander paper gebruikt; en 39% van de GFM-papers geeft geen modelgewichten vrij. Dit gebrek aan gemeenschapsnormen kan worden opgelost. Wij stellen zes concrete verwachtingen voor: vrijgave van gewichten onder een benoemde licentie, gedeelde kernevaluaties, annotaties van overgenomen versus heruitgevoerde baselines, variantierapportage, één gedeeld evaluatiekader, en controles voor data versus architectuur versus algoritme. Deze lacunes zijn een coördinatiefalen, niet de schuld van één enkel laboratorium; de auteurs van dit paper hebben er, net als vele anderen in de GFM-gemeenschap, aan bijgedragen. In plaats van alleen kritiek te leveren op de gemeenschap, willen wij concrete stappen bieden naar een gedeeld begrip van hoe GFM's te innoveren.