Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij introduceren Native Parallel Reasoner (NPR), een leraar-vrij raamwerk dat Grote Taalmodellen (LLM's) in staat stelt om zelf authentieke parallelle redeneercapaciteiten te ontwikkelen. NPR transformeert het model van sequentiële emulatie naar native parallelle cognitie door drie belangrijke innovaties: 1) een zelf-gedistilleerd progressief trainingsparadigma dat zonder externe supervisie overgaat van "koude-start" formaatontdekking naar strikte topologische restricties; 2) een nieuw Parallel-Aware Policy Optimization (PAPO) algoritme dat vertakkingsbeleid direct binnen de uitvoeringsgraaf optimaliseert, waardoor het model adaptieve decompositie via trial-and-error kan leren; en 3) een robuuste NPR Engine die het geheugenbeheer en de flow control van SGLang herstructureert om stabiele, grootschalige parallelle RL-training mogelijk te maken. Op acht redeneerbenchmarks behaalt NPR, getraind op Qwen3-4B, prestatieverbeteringen tot 24,5% en inferentieversnellingen tot 4,6x. In tegenstelling tot eerdere baseline-modellen die vaak terugvallen op autoregressieve decodering, demonstreert NPR 100% authentieke parallelle uitvoering, en vestigt zo een nieuwe standaard voor zelf-evoluerend, efficiënt en schaalbaar agent-gebaseerd redeneren.
Roterende Positie-Embeddings (RoPE) zijn een standaard geworden voor het coderen van volgorde-informatie in Large Language Models (LLM's) door rotaties toe te passen op query- en key-vectoren in het complexe vlak. Standaardimplementaties maken echter alleen gebruik van het reële component van het complexwaardige inproduct voor de berekening van de attentiescore. Deze vereenvoudiging negeert het imaginaire component, dat waardevolle fase-informatie bevat, wat kan leiden tot verlies van relationele details die cruciaal zijn voor het modelleren van lange-context afhankelijkheden. In dit artikel stellen we een extensie voor die dit genegeerde imaginaire component opnieuw integreert. Onze methode benut de volledige complexwaardige representatie om een attentiescore met twee componenten te creëren. We tonen zowel theoretisch als empirisch aan dat deze aanpak het modelleren van lange-context afhankelijkheden verbetert door meer positionele informatie te behouden. Evaluaties op een reeks benchmarks voor taalmodellering met lange context tonen verder aan dat onze methode consistent betere prestaties levert dan de standaard RoPE, waarbij de voordelen toenemen naarmate de contextlengte groter wordt. De code is beschikbaar op https://github.com/OpenMOSS/rope_pp.
Bestaande videobewerkingsmethoden kampen met een fundamentele afweging: gespecialiseerde expertmodellen bieden precisie maar steunen op taakspecifieke prior kennis zoals maskers, wat unificatie belemmert; geünificeerde temporele in-context leermodellen daarentegen zijn maskervrij maar missen expliciete ruimtelijke aanwijzingen, wat leidt tot zwakke instructie-naar-regio mapping en onnauwkeurige lokalisatie. Om dit conflict op te lossen, presenteren wij VideoCoF, een nieuwe Chain-of-Frames aanpak geïnspireerd door Chain-of-Thought redenering. VideoCoF dwingt een "zien, redeneren, dan bewerken" procedure af door het videodiffusiemodel eerst redeneertokens (bewerkingsregio latenties) te laten voorspellen alvorens de doelvideotokens te genereren. Deze expliciete redeneringsstap elimineert de noodzaak van door gebruikers verstrekte maskers terwijl precieze instructie-naar-regio afstemming en fijnmazige videobewerking wordt bereikt. Verder introduceren wij een RoPE-afstemmingsstrategie die deze redeneertokens benut om bewegingsovereenstemming te garanderen en lengte-extrapolatie voorbij de trainingsduur mogelijk te maken. Wij tonen aan dat met minimale datakosten van slechts 50k videoparen, VideoCoF state-of-the-art prestaties bereikt op VideoCoF-Bench, wat de efficiëntie en effectiviteit van onze aanpak valideert. Onze code, gewichten en data zijn beschikbaar op https://github.com/knightyxp/VideoCoF.
Voxelkunst is een onderscheidende stijl die veel wordt gebruikt in games en digitale media, maar geautomatiseerde generatie vanuit 3D-meshes blijft een uitdaging vanwege tegenstrijdige vereisten voor geometrische abstractie, semantisch behoud en discrete kleurcoherentie. Bestaande methodes vereenvoudigen de geometrie ofwel te veel, of slagen er niet in de pixelprecieze, paletbeperkte esthetiek van voxelkunst te bereiken. Wij introduceren Voxify3D, een differentieerbaar tweestapsraamwerk dat 3D-meshoptimalisatie verbindt met 2D pixel art-supervisie. Onze kerninnovatie ligt in de synergetische integratie van drie componenten: (1) orthografische pixel art-supervisie die perspectiefvervorming elimineert voor precieze voxel-pixel-uitlijning; (2) patchgebaseerde CLIP-uitlijning die semantiek behoudt over discretisatieniveaus; (3) paletbeperkte Gumbel-Softmax-kwantisatie die differentieerbare optimalisatie over discrete kleurruimten mogelijk maakt met beheersbare paletstrategieën. Deze integratie lost fundamentele problemen op: semantisch behoud onder extreme discretisatie, pixel art-esthetiek via volumetrische rendering, en end-to-end discrete optimalisatie. Experimenten tonen superieure prestaties (37.12 CLIP-IQA, 77.90% gebruikersvoorkeur) voor diverse karakters en beheersbare abstractie (2-8 kleuren, 20x-50x resoluties). Projectpagina: https://yichuanh.github.io/Voxify-3D/
Referentie-naar-video (R2V)-generatie heeft als doel video's te synthetiseren die aansluiten bij een tekstprompt, waarbij tegelijkertijd de subjectidentiteit uit referentiebeelden behouden blijft. Huidige R2V-methoden worden echter beperkt door hun afhankelijkheid van expliciete triplets van referentiebeeld-video-tekst, waarvan de constructie zeer kostbaar is en moeilijk op te schalen. Wij omzeilen dit knelpunt door Saber te introduceren, een schaalbare zero-shot framework dat geen expliciete R2V-gegevens vereist. Uitsluitend getraind op video-tekstparen, hanteert Saber een gemaskeerde trainingsstrategie en een op maat gemaakt op aandacht gebaseerd modelontwerp om identiteitsconsistente en referentiebewuste representaties aan te leren. Masker-augmentatietechnieken zijn verder geïntegreerd om copy-paste-artefacten, die veelvoorkomend zijn in referentie-naar-video-generatie, te verminderen. Bovendien toont Saber opmerkelijke generalisatiecapaciteiten over een variërend aantal referenties en behaalt het superieure prestaties op de OpenS2V-Eval benchmark in vergelijking met methoden die met R2V-gegevens zijn getraind.
Op grote taalmodellen (LLM) gebaseerde multi-agent systemen zijn moeilijk te debuggen omdat fouten vaak ontstaan uit lange, vertakkende interactietrajecten. De gangbare praktijk is om LLM's in te zetten voor log-gebaseerde foutlokalisatie, waarbij fouten worden toegeschreven aan een specifieke agent en stap. Dit paradigma kent echter twee belangrijke beperkingen: (i) debuggen uitsluitend op basis van logs ontbeert validatie en produceert ongeteste hypothesen, en (ii) toeschrijving aan één stap of één agent is vaak onwelgedefinieerd, aangezien wij vaststellen dat meerdere afzonderlijke interventies de mislukte taak onafhankelijk van elkaar kunnen herstellen. Om de eerste beperking aan te pakken, introduceren we DoVer, een interventie-gedreven debugframework, dat hypothesegeneratie aanvult met actieve verificatie via gerichte interventies (bijvoorbeeld het bewerken van berichten, het wijzigen van plannen). Voor de tweede beperking richten we ons, in plaats van op nauwkeurigheid van toeschrijving, op het meten of het systeem de fout herstelt of kwantificeerbare vooruitgang boekt richting taaksucces, wat een meer resultaatgerichte visie op debuggen weerspiegelt. Binnen het Magnetic-One agentframework, op de datasets afgeleid van GAIA en AssistantBench, verandert DoVer 18-28% van de mislukte trials in successen, behaalt het tot 16% mijlpaalvooruitgang, en verifieert of weerlegt het 30-60% van de faalhypothesen. DoVer presteert ook effectief op een andere dataset (GSMPlus) en agentframework (AG2), waar het 49% van de mislukte trials herstelt. Deze resultaten benadrukken interventie als een praktisch mechanisme om de betrouwbaarheid van agent-systemen te verbeteren en creëren mogelijkheden voor robuustere, schaalbaardere debugmethoden voor op LLM gebaseerde multi-agent systemen. De projectwebsite en code zullen beschikbaar zijn op https://aka.ms/DoVer.
Wij bestuderen instructiegestuurd bewerken van egocentrische video's voor interactieve AR-toepassingen. Hoewel recente AI-videobewerkers goede prestaties leveren op footage vanuit derdepersoonsperspectief, vormen egocentrische beelden unieke uitdagingen - waaronder snelle egomotie en frequente hand-objectinteracties - die een aanzienlijk domeingat creëren. Bovendien lijden bestaande offline bewerkingspijplijnen onder hoge latentie, wat real-time interactie beperkt. Om deze problemen aan te pakken, presenteren wij een compleet ecosysteem voor egocentrische videobewerking. Ten eerste construeren wij EgoEditData, een zorgvuldig ontworpen en handmatig samengestelde dataset specifiek ontwikkeld voor egocentrische bewerkingsscenario's, met rijke hand-objectinteracties waarbij handen expliciet behouden blijven. Ten tweede ontwikkelen wij EgoEdit, een instructievolgende egocentrische videobewerker die real-time streaming inferentie ondersteunt op een enkele GPU. Tot slot introduceren wij EgoEditBench, een evaluatiesuite gericht op instructiegetrouwheid, behoud van handen en interacties, en temporele stabiliteit onder egomotie. EgoEdit produceert voor zowel egocentrische als algemene bewerkingstaken temporeel stabiele, instructiegetrouwe resultaten met interactieve latentie. Het behaalt duidelijke verbeteringen op egocentrische bewerkingsbenchmarks - waar bestaande methoden moeite mee hebben - terwijl het prestaties handhaaft die vergelijkbaar zijn met de sterkste baselines op algemene bewerkingstaken. EgoEditData en EgoEditBench worden openbaar gemaakt voor de onderzoeksgemeenschap. Zie onze website op https://snap-research.github.io/EgoEdit.
Recente reinforcement learning (RL) technieken hebben indrukwekkende verbeteringen in het redeneervermogen van taalmodellen opgeleverd, maar het is onduidelijk of training-na-training het redeneervermogen van een model daadwerkelijk uitbreidt voorbij wat het tijdens de pre-training verwerft. Een centrale uitdaging is het gebrek aan controle in moderne trainingspijplijnen: grootschalige pre-training corpora zijn ondoorzichtig, mid-training wordt vaak onvoldoende onderzocht, en RL-doelstellingen interageren op complexe manieren met onbekende voorkennis. Om deze onduidelijkheid op te lossen, ontwikkelen we een volledig gecontroleerd experimenteel kader dat de causale bijdragen van pre-training, mid-training en RL-gebaseerde post-training isoleert. Onze aanpak gebruikt synthetische redeneertaken met expliciete atomische operaties, parseerbare stapsgewijze redeneersporen en systematische manipulatie van trainingsverdelingen. We evalueren modellen langs twee assen: extrapolerende generalisatie naar complexere composities en contextuele generalisatie over oppervlaktecontexten. Met dit kader brengen we concurrerende visies op de effectiviteit van RL met elkaar in overeenstemming. We tonen aan dat: 1) RL alleen ware vermogenswinst (pass@128) oplevert wanneer pre-training voldoende ruimte laat en wanneer RL-gegevens zich richten op de grens van bekwaamheid van het model, taken aan de grens die moeilijk zijn maar nog net binnen bereik. 2) Contextuele generalisatie minimale maar voldoende pre-training blootstelling vereist, waarna RL betrouwbaar kan transfereren. 3) Mid-training de prestaties bij vaste rekenkracht significant verbetert vergeleken met alleen RL, wat de centrale maar onderbelichte rol ervan in trainingspijplijnen aantoont. 4) Procesniveau beloningen reward hacking verminderen en de redeneertrouw verbeteren. Samen verduidelijken deze resultaten de wisselwerking tussen pre-training, mid-training en RL, en bieden ze een basis voor het begrijpen en verbeteren van trainingsstrategieën voor redenerende taalmodelen.
De meeste visuele generatieve modellen comprimeren afbeeldingen in een latente ruimte voordat ze diffusie- of autoregressieve modellering toepassen. Toch leggen bestaande benaderingen zoals VAEs en encoders afgestemd op foundation-modellen impliciet beperkingen op aan de latente ruimte zonder de verdeling expliciet vorm te geven, waardoor onduidelijk is welke soorten verdelingen optimaal zijn voor modellering. Wij introduceren Distribution-Matching VAE (DMVAE), dat de latente verdeling van de encoder expliciet afstemt op een willekeurige referentieverdeling via een distributie-matching constraint. Dit generaliseert verder dan de Gaussiaanse prior van conventionele VAEs en maakt afstemming mogelijk met verdelingen afgeleid van zelf-gesuperviseerde kenmerken, diffusieruis of andere prior-verdelingen. Met DMVAE kunnen we systematisch onderzoeken welke latente verdelingen meer bevorderlijk zijn voor modellering, en wij vinden dat van SSL afgeleide verdelingen een uitstekende balans bieden tussen reconstructiegetrouwheid en modellerings-efficiëntie, met een gFID van 3.2 op ImageNet na slechts 64 trainingsepochs. Onze resultaten suggereren dat het kiezen van een geschikte latente distributiestructuur (bereikt via afstemming op distributieniveau), in plaats van te vertrouwen op vaste priors, de sleutel is om de kloof te overbruggen tussen gemakkelijk te modelleren latente representaties en hoogwaardige beeld-synthese. Code is beschikbaar op https://github.com/sen-ye/dmvae.
Mensen zien niet alleen overeenkomsten in attributen – we zien ook relationele overeenkomsten. Een appel lijkt op een perzik omdat beide roodachtig fruit zijn, maar de aarde lijkt ook op een perzik: de korst, mantel en kern komen overeen met de schil, het vruchtvlees en de pit van de perzik. Dit vermogen om relationele overeenkomsten waar te nemen en te herkennen, wordt door cognitiewetenschappers beschouwd als wat mensen onderscheidt van andere soorten. Toch richten alle veelgebruikte visuele gelijkenismetrics van vandaag (zoals LPIPS, CLIP, DINO) zich uitsluitend op perceptuele attribuutovereenkomsten en slagen ze er niet in de rijke, vaak verrassende relationele overeenkomsten te vangen die mensen waarnemen. Hoe kunnen we verder kijken dan de zichtbare inhoud van een afbeelding om de relationele eigenschappen ervan te vatten? Hoe kunnen we afbeeldingen met dezelfde relationele logica dichter bij elkaar brengen in de representatieruimte? Om deze vragen te beantwoorden, formuleren we eerst relationele beeldgelijkenis als een meetbaar probleem: twee afbeeldingen zijn relationeel vergelijkbaar wanneer hun interne relaties of functies tussen visuele elementen overeenkomen, zelfs als hun visuele attributen verschillen. Vervolgens stellen we een dataset samen van 114k afbeeldingen met bijschriften waarin de bijschriften geanonimiseerd zijn – ze beschrijven de onderliggende relationele logica van de scène in plaats van de oppervlakkige inhoud. Met deze dataset finetunen we een Vision-Language-model om de relationele gelijkenis tussen afbeeldingen te meten. Dit model vormt de eerste stap naar het verbinden van afbeeldingen op basis van hun onderliggende relationele structuur in plaats van hun zichtbare verschijning. Onze studie toont aan dat hoewel relationele gelijkenis veel toepassingen kent in de echte wereld, bestaande beeldgelijkenismodellen deze niet kunnen vatten – wat een kritieke kloof in het visuele computerveld blootlegt.
Wij presenteren Multi-view Pyramid Transformer (MVP), een schaalbare multi-view transformerarchitectuur die grote 3D-scènes direct reconstrueert uit tientallen tot honderden afbeeldingen in één enkele voorwaartse doorloop. Geïnspireerd door het idee van "verder kijken om het geheel te zien, fijner kijken om details te zien", is MVP gebaseerd op twee kernontwerpprincipes: 1) een lokaal-naar-globaal inter-viewhiërarchie die het perspectief van het model geleidelijk verbreedt van lokale views naar groepen en uiteindelijk de volledige scène, en 2) een fijn-naar-grof intra-viewhiërarchie die start met gedetailleerde ruimtelijke representaties en deze progressief aggregeert tot compacte, informatie-dichte tokens. Deze dubbele hiërarchie bereikt zowel computationele efficiëntie als representatie-rijkdom, waardoor snelle reconstructie van grote en complexe scènes mogelijk wordt. Wij valideren MVP op diverse datasets en tonen aan dat, in combinatie met 3D Gaussian Splatting als onderliggende 3D-representatie, het state-of-the-art generaliseerbare reconstructiekwaliteit bereikt, terwijl het hoge efficiëntie en schaalbaarheid behoudt over een breed scala aan viewconfiguraties.
Wij introduceren LongCat-Image, een baanbrekend open-source en tweetalig (Chinees-Engels) foundation model voor beeldgeneratie, ontworpen om kernuitdagingen aan te pakken op het gebied van meertalige tekstweergave, fotorealisme, implementatie-efficiëntie en ontwikkeltoegankelijkheid die prevalent zijn in huidige toonaangevende modellen. 1) Wij bereiken dit door middel van rigoureuze datacuratiestrategieën tijdens de pre-training, mid-training en SFT-fasen, aangevuld met het gecoördineerde gebruik van gecureerde beloningsmodellen tijdens de RL-fase. Deze strategie vestigt het model als een nieuwe state-of-the-art (SOTA), dat superieure tekstweergavecapaciteiten en opmerkelijk fotorealisme levert, en de esthetische kwaliteit aanzienlijk verbetert. 2) Opmerkelijk is dat het een nieuwe industriestandaard zet voor de weergave van Chinese karakters. Door zelfs complexe en zeldzame karakters te ondersteunen, overtreft het zowel grote open-source als commerciële oplossingen in dekking, terwijl het ook superieure nauwkeurigheid bereikt. 3) Het model bereikt opmerkelijke efficiëntie door zijn compacte ontwerp. Met een kern-diffusiemodel van slechts 6B parameters is het aanzienlijk kleiner dan de bijna 20B of grotere Mixture-of-Experts (MoE) architecturen die gebruikelijk zijn in het veld. Dit zorgt voor minimaal VRAM-gebruik en snelle inferentie, wat de implementatiekosten aanzienlijk verlaagt. Naast generatie excelleert LongCat-Image ook in beeldbewerking, waarbij het SOTA-resultaten behaalt op standaard benchmarks met superieure bewerkingsconsistentie vergeleken met andere open-source werken. 4) Om de gemeenschap volledig te empoweren, hebben we het meest uitgebreide open-source ecosysteem tot nu toe opgezet. We brengen niet alleen meerdere modelversies uit voor tekst-naar-beeld en beeldbewerking, inclusief checkpoints na mid-training en post-training fasen, maar ook de complete toolchain van het trainingsproces. Wij geloven dat de openheid van LongCat-Image robuuste ondersteuning zal bieden aan ontwikkelaars en onderzoekers, waardoor de grenzen van visuele contentcreatie worden verlegd.
Recente videogeneratiemodellen vertonen indrukwekkende synthesecapaciteiten, maar worden beperkt door conditionering met één modaliteit, wat hun holistische wereldbegrip inperkt. Dit komt door onvoldoende cross-modale interactie en beperkte modale diversiteit voor uitgebreide wereldkennisrepresentatie. Om deze beperkingen aan te pakken, introduceren we UnityVideo, een uniform framework voor wereldbewuste videogeneratie dat gezamenlijk leert over meerdere modaliteiten (segmentatiemaskers, menselijke skeletten, DensePose, optische stroming en dieptekaarten) en trainingsparadigma's. Onze aanpak omvat twee kerncomponenten: (1) dynamische ruisintroductie om heterogene trainingsparadigma's te verenigen, en (2) een modaliteitsschakelaar met een in-context-leerder die uniforme verwerking mogelijk maakt via modulaire parameters en contextueel leren. Wij dragen een grootschalige uniforme dataset bij met 1,3 miljoen samples. Door gezamenlijke optimalisatie versnelt UnityVideo de convergentie en verbetert significant de zero-shot-generalizatie naar ongeziene data. Wij tonen aan dat UnityVideo superieure videokwaliteit, consistentie en verbeterde afstemming met fysieke wereldbeperkingen bereikt. Code en data zijn beschikbaar op: https://github.com/dvlab-research/UnityVideo
Grote Vision-Language Modellen (VLMs) overbruggen de modaliteitskloof effectief door middel van uitgebreide voorafgaande training, waarbij ze geavanceerde visuele representaties verwerven die zijn afgestemd op taal. Het blijft echter onvoldoende onderzocht of deze representaties, die zijn geoptimaliseerd voor multimodale begripstaken, een inherent potentieel voor visuele generatie herbergen. In dit artikel stellen we VGT voor, Visual Generation Tuning, een nieuw paradigma ontworpen om de onderliggende mogelijkheden voor visuele generatie in willekeurige vision-language modellen te stimuleren. Door efficiënte visuele generatietuning uit te voeren op goed voorgetrainde VLMs, verminderen we de afstemmingskosten aanzienlijk en versnellen we de convergentie van autoregressieve modellering in de continue ruimte (20x versnelling). Specifiek negeren we de verstrengelde pixelgebaseerde VAEs die zijn ontworpen voor diffusion transformers en formuleren we VGT-AE door de semantische encoders van voorgetrainde VLMs af te stemmen op de latente representaties van pixeldecoders. Bij beeldreconstructietaken behalen we 26.67 PSNR en 0.50 rFID bij een compressieverhouding van 28x, wat gespecialiseerde VAEs overtreft; bij visuele generatietaken behalen we state-of-the-art resultaten onder autoregressieve modellen, 0.77 op GenEval en 78.73 op DPG-Bench. Bovendien toont onze voorgestelde VGT aanzienlijke schaalbaarheidsbelofte en is veelzijdig in het toekennen van visuele generatiemogelijkheden aan willekeurige VLMs die zijn getraind voor multimodaal begrip, wat een nieuw pad opent voor de verkenning van next-generation verenigde multimodale foundation-modellen. Modellen en code zijn beschikbaar op https://github.com/hustvl/VGT.
Procesbeloningsmodellen (PRM's) die gedetailleerde, stap-voor-stap feedback geven, hebben potentie getoond voor reinforcement learning, maar hun adoptie wordt beperkt door de noodzaak van dure annotaties per stap of grondwaar-referenties. Wij stellen SPARK voor: een raamwerk met drie fasen waarin in de eerste fase een generatormodel diverse oplossingen produceert en een verifiëermodel deze evalueert met behulp van parallelle schaling (zelfconsistentie) en sequentiële schaling (meta-critique). In de tweede fase gebruiken we deze verificatie-uitkomsten als synthetische trainingsdata om generatieve procesbeloningsmodellen te finetunen, die vervolgens als beloningssignalen dienen tijdens de training. Wij tonen aan dat het aggregeren van meerdere onafhankelijke verificaties op stapniveau trainingsdata voor procesbeloningsmodellen oplevert die superieur zijn aan supervisie met grondwaar-uitkomsten, met een score van 67,5 F1 op ProcessBench (een benchmark voor het identificeren van foutieve stappen in wiskundig redeneren) vergeleken met 66,4 voor referentie-gestuurde training en 61,9 voor GPT-4o. In de laatste fase passen we ons generatieve PRM met chain-of-thought verificatie (PRM-CoT) toe als beloningsmodel in RL-experimenten voor wiskundig redeneren, en introduceren we formaatbeperkingen om reward hacking te voorkomen. Met Qwen2.5-Math-7B behalen we een gemiddelde nauwkeurigheid van 47,4% over zes wiskundige redeneerbenchmarks, wat beter is dan op grondwaar gebaseerde RLVR (43,9%). Ons werk maakt referentievrije RL-training mogelijk die grondwaarmethoden overtreft, wat nieuwe mogelijkheden opent voor domeinen waar verifieerbare antwoorden of toegankelijke grondwaar ontbreekt.
Tool-geïntegreerd visueel redeneren (TiVR) heeft groot potentieel getoond voor het verbeteren van multimodale probleemoplossing. Bestaande TiVR-paradigma's richten zich echter voornamelijk op het integreren van diverse visuele tools via reinforcement learning, waarbij effectieve responsmechanismen voor het omgaan met onbetrouwbare of foutieve tooluitkomsten worden verwaarloosd. Deze beperking is vooral prominent bij verwijzings- en grondslagstaken, waar onnauwkeurige detectietoolvoorspellingen TiVR-modellen vaak misleiden tot het genereren van hallucinatoir redeneren. Om dit probleem aan te pakken, stellen we de VG-Refiner voor, het eerste raamwerk dat gericht is op tool-verfijnd verwijzingsgebonden redeneren. Technisch introduceren we een tweefasen denk-herevalueringsmechanisme dat het model in staat stelt expliciet toolfeedback te analyseren en erop te reageren, samen met een verfijningsbeloning die effectieve correctie aanmoedigt bij slechte toolresultaten. Daarnaast stellen we twee nieuwe metrieken voor en stellen eerlijke evaluatieprotocollen op om het verfijningsvermogen van huidige modellen systematisch te meten. We gebruiken een kleine hoeveelheid taakspecifieke data om het verfijningsvermogen van VG-Refiner te versterken, wat resulteert in een significante verbetering in nauwkeurigheid en correctievermogen op verwijzings- en redeneergrondslagbenchmarks, terwijl de algemene capaciteiten van het vooraf getrainde model behouden blijven.
Wij presenteren ReCamDriving, een puur visueel, op camera's gebaseerd raamwerk voor het genereren van video's met nieuwe trajecten. Terwijl op reparatie gebaseerde methoden falen in het herstellen van complexe artefacten en LiDAR-benaderingen afhankelijk zijn van schaarse en incomplete aanwijzingen, maakt ReCamDriving gebruik van dichte en scenespecifieke 3DGS-renderingen voor expliciete geometrische begeleiding, waardoor precieze, camerabestuurbare generatie wordt bereikt. Om overfitting aan restauratiegedrag te voorkomen wanneer wordt uitgegaan van 3DGS-renderingen, hanteert ReCamDriving een tweefasig trainingsparadigma: de eerste fase gebruikt cameraposities voor grove controle, terwijl de tweede fase 3DGS-renderingen integreert voor fijnmazige gezichtspunt- en geometrische begeleiding. Verder presenteren we een op 3DGS gebaseerde datacuratiestrategie over trajecten heen om de kloof tussen training en testen in cameratransformatiepatronen te elimineren, waardoor schaalbare supervisie met meerdere trajecten vanuit monovideo's mogelijk wordt. Op basis van deze strategie construeren we de ParaDrive-dataset, die meer dan 110.000 videoparen met parallelle trajecten bevat. Uitgebreide experimenten tonen aan dat ReCamDriving state-of-the-art camerabestuurbaarheid en structurele consistentie bereikt.
Recente vooruitgang in multimodale grote taalmodellen (MLLM's) heeft geünificeerde perceptie-redeneercapaciteiten mogelijk gemaakt, maar deze systemen blijven zeer kwetsbaar voor jailbreak-aanvallen die de veiligheidsafstemming omzeilen en schadelijk gedrag veroorzaken. Bestaande benchmarks zoals JailBreakV-28K, MM-SafetyBench en HADES bieden waardevolle inzichten in multimodale kwetsbaarheden, maar richten zich doorgaans op beperkte aanvalscenario's, ontberen gestandaardiseerde verdedigingsevaluatie en bieden geen geünificeerde, reproduceerbare toolbox. Om deze lacunes aan te pakken, introduceren wij OmniSafeBench-MM, een uitgebreide toolbox voor de evaluatie van multimodale jailbreak-aanval-verdediging. OmniSafeBench-MM integreert 13 representatieve aanvalsmethoden, 15 verdedigingsstrategieën en een diverse dataset die 9 grote risicodomeinen en 50 fijnmazige categorieën omspant, gestructureerd volgens adviserende, imperatieve en verklarende vraagtypen om realistische gebruikersintenties te weerspiegelen. Naast datadekking stelt het een driedimensionaal evaluatieprotocol in dat meet (1) schadelijkheid, onderscheiden door een gedetailleerde, meerlagige schaal variërend van laagimpact individuele schade tot catastrofale maatschappelijke bedreigingen, (2) intentie-afstemming tussen antwoorden en vragen, en (3) detailniveau van antwoorden, waardoor een genuanceerde veiligheid-nut-analyse mogelijk is. Wij voeren uitgebreide experimenten uit op 10 open-source en 8 closed-source MLLM's om hun kwetsbaarheid voor multimodale jailbreaks bloot te leggen. Door data, methodologie en evaluatie te verenigen in een open-source, reproduceerbaar platform, biedt OmniSafeBench-MM een gestandaardiseerde basis voor toekomstig onderzoek. De code is vrijgegeven op https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
Ondanks de veelbelovende vooruitgang in onderwerpgestuurde beeldgeneratie wijken huidige modellen vaak af van de referentie-identiteiten en hebben ze moeite met complexe scènes met meerdere onderwerpen. Om deze uitdaging aan te pakken, introduceren we OpenSubject, een grootschalige, op video's gebaseerde corpus met 2,5 miljoen samples en 4,35 miljoen afbeeldingen voor onderwerpgestuurde generatie en manipulatie. De dataset is opgebouwd met een pijplijn van vier fasen die gebruikmaakt van cross-frame identiteitspriors. (i) Videocuratie. We passen resolutie- en esthetische filtering toe om hoogwaardige clips te verkrijgen. (ii) Cross-Frame Onderwerpdetectie en -koppeling. We benutten op vision-language models (VLM) gebaseerde categorieconsensus, lokale verankering en diversiteitsbewuste koppeling om beeldparen te selecteren. (iii) Identiteitsbehoudende Referentiebeeld Synthese. We introduceren segmentatiekaart-gestuurde outpainting om de invoerbeelden voor onderwerpgestuurde generatie te synthetiseren, en box-gestuurde inpainting om invoerbeelden voor onderwerpgestuurde manipulatie te genereren, samen met geometriebewuste augmentaties en erosie van onregelmatige grenzen. (iv) Verificatie en Beschrijving. We gebruiken een VLM om gesynthetiseerde samples te valideren, mislukte samples opnieuw te synthetiseren op basis van fase (iii), en vervolgens korte en lange bijschriften te construeren. Daarnaast introduceren we een benchmark voor onderwerpgestuurde generatie en manipulatie, en evalueren we identiteitsgetrouwheid, promptnaleving, manipulatierichtheid en achtergrondconsistentie met een VLM als beoordelaar. Uitgebreide experimenten tonen aan dat training met OpenSubject de generatie- en manipulatieprestaties verbetert, vooral in complexe scènes.
Decodering-gebaseerde regressie, die regressie herformuleert als een sequentiegeneratietaak, is naar voren gekomen als een veelbelovend paradigma voor het toepassen van grote taalmodellen voor numerieke voorspelling. De vooruitgang wordt echter belemmerd door de misalignering tussen discrete token-level doelstellingen (zoals kruis-entropie) en continue numerieke waarden. Bestaande benaderingen die vertrouwen op token-level beperkingen slagen er vaak niet in de globale grootteorde van de doelwaarde te vangen, wat hun precisie en generalisatie beperkt. In dit artikel stellen we voor om het potentieel van decodering-gebaseerde regressie te ontsluiten via Reinforcement Learning (RL). Wij formuleren het generatieproces als een Markov Beslissingsproces en gebruiken sequentie-level beloningen om globale numerieke coherentie af te dwingen. Uitgebreide experimenten op tabulaire regressie en code-metriekregressie tonen aan dat onze methode (specifiek met ReMax en GRPO) consistent zowel state-of-the-art token-level baseline-methoden als traditionele regressiekoppen overtreft, wat de superioriteit aantoont van het introduceren van sequentie-level signalen. Onze analyse onthult verder dat RL de steekproefefficiëntie en voorspellende precisie significant verbetert, waarmee decodering-gebaseerde regressie wordt gevestigd als een robuust en accuraat paradigma voor algemeen-toepasbare numerieke voorspelling.
Visuele generatieve modellen (zoals diffusiemodellen) werken doorgaans in gecomprimeerde latente ruimtes om een balans te vinden tussen trainings efficiëntie en samplekwaliteit. Tegelijkertijd is er een groeiende interesse in het benutten van hoogwaardige voorgetrainde visuele representaties, hetzij door ze af te stemmen binnen VAEs of direct binnen het generatieve model. Het aanpassen van dergelijke representaties blijft echter een uitdaging vanwege fundamentele verschillen tussen op begrip gerichte kenmerken en generatievriendelijke latente ruimtes. Representatie-encoders hebben baat bij hoogdimensionale latente representaties die diverse hypothesen voor gemaskeerde regio's vastleggen, terwijl generatieve modellen de voorkeur geven aan laagdimensionale latente representaties die geïnjecteerde ruis trouw moeten bewaren. Deze discrepantie heeft eerder werk ertoe gebracht te vertrouwen op complexe doelen en architecturen. In dit werk stellen we FAE (Feature Auto-Encoder) voor, een eenvoudig maar effectief raamwerk dat voorgetrainde visuele representaties aanpast naar laagdimensionale latente representaties die geschikt zijn voor generatie, met gebruik van slechts een enkele aandachtlaag, terwijl voldoende informatie behouden blijft voor zowel reconstructie als begrip. De sleutel is het koppelen van twee afzonderlijke deep decoders: één getraind om de oorspronkelijke kenmerkruimte te reconstrueren, en een tweede die de gereconstrueerde kenmerken als invoer neemt voor beeldgeneratie. FAE is generiek; het kan worden geïnstantieerd met diverse zelf-gesuperviseerde encoders (zoals DINO, SigLIP) en worden aangesloten op twee verschillende generatieve families: diffusiemodellen en normaliserende flows. Over klasse-voorwaardelijke en tekst-naar-beeld benchmarks heen behaalt FAE sterke prestaties. Op ImageNet 256x256 bereikt ons diffusiemodel met CFG bijvoorbeeld een bijna state-of-the-art FID van 1.29 (800 epochs) en 1.70 (80 epochs). Zonder CFG bereikt FAE de state-of-the-art FID van 1.48 (800 epochs) en 2.08 (80 epochs), wat zowel hoge kwaliteit als snel leren aantoont.
Wij presenteren GRAPE (Group RepresentAtional Position Encoding), een uniform raamwerk voor positionele codering gebaseerd op groepswerkingen. GRAPE verenigt twee families van mechanismen: (i) multiplicatieve rotaties (Multiplicatieve GRAPE) in SO(d) en (ii) additieve logit-bias (Additieve GRAPE) die voortkomen uit unipotente werkingen in de algemene lineaire groep GL. In Multiplicatieve GRAPE werkt een positie n in Z (of t in R) als G(n)=exp(n,ω,L) met een scheefsymmetrische generator L van rang 2 in R^{d×d}, wat resulteert in een relatieve, compositionele, norm-behoudende afbeelding met een gesloten-vorm matrixexponentiële. RoPE wordt exact gereproduceerd wanneer de d/2 vlakken de canonieke coördinaatparen zijn met een log-uniform spectrum. Aangeleerde commutatieve deelruimten en compacte niet-commutatieve mengsels breiden deze geometrie strikt uit om kruis-deelruimte-koppeling van kenmerken vast te leggen tegen een kostprijs van respectievelijk O(d) en O(r d) per hoofd. In Additieve GRAPE ontstaan additieve logits als unipotente werkingen van rang 1 (of lage rang), waarbij ALiBi en de Forgetting Transformer (FoX) als exacte speciale gevallen worden gereproduceerd, terwijl een exacte relatieve wet en stream-cachebaarheid behouden blijven. Samen biedt GRAPE een principeruimte voor het ontwerpen van positionele geometrie in modellen met lange context, waarbij RoPE en ALiBi als speciale gevallen worden omvat. Projectpagina: https://github.com/model-architectures/GRAPE.
Recente vooruitgang in autoregressieve (AR) generatieve modellen heeft steeds krachtigere systemen voor mediasynthese opgeleverd. Daaronder is next-scale-predictie naar voren gekomen als een populair paradigma, waarbij modellen beelden genereren op een coarse-to-fine-manier. Echter, scale-wise AR-modellen lijden onder exposure bias, wat de generatiekwaliteit aantast. Wij identificeren twee primaire oorzaken van dit probleem: (1) train-test-mismatch, waarbij het model tijdens inferentie moet vertrouwen op zijn eigen imperfecte voorspellingen, en (2) een onbalans in de leercomplexiteit per schaal, waarbij bepaalde schalen een onevenredig hogere optimalisatiecomplexiteit vertonen. Via een uitgebreide analyse van de traindynamiek stellen wij Self-Autoregressive Refinement (SAR) voor om deze beperkingen aan te pakken. SAR introduceert een Stagger-Scale Rollout (SSR)-mechanisme dat lichtgewicht autoregressieve rollouts uitvoert om het model bloot te stellen aan zijn eigen tussentijdse voorspellingen, waardoor train-test-patronen worden afgestemd, en een complementair Contrastive Student-Forcing Loss (CSFL) dat adequate supervisie biedt voor zelf gegenereerde contexten om stabiele training te garanderen. Experimentele resultaten tonen aan dat het toepassen van SAR op voorgetrainde AR-modellen de generatiekwaliteit consistent verbetert met minimale rekenkosten. Zo levert SAR bijvoorbeeld een FID-reductie van 5,2% op bij FlexVAR-d16 getraind op ImageNet 256 binnen 10 epochs (5 uur op 32xA100 GPU's). Gezien de efficiëntie, schaalbaarheid en effectiviteit verwachten wij dat SAR kan dienen als een betrouwbare post-training-methode voor visuele autoregressieve generatie.
Recente vision-language modellen (VLMs) bereiken opmerkelijke redeneerprestaties door reinforcement learning (RL), wat een haalbare oplossing biedt voor het realiseren van continu zelf-evoluerende large vision-language modellen (LVLMs) in het tijdperk van ervaring. Echter vereist RL voor VLMs overvloedige hoogwaardige multimodale data, wat bijzonder uitdagend is in gespecialiseerde domeinen zoals chemie, aardwetenschappen en multimodale wiskunde. Bestaande strategieën zoals synthetische data en zelf-belonende mechanismen kampen met beperkte distributies en aligneringsproblemen, wat uiteindelijk leidt tot reward hacking: modellen misbruiken hoogbelonende patronen, waardoor de entropie van het beleid instort en de training destabiliseert. Wij stellen DoGe (Decouple to Generalize) voor, een dual-decoupling raamwerk dat modellen leert eerst uit context te leren in plaats van problemen op te lossen door de focus te verleggen naar de probleemcontextscenario's die door synthetische datamethoden over het hoofd worden gezien. Door het leerproces te ontkoppelen in dubbele componenten (Denker en Oplosser), kwantificeren wij op zinvolle wijze de beloningssignalen van dit proces en stellen een tweefasen RL-na-training benadering voor, van vrij context verkennen tot praktische taakoplossing. Ten tweede, om de diversiteit van trainingsdata te vergroten, construeert DoGe een evoluerende curriculum learning pijplijn: een uitgebreid corpus van native domeinkennis en een iteratief evoluerende pool van startproblemen. Experimenten tonen aan dat onze methode consistent de baseline overtreft op diverse benchmarks, en biedt zo een schaalbare route voor het realiseren van zelf-evoluerende LVLMs.
Generalisatie in robotmanipulatie is essentieel voor de inzet van robots in open-wereldomgevingen en de vooruitgang naar kunstmatige algemene intelligentie. Hoewel recente Vision-Language-Action (VLA)-modellen gebruikmaken van grote vooraf getrainde begripsmodellen voor perceptie en het opvolgen van instructies, blijft hun vermogen om te generaliseren naar nieuwe taken, objecten en omgevingen beperkt. In dit werk presenteren we VideoVLA, een eenvoudige aanpak die het potentieel onderzoekt om grote videogeneratiemodellen om te zetten in robotische VLA-manipulatoren. Op basis van een taalinstinctie en een beeld voorspelt VideoVLA een actiereeks evenals de toekomstige visuele resultaten. Gebouwd op een multimodale Diffusion Transformer, modelleert VideoVLA gezamenlijk video-, taal- en actiemodaliteiten, waarbij vooraf getrainde videogeneratieve modellen worden gebruikt voor gezamenlijke visuele en actievoorspelling. Onze experimenten tonen aan dat hoogwaardige verbeeldde toekomsten correleren met betrouwbare actievoorspellingen en taaksucces, wat het belang van visuele verbeeldingskracht bij manipulatie benadrukt. VideoVLA toont sterke generalisatie, inclusief het imiteren van vaardigheden van andere embodimenten en het omgaan met nieuwe objecten. Deze dubbele-voorspellingsstrategie – het voorspellen van zowel acties als hun visuele gevolgen – verkent een paradigmaverschuiving in robotleren en ontgrendelt generalisatiecapaciteiten in manipulatiefsystemen.
Langetermijndialoogsystemen lijden onder Toestandsinertie, waarbij statische beperkingen modellen verhinderen om conflicten tussen evoluerende gebruikersintenties en gevestigde historische context op te lossen. Om dit aan te pakken, stellen we DZ-TDPO voor, een niet-destructief afstemmingsraamwerk dat conflictbewuste dynamische KL-beperkingen synergiseert met een gekalibreerde temporele aandachtsprioriteit. Experimenten op de Multi-Session Chat (MSC)-dataset tonen aan dat DZ-TDPO state-of-the-art winstpercentages behaalt (55,4% op Phi-3.5) terwijl het robuuste zero-shot generalisatie behoudt. Onze schaalanalyse onthult een "Capaciteit-Stabiliteit Afruil": terwijl kleinere modellen een "afstemmingsbelasting" (perplexiteitstoename) oplopen om historische inertie te overwinnen, behaalt het grotere Qwen2.5-7B-model een winstpercentage van 50,8% met verwaarloosbare perplexiteitsoverhead. Dit bevestigt dat TAI verlicht kan worden via precieze aandachtregulatie in plaats van destructieve gewichtsupdates, waarbij algemene capaciteiten (MMLU) over modelschalen behouden blijven. Code en data zijn beschikbaar: https://github.com/lyj20071013/DZ-TDPO
Naarmate robots menselijke werkruimten betreden, is het cruciaal dat ze belichaamde menselijke instructies kunnen begrijpen, om een intuïtieve en vlotte mens-robotinteractie (HRI) mogelijk te maken. Nauwkeurig begrip is echter een uitdaging door een gebrek aan grootschalige datasets die natuurlijke, belichaamde interacties in diverse HRI-situaties vastleggen. Bestaande datasets kampen met perspectiefvooroordeel, eenzijdige beeldverzameling, onvoldoende dekking van non-verbale gebaren en een overwegende focus op binnenomgevingen. Om deze problemen aan te pakken, presenteren we de Refer360-dataset, een grootschalige dataset van belichaamde verbale en non-verbale interacties, verzameld vanuit diverse gezichtspunten in zowel binnen- als buitenomgevingen. Daarnaast introduceren we MuRes, een multimodale geleide residuale module ontworpen om het begrip van belichaamde verwijzende uitdrukkingen te verbeteren. MuRes fungeert als een informatieknelpunt dat salientie, modalitiespecifieke signalen extraheert en deze versterkt in vooraf getrainde representaties om complementaire kenmerken voor downstreamtaken te vormen. We voeren uitgebreide experimenten uit op vier HRI-datasets, inclusief de Refer360-dataset, en tonen aan dat huidige multimodale modellen belichaamde interacties niet volledig kunnen vastleggen; echter, het versterken ervan met MuRes verbetert de prestaties consistent. Deze bevindingen vestigen Refer360 als een waardevolle benchmark en tonen het potentieel van geleid residueel leren aan om het begrip van belichaamde verwijzende uitdrukkingen te bevorderen bij robots die opereren in menselijke omgevingen.
Klassieke convergentiegaranties voor op gradiënten gebaseerd leren in spelen vereisen dat de pseudogradiënt (sterk) monotoon is in de Euclidische geometrie, zoals aangetoond door Rosen (1965), een voorwaarde die vaak niet wordt gehaald, zelfs niet in eenvoudige spelen met sterke kruis-spelerkoppelingen. Wij introduceren Small-Gain Nash (SGN), een blok-kleine-winst voorwaarde in een aangepaste, blok-gewogen geometrie. SGN zet lokale kromming en Lipschitz-koppelingsgrenzen tussen spelers om in een hanteerbaar contractiecertificaat. Het construeert een geblokte, gewogen metriek waarin de pseudogradiënt sterk monotoon wordt op elk gebied waar deze grenzen gelden, zelfs wanneer deze niet-monotoon is in de Euclidische zin. De continue stroom is exponentieel contracterend in deze ontworpen geometrie, en geprojecteerde Euler- en RK4-discretisaties convergeren onder expliciete stapgroottegrenzen afgeleid van de SGN-marge en een lokale Lipschitz-constante. Onze analyse onthult een gecertificeerde "tijdschaalband", een niet-asymptotisch, metriek-gebaseerd certificaat dat een TTUR-achtige rol speelt: in plaats van asymptotische tijdschaalscheiding af te dwingen via verdwijnende, ongelijke stapgroottes, identificeert SGN een eindige band van relatieve metriekgewichten waarvoor een dynamiek met een enkele stapgrootte aantoonbaar contractief is. We valideren het raamwerk op kwadratische spelen waar Euclidische monotoniciteitsanalyse faalt om convergentie te voorspellen, maar SGN deze succesvol certificeert, en breiden de constructie uit naar spiegel-/Fisher-geometrieën voor entropie-geregulariseerd beleidsgradiënt in Markov-spelen. Het resultaat is een offline certificeringspijplijn die kromming, koppeling en Lipschitz-parameters schat op compacte gebieden, blokgewichten optimaliseert om de SGN-marge te vergroten, en een structureel, berekenbaar convergentiecertificaat retourneert bestaande uit een metriek, contractiesnelheid en veilige stapgroottes voor niet-monotone spelen.
De vectorgekwantiseerde variational auto-encoder (VQ-VAE) is een discrete auto-encoder die afbeeldingen comprimeert tot discrete tokens. De training is lastig vanwege de discretisering. In dit artikel stellen we een eenvoudige doch effectieve techniek voor, genaamd Gaussian Quant (GQ), die een Gaussische VAE met een bepaalde beperking omzet in een VQ-VAE zonder training. GQ genereert willekeurige Gaussische ruis als codeboek en vindt de dichtstbijzijnde ruis ten opzichte van het posterior gemiddelde. Theoretisch bewijzen we dat wanneer de logaritme van de codeboekgrootte de bits-back coderingssnelheid van de Gaussische VAE overschrijdt, een kleine kwantiseringsfout gegarandeerd is. Praktisch gezien stellen we een heuristiek voor om een Gaussische VAE te trainen voor effectieve GQ, genaamd target divergence constraint (TDC). Empirisch tonen we aan dat GQ eerdere VQ-VAE's, zoals VQGAN, FSQ, LFQ en BSQ, overtreft op zowel UNet- als ViT-architecturen. Bovendien verbetert TDC ook eerdere discretiseringsmethoden voor Gaussische VAE's, zoals TokenBridge. De broncode is beschikbaar op https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.
Recent onderzoek naar gestructureerde tekstvertaling blijft beperkt tot zinsniveau, omdat men moeite heeft om de complexe XML- of HTML-structuren op documentniveau effectief te verwerken. Om dit aan te pakken, stellen wij Format Reinforcement Learning (FormatRL) voor, dat Group Relative Policy Optimization toepast op een supervised fine-tuning model om direct nieuwe structuurbewuste beloningen te optimaliseren: 1) TreeSim, dat structurele gelijkenis meet tussen voorspelde en referentie-XML-bomen, en 2) Node-chrF, dat vertaalkwaliteit meet op het niveau van XML-nodes. Daarnaast passen wij StrucAUC toe, een fijnmazige metric die onderscheid maakt tussen kleine fouten en grote structurele mankementen. Experimenten op de SAP-software documentatie-benchmark tonen verbeteringen aan op zes metrieken, en een analyse toont verder aan hoe verschillende beloningsfuncties bijdragen aan verbeteringen in zowel structurele als vertaalkwaliteit.
Wij introduceren een tweefasen, zelf-gesuperviseerd raamwerk dat de Joint-Embedding Predictive Architecture (JEPA) combineert met een Density Adaptive Attention Mechanism (DAAM) voor het leren van robuuste spraakrepresentaties. Fase~1 gebruikt JEPA met DAAM om semantische audio-eigenschappen te leren via gemaskeerde voorspelling in de latente ruimte, volledig losgekoppeld van golfvormreconstructie. Fase~2 benut deze representaties voor efficiënte tokenisatie met behulp van Finite Scalar Quantization (FSQ) en een mixed-radix pack-schema, gevolgd door hoogwaardige golfvormreconstructie met een HiFi-GAN decoder. Door op Gaussische mengsels gebaseerde, dichtheid-adaptieve gating te integreren in de JEPA-encoder, voert het model adaptieve temporele feature-selectie uit en ontdekt het hiërarchische spraakstructuur bij een lage framesnelheid van 2.5~Hz. De resulterende tokens (47.5 tokens/sec) vormen een omkeerbare, sterk gecomprimeerde en voor taalmodelgebruik geschikte representatie die concurrerend is met, en vaak efficiënter dan, bestaande neurale audiocodecs.
Dit artikel onderzoekt de fundamentele discontinuïteit tussen de twee nieuwste Segment Anything Models: SAM2 en SAM3. We verklaren waarom de expertise in prompt-gestuurde segmentatie van SAM2 niet overdraagbaar is naar het multimodale, concept-gestuurde paradigma van SAM3. SAM2 werkt via ruimtelijke prompts (punten, vakjes en maskers) en levert puur geometrische en temporele segmentatie. Daarentegen introduceert SAM3 een uniforme vision-language-architectuur die in staat is tot open-vocabulary redenering, semantische verankering, contrastieve uitlijning en voorbeeld-gestuurd conceptbegrip. We structureren deze analyse aan de hand van vijf kerncomponenten: (1) een Conceptueel Onderscheid tussen Prompt-Gestuurde en Concept-Gestuurde Segmentatie, waarin de ruimtelijke promptsemantiek van SAM2 wordt afgezet tegen de multimodale fusie en tekst-gestuurde maskergeneratie van SAM3; (2) Architecturale Divergentie, met een gedetailleerde uiteenzetting van het pure vision-temporele ontwerp van SAM2 versus de integratie van vision-language-encoders, geometrie- en voorbeeldencoders, fuseermodules, DETR-stijl decoders, object queries, en ambiguïteitsafhandeling via Mixture-of-Experts in SAM3; (3) Verschillen in Datasets en Annotaties, waarin de SA-V videomaskers worden vergeleken met de multimodaal geannoteerde conceptencorpora van SAM3; (4) Onderscheiden in Training en Hyperparameters, waarin wordt aangetoond waarom de optimalisatiekennis van SAM2 niet van toepassing is op SAM3; en (5) Evaluatie, Metrieken en Faalwijzen, waarin de overgang van geometrische IoU-metrieken naar semantische, open-vocabulary evaluatie wordt geschetst. Gezamenlijk vestigen deze analyses SAM3 als een nieuwe klasse van segmentatiefoundationmodel en wijzen ze toekomstige richtingen aan voor het opkomende tijdperk van concept-gestuurde segmentatie.