Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij introduceren Qwen3-VL, het krachtigste vision-language model tot nu toe in de Qwen-serie, dat superieure prestaties levert op een breed scala aan multimodale benchmarks. Het ondersteunt standaard interleaved contexten van tot 256K tokens, waarbij tekst, afbeeldingen en video naadloos worden geïntegreerd. De modelfamilie omvat zowel dense (2B/4B/8B/32B) als mixture-of-experts (30B-A3B/235B-A22B) varianten om diverse latency-kwaliteit afwegingen mogelijk te maken. Qwen3-VL biedt drie kernpijlers: (i) aanzienlijk sterkere pure-tekstbegrip, dat in verschillende gevallen vergelijkbare tekst-only backbones overstijgt; (ii) robuust begrip van lange contexten met een standaard 256K-token venster voor zowel tekst als interleaved multimodale invoer, waardoor getrouw retentie, retrieval en kruisverwijzing over lange documenten en video's mogelijk wordt; en (iii) geavanceerde multimodale redeneervaardigheden voor taken met één afbeelding, meerdere afbeeldingen en video, waarbij het leidende prestaties demonstreert op uitgebreide evaluaties zoals MMMU en visueel-rekenkundige benchmarks (bijv. MathVista en MathVision). Architecturaal introduceren we drie belangrijke verbeteringen: (i) een verbeterde interleaved-MRoPE voor sterkere spatiotemporele modellering over afbeeldingen en video; (ii) DeepStack-integratie, die effectief gebruikmaakt van multi-level ViT-features om de vision-language uitlijning te versterken; en (iii) op tekst gebaseerde tijduitlijning voor video, evoluerend van T-RoPE naar expliciete tekstuele timestamp-uitlijning voor preciezere temporele verankering. Onder vergelijkbare tokenbudgetten en latencybeperkingen behaalt Qwen3-VL superieure prestaties in zowel dense als Mixture-of-Experts (MoE) architecturen. Wij voorzien dat Qwen3-VL zal dienen als een fundamentele engine voor beeld-gestuurd redeneren, agent-ondersteunde besluitvorming en multimodale code-intelligentie in real-world workflows.
Vision-Language-Action (VLA)-modellen, getraind via flow-matching- of diffusiedoelstellingen, blinken uit in het leren van complex gedrag uit grootschalige, multimodale datasets (bijvoorbeeld menselijke teleoperatie, gescripte beleidsregels). Omdat VLA's echter diverse gegevensmodi incorporeren in de voorafgaande trainingsfase, en de finetuning-dataset vaak demonstratiegegevens bevat die op kinematisch suboptimale of ongewenste wijze zijn verzameld, bestaan er redundante actiemodi die niet relevant zijn voor de succesvolle actiemodi van de downstream-taak. Specifiek observeren we een kritieke kwetsbaarheid tijdens inferentie bij verschillende bemonsterde ruis na supervised finetuning van vooraf getrainde VLA's. In dit artikel schrijven we deze instabiliteit toe aan de distributieverschuiving tussen het VLA-beleid en het beleid geïnduceerd door stabiele succesmodi van de downstream-taakdataset. Daarom stellen we TACO voor, een test-time-scaling (TTS)-raamwerk dat een lichtgewicht pseudo-count-schatter gebruikt als een hoogwaardige verificateur van actiebrokken. De VLA-modellen geïntegreerd met TACO kunnen de acties uitvoeren met de maximale pseudo-count van alle bemonsterde actiebrokken, waardoor distributieverschuivingen worden voorkomen terwijl het generalisatievermogen van VLA's behouden blijft, aangezien de beperking alleen tijdens inferentie wordt toegepast. Onze methode lijkt op het klassieke anti-exploratieprincipe in offline reinforcement learning (RL), en omdat het gradient-vrij is, biedt het aanzienlijke rekenvoordelen vergeleken met RL-updates, vooral voor flow- of diffusiegebaseerde VLA's waarop RL-updates moeilijk uit te voeren zijn vanwege het denoiseringsproces. Uitgebreide experimenten over vier simulatiebenchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) en een dual-arm platform tonen aan dat onze methode de inferentiestabiliteit en succespercentages bij downstream-taakaanpassingen aanzienlijk verbetert.
Het nabootsen van menselijk gedrag om actief te leren uit algemene ervaringen en kunstmatige algemene intelligentie te bereiken, is altijd een menselijke droom geweest. Recente op reinforcement learning (RL) gebaseerde large-thinking modellen tonen indrukwekkende expertniveau-capaciteiten, bijvoorbeeld in software en wiskunde, maar zijn nog steeds sterk afhankelijk van verifieerbare beloningen in specifieke domeinen, wat een belangrijke bottleneck vormt om de prestatiegrens van algemeen redeneervermogen te verleggen. In dit werk stellen we PretrainZero voor, een reinforcement active learning-framework gebouwd op de pretrainingscorpus om RL uit te breiden van domeinspecifieke na-training naar algemene pretraining. PretrainZero kenmerkt zich door de volgende eigenschappen: 1) Actieve pretraining: geïnspireerd door het actieve leervermogen van mensen, leert PretrainZero een verenigd redeneerbeleid om actief redelijke en informatieve inhoud uit de pretrainingscorpus te identificeren en deze inhoud via RL te voorspellen. 2) Zelfsupervised leren: zonder verifieerbare labels, voorgetrainde beloningsmodellen of supervised fine-tuning, trainen we redeneerders direct pretrain van 3 tot 30B basismodellen op de algemene Wikipedia-corpus met RL, waardoor de verificatiedata-muur voor algemeen redeneren significant wordt doorbroken. 3) Verificatieschaling: door toenemend uitdagende gemaskeerde segmenten aan te pakken, verbetert PretrainZero de algemene redeneervermogens van voorgetrainde basismodellen aanzienlijk. In reinforcement pretraining verbetert PretrainZero Qwen3-4B-Base met 8,43, 5,96 en 10,60 op respectievelijk de MMLU-Pro, SuperGPQA en wiskunde-gemiddelde benchmarks. In na-training kunnen de voorgetrainde modellen ook dienen als redeneerfundamentmodellen voor downstream RLVR-taken.
Het begrijpen van visuele verschillen tussen dynamische scènes vereist de comparatieve waarneming van compositionele, ruimtelijke en temporele veranderingen – een capaciteit die in bestaande visie-taal-systemen onderbelicht blijft. Hoewel eerder onderzoek naar Image Difference Captioning (IDC) modellen in staat stelde om semantische veranderingen tussen statische afbeeldingen te beschrijven, slagen deze benaderingen er niet in om bewegingscontinuïteit, gebeurtenisevolutie of bewerkingsconsistentie in de tijd vast te leggen. Wij introduceren de ViDiC-taak (Video Difference Captioning) en de bijbehorende ViDiC-1K-dataset, die zijn ontworpen om het vermogen van Multimodale Large Language Models (MLLM's) te evalueren om gedetailleerde beschrijvingen te geven van overeenkomsten en verschillen tussen videoparen. ViDiC-1K omvat 1.000 gecureerde videoparen, geannoteerd met meer dan 4.000 comparatieve checklistitems, verdeeld over zeven categorieën: onderwerp, stijl, achtergrond, cinematografie, beweging, locatie en weergavetechnieken. Om een betrouwbare evaluatie te waarborgen, stellen we een dual-checklist raamwerk voor dat de nauwkeurigheid van overeenkomst en verschil afzonderlijk meet, gebaseerd op het LLM-as-a-Judge-protocol. Experimenten met negentien representatieve multimodale modellen onthullen een significante prestatiekloof in hun comparatieve beschrijvings- en verschilwaarnemingsvermogens. Wij hopen dat ViDiC-1K een uitdagende benchmark kan zijn die een solide basis legt voor de vooruitgang van videobegrip, bewerkingsbewustzijn en comparatief redeneren in multimodale intelligentie.
Versterkingsleren (RL) heeft onlangs opmerkelijke successen geboekt bij het uitlokken van visueel redeneren in Multimodale Grote Taalmodellen (MLLM's). Bestaande benaderingen trainen echter typisch aparte modellen voor verschillende taken en behandelen beeld- en videoredenering als gescheiden domeinen. Dit resulteert in een beperkte schaalbaarheid richting een multimodale redeneergeneralist, wat de praktische veelzijdigheid beperkt en mogelijke kennisdeling tussen taken en modaliteiten belemmert. Daartoe stellen wij OneThinker voor, een alles-in-één redeneermodel dat beeld- en videobegrip verenigt uiteenlopende fundamentele visuele taken, waaronder vraagbeantwoording, beeldbeschrijving, ruimtelijke en temporele lokalisatie, tracking en segmentatie. Om dit te bereiken, construeren we de OneThinker-600k-trainingscorpus die al deze taken dekt en zetten we commerciële modellen in voor CoT-annotatie, wat resulteert in OneThinker-SFT-340k voor SFT-koude start. Verder stellen we EMA-GRPO voor om beloningsheterogeniteit in multi-task-RL te hanteren door taskgewijze voortschrijdende gemiddelden van beloningsstandaarddeviaties bij te houden voor gebalanceerde optimalisatie. Uitgebreide experimenten op diverse visuele benchmarks tonen aan dat OneThinker sterke prestaties levert op 31 benchmarks, verspreid over 10 fundamentele visuele begriptaken. Bovendien vertoont het effectieve kennisoverdracht tussen bepaalde taken en een preliminair zero-shot-generaliseervermogen, wat een stap betekent richting een verenigde multimodale redeneergeneralist. Alle code, modellen en data worden vrijgegeven.
Vision Language Models (VLMs) tonen een sterk kwalitatief visueel begrip, maar hebben moeite met metrisch precieze ruimtelijke redeneervaardigheden die vereist zijn voor embodied toepassingen. Het agent-paradigma belooft dat VLMs een breed scala aan tools kunnen gebruiken om deze capaciteiten aan te vullen, zoals diepteschatters, segmentatiemodellen en poseschatters. Het blijft echter een open uitdaging hoe deze visie te verwezenlijken zonder uitsluitend te vertrouwen op handmatige promptstrategieën of het opleggen van vaste, vooraf gedefinieerde toolpijplijnen die het vermogen van VLMs om optimale toolgebruikspatronen te ontdekken beperken. Reinforcement Learning zou deze kloof kunnen overbruggen, maar was tot nu toe beperkt tot redeneren met een enkele visuele tool vanwege de grote zoekruimte bij multi-tool redeneren. Wij introduceren Double Interactive Reinforcement Learning (DIRL), een tweefasig trainingsraamwerk waarin VLMs leren om meerdere tools te coördineren door middel van interactieve verkenning en feedback. In de onderwijs fase combineren we demonstraties van een enkele tool-specialist, getraind via interactieve RL, met sporen van een frontier model dat alle tools gebruikt. In de verkenning fase verfijnt het model de multi-tool coördinatie verder door middel van voortgezette RL. Ons model, SpaceTools, met tool-aangevulde ruimtelijke redeneervaardigheid, behaalt state-of-the-art prestaties op benchmarks voor ruimtelijk begrip (RoboSpatial-Home, BLINK, BOP-ASK) en demonstreert betrouwbare manipulatie in de echte wereld met behulp van een 7-DOF robot als tool. DIRL biedt substantiële verbeteringen ten opzichte van de vanilla SFT (+12% op RoboSpatial) en RL (+16% op RoboSpatial) baseline. Projectpagina: https://spacetools.github.io/.
Het bereiken van een precieze afstemming tussen gebruikersintentie en gegenereerde beelden blijft een centrale uitdaging in tekst-naar-visuele generatie, aangezien een enkele poging vaak niet het gewenste resultaat oplevert. Om dit aan te pakken, schalen eerdere methoden voornamelijk het visuele generatieproces op (bijvoorbeeld door meer samplingstappen of seeds te gebruiken), maar dit leidt snel tot een kwaliteitsplateau. Deze beperking ontstaat omdat de prompt, die cruciaal is voor het sturen van de generatie, ongewijzigd blijft. Om dit op te lossen, stellen we Prompt Redesign for Inference-time Scaling voor, genaamd PRIS, een framework dat de prompt tijdens inference adaptief herziet in reactie op de opgeschaalde visuele generaties. De kern van PRIS is het beoordelen van de gegenereerde beelden, het identificeren van terugkerende foutpatronen in de beelden, en het dienovereenkomstig herontwerpen van de prompt voordat de beelden opnieuw worden gegenereerd met de herziene prompt. Om precieze afstemmingsfeedback te geven voor promptrevisie, introduceren we een nieuwe verificatiemethode, element-level factual correction, die de afstemming tussen promptattributen en gegenereerde beelden op een fijnmazig niveau evalueert, waardoor nauwkeurigere en beter interpreteerbare beoordelingen worden verkregen dan met holistische maatstaven. Uitgebreide experimenten op zowel tekst-naar-beeld als tekst-naar-video benchmarks tonen de effectiviteit van onze aanpak aan, inclusief een verbetering van 15% op VBench 2.0. Deze resultaten benadrukken dat het gezamenlijk opschalen van prompts en beelden essentieel is om schaalwetten tijdens inference volledig te benutten. Visualisaties zijn beschikbaar op de website: https://subin-kim-cv.github.io/PRIS.
Een echt interactief wereldmodel vereist drie essentiële componenten: realtime streaming op lange termijn, consistent ruimtelijk geheugen en precieze gebruikerscontrole. De meeste bestaande methoden behandelen echter slechts één van deze aspecten afzonderlijk, aangezien het gelijktijdig bereiken van alle drie zeer uitdagend is – bijvoorbeeld gaan langetermijngeheugenmechanismen vaak ten koste van de realtime-prestaties. In dit werk presenteren we RELIC, een uniform raamwerk dat deze drie uitdagingen gezamenlijk aanpakt. Op basis van een enkele afbeelding en een tekstbeschrijving stelt RELIC geheugenbewuste, langdurige verkenning van willekeurige scènes in realtime mogelijk. Gebouwd op recente autoregressieve videodiffusiedistillatietechnieken, vertegenwoordigt ons model langetermijngeheugen met behulp van sterk gecomprimeerde historische latente tokens, gecodeerd met zowel relatieve acties als absolute cameraposities binnen de KV-cache. Deze compacte, camerabewuste geheugenstructuur ondersteunt impliciete 3D-consistente contentretrieval en handhaaft langetermijncoherentie met minimale rekenkosten. Parallel hieraan fine-tunen we een bidirectioneel teacher-videomodel om sequenties te genereren die verder reiken dan zijn oorspronkelijke trainingshorizon van 5 seconden, en transformeren we het in een causaal student-generatormodel met behulp van een nieuw geheugenefficiënt zelfforceringsparadigma dat volledige-contextdistillatie mogelijk maakt over zowel langdurige teacher- als student-zelfrollouts. Geïmplementeerd als een model met 14B parameters en getraind op een gecureerde, met Unreal Engine gerenderde dataset, behaalt RELIC realtime-generatie met 16 FPS en demonstreert het nauwkeurigere actievolging, stabielere langetermijnstreaming en robuustere ruimtelijke-geheugenretrieval in vergelijking met eerder werk. Deze capaciteiten positioneren RELIC als een sterke basis voor de volgende generatie interactieve wereldmodellering.
Multimodale grote taalmodellen (MLLM's) die met beelden denken, kunnen interactief tools gebruiken om visuele invoer te interpreteren. Huidige methoden vertrouwen echter vaak op een beperkte set tools met weinig praktische noodzaak en schaalbaarheid. In dit werk onthullen we eerst een cruciaal en voorheen over het hoofd gezien zwak punt: zelfs de modernste MLLM's zijn verrassend broos en vertonen aanzienlijke prestatievermindering bij beelden met eenvoudige oriëntatiewijzigingen of natuurlijke corruptie, wat de behoefte aan robuustere, op tools gebaseerde redenering onderstreept. Om dit aan te pakken, stellen we CodeVision voor, een flexibel en schaalbaar code-als-tool raamwerk waarbij het model code genereert als universele interface om elke beeldbewerking aan te roepen, voorbij vaste toolregistraties. We trainen ons model met een tweefasenmethodologie, beginnend met Supervised Fine-Tuning (SFT) op een hoogwaardige dataset, samengesteld voor complexe, multi-turn toolcompositie en foutherstel, gevolgd door Reinforcement Learning (RL) met een nieuwe en gedetailleerde procesbeloningsfunctie om strategisch en efficiënt toolgebruik aan te moedigen. Om dit onderzoek te faciliteren, construeren we nieuwe SFT- en RL-datasets en introduceren we een uitdagende nieuwe benchmark suite, ontworpen om robuustheid tegen oriëntatiewijzigingen en multi-tool redenering rigoureus te evalueren. Experimenten op de Qwen2.5-VL en Qwen3-VL series tonen aan dat onze aanpak modelprestaties significant verbetert en opkomende capaciteiten bevordert, zoals flexibele toolcompositie, efficiënte geketende uitvoering en robuust foutherstel op basis van runtime-feedback. Code is beschikbaar op https://github.com/ByteDance-BandAI/CodeVision.
Normalizing Flows (NF's) vormen een klasse van generatieve modellen die zich onderscheiden door een wiskundig inverteerbare architectuur. Hierbij transformeert de forward-pass data naar een latente ruimte voor dichtheidsschatting, terwijl de reverse-pass nieuwe samples uit deze ruimte genereert. Deze eigenschap creëert een intrinsieke synergie tussen representatieleren en datageneratie. De generatieve kwaliteit van standaard NF's wordt echter beperkt door zwakke semantische representaties uit log-waarschijnlijkheidsoptimalisatie. Als oplossing presenteren we een nieuwe aligneringsstrategie die creatief gebruikmaakt van de inverteerbaarheid van NF's: in plaats van de forward-pass te regulariseren, aligneren we de intermediaire kenmerken van de generatieve (reverse) pass met representaties uit een krachtig vision foundation-model. Dit toont superieure effectiviteit aan boven naïeve alignering. We introduceren tevens een nieuw trainingsvrij optimalisatiealgoritme voor classificatie tijdens testtijd, dat een meer intrinsieke evaluatie biedt van de in de NF ingebedde semantische kennis. Uitgebreide experimenten tonen aan dat onze aanpak de training van NF's met meer dan 3,3x versnelt, terwijl tegelijkertijd significante verbeteringen worden behaald in zowel generatieve kwaliteit als classificatienauwkeurigheid. Nieuwe state-of-the-art resultaten voor NF's worden behaald op ImageNet 64×64 en 256×256. Onze code is beschikbaar op https://github.com/MCG-NJU/FlowBack.
Het afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren is doorgaans afhankelijk van externe supervisie, wat met kritieke beperkingen kampt: menselijke annotaties zijn schaars en subjectief, beloningsmodellen zijn kwetsbaar voor 'reward hacking', en zelfevaluatiemethoden lijden onder promptgevoeligheid en vooroordelen. In dit werk stellen we 'stable rank' voor, een intrinsiek, annotatievrij kwaliteitssignaal afgeleid van modelrepresentaties. 'Stable rank' meet de effectieve dimensionaliteit van verborgen toestanden door de verhouding te berekenen tussen de totale variantie en de variantie in de dominante richting, waarbij kwaliteit wordt vastgelegd door hoe informatie zich verdeelt over de representatiedimensies. Empirisch bereikt 'stable rank' een nauwkeurigheid van 84,04% op RewardBench en verbetert het de taaknauwkeurigheid met gemiddeld 11,3 procentpunt ten opzichte van 'greedy decoding' via 'Best-of-N' sampling. Gebruikmakend van dit inzicht, introduceren we 'Stable Rank Group Relative Policy Optimization' (SR-GRPO), dat 'stable rank' gebruikt als een beloningssignaal voor reinforcement learning. Zonder externe supervisie verbetert SR-GRPO Qwen2.5-1.5B-Instruct met 10% op STEM en 19% op wiskundig redeneren, waarmee het zowel geleerde beloningsmodellen als zelfevaluatie-baselines overtreft. Onze bevindingen tonen aan dat kwaliteitssignalen kunnen worden onttrokken aan de interne modelgeometrie, wat een weg biedt naar schaalbare afstemming zonder externe supervisie.
Hoewel Neural Processing Units (NPU's) een hoge theoretische efficiëntie bieden voor edge-AI, presteren state-of-the-art Vision-Language Models (VLM's) die zijn afgestemd op GPU's vaak ondermaats op deze substraten. Wij schrijven deze hardware-model mismatch toe aan twee primaire factoren: de kwantiseringsbroosheid van Vision Transformers (ViT's) en het I/O-gebonden karakter van autoregressieve aandachtmechanismen, die de hoge rekenkundige doorvoer van NPU's niet benutten. Om deze kloof te overbruggen, stellen wij AutoNeural voor, een NPU-native VLM-architectuur die mede-ontworpen is voor uitsluitend integer-inferentie. Wij vervangen de standaard ViT-encoder door een backbone in MobileNetV5-stijl die gebruikmaakt van depthwise separable convolutions, wat gegarandeerde activeringsdistributies voor stabiele INT4/8/16-kwantisering waarborgt. Hierop aanvullend integreert onze taal-backbone State-Space Model (SSM)-principes met Transformer-lagen, waarbij efficiënte gated convolutions worden ingezet om lineaire tijdscomplexiteit te bereiken. Dit hybride ontwerp elimineert de zware geheugen-I/O-overhead van Key-Value caching tijdens generatie. Onze aanpak levert aanzienlijke efficiëntiewinsten op, met een reductie van de kwantiseringsfout van de vision-encoder tot wel 7x en een end-to-end latentie met 14x vergeleken met conventionele baseline-modellen. AutoNeural biedt tevens een 3x hogere decodesnelheid en een 4x langere contextvenster dan de baseline. Wij valideren deze verbeteringen via een real-world automotive case study op de Qualcomm SA8295P SoC, waarbij realtime prestaties voor cockpitapplicaties worden aangetoond. Onze resultaten benadrukken dat het heroverwegen van de modeltopologie specifiek voor NPU-beperkingen een vereiste is voor robuuste multimodale edge-intelligentie.
Koken is een sequentiële en visueel verankerde activiteit, waarbij elke stap zoals snijden, mengen of bakken zowel procedurele logica als visuele semantiek met zich meedraagt. Hoewel recente diffusiemodellen sterke capaciteiten hebben getoond in tekst-naar-beeld-generatie, hebben ze moeite met gestructureerde scenario's met meerdere stappen, zoals receptillustratie. Bovendien kunnen huidige methoden voor receptillustratie zich niet aanpassen aan de natuurlijke variabiliteit in receptlengte; ze genereren een vast aantal afbeeldingen, ongeacht de daadwerkelijke instructiestructuur. Om deze beperkingen aan te pakken, presenteren we CookAnything, een flexibel en consistent op diffusie gebaseerd framework dat samenhangende, semantisch duidelijke beeldsequenties genereert uit tekstuele kookinstructies van willekeurige lengte. Het framework introduceert drie belangrijke componenten: (1) Stapsgewijze Regionale Controle (SRC), die tekstuele stappen uitlijnt met corresponderende beeldregio's binnen een enkel denoisingsproces; (2) Flexibele RoPE, een stapbewust positioneel coderingsmechanisme dat zowel temporele coherentie als ruimtelijke diversiteit verbetert; en (3) Cross-Step Consistentie Controle (CSCC), die fijnmazige ingrediëntenconsistentie over stappen heen handhaaft. Experimentele resultaten op receptillustratiebenchmarks tonen aan dat CookAnything beter presteert dan bestaande methoden in zowel trainingsgebonden als trainingsvrije settings. Het voorgestelde framework ondersteunt schaalbare, hoogwaardige visuele synthese van complexe instructies met meerdere stappen en heeft aanzienlijk potentieel voor brede toepassingen in instructiemedia en procedurele contentcreatie.
Sinds 2019 is de Hugging Face Model Hub het belangrijkste wereldwijde platform voor het delen van open-weight AI-modellen. Door het vrijgeven van een dataset met de complete geschiedenis van wekelijkse modeldownloads (juni 2020-augustus 2025) naast modelmetadata, bieden wij de meest rigoureuze analyse tot nu toe van concentratiedynamiek en evoluerende kenmerken in de open model-economie. Onze analyse omvat 851.000 modellen, meer dan 200 geaggregeerde attributen per model en 2,2 miljard downloads. Wij documenteren een fundamentele herverdeling van economische macht: de Amerikaanse dominantie van de open-weight industrie door Google, Meta en OpenAI is sterk afgenomen ten gunste van ongebonden ontwikkelaars, gemeenschapsorganisaties en, vanaf 2025, de Chinese industrie, waarbij DeepSeek- en Qwen-modellen mogelijk een nieuwe consolidatie van marktmacht inluiden. Wij identificeren statistisch significante verschuivingen in model-eigenschappen, een 17-voudige toename van de gemiddelde modelgrootte, snelle groei in multimodale generatie (3,4x), quantisatie (5x) en mixture-of-experts-architecturen (7x), naast zorgwekkende dalingen in datatransparantie, waarbij open weights-modellen in 2025 voor het eerst echt open source-modellen overtreffen. Wij leggen een nieuwe laag van ontwikkelaarsintermediairs bloot die is ontstaan, gericht op het quantiseren en aanpassen van basismodellen voor zowel efficiëntie als artistieke expressie. Om doorlopend onderzoek en toezicht mogelijk te maken, publiceren wij de volledige dataset met een interactief dashboard voor real-time monitoring van concentratiedynamiek en evoluerende eigenschappen in de open model-economie.
Wij presenteren Jina-VLM, een vision-language model met 2,4 miljard parameters dat state-of-the-art prestaties levert op het gebied van meertalige visuele vraagbeantwoording onder open VLMs van vergelijkbare schaal (circa 2B). Het model koppelt een SigLIP2 vision-encoder aan een Qwen3 language-backbone via een *attention-pooling* connector, die token-efficiënte verwerking van afbeeldingen met een willekeurige resolutie mogelijk maakt. Op standaard VQA-benchmarks en meertalige evaluaties overtreft Jina-VLM vergelijkbare modellen, terwijl het tegelijkertijd competitieve prestaties behoudt voor uitsluitend tekstuele taken.
Het beoordelen van beeld-tekst uitlijningsmodellen zoals CLIP is cruciaal voor het overbruggen van visuele en linguïstische representaties. Toch vertrouwen bestaande benchmarks op op regels gebaseerde perturbaties of korte bijschriften, wat hun vermogen beperkt om fijnmazige uitlijning te meten. Wij introduceren AlignBench, een benchmark die een nieuwe indicator voor beeld-tekst uitlijning biedt door gedetailleerde beeld-bijschriftparen te evalueren die gegenereerd zijn door diverse beeld-naar-tekst en tekst-naar-beeld modellen. Elke zin is geannoteerd op correctheid, wat een directe beoordeling van VLMs als uitlijningsbeoordelaars mogelijk maakt. Het benchmarken van een breed scala aan decoder-gebaseerde VLMs onthult drie belangrijke bevindingen: (i) CLIP-gebaseerde modellen, zelfs modellen afgestemd op compositioneel redeneren, blijven nagenoeg blind; (ii) detectoren scoren systematisch hoger voor vroege zinnen; en (iii) ze tonen een sterke zelfvoorkeur, waarbij ze hun eigen uitvoer bevoordelen en de detectieprestatie schaden. Onze projectpagina zal beschikbaar zijn op https://dahlian00.github.io/AlignBench/.
Wij introduceren Doublespeak, een eenvoudige *in-context* representatiekapingaanval op grote taalmodellen (LLM's). De aanval werkt door systematisch een schadelijk sleutelwoord (bijv. bom) te vervangen door een onschuldig token (bijv. wortel) over meerdere *in-context* voorbeelden heen, gegeven een prefix van een schadelijke vraag. Wij tonen aan dat deze substitutie ertoe leidt dat de interne representatie van het onschuldige token convergeert naar die van het schadelijke, waardoor de schadelijke semantiek effectief wordt ingebed onder een eufemisme. Als gevolg daarvan worden oppervlakkig onschuldige prompts (bijv. "Hoe bouw ik een wortel?") intern geïnterpreteerd als verboden instructies (bijv. "Hoe bouw ik een bom?"), waardoor de veiligheidsafstelling van het model wordt omzeild. Wij gebruiken interpreteerbaarheidstools om aan te tonen dat deze semantische overschrijving laag voor laag ontstaat, waarbij onschuldige betekenissen in de vroege lagen convergeren naar schadelijke semantiek in de latere lagen. Doublespeak is optimalisatievrij, breed overdraagbaar tussen modelfamilies, en behaalt hoge slagingspercentages op closed-source en open-source systemen, met een *attack success rate* (ASR) van 74% op Llama-3.3-70B-Instruct met een *single-sentence context override*. Onze bevindingen belichten een nieuw aanvalsoppervlak in de latente ruimte van LLM's en onthullen dat huidige afstellingsstrategieën ontoereikend zijn en instead op representatieniveau zouden moeten opereren.
Het implementeren van grote-taalmodellen (LLM's) op mobiele platforms gaat gepaard met aanzienlijke uitdagingen vanwege het beperkte geheugen en de gedeelde rekenbronnen van het apparaat. De beschikbaarheid van resources kan een probleem vormen, omdat deze direct wordt beïnvloed door de huidige werklast van het apparaat, wat de onzekerheid van modelimplementatie vergroot. Wij introduceren UniQL, een uniform raamwerk voor post-training kwantisatie en lage-rangcompressie met configureerbare pruning-snelheden op het apparaat voor edge-LLM's. UniQL is een algemeen raamwerk dat kwantisatie en lage-rangcompressie integreert voor Transformers, State Space Models (SSM's) en hybride modellen om diverse edge-toepassingen te ondersteunen. In ons voorgestelde gezamenlijke raamwerk introduceren we een efficiënte gestructureerde gewichtsorteringsmethode die de reken snelheid 20x versnelt, kwantisatiebewuste singuliere-waardendecompositie (SVD) om kwantisatiefouten te minimaliseren, staatbewuste gewichtsortering voor SSM's, en een gefuseerde RoPE-kernel (rotary positional embedding) voor geprunede modellen. Ons raamwerk voert gewichtsortering, fine-tuning en kwantisatie in de cloud uit in een enkel workflowproces, terwijl het configureerbare pruning-snelheden tot 35% op het apparaat mogelijk maakt. Onze experimenten tonen aan dat gekwantiseerde en geprunede modellen een geheugenreductie van 4x-5,7x en een token-doorvoerverbetering van 2,7x-3,4x bereiken, waarbij de nauwkeurigheid binnen 5% van de originele modellen blijft bij 15% pruning voor Transformers (Llama3 en Qwen2.5), SSM's (Mamba2) en hybride modellen (Nemotron-H en Bamba-v2). De code en gekwantiseerde modellen zijn beschikbaar op: https://github.com/enyac-group/UniQL.
Redeneermodellen die gebruikmaken van lange denkketens benutten diverse cognitieve vaardigheden, zoals het verifiëren van antwoorden, terugspoelen, opnieuw proberen via een alternatieve methode, en meer. Eerder onderzoek heeft aangetoond dat wanneer een basistaalmodel deze vaardigheden vertoont, verdere training van dat model met reinforcement learning (RL) kan leren om ze te benutten. Maar hoe kunnen we modellen ertoe brengen vaardigheden te gebruiken die niet aanwezig zijn in basismodellen? Onze werk, SkillFactory, is een methode om modellen af te stemmen om deze vaardigheden grofweg aan te leren tijdens een supervised fine-tuning (SFT) fase vóór RL. Onze aanpak berust niet op distillatie van een sterker model, maar gebruikt instead steekproeven van het model zelf, die worden herschikt om trainingsdata aan te leveren in het formaat van die vaardigheden. Deze "zilveren" SFT-sporen zijn mogelijk imperfect, maar zijn desalniettemin effectief om een model voor te bereiden op het verwerven van vaardigheden tijdens RL. Onze evaluatie toont aan dat (1) starten vanaf een SkillFactory SFT-initialisatie een model helpt te generaliseren naar moeilijkere varianten van een taak na RL, ondanks lagere prestaties vóór RL; (2) cognitieve vaardigheden daadwerkelijk door het model worden gebruikt; (3) RL-getrainde SkillFactory-modellen robuuster zijn tegen regressie op taken buiten het domein dan RL-getrainde basismodellen. Ons werk suggereert dat inductieve vooroordelen die vóór RL worden aangeleerd, modellen helpen om robuust gebruik van cognitieve vaardigheden aan te leren.
De toepassing van Large Multimodal Models (LMMs) op langdurige videobegrip wordt beperkt door beperkte contextlengtes en de computationeel onhoudbare kost van het verwerken van dichte videotokens. Bijgevolg richt recent onderzoek zich op query-aware frameselectie, methoden die vaak aanzienlijke computationele overhead met zich meebrengen. Dit artikel betwist de aanname dat dergelijke complexe zoekmechanismen universeel noodzakelijk zijn. We identificeren en valideren eerst een querytypologie die onderscheid maakt tussen globale queries en gelokaliseerde queries. We tonen aan dat uniforme steekproeven zowel effectief als efficiënt zijn voor globale queries, terwijl gelokaliseerde queries inderdaad query-aware selectie vereisen voor optimale prestaties. Voortbouwend op dit inzicht stellen we DIG voor, een trainingsvrij frameselectiekader dat zijn strategie aanpast op basis van het querytype. Specifiek gebruikt DIG efficiënte uniforme steekproeven voor globale queries, terwijl het een gespecialiseerde pijplijn activeert om queryrelevante frames te extraheren voor gelokaliseerde queries. Experimenten op drie benchmarks voor langdurige videobegrip tonen aan dat DIG consequent beter presteert dan bestaande basislijnen en de prestaties van LMMs robuust verbetert, zelfs wanneer het aantal invoerframes wordt opgeschaald naar 256.
Vision-Language Models (VLMs) hebben opmerkelijke successen geboekt bij visuele vraagbeantwoordings-taken, maar hun afhankelijkheid van grote aantallen visuele tokens introduceert aanzienlijke rekenkosten. Hoewel bestaande efficiënte VLM-benaderingen visuele tokens verminderen via compressie met een vaste verhouding, opereren ze passief en missen ze het vermogen om zich aan te passen aan wisselende taakeisen. Dit roept een fundamentele vraag op: Kunnen VLMs autonoom het minimale aantal visuele tokens bepalen dat voor elk sample nodig is? Geïnspireerd door menselijke actieve visiemechanismen introduceren wij AdaptVision, een efficiënt VLM-paradigma dat adaptieve verwerving van visuele tokens mogelijk maakt via een coarse-to-fine aanpak. Ons model verwerkt aanvankelijk gecomprimeerde visuele tokens uit laagresolutiebeelden en verwerft selectief aanvullende visuele informatie door een bounding box-tool aan te roepen om sleutelregio's bij te snijden wanneer nodig. Wij trainen AdaptVision met een reinforcement learning-raamwerk dat nauwgezet een balans houdt tussen nauwkeurigheid en efficiëntie. Centraal in onze aanpak staat Decoupled Turn Policy Optimization (DTPO), dat het leerdoel ontkoppelt in twee componenten: (1) tool learning, dat het correcte toolgebruik optimaliseert, en (2) nauwkeurigheidsverbetering, die de gegenereerde antwoorden verfijnt om de correctheid te verbeteren. Op basis van deze formulering ontkoppelen we verder de advantage-schatting door afzonderlijke advantages te berekenen voor tokens die aan elk doel zijn gekoppeld. Deze formulering maakt een effectievere optimalisatie mogelijk voor AdaptVision in vergelijking met standaard GRPO. Uitgebreide experimenten op meerdere VQA-benchmarks tonen aan dat AdaptVision superieure prestaties bereikt terwijl het aanzienlijk minder visuele tokens verbruikt dan state-of-the-art efficiënte VLM-methoden.
Diffusiemodellen tonen veelbelovende resultaten voor het verwijderen van dynamische bewegingsonscherpte in scènes; bestaande onderzoeken slagen er echter vaak niet in om de intrinsieke aard van het onscherpteproces binnen diffusiemodellen te benutten, wat hun volledige potentieel beperkt. Om dit aan te pakken, presenteren wij een Blur Diffusion Model (BlurDM), dat het onscherptevormingsproces naadloos integreert in diffusie voor beelddeblurring. Omdat bewegingonscherpte voortkomt uit continue belichting, modelleert BlurDM het onscherptevormingsproces impliciet via een duale-diffusie voorwaartse schema, waarbij zowel ruis als onscherpte worden gediffundeerd op een scherp beeld. Tijdens het omgekeerde generatieproces leiden we een duale formulering voor ruisverwijdering en deblurring af, waardoor BlurDM in staat is om het scherpe beeld te herstellen door gelijktijdig ruis te verwijderen en onscherpte te reduceren, uitgaande van pure Gaussische ruis die geconditioneerd is op het onscherpe beeld als invoer. Daarnaast voeren we BlurDM uit in de latente ruimte om het efficiënt te integreren in deblurringnetwerken, waardoor een flexibel prior-generatienetwerk voor deblurring ontstaat. Uitgebreide experimenten tonen aan dat BlurDM bestaande deblurringmethoden aanzienlijk en consistent verbetert op vier benchmarkdatasets. De broncode is beschikbaar op https://github.com/Jin-Ting-He/BlurDM.
Aandachtmechanismen vormen de kern van foundation-modellen, maar hun kwadratische complexiteit blijft een kritieke bottleneck voor schaalvergroting. Deze uitdaging heeft de ontwikkeling van efficiënte aandachtsmechanismen gestimuleerd, waarbij sparse aandacht het dominante paradigma is geworden. Huidige methoden behouden of verwijderen typisch hele key-value-blokken met binaire maskers, wat aanzienlijk informatieverlies tot gevolg heeft onder hoge sparseheid. Om deze kloof te verkleinen, presenteren we Pyramid Sparse Attention (PSA), een veelzijdige module die toepasbaar is op zowel video-interpretatie- als generatietaken. In plaats van binaire masking introduceert PSA multi-level gepoolde KV-representaties, wat een fijnere maskerkorrelgrootte mogelijk maakt. Concreet wijst elk query-blok dynamisch lagere poolingniveaus toe aan kritieke KV-blokken en hogere niveaus aan minder belangrijke blokken, waardoor een informatieve interpolatie ontstaat tussen volledig behoud en volledige verwijdering. Dit ontwerp, analoog aan fixed-point kwantisatie en klassieke feature pyramid netwerken in computervisie, vermindert effectief informatieverlies terwijl het rekenefficiëntie behoudt onder een laag rekenbudget. Het werkt met een native, hardwarevriendelijke kernel die gebruikmaakt van een ontkoppeld block-tile-ontwerp om efficiënte uitvoering te garanderen. In benchmarks voor video-interpretatie en -generatie behoudt PSA contextuele informatie en visuele kwaliteit, en presteert consequent beter of vergelijkbaar met bestaande sparse-aandacht-baselines met superieure efficiëntie-kwaliteit-afwegingen. Onze code en modelgewichten zijn openbaar beschikbaar op: http://ziplab.co/PSA.
Grafisch ontwerp vormt de hoeksteen van moderne visuele communicatie en dient als een cruciaal medium voor het promoten van culturele en commerciële evenementen. Recente vooruitgang heeft de automatisering van dit proces met behulp van Large Multimodal Models (LMM's) onderzocht, maar bestaande methoden produceren vaak geometrisch onnauwkeurige lay-outs en missen de iteratieve, laagspecifieke bewerking die vereist is in professionele workflows. Om deze beperkingen aan te pakken, presenteren wij PosterCopilot, een raamwerk dat lay-outredenering en controleerbare bewerking voor professioneel grafisch ontwerp bevordert. Specifiek introduceren we een progressieve drietraps trainingsstrategie die LMM's voorziet van geometrisch inzicht en esthetische redeneervaardigheden voor lay-outontwerp, bestaande uit Perturbed Supervised Fine-Tuning, Reinforcement Learning voor Visueel-Realiteitsafstemming, en Reinforcement Learning vanuit Esthetische Feedback. Verder ontwikkelen we een complete workflow die het getrainde LMM-gebaseerde ontwerpmodel koppelt aan generatieve modellen, waardoor laag-controleerbare, iteratieve bewerking mogelijk wordt voor precieze elementverfijning met behoud van globale visuele consistentie. Uitgebreide experimenten tonen aan dat PosterCopilot geometrisch nauwkeurige en esthetisch superieure lay-outs bereikt, en ongekende controleerbaarheid biedt voor professioneel iteratief ontwerp.
Wij introduceren de Adversarial Confusion Attack, een nieuwe klasse van bedreigingen voor multimodale large language models (MLLM's). In tegenstelling tot jailbreaks of gerichte misclassificatie, is het doel het veroorzaken van een systematische ontwrichting die het model incoherente of vol vertrouwen onjuiste outputs laat genereren. Praktische toepassingen omvatten het inbedden van dergelijke adversariële afbeeldingen in websites om te voorkomen dat op MLLM's gestoelde AI-agents betrouwbaar kunnen functioneren. De voorgestelde aanval maximaliseert de entropie van de volgende token met behulp van een kleine ensemble van open-source MLLM's. In de white-box setting tonen we aan dat een enkele adversariële afbeelding alle modellen in de ensemble kan ontwrichten, zowel in de full-image als de Adversarial CAPTCHA setting. Ondanks het gebruik van een basale adversariële techniek (PGD), genereert de aanval perturbaties die transfereren naar zowel ongeziene open-source (bijvoorbeeld Qwen3-VL) als propriëtaire (bijvoorbeeld GPT-5.1) modellen.