Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het landschap van hoogwaardige beeldgeneratiemodellen wordt momenteel gedomineerd door propriëtaire systemen, zoals Nano Banana Pro en Seedream 4.0. Toonaangevende open-source alternatieven, waaronder Qwen-Image, Hunyuan-Image-3.0 en FLUX.2, worden gekenmerkt door enorme parameteraantallen (20B tot 80B), wat ze onpraktisch maakt voor inferentie en fine-tuning op consumentenhardware. Om deze kloof te dichten, stellen we Z-Image voor, een efficiënt generatief basismodel met 6B parameters, gebouwd op een schaalbare Single-Stream Diffusion Transformer (S3-DiT) architectuur die het "schaal-ten-koste-van-alles" paradigma uitdaagt. Door de volledige modellevenscyclus systematisch te optimaliseren – van een zorgvuldig samengestelde datainfrastructuur tot een gestroomlijnd trainingscurriculum – voltooien we de volledige trainingsworkflow in slechts 314K H800 GPU-uren (ongeveer $630K). Ons few-step distillatieschema met reward post-training levert verder Z-Image-Turbo op, dat zowel een inferentielatentie van minder dan een seconde op een enterprise-grade H800 GPU biedt als compatibiliteit met consumentenhardware (<16GB VRAM). Bovendien stelt ons omni-pre-training paradigma ook de efficiënte training van Z-Image-Edit mogelijk, een bewerkmodel met indrukwekkende instructievolgende capaciteiten. Zowel kwalitatieve als kwantitatieve experimenten tonen aan dat ons model prestaties bereikt die vergelijkbaar zijn met of die van toonaangevende concurrenten overtreffen in verschillende dimensies. Opmerkelijk is dat Z-Image uitzonderlijke capaciteiten vertoont in fotorealistische beeldgeneratie en tweetalige tekstweergave, met resultaten die concurreren met topcommerciële modellen, waarmee wordt aangetoond dat state-of-the-art resultaten bereikbaar zijn met aanzienlijk verminderde rekenkosten. We maken onze code, gewichten en onlinedemo openbaar om de ontwikkeling van toegankelijke, budgetvriendelijke en toch state-of-the-art generatieve modellen te bevorderen.
Recente vooruitgang in beeldbewerkingsmodellen heeft opmerkelijke vorderingen getoond. Een veelvoorkomend ontwerp koppelt een multimodaal groot taalmodel (MLLM) als encoder aan een diffusion-decoder, zoals te zien is in systemen als Step1X-Edit en Qwen-Image-Edit, waarbij het MLLM zowel het referentiebeeld als de instructie codeert maar tijdens de training bevroren blijft. In dit werk tonen we aan dat het ontgrendelen van de redeneercapaciteiten van het MLLM de grenzen van bewerkingsmodellen verder kan verleggen. Specifiek onderzoeken we twee redeneermechanismen, denken en reflectie, die het instructiebegrip en de bewerkingsnauwkeurigheid verbeteren. Hierop voortbordurend stelt ons voorgestelde framework beeldbewerking mogelijk in een denk-bewerk-reflectie-lus: het denkmechanisme benut de wereldkennis van het MLLM om abstracte instructies te interpreteren, terwijl de reflectie de bewerkingsresultaten beoordeelt, onbedoelde manipulaties automatisch corrigeert en de eindronde identificeert. Uitgebreide experimenten tonen aan dat onze redeneeraanpak significante prestatieverbeteringen bereikt, met verbeteringen van ImgEdit (+4,3%), GEdit (+4,7%) en Kris (+8,2%) wanneer we onze DiT initialiseren vanuit Step1X-Edit (ReasonEdit-S), en ook de vorige open-source methoden overtreft op zowel GEdit als Kris wanneer geïntegreerd met Qwen-Image-Edit (ReasonEdit-Q).
Recentelijk begint multi-persoons videogeneratie aan bekendheid te winnen. Hoewel enkele voorlopige werken audio-gestuurde multi-persoons sprekende videogeneratie hebben onderzocht, kampen deze vaak met uitdagingen door de hoge kosten van diverse multi-persoons dataverzameling en de moeilijkheid om meerdere identiteiten met coherente interactiviteit aan te sturen. Om deze uitdagingen aan te pakken, stellen wij AnyTalker voor, een multi-persoons generatieraamwerk met een uitbreidbare multi-stroom verwerkingsarchitectuur. Concreet breiden we de aandachtblokken van Diffusion Transformer uit met een nieuwe identiteitsbewuste aandachtmechanisme dat iteratief identiteit-audioparen verwerkt, waardoor willekeurige schaling van aanstuurbare identiteiten mogelijk wordt. Daarnaast vereist de training van multi-persoons generatieve modellen enorme hoeveelheden multi-persoons data. Onze voorgestelde trainingspijplijn gebruikt uitsluitend single-persoons video's om multi-persoons spraakpatronen te leren en verfijnt de interactiviteit met slechts enkele echte multi-persoons fragmenten. Verder dragen wij een gerichte maatstaf en dataset bij, ontworpen om de natuurlijkheid en interactiviteit van de gegenereerde multi-persoons video's te evalueren. Uitgebreide experimenten tonen aan dat AnyTalker opmerkelijke lip-synchronisatie, visuele kwaliteit en natuurlijke interactiviteit bereikt, waarbij een gunstige balans wordt gevonden tussen datakosten en identiteitsschaalbaarheid.
Wij introduceren Vision Bridge Transformer (ViBT), een grootschalige implementatie van Brownian Bridge-modellen ontworpen voor conditionele generatie. In tegenstelling tot traditionele diffusiemodellen die ruis omzetten in data, modelleren Bridge-modellen direct de trajectorie tussen invoer en uitvoer, wat een efficiënt data-naar-data-vertaalparadigma creëert. Door deze modellen op te schalen naar 20B en 1,3B parameters, demonstreren we hun effectiviteit voor beeld- en videovertaaltaken. Om deze schaal te ondersteunen, adopteren we een Transformer-architectuur en introduceren we een variantie-gestabiliseerd snelheidsmatcheidingsdoel voor robuuste training. Gezamenlijk belichten deze vooruitgangen de kracht van het opschalen van Bridge-modellen voor op instructie gebaseerde beeldbewerking en complexe videotransformatie.
Unificatie multimodale modellen voor beeldgeneratie en -begrip vertegenwoordigen een significante stap richting AGI en hebben brede aandacht van onderzoekers getrokken. De grootste uitdaging van deze taak schuilt in de moeilijkheid om een optimaal trainingsparadigma vast te stellen vanwege inherent tegenstrijdige doelstellingen in begrips- en generatietaken. Om deze conflicten te verzachten en hogere prestaties na te streven, hanteren veel onderzoekers verschillende gradaties van modelontkoppeling (bijvoorbeeld dubbele beeldencoders, MOE/MOT-architectuur, of bevroren MLLM's). Overmatige modelontkoppeling kan echter leiden tot verlies van interleave-generatievermogen, wat de oorspronkelijke intentie van unificatie modellen ondermijnt. In dit werk streven we ernaar te onderzoeken hoe taakconflicten kunnen worden gemitigeerd zonder toevlucht te nemen tot modelontkoppeling. Ten eerste analyseren we waarom ontkoppeling conflicten verzacht door het cross-modale aandachtgedrag van modellen te bestuderen. We observeren dat modelontkoppeling in essentie modellen aanstuurt naar taakspecifieke multimodale interactiepatronen, zoals gezien in Qwen-VL en HunyuanImage, en dat hoe grondiger de ontkoppeling, hoe consistenter het gedrag wordt. Gemotiveerd door deze observatie stellen we Attention Interaction Alignment (AIA) verlies voor, dat expliciet taakspecifieke multimodale interactiepatronen aanleert tijdens de training. Om de generaliseerbaarheid van ons AIA-verlies aan te tonen, passen we het toe op Emu3 en Janus-Pro tijdens respectievelijk de SFT- en post-trainingfase. Zonder toeters en bellen verfijnt AIA niet alleen de cross-modale aandachtspatronen, maar verbetert het ook zowel de generatie- als begripsprestaties.
Grote taalmodellen hebben aanzienlijke vooruitgang geboekt in wiskundig redeneren, wat een belangrijke testomgeving vormt voor AI en wetenschappelijk onderzoek zou kunnen beïnvloeden bij verdere ontwikkeling. Door redeneervaardigheid op te schalen met reinforcement learning dat correcte eindantwoorden beloont, zijn LLM's in één jaar tijd verbeterd van slechte prestaties tot het verzadigen van kwantitatieve redeneerwedstrijden zoals AIME en HMMT. Deze aanpak kent echter fundamentele beperkingen. Het najagen van hogere nauwkeurigheid van eindantwoorden lost een kernprobleem niet op: correcte antwoorden garanderen geen correcte redenering. Bovendien vereisen veel wiskundige taken, zoals stellingbewijzen, rigoureuze stap-voor-stap-afleiding in plaats van numerieke antwoorden, waardoor beloningen voor eindantwoorden onbruikbaar worden. Om de grenzen van diep redeneren te verleggen, menen wij dat het noodzakelijk is om de volledigheid en strengheid van wiskundige redenering te verifiëren. Zelfverificatie is vooral belangrijk voor het opschalen van rekenkracht tijdens testtijd, met name voor open problemen zonder bekende oplossingen. Richting zelfverifieerbaar wiskundig redeneren onderzoeken we hoe een accurate en betrouwbare LLM-gebaseerde verifier voor stellingbewijzen kan worden getraind. Vervolgens trainen we een bewijsgenerator met de verifier als beloningsmodel, en stimuleren we de generator om zoveel mogelijk problemen in hun eigen bewijzen te identificeren en op te lossen voordat deze worden gefinaliseerd. Om de kloof tussen generatie en verificatie in stand te houden naarmate de generator sterker wordt, stellen we voor om de verificatie-rekenkracht op te schalen om automatisch nieuwe, moeilijk te verifiëren bewijzen te labelen, waardoor trainingsdata ontstaat om de verifier verder te verbeteren. Ons resulterende model, DeepSeekMath-V2, toont sterke stellingbewijscapaciteiten, behaalt gouden scores op de IMO 2025 en CMO 2024 en een bijna perfecte 118/120 op de Putnam 2024 met opgeschaalde rekenkracht tijdens testtijd.
Diffusiemodellen worden geconfronteerd met een fundamentele afweging tussen generatiekwaliteit en computationele efficiëntie. Latente Diffusiemodellen (LDM's) bieden een efficiënte oplossing, maar lijden onder mogelijk informatieverlies en niet-end-to-end training. Bestaande modellen in de pixelruimte omzeilen daarentegen VAE's, maar zijn computationeel onhaalbaar voor hoogwaardige synthese op hoge resolutie. Om dit dilemma op te lossen, stellen we DiP voor, een efficiënt diffusieraamwerk in de pixelruimte. DiP ontkoppelt de generatie in een globale en een lokale fase: een Diffusion Transformer (DiT)-backbone werkt op grote patches voor efficiënte globale structuurconstructie, terwijl een meegetrainde lichtgewicht Patch Detailer Head contextuele kenmerken benut om fijnmazige lokale details te herstellen. Dit synergetische ontwerp bereikt een computationele efficiëntie vergelijkbaar met LDM's zonder afhankelijk te zijn van een VAE. DiP realiseert tot 10 keer snellere inferentiesnelheden dan vorige methoden, waarbij het totale aantal parameters met slechts 0,3% toeneemt, en behaalt een FID-score van 1,79 op ImageNet 256×256.
Om een generaliseerbaar Vision-Language-Action (VLA)-model met een sterke redeneervaardigheid te bouwen, is een gebruikelijke strategie om eerst een gespecialiseerde VLA te trainen op robotdemonstraties om betrouwbare manipulatievaardigheden te verwerven, en vervolgens gemengde geannoteerde robotdata samen met multimodale data te integreren om bredere redeneercapaciteiten te herstellen. Wij observeren echter dat de resulterende redenerende VLA vaak te lijden heeft onder een verminderde actieprestatie in vergelijking met het gespecialiseerde model vóór fine-tuning, een fenomeen dat wij actiedegeneratie noemen. Om dit probleem aan te pakken, stellen wij DualVLA voor, dat de actieprestatie verbetert door middel van een zorgvuldig ontworpen post-training, terwijl de redeneercapaciteit behouden blijft. Wij introduceren eerst een dual-layer data pruning-methode die redundante embodied reasoning verwijdert, om te voorkomen dat deze een nadelige invloed heeft op het actieleren. Om de actiegeneratie verder te versterken, ontwerpen wij een dual-teacher adaptieve distillatiestrategie die verschillende supervisiesignalen toekent aan verschillende datadomeinen, terwijl de redeneervaardigheid behouden blijft. Om de evaluatiekloof voor generalistische VLA's te dichten, stellen wij ook VLA Score voor, dat de VLA-capaciteit ontkoppelt in redenering, intentie, actie en aligneringdimensies voor een fijnmazigere beoordeling. Experimenten tonen aan dat DualVLA een gemiddeld slagingspercentage van 61,0 behaalt in SimplerEnv en een gemiddelde score van 65,4 over acht competitieve multimodale benchmarks, wat een sterkere balans aantoont tussen precieze actie-uitvoering en multimodaal begrip. Projectwebsite: https://costaliya.github.io/DualVLA/.
Wij presenteren adversariële stromingsmodellen, een klasse van generatieve modellen die adversariële modellen en stromingsmodellen verenigt. Onze methode ondersteunt native één-staps of multi-staps generatie en wordt getraind met behulp van de adversariële doelstelling. In tegenstelling tot traditionele GANs, waarbij de generator een willekeurig transportplan tussen de ruis- en de dataverdelingen leert, leert onze generator een deterministische mapping van ruis naar data, wat hetzelfde optimale transport is als in stromingsmatchingsmodellen. Dit stabiliseert de adversariële training aanzienlijk. Ook, in tegenstelling tot op consistentie gebaseerde methoden, leert ons model direct één-staps of weinig-staps generatie zonder de tussenliggende tijdstappen van de probabilistische stroom voor propagatie te hoeven leren. Dit bespaart modelcapaciteit, vermindert trainingsiteraties en vermijdt foutenaccumulatie. Onder dezelfde 1NFE-instelling op ImageNet-256px benadert ons B/2-model de prestaties van op consistentie gebaseerde XL/2-modellen, terwijl ons XL/2-model een nieuwe beste FID van 2,38 bereikt. Wij tonen bovendien de mogelijkheid aan van end-to-end training van 56-laagse en 112-laagse modellen door dieptereplicatie zonder enige tussenliggende supervisie, en behalen FID's van respectievelijk 2,08 en 1,94 met een enkele voorwaartse pass, waarmee hun 2NFE- en 4NFE-tegenhangers worden overtroffen.
Dit werk onderzoekt de uitdaging van het bouwen van "Machines die Kunnen Onthouden", waarbij langetermijngeheugen wordt gekaderd als het probleem van efficiënte ultra-lange contextmodellering. Wij beargumenteren dat dit drie kerneigenschappen vereist: sparsiteit, flexibiliteit voor willekeurige toegang en lengtegeneralizatie. Om ultra-lange-contextmodellering aan te pakken, maken wij gebruik van Hierarchical Sparse Attention (HSA), een nieuwe aandachtmechanisme dat aan alle drie de eigenschappen voldoet. Wij integreren HSA in Transformers om HSA-UltraLong te bouwen, een 8B-parameter MoE-model getraind op meer dan 8 biljoen tokens, dat grondig wordt geëvalueerd op verschillende taken met in-domein en out-of-domein contextlengtes om zijn vermogen om ultra-lange contexten te verwerken aan te tonen. Resultaten tonen aan dat ons model vergelijkbaar presteert met full-attention-baselines op in-domein lengtes, terwijl het een nauwkeurigheid van meer dan 90% behaalt op de meeste in-context retrievaltaken met contexten tot 16M. Dit verslag schetst onze experimentele inzichten en open problemen, en draagt zo een fundament bij voor toekomstig onderzoek naar ultra-lange contextmodellering.
Diffusiemodeldistillatie is naar voren gekomen als een krachtige techniek voor het creëren van efficiënte generatoren met weinig tot één stap. Hierin springen Distribution Matching Distillation (DMD) en zijn varianten eruit vanwege hun indrukwekkende prestaties, wat algemeen wordt toegeschreven aan hun kernmechanisme van het afstemmen van de uitvoerdistributie van de student op die van een vooraf getraind leraarmodel. In dit werk dagen we dit conventionele begrip uit. Door een rigoureuze decompositie van de DMD-trainingsdoelstelling onthullen we dat bij complexe taken zoals tekst-naar-beeldgeneratie, waar doorgaans CFG vereist is voor gewenste prestaties met weinig stappen, de primaire drijvende kracht van distillatie met weinig stappen niet distributie-afstemming is, maar een eerder over het hoofd gezien component dat wij identificeren als CFG Augmentatie (CA). Wij tonen aan dat deze term fungeert als de kern-"motor" van de distillatie, terwijl de Distributie-afstemmingsterm (DM) fungeert als een "regularisator" die de trainingsstabiliteit waarborgt en artefacten vermindert. We valideren deze ontkoppeling verder door aan te tonen dat hoewel de DM-term een zeer effectieve regularisator is, deze niet uniek is; eenvoudigere niet-parametrische beperkingen of op GAN gebaseerde doelstellingen kunnen dezelfde stabiliserende functie vervullen, zij het met andere afwegingen. Deze ontkoppeling van taken motiveert een meer principiële analyse van de eigenschappen van beide termen, wat leidt tot een systematischer en dieper begrip. Dit nieuwe inzicht stelt ons verder in staat om principiële aanpassingen aan het distillatieproces voor te stellen, zoals het ontkoppelen van de ruisschema's voor de motor en de regularisator, wat leidt tot verdere prestatieverbeteringen. Opmerkelijk is dat onze methode is overgenomen door het Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) project om een topmodel voor beeldgeneratie in 8 stappen te ontwikkelen, wat de generalisatie en robuustheid van onze bevindingen empirisch valideert.
Kunnen taalmodelen (TM'en) hun eigen antwoorden zelf verfijnen? Deze vraag wordt steeds relevanter, aangezien een breed scala aan gebruikersinteracties in de praktijk verfijningsverzoeken omvat. Eerdere studies hebben de verfijningscapaciteiten van TM'en echter grotendeels getest op verifieerbare taken, zoals wiskundewedstrijden of symbolisch redeneren met vereenvoudigde steigers, terwijl gebruikers vaak open-eindige vragen stellen en in wisselende mate feedback geven over wat zij wensen. De recente opkomst van redeneermodellen die zelfreflectiepatronen vertonen in hun 'chains-of-thought' maakt deze vraag verder actueel. Om dit te analyseren, introduceren we RefineBench, een benchmark van 1.000 uitdagende problemen uit 11 domeinen, gekoppeld aan een op checklists gebaseerd evaluatieraamwerk. We evalueren twee verfijningsmodi: (1) begeleide verfijning, waarbij een TM feedback in natuurlijke taal krijgt, en (2) zelfverfijning, waarbij TM'en zonder begeleiding proberen te verbeteren. In de zelfverfijningssetting behalen zelfs frontier-TM'en zoals Gemini 2.5 Pro en GPT-5 bescheiden basislijnscores van respectievelijk 31,3% en 29,1%, en de meeste modellen slagen er niet in om consistent te verbeteren over iteraties heen (bijvoorbeeld: Gemini-2.5-Pro wint slechts +1,8%, terwijl DeepSeek-R1 met -0,1% daalt). Daarentegen kunnen in begeleide verfijning zowel propriëtaire TM'en als grote open-weight TM'en (>70B) gerichte feedback benutten om antwoorden binnen vijf beurten naar bijna perfecte niveaus te verfijnen. Deze bevindingen suggereren dat frontier-TM'en doorbraken nodig hebben om hun incorrecte antwoorden zelf te verfijnen, en dat RefineBench een waardevolle testomgeving biedt om de vooruitgang te volgen.
Efficiënte inzet van kleine taalmodellen (SLM's) is essentieel voor talloze real-world toepassingen met strenge latentie-eisen. Waar eerder onderzoek naar SLM-ontwerp zich vooral richtte op het verminderen van het aantal parameters om parameteroptimale SLM's te bereiken, vertaalt parameter-efficiëntie zich niet noodzakelijk in proportionele snelheidswinst op echte apparaten. Dit werk beoogt de belangrijkste determinanten van de latentie van SLM's op echte apparaten te identificeren en generaliseerbare principes en methodologieën aan te reiken voor SLM-ontwerp en -training wanneer latentie op echte apparaten de primaire overweging is. Concreet identificeren we twee centrale architectuurfactoren: diepte-breedteverhoudingen en keuzes van operatoren. De eerste is cruciaal voor latentie bij kleine batchgroottes, terwijl de laatste zowel latentie als doorvoer bij grote batchgroottes beïnvloedt. In dit licht bestuderen we eerst latentie-optimale diepte-breedteverhoudingen, met de belangrijkste bevinding dat hoewel diepe, smalle modellen over het algemeen een betere nauwkeurigheid bereiken onder hetzelfde parameterbudget, ze mogelijk niet op de grens van de nauwkeurigheid-latentie trade-off liggen. Vervolgens verkennen we opkomende efficiënte aandacht-alternatieven om hun potentieel als kandidaat-bouwoperatoren te evalueren. Met de geïdentificeerde veelbelovende operatoren construeren we een evolutionair zoekraamwerk om automatisch latentie-optimale combinaties van deze operatoren binnen hybride SLM's te ontdekken, waardoor de nauwkeurigheid-latentie grens wordt verlegd. Naast architectuurverbeteringen verbeteren we de SLM-training verder met een gewichtsnormalisatietechniek die effectievere gewichtsupdates mogelijk maakt en de uiteindelijke convergentie verbetert. Door deze methoden te combineren, introduceren we een nieuwe familie van hybride SLM's, genaamd Nemotron-Flash, die de nauwkeurigheid-efficiëntie grens van state-of-the-art SLM's aanzienlijk verlegt, bijvoorbeeld met meer dan +5,5% gemiddelde nauwkeurigheid, 1,3x/1,9x lagere latentie en 18,7x/45,6x hogere doorvoer in vergelijking met respectievelijk Qwen3-1.7B/0.6B.
Wereldengines streven naar het synthetiseren van lange, 3D-consistente video's die interactieve verkenning van een scène onder door de gebruiker bestuurde camerabeweging ondersteunen. Bestaande systemen kampen echter met problemen onder agressieve 6-DoF-trajecten en complexe buitenopstellingen: ze verliezen grootschalige geometrische coherentie, wijken af van het doelpad of vervallen in overdreven conservatieve beweging. Daarom introduceren wij Captain Safari, een wereldengine met pose-conditionering die video's genereert door te putten uit een persistent wereldgeheugen. Gegeven een camerapad houdt onze methode een dynamisch lokaal geheugen bij en gebruikt een retriever om pose-uitgelijnde wereldtokens op te halen, die vervolgens de videogeneratie langs het traject conditioneren. Dit ontwerp stelt het model in staat een stabiele 3D-structuur te behouden en tegelijkertijd uitdagende camerabewegingen nauwkeurig uit te voeren. Om deze setting te evalueren, stellen we OpenSafari samen, een nieuwe in-the-wild FPV-dataset met hoogdynamische dronevideo's voorzien van geverifieerde cameratrajecten, opgebouwd via een pijplijn voor meervoudige geometrische en kinematische validatie. Op het gebied van videokwaliteit, 3D-consistentie en trajectvolging presteert Captain Safari aanzienlijk beter dan state-of-the-art cameragestuurde generators. Het reduceert MEt3R van 0.3703 naar 0.3690, verbetert AUC@30 van 0.181 naar 0.200, en resulteert in een aanzienlijk lagere FVD dan alle cameragestuurde baseline-methoden. Belangrijker nog, in een 50-deelnemers, 5-weg menselijke studie waarin annotatoren het beste resultaat kiezen uit vijf geanonimiseerde modellen, geeft 67.6% van de voorkeuren de voorkeur aan onze methode over alle assen. Onze resultaten tonen aan dat pose-gconditioneerd wereldgeheugen een krachtig mechanisme is voor langetermijn, bestuurbare videogeneratie en bieden OpenSafari aan als een uitdagende nieuwe benchmark voor toekomstig wereldengine-onderzoek.
In een geglobaliseerde wereld verschijnen culturele elementen van uiteenlopende oorsprong frequent samen binnen één visueel beeld. Wij duiden deze aan als cultuurvermengingsscenario's, maar hoe Large Vision-Language Models (LVLM's) deze waarnemen blijft onderbelicht. Wij onderzoeken cultuurvermenging als een kritieke uitdaging voor LVLM's en analyseren hoe huidige modellen zich gedragen wanneer culturele items uit meerdere regio's samen verschijnen. Om dit gedrag systematisch te analyseren, construeren wij CultureMix, een visueel vraag-antwoordbenchmark (VQA) voor voedsel met 23k door diffusie gegenereerde, door mensen geverifieerde cultuurvermengingsafbeeldingen verdeeld over vier subtaken: (1) alleen voedsel, (2) voedsel+voedsel, (3) voedsel+achtergrond, en (4) voedsel+voedsel+achtergrond. Na evaluatie van 10 LVLM's constateren wij consistente mislukkingen om individuele culturele identiteiten in gemengde settings te behouden. Modellen vertonen een sterke achtergrondafhankelijkheid, waarbij de nauwkeurigheid met 14% daalt wanneer culturele achtergronden worden toegevoegd aan de baseline met alleen voedsel, en zij produceren inconsistente voorspellingen voor identieke voedingsmiddelen in verschillende contexten. Om deze beperkingen aan te pakken, verkennen wij drie robuustheidsstrategieën. Wij stellen vast dat supervised fine-tuning met een diverse dataset voor cultuurvermenging de modelconsistentie aanzienlijk verbetert en de achtergrondgevoeligheid vermindert. Wij pleiten voor meer aandacht voor cultuurvermengingsscenario's als een cruciale stap naar de ontwikkeling van LVLM's die betrouwbaar kunnen functioneren in cultureel diverse real-world omgevingen.
Multimodale Large Language Models (MLLM's) hebben een enorm potentieel getoond in tal van medische specialismen; toch blijft de tandheelkunde onderbelicht, deels vanwege beperkte domeinspecifieke data, schaarse annotaties door tandheelkundige experts, onvoldoende modaal-specifieke modellering en uitdagingen op het gebied van betrouwbaarheid. In dit artikel introduceren we OralGPT-Omni, de eerste tandheelkundig gespecialiseerde MLLM die is ontworpen voor uitgebreide en betrouwbare analyse van diverse tandheelkundige beeldvormingsmodaliteiten en klinische taken. Om de diagnostische redenering van tandartsen expliciet vast te leggen, construeren we TRACE-CoT, een klinisch onderbouwd chain-of-thought-databestand dat het besluitvormingsproces van dentale radiologen weerspiegelt. Deze redeneersupervisie, gecombineerd met ons voorgestelde vierfasen-trainingsparadigma, versterkt de capaciteit van het model voor het begrijpen en analyseren van tandheelkundige beelden aanzienlijk. Tegelijkertijd introduceren we MMOral-Uni, de eerste verenigde multimodale benchmark voor tandheelkundige beeldanalyse. Deze omvat 2.809 open vraag-antwoordparen verspreid over vijf modaliteiten en vijf taken, en biedt daarmee de meest uitgebreide evaluatiesuite tot nu toe voor MLLM's in de digitale tandheelkunde. OralGPT-Omni behaalt een algemene score van 51,84 op de MMOral-Uni-benchmark en 45,31 op de MMOral-OPG-benchmark, waarmee het de scores van GPT-5 aanzienlijk overtreft. Ons werk bevordert de intelligente tandheelkunde en baant de weg voor toekomstige vooruitgang in de tandheelkundige beeldanalyse. Alle code, benchmarks en modellen zullen openbaar beschikbaar worden gesteld.
Het observeren van bepaalde beeldpatches vermindert de onzekerheid van andere. Hun realisatie verlaagt de entropie van de verdeling van elke resterende patchkenmerk, analoog aan het instorten van de golffunctie van een deeltje in de kwantummechanica. Dit fenomeen kan intuïtief worden aangeduid als patch-collaps. Om te identificeren op welke patches het meest wordt vertrouwd tijdens het collaps van een doelgebied, leren we een auto-encoder die een subset van patches zachtjes selecteert om elke doelpatch te reconstrueren. Door deze geleerde afhankelijkheden te visualiseren met de PageRank-score van elke patch, wordt de optimale patchvolgorde om een beeld te realiseren onthuld. We tonen aan dat het respecteren van deze volgorde diverse gemaskeerde beeldmodelleringsmethoden ten goede komt. Ten eerste kan autoregressieve beeldgeneratie worden verbeterd door het state-of-the-art model MAR opnieuw te trainen. Vervolgens introduceren we een nieuwe opzet voor beeldclassificatie door Vision Transformers uitsluitend bloot te stellen aan patches met een hoge rang in de collapsvolgorde. Het zien van 22% van dergelijke patches volstaat om een hoge nauwkeurigheid te bereiken. Met deze experimenten stellen we patch-collaps voor als een nieuw perspectief voor beeldmodellering dat visuele efficiëntie bevordert. Ons project is beschikbaar op https://github.com/wguo-ai/CoP.
Recente grote taalmodellen bereiken sterke redeneerprestaties door gedetailleerde chain-of-thought-sporen te genereren, maar dit leidt vaak tot excessief token-gebruik en hoge inferentielatentie. Bestaande efficiëntiebenaderingen richten zich doorgaans op model-centrische interventies, zoals reinforcement learning of supervised fine-tuning, om breedsprakigheid te verminderen. Daarentegen stellen wij een trainingsvrije, input-centrische aanpak voor. Geïnspireerd door de cognitieve psychologie introduceren wij Gefocuste Chain-of-Thought (F-CoT), waarbij informatie-extractie wordt gescheiden van het redeneerproces. F-CoT structureert eerst de essentiële informatie uit een query in een beknopte, gestructureerde context en leidt het model vervolgens om uitsluitend over deze context te redeneren. Door aandacht voor irrelevante details te voorkomen, produceert F-CoT vanzelf kortere redeneerpaden. Bij rekenkundige woordproblemen reduceert F-CoT gegenereerde tokens met 2-3x terwijl de nauwkeurigheid vergelijkbaar blijft met standaard zero-shot CoT. Deze resultaten benadrukken gestructureerde input als een eenvoudige maar effectieve hefboom voor efficiënter LLM-redeneren.
Beeldonderschriften fungeren als efficiënte surrogaten voor visuele inhoud in multimodale systemen zoals retrievalsystemen, aanbevelingssystemen en multi-step agentic inference pipelines. Toch missen huidige evaluatiepraktijken een fundamentele vraag: Kunnen onderschriften daadwerkelijk als vervanging dienen voor afbeeldingen in echte downstreamtaken? Wij stellen een op nut gebaseerde benchmark voor, CaptionQA, om modelgegenereerde onderschriften te evalueren, waarbij de kwaliteit van het onderschrift wordt gemeten door hoe goed het downstreamtaken ondersteunt. CaptionQA is een uitbreidbare domeinafhankelijke benchmark die vier domeinen bestrijkt—Natuurlijk, Document, E-commerce en Embodied AI—elk met fijnmazige taxonomieën (25 op hoofdniveau en 69 subcategorieën) die nuttige informatie identificeren voor domeinspecifieke taken. CaptionQA bouwt 33.027 dicht geannoteerde multiplechoicevragen (gemiddeld 50,3 per afbeelding) die expliciet visuele informatie vereisen om te beantwoorden, wat een uitgebreide verkenning van de bruikbaarheid van onderschriften biedt. In ons evaluatieprotocol beantwoordt een LLM deze vragen uitsluitend met behulp van onderschriften, wat direct meet of onderschriften de utility op afbeeldingsniveau behouden en bruikbaar zijn voor een downstream-LLM. Evaluatie van state-of-the-art MLLM's onthult aanzienlijke verschillen tussen de utility van de afbeelding en die van het bijschrift. Opmerkelijk is dat modellen die nagenoeg identiek presteren op traditionele beeld-QA-benchmarks tot 32% lager scoren op caption utility. Wij geven CaptionQA vrij, samen met een open-source pipeline voor uitbreiding naar nieuwe domeinen. De code is beschikbaar op https://github.com/bronyayang/CaptionQA.
Een gangbare methode om diffusiemodellen tijdens het testen te verbeteren, zodat gegenereerde voorbeelden hoog scoren op een door de gebruiker gespecificeerde beloning, is het introduceren van de gradiënt van deze beloning in de dynamica van het diffusieproces zelf. Deze procedure is vaak slecht gesteld, omdat gebruikersspecifieke beloningen meestal alleen goed gedefinieerd zijn op de dataverdeling aan het einde van de generatie. Terwijl gebruikelijke oplossingen voor dit probleem een denoiser gebruiken om in te schatten wat een voorbeeld aan het einde van de generatie zou zijn geweest, stellen wij een eenvoudige oplossing voor door rechtstreeks met een stroomafbeelding te werken. Door een relatie te benutten tussen de stroomafbeelding en het snelheidsveld dat het instantane transport bepaalt, construeren we een algoritme, Flow Map Trajectory Tilting (FMTT), dat aantoonbaar een betere stijging op de beloning bereikt dan standaard testtijdmethoden die de gradiënt van de beloning gebruiken. De aanpak kan worden gebruikt om ofwel exacte steekproeven te nemen via importance weighting, ofwel voor een principieel zoekproces dat lokale maximale waarden van de beloning-gekantelde verdeling identificeert. We demonstreren de doeltreffendheid van onze aanpak tegenover andere look-ahead technieken en tonen aan hoe de stroomafbeelding interactie met complexe beloningsfuncties mogelijk maakt, wat nieuwe vormen van beeldbewerking mogelijk maakt, bijvoorbeeld door koppeling met vision-language modellen.
Multimodale grote taalmodellen (MLLM's) worden steeds vaker ingezet in realistische, agent-achtige omgevingen waar uitvoeren niet alleen correct moeten zijn, maar ook moeten voldoen aan vooraf gedefinieerde gegevensschema's. Ondanks recente vooruitgang in gestructureerde generatie in het tekstuele domein, ontbreekt het nog steeds aan een benchmark die schema-gestuurde informatie-extractie en redenering over visuele invoer systematisch evalueert. In dit werk voeren we een uitgebreide studie uit naar de visuele structurele uitvoercapaciteiten van MLLM's met onze zorgvuldig ontworpen SO-Bench benchmark. SO-Bench, dat vier visuele domeinen omvat waaronder UI-schermen, natuurlijke afbeeldingen, documenten en grafieken, is opgebouwd uit meer dan 6.500 diverse JSON-schema's en 1.800 geselecteerde afbeelding-schemaparen met een door mensen geverifieerde kwaliteit. Benchmarkexperimenten met open-source en vooruitstrevende propriëtaire modellen onthullen aanhoudende hiaten in het voorspellen van accurate, schema-conforme uitvoeren, wat de noodzaak voor betere multimodale gestructureerde redenering benadrukt. Naast het benchmarken voeren we verder trainings-experimenten uit om de gestructureerde uitvoercapaciteit van het model aanzienlijk te verbeteren. Wij zijn van plan de benchmark beschikbaar te stellen voor de gemeenschap.
Wij presenteren Split-then-Merge (StM), een nieuw raamwerk ontworpen om de controle over generatieve videocompositie te verbeteren en het daaraan gerelateerde dataschaarsteprobleem aan te pakken. In tegenstelling tot conventionele methoden die vertrouwen op geannoteerde datasets of handmatige regels, splitst StM een grote corpus van ongelabelde video's in dynamische voorgrond- en achtergrondlagen, om deze vervolgens zelf te componeren en zo te leren hoe dynamische onderwerpen interacteren met diverse scènes. Dit proces stelt het model in staat om de complexe compositionele dynamiek te leren die vereist is voor realistische videogeneratie. StM introduceert een nieuwe transformatiebewuste trainingspijplijn die gebruikmaakt van multi-layer fusie en augmentatie om affordance-bewuste compositie te bereiken, naast een identiteitsbehoudsverlies dat de voorgrondtrouw tijdens het blendproces waarborgt. Experimenten tonen aan dat StM state-of-the-art-methoden overtreft in zowel kwantitatieve benchmarks als in op mensen/VLLM gebaseerde kwalitatieve evaluaties. Meer details zijn beschikbaar op onze projectpagina: https://split-then-merge.github.io.
Hoewel Multimodale Large Language Models (MLLM's) bedreven zijn in het beantwoorden van wat er in een afbeelding te zien is - zoals het identificeren van objecten en het beschrijven van scènes - ontbreekt het hen vaak aan het vermogen om aan te voelen hoe een afbeelding overkomt op een menselijke waarnemer. Deze kloof wordt het duidelijkst bij het beschouwen van subjectieve cognitieve eigenschappen, zoals wat een afbeelding gedenkwaardig, grappig, esthetisch plezierig of emotioneel evocatief maakt. Om deze uitdaging systematisch aan te pakken, introduceren we CogIP-Bench, een uitgebreide benchmark voor het evalueren van MLLM's op dergelijke cognitieve beeld eigenschappen. Onze evaluatie toont een significante kloof aan: huidige modellen sluiten slecht aan bij de menselijke perceptie van deze genuanceerde eigenschappen. Vervolgens tonen we aan dat een nazorgfase (post-training) deze kloof effectief kan overbruggen, waardoor de afstemming van het model met menselijke oordelen aanzienlijk verbetert. Verder laten we zien dat deze aangeleerde cognitieve afstemming niet alleen voorspellend is, maar ook overdraagbaar is naar creatieve downstreamtaken. Door onze cognitief afgestemde MLLM te integreren in een beeldgeneratiepijplijn, kunnen we het syntheseproces sturen om afbeeldingen te produceren die beter de gewenste eigenschappen belichamen, zoals gedenkwaardiger of visueel aantrekkelijker zijn. Ons werk biedt een benchmark om deze mensachtige perceptie te meten, een nazorgpijplijn om deze te verbeteren, en een demonstratie dat deze afstemming AI meer mensgericht maakt.
Referentiegestuurde beeldgeneratie heeft een snelle vooruitgang geboekt, maar huidige diffusiemodellen hebben nog steeds moeite met het behouden van fijnmazige visuele details bij het verfijnen van een gegenereerde afbeelding aan de hand van een referentie. Deze beperking ontstaat omdat latentcompressie op basis van VAE's inherent subtiele textuurinformatie verwijdert, waardoor identiteits- en attribuutspecifieke signalen verloren gaan. Bovendien leveren benaderingen voor nabewerking die lokale details versterken op basis van bestaande methoden vaak resultaten op die inconsistent zijn met de originele afbeelding wat betreft belichting, textuur of vorm. Om dit aan te pakken, introduceren we , een detailbewust verfijningsraamwerk dat twee opeenvolgende fasen van referentiegestuurde correctie uitvoert om pixelconsistentie te verbeteren. We passen eerst een diffusie-editor voor enkele afbeeldingen aan door deze te finetunen om zowel de conceptafbeelding als de referentieafbeelding gezamenlijk te verwerken, waardoor wereldwijd coherente verfijning mogelijk wordt terwijl structurele trouw behouden blijft. Vervolgens passen we reinforcement learning toe om het gelokaliseerde bewerkingsvermogen verder te versterken, waarbij expliciet wordt geoptimaliseerd voor detailnauwkeurigheid en semantische consistentie. Uitgebreide experimenten tonen aan dat de referentie-uitlijning en het behoud van fijnmazige details aanzienlijk verbetert, en trouwe en visueel coherente bewerkingen produceert die zowel opensource- als commerciële modellen overtreffen op uitdagende referentiegestuurde restauratiebenchmarks.
Dit paper presenteert een nieuw Mixture-of-Experts raamwerk voor objectdetectie, dat adaptieve routering tussen meerdere YOLOv9-T experts integreert om dynamische featurespecialisatie mogelijk te maken en een hogere gemiddelde precisie (mAP) en gemiddelde recall (AR) te bereiken in vergelijking met een enkel YOLOv9-T model.
Diffusiemodellen hebben indrukwekkende generatieve kwaliteit bereikt in modaliteiten zoals 2D-beelden, video's en 3D-vormen, maar hun inferentie blijft rekenkundig kostbaar vanwege het iteratieve denoisingsproces. Hoewel recente cache-gebaseerde methoden effectief redundante berekeningen hergebruiken om 2D- en videogeneratie te versnellen, kan het direct toepassen van deze technieken op 3D-diffusiemodellen de geometrische consistentie ernstig verstoren. Bij 3D-synthese hopen zelfs kleine numerieke fouten in gecachete latente kenmerken zich op, wat structurele artefacten en topologische inconsistenties veroorzaakt. Om deze beperking te overwinnen, stellen we Fast3Dcache voor, een trainingsvrij, geometrie-bewust cacheframework dat 3D-diffusie-inferentie versnelt terwijl de geometrische nauwkeurigheid behouden blijft. Onze methode introduceert een *Predictive Caching Scheduler Constraint* (PCSC) om cachequota dynamisch te bepalen op basis van voxelstabilisatiepatronen en een *Spatiotemporal Stability Criterion* (SSC) om stabiele kenmerken voor hergebruik te selecteren op basis van een snelheidsmagnitude- en acceleratiecriterium. Uitgebreide experimenten tonen aan dat Fast3Dcache de inferentie aanzienlijk versnelt, met een versnelling tot 27,12% en een vermindering van 54,8% in FLOPs, met minimale verslechtering van de geometrische kwaliteit gemeten aan de hand van Chamfer Distance (2,48%) en F-Score (1,95%).
Wij pakken de uitdaging aan om zeldzame en diverse anomalieën in bewakingsvideo's te detecteren met uitsluitend video-level supervisie. Ons dual-backbone raamwerk combineert convolutionele en transformer-representaties via top-k pooling, waarmee we een area under the curve (AUC) van 90,7% behalen op de UCF-Crime dataset.
Hoogresolutie (HR) magnetische resonantiebeeldvorming (MRI) is van cruciaal belang voor veel klinische en onderzoeksapplicaties. Het bereiken ervan blijft echter kostbaar en wordt beperkt door technische afwegingen en experimentele beperkingen. Superresolutie (SR) biedt een veelbelovende computationele aanpak om deze uitdagingen te overwinnen door HR-beelden te genereren uit betaalbaardere laagresolutie (LR) scans, wat de diagnostische nauwkeurigheid en efficiëntie potentieel kan verbeteren zonder extra hardware te vereisen. Dit overzichtsartikel behandelt recente vooruitgang in MRI SR-technieken, met een focus op deep learning (DL) benaderingen. Het onderzoekt DL-gebaseerde MRI SR-methoden vanuit de perspectieven van computervisie, computationele beeldvorming, inverse problemen en MR-fysica, en behandelt theoretische grondslagen, architectuurontwerpen, leerstrategieën, benchmarkdatasets en prestatiemetingen. Wij stellen een systematische taxonomie voor om deze methoden te categoriseren en presenteren een diepgaande studie van zowel gevestigde als opkomende SR-technieken die toepasbaar zijn op MRI, waarbij rekening wordt gehouden met unieke uitdagingen in klinische en onderzoekscontexten. Wij belichten ook openstaande uitdagingen en richtingen die de onderzoeksgemeenschap moet aanpakken. Daarnaast bieden wij een verzameling essentiële open-access bronnen, tools en tutorials, beschikbaar op onze GitHub: https://github.com/mkhateri/Awesome-MRI-Super-Resolution. IEEE-trefwoorden: MRI, Superresolutie, Deep Learning, Computationele Beeldvorming, Inverse Probleem, Overzichtsartikel.
Wij stellen een clustergebaseerde frameselectiestrategie voor om informatielekken in op video's gebaseerde framedatasets tegen te gaan. Door visueel gelijkaardige frames te groeperen voordat ze worden opgesplitst in trainings-, validatie- en testverzamelingen, produceert de methode representatievere, evenwichtigere en betrouwbaardere datasetpartities.
Federated Learning (FL) maakt collaboratieve training tussen clients mogelijk zonder de privacy in het gedrang te brengen. Hoewel de meeste bestaande FL-methoden uitgaan van homogene modelarchitecturen, maakt heterogeniteit bij clients op het vlak van data en middelen deze aanname onpraktisch, wat aanleiding geeft tot model-heterogene FL. Om dit probleem aan te pakken, stellen wij Federated Representation Entanglement (FedRE) voor, een raamwerk gebaseerd op een nieuwe vorm van clientkennis genaamd *entangled representation* (verstrengelde representatie). In FedRE aggregeert elke client zijn lokale representaties tot één verstrengelde representatie met behulp van genormaliseerde willekeurige gewichten, en past dezelfde gewichten toe om de corresponderende one-hot labelcoderingen te integreren in de verstrengelde-labelcodering. Deze worden vervolgens naar de server geüpload om een globaal classificatiemodel te trainen. Tijdens de training wordt elke verstrengelde representatie gesuperviseerd over categorieën heen via zijn verstrengelde-labelcodering, terwijl de willekeurige gewichten elke ronde opnieuw worden gegenereerd om diversiteit te introduceren. Dit vermindert de overconfidence van het globale model en bevordert vloeiendere beslissingsgrenzen. Bovendien uploadt elke client slechts één verstrengelde representatie over categorieën heen, samen met zijn verstrengelde-labelcodering, wat het risico op *representation inversion attacks* beperkt en de communicatie-overhead vermindert. Uitgebreide experimenten tonen aan dat FedRE een effectieve balans bereikt tussen modelprestaties, privacybescherming en communicatie-overhead. De code is beschikbaar op https://github.com/AIResearch-Group/FedRE.