Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel Multimodale Grote Taalmodellen (MLLMs) opmerkelijke capaciteiten vertonen bij statische afbeeldingen, schieten ze vaak tekort in het begrijpen van dynamische, informatie-dichte kortdurende video's, een dominant medium in het huidige digitale landschap. Om deze kloof te overbruggen, introduceren we Kwai Keye-VL, een multimodaal basis model met 8 miljard parameters, ontworpen voor toonaangevende prestaties in het begrijpen van korte video's, terwijl het robuuste algemene visie-taalvaardigheden behoudt. De ontwikkeling van Keye-VL rust op twee kernpijlers: een enorme, hoogwaardige dataset van meer dan 600 miljard tokens met een sterke nadruk op video, en een innovatief trainingsrecept. Dit recept omvat een vierfasig voorafgaand trainingsproces voor een solide visie-taalafstemming, gevolgd door een zorgvuldige tweefasige nafase trainingsproces. De eerste nafase trainingsfase versterkt fundamentele capaciteiten zoals het volgen van instructies, terwijl de tweede fase zich richt op het stimuleren van geavanceerd redeneren. In deze tweede fase is een belangrijke innovatie onze vijfmodus "cold-start" datamix, die "denken", "niet-denken", "auto-denken", "denken met afbeelding" en hoogwaardige videogegevens omvat. Deze mix leert het model wanneer en hoe te redeneren. Volgende versterkingsleren (RL) en afstemmingsstappen versterken deze redeneervaardigheden verder en corrigeren abnormaal modelgedrag, zoals repetitieve uitvoer. Om onze aanpak te valideren, voeren we uitgebreide evaluaties uit, waaruit blijkt dat Keye-VL state-of-the-art resultaten behaalt op openbare videobenchmarks en zeer concurrerend blijft op algemene beeldgebaseerde taken (Figuur 1). Bovendien ontwikkelen en publiceren we de KC-MMBench, een nieuwe benchmark die is afgestemd op real-world kortdurende video-scenario's, waar Keye-VL een aanzienlijk voordeel laat zien.
Animatiekleuring is een cruciaal onderdeel van de productie in de echte animatie-industrie. Het kleuren van lange animaties brengt hoge arbeidskosten met zich mee. Daarom heeft geautomatiseerde kleuring van lange animaties op basis van het videogeneratiemodel aanzienlijke onderzoekswaarde. Bestaande studies zijn beperkt tot kortetermijnkleuring. Deze studies hanteren een lokaal paradigma, waarbij overlappende kenmerken worden samengevoegd om soepele overgangen tussen lokale segmenten te bereiken. Het lokale paradigma negeert echter globale informatie, waardoor langetermijnkleurconsistentie niet wordt behouden. In deze studie stellen wij dat ideale langetermijnkleurconsistentie kan worden bereikt door een dynamisch globaal-lokaal paradigma, waarbij globaal kleurconsistente kenmerken die relevant zijn voor de huidige generatie dynamisch worden geëxtraheerd. Specifiek stellen wij LongAnimation voor, een nieuw framework dat voornamelijk bestaat uit een SketchDiT, een Dynamisch Globaal-Lokaal Geheugen (DGLM) en een Kleurconsistentiebeloning. De SketchDiT vangt hybride referentiekenmerken op om het DGLM-module te ondersteunen. De DGLM-module gebruikt een lang video-begrijpend model om globale historische kenmerken dynamisch te comprimeren en deze adaptief te fuseren met de huidige generatiekenmerken. Om de kleurconsistentie te verfijnen, introduceren wij een Kleurconsistentiebeloning. Tijdens de inferentie stellen wij een kleurconsistentiefusie voor om de overgang tussen videosegmenten te verzachten. Uitgebreide experimenten op zowel kortetermijn (14 frames) als langetermijn (gemiddeld 500 frames) animaties tonen de effectiviteit van LongAnimation in het behouden van kortetermijn- en langetermijnkleurconsistentie voor de taak van open-domein animatiekleuring. De code is te vinden op https://cn-makers.github.io/long_animation_web/.
We presenteren Depth Anything at Any Condition (DepthAnything-AC), een fundamenteel model voor monocular depth estimation (MDE) dat in staat is om diverse omgevingscondities te hanteren. Eerdere fundamentele MDE-modellen behalen indrukwekkende prestaties in algemene scènes, maar presteren minder goed in complexe open-wereldomgevingen die uitdagende condities omvatten, zoals variaties in belichting, extreem weer en door sensoren veroorzaakte verstoringen. Om de uitdagingen van dataschaarste en het onvermogen om hoogwaardige pseudo-labels te genereren uit beschadigde afbeeldingen te overwinnen, stellen we een unsupervised consistency regularization finetuning-paradigma voor dat slechts een relatief kleine hoeveelheid ongelabelde data vereist. Bovendien introduceren we de Spatial Distance Constraint om het model expliciet te dwingen om patch-level relatieve relaties te leren, wat resulteert in duidelijkere semantische grenzen en nauwkeurigere details. Experimentele resultaten tonen de zero-shot-capaciteiten van DepthAnything-AC aan over diverse benchmarks, waaronder real-world benchmarks voor extreem weer, synthetische corruptiebenchmarks en algemene benchmarks. Projectpagina: https://ghost233lism.github.io/depthanything-AC-page Code: https://github.com/HVision-NKU/DepthAnythingAC
De opmerkelijke vooruitgang van vision- en taal-foundationmodellen op het gebied van multimodale begripsvorming, redenering en generatie heeft een groeiende inspanning op gang gebracht om dergelijke intelligentie uit te breiden naar de fysieke wereld, wat de bloei van vision-language-action (VLA)-modellen heeft aangewakkerd. Ondanks schijnbaar diverse benaderingen, merken we op dat huidige VLA-modellen kunnen worden samengebracht onder één enkel raamwerk: visuele en taalkundige invoer wordt verwerkt door een reeks VLA-modules, die een keten van actietokens produceren die geleidelijk meer gegronde en uitvoerbare informatie coderen, wat uiteindelijk uitvoerbare acties genereert. We stellen verder vast dat de belangrijkste ontwerpkeuze die VLA-modellen onderscheidt, ligt in hoe actietokens worden geformuleerd, wat kan worden gecategoriseerd in taalomschrijving, code, affordance, traject, doeltoestand, latente representatie, ruwe actie en redenering. Er blijft echter een gebrek aan een uitgebreid begrip van actietokens, wat de effectieve ontwikkeling van VLA aanzienlijk belemmert en toekomstige richtingen vertroebelt. Daarom beoogt dit overzicht bestaand VLA-onderzoek te categoriseren en interpreteren door de lens van actietokenisatie, de sterke en zwakke punten van elk tokentype te destilleren, en gebieden voor verbetering te identificeren. Door deze systematische review en analyse bieden we een samengevat perspectief op de bredere evolutie van VLA-modellen, belichten we onderbelichte maar veelbelovende richtingen, en dragen we richtlijnen bij voor toekomstig onderzoek, in de hoop het veld dichter bij algemene intelligentie te brengen.
We presenteren FreeMorph, de eerste afstelmethode voor beeldmorfing die geen afstemming vereist en geschikt is voor invoerbeelden met verschillende semantiek of lay-outs. In tegenstelling tot bestaande methoden die afhankelijk zijn van het finetunen van vooraf getrainde diffusiemodellen en beperkt worden door tijdsbeperkingen en semantische/lay-outverschillen, levert FreeMorph hoogwaardige beeldmorfing zonder per geval training te vereisen. Ondanks hun efficiëntie en potentieel hebben afstelmethode-vrije methoden moeite om hoogwaardige resultaten te behouden vanwege de niet-lineaire aard van het meerstaps denoisingsproces en de vooroordelen die zijn overgenomen van het vooraf getrainde diffusiemodel. In dit artikel introduceren we FreeMorph om deze uitdagingen aan te pakken door twee belangrijke innovaties te integreren. 1) We stellen eerst een richtingsbewuste sferische interpolatieontwerp voor dat expliciete richtlijnen van de invoerbeelden incorporeert door de self-attention modules aan te passen, waardoor identiteitsverlies wordt aangepakt en gerichte overgangen in de gegenereerde reeks worden gegarandeerd. 2) We introduceren verder een stapgerichte variatietrend die self-attention modules van elk invoerbeeld mengt om gecontroleerde en consistente overgangen te bereiken die beide invoerbeelden respecteren. Onze uitgebreide evaluaties tonen aan dat FreeMorph bestaande methoden overtreft, 10x ~ 50x sneller is en een nieuwe standaard zet voor beeldmorfing.
We presenteren Locality-aware Parallel Decoding (LPD) om autoregressieve beeldgeneratie te versnellen. Traditionele autoregressieve beeldgeneratie is gebaseerd op next-patch voorspelling, een geheugengebonden proces dat tot hoge latentie leidt. Bestaande werken hebben geprobeerd next-patch voorspelling te paralleliseren door over te schakelen naar multi-patch voorspelling om het proces te versnellen, maar hebben slechts beperkte parallelisatie bereikt. Om hoge parallelisatie te bereiken zonder in te leveren op generatiekwaliteit, introduceren we twee belangrijke technieken: (1) Flexible Parallelized Autoregressive Modeling, een nieuwe architectuur die willekeurige generatievolgorde en mate van parallelisatie mogelijk maakt. Het gebruikt leerbare positie-querytokens om generatie op doelposities te begeleiden, terwijl het onderlinge zichtbaarheid tussen gelijktijdig gegenereerde tokens waarborgt voor consistente parallelle decodering. (2) Locality-aware Generation Ordering, een nieuwe planning die groepen vormt om afhankelijkheden binnen de groep te minimaliseren en contextuele ondersteuning te maximaliseren, wat de generatiekwaliteit verbetert. Met deze ontwerpen reduceren we de generatiestappen van 256 naar 20 (256x256 res.) en van 1024 naar 48 (512x512 res.) zonder in te leveren op kwaliteit bij ImageNet class-conditional generatie, en bereiken we ten minste 3,4 keer lagere latentie dan eerdere geparalleliseerde autoregressieve modellen.
Automatische generatie van radiologieverslagen (RRG) heeft als doel gedetailleerde tekstuele verslagen te produceren op basis van klinische beeldvorming, zoals computertomografie (CT)-scans, om de nauwkeurigheid en efficiëntie van diagnoses en het verstrekken van behandeladviezen te verbeteren. RRG wordt bemoeilijkt door twee belangrijke uitdagingen: (1) de inherente complexiteit van het extraheren van relevante informatie uit beeldvormingsgegevens onder beperkte middelen, en (2) de moeilijkheid om verschillen tussen modelgegenereerde en door experts geschreven verslagen objectief te evalueren. Om deze uitdagingen aan te pakken, stellen we mu^2LLM voor, een **mu**ltischaal **mu**ltimodaal groot taalmodel voor RRG-taken. De nieuwe {mu}^2Tokenizer, als een tussenlaag, integreert multimodale kenmerken van de multischaal visuele tokenizer en de teksttokenizer, en verbetert vervolgens de kwaliteit van verslaggeneratie via directe voorkeursoptimalisatie (DPO), geleid door GREEN-RedLlama. Experimentele resultaten op vier grote medische datasets van CT-beelden en verslagen tonen aan dat onze methode bestaande benaderingen overtreft, wat het potentieel aantoont van onze fijn afgestemde mu^2LLM's op beperkte gegevens voor RRG-taken.
Wetenschappelijke toepassingen van machine learning zijn vaak gebaseerd op kleine, gespecialiseerde modellen die zijn afgestemd op specifieke domeinen. Dergelijke modellen bereiken vaak uitstekende prestaties, maar missen flexibiliteit. Foundation-modellen bieden veelzijdigheid, maar presteren doorgaans minder goed dan gespecialiseerde benaderingen, vooral bij niet-traditionele modaliteiten en long-tail domeinen. Wij stellen MARVIS voor (Modality Adaptive Reasoning over VISualizations), een trainingsvrije methode die zelfs kleine vision-language-modellen in staat stelt om elke datamodaliteit met hoge nauwkeurigheid te voorspellen. MARVIS transformeert latente embeddingruimtes in visuele representaties en benut vervolgens de ruimtelijke en fijnmazige redeneervaardigheden van VLMs om deze succesvol te interpreteren en te gebruiken. MARVIS behaalt competitieve prestaties op het gebied van visie, audio, biologie en tabulaire gegevens met behulp van een enkel model met 3B parameters, waarbij resultaten worden bereikt die Gemini gemiddeld met 16\% verslaan en gespecialiseerde methoden benaderen, zonder persoonlijk identificeerbare informatie (P.I.I.) bloot te leggen of domeinspecifieke training te vereisen. Wij maken onze code en datasets openbaar op https://github.com/penfever/marvis.
Face-to-face communicatie, als een veelvoorkomende menselijke activiteit, motiveert het onderzoek naar interactieve hoofdgeneratie. Een virtuele agent kan bewegingsreacties genereren met zowel luister- als spreekvaardigheden op basis van de audio- of bewegingssignalen van de andere gebruiker en zichzelf. Eerdere clip-gewijze generatieparadigma's of expliciete luisteraar/spreker generator-switchmethoden hebben echter beperkingen in toekomstige signaalverwerving, contextueel gedragsbegrip en schakelsoepelheid, waardoor het uitdagend is om real-time en realistisch te zijn. In dit artikel stellen we een autoregressief (AR) frame-gewijs raamwerk voor, genaamd ARIG, om real-time generatie met betere interactie-realiteit te realiseren. Om real-time generatie te bereiken, modelleren we bewegingsvoorspelling als een niet-vector-gekwantiseerd AR-proces. In tegenstelling tot discrete codebook-indexvoorspelling, representeren we bewegingsdistributie met behulp van een diffusieprocedure, waardoor nauwkeurigere voorspellingen in continue ruimte worden bereikt. Om interactie-realiteit te verbeteren, benadrukken we interactief gedragsbegrip (IBU) en gedetailleerd gesprekstoestandsbegrip (CSU). In IBU, gebaseerd op dual-track dual-modale signalen, vatten we kortetermijngedrag samen door bidirectioneel-geïntegreerd leren en voeren we contextueel begrip uit over lange afstanden. In CSU gebruiken we stemactiviteitssignalen en contextkenmerken van IBU om de verschillende toestanden (onderbreking, feedback, pauze, etc.) die in werkelijke gesprekken bestaan, te begrijpen. Deze dienen als voorwaarden voor de uiteindelijke progressieve bewegingsvoorspelling. Uitgebreide experimenten hebben de effectiviteit van ons model bevestigd.
De intrinsieke relatie tussen gezichtsbeweging en spraak wordt vaak over het hoofd gezien in generatieve modellering, waar het synthetiseren van pratende hoofden en tekst-naar-spraak (TTS) doorgaans als afzonderlijke taken worden behandeld. Dit artikel introduceert JAM-Flow, een geïntegreerd raamwerk om zowel gezichtsbeweging als spraak gelijktijdig te synthetiseren en te conditioneren. Onze aanpak maakt gebruik van flow matching en een nieuwe Multi-Modale Diffusie Transformer (MM-DiT) architectuur, die gespecialiseerde Motion-DiT en Audio-DiT modules integreert. Deze worden gekoppeld via selectieve gezamenlijke aandachtslagen en bevatten belangrijke architectonische keuzes, zoals tijdelijk uitgelijnde positionele embeddings en gelokaliseerde gezamenlijke aandachtmaskering, om effectieve cross-modale interactie mogelijk te maken terwijl de specifieke sterktes van elke modaliteit behouden blijven. Getraind met een inpainting-stijl doelstelling ondersteunt JAM-Flow een breed scala aan conditioneringinputs—inclusief tekst, referentieaudio en referentiebeweging—wat taken zoals gesynchroniseerde pratende hoofdsynthese vanuit tekst, audio-gestuurde animatie en nog veel meer mogelijk maakt binnen een enkel, coherent model. JAM-Flow zet multi-modale generatieve modellering aanzienlijk vooruit door een praktische oplossing te bieden voor holistische audio-visuele synthese. Projectpagina: https://joonghyuk.com/jamflow-web
Meerkeuze benchmarks zijn lange tijd de ruggengraat geweest van de evaluatie van taalmodellen, omdat het beoordelen van meerkeuzevragen objectief en eenvoudig te automatiseren is. We laten echter zien dat meerkeuzevragen uit populaire benchmarks vaak beantwoord kunnen worden zonder de vraag zelfs maar te zien. Deze omwegen ontstaan door een fundamentele beperking van discriminerende evaluatie, die niet van toepassing is op evaluaties van de vrije, generatieve antwoorden van het model. Tot voor kort leek er geen levensvatbaar, schaalbaar alternatief voor meerkeuzevragen te bestaan, maar we tonen aan dat dit is veranderd. We beschouwen generatieve evaluatie via wat we antwoordmatching noemen: geef het kandidaatmodel de vraag zonder de opties, laat het een vrij antwoord genereren, en gebruik vervolgens een modern taalmodel met het referentieantwoord om te bepalen of het antwoord overeenkomt met de referentie. Om de geldigheid van verschillende evaluatiestrategieën te vergelijken, annoteren we MMLU-Pro en GPQA-Diamond om menselijke beoordelingsgegevens te verkrijgen, en meten we de overeenstemming van elke evaluatiebenadering. We ontdekken dat antwoordmatching met recente modellen—zelfs kleine—bijna perfecte overeenstemming bereikt, in de orde van inter-annotatorovereenstemming. Daarentegen sluiten zowel meerkeuze-evaluatie als het gebruik van LLM-as-a-judge zonder referentieantwoorden slecht aan bij menselijke beoordelingen. Het verbeteren van evaluaties via antwoordmatching is niet slechts een conceptuele zorg: de rangschikking van verschillende modellen verandert aanzienlijk wanneer hun vrije antwoorden worden geëvalueerd met antwoordmatching. In het licht van deze bevindingen bespreken we hoe het evaluatie-ecosysteem kan worden verplaatst van meerkeuzevragen naar antwoordmatching.
Eerdere methoden voor tekstgestuurde videobewerking lijden vaak aan temporele inconsistentie, bewegingsvervorming en - vooral - beperkte domeintransformatie. Wij schrijven deze beperkingen toe aan onvoldoende modellering van spatiotemporele pixelrelevantie tijdens het bewerkingsproces. Om dit aan te pakken, stellen we STR-Match voor, een trainingsvrij video-bewerkingsalgoritme dat visueel aantrekkelijke en spatiotemporeel coherente video's produceert door middel van latente optimalisatie geleid door onze nieuwe STR-score. De score vangt spatiotemporele pixelrelevantie over aangrenzende frames door gebruik te maken van 2D ruimtelijke aandacht en 1D temporele modules in tekst-naar-video (T2V) diffusiemodellen, zonder de overhead van rekenintensieve 3D aandachtmechanismen. Geïntegreerd in een latent optimalisatiekader met een latent masker, genereert STR-Match temporeel consistente en visueel getrouwe video's, waarbij sterke prestaties worden behouden zelfs onder significante domeintransformaties, terwijl belangrijke visuele attributen van de bron worden behouden. Uitgebreide experimenten tonen aan dat STR-Match consistent beter presteert dan bestaande methoden in zowel visuele kwaliteit als spatiotemporele consistentie.