Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ondanks de snelle groei van onderzoek naar machine learning, zijn bijbehorende code-implementaties vaak niet beschikbaar, wat het voor onderzoekers tijdrovend en arbeidsintensief maakt om resultaten te reproduceren en voort te bouwen op eerder werk. Tegelijkertijd blinken recente Large Language Models (LLM's) uit in het begrijpen van wetenschappelijke documenten en het genereren van hoogwaardige code. Geïnspireerd door dit gegeven introduceren we PaperCoder, een multi-agent LLM-framework dat machine learning-artikelen omzet in functionele code-repositories. PaperCoder werkt in drie fasen: planning, waarin het een hoogwaardige roadmap opstelt, het systeemarchitectuur ontwerpt met diagrammen, bestandsafhankelijkheden identificeert en configuratiebestanden genereert; analyse, die zich richt op het interpreteren van implementatiespecifieke details; en generatie, waarin modulaire, afhankelijkheidsbewuste code wordt geproduceerd. Bovendien wordt elke fase geïmplementeerd via een reeks gespecialiseerde agents die zijn ontworpen om effectief samen te werken in de pijplijn. Vervolgens evalueren we PaperCoder op het genereren van code-implementaties uit machine learning-artikelen op basis van zowel modelgebaseerde als menselijke evaluaties, specifiek van de oorspronkelijke auteurs van de artikelen, met door auteurs vrijgegeven repositories als grondwaarheid indien beschikbaar. Onze resultaten tonen de effectiviteit van PaperCoder aan in het creëren van hoogwaardige, getrouwe implementaties. Bovendien toont het consistent sterke prestaties in de recentelijk vrijgegeven PaperBench-benchmark, waarbij het sterke baseline-methodes met aanzienlijke marges overtreft.
De afgelopen jaren hebben beeldbewerkingsmodellen een opmerkelijke en snelle ontwikkeling doorgemaakt. De recente onthulling van geavanceerde multimodale modellen zoals GPT-4o en Gemini2 Flash heeft veelbelovende beeldbewerkingsmogelijkheden geïntroduceerd. Deze modellen tonen een indrukwekkend vermogen om aan de meeste gebruikersgestuurde bewerkingsbehoeften te voldoen, wat een significante vooruitgang betekent op het gebied van beeldmanipulatie. Er bestaat echter nog steeds een grote kloof tussen open-source algoritmen en deze gesloten modellen. Daarom streven we in dit artikel ernaar om een state-of-the-art beeldbewerkingsmodel, genaamd Step1X-Edit, uit te brengen, dat vergelijkbare prestaties kan leveren met gesloten modellen zoals GPT-4o en Gemini2 Flash. Meer specifiek gebruiken we een Multimodal LLM om het referentiebeeld en de bewerkingsinstructie van de gebruiker te verwerken. Een latente embedding wordt geëxtraheerd en geïntegreerd met een diffusiebeelddecoder om het doelbeeld te verkrijgen. Om het model te trainen, hebben we een datageneratiepijplijn ontwikkeld om een hoogwaardige dataset te produceren. Voor evaluatie hebben we de GEdit-Bench ontwikkeld, een nieuwe benchmark die is geworteld in real-world gebruikersinstructies. Experimentele resultaten op de GEdit-Bench laten zien dat Step1X-Edit de bestaande open-source baselines met een aanzienlijke marge overtreft en de prestaties van toonaangevende propriëtaire modellen benadert, waardoor het een belangrijke bijdrage levert aan het veld van beeldbewerking.
Onderwerpgestuurde tekst-naar-beeld (T2I) generatie heeft als doel afbeeldingen te produceren die overeenkomen met een gegeven tekstuele beschrijving, terwijl de visuele identiteit van een referentiebeeld behouden blijft. Ondanks de brede toepasbaarheid ervan – variërend van verbeterde personalisatie in beeldgeneratie tot consistente karakterweergave in videorendering – wordt de vooruitgang in dit veld beperkt door het gebrek aan betrouwbare automatische evaluatie. Bestaande methoden beoordelen slechts één aspect van de taak (d.w.z. tekstuele uitlijning of onderwerpbehoud), komen niet overeen met menselijke beoordelingen, of zijn afhankelijk van kostbare API-gebaseerde evaluatie. Om dit aan te pakken, introduceren we RefVNLI, een kosteneffectieve metriek die zowel tekstuele uitlijning als onderwerpbehoud in één voorspelling evalueert. Getraind op een grootschalige dataset afgeleid van video-redeneerbenchmarks en beeldverstoringen, overtreft of evenaart RefVNLI bestaande baselines over meerdere benchmarks en onderwerpcategorieën (bijv. Dier, Object), met verbeteringen tot 6,4 punten in tekstuele uitlijning en 8,5 punten in onderwerpconsistentie. Het presteert ook uitstekend met minder bekende concepten, waarbij het in meer dan 87% van de gevallen overeenkomt met menselijke voorkeuren.
Het Contrastive Language-Image Pre-training (CLIP) framework is een veelgebruikte aanpak geworden voor multimodale representatieleer, met name bij beeld-tekst retrieval en clustering. De effectiviteit ervan wordt echter beperkt door drie belangrijke beperkingen: (1) teksttokenafkapping, (2) geïsoleerde beeld-tekstcodering, en (3) gebrekkige compositionaliteit door bag-of-words gedrag. Hoewel recente Multimodale Large Language Models (MLLMs) aanzienlijke vooruitgang hebben geboekt in gegeneraliseerd visueel-taalkundig begrip, blijft hun potentieel voor het leren van overdraagbare multimodale representaties onderbelicht. In dit werk presenteren we UniME (Universal Multimodal Embedding), een nieuw tweestaps framework dat MLLMs benut om discriminerende representaties te leren voor diverse downstream taken. In de eerste fase voeren we tekstuele discriminerende kennisdistillatie uit vanuit een krachtig LLM-gebaseerd leraarmodel om de inbeddingscapaciteit van de taalcomponent van de MLLM te verbeteren. In de tweede fase introduceren we hard negative enhanced instruction tuning om het leren van discriminerende representaties verder te bevorderen. Specifiek verminderen we eerst de vervuiling door valse negatieven en nemen we vervolgens meerdere harde negatieven per instantie binnen elke batch, waardoor het model wordt gedwongen zich te concentreren op uitdagende voorbeelden. Deze aanpak verbetert niet alleen de discriminerende kracht, maar versterkt ook het vermogen om instructies te volgen in downstream taken. We voeren uitgebreide experimenten uit op de MMEB benchmark en meerdere retrieval taken, waaronder korte en lange caption retrieval en compositionele retrieval. De resultaten tonen aan dat UniME consistente prestatieverbeteringen bereikt over alle taken, met superieure discriminerende en compositionele capaciteiten.
We presenteren een raamwerk voor perspectiefbewust redeneren in vision-language modellen (VLMs) door middel van mentale beeldsimulatie. Perspectiefname, het vermogen om een omgeving of situatie vanuit een alternatief gezichtspunt waar te nemen, is een belangrijke maatstaf voor menselijk niveau van visueel begrip, essentieel voor interactie met de omgeving en samenwerking met autonome agents. Ondanks vooruitgang in ruimtelijk redeneren binnen VLMs, heeft recent onderzoek aangetoond dat moderne VLMs aanzienlijk tekortschieten in perspectiefbewuste redeneervaardigheden en een sterke neiging vertonen naar egocentrische interpretaties. Om de kloof tussen VLMs en menselijke waarneming te overbruggen, richten we ons op de rol van mentale beelden, waarbij mensen de wereld waarnemen door middel van geabstraheerde representaties die perspectiefwisselingen vergemakkelijken. Gemotiveerd door dit inzicht, stellen we een raamwerk voor perspectiefbewust redeneren voor, genaamd Abstract Perspective Change (APC), dat effectief gebruikmaakt van vision foundation modellen, zoals objectdetectie, segmentatie en oriëntatieschatting, om scène-abstrakties te construeren en perspectief transformaties mogelijk te maken. Onze experimenten op synthetische en real-image benchmarks, vergeleken met verschillende VLMs, tonen significante verbeteringen aan in perspectiefbewust redeneren met ons raamwerk, waarbij het verder presteert dan fijn afgestelde ruimtelijke redeneermodellen en benaderingen gebaseerd op novel-view-synthese.
Met de opkomst van grootschalige 3D-datasets hebben feed-forward 3D-generatieve modellen, zoals het Large Reconstruction Model (LRM), aanzienlijke aandacht gekregen en opmerkelijke successen behaald. We merken echter dat RGB-beelden vaak leiden tot conflicterende trainingsdoelen en niet de nodige duidelijkheid bieden voor geometrische reconstructie. In dit artikel herzien we de inductieve vooroordelen die gepaard gaan met mesh-reconstructie en introduceren we DiMeR, een nieuw ontward dual-stream feed-forward model voor sparse-view mesh-reconstructie. Het kernidee is om zowel de invoer als het framework te ontwarren in geometrie- en textuuronderdelen, waardoor de trainingsmoeilijkheid voor elk onderdeel wordt verminderd volgens het principe van Ockhams scheermes. Gezien het feit dat normal maps strikt consistent zijn met geometrie en oppervlaktevariaties nauwkeurig vastleggen, gebruiken we normal maps als exclusieve invoer voor de geometrietak om de complexiteit tussen de invoer en uitvoer van het netwerk te verminderen. Bovendien verbeteren we het mesh-extractiealgoritme om 3D-grondwaarheidssupervisie te introduceren. Voor de textuurtak gebruiken we RGB-beelden als invoer om de getextureerde mesh te verkrijgen. Over het algemeen toont DiMeR robuuste capaciteiten in verschillende taken, waaronder sparse-view reconstructie, single-image-to-3D en text-to-3D. Talrijke experimenten tonen aan dat DiMeR eerdere methoden aanzienlijk overtreft, met een verbetering van meer dan 30% in Chamfer Distance op de GSO- en OmniObject3D-dataset.
Autoregressieve (AR) modellen, lang dominant in taalgeneratie, worden steeds vaker toegepast op beeldgeneratie, maar worden vaak als minder concurrerend beschouwd dan op diffusie gebaseerde modellen. Een primaire beperking is het aanzienlijke aantal beeldtokens dat AR-modellen vereisen, wat zowel de trainings- als inferentie-efficiëntie beperkt, evenals de beeldresolutie. Om dit aan te pakken, presenteren we Token-Shuffle, een nieuwe maar eenvoudige methode die het aantal beeldtokens in Transformers reduceert. Onze belangrijkste inzicht is de dimensionale redundantie van visuele vocabulaire in Multimodale Grote Taalmodellen (MLLMs), waarbij laagdimensionale visuele codes van de visuele encoder direct worden toegewezen aan hoogdimensionale taalvocabulaire. Hierop voortbouwend, beschouwen we twee belangrijke operaties: token-shuffle, die ruimtelijk lokale tokens langs het kanaaldimensie samenvoegt om het aantal invoertokens te verminderen, en token-unshuffle, die de afgeleide tokens na Transformer-blokken ontwart om de ruimtelijke rangschikking voor de uitvoer te herstellen. Gezamenlijk getraind met tekstuele prompts, vereist onze strategie geen aanvullende voorgetrainde tekstencoder en stelt het MLLMs in staat om extreem hoogwaardige beeldgeneratie te ondersteunen op een uniforme manier van volgende-token-voorspelling, terwijl efficiënte training en inferentie behouden blijven. Voor het eerst verleggen we de grenzen van AR tekst-naar-beeldgeneratie naar een resolutie van 2048x2048 met bevredigende generatieprestaties. In de GenAI-benchmark behaalt ons 2.7B-model een overall score van 0.77 op moeilijke prompts, wat AR-modellen LlamaGen met 0.18 en diffusiemodellen LDM met 0.15 overtreft. Uitgebreide grootschalige menselijke evaluaties tonen ook onze prominente beeldgeneratiecapaciteit aan in termen van tekstuitlijning, visuele gebreken en visuele verschijning. We hopen dat Token-Shuffle kan dienen als een fundamenteel ontwerp voor efficiënte hoogwaardige beeldgeneratie binnen MLLMs.
Kwaliteit en diversiteit zijn twee cruciale metrieken voor de trainingsdata van grote taalmmodellen (LLM's), die een positieve invloed hebben op de prestaties. Bestaande studies optimaliseren deze metrieken vaak afzonderlijk, meestal door eerst kwaliteitsfiltering toe te passen en vervolgens de dataverhoudingen aan te passen. Deze benaderingen negeren echter de inherente afweging tussen kwaliteit en diversiteit, wat een gezamenlijke overweging noodzakelijk maakt. Gegeven een vaste trainingsquota is het essentieel om zowel de kwaliteit van elk datapunt als het complementaire effect ervan op de gehele dataset te evalueren. In dit artikel introduceren we een uniform data-selectiekader genaamd QuaDMix, dat automatisch de dataverdeling optimaliseert voor LLM-pretraining terwijl het zowel kwaliteit als diversiteit in balans houdt. Specifiek stellen we eerst meerdere criteria voor om data-kwaliteit te meten en gebruiken we domeinclassificatie om datapunten te onderscheiden, waardoor de algehele diversiteit wordt gemeten. QuaDMix gebruikt vervolgens een uniforme geparametriseerde data-steekproeffunctie die de steekproefkans van elk datapunt bepaalt op basis van deze kwaliteits- en diversiteitsgerelateerde labels. Om de zoektocht naar de optimale parameters binnen het QuaDMix-kader te versnellen, voeren we gesimuleerde experimenten uit op kleinere modellen en gebruiken we LightGBM voor het zoeken naar parameters, geïnspireerd door de RegMix-methode. Onze experimenten met diverse modellen en datasets tonen aan dat QuaDMix een gemiddelde prestatieverbetering van 7,2% bereikt over meerdere benchmarks. Deze resultaten overtreffen de onafhankelijke strategieën voor kwaliteit en diversiteit, wat de noodzaak en het vermogen benadrukt om data-kwaliteit en diversiteit in balans te brengen.
Video try-on vervangt kleding in video's door doelkledingstukken. Bestaande methoden hebben moeite om hoogwaardige en temporeel consistente resultaten te genereren bij het omgaan met complexe kledingpatronen en diverse lichaamshoudingen. Wij presenteren 3DV-TON, een nieuw op diffusie gebaseerd raamwerk voor het genereren van hoogwaardige en temporeel consistente video try-on resultaten. Onze aanpak maakt gebruik van gegenereerde animeerbare textuur 3D-meshes als expliciete frame-level begeleiding, waardoor het probleem wordt verlicht dat modellen te veel focussen op uiterlijke nauwkeurigheid ten koste van bewegingscoherentie. Dit wordt bereikt door directe referentie mogelijk te maken naar consistente textuur bewegingen van kledingstukken gedurende videosequenties. De voorgestelde methode beschikt over een adaptieve pijplijn voor het genereren van dynamische 3D-begeleiding: (1) het selecteren van een keyframe voor initiële 2D-beeld try-on, gevolgd door (2) het reconstrueren en animeren van een textuur 3D-mesh gesynchroniseerd met de originele videohoudingen. We introduceren verder een robuuste rechthoekige maskeringsstrategie die succesvol artefactpropagatie vermindert veroorzaakt door lekkende kledinginformatie tijdens dynamische menselijke en kledingbewegingen. Om onderzoek naar video try-on te bevorderen, introduceren we HR-VVT, een hoogresolutie benchmark dataset met 130 video's met diverse kledingtypes en scenario's. Kwantitatieve en kwalitatieve resultaten tonen onze superieure prestaties aan ten opzichte van bestaande methoden. De projectpagina is te vinden op deze link https://2y7c3.github.io/3DV-TON/
Stapsgewijze verifiers -- ook wel bekend als procesbeloningsmodellen (PRMs) -- zijn een belangrijk ingrediënt voor schaling tijdens testtijd. PRMs vereisen toezicht op stapniveau, wat ze duur maakt om te trainen. Dit werk heeft als doel om data-efficiënte PRMs te bouwen als verbaal gestapelde beloningsmodellen die elke stap in de oplossing verifiëren door een verificatie-keten-van-gedachten (CoT) te genereren. We stellen ThinkPRM voor, een lange CoT-verifier die is afgestemd op ordes van grootte minder proceslabels dan die vereist zijn door discriminatieve PRMs. Onze aanpak maakt gebruik van de inherente redeneervaardigheden van lange CoT-modellen, en overtreft LLM-as-a-Judge en discriminatieve verifiers -- met slechts 1% van de proceslabels in PRM800K -- over verschillende uitdagende benchmarks. Specifiek verslaat ThinkPRM de baselines op ProcessBench, MATH-500, en AIME '24 onder best-of-N selectie en beloningsgeleid zoeken. In een out-of-domain evaluatie op een subset van GPQA-Diamond en LiveCodeBench, overtreft onze PRM discriminatieve verifiers getraind op de volledige PRM800K met respectievelijk 8% en 4,5%. Ten slotte, onder hetzelfde tokenbudget, schaalt ThinkPRM verificatie-rekenkracht effectiever op vergeleken met LLM-as-a-Judge, en overtreft het met 7,2% op een subset van ProcessBench. Ons werk benadrukt de waarde van generatieve, lange CoT PRMs die rekenkracht voor verificatie tijdens testtijd kunnen opschalen terwijl ze minimale supervisie vereisen voor training. Onze code, data en modellen zullen worden vrijgegeven op https://github.com/mukhal/thinkprm.
Latente diffusiemodellen (LDMs) domineren hoogwaardige beeldgeneratie, maar het integreren van representatieleren met generatieve modellering blijft een uitdaging. Wij introduceren een nieuw generatief beeldmodelleringsraamwerk dat deze kloof naadloos overbrugt door gebruik te maken van een diffusiemodel om zowel laagniveau beeldlatenten (van een variational autoencoder) als hoog-niveau semantische kenmerken (van een vooraf getrainde zelf-superviserende encoder zoals DINO) gezamenlijk te modelleren. Onze latent-semantische diffusiebenadering leert coherente beeld-kenmerkparen te genereren vanuit puur ruis, wat zowel de generatieve kwaliteit als de trainings efficiëntie aanzienlijk verbetert, terwijl slechts minimale aanpassingen aan standaard Diffusion Transformer-architecturen nodig zijn. Door de noodzaak voor complexe distillatiedoelen te elimineren, vereenvoudigt ons uniforme ontwerp de training en ontgrendelt het een krachtige nieuwe inferentiestrategie: Representatiebegeleiding, die gebruikmaakt van geleerde semantiek om beeldgeneratie te sturen en te verfijnen. Geëvalueerd in zowel conditionele als niet-conditionele settings, levert onze methode aanzienlijke verbeteringen op in beeldkwaliteit en trainingsconvergentiesnelheid, waarmee een nieuwe richting wordt ingezet voor representatiebewuste generatieve modellering.
We presenteren DyMU, een efficiënt, trainingsvrij raamwerk dat de computationele belasting van vision-language modellen (VLMs) dynamisch vermindert terwijl een hoge taakprestatie behouden blijft. Onze aanpak bestaat uit twee belangrijke componenten. Ten eerste reduceert Dynamic Token Merging (DToMe) het aantal visuele token-embeddings door vergelijkbare tokens samen te voegen op basis van beeldcomplexiteit, waardoor de inherente inefficiëntie van vaste-lengte-uitvoer in vision transformers wordt aangepakt. Ten tweede simuleert Virtual Token Unmerging (VTU) de verwachte token-sequentie voor grote taalmodellen (LLMs) door efficiënt de aandacht-dynamiek van een volledige sequentie te reconstrueren, waardoor de downstream-prestatie behouden blijft zonder aanvullende fine-tuning. In tegenstelling tot eerdere benaderingen past onze methode tokencompressie dynamisch aan op basis van de inhoud van het beeld en werkt volledig trainingsvrij, waardoor het direct toepasbaar is op de meeste state-of-the-art VLM-architecturen. Uitgebreide experimenten op beeld- en video-begriptaken tonen aan dat DyMU het gemiddelde aantal visuele tokens met 32%-85% kan verminderen, terwijl vergelijkbare prestaties worden behaald als volledige-lengte-modellen over diverse VLM-architecturen, inclusief de recentelijk populair geworden AnyRes-gebaseerde visuele encoders. Bovendien tonen we door kwalitatieve analyses aan dat DToMe effectief tokenreductie aanpast op basis van beeldcomplexiteit en, in tegenstelling tot bestaande systemen, gebruikers meer controle biedt over computationele kosten. Projectpagina: https://mikewangwzhl.github.io/dymu/.
De snelle groei van online videoplatforms, met name live streamingdiensten, heeft een dringende behoefte gecreëerd aan systemen voor real-time videobegrip. Deze systemen moeten continue videostreams verwerken en direct reageren op gebruikersvragen, wat unieke uitdagingen biedt voor huidige Video Large Language Models (VideoLLMs). Hoewel bestaande VideoLLMs uitblinken in het verwerken van complete video's, hebben ze aanzienlijke beperkingen in streaming scenario's vanwege hun onvermogen om dichte, redundante frames efficiënt te verwerken. Wij introduceren TimeChat-Online, een nieuwe online VideoLLM die een revolutie teweegbrengt in real-time video-interactie. De kern ervan is onze innovatieve Differential Token Drop (DTD)-module, die de fundamentele uitdaging van visuele redundantie in streaming video's aanpakt. Geïnspireerd door het Change Blindness-fenomeen in de menselijke visuele waarneming, behoudt DTD betekenisvolle temporele veranderingen terwijl het statische, redundante inhoud tussen frames filtert. Opmerkelijk is dat onze experimenten aantonen dat DTD een reductie van 82,8% in videotokens bereikt terwijl het 98% prestaties behoudt op StreamingBench, wat onthult dat meer dan 80% van de visuele inhoud in streaming video's van nature redundant is zonder taalbegeleiding. Om naadloze real-time interactie mogelijk te maken, presenteren we TimeChat-Online-139K, een uitgebreide streaming video-dataset met diverse interactiepatronen, waaronder backward-tracing, current-perception en future-responding scenario's. De unieke Proactive Response-capaciteit van TimeChat-Online, die van nature wordt bereikt door continue monitoring van video-scènetransities via DTD, onderscheidt het van conventionele benaderingen. Onze uitgebreide evaluatie toont de superieure prestaties van TimeChat-Online op streaming benchmarks (StreamingBench en OvOBench) en het behoud van competitieve resultaten op langdurige videotaken zoals Video-MME en MLVU.
Grote Taalmodellen (LLMs) blijven moeilijk om uitgebreid te evalueren, vooral voor talen anders dan Engels, waar hoogwaardige data vaak beperkt is. Bestaande benchmarks en ranglijsten zijn overwegend Engelstalig, met slechts enkele die andere talen behandelen. Deze benchmarks schieten tekort op verschillende belangrijke gebieden: ze negeren de diversiteit van taalvarianten, leggen de nadruk op fundamentele Natural Language Processing (NLP)-vaardigheden in plaats van op industrieel relevante taken, en zijn statisch. Met deze aspecten in gedachten presenteren we IberBench, een uitgebreide en uitbreidbare benchmark die is ontworpen om de prestaties van LLMs te beoordelen op zowel fundamentele als industrieel relevante NLP-taken, in talen die worden gesproken op het Iberisch Schiereiland en in Ibero-Amerika. IberBench integreert 101 datasets van evaluatiecampagnes en recente benchmarks, die 22 taalcategorieën bestrijken, zoals sentiment- en emotieanalyse, toxiciteitsdetectie en samenvatting. De benchmark adresseert belangrijke beperkingen in huidige evaluatiepraktijken, zoals het gebrek aan linguïstische diversiteit en statische evaluatieopstellingen, door continue updates en door de gemeenschap aangedragen model- en datasetinzendingen mogelijk te maken, die worden gemodereerd door een comité van experts. We evalueren 23 LLMs variërend van 100 miljoen tot 14 miljard parameters en bieden empirische inzichten in hun sterke en zwakke punten. Onze bevindingen geven aan dat (i) LLMs slechter presteren op industrieel relevante taken dan op fundamentele taken, (ii) de prestaties gemiddeld lager zijn voor Galicisch en Baskisch, (iii) sommige taken resultaten laten zien die dicht bij willekeur liggen, en (iv) in andere taken presteren LLMs boven willekeur maar onder gedeelde taaksystemen. IberBench biedt open-source implementaties voor de gehele evaluatiepijplijn, inclusief datasetnormalisatie en hosting, incrementele evaluatie van LLMs, en een publiek toegankelijke ranglijst.
We introduceren ViSMap: Unsupervised Video Summarisation by Meta Prompting, een systeem om urenlange video's samen te vatten zonder supervisie. De meeste bestaande modellen voor videobegrip presteren goed op korte video's van vooraf gesegmenteerde gebeurtenissen, maar ze hebben moeite met het samenvatten van langere video's waarin relevante gebeurtenissen verspreid voorkomen en niet vooraf zijn gesegmenteerd. Bovendien is het begrijpen van lange video's vaak afhankelijk van gesuperviseerde hiërarchische training die uitgebreide annotaties vereist, wat kostbaar, tijdrovend en gevoelig voor inconsistenties is. Met ViSMaP overbruggen we de kloof tussen korte video's (waar geannoteerde data ruimschoots aanwezig is) en lange video's (waar dit niet het geval is). We vertrouwen op LLM's om geoptimaliseerde pseudo-samenvattingen van lange video's te maken met behulp van segmentbeschrijvingen van korte video's. Deze pseudo-samenvattingen worden gebruikt als trainingsdata voor een model dat samenvattingen van lange video's genereert, waardoor de noodzaak voor dure annotaties van lange video's wordt omzeild. Specifiek hanteren we een meta-prompting strategie om iteratief pseudo-samenvattingen van lange video's te genereren en te verfijnen. De strategie maakt gebruik van beschrijvingen van korte clips die zijn verkregen van een gesuperviseerd model voor korte video's om de samenvatting te sturen. Elke iteratie maakt gebruik van drie LLM's die sequentieel werken: één om de pseudo-samenvatting te genereren uit clipbeschrijvingen, een andere om deze te evalueren, en een derde om de prompt van de generator te optimaliseren. Deze iteratie is noodzakelijk omdat de kwaliteit van de pseudo-samenvattingen sterk afhankelijk is van de generatorprompt en sterk varieert tussen video's. We evalueren onze samenvattingen uitgebreid op meerdere datasets; onze resultaten laten zien dat ViSMaP prestaties bereikt die vergelijkbaar zijn met volledig gesuperviseerde state-of-the-art modellen, terwijl het generaliseert over domeinen zonder in te leveren op prestaties. De code wordt vrijgegeven na publicatie.
Autoregressieve op patches gebaseerde beeldgeneratie heeft recentelijk competitieve resultaten getoond wat betreft beeldkwaliteit en schaalbaarheid. Het kan ook eenvoudig worden geïntegreerd en opgeschaald binnen Vision-Language-modellen. Desalniettemin vereisen autoregressieve modellen een gedefinieerde volgorde voor het genereren van patches. Hoewel een natuurlijke volgorde gebaseerd op de dictie van woorden logisch is voor tekstgeneratie, bestaat er geen inherente generatievolgorde voor beeldgeneratie. Traditioneel wordt een raster-scan volgorde (van linksboven naar rechtsonder) gebruikt om autoregressieve beeldgeneratiemodellen te sturen. In dit artikel betogen wij dat deze volgorde suboptimaal is, omdat deze de causaliteit van de beeldinhoud niet respecteert: bijvoorbeeld, wanneer een model wordt geconditioneerd op een visuele beschrijving van een zonsondergang, kan het model wolken genereren voordat de zon wordt gegenereerd, terwijl de kleur van de wolken afhankelijk zou moeten zijn van de kleur van de zon en niet omgekeerd. In dit werk tonen wij aan dat we, door eerst een model te trainen om patches in een willekeurige volgorde te genereren, zowel de inhoud als de locatie (volgorde) van elke patch tijdens de generatie kunnen afleiden. Ten tweede gebruiken wij deze geëxtraheerde volgordes om het willekeurige-volgorde-model te finetunen om beelden van betere kwaliteit te produceren. Door middel van onze experimenten tonen wij aan op twee datasets dat deze nieuwe generatiemethode betere beelden produceert dan de traditionele raster-scan aanpak, met vergelijkbare trainingskosten en zonder extra annotaties.
Het annoteren van cameraposities in dynamische internetvideo's op grote schaal is cruciaal voor het bevorderen van vakgebieden zoals realistische videogeneratie en simulatie. Het verzamelen van een dergelijke dataset is echter moeilijk, aangezien de meeste internetvideo's niet geschikt zijn voor pose-estimatie. Bovendien vormen het annoteren van dynamische internetvideo's aanzienlijke uitdagingen, zelfs voor state-of-the-art methoden. In dit artikel introduceren we DynPose-100K, een grootschalige dataset van dynamische internetvideo's die zijn geannoteerd met cameraposities. Onze verzamelpipeline richt zich op filtering met behulp van een zorgvuldig gecombineerde set van taakspecifieke en generalistische modellen. Voor pose-estimatie combineren we de nieuwste technieken van punt-tracking, dynamische masking en structure-from-motion om verbeteringen te bereiken ten opzichte van de state-of-the-art benaderingen. Onze analyse en experimenten tonen aan dat DynPose-100K zowel grootschalig als divers is op verschillende belangrijke kenmerken, wat mogelijkheden biedt voor vooruitgang in diverse downstream toepassingen.
Dimensionaliteitsreductietechnieken zijn fundamenteel voor het analyseren en visualiseren van hoogdimensionale data. Gevestigde methoden zoals t-SNE en PCA bieden een afweging tussen representatiekracht en interpreteerbaarheid. Dit artikel introduceert een nieuwe aanpak die deze kloof overbrugt door de interpreteerbaarheid van lineaire methoden te combineren met de expressiviteit van niet-lineaire transformaties. Het voorgestelde algoritme construeert een niet-lineaire afbeelding tussen hoogdimensionale en laagdimensionale ruimtes door een combinatie van lineaire transformaties, elk gewogen door Gaussische functies. Deze architectuur maakt complexe niet-lineaire transformaties mogelijk terwijl de voordelen van interpreteerbaarheid van lineaire methoden behouden blijven, aangezien elke transformatie onafhankelijk kan worden geanalyseerd. Het resulterende model biedt zowel krachtige dimensionaliteitsreductie als transparante inzichten in de getransformeerde ruimte. Technieken voor het interpreteren van de geleerde transformaties worden gepresenteerd, waaronder methoden voor het identificeren van onderdrukte dimensies en hoe ruimte wordt uitgebreid en samengedrukt. Deze tools stellen gebruikers in staat te begrijpen hoe het algoritme geometrische relaties behoudt en wijzigt tijdens dimensionaliteitsreductie. Om de praktische bruikbaarheid van dit algoritme te waarborgen, wordt de ontwikkeling van gebruiksvriendelijke softwarepakketten benadrukt, wat de adoptie ervan in zowel academische als industriële contexten vergemakkelijkt.