Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Naar aanleiding van de recente populariteit van Large Language Models (LLMs) zijn er verschillende pogingen gedaan om deze uit te breiden naar het visuele domein. Van een visuele assistent die ons kan begeleiden in onbekende omgevingen tot generatieve modellen die afbeeldingen produceren met alleen een hoogwaardige tekstbeschrijving, zullen vision-language models (VLM) een aanzienlijke impact hebben op onze relatie met technologie. Er zijn echter veel uitdagingen die moeten worden aangepakt om de betrouwbaarheid van deze modellen te verbeteren. Terwijl taal discreet is, ontwikkelt visie zich in een veel hoger dimensionale ruimte waarin concepten niet altijd gemakkelijk kunnen worden gediscretiseerd. Om de mechanismen achter het koppelen van visie aan taal beter te begrijpen, presenteren we deze introductie tot VLMs, die we hopen nuttig te vinden voor iedereen die het veld wil betreden. Eerst introduceren we wat VLMs zijn, hoe ze werken en hoe ze getraind kunnen worden. Vervolgens presenteren en bespreken we benaderingen om VLMs te evalueren. Hoewel dit werk zich voornamelijk richt op het koppelen van afbeeldingen aan taal, bespreken we ook de uitbreiding van VLMs naar video's.
De slechte prestaties van transformers bij rekenkundige taken lijken grotendeels voort te komen uit hun onvermogen om de exacte positie van elk cijfer binnen een grote reeks cijfers bij te houden. We lossen dit probleem op door aan elk cijfer een embedding toe te voegen die zijn positie ten opzichte van het begin van het getal codeert. Naast de boost die deze embeddings op zichzelf bieden, laten we zien dat deze oplossing architectuurwijzigingen zoals input-injectie en recurrente lagen mogelijk maakt, wat de prestaties nog verder verbetert. Met de posities opgelost, kunnen we het logische extrapolatievermogen van transformers bestuderen. Kunnen ze rekenkundige problemen oplossen die groter en complexer zijn dan die in hun trainingsdata? We ontdekken dat door te trainen op getallen van slechts 20 cijfers met een enkele GPU gedurende één dag, we state-of-the-art prestaties kunnen bereiken, met een nauwkeurigheid van tot 99% bij optelproblemen met 100 cijfers. Tot slot tonen we aan dat deze vooruitgang in rekenvaardigheid ook verbeteringen mogelijk maakt bij andere meerstaps redeneertaken, zoals sorteren en vermenigvuldigen.
Grote Multimodale Modellen (LMMs) zoals LLaVA hebben sterke prestaties getoond in visueel-linguïstisch redeneren. Deze modellen embedden eerst afbeeldingen in een vast, groot aantal visuele tokens en voeren deze vervolgens in een Groot Taalmodel (LLM) in. Dit ontwerp resulteert echter in een excessief aantal tokens voor dichte visuele scenario's zoals hoogresolutie afbeeldingen en video's, wat tot grote inefficiëntie leidt. Hoewel methoden voor token pruning/merging bestaan, produceren deze een enkele lengte-uitvoer voor elke afbeelding en bieden ze geen flexibiliteit in het afwegen van informatiedichtheid tegen efficiëntie. Geïnspireerd door het concept van Matroesjka-poppetjes, stellen we M3 voor: Matroesjka Multimodale Modellen, die leren om visuele inhoud te representeren als geneste sets van visuele tokens die informatie vastleggen over meerdere grof-naar-fijn granulariteiten. Onze aanpak biedt verschillende unieke voordelen voor LMMs: (1) Men kan tijdens de inferentie expliciet de visuele granulariteit per testgeval bepalen, bijvoorbeeld door het aantal tokens dat gebruikt wordt om een afbeelding te representeren aan te passen op basis van de verwachte complexiteit of eenvoud van de inhoud; (2) M3 biedt een raamwerk voor het analyseren van de benodigde granulariteit voor bestaande datasets, waar we ontdekken dat COCO-stijl benchmarks slechts ongeveer ~9 visuele tokens nodig hebben om een nauwkeurigheid te bereiken die vergelijkbaar is met het gebruik van alle 576 tokens; (3) Onze aanpak biedt een basis om de beste afweging tussen prestaties en visuele tokenlengte op monsterniveau te verkennen, waar ons onderzoek aantoont dat er een grote kloof bestaat tussen de orakel-upperbound en huidige vaste-schaal representaties.
In dit technische rapport presenteren we Zamba, een nieuw 7B SSM-transformer hybride model dat competitieve prestaties behaalt ten opzichte van toonaangevende open-weight modellen van vergelijkbare schaal. Zamba is getraind op 1T tokens uit openbaar beschikbare datasets en is het beste niet-transformer model op deze schaal. Zamba introduceert een unieke architectuur die een Mamba-backbone combineert met een enkele gedeelde aandachtmodule, waardoor de voordelen van aandacht worden behaald tegen minimale parameterkosten. Door zijn architectuur is Zamba aanzienlijk sneller in inferentie dan vergelijkbare transformer-modellen en heeft het aanzienlijk minder geheugen nodig voor het genereren van lange sequenties. Zamba wordt voorgetraind in twee fasen: de eerste fase is gebaseerd op bestaande webdatasets, terwijl de tweede fase bestaat uit het annealen van het model over hoogwaardige instructie- en synthetische datasets, en wordt gekenmerkt door een snelle afname van het leertempo. We maken de gewichten en alle checkpoints voor Zamba open-source, zowel voor fase 1 als voor de annealfasen.
Decoder-only grote taalmodellen (LLM)-gebaseerde embeddingmodellen beginnen BERT- of T5-gebaseerde embeddingmodellen te overtreffen in algemene tekstembeddingstaken, inclusief dense vector-gebaseerde retrieval. In dit werk introduceren we het NV-Embed-model met een verscheidenheid aan architectonische ontwerpen en trainingsprocedures om de prestaties van LLM als een veelzijdig embeddingmodel aanzienlijk te verbeteren, terwijl de eenvoud en reproduceerbaarheid behouden blijven. Voor de modelarchitectuur stellen we een latente aandachtlaag voor om gepoolde embeddings te verkrijgen, wat consistent de retrieval- en downstreamtaaknauwkeurigheid verbetert in vergelijking met mean pooling of het gebruik van de laatste <EOS>-tokenembedding van LLM's. Om de representatielearning te verbeteren, verwijderen we het causale aandachtmasker van LLM's tijdens contrastieve training. Voor de modeltraining introduceren we een tweefasen contrastieve instructieafstemmingsmethode. Deze past eerst contrastieve training toe met instructies op retrievaldatasets, waarbij gebruik wordt gemaakt van in-batch negatieven en geselecteerde harde negatieve voorbeelden. In fase 2 worden verschillende niet-retrievaldatasets gemengd in de instructieafstemming, wat niet alleen de nauwkeurigheid van niet-retrievaltaken verbetert, maar ook de retrievalprestaties. Door deze technieken te combineren, heeft ons NV-Embed-model, met alleen openbaar beschikbare data, een recordscore van 69,32 behaald, wat het op de eerste plaats brengt op de Massive Text Embedding Benchmark (MTEB) (per 24 mei 2024), met 56 taken, waaronder retrieval, reranking, classificatie, clustering en semantische tekstuele gelijkenistaken. Opmerkelijk is dat ons model ook de hoogste score van 59,36 behaalt op 15 retrievaltaken in de MTEB-benchmark (ook bekend als BEIR). We zullen het model opensourcen op: https://huggingface.co/nvidia/NV-Embed-v1.
De opmerkelijke generatieve capaciteiten van diffusiemodellen hebben uitgebreid onderzoek gestimuleerd op het gebied van zowel beeld- als videobewerking. In vergelijking met videobewerking, dat extra uitdagingen kent in de tijdsdimensie, heeft beeldbewerking de ontwikkeling gezien van meer diverse, hoogwaardige benaderingen en krachtigere software zoals Photoshop. Gezien dit gat introduceren we een nieuwe en generieke oplossing die de toepasbaarheid van beeldbewerkingstools uitbreidt naar video's door bewerkingen van een enkel frame naar de gehele video te propageren met behulp van een vooraf getraind beeld-naar-video-model. Onze methode, genaamd I2VEdit, behoudt adaptief de visuele en bewegingsintegriteit van de bronvideo afhankelijk van de omvang van de bewerkingen, en behandelt effectief globale bewerkingen, lokale bewerkingen en matige vormveranderingen, wat bestaande methoden niet volledig kunnen bereiken. De kern van onze methode bestaat uit twee hoofdprocessen: Coarse Motion Extraction om basisbewegingspatronen uit te lijnen met de originele video, en Appearance Refinement voor precieze aanpassingen met behulp van fijnmazige aandachtsovereenkomsten. We hebben ook een skip-intervalstrategie geïntegreerd om kwaliteitsverlies door autoregressieve generatie over meerdere videoclips te verminderen. Experimentele resultaten tonen de superieure prestaties van ons framework in fijnmazige videobewerking aan, wat het vermogen aantoont om hoogwaardige, temporeel consistente uitvoer te produceren.
We presenteren een nieuwe aanpak voor het genereren van hoogwaardige, ruimtelijk-temporeel coherente menselijke video's vanuit een enkele afbeelding onder willekeurige gezichtspunten. Ons framework combineert de sterke punten van U-Nets voor nauwkeurige conditionering en diffusietransformers voor het vastleggen van globale correlaties tussen gezichtspunten en tijd. De kern is een gecascadeerde 4D-transformerarchitectuur die aandacht factoriseert over gezichtspunten, tijd en ruimtelijke dimensies, waardoor efficiënte modellering van de 4D-ruimte mogelijk wordt. Nauwkeurige conditionering wordt bereikt door menselijke identiteit, cameraparameters en temporele signalen in de respectievelijke transformers te injecteren. Om dit model te trainen, hebben we een multidimensionale dataset samengesteld die afbeeldingen, video's, multiview-data en 3D/4D-scans omvat, samen met een multidimensionale trainingsstrategie. Onze aanpak overkomt de beperkingen van eerdere methoden gebaseerd op GAN- of UNet-gebaseerde diffusiemodellen, die moeite hebben met complexe bewegingen en veranderingen in gezichtspunten. Door uitgebreide experimenten demonstreren we het vermogen van onze methode om realistische, coherente en vrij bekijkbare menselijke video's te synthetiseren, wat de weg vrijmaakt voor geavanceerde multimediatoepassingen in gebieden zoals virtual reality en animatie. Onze projectwebsite is https://human4dit.github.io.
Low-rank adapters (LoRA) en hun varianten zijn populaire parameter-efficiënte fine-tuningtechnieken (PEFT) die de prestaties van volledige model-finetuning nauwkeurig benaderen, terwijl slechts een klein aantal extra parameters nodig is. Deze extra LoRA-parameters zijn specifiek voor het basismodel dat wordt aangepast. Wanneer het basismodel moet worden afgeschaft en vervangen door een nieuw model, moeten alle bijbehorende LoRA-modules opnieuw worden getraind. Deze hertraining vereist toegang tot de gegevens die zijn gebruikt om de LoRA voor het oorspronkelijke basismodel te trainen. Dit is vooral problematisch voor commerciële cloudapplicaties waar de LoRA-modules en de basismodellen worden gehost door serviceproviders die mogelijk geen toestemming hebben om propriëtaire klanttaakgegevens te hosten. Om deze uitdaging aan te pakken, stellen we Trans-LoRA voor – een nieuwe methode voor verliesvrije, bijna gegevensvrije overdracht van LoRA's tussen basismodellen. Onze aanpak maakt gebruik van synthetische gegevens om LoRA-modules over te dragen. Met behulp van grote taalmodellen ontwerpen we een synthetische gegevensgenerator om het gegevensgenererende proces van de waargenomen taakgegevenssubset te benaderen. Training op de resulterende synthetische dataset draagt LoRA-modules over naar nieuwe modellen. We tonen de effectiviteit van onze aanpak aan met behulp van zowel de LLama- als de Gemma-modelfamilies. Onze aanpak bereikt verliesvrije (meestal verbeterde) LoRA-overdracht tussen modellen binnen en tussen verschillende basismodelfamilies, en zelfs tussen verschillende PEFT-methoden, voor een breed scala aan taken.
Dit artikel introduceert StreamV2V, een diffusiemodel dat realtime streaming video-naar-video (V2V) vertaling mogelijk maakt met gebruikersprompts. In tegenstelling tot eerdere V2V-methoden die batches gebruiken om een beperkt aantal frames te verwerken, kiezen wij ervoor om frames in een streaming-stijl te verwerken, om een onbeperkt aantal frames te ondersteunen. De kern van StreamV2V ligt in een terugblikkend principe dat het heden relateert aan het verleden. Dit wordt gerealiseerd door het onderhouden van een kenmerkbank, die informatie uit vorige frames archiveert. Voor binnenkomende frames breidt StreamV2V zelf-attentie uit om opgeslagen sleutels en waarden te includeren en fuseert direct vergelijkbare eerdere kenmerken in de uitvoer. De kenmerkbank wordt continu bijgewerkt door opgeslagen en nieuwe kenmerken samen te voegen, waardoor deze compact maar informatief blijft. StreamV2V onderscheidt zich door zijn aanpassingsvermogen en efficiëntie, en integreert naadloos met beelddiffusiemodellen zonder fine-tuning. Het kan 20 FPS draaien op één A100 GPU, wat respectievelijk 15x, 46x, 108x en 158x sneller is dan FlowVid, CoDeF, Rerender en TokenFlow. Kwantitatieve metingen en gebruikersstudies bevestigen de uitzonderlijke vaardigheid van StreamV2V om temporele consistentie te behouden.
Videogeneratieve modellen krijgen bijzondere aandacht vanwege hun vermogen om realistische en fantasierijke frames te genereren. Bovendien wordt waargenomen dat deze modellen een sterke 3D-consistentie vertonen, wat hun potentieel als wereld-simulators aanzienlijk vergroot. In dit werk presenteren we Vidu4D, een innovatief reconstructiemodel dat uitblinkt in het nauwkeurig reconstrueren van 4D-representaties (d.w.z. sequentiële 3D) vanuit enkele gegenereerde video's, waarbij uitdagingen gerelateerd aan niet-rigiditeit en frame-vervorming worden aangepakt. Deze mogelijkheid is cruciaal voor het creëren van hoogwaardige virtuele inhoud die zowel ruimtelijke als temporele coherentie behoudt. De kern van Vidu4D bestaat uit onze voorgestelde Dynamic Gaussian Surfels (DGS)-techniek. DGS optimaliseert tijdvariërende vervormingsfuncties om Gaussische surfels (oppervlakte-elementen) van een statische toestand naar een dynamisch vervormde toestand te transformeren. Deze transformatie maakt een nauwkeurige weergave van beweging en vervorming over tijd mogelijk. Om de structurele integriteit van oppervlakte-uitgelijnde Gaussische surfels te behouden, ontwerpen we de geometrische regularisatie van de vervormde toestand op basis van continue vervormingsvelden voor het schatten van normalen. Daarnaast leren we verfijningen aan de rotatie- en schaalparameters van Gaussische surfels, wat texture-flickering tijdens het vervormingsproces aanzienlijk vermindert en de vastlegging van fijnmazige uiterlijkdetails verbetert. Vidu4D bevat ook een nieuw initiatiestaat die een goede start biedt voor de vervormingsvelden in DGS. Door Vidu4D uit te rusten met een bestaand videogeneratief model, toont het algemene framework hoogwaardige tekst-naar-4D-generatie in zowel uiterlijk als geometrie.
Onderzoek naar videogeneratie heeft recentelijk enorme vooruitgang geboekt, waardoor hoogwaardige video's kunnen worden gegenereerd op basis van tekstprompts of afbeeldingen. Het toevoegen van controle aan het videogeneratieproces is een belangrijk doel voor de toekomst, en recente benaderingen die videogeneratiemodellen conditioneren op cameratrajecten zetten hier stappen in. Toch blijft het een uitdaging om een video van dezelfde scène te genereren vanuit meerdere verschillende cameratrajecten. Oplossingen voor dit multi-videogeneratieprobleem zouden grootschalige 3D-scènegeneratie met bewerkbare cameratrajecten mogelijk kunnen maken, naast andere toepassingen. Wij introduceren collaborative video diffusion (CVD) als een belangrijke stap in de richting van deze visie. Het CVD-framework omvat een nieuwe cross-video synchronisatiemodule die consistentie bevordert tussen corresponderende frames van dezelfde video die vanuit verschillende cameraposities worden weergegeven, met behulp van een epipolair aandachtmechanisme. Getraind bovenop een state-of-the-art cameracontrolemodule voor videogeneratie, genereert CVD meerdere video's die vanuit verschillende cameratrajecten worden weergegeven met aanzienlijk betere consistentie dan baseline-methoden, zoals blijkt uit uitgebreide experimenten. Projectpagina: https://collaborativevideodiffusion.github.io/.
Recentelijk heeft de opkomst van diffusiemodellen nieuwe mogelijkheden geopend voor reconstructie vanuit één beeld. Echter, alle bestaande methoden representeren het doelobject als een gesloten mesh zonder enige structurele informatie, waardoor de op delen gebaseerde structuur, die cruciaal is voor veel downstream-toepassingen, van de gereconstrueerde vorm wordt verwaarloosd. Bovendien lijden de gegenereerde meshes meestal aan grote ruis, ongelijke oppervlakken en vage texturen, wat het verkrijgen van bevredigende deelsegmenten met behulp van 3D-segmentatietechnieken bemoeilijkt. In dit artikel presenteren we Part123, een nieuw raamwerk voor deelbewuste 3D-reconstructie vanuit een enkel beeld. We gebruiken eerst diffusiemodellen om multiview-consistente beelden te genereren vanuit een gegeven beeld, en maken vervolgens gebruik van het Segment Anything Model (SAM), dat een krachtige generalisatiecapaciteit toont op willekeurige objecten, om multiview-segmentatiemaskers te genereren. Om op delen gebaseerde 2D-informatie effectief in 3D-reconstructie te integreren en inconsistentie te hanteren, introduceren we contrastief leren in een neurale rendering-raamwerk om een deelbewuste kenmerkruimte te leren op basis van de multiview-segmentatiemaskers. Er is ook een op clustering gebaseerd algoritme ontwikkeld om automatisch 3D-deelsegmentatieresultaten af te leiden uit de gereconstrueerde modellen. Experimenten tonen aan dat onze methode 3D-modellen kan genereren met hoogwaardige gesegmenteerde delen op verschillende objecten. In vergelijking met bestaande ongestructureerde reconstructiemethoden, profiteren de deelbewuste 3D-modellen van onze methode enkele belangrijke toepassingen, waaronder kenmerkbehoudende reconstructie, primitief passen en 3D-vormbewerking.
Hoewel diffusiemodellen complexe verdelingen kunnen leren, vereist het bemonsteren een rekenintensief iteratief proces. Bestaande destillatiemethoden maken efficiënt bemonsteren mogelijk, maar hebben aanzienlijke beperkingen, zoals prestatievermindering bij zeer weinig bemonsteringsstappen, afhankelijkheid van toegang tot trainingsgegevens, of mode-zoekende optimalisatie die mogelijk niet de volledige verdeling kan vastleggen. Wij stellen EM Destillatie (EMD) voor, een op maximale waarschijnlijkheid gebaseerde aanpak die een diffusiemodel destilleert naar een één-staps generatormodel met minimaal verlies van perceptuele kwaliteit. Onze aanpak is afgeleid door de lens van Expectation-Maximization (EM), waarbij de generatorparameters worden bijgewerkt met behulp van steekproeven uit de gezamenlijke verdeling van de diffusie-leraarprior en afgeleide generatorlatenten. We ontwikkelen een herparametriseerd bemonsteringsschema en een ruisonderdrukkingstechniek die samen het destillatieproces stabiliseren. We onthullen verder een interessante verbinding van onze methode met bestaande methoden die mode-zoekende KL minimaliseren. EMD overtreft bestaande één-staps generatieve methoden in termen van FID-scores op ImageNet-64 en ImageNet-128, en vergelijkt gunstig met eerder werk over het destilleren van tekst-naar-beeld diffusiemodellen.
Een goede initialisatie van deep learning-modellen is essentieel, omdat het kan helpen om deze beter en sneller te laten convergeren. Het pretrainen van grote modellen is echter voor veel onderzoekers onbetaalbaar, wat een gewenste voorspelling voor initiële parameters tegenwoordig noodzakelijker maakt. Graph HyperNetworks (GHNs), een benadering om modelparameters te voorspellen, hebben recentelijk sterke prestaties getoond bij het initialiseren van grote vision-modellen. Helaas is het voorspellen van parameters van zeer brede netwerken afhankelijk van het meerdere keren kopiëren van kleine stukjes parameters en vereist het een extreem groot aantal parameters om volledige voorspelling te ondersteunen, wat de praktische toepassing ervan sterk belemmert. Om deze beperking aan te pakken, stellen we LoGAH (Low-rank GrAph Hypernetworks) voor, een GHN met een low-rank parameterdecoder die zich uitbreidt naar aanzienlijk bredere netwerken zonder een zo excessieve toename van parameters te vereisen als bij eerdere pogingen. LoGAH stelt ons in staat om de parameters van 774 miljoen grote neurale netwerken op een geheugenefficiënte manier te voorspellen. We laten zien dat vision- en taalmodellen (d.w.z. ViT en GPT-2) die met LoGAH zijn geïnitialiseerd, betere prestaties leveren dan modellen die willekeurig of met bestaande hypernetworks zijn geïnitialiseerd. Bovendien tonen we veelbelovende transfer learning-resultaten door LoGAH te trainen op kleine datasets en de voorspelde parameters te gebruiken om te initialiseren voor grotere taken. We bieden de codes aan op https://github.com/Blackzxy/LoGAH.
We pakken het lang bestaande probleem aan van hoe effectieve pixelgebaseerde beelddiffusiemodellen op grote schaal kunnen worden geleerd, waarbij we een opmerkelijk eenvoudige, gretige groeimethode introduceren voor stabiele training van grootschalige, hoge-resolutiemodellen, zonder de noodzaak van gecascadeerde superresolutiecomponenten. Het belangrijkste inzicht komt voort uit zorgvuldige voorafgaande training van kerncomponenten, namelijk die verantwoordelijk zijn voor tekst-naar-beeld-uitlijning {\it versus} hoge-resolutieweergave. We demonstreren eerst de voordelen van het schalen van een {\it Shallow UNet}, zonder down(up)-sampling enc(dec)oder. Het schalen van de diepe kernlagen blijkt de uitlijning, objectstructuur en compositie te verbeteren. Op basis van dit kernmodel stellen we een gretig algoritme voor dat de architectuur uitbreidt naar end-to-end modellen met hoge resolutie, terwijl de integriteit van de vooraf getrainde representatie behouden blijft, de training wordt gestabiliseerd en de behoefte aan grote datasets met hoge resolutie wordt verminderd. Hierdoor ontstaat een enkelstapsmodel dat in staat is om beelden met hoge resolutie te genereren zonder de noodzaak van een superresolutiecascade. Onze belangrijkste resultaten zijn gebaseerd op openbare datasets en laten zien dat we niet-gecascadeerde modellen kunnen trainen tot 8B parameters zonder verdere regularisatieschema's. Vermeer, ons volledige pijplijnmodel getraind met interne datasets om 1024x1024 beelden te produceren, zonder cascades, wordt door 44,0% versus 21,4% van de menselijke beoordelaars verkozen boven SDXL.