Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren de eerste model-diefstal aanval die precieze, niet-triviale informatie extraheert uit black-box productie-taalmodellen zoals OpenAI's ChatGPT of Google's PaLM-2. Specifiek herstelt onze aanval de embedding-projectielaag (op symmetrieën na) van een transformer-model, gegeven typische API-toegang. Voor minder dan $20 USD extraheert onze aanval de volledige projectiematrix van OpenAI's Ada- en Babbage-taalmodellen. Hiermee bevestigen we voor het eerst dat deze black-box-modellen een verborgen dimensie hebben van respectievelijk 1024 en 2048. We herstellen ook de exacte grootte van de verborgen dimensie van het gpt-3.5-turbo model, en schatten in dat het minder dan $2000 aan queries zou kosten om de volledige projectiematrix te herstellen. We sluiten af met mogelijke verdedigings- en mitigatiestrategieën, en bespreken de implicaties van mogelijk toekomstig werk dat onze aanval zou kunnen uitbreiden.
Recente vooruitgang in grote taalmodellen heeft enorme waarde gebracht aan de wereld, met hun superieure capaciteiten die voortkomen uit het enorme aantal parameters dat ze gebruiken. Echter, zelfs de GPU's met de hoogste geheugencapaciteiten, die momenteel een maximum van 80GB bereiken, zijn lang niet voldoende om deze enorme parameters en hun bijbehorende optimizerstatussen te accommoderen bij het uitvoeren van stochastische gradiëntdaling-gebaseerde optimalisatie. Een benadering om dergelijke enorme modellen te hosten, is het samenvoegen van apparaatgeheugen van veel GPU's. Deze benadering brengt echter onoverkomelijke kosten met zich mee voor de meeste academische onderzoekers, die altijd een beperkt budget hebben voor veel high-end GPU-servers. In dit artikel richten we ons op het finetunen van enorme modellen op een enkele, zelfs low-end, GPU in een standaard server, die toegankelijk is voor de meeste AI-onderzoekers. In een dergelijk scenario lijdt het state-of-the-art werk ZeRO-Infinity aan twee ernstige problemen bij het draaien op een standaard server: 1) lage GPU-utilisatie door inefficiënt swappen, en 2) beperkte trainbare modelgrootte door CPU-geheugencapaciteit. De onderliggende reden is dat ZeRO-Infinity is geoptimaliseerd voor het draaien op high-end GPU-servers. Daarom presenteren we Fuyou, een low-cost trainingsframework dat efficiënt finetunen van 100B enorme modellen mogelijk maakt op een low-end server met een low-end GPU en beperkte CPU-geheugencapaciteit. Het kernidee is om de SSD-CPU-communicatie toe te voegen als een optimalisatiedimensie en zo zorgvuldig berekening en data-swapping te co-optimaliseren vanuit een systematische benadering om GPU-utilisatie te maximaliseren. De experimentele resultaten tonen aan dat 1) Fuyou in staat is om 175B GPT-3 te finetunen op een consumenten-GPU RTX 4090 met hoge GPU-utilisatie, terwijl ZeRO-Infinity hierin faalt; en 2) bij het trainen van een klein GPT-3 13B-model, Fuyou 156 TFLOPS bereikt op een RTX 4090 GPU, terwijl ZeRO-Infinity slechts 45 TFLOPS bereikt.
Automatische 3D-generatie heeft recentelijk veel aandacht getrokken. Recente methoden hebben de generatiesnelheid aanzienlijk versneld, maar produceren meestal minder gedetailleerde objecten vanwege beperkte modelcapaciteit of 3D-data. Geïnspireerd door recente vooruitgang in videodiffusiemodellen, introduceren we V3D, dat gebruikmaakt van de wereldsimulatiecapaciteit van vooraf getrainde videodiffusiemodellen om 3D-generatie te vergemakkelijken. Om het volledige potentieel van videodiffusie voor het waarnemen van de 3D-wereld te benutten, introduceren we verder een geometrische consistentieprior en breiden we het videodiffusiemodel uit naar een multi-view consistent 3D-generator. Hierdoor kan het state-of-the-art videodiffusiemodel worden afgestemd om 360-graden orbitframes rond een object te genereren op basis van een enkele afbeelding. Met onze op maat gemaakte reconstructiepijplijnen kunnen we hoogwaardige meshes of 3D-Gaussians genereren binnen 3 minuten. Bovendien kan onze methode worden uitgebreid naar scene-level novel view synthesis, waarbij precieze controle over het camerapad wordt bereikt met spaarzame invoerweergaven. Uitgebreide experimenten tonen de superieure prestaties van de voorgestelde aanpak aan, vooral wat betreft generatiekwaliteit en multi-view consistentie. Onze code is beschikbaar op https://github.com/heheyas/V3D.
Het aanpakken van de dubbele uitdagingen van lokale redundantie en globale afhankelijkheden in videobegrip, past dit werk innovatief de Mamba aan voor het videodomein. De voorgestelde VideoMamba overwint de beperkingen van bestaande 3D-convolutionele neurale netwerken en videotransformers. De lineaire complexiteit van de operator maakt efficiënte modellering op lange termijn mogelijk, wat cruciaal is voor het begrijpen van lange video's met hoge resolutie. Uitgebreide evaluaties onthullen vier kernvaardigheden van VideoMamba: (1) Schaalbaarheid in het visuele domein zonder uitgebreide voorafgaande training van datasets, dankzij een nieuwe zelfdistillatietechniek; (2) Gevoeligheid voor het herkennen van kortetermijnacties, zelfs bij fijnmazige bewegingsverschillen; (3) Superioriteit in het begrijpen van lange video's, met aanzienlijke vooruitgang ten opzichte van traditionele op kenmerken gebaseerde modellen; en (4) Compatibiliteit met andere modaliteiten, wat robuustheid aantoont in multimodale contexten. Door deze onderscheidende voordelen stelt VideoMamba een nieuwe standaard voor videobegrip en biedt het een schaalbare en efficiënte oplossing voor uitgebreid videobegrip. Alle code en modellen zijn beschikbaar op https://github.com/OpenGVLab/VideoMamba.
In deze studie identificeren we de inefficiënte aandachtverschijnselen in Grote Visueel-Taalmodellen (LVLMs), met name in prominente modellen zoals LLaVA-1.5, QwenVL-Chat en Video-LLaVA. We ontdekken dat de aandachtberekening over visuele tokens extreem inefficiënt is in de diepe lagen van populaire LVLMs, wat suggereert dat een spaarzamere aanpak nodig is in vergelijking met de verwerking van tekstuele gegevens. Hiertoe introduceren we FastV, een veelzijdige plug-and-play methode die is ontworpen om de computationele efficiëntie te optimaliseren door adaptieve aandachtpatronen in vroege lagen te leren en visuele tokens in latere lagen te snoeien. Onze evaluaties tonen aan dat FastV in staat is om de computationele kosten drastisch te verminderen (bijvoorbeeld een reductie van 45 in FLOPs voor LLaVA-1.5-13B) zonder in te leveren op prestaties in een breed scala aan beeld- en videobegriptaken. De afweging tussen computationele efficiëntie en prestaties van FastV is zeer aanpasbaar en pareto-efficiënt. Het kan de FLOPs van een model met 13B parameters comprimeren om een lager budget te bereiken dan dat van een model met 7B parameters, terwijl het nog steeds superieure prestaties behoudt. Wij geloven dat FastV praktische waarden heeft voor de implementatie van LVLMs in edge-apparaten en commerciële modellen. De code is vrijgegeven op https://github.com/pkunlp-icler/FastV.
We onderzoeken de snelheid waarmee algoritmen voor het vooraf trainen van taalmodelen zijn verbeterd sinds de opkomst van deep learning. Met behulp van een dataset van meer dan 200 evaluaties van taalmodelen op Wikitext en Penn Treebank uit de periode 2012-2023, constateren we dat de benodigde rekenkracht om een bepaalde prestatiegrens te bereiken ongeveer elke 8 maanden is gehalveerd, met een 95% betrouwbaarheidsinterval van ongeveer 5 tot 14 maanden, aanzienlijk sneller dan de hardwarewinsten volgens de Wet van Moore. We schatten uitgebreide schaalwetten in, waarmee we algoritmische vooruitgang kunnen kwantificeren en de relatieve bijdragen van het schalen van modellen versus innovaties in trainingsalgoritmen kunnen bepalen. Ondanks het snelle tempo van algoritmische vooruitgang en de ontwikkeling van nieuwe architecturen zoals de transformer, toont onze analyse aan dat de toename in rekenkracht een nog grotere bijdrage heeft geleverd aan de algehele prestatieverbeteringen in deze periode. Hoewel beperkt door ruis in benchmarkgegevens, kwantificeert onze analyse de snelle vooruitgang in taalmodelering en werpt het licht op de relatieve bijdragen van rekenkracht en algoritmen.
De komst van Sora markeert een nieuw tijdperk voor tekst-naar-video diffusiemodellen, met aanzienlijke vooruitgang in videogeneratie en potentiële toepassingen. Echter, Sora, evenals andere tekst-naar-video diffusiemodellen, is sterk afhankelijk van de prompts, en er is geen publiek beschikbare dataset die een studie van tekst-naar-video prompts omvat. In dit artikel introduceren we VidProM, de eerste grootschalige dataset die bestaat uit 1,67 miljoen unieke tekst-naar-video prompts van echte gebruikers. Daarnaast bevat de dataset 6,69 miljoen video's gegenereerd door vier state-of-the-art diffusiemodellen en enkele gerelateerde gegevens. We tonen aanvankelijk de samenstelling van deze grootschalige dataset, wat een tijdrovend en kostbaar proces is. Vervolgens laten we zien hoe de voorgestelde VidProM verschilt van DiffusionDB, een grootschalige prompt-galerij dataset voor beeldgeneratie. Op basis van de analyse van deze prompts identificeren we de noodzaak voor een nieuwe prompt dataset die specifiek is ontworpen voor tekst-naar-video generatie en krijgen we inzicht in de voorkeuren van echte gebruikers bij het maken van video's. Onze grootschalige en diverse dataset inspireert ook veel nieuwe onderzoeksgebieden. Om bijvoorbeeld betere, efficiëntere en veiligere tekst-naar-video diffusiemodellen te ontwikkelen, stellen we voor om tekst-naar-video prompt engineering, efficiënte videogeneratie en videokopie-detectie voor diffusiemodellen te verkennen. We maken de verzamelde dataset VidProM publiekelijk beschikbaar op GitHub en Hugging Face onder de CC-BY-NC 4.0 Licentie.
Diffusiemodellen zijn relatief eenvoudig te trainen, maar vereisen veel stappen om samples te genereren. Consistentiemodellen zijn aanzienlijk moeilijker te trainen, maar genereren samples in één enkele stap. In dit artikel introduceren we Multistep Consistency Models: een unificatie tussen Consistentiemodellen (Song et al., 2023) en TRACT (Berthelot et al., 2023) die kan interpoleren tussen een consistentiemodel en een diffusiemodel: een afweging tussen sample-snelheid en sample-kwaliteit. Specifiek is een 1-staps consistentiemodel een conventioneel consistentiemodel, terwijl we aantonen dat een ∞-staps consistentiemodel een diffusiemodel is. Multistep Consistency Models presteren uitstekend in de praktijk. Door het sample-budget te verhogen van één stap naar 2-8 stappen, kunnen we modellen gemakkelijker trainen die hogere kwaliteitssamples genereren, terwijl veel van de voordelen van de sample-snelheid behouden blijven. Opmerkelijke resultaten zijn een FID van 1,4 op Imagenet 64 in 8 stappen en een FID van 2,1 op Imagenet128 in 8 stappen met consistentiedistillatie. We laten ook zien dat onze methode schaalbaar is naar een tekst-naar-beeld diffusiemodel, waarbij samples worden gegenereerd die zeer dicht in de buurt komen van de kwaliteit van het originele model.
Onderwerpgestuurde generatie heeft recentelijk aanzienlijke belangstelling gekregen vanwege het vermogen om tekst-naar-beeldgeneratie te personaliseren. Typische werken richten zich op het leren van de privé-attributen van het nieuwe onderwerp. Een belangrijk feit is echter niet serieus genomen, namelijk dat een onderwerp geen geïsoleerd nieuw concept is, maar een specialisatie zou moeten zijn van een bepaalde categorie in het vooraf getrainde model. Dit resulteert erin dat het onderwerp niet volledig de attributen van zijn categorie erft, wat leidt tot slechte attribuutgerelateerde generaties. In dit artikel, geïnspireerd door objectgeoriënteerd programmeren, modelleren we het onderwerp als een afgeleide klasse waarvan de basisklasse zijn semantische categorie is. Deze modellering stelt het onderwerp in staat om publieke attributen van zijn categorie te erven, terwijl het zijn privé-attributen leert van het door de gebruiker geleverde voorbeeld. Specifiek stellen we een plug-and-play methode voor, Subject-Derived regularisatie (SuDe). Het construeert de basis-afgeleide klasse modellering door de onderwerpgestuurde gegenereerde afbeeldingen te beperken tot semantisch behorend tot de categorie van het onderwerp. Uitgebreide experimenten onder drie basislijnen en twee backbones op verschillende onderwerpen tonen aan dat onze SuDe imaginatieve attribuutgerelateerde generaties mogelijk maakt terwijl de onderwerptrouw wordt behouden. De code zal binnenkort open source worden gemaakt op FaceChain (https://github.com/modelscope/facechain).