HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

9 papers found

Een deel van een productietaalmodel stelen
Stealing Part of a Production Language Model

Mar 11

ByNicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramèr

We introduceren de eerste model-diefstal aanval die precieze, niet-triviale informatie extraheert uit black-box productie-taalmodellen zoals OpenAI's ChatGPT of Google's PaLM-2. Specifiek herstelt onze aanval de embedding-projectielaag (op symmetrieën na) van een transformer-model, gegeven typische API-toegang. Voor minder dan $20 USD extraheert onze aanval de volledige projectiematrix van OpenAI's Ada- en Babbage-taalmodellen. Hiermee bevestigen we voor het eerst dat deze black-box-modellen een verborgen dimensie hebben van respectievelijk 1024 en 2048. We herstellen ook de exacte grootte van de verborgen dimensie van het gpt-3.5-turbo model, en schatten in dat het minder dan $2000 aan queries zou kosten om de volledige projectiematrix te herstellen. We sluiten af met mogelijke verdedigings- en mitigatiestrategieën, en bespreken de implicaties van mogelijk toekomstig werk dat onze aanval zou kunnen uitbreiden.

Het toevoegen van NVMe SSD's om het finetunen van 100B-modellen op een enkele GPU mogelijk te maken en te versnellen.
Adding NVMe SSDs to Enable and Accelerate 100B Model Fine-tuning on a Single GPU

Mar 11

ByChangyue Liao, Mo Sun, Zihan Yang, Kaiqi Chen, Binhang Yuan, Fei Wu, Zeke Wang

Recente vooruitgang in grote taalmodellen heeft enorme waarde gebracht aan de wereld, met hun superieure capaciteiten die voortkomen uit het enorme aantal parameters dat ze gebruiken. Echter, zelfs de GPU's met de hoogste geheugencapaciteiten, die momenteel een maximum van 80GB bereiken, zijn lang niet voldoende om deze enorme parameters en hun bijbehorende optimizerstatussen te accommoderen bij het uitvoeren van stochastische gradiëntdaling-gebaseerde optimalisatie. Een benadering om dergelijke enorme modellen te hosten, is het samenvoegen van apparaatgeheugen van veel GPU's. Deze benadering brengt echter onoverkomelijke kosten met zich mee voor de meeste academische onderzoekers, die altijd een beperkt budget hebben voor veel high-end GPU-servers. In dit artikel richten we ons op het finetunen van enorme modellen op een enkele, zelfs low-end, GPU in een standaard server, die toegankelijk is voor de meeste AI-onderzoekers. In een dergelijk scenario lijdt het state-of-the-art werk ZeRO-Infinity aan twee ernstige problemen bij het draaien op een standaard server: 1) lage GPU-utilisatie door inefficiënt swappen, en 2) beperkte trainbare modelgrootte door CPU-geheugencapaciteit. De onderliggende reden is dat ZeRO-Infinity is geoptimaliseerd voor het draaien op high-end GPU-servers. Daarom presenteren we Fuyou, een low-cost trainingsframework dat efficiënt finetunen van 100B enorme modellen mogelijk maakt op een low-end server met een low-end GPU en beperkte CPU-geheugencapaciteit. Het kernidee is om de SSD-CPU-communicatie toe te voegen als een optimalisatiedimensie en zo zorgvuldig berekening en data-swapping te co-optimaliseren vanuit een systematische benadering om GPU-utilisatie te maximaliseren. De experimentele resultaten tonen aan dat 1) Fuyou in staat is om 175B GPT-3 te finetunen op een consumenten-GPU RTX 4090 met hoge GPU-utilisatie, terwijl ZeRO-Infinity hierin faalt; en 2) bij het trainen van een klein GPT-3 13B-model, Fuyou 156 TFLOPS bereikt op een RTX 4090 GPU, terwijl ZeRO-Infinity slechts 45 TFLOPS bereikt.

V3D: Videodiffusiemodellen zijn effectieve 3D-generatoren
V3D: Video Diffusion Models are Effective 3D Generators

Mar 11

ByZilong Chen, Yikai Wang, Feng Wang, Zhengyi Wang, Huaping Liu

Automatische 3D-generatie heeft recentelijk veel aandacht getrokken. Recente methoden hebben de generatiesnelheid aanzienlijk versneld, maar produceren meestal minder gedetailleerde objecten vanwege beperkte modelcapaciteit of 3D-data. Geïnspireerd door recente vooruitgang in videodiffusiemodellen, introduceren we V3D, dat gebruikmaakt van de wereldsimulatiecapaciteit van vooraf getrainde videodiffusiemodellen om 3D-generatie te vergemakkelijken. Om het volledige potentieel van videodiffusie voor het waarnemen van de 3D-wereld te benutten, introduceren we verder een geometrische consistentieprior en breiden we het videodiffusiemodel uit naar een multi-view consistent 3D-generator. Hierdoor kan het state-of-the-art videodiffusiemodel worden afgestemd om 360-graden orbitframes rond een object te genereren op basis van een enkele afbeelding. Met onze op maat gemaakte reconstructiepijplijnen kunnen we hoogwaardige meshes of 3D-Gaussians genereren binnen 3 minuten. Bovendien kan onze methode worden uitgebreid naar scene-level novel view synthesis, waarbij precieze controle over het camerapad wordt bereikt met spaarzame invoerweergaven. Uitgebreide experimenten tonen de superieure prestaties van de voorgestelde aanpak aan, vooral wat betreft generatiekwaliteit en multi-view consistentie. Onze code is beschikbaar op https://github.com/heheyas/V3D.

VideoMamba: State Space Model voor Efficiënte Videobegrip
VideoMamba: State Space Model for Efficient Video Understanding

Mar 11

ByKunchang Li, Xinhao Li, Yi Wang, Yinan He, Yali Wang, Limin Wang, Yu Qiao

Het aanpakken van de dubbele uitdagingen van lokale redundantie en globale afhankelijkheden in videobegrip, past dit werk innovatief de Mamba aan voor het videodomein. De voorgestelde VideoMamba overwint de beperkingen van bestaande 3D-convolutionele neurale netwerken en videotransformers. De lineaire complexiteit van de operator maakt efficiënte modellering op lange termijn mogelijk, wat cruciaal is voor het begrijpen van lange video's met hoge resolutie. Uitgebreide evaluaties onthullen vier kernvaardigheden van VideoMamba: (1) Schaalbaarheid in het visuele domein zonder uitgebreide voorafgaande training van datasets, dankzij een nieuwe zelfdistillatietechniek; (2) Gevoeligheid voor het herkennen van kortetermijnacties, zelfs bij fijnmazige bewegingsverschillen; (3) Superioriteit in het begrijpen van lange video's, met aanzienlijke vooruitgang ten opzichte van traditionele op kenmerken gebaseerde modellen; en (4) Compatibiliteit met andere modaliteiten, wat robuustheid aantoont in multimodale contexten. Door deze onderscheidende voordelen stelt VideoMamba een nieuwe standaard voor videobegrip en biedt het een schaalbare en efficiënte oplossing voor uitgebreid videobegrip. Alle code en modellen zijn beschikbaar op https://github.com/OpenGVLab/VideoMamba.

Een Afbeelding is 1/2 Tokens Waard Na Laag 2: Plug-and-Play Inferentieversnelling voor Grote Vision-Language Modellen
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

Mar 11

ByLiang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin, Chang Zhou, Baobao Chang

In deze studie identificeren we de inefficiënte aandachtverschijnselen in Grote Visueel-Taalmodellen (LVLMs), met name in prominente modellen zoals LLaVA-1.5, QwenVL-Chat en Video-LLaVA. We ontdekken dat de aandachtberekening over visuele tokens extreem inefficiënt is in de diepe lagen van populaire LVLMs, wat suggereert dat een spaarzamere aanpak nodig is in vergelijking met de verwerking van tekstuele gegevens. Hiertoe introduceren we FastV, een veelzijdige plug-and-play methode die is ontworpen om de computationele efficiëntie te optimaliseren door adaptieve aandachtpatronen in vroege lagen te leren en visuele tokens in latere lagen te snoeien. Onze evaluaties tonen aan dat FastV in staat is om de computationele kosten drastisch te verminderen (bijvoorbeeld een reductie van 45 in FLOPs voor LLaVA-1.5-13B) zonder in te leveren op prestaties in een breed scala aan beeld- en videobegriptaken. De afweging tussen computationele efficiëntie en prestaties van FastV is zeer aanpasbaar en pareto-efficiënt. Het kan de FLOPs van een model met 13B parameters comprimeren om een lager budget te bereiken dan dat van een model met 7B parameters, terwijl het nog steeds superieure prestaties behoudt. Wij geloven dat FastV praktische waarden heeft voor de implementatie van LVLMs in edge-apparaten en commerciële modellen. De code is vrijgegeven op https://github.com/pkunlp-icler/FastV.

Algorithmische vooruitgang in taalmodelle
Algorithmic progress in language models

Mar 9

ByAnson Ho, Tamay Besiroglu, Ege Erdil, David Owen, Robi Rahman, Zifan Carl Guo, David Atkinson, Neil Thompson, Jaime Sevilla

We onderzoeken de snelheid waarmee algoritmen voor het vooraf trainen van taalmodelen zijn verbeterd sinds de opkomst van deep learning. Met behulp van een dataset van meer dan 200 evaluaties van taalmodelen op Wikitext en Penn Treebank uit de periode 2012-2023, constateren we dat de benodigde rekenkracht om een bepaalde prestatiegrens te bereiken ongeveer elke 8 maanden is gehalveerd, met een 95% betrouwbaarheidsinterval van ongeveer 5 tot 14 maanden, aanzienlijk sneller dan de hardwarewinsten volgens de Wet van Moore. We schatten uitgebreide schaalwetten in, waarmee we algoritmische vooruitgang kunnen kwantificeren en de relatieve bijdragen van het schalen van modellen versus innovaties in trainingsalgoritmen kunnen bepalen. Ondanks het snelle tempo van algoritmische vooruitgang en de ontwikkeling van nieuwe architecturen zoals de transformer, toont onze analyse aan dat de toename in rekenkracht een nog grotere bijdrage heeft geleverd aan de algehele prestatieverbeteringen in deze periode. Hoewel beperkt door ruis in benchmarkgegevens, kwantificeert onze analyse de snelle vooruitgang in taalmodelering en werpt het licht op de relatieve bijdragen van rekenkracht en algoritmen.

VidProM: Een miljoen-schaal echte prompt-galerij dataset voor tekst-naar-video diffusiemodellen
VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models

Mar 10

ByWenhao Wang, Yi Yang

De komst van Sora markeert een nieuw tijdperk voor tekst-naar-video diffusiemodellen, met aanzienlijke vooruitgang in videogeneratie en potentiële toepassingen. Echter, Sora, evenals andere tekst-naar-video diffusiemodellen, is sterk afhankelijk van de prompts, en er is geen publiek beschikbare dataset die een studie van tekst-naar-video prompts omvat. In dit artikel introduceren we VidProM, de eerste grootschalige dataset die bestaat uit 1,67 miljoen unieke tekst-naar-video prompts van echte gebruikers. Daarnaast bevat de dataset 6,69 miljoen video's gegenereerd door vier state-of-the-art diffusiemodellen en enkele gerelateerde gegevens. We tonen aanvankelijk de samenstelling van deze grootschalige dataset, wat een tijdrovend en kostbaar proces is. Vervolgens laten we zien hoe de voorgestelde VidProM verschilt van DiffusionDB, een grootschalige prompt-galerij dataset voor beeldgeneratie. Op basis van de analyse van deze prompts identificeren we de noodzaak voor een nieuwe prompt dataset die specifiek is ontworpen voor tekst-naar-video generatie en krijgen we inzicht in de voorkeuren van echte gebruikers bij het maken van video's. Onze grootschalige en diverse dataset inspireert ook veel nieuwe onderzoeksgebieden. Om bijvoorbeeld betere, efficiëntere en veiligere tekst-naar-video diffusiemodellen te ontwikkelen, stellen we voor om tekst-naar-video prompt engineering, efficiënte videogeneratie en videokopie-detectie voor diffusiemodellen te verkennen. We maken de verzamelde dataset VidProM publiekelijk beschikbaar op GitHub en Hugging Face onder de CC-BY-NC 4.0 Licentie.

Meerstaps Consistentiemodellen
Multistep Consistency Models

Mar 11

ByJonathan Heek, Emiel Hoogeboom, Tim Salimans

Diffusiemodellen zijn relatief eenvoudig te trainen, maar vereisen veel stappen om samples te genereren. Consistentiemodellen zijn aanzienlijk moeilijker te trainen, maar genereren samples in één enkele stap. In dit artikel introduceren we Multistep Consistency Models: een unificatie tussen Consistentiemodellen (Song et al., 2023) en TRACT (Berthelot et al., 2023) die kan interpoleren tussen een consistentiemodel en een diffusiemodel: een afweging tussen sample-snelheid en sample-kwaliteit. Specifiek is een 1-staps consistentiemodel een conventioneel consistentiemodel, terwijl we aantonen dat een ∞-staps consistentiemodel een diffusiemodel is. Multistep Consistency Models presteren uitstekend in de praktijk. Door het sample-budget te verhogen van één stap naar 2-8 stappen, kunnen we modellen gemakkelijker trainen die hogere kwaliteitssamples genereren, terwijl veel van de voordelen van de sample-snelheid behouden blijven. Opmerkelijke resultaten zijn een FID van 1,4 op Imagenet 64 in 8 stappen en een FID van 2,1 op Imagenet128 in 8 stappen met consistentiedistillatie. We laten ook zien dat onze methode schaalbaar is naar een tekst-naar-beeld diffusiemodel, waarbij samples worden gegenereerd die zeer dicht in de buurt komen van de kwaliteit van het originele model.

FaceChain-SuDe: Het bouwen van een afgeleide klasse om categorie-attributen te erven voor one-shot onderwerpgestuurde generatie
FaceChain-SuDe: Building Derived Class to Inherit Category Attributes for One-shot Subject-Driven Generation

Mar 11

ByPengchong Qiao, Lei Shang, Chang Liu, Baigui Sun, Xiangyang Ji, Jie Chen

Onderwerpgestuurde generatie heeft recentelijk aanzienlijke belangstelling gekregen vanwege het vermogen om tekst-naar-beeldgeneratie te personaliseren. Typische werken richten zich op het leren van de privé-attributen van het nieuwe onderwerp. Een belangrijk feit is echter niet serieus genomen, namelijk dat een onderwerp geen geïsoleerd nieuw concept is, maar een specialisatie zou moeten zijn van een bepaalde categorie in het vooraf getrainde model. Dit resulteert erin dat het onderwerp niet volledig de attributen van zijn categorie erft, wat leidt tot slechte attribuutgerelateerde generaties. In dit artikel, geïnspireerd door objectgeoriënteerd programmeren, modelleren we het onderwerp als een afgeleide klasse waarvan de basisklasse zijn semantische categorie is. Deze modellering stelt het onderwerp in staat om publieke attributen van zijn categorie te erven, terwijl het zijn privé-attributen leert van het door de gebruiker geleverde voorbeeld. Specifiek stellen we een plug-and-play methode voor, Subject-Derived regularisatie (SuDe). Het construeert de basis-afgeleide klasse modellering door de onderwerpgestuurde gegenereerde afbeeldingen te beperken tot semantisch behorend tot de categorie van het onderwerp. Uitgebreide experimenten onder drie basislijnen en twee backbones op verschillende onderwerpen tonen aan dat onze SuDe imaginatieve attribuutgerelateerde generaties mogelijk maakt terwijl de onderwerptrouw wordt behouden. De code zal binnenkort open source worden gemaakt op FaceChain (https://github.com/modelscope/facechain).

Het toevoegen van NVMe SSD's om het finetunen van 100B-modellen op een enkele GPU mogelijk te maken en te versnellen.
Adding NVMe SSDs to Enable and Accelerate 100B Model Fine-tuning on a Single GPU

Mar 11

ByChangyue Liao, Mo Sun, Zihan Yang, Kaiqi Chen, Binhang Yuan, Fei Wu, Zeke Wang