Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Text-to-image diffusiemodellen hebben de afgelopen jaren een opmerkelijke vooruitgang geboekt, waardoor hoogwaardige en diverse synthese van afbeeldingen vanuit een tekstuele prompt mogelijk is geworden. Toch hebben zelfs de meest geavanceerde modellen vaak moeite om alle aanwijzingen in hun prompts nauwkeurig te volgen. De overgrote meerderheid van deze modellen wordt getraind op datasets die bestaan uit (afbeelding, bijschrift)-paren, waarbij de afbeeldingen vaak van het web komen en de bijschriften hun HTML-alternatieve tekst zijn. Een opvallend voorbeeld is de LAION-dataset, die wordt gebruikt door Stable Diffusion en andere modellen. In dit werk observeren we dat deze bijschriften vaak van lage kwaliteit zijn, en we beargumenteren dat dit de mogelijkheid van het model om genuanceerde semantiek in de tekstuele prompts te begrijpen aanzienlijk beïnvloedt. We laten zien dat door het herlabelen van het corpus met een gespecialiseerd automatisch bijschriftmodel en het trainen van een text-to-image model op de herschreven dataset, het model aanzienlijk verbetert op alle fronten. Ten eerste in de algehele beeldkwaliteit: bijvoorbeeld FID 14,84 versus de baseline van 17,87, en een verbetering van 64,3% in getrouwe beeldgeneratie volgens menselijke evaluatie. Ten tweede in semantische uitlijning, bijvoorbeeld semantische objectnauwkeurigheid 84,34 versus 78,90, teluitlijningsfouten 1,32 versus 1,44 en positionele uitlijning 62,42 versus 57,60. We analyseren verschillende manieren om het corpus opnieuw te labelen en leveren bewijs dat deze techniek, die we RECAP noemen, zowel de discrepantie tussen training en inferentie vermindert als het model meer informatie per voorbeeld biedt, waardoor de steekproefficiëntie toeneemt en het model de relaties tussen bijschriften en afbeeldingen beter kan begrijpen.
We stellen een dataset samen van Creative-Commons-gelicentieerde (CC) afbeeldingen, die we gebruiken om een reeks open diffusion-modellen te trainen die kwalitatief vergelijkbaar zijn met Stable Diffusion 2 (SD2). Deze taak brengt twee uitdagingen met zich mee: (1) hoge-resolutie CC-afbeeldingen missen de bijschriften die nodig zijn om tekst-naar-afbeelding generatieve modellen te trainen; (2) CC-afbeeldingen zijn relatief schaars. Om deze uitdagingen aan te pakken, gebruiken we een intuïtieve transfer learning-techniek om een set hoogwaardige synthetische bijschriften te produceren die gekoppeld zijn aan gecureerde CC-afbeeldingen. Vervolgens ontwikkelen we een data- en rekenkundig efficiënt trainingsrecept dat slechts 3% van de LAION-2B-gegevens nodig heeft die vereist zijn voor het trainen van bestaande SD2-modellen, maar toch vergelijkbare kwaliteit behaalt. Deze resultaten geven aan dat we een voldoende aantal CC-afbeeldingen (~70 miljoen) hebben voor het trainen van hoogwaardige modellen. Ons trainingsrecept implementeert ook een verscheidenheid aan optimalisaties die een ~3X snellere trainingssnelheid bereiken, waardoor snelle modeliteratie mogelijk wordt. We benutten dit recept om verschillende hoogwaardige tekst-naar-afbeelding modellen te trainen, die we de CommonCanvas-familie noemen. Ons grootste model bereikt vergelijkbare prestaties als SD2 in een menselijke evaluatie, ondanks dat het getraind is op onze CC-dataset die aanzienlijk kleiner is dan LAION en synthetische bijschriften gebruikt voor de training. We geven onze modellen, data en code vrij op https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.
We presenteren DreamCraft3D, een hiërarchische methode voor 3D-contentgeneratie die hoogwaardige en samenhangende 3D-objecten produceert. We benaderen het probleem door een 2D-referentiebeeld te gebruiken om de fasen van geometrie-sculpting en textuurverbetering te begeleiden. Een centrale focus van dit werk is het aanpakken van het consistentieprobleem waar bestaande methoden tegenaan lopen. Om geometrieën te sculpturen die samenhangend renderen, voeren we score-distillatie-sampling uit via een view-dependent diffusiemodel. Deze 3D-prioriteit, samen met verschillende trainingsstrategieën, benadrukt de geometrieconsistentie maar gaat ten koste van de textuurgetrouwheid. We stellen verder Bootstrapped Score Distillation voor om specifiek de textuur te verbeteren. We trainen een gepersonaliseerd diffusiemodel, Dreambooth, op de geaugmenteerde renderings van de scène, waardoor het 3D-kennis krijgt van de scène die wordt geoptimaliseerd. De score-distillatie vanuit deze 3D-bewuste diffusieprior biedt view-consistente begeleiding voor de scène. Opmerkelijk is dat we door een afwisselende optimalisatie van de diffusieprior en de 3D-scène-representatie wederzijds versterkende verbeteringen bereiken: de geoptimaliseerde 3D-scène helpt bij het trainen van het scènespecifieke diffusiemodel, dat steeds view-consistenter begeleiding biedt voor 3D-optimalisatie. De optimalisatie wordt zo gebootstrapt en leidt tot aanzienlijke textuurverbetering. Met op maat gemaakte 3D-prioriteiten gedurende de hiërarchische generatie, genereert DreamCraft3D samenhangende 3D-objecten met fotorealistische renderings, wat de stand van de techniek in 3D-contentgeneratie vooruithelpt. Code beschikbaar op https://github.com/deepseek-ai/DreamCraft3D.
Mixture-of-Experts (MoE)-architecturen bieden een algemene oplossing voor de hoge inferentiekosten van grote taalmodellen (LLMs) via sparse routing, waardoor snellere en nauwkeurigere modellen mogelijk worden, ten koste van enorme aantallen parameters. Het SwitchTransformer-c2048-model heeft bijvoorbeeld 1,6 biljoen parameters en vereist 3,2TB acceleratorgeheugen om efficiënt te draaien, wat praktische implementatie uitdagend en kostbaar maakt. In dit artikel presenteren we een oplossing voor dit geheugenprobleem in de vorm van een nieuw compressie- en uitvoeringsframework genaamd QMoE. Specifiek bestaat QMoE uit een schaalbaar algoritme dat MoE's met biljoenen parameters nauwkeurig comprimeert tot minder dan 1 bit per parameter, in een aangepast formaat dat samen met op maat gemaakte GPU-decodeerkernels is ontworpen om efficiënte end-to-end gecomprimeerde inferentie mogelijk te maken, met minimale runtime-overhead ten opzichte van ongecomprimeerde uitvoering. Concreet kan QMoE het SwitchTransformer-c2048-model met 1,6 biljoen parameters comprimeren tot minder dan 160GB (20x compressie, 0,8 bits per parameter) met slechts een gering verlies aan nauwkeurigheid, in minder dan een dag op een enkele GPU. Dit maakt voor het eerst de uitvoering van een model met biljoenen parameters mogelijk op betaalbare standaardhardware, zoals een enkele server met 4x NVIDIA A6000 of 8x NVIDIA 3090 GPU's, met minder dan 5% runtime-overhead ten opzichte van ideale ongecomprimeerde inferentie. De broncode en gecomprimeerde modellen zijn beschikbaar op github.com/IST-DASLab/qmoe.
In dit werk introduceren we Wonder3D, een nieuwe methode voor het efficiënt genereren van hoogwaardige textuurmeshes vanuit enkelvoudige beeldweergaven. Recente methoden gebaseerd op Score Distillation Sampling (SDS) hebben het potentieel getoond om 3D-geometrie te herstellen vanuit 2D-diffusieprioriteiten, maar ze lijden doorgaans aan tijdrovende optimalisatie per vorm en inconsistente geometrie. Daarentegen produceren bepaalde werken direct 3D-informatie via snelle netwerkinferenties, maar hun resultaten zijn vaak van lage kwaliteit en missen geometrische details. Om de kwaliteit, consistentie en efficiëntie van beeld-naar-3D-taken holistisch te verbeteren, stellen we een cross-domein diffusiemodel voor dat multi-view normal maps en de bijbehorende kleurenafbeeldingen genereert. Om consistentie te waarborgen, gebruiken we een multi-view cross-domein aandachtmechanisme dat informatie-uitwisseling tussen verschillende weergaven en modaliteiten vergemakkelijkt. Tot slot introduceren we een geometrie-bewust normaal fusie-algoritme dat hoogwaardige oppervlakken extraheert uit de multi-view 2D-representaties. Onze uitgebreide evaluaties tonen aan dat onze methode hoogwaardige reconstructieresultaten, robuuste generalisatie en redelijk goede efficiëntie bereikt in vergelijking met eerdere werken.
In dit artikel evalueren we verschillende vaardigheden van GPT-4V, waaronder visueel begrip, taalbegrip, het oplossen van visuele puzzels, en het begrijpen van andere modaliteiten zoals diepte, thermisch, video en audio. Om de prestaties van GPT-4V te schatten, hebben we handmatig 656 testgevallen geconstrueerd en de resultaten van GPT-4V zorgvuldig geëvalueerd. De belangrijkste bevindingen zijn als volgt: (1) GPT-4V vertoont indrukwekkende prestaties op Engelstalige visueel gerichte benchmarks, maar slaagt er niet in eenvoudige Chinese teksten in afbeeldingen te herkennen; (2) GPT-4V toont inconsistent weigeringsgedrag bij het beantwoorden van vragen over gevoelige kenmerken zoals geslacht, ras en leeftijd; (3) GPT-4V behaalt slechtere resultaten dan GPT-4 (API) op taken voor taalbegrip, waaronder algemene taalbegripbenchmarks en benchmarks voor visueel gezond verstand; (4) Few-shot prompting kan de prestaties van GPT-4V verbeteren op zowel visueel begrip als taalbegrip; (5) GPT-4V heeft moeite om de nuances tussen twee vergelijkbare afbeeldingen te vinden en eenvoudige wiskundige beeldpuzzels op te lossen; (6) GPT-4V toont aanzienlijke prestaties op taken met modaliteiten die vergelijkbaar zijn met afbeeldingen, zoals video en thermisch. Onze experimentele resultaten onthullen de mogelijkheden en beperkingen van GPT-4V, en we hopen dat ons artikel inzichten kan bieden voor de toepassing en het onderzoek van GPT-4V.
Veel onderzoekers zijn van mening dat ConvNets goed presteren op kleine of middelgrote datasets, maar niet kunnen concurreren met Vision Transformers wanneer ze toegang hebben tot datasets op web-schaal. We dagen deze overtuiging uit door een performante ConvNet-architectuur te evalueren die vooraf is getraind op JFT-4B, een grote gelabelde dataset van afbeeldingen die vaak wordt gebruikt voor het trainen van foundation-modellen. We beschouwen rekenbudgetten voor voorafgaande training tussen 0,4k en 110k TPU-v4 core-rekenuren, en trainen een reeks netwerken met toenemende diepte en breedte uit de NFNet-model familie. We observeren een log-log schaalwet tussen de uitgesloten verliesfunctie en het rekenbudget. Na fine-tuning op ImageNet, evenaren NFNets de gerapporteerde prestaties van Vision Transformers met vergelijkbare rekenbudgetten. Ons sterkste fine-tuned model behaalt een Top-1 nauwkeurigheid van 90,4%.
Wij stellen LLM-FP4 voor voor het kwantiseren van zowel gewichten als activaties in grote taalmodelen (LLMs) tot 4-bit floating-point waarden, op een post-training manier. Bestaande post-training kwantisatie (PTQ) oplossingen zijn voornamelijk gebaseerd op gehele getallen en hebben moeite met bitbreedtes onder de 8 bits. In vergelijking met kwantisatie van gehele getallen, is floating-point (FP) kwantisatie flexibeler en kan het beter omgaan met lange-staart of klokvormige verdelingen, en het is uitgegroeid tot een standaardkeuze in veel hardwareplatforms. Een kenmerk van FP-kwantisatie is dat de prestaties grotendeels afhangen van de keuze van exponentbits en het afkappbereik. In dit opzicht construeren we een sterke FP-PTQ basislijn door te zoeken naar de optimale kwantisatieparameters. Bovendien observeren we een patroon van hoge inter-kanaal variantie en lage intra-kanaal variantie in activatieverdelingen, wat de kwantisatie van activaties bemoeilijkt. We herkennen dit patroon als consistent over een spectrum van transformermodellen die ontworpen zijn voor diverse taken, zoals LLMs, BERT, en Vision Transformer modellen. Om dit aan te pakken, stellen we per-kanaal activatiekwantisatie voor en laten we zien dat deze aanvullende schalingsfactoren kunnen worden herparameteriseerd als exponentiële biases van gewichten, wat een verwaarloosbare kost met zich meebrengt. Onze methode kan voor het eerst zowel gewichten als activaties in de LLaMA-13B kwantiseren tot slechts 4-bit en behaalt een gemiddelde score van 63.1 op de common sense zero-shot redeneertaken, wat slechts 5.8 lager is dan het full-precision model, en significant beter presteert dan de vorige state-of-the-art met 12.7 punten. Code is beschikbaar op: https://github.com/nbasyl/LLM-FP4.
Hoewel grote taalmodellen (LLM's) op grote schaal worden ingezet, worden de gegevens die gebruikt worden om ze te trainen zelden vrijgegeven. Gezien de ongelooflijke omvang van deze gegevens, tot wel biljoenen tokens, is het vrijwel zeker dat deze potentieel problematische tekst bevatten, zoals auteursrechtelijk beschermd materiaal, persoonlijk identificeerbare informatie en testgegevens voor veelgerapporteerde referentiebenchmarks. We hebben echter momenteel geen manier om te weten welke gegevens van deze typen zijn opgenomen of in welke verhoudingen. In dit artikel bestuderen we het probleem van het detecteren van pretrainingsgegevens: gegeven een stuk tekst en black-box toegang tot een LLM zonder kennis van de pretrainingsgegevens, kunnen we dan bepalen of het model getraind is op de aangeboden tekst? Om deze studie te faciliteren, introduceren we een dynamische benchmark WIKIMIA die gegevens gebruikt die voor en na de modeltraining zijn gemaakt om gouden waarheidsdetectie te ondersteunen. We introduceren ook een nieuwe detectiemethode Min-K% Prob, gebaseerd op een eenvoudige hypothese: een onbekend voorbeeld zal waarschijnlijk een paar uitschieters bevatten met lage kansen onder het LLM, terwijl een bekend voorbeeld minder waarschijnlijk woorden met zulke lage kansen zal bevatten. Min-K% Prob kan worden toegepast zonder enige kennis over het pretrainingscorpus of aanvullende training, wat afwijkt van eerdere detectiemethoden die training vereisen van een referentiemodel op gegevens die vergelijkbaar zijn met de pretrainingsgegevens. Bovendien tonen onze experimenten aan dat Min-K% Prob een verbetering van 7,4% op WIKIMIA bereikt ten opzichte van deze eerdere methoden. We passen Min-K% Prob toe op twee real-world scenario's, detectie van auteursrechtelijk beschermde boeken en detectie van verontreinigde downstream-voorbeelden, en vinden het een consistent effectieve oplossing.
Transformer-gebaseerde Large Language Models (LLMs) zijn baanbrekende vooruitgangen in veel natuurlijke taalverwerkingstaken, maar hun uitzonderlijke mogelijkheden zijn beperkt binnen het vooraf ingestelde contextvenster van de Transformer. Position Embedding (PE) schaalingsmethoden, hoewel effectief in het uitbreiden van het contextvenster tot een specifieke lengte, vertonen ofwel aanzienlijke beperkingen in hun extrapolatievermogen of offeren gedeeltelijke prestaties binnen het contextvenster op. Lengte-extrapolatiemethoden, hoewel theoretisch in staat om het contextvenster voorbij de trainingssequentielengte uit te breiden, presteren vaak ondermaats in praktische lange-contexttoepassingen. Om deze uitdagingen aan te pakken, stellen wij Continuous Length EXtrapolation (CLEX) voor voor LLMs. We generaliseren de PE-schalingbenaderingen om de continue dynamiek te modelleren door middel van gewone differentiaalvergelijkingen over de lengteschalingsfactor, waardoor de beperkingen van huidige PE-schalingmethoden die voor specifieke lengtes zijn ontworpen, worden overwonnen. Bovendien, door de dynamiek uit te breiden naar gewenste contextlengtes voorbij de trainingssequentielengte, vergemakkelijkt CLEX de lengte-extrapolatie met indrukwekkende prestaties in praktische taken. We tonen aan dat CLEX naadloos kan worden geïntegreerd in LLMs uitgerust met Rotary Position Embedding, zoals LLaMA en GPT-NeoX, met een verwaarloosbare impact op de trainings- en inferentielatentie. Experimentele resultaten onthullen dat CLEX het contextvenster effectief kan uitbreiden tot meer dan 4x of bijna 8x de trainingslengte, zonder prestatieverlies. Bovendien, wanneer geëvalueerd op de praktische LongBench-benchmark, vertoont ons model getraind op een lengte van 4k competitieve prestaties ten opzichte van state-of-the-art open-source modellen getraind op contextlengtes tot 32k.
Het up-to-date houden van grote foundation-modellen met de nieuwste gegevens is inherent duur. Om de onbetaalbare kosten van voortdurende hertraining te vermijden, is het essentieel om deze modellen continu te trainen. Dit probleem wordt verergerd door het ontbreken van grootschalige benchmarks of referentiemodellen voor continu leren. Wij introduceren de eerste set van web-schaal Time-Continual (TiC) benchmarks voor het trainen van visie-taalmodellen: TiC-DataCompt, TiC-YFCC en TiC-RedCaps met meer dan 12,7 miljard getimestampte afbeelding-tekstparen over een periode van 9 jaar (2014–2022). We gebruiken onze benchmarks eerst om verschillende dynamische evaluaties samen te stellen om de temporele robuustheid van bestaande modellen te meten. We laten zien dat OpenAI's CLIP (getraind op gegevens tot 2020) ongeveer 8% zero-shot nauwkeurigheid verliest op onze samengestelde retrievaltaak van 2021–2022 in vergelijking met recenter getrainde modellen in de OpenCLIP-repository. Vervolgens bestuderen we hoe modellen efficiënt kunnen worden getraind op tijdcontinue gegevens. We tonen aan dat een eenvoudige rehearsal-gebaseerde aanpak, waarbij de training wordt voortgezet vanaf het laatste checkpoint en oude gegevens worden herhaald, de rekenkracht met 2,5 keer vermindert in vergelijking met de standaardpraktijk van hertraining vanaf nul.
TD-MPC is een modelgebaseerd reinforcement learning (RL)-algoritme dat lokale trajectoptimalisatie uitvoert in de latente ruimte van een geleerd impliciet (decoder-vrij) wereldmodel. In dit werk presenteren we TD-MPC2: een reeks verbeteringen ten opzichte van het TD-MPC-algoritme. We tonen aan dat TD-MPC2 aanzienlijk beter presteert dan de referentiemodellen over 104 online RL-taken, verdeeld over 4 diverse taakdomeinen, en consistent sterke resultaten behaalt met één set hyperparameters. We laten verder zien dat de capaciteiten van de agent toenemen met de grootte van het model en de hoeveelheid data, en trainen succesvol een enkele agent met 317M parameters om 80 taken uit te voeren over meerdere taakdomeinen, belichamingen en actieruimtes. We sluiten af met een overzicht van lessen, kansen en risico's die gepaard gaan met grote TD-MPC2-agenten. Bekijk video's, modellen, data, code en meer op https://nicklashansen.github.io/td-mpc2.
Real-time synthese van nieuwe beelden op mobiele apparaten is niet haalbaar vanwege de beperkte rekenkracht en opslagcapaciteit. Het gebruik van volumetrische weergavemethoden, zoals NeRF en zijn afgeleiden, is niet geschikt voor mobiele apparaten vanwege de hoge rekenkosten van volumetrische weergave. Aan de andere kant hebben recente vooruitgangen in neurale lichtveldrepresentaties veelbelovende resultaten laten zien voor real-time viewsynthese op mobiele apparaten. Neurale lichtveldmethoden leren een directe mapping van een straalrepresentatie naar de pixelkleur. De huidige keuze voor straalrepresentatie is ofwel gelaagde straalbemonstering of Pl\"{u}cker-coördinaten, waarbij de klassieke lichtplaat (twee-vlak) representatie, de voorkeursrepresentatie voor interpolatie tussen lichtveldbeelden, over het hoofd wordt gezien. In dit werk tonen we aan dat het gebruik van de lichtplaatrepresentatie een efficiënte representatie is voor het leren van een neurale lichtveld. Belangrijker nog, het is een lagere-dimensionale straalrepresentatie die ons in staat stelt de 4D straalruimte te leren met behulp van feature grids die aanzienlijk sneller te trainen en weer te geven zijn. Hoewel voornamelijk ontworpen voor frontale beelden, laten we zien dat de lichtplaatrepresentatie verder kan worden uitgebreid naar niet-frontale scènes met behulp van een verdeel-en-heersstrategie. Onze methode biedt een superieure weergavekwaliteit in vergelijking met eerdere lichtveldmethoden en bereikt een aanzienlijk verbeterde balans tussen weergavekwaliteit en snelheid.