Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De snelle ontwikkeling van open-source grote taalmodellen (LLM's) is werkelijk opmerkelijk. De schaalwetten die in eerdere literatuur worden beschreven, leiden echter tot uiteenlopende conclusies, wat een schaduw werpt op het schalen van LLM's. Wij verdiepen ons in de studie van schaalwetten en presenteren onze onderscheidende bevindingen die het schalen van grootschalige modellen in twee veelgebruikte open-source configuraties, 7B en 67B, vergemakkelijken. Geleid door de schaalwetten introduceren we DeepSeek LLM, een project dat zich toelegt op het bevorderen van open-source taalmodellen met een langetermijnperspectief. Om de pre-trainingsfase te ondersteunen, hebben we een dataset ontwikkeld die momenteel uit 2 biljoen tokens bestaat en voortdurend wordt uitgebreid. We voeren verder supervised fine-tuning (SFT) en Direct Preference Optimization (DPO) uit op de DeepSeek LLM Basismodellen, wat resulteert in de creatie van DeepSeek Chat-modellen. Onze evaluatieresultaten tonen aan dat DeepSeek LLM 67B LLaMA-2 70B overtreft op verschillende benchmarks, met name op het gebied van code, wiskunde en redeneren. Daarnaast laten open-eindevaluaties zien dat DeepSeek LLM 67B Chat superieure prestaties vertoont in vergelijking met GPT-3.5.
Vooruitgang in Visueel Rijk Documentbegrip (VrDU) heeft informatie-extractie en vraag-antwoordmogelijkheden over documenten met complexe lay-outs mogelijk gemaakt. Twee soorten architecturen zijn naar voren gekomen: transformer-gebaseerde modellen geïnspireerd door LLM's, en Grafische Neurale Netwerken. In dit artikel introduceren we DocGraphLM, een nieuw framework dat vooraf getrainde taalmodelen combineert met grafische semantiek. Om dit te bereiken, stellen we 1) een gezamenlijke encoder-architectuur voor om documenten te representeren, en 2) een nieuwe link-voorspellingsbenadering om documentgrafieken te reconstrueren. DocGraphLM voorspelt zowel richtingen als afstanden tussen knooppunten met behulp van een convergente gezamenlijke verliesfunctie die prioriteit geeft aan het herstel van de nabijheid en het detecteren van verre knooppunten verlaagt. Onze experimenten op drie SotA-datasets laten consistente verbeteringen zien in IE- en QA-taken met de adoptie van grafische kenmerken. Bovendien melden we dat het adopteren van de grafische kenmerken de convergentie in het leerproces tijdens de training versnelt, ondanks dat deze uitsluitend is geconstrueerd via link-voorspelling.
We verdiepen ons in een genuanceerd maar significant probleem dat inherent is aan Vision Transformers (ViTs): de feature maps van deze modellen vertonen rasterachtige artefacten, wat de prestaties van ViTs in downstream taken nadelig beïnvloedt. Ons onderzoek leidt dit fundamentele probleem terug naar de positionele embeddings in de invoerfase. Om dit aan te pakken, stellen we een nieuw ruismodel voor, dat universeel toepasbaar is op alle ViTs. Specifiek ontleedt het ruismodel de uitvoer van ViTs in drie componenten: een semantische term die vrij is van ruisartefacten en twee artefactgerelateerde termen die afhankelijk zijn van pixelposities. Een dergelijke decompositie wordt bereikt door cross-view feature consistentie af te dwingen met neurale velden op een per-image basis. Dit per-image optimalisatieproces haalt artefactvrije features uit de ruwe ViT-uitvoer, wat schone features oplevert voor offline toepassingen. Om onze oplossing uit te breiden naar online functionaliteit, introduceren we een leerbare denoiser om artefactvrije features direct uit onbewerkte ViT-uitvoer te voorspellen, wat opmerkelijke generalisatiecapaciteiten toont naar nieuwe data zonder de noodzaak van per-image optimalisatie. Onze tweefasenbenadering, genaamd Denoising Vision Transformers (DVT), vereist niet het opnieuw trainen van bestaande vooraf getrainde ViTs en is direct toepasbaar op elke Transformer-gebaseerde architectuur. We evalueren onze methode op een verscheidenheid aan representatieve ViTs (DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg). Uitgebreide evaluaties tonen aan dat onze DVT consistent en significant de bestaande state-of-the-art algemene modellen verbetert in semantische en geometrische taken over meerdere datasets (bijv., +3.84 mIoU). We hopen dat onze studie een herziening van het ViT-ontwerp zal aanmoedigen, met name wat betreft het naïeve gebruik van positionele embeddings.
Stable Diffusion XL (SDXL) is uitgegroeid tot het beste open-source tekst-naar-beeldmodel (T2I) vanwege zijn veelzijdigheid en uitstekende beeldkwaliteit. Het efficiënt aanpakken van de rekenkundige eisen van SDXL-modellen is cruciaal voor een bredere toegankelijkheid en toepasbaarheid. In dit werk introduceren we twee geschaalde varianten, Segmind Stable Diffusion (SSD-1B) en Segmind-Vega, met respectievelijk 1,3 miljard en 0,74 miljard parameters in de UNets, bereikt door progressieve verwijdering met behulp van laagniveau-verliezen die gericht zijn op het verkleinen van het modelformaat terwijl de generatieve kwaliteit behouden blijft. We hebben de gewichten van deze modellen vrijgegeven op https://hf.co/Segmind. Onze methodologie omvat het verwijderen van restnetwerken en transformatorblokken uit de U-Net-structuur van SDXL, wat resulteert in aanzienlijke verminderingen in parameters en latentie. Onze compacte modellen bootsen het originele SDXL effectief na door gebruik te maken van overgedragen kennis, en behalen concurrerende resultaten ten opzichte van grotere SDXL-modellen met meerdere miljarden parameters. Ons werk benadrukt de effectiviteit van kennisdistillatie in combinatie met laagniveau-verliezen bij het verkleinen van het modelformaat, terwijl de hoogwaardige generatieve mogelijkheden van SDXL behouden blijven, waardoor de implementatie in omgevingen met beperkte middelen toegankelijker wordt.
De CLIP en Segment Anything Model (SAM) zijn opmerkelijke visuele basis modellen (VFMs). SAM blinkt uit in segmentatietaken over diverse domeinen, terwijl CLIP bekend staat om zijn zero-shot herkenningsmogelijkheden. Dit artikel presenteert een diepgaande verkenning van de integratie van deze twee modellen in een geünificeerd raamwerk. Specifiek introduceren we de Open-Vocabulary SAM, een SAM-geïnspireerd model ontworpen voor gelijktijdige interactieve segmentatie en herkenning, waarbij gebruik wordt gemaakt van twee unieke kennisoverdrachtsmodules: SAM2CLIP en CLIP2SAM. De eerste past de kennis van SAM aan in CLIP via distillatie en leerbare transformatoradapters, terwijl de laatste de kennis van CLIP overbrengt naar SAM, waardoor de herkenningsmogelijkheden worden verbeterd. Uitgebreide experimenten op verschillende datasets en detectoren tonen de effectiviteit van Open-Vocabulary SAM aan in zowel segmentatie- als herkenningstaken, waarbij het significant beter presteert dan de naïeve baselines van een eenvoudige combinatie van SAM en CLIP. Bovendien kan onze methode, ondersteund door training met beeldclassificatiegegevens, ongeveer 22.000 klassen segmenteren en herkennen.
De afgelopen jaren heeft spraakgeneratie aanzienlijke vooruitgang geboekt, waarbij nu one-shot-generatie mogelijk is die vaak vrijwel niet te onderscheiden is van echte menselijke stemmen. Het integreren van dergelijke ontwikkelingen in spraakgeneratie met grote taalmodellen zou een breed scala aan toepassingen kunnen revolutioneren. Bepaalde toepassingen, zoals ondersteunende conversatiesystemen, vereisen echter natuurlijke en conversatiegerichte spraakgeneratietools die ook efficiënt in realtime kunnen werken. Huidige state-of-the-art modellen zoals VALL-E en SoundStorm, aangedreven door hiërarchische neurale audiocodecs, vereisen grote neurale componenten en uitgebreide trainingsdata om goed te functioneren. Daarentegen streeft MQTTS ernaar om compactere conversatiegerichte TTS-modellen te bouwen, terwijl het gebruik maakt van kleinschalige real-life conversatiespraakdata. Het autoregressieve karakter ervan resulteert echter in een hoge inferentielatentie, wat het realtime gebruik beperkt. Om de huidige beperkingen van state-of-the-art TTS-modellen te verminderen en tegelijkertijd hun sterke punten te benutten, introduceren we in dit werk de Pheme-modelreeks die 1) compacte maar hoogpresterende modellen biedt, 2) parallelle spraakgeneratie mogelijk maakt van 3) natuurlijke conversatiespraak, en 4) efficiënt getraind kan worden op kleinschalige conversatiedata, waardoor de databehoefte met meer dan 10x wordt verminderd, maar toch de kwaliteit van autoregressieve TTS-modellen evenaart. We laten ook zien dat we door eenvoudige teacher-student-distillatie aanzienlijke verbeteringen in stemkwaliteit kunnen bereiken voor single-speaker-opstellingen op basis van vooraf getrainde Pheme-checkpoints, waarbij uitsluitend wordt vertrouwd op synthetische spraak gegenereerd door veel grotere teacher-modellen. Audiovoorbeelden en vooraf getrainde modellen zijn online beschikbaar.