HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

6 papers found

SliceGPT: Comprimeer Grote Taalmodellen door Rijen en Kolommen te Verwijderen
SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Jan 26

BySaleh Ashkboos, Maximilian L. Croci, Marcelo Gennari do Nascimento, Torsten Hoefler, James Hensman

Grote taalmodelen zijn de hoeksteen geworden van natuurlijke taalverwerking, maar hun gebruik gaat gepaard met aanzienlijke kosten in termen van reken- en geheugenbronnen. Versparsing biedt een oplossing om deze resourcebeperkingen te verlichten, en recente studies hebben aangetoond dat getrainde modellen achteraf kunnen worden verspaard. Bestaande versparsingstechnieken kampen met uitdagingen, omdat ze aanvullende datastructuren nodig hebben en beperkte snelheidswinst bieden met de huidige hardware. In dit artikel presenteren we SliceGPT, een nieuwe versparsingsmethode na training, waarbij elke gewichtsmatrix wordt vervangen door een kleinere (dichte) matrix, waardoor de inbeddingsdimensie van het netwerk wordt verkleind. Door uitgebreide experimenten tonen we aan dat SliceGPT tot 25% van de modelparameters (inclusief inbeddingen) kan verwijderen voor LLAMA2-70B, OPT 66B en Phi-2 modellen, terwijl respectievelijk 99%, 99% en 90% van de zero-shot-taakprestaties van het dichte model behouden blijven. Onze verspaarde modellen draaien op minder GPU's en werken sneller zonder aanvullende code-optimalisatie: op 24GB consumenten-GPU's verminderen we het totale rekenwerk voor inferentie op LLAMA2-70B tot 64% van dat van het dichte model; op 40GB A100 GPU's verminderen we dit tot 66%. We bieden een nieuw inzicht, computationele invariantie in transformernetwerken, dat SliceGPT mogelijk maakt, en we hopen dat dit toekomstige wegen zal inspireren en mogelijk maken om het geheugen- en rekenverbruik van vooraf getrainde modellen te verminderen. Code is beschikbaar op: https://github.com/microsoft/TransformerCompression

Universele Voorspellers Leren
Learning Universal Predictors

Jan 26

ByJordi Grau-Moya, Tim Genewein, Marcus Hutter, Laurent Orseau, Grégoire Delétang, Elliot Catt, Anian Ruoss, Li Kevin Wenliang, Christopher Mattern, Matthew Aitchison, Joel Veness

Meta-learning is naar voren gekomen als een krachtige aanpak om neurale netwerken te trainen om snel nieuwe taken te leren met beperkte data. Brede blootstelling aan verschillende taken leidt tot veelzijdige representaties die algemeen probleemoplossend vermogen mogelijk maken. Maar wat zijn de grenzen van meta-learning? In dit werk onderzoeken we het potentieel van het amortiseren van de krachtigste universele voorspeller, namelijk Solomonoff Inductie (SI), in neurale netwerken door meta-learning tot het uiterste te benutten. We gebruiken Universele Turing Machines (UTM's) om trainingsdata te genereren die wordt gebruikt om netwerken bloot te stellen aan een breed scala aan patronen. We bieden een theoretische analyse van de UTM-datageneratieprocessen en meta-trainingsprotocollen. We voeren uitgebreide experimenten uit met neurale architecturen (bijv. LSTM's, Transformers) en algoritmische datageneratoren van variërende complexiteit en universaliteit. Onze resultaten suggereren dat UTM-data een waardevolle bron is voor meta-learning, en dat het kan worden gebruikt om neurale netwerken te trainen die in staat zijn universele voorspellingsstrategieën te leren.

EAGLE: Speculatieve Sampling vereist een herziening van kenmerkonzekerheid
EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

Jan 26

ByYuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang

Auto-regressief decoderen maakt de inferentie van Large Language Models (LLMs) tijdrovend. Wij stellen een eenvoudig framework voor, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), voor verliesvrije versnelling. In tegenstelling tot traditionele speculatieve samplingmethoden, voert EAGLE het opstelproces auto-regressief uit op het meer regelmatige (tweede-top-laag) feature-niveau en behandelt het de onzekerheidsproblemen bij het voorspellen van de volgende feature door tokens van één tijdstap vooruit te integreren. De versnelling die EAGLE biedt, is verliesvrij: het vereist geen fine-tuning van het doel-LLM, en de gegenereerde tekst behoudt dezelfde distributie als die van standaard auto-regressief decoderen. Op het moment van indiening van dit artikel is EAGLE het snelst bekende framework binnen de familie van speculatieve sampling. Op MT-bench is EAGLE 3x sneller dan standaard decoderen, 2x sneller dan Lookahead, en 1.6x sneller dan Medusa. Met gpt-fast behaalt EAGLE gemiddeld 160 tokens/s met LLaMA2-Chat 13B op een enkele RTX 3090 GPU, vergeleken met 24 tokens/s van de implementaties van Huggingface.

Taiyi-Diffusion-XL: Vooruitgang in tweetalige tekst-naar-beeldgeneratie met ondersteuning van grootschalige visueel-taalmodelen
Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support

Jan 26

ByXiaojun Wu, Dixiang Zhang, Ruyi Gan, Junyu Lu, Ziwei Wu, Renliang Sun, Jiaxing Zhang, Pingjian Zhang, Yan Song

Recente vooruitgang in tekst-naar-beeldmodellen heeft de beeldgeneratiecapaciteiten aanzienlijk verbeterd, maar er blijft een opvallend gebrek aan open-source modellen met ondersteuning voor tweetalige of Chinese taal. Om in deze behoefte te voorzien, presenteren we Taiyi-Diffusion-XL, een nieuw Chinees-Engels tweetalig tekst-naar-beeldmodel dat is ontwikkeld door de mogelijkheden van CLIP en Stable-Diffusion-XL uit te breiden via een proces van tweetalige continue voorafgaande training. Deze aanpak omvat de efficiënte uitbreiding van de woordenschat door de meest gebruikte Chinese karakters te integreren in de tokenizer en embeddinglagen van CLIP, in combinatie met een uitbreiding van de absolute positiecodering. Daarnaast verrijken we tekstprompts met behulp van een groot visueel-taalmodel, wat leidt tot betere beeldbeschrijvingen en een hogere visuele kwaliteit. Deze verbeteringen worden vervolgens toegepast op downstream tekst-naar-beeldmodellen. Onze empirische resultaten geven aan dat het ontwikkelde CLIP-model uitblinkt in tweetalige beeld-tekstretrieval. Bovendien overtreffen de tweetalige beeldgeneratiecapaciteiten van Taiyi-Diffusion-XL eerdere modellen. Dit onderzoek leidt tot de ontwikkeling en open-source beschikbaarstelling van het Taiyi-Diffusion-XL-model, wat een opmerkelijke vooruitgang betekent op het gebied van beeldgeneratie, met name voor Chinese taaltoepassingen. Deze bijdrage is een stap voorwaarts in het aanpakken van de behoefte aan meer diverse taalondersteuning in multimodaal onderzoek. Het model en de demonstratie zijn publiekelijk beschikbaar gemaakt op https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/{deze https URL}, wat verder onderzoek en samenwerking in dit domein bevordert.

TIP-Editor: Een Nauwkeurige 3D-Editor die zowel Tekstprompts als Afbeeldingsprompts Volgt
TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts

Jan 26

ByJingyu Zhuang, Di Kang, Yan-Pei Cao, Guanbin Li, Liang Lin, Ying Shan

Tekstgestuurde 3D-scènebewerking heeft aanzienlijke aandacht gekregen vanwege het gemak en de gebruiksvriendelijkheid ervan. Bestaande methoden hebben echter nog steeds moeite met het nauwkeurig beheersen van de gespecificeerde uitstraling en locatie van het bewerkingsresultaat, vanwege de inherente beperkingen van de tekstbeschrijving. Om dit aan te pakken, stellen we een 3D-scènebewerkingsframework voor, TIPEditor, dat zowel tekst- als beeldprompts accepteert, evenals een 3D-begrenzingsvak om het bewerkingsgebied aan te geven. Met de beeldprompt kunnen gebruikers gemakkelijk de gedetailleerde uitstraling/stijl van het doelinhoud specificeren, als aanvulling op de tekstbeschrijving, waardoor nauwkeurige controle over de uitstraling mogelijk wordt. Specifiek maakt TIPEditor gebruik van een stapsgewijze 2D-personalisatiestrategie om de representatie van de bestaande scène en de referentieafbeelding beter te leren, waarbij een localisatieverlies wordt voorgesteld om de juiste plaatsing van het object, zoals gespecificeerd door het begrenzingsvak, te bevorderen. Daarnaast maakt TIPEditor gebruik van expliciete en flexibele 3D Gaussian splatting als 3D-representatie om lokale bewerkingen te vergemakkelijken terwijl de achtergrond ongewijzigd blijft. Uitgebreide experimenten hebben aangetoond dat TIPEditor nauwkeurige bewerkingen uitvoert volgens de tekst- en beeldprompts in het gespecificeerde begrenzingsvakgebied, waarbij het consistent beter presteert dan de baseline-methoden in bewerkingskwaliteit en de afstemming op de prompts, zowel kwalitatief als kwantitatief.

Generatieve Expressieve Robotgedragingen met behulp van Grote Taalmodellen
Generative Expressive Robot Behaviors using Large Language Models

Jan 26

ByKarthik Mahadevan, Jonathan Chien, Noah Brown, Zhuo Xu, Carolina Parada, Fei Xia, Andy Zeng, Leila Takayama, Dorsa Sadigh

Mensen gebruiken expressief gedrag om effectief te communiceren en hun acties met anderen af te stemmen, zoals knikken om iemand te erkennen die naar hen kijkt of "pardon" zeggen om langs mensen te gaan in een drukke gang. We willen dat robots ook expressief gedrag vertonen in mens-robotinteractie. Eerder werk stelt op regels gebaseerde methoden voor die moeite hebben om te schalen naar nieuwe communicatiemodaliteiten of sociale situaties, terwijl data-gedreven methoden gespecialiseerde datasets vereisen voor elke sociale situatie waarin de robot wordt gebruikt. Wij stellen voor om gebruik te maken van de rijke sociale context die beschikbaar is uit grote taalmmodellen (LLMs) en hun vermogen om beweging te genereren op basis van instructies of gebruikersvoorkeuren, om expressieve robotbeweging te genereren die aanpasbaar en samenstelbaar is, waarbij op elkaar wordt voortgebouwd. Onze aanpak maakt gebruik van few-shot chain-of-thought prompting om menselijke taalinstrucities te vertalen in geparametriseerde controlecode met behulp van de beschikbare en aangeleerde vaardigheden van de robot. Door gebruikersstudies en simulatie-experimenten tonen we aan dat onze aanpak gedrag voortbrengt dat gebruikers competent en gemakkelijk te begrijpen vonden. Aanvullend materiaal is te vinden op https://generative-expressive-motion.github.io/.

Taiyi-Diffusion-XL: Vooruitgang in tweetalige tekst-naar-beeldgeneratie met ondersteuning van grootschalige visueel-taalmodelen
Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support

Jan 26

ByXiaojun Wu, Dixiang Zhang, Ruyi Gan, Junyu Lu, Ziwei Wu, Renliang Sun, Jiaxing Zhang, Pingjian Zhang, Yan Song