Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodelen zijn de hoeksteen geworden van natuurlijke taalverwerking, maar hun gebruik gaat gepaard met aanzienlijke kosten in termen van reken- en geheugenbronnen. Versparsing biedt een oplossing om deze resourcebeperkingen te verlichten, en recente studies hebben aangetoond dat getrainde modellen achteraf kunnen worden verspaard. Bestaande versparsingstechnieken kampen met uitdagingen, omdat ze aanvullende datastructuren nodig hebben en beperkte snelheidswinst bieden met de huidige hardware. In dit artikel presenteren we SliceGPT, een nieuwe versparsingsmethode na training, waarbij elke gewichtsmatrix wordt vervangen door een kleinere (dichte) matrix, waardoor de inbeddingsdimensie van het netwerk wordt verkleind. Door uitgebreide experimenten tonen we aan dat SliceGPT tot 25% van de modelparameters (inclusief inbeddingen) kan verwijderen voor LLAMA2-70B, OPT 66B en Phi-2 modellen, terwijl respectievelijk 99%, 99% en 90% van de zero-shot-taakprestaties van het dichte model behouden blijven. Onze verspaarde modellen draaien op minder GPU's en werken sneller zonder aanvullende code-optimalisatie: op 24GB consumenten-GPU's verminderen we het totale rekenwerk voor inferentie op LLAMA2-70B tot 64% van dat van het dichte model; op 40GB A100 GPU's verminderen we dit tot 66%. We bieden een nieuw inzicht, computationele invariantie in transformernetwerken, dat SliceGPT mogelijk maakt, en we hopen dat dit toekomstige wegen zal inspireren en mogelijk maken om het geheugen- en rekenverbruik van vooraf getrainde modellen te verminderen. Code is beschikbaar op: https://github.com/microsoft/TransformerCompression
Meta-learning is naar voren gekomen als een krachtige aanpak om neurale netwerken te trainen om snel nieuwe taken te leren met beperkte data. Brede blootstelling aan verschillende taken leidt tot veelzijdige representaties die algemeen probleemoplossend vermogen mogelijk maken. Maar wat zijn de grenzen van meta-learning? In dit werk onderzoeken we het potentieel van het amortiseren van de krachtigste universele voorspeller, namelijk Solomonoff Inductie (SI), in neurale netwerken door meta-learning tot het uiterste te benutten. We gebruiken Universele Turing Machines (UTM's) om trainingsdata te genereren die wordt gebruikt om netwerken bloot te stellen aan een breed scala aan patronen. We bieden een theoretische analyse van de UTM-datageneratieprocessen en meta-trainingsprotocollen. We voeren uitgebreide experimenten uit met neurale architecturen (bijv. LSTM's, Transformers) en algoritmische datageneratoren van variërende complexiteit en universaliteit. Onze resultaten suggereren dat UTM-data een waardevolle bron is voor meta-learning, en dat het kan worden gebruikt om neurale netwerken te trainen die in staat zijn universele voorspellingsstrategieën te leren.
Auto-regressief decoderen maakt de inferentie van Large Language Models (LLMs) tijdrovend. Wij stellen een eenvoudig framework voor, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), voor verliesvrije versnelling. In tegenstelling tot traditionele speculatieve samplingmethoden, voert EAGLE het opstelproces auto-regressief uit op het meer regelmatige (tweede-top-laag) feature-niveau en behandelt het de onzekerheidsproblemen bij het voorspellen van de volgende feature door tokens van één tijdstap vooruit te integreren. De versnelling die EAGLE biedt, is verliesvrij: het vereist geen fine-tuning van het doel-LLM, en de gegenereerde tekst behoudt dezelfde distributie als die van standaard auto-regressief decoderen. Op het moment van indiening van dit artikel is EAGLE het snelst bekende framework binnen de familie van speculatieve sampling. Op MT-bench is EAGLE 3x sneller dan standaard decoderen, 2x sneller dan Lookahead, en 1.6x sneller dan Medusa. Met gpt-fast behaalt EAGLE gemiddeld 160 tokens/s met LLaMA2-Chat 13B op een enkele RTX 3090 GPU, vergeleken met 24 tokens/s van de implementaties van Huggingface.
Recente vooruitgang in tekst-naar-beeldmodellen heeft de beeldgeneratiecapaciteiten aanzienlijk verbeterd, maar er blijft een opvallend gebrek aan open-source modellen met ondersteuning voor tweetalige of Chinese taal. Om in deze behoefte te voorzien, presenteren we Taiyi-Diffusion-XL, een nieuw Chinees-Engels tweetalig tekst-naar-beeldmodel dat is ontwikkeld door de mogelijkheden van CLIP en Stable-Diffusion-XL uit te breiden via een proces van tweetalige continue voorafgaande training. Deze aanpak omvat de efficiënte uitbreiding van de woordenschat door de meest gebruikte Chinese karakters te integreren in de tokenizer en embeddinglagen van CLIP, in combinatie met een uitbreiding van de absolute positiecodering. Daarnaast verrijken we tekstprompts met behulp van een groot visueel-taalmodel, wat leidt tot betere beeldbeschrijvingen en een hogere visuele kwaliteit. Deze verbeteringen worden vervolgens toegepast op downstream tekst-naar-beeldmodellen. Onze empirische resultaten geven aan dat het ontwikkelde CLIP-model uitblinkt in tweetalige beeld-tekstretrieval. Bovendien overtreffen de tweetalige beeldgeneratiecapaciteiten van Taiyi-Diffusion-XL eerdere modellen. Dit onderzoek leidt tot de ontwikkeling en open-source beschikbaarstelling van het Taiyi-Diffusion-XL-model, wat een opmerkelijke vooruitgang betekent op het gebied van beeldgeneratie, met name voor Chinese taaltoepassingen. Deze bijdrage is een stap voorwaarts in het aanpakken van de behoefte aan meer diverse taalondersteuning in multimodaal onderzoek. Het model en de demonstratie zijn publiekelijk beschikbaar gemaakt op https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/{deze https URL}, wat verder onderzoek en samenwerking in dit domein bevordert.
Tekstgestuurde 3D-scènebewerking heeft aanzienlijke aandacht gekregen vanwege het gemak en de gebruiksvriendelijkheid ervan. Bestaande methoden hebben echter nog steeds moeite met het nauwkeurig beheersen van de gespecificeerde uitstraling en locatie van het bewerkingsresultaat, vanwege de inherente beperkingen van de tekstbeschrijving. Om dit aan te pakken, stellen we een 3D-scènebewerkingsframework voor, TIPEditor, dat zowel tekst- als beeldprompts accepteert, evenals een 3D-begrenzingsvak om het bewerkingsgebied aan te geven. Met de beeldprompt kunnen gebruikers gemakkelijk de gedetailleerde uitstraling/stijl van het doelinhoud specificeren, als aanvulling op de tekstbeschrijving, waardoor nauwkeurige controle over de uitstraling mogelijk wordt. Specifiek maakt TIPEditor gebruik van een stapsgewijze 2D-personalisatiestrategie om de representatie van de bestaande scène en de referentieafbeelding beter te leren, waarbij een localisatieverlies wordt voorgesteld om de juiste plaatsing van het object, zoals gespecificeerd door het begrenzingsvak, te bevorderen. Daarnaast maakt TIPEditor gebruik van expliciete en flexibele 3D Gaussian splatting als 3D-representatie om lokale bewerkingen te vergemakkelijken terwijl de achtergrond ongewijzigd blijft. Uitgebreide experimenten hebben aangetoond dat TIPEditor nauwkeurige bewerkingen uitvoert volgens de tekst- en beeldprompts in het gespecificeerde begrenzingsvakgebied, waarbij het consistent beter presteert dan de baseline-methoden in bewerkingskwaliteit en de afstemming op de prompts, zowel kwalitatief als kwantitatief.
Mensen gebruiken expressief gedrag om effectief te communiceren en hun acties met anderen af te stemmen, zoals knikken om iemand te erkennen die naar hen kijkt of "pardon" zeggen om langs mensen te gaan in een drukke gang. We willen dat robots ook expressief gedrag vertonen in mens-robotinteractie. Eerder werk stelt op regels gebaseerde methoden voor die moeite hebben om te schalen naar nieuwe communicatiemodaliteiten of sociale situaties, terwijl data-gedreven methoden gespecialiseerde datasets vereisen voor elke sociale situatie waarin de robot wordt gebruikt. Wij stellen voor om gebruik te maken van de rijke sociale context die beschikbaar is uit grote taalmmodellen (LLMs) en hun vermogen om beweging te genereren op basis van instructies of gebruikersvoorkeuren, om expressieve robotbeweging te genereren die aanpasbaar en samenstelbaar is, waarbij op elkaar wordt voortgebouwd. Onze aanpak maakt gebruik van few-shot chain-of-thought prompting om menselijke taalinstrucities te vertalen in geparametriseerde controlecode met behulp van de beschikbare en aangeleerde vaardigheden van de robot. Door gebruikersstudies en simulatie-experimenten tonen we aan dat onze aanpak gedrag voortbrengt dat gebruikers competent en gemakkelijk te begrijpen vonden. Aanvullend materiaal is te vinden op https://generative-expressive-motion.github.io/.