Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit artikel behandelt de groeiende behoefte aan efficiënte grote taalmodellen (LLM's) op mobiele apparaten, gedreven door stijgende cloudkosten en zorgen over latentie. We richten ons op het ontwerpen van hoogwaardige LLM's met minder dan een miljard parameters, een praktische keuze voor mobiele implementatie. In tegenstelling tot de heersende overtuiging die de cruciale rol van data en parameterhoeveelheid benadrukt bij het bepalen van modelkwaliteit, benadrukt ons onderzoek het belang van modelarchitectuur voor LLM's op sub-miljard schaal. Door gebruik te maken van diepe en smalle architecturen, in combinatie met het delen van embeddings en gegroepeerde-query aandachtmechanismen, stellen we een sterk basisnetwerk op, aangeduid als MobileLLM, dat een opmerkelijke nauwkeurigheidsverbetering van 2,7%/4,3% behaalt ten opzichte van eerdere state-of-the-art modellen van 125M/350M. Daarnaast stellen we een directe bloksgewijze gewichtsdelingsmethode voor zonder toename in modelgrootte en met slechts een marginale latentietoename. De resulterende modellen, aangeduid als MobileLLM-LS, tonen een verdere nauwkeurigheidsverbetering van 0,7%/0,8% ten opzichte van MobileLLM 125M/350M. Bovendien laat de MobileLLM-modelreeks significante verbeteringen zien in vergelijking met eerdere sub-miljard modellen op chatbenchmarks, en toont het een nauwe correctheid ten opzichte van LLaMA-v2 7B in API-aanroeptaken, wat het vermogen van kleine modellen voor veelvoorkomende gebruiksscenario's op apparaten benadrukt.
We introduceren Genie, de eerste generatieve interactieve omgeving die op een niet-gesuperviseerde manier is getraind met ongelabelde internetvideo's. Het model kan worden aangestuurd om een eindeloze variëteit aan actie-bestuurbare virtuele werelden te genereren, beschreven via tekst, synthetische afbeeldingen, foto's en zelfs schetsen. Met 11B parameters kan Genie worden beschouwd als een fundamenteel wereldmodel. Het bestaat uit een spatiotemporele video-tokenizer, een autoregressief dynamisch model en een eenvoudig en schaalbaar latent actiemodel. Genie stelt gebruikers in staat om in de gegenereerde omgevingen te handelen op een frame-voor-frame basis, ondanks de training zonder enige grondwaarheid-actielabels of andere domeinspecifieke vereisten die typisch worden gevonden in de wereldmodelliteratuur. Bovendien faciliteert de resulterende geleerde latente actieruimte het trainen van agents om gedrag na te bootsen uit ongeziene video's, wat de weg opent voor het trainen van generalistische agents in de toekomst.
Dit artikel onderzoekt de radioactiviteit van LLM-gegenereerde teksten, d.w.z. of het mogelijk is om te detecteren dat dergelijke input als trainingsdata is gebruikt. Conventionele methoden zoals lidmaatschapsinferentie kunnen deze detectie uitvoeren met een zekere mate van nauwkeurigheid. Wij tonen aan dat getraindata met een watermerk sporen achterlaat die gemakkelijker te detecteren en veel betrouwbaarder zijn dan lidmaatschapsinferentie. We koppelen het besmettingsniveau aan de robuustheid van het watermerk, de verhouding ervan in de trainingsset en het fine-tuningproces. We demonstreren met name dat training op gesynthetiseerde instructies met een watermerk met een hoge betrouwbaarheid kan worden gedetecteerd (p-waarde < 1e-5), zelfs wanneer slechts 5% van de trainingsdata een watermerk bevat. LLM-watermerking, oorspronkelijk ontworpen voor het detecteren van machine-gegenereerde tekst, maakt het dus mogelijk om eenvoudig te identificeren of de uitvoer van een LLM met een watermerk is gebruikt om een andere LLM te fine-tunen.
Recente methoden hebben aangetoond dat Large Language Models (LLMs) redeneertaken beter kunnen oplossen wanneer ze worden aangemoedigd om eerst subtaken van de hoofdtaak op te lossen. In dit artikel ontwikkelen we een vergelijkbare strategie die redeneertaken opsplitst in een probleemdecompositiefase en een probleemoplossingsfase, en we laten zien dat deze strategie beter presteert dan een enkelstapsoplossing. Verder stellen we de hypothese op dat de decompositie gemakkelijker te destilleren zou moeten zijn in een kleiner model vergeleken met de probleemoplossing, omdat de laatste grote hoeveelheden domeinkennis vereist, terwijl de eerste alleen algemene probleemoplossingsstrategieën hoeft te leren. We stellen methoden voor om deze twee capaciteiten te destilleren en evalueren hun impact op redeneerresultaten en inferentiekosten. We ontdekken dat we de probleemdecompositiefase kunnen destilleren en tegelijkertijd goede generalisatie kunnen bereiken over taken, datasets en modellen. Het is echter moeilijker om de probleemoplossingscapaciteit te destilleren zonder prestatieverlies, en het resulterende gedestilleerde model heeft moeite met generalisatie. Deze resultaten geven aan dat we door het gebruik van kleinere, gedestilleerde probleemdecompositiemodellen in combinatie met probleemoplossende LLMs redenering kunnen bereiken met kostenefficiënte inferentie en lokale aanpassing.
In dit werk tonen we aan dat de afweging tussen grootte en nauwkeurigheid bij de kwantisatie van neurale netwerken aanzienlijk kan worden verbeterd door de kwantisatiedimensionaliteit te vergroten. We stellen de GPTVQ-methode voor, een nieuwe snelle methode voor post-training vector kwantisatie (VQ) die goed schaalt naar Large Language Models (LLMs). Onze methode wisselt de kwantisatie van een of meer kolommen af met updates aan de resterende niet-gekwantiseerde gewichten, waarbij informatie wordt gebruikt uit de Hessiaan van de MSE voor reconstructie van de uitvoer per laag. Kwantisatiecodeboeken worden geïnitialiseerd met behulp van een efficiënte data-aware versie van het EM-algoritme. De codeboeken worden vervolgens bijgewerkt en verder gecomprimeerd door middel van integerkwantisatie en SVD-gebaseerde compressie. GPTVQ vestigt een nieuwe staat-van-de-kunst in de afwegingen tussen grootte en nauwkeurigheid voor een breed scala aan LLMs, zoals Llama-v2 en Mistral. Bovendien is onze methode efficiënt: op een enkele H100 duurt het tussen de 3 en 11 uur om een Llamav2-70B model te verwerken, afhankelijk van de kwantisatie-instelling. Ten slotte tonen we met on-device timing voor VQ-decompressie op een mobiele CPU aan dat VQ leidt tot verbeterde latentie in vergelijking met het gebruik van een 4-bit integerformaat.
Self-attention is een essentieel onderdeel van grote taalmodellen (LLM's), maar een belangrijke bron van inferentielatentie voor lange sequenties. In multi-tenant LLM-serving scenario's kunnen de reken- en geheugenoperatiekosten van self-attention worden geoptimaliseerd door gebruik te maken van de waarschijnlijkheid dat meerdere LLM-verzoeken gedeelde systeemprompts in prefixen hebben. In dit artikel introduceren we ChunkAttention, een prefix-bewuste self-attention module die overeenkomende promptprefixen over meerdere verzoeken kan detecteren en hun key/value-tensors in het geheugen tijdens runtime kan delen om het geheugengebruik van de KV-cache te verbeteren. Dit wordt bereikt door monolithische key/value-tensors op te splitsen in kleinere chunks en deze te structureren in de aanvullende prefixboom. Vervolgens ontwerpen we, bovenop de prefixboom-gebaseerde KV-cache, een efficiënte self-attention kernel, waarbij een tweefasen partitie-algoritme wordt geïmplementeerd om de datalokaliteit tijdens de self-attention berekening te verbeteren in aanwezigheid van gedeelde systeemprompts. Experimenten tonen aan dat ChunkAttention de self-attention kernel met 3,2-4,8 keer kan versnellen in vergelijking met de state-of-the-art implementatie, met een lengte van het systeemprompt variërend van 1024 tot 4096.
Dit artikel onderzoekt de impact van het verlengen van invoerlengtes op de mogelijkheden van Large Language Models (LLM's). Ondanks de vooruitgang van LLM's in recente tijden, is hun prestatieconsistentie over verschillende invoerlengtes niet goed begrepen. Wij onderzoeken dit aspect door een nieuw QA-redeneerkader te introduceren, specifiek ontworpen om de impact van invoerlengte te beoordelen. We isoleren het effect van invoerlengte door gebruik te maken van meerdere versies van hetzelfde voorbeeld, elk verlengd met opvulling van verschillende lengtes, typen en locaties. Onze bevindingen tonen een opmerkelijke achteruitgang in de redeneerprestaties van LLM's bij veel kortere invoerlengtes dan hun technische maximum. We laten zien dat de achteruitgangstrend in elke versie van onze dataset voorkomt, hoewel in verschillende intensiteiten. Daarnaast onthult ons onderzoek dat traditionele perplexiteitsmetrieken niet correleren met de prestaties van LLM's in langere invoerredeneertaken. We analyseren onze resultaten en identificeren faalmodi die nuttige richtlijnen kunnen zijn voor toekomstig onderzoek, wat mogelijk strategieën kan informeren om de waargenomen beperkingen in LLM's aan te pakken.
Autonome agents aangedreven door grote taalmodellen (LLMs) hebben aanzienlijke onderzoeksaandacht gekregen. Het volledig benutten van het potentieel van LLMs voor agent-gebaseerde taken brengt echter inherente uitdagingen met zich mee vanwege de heterogene aard van diverse gegevensbronnen met multi-turn trajecten. In dit artikel introduceren we AgentOhana als een uitgebreide oplossing om deze uitdagingen aan te pakken. AgentOhana aggregeert agenttrajecten uit verschillende omgevingen, die een breed scala aan scenario's bestrijken. Het standaardiseert en verenigt deze trajecten zorgvuldig in een consistent formaat, wat het creëren van een generieke gegevenslader optimaliseert voor agenttraining. Door gebruik te maken van de gegevensunificatie, handhaaft onze trainingspijplijn een evenwicht tussen verschillende gegevensbronnen en behoudt het onafhankelijke willekeurigheid over apparaten tijdens datasetpartitie en modeltraining. Daarnaast presenteren we xLAM-v0.1, een groot actiemodel speciaal ontworpen voor AI-agents, dat uitzonderlijke prestaties laat zien op diverse benchmarks.
Er is een groeiende behoefte aan Large Language Models (LLMs) die effectief gebruik kunnen maken van tools en externe Application Programming Interfaces (API's) om taken te plannen en uit te voeren. Hierdoor is er enorme interesse in methoden die voldoende hoeveelheden trainings- en testdata kunnen verkrijgen waarbij calls naar tools/API's betrokken zijn. Twee onderzoekslijnen zijn naar voren gekomen als de belangrijkste strategieën om deze uitdaging aan te pakken. De eerste richt zich op technieken voor synthetische datageneratie, terwijl de tweede zich bezighoudt met het samenstellen van taakgerelateerde datasets die kunnen worden omgezet in API/Tool-gebaseerde taken. In dit artikel richten we ons op de taak van het identificeren, samenstellen en transformeren van bestaande datasets en introduceren we API-BLEND, een grote corpus voor het trainen en systematisch testen van tool-augmented LLMs. De datasets bootsen real-world scenario's na waarbij API-taken betrokken zijn, zoals API/tool-detectie, slot filling en het sequencen van de gedetecteerde API's. We demonstreren de bruikbaarheid van de API-BLEND dataset voor zowel trainings- als benchmarkdoeleinden.
Conditionele menselijke bewegingsgeneratie is een belangrijk onderwerp met veel toepassingen in virtual reality, gaming en robotica. Hoewel eerdere werken zich hebben gericht op het genereren van bewegingen geleid door tekst, muziek of scènes, resulteren deze meestal in geïsoleerde bewegingen die beperkt zijn tot korte duur. In plaats daarvan richten wij ons op het genereren van lange, continue sequenties geleid door een reeks variërende tekstuele beschrijvingen. In deze context introduceren wij FlowMDM, het eerste op diffusie gebaseerde model dat naadloze Human Motion Compositions (HMC) genereert zonder enige nabewerking of overbodige denoisingsstappen. Hiervoor introduceren wij de Blended Positional Encodings, een techniek die zowel absolute als relatieve positionele coderingen benut in de denoisingketen. Meer specifiek wordt globale beweging coherentie hersteld in de absolute fase, terwijl vloeiende en realistische overgangen worden opgebouwd in de relatieve fase. Als resultaat behalen wij state-of-the-art resultaten op het gebied van nauwkeurigheid, realisme en vloeiendheid op de Babel- en HumanML3D-datasets. FlowMDM blinkt uit wanneer het wordt getraind met slechts één beschrijving per bewegingssequentie, dankzij zijn Pose-Centric Cross-ATtention, wat het robuust maakt tegen variërende tekstbeschrijvingen tijdens de inferentie. Tot slot, om de beperkingen van bestaande HMC-metrics aan te pakken, stellen wij twee nieuwe metrics voor: de Peak Jerk en de Area Under the Jerk, om abrupte overgangen te detecteren.