Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Bij het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs) richt eerder onderzoek zich voornamelijk op specifieke promptingtechnieken zoals few-shot of zero-shot chain-of-thought (CoT) prompting. Hoewel deze methoden effectief zijn, vereisen ze vaak intensieve handmatige promptengineering. Onze studie neemt een nieuwe benadering door de vraag te stellen: Kunnen LLMs effectief redeneren zonder prompting? Onze bevindingen onthullen dat, intrigerend genoeg, CoT-redeneerpaden kunnen worden opgeroepen uit vooraf getrainde LLMs door simpelweg het decodeerproces aan te passen. In plaats van conventionele greedy decoding, onderzoeken we de top-k alternatieve tokens, waarbij we ontdekken dat CoT-paden vaak inherent aanwezig zijn in deze sequenties. Deze aanpak omzeilt niet alleen de verstorende factoren van prompting, maar stelt ons ook in staat om de intrinsieke redeneervaardigheden van LLMs te beoordelen. Bovendien observeren we dat de aanwezigheid van een CoT in het decodeerpad correleert met een hoger vertrouwen in het gedecodeerde antwoord van het model. Deze betrouwbaarheidsmetriek onderscheidt effectief tussen CoT- en niet-CoT-paden. Uitgebreide empirische studies op diverse redeneerbenchmarks tonen aan dat de voorgestelde CoT-decoding aanzienlijk beter presteert dan standaard greedy decoding.
Alle tekstgebaseerde taalproblemen kunnen worden teruggebracht tot ofwel generatie ofwel embedding. Huidige modellen presteren alleen goed bij één van beide. We introduceren generatieve representational instruction tuning (GRIT), waarbij een groot taalmodel wordt getraind om zowel generatieve als embeddingtaken aan te kunnen door onderscheid te maken tussen deze taken via instructies. In vergelijking met andere open modellen, stelt ons resulterende GritLM 7B een nieuwe standaard op de Massive Text Embedding Benchmark (MTEB) en overtreft het alle modellen tot zijn grootte op een reeks generatieve taken. Door verder op te schalen, overtreft GritLM 8x7B alle open generatieve taalmodellen die we hebben getest, terwijl het nog steeds tot de beste embeddingmodellen behoort. Opmerkelijk is dat we ontdekken dat GRIT even goed presteert als training op alleen generatieve of embeddingdata, waardoor we beide kunnen verenigen zonder prestatieverlies. Onder andere voordelen versnelt de unificatie via GRIT Retrieval-Augmented Generation (RAG) met > 60% voor lange documenten, doordat er geen aparte retrieval- en generatiemodellen meer nodig zijn. Modellen, code, enz. zijn vrij beschikbaar op https://github.com/ContextualAI/gritlm.
Het trainen van grote taalmmodellen (LLM's) is kostbaar. In dit artikel onderzoeken we data-efficiënte benaderingen voor het vooraf trainen van LLM's, dat wil zeggen technieken die gericht zijn op het optimaliseren van de Pareto-grens van modelkwaliteit en het verbruik van trainingsbronnen/data. We streven ernaar de afwegingen te begrijpen die gepaard gaan met routines voor dataselectie op basis van (i) duur te berekenen schattingen van data-kwaliteit, en (ii) maximalisatie van dekking en diversiteit gebaseerde maatstaven in de kenmerkruimte. Onze eerste techniek, Ask-LLM, maakt gebruik van de zero-shot redeneercapaciteiten van instructie-getrainde LLM's om de kwaliteit van een trainingsvoorbeeld direct te beoordelen. Om dekking te bereiken, stellen we Density sampling voor, dat de dataverdeling modelleert om een diverse steekproef te selecteren. In onze vergelijking van 19 steekproefmethoden, waarbij honderden evaluatietaken en voorafgaande trainingsruns betrokken zijn, concluderen we dat Ask-LLM en Density de beste methoden zijn in hun respectievelijke categorieën. Dekkingssteekproeven kunnen de prestaties van de volledige dataset evenaren, terwijl modellen die getraind zijn op Ask-LLM-data consistent beter presteren dan training met volledige data – zelfs wanneer we 90% van de oorspronkelijke dataset verwerpen, terwijl ze tot 70% sneller convergeren.
Huidige Large Language Models (LLMs) zijn niet alleen beperkt tot een maximale contextlengte, maar zijn ook niet in staat om lange invoeren robuust te verwerken. Om deze beperkingen aan te pakken, stellen we ReadAgent voor, een LLM-agentensysteem dat in onze experimenten de effectieve contextlengte tot wel 20x vergroot. Geïnspireerd door hoe mensen interactief lange documenten lezen, implementeren we ReadAgent als een eenvoudig promptsysteem dat gebruikmaakt van de geavanceerde taalvaardigheden van LLMs om (1) te beslissen welke inhoud samen in een geheugenepisode wordt opgeslagen, (2) die geheugenepisodes te comprimeren tot korte episodische herinneringen, zogenaamde gist-herinneringen, en (3) acties te ondernemen om passages in de oorspronkelijke tekst op te zoeken als ReadAgent zichzelf relevante details moet herinneren om een taak te voltooien. We evalueren ReadAgent tegen baseline-methoden die gebruikmaken van retrievalsystemen, de oorspronkelijke lange contexten en de gist-herinneringen. Deze evaluaties worden uitgevoerd op drie langdocument-leesbegriptaken: QuALITY, NarrativeQA en QMSum. ReadAgent presteert beter dan de baseline-methoden op alle drie de taken, terwijl het de effectieve contextvenster met 3-20x uitbreidt.
Recente studies hebben het immense potentieel aangetoond van synthetisch gegenereerde datasets voor het trainen van grote taalmodellen (LLM's), met name voor het verwerven van gerichte vaardigheden. Huidige grootschalige datasets voor het afstemmen van wiskundige instructies, zoals MetaMathQA (Yu et al., 2024) en MAmmoTH (Yue et al., 2024), zijn geconstrueerd met behulp van uitvoer van gesloten bron LLM's met commercieel restrictieve licenties. Een belangrijke reden die het gebruik van open-source LLM's in deze datageneratiepijplijnen beperkt, is het grote verschil in wiskundige vaardigheden tussen de beste gesloten bron LLM's, zoals GPT-4, en de beste open-source LLM's. Gebaseerd op de recente vooruitgang in open-source LLM's, onze voorgestelde promptinnovatie, en wat brute-force schaling, construeren we OpenMathInstruct-1, een dataset voor het afstemmen van wiskundige instructies met 1,8 miljoen probleem-oplossingsparen. De dataset is geconstrueerd door code-interpreter oplossingen te synthetiseren voor GSM8K en MATH, twee populaire benchmarks voor wiskundig redeneren, met behulp van het recent vrijgegeven en permissief gelicentieerde Mixtral-model. Ons beste model, OpenMath-CodeLlama-70B, getraind op een subset van OpenMathInstruct-1, behaalt een score van 84,6% op GSM8K en 50,7% op MATH, wat competitief is met de beste gpt-gedistilleerde modellen. We geven onze code, modellen en de OpenMathInstruct-1 dataset vrij onder een commercieel permissieve licentie.
Het finetunen van diffusiemodellen blijft een onderbelicht gebied in generatieve kunstmatige intelligentie (GenAI), vooral in vergelijking met de opmerkelijke vooruitgang die is geboekt bij het finetunen van grote taalmmodellen (LLM's). Hoewel state-of-the-art diffusiemodellen zoals Stable Diffusion (SD) en SDXL vertrouwen op supervised finetuning, stagneert hun prestaties onvermijdelijk na het verwerken van een bepaalde hoeveelheid data. Recentelijk is reinforcement learning (RL) ingezet om diffusiemodellen te finetunen met gegevens over menselijke voorkeuren, maar dit vereist minimaal twee afbeeldingen ("winnaar" en "verliezer" afbeeldingen) voor elke tekstprompt. In dit artikel introduceren we een innovatieve techniek genaamd self-play finetuning voor diffusiemodellen (SPIN-Diffusion), waarbij het diffusiemodel in competitie gaat met eerdere versies van zichzelf, wat een iteratief zelfverbeteringsproces mogelijk maakt. Onze aanpak biedt een alternatief voor conventionele supervised finetuning en RL-strategieën, en verbetert zowel de modelprestaties als de afstemming aanzienlijk. Onze experimenten op de Pick-a-Pic dataset laten zien dat SPIN-Diffusion de bestaande supervised finetuning-methode al vanaf de eerste iteratie overtreft op het gebied van afstemming op menselijke voorkeuren en visuele aantrekkingskracht. Tegen de tweede iteratie overstijgt het de prestaties van RLHF-gebaseerde methoden op alle metrieken, en bereikt het deze resultaten met minder data.
We bestuderen het recept voor voortgezette pretraining om de contextlengte van taalmodelen op te schalen naar 128K, met een focus op data-engineering. We veronderstellen dat modellering van lange contexten, in het bijzonder het vermogen om informatie op willekeurige invoerposities te benutten, een vaardigheid is die grotendeels al is verworven via grootschalige pretraining, en dat deze vaardigheid eenvoudig kan worden uitgebreid naar contexten die aanzienlijk langer zijn dan tijdens de training zijn gezien (bijvoorbeeld van 4K naar 128K) door middel van lichtgewicht voortgezette pretraining op een geschikt datamengsel. We onderzoeken de hoeveelheid en kwaliteit van de data voor voortgezette pretraining: (1) wat betreft hoeveelheid tonen we aan dat 500 miljoen tot 5 miljard tokens voldoende zijn om het model in staat te stellen informatie overal binnen de 128K-context te halen; (2) wat betreft kwaliteit benadrukken onze resultaten evenzeer domeinbalans en lengte-upsampling. Concreet vinden we dat het naïef upsamplen van langere data in bepaalde domeinen zoals boeken, een gangbare praktijk in bestaand werk, suboptimale prestaties oplevert, en dat een gebalanceerd domeinmengsel belangrijk is. We demonstreren dat voortgezette pretraining van het volledige model op 1B-5B tokens van dergelijke data een effectieve en betaalbare strategie is om de contextlengte van taalmodelen op te schalen naar 128K. Ons recept overtreft sterke open-source lange-contextmodellen en verkleint de kloof naar frontiermodellen zoals GPT-4 128K.
Grote Taalmodellen (LLMs) worden doorgaans in twee fasen getraind: pre-training op grote datasets van internetschaal, en fine-tuning voor downstream taken. Gezien de hogere rekenkundige eisen van pre-training, is het intuïtief om aan te nemen dat fine-tuning minder nieuwe informatie aan het model toevoegt, en dus beter comprimeerbaar is. We onderzoeken deze aanname door de gewichten van fine-tuned modellen te ontbinden in hun pre-trained componenten en een aanvullende delta. We introduceren een eenvoudige methode, BitDelta, die deze delta succesvol kwantiseert tot 1 bit zonder de prestaties aan te tasten. Deze interessante bevinding benadrukt niet alleen de potentiële redundantie van informatie die tijdens fine-tuning wordt toegevoegd, maar heeft ook significante implicaties voor multi-tenant serving en opslag van fine-tuned modellen. Door het gebruik van een enkel hoog-precisie basismodel te combineren met meerdere 1-bit delta's, reduceert BitDelta de GPU-geheugenvereisten drastisch met meer dan 10x, wat ook kan worden vertaald naar verbeterde generatielatentie in multi-tenant omgevingen. We valideren BitDelta via experimenten met de Llama-2 en Mistral model families, en op modellen tot 70B parameters, waarbij minimale prestatievermindering wordt aangetoond in alle geteste omgevingen.
Het bewerken van signalen met behulp van grote vooraf getrainde modellen, op een zero-shot-manier, heeft recentelijk snelle vooruitgang geboekt in het beelddomein. Deze golf heeft het audiodomein echter nog niet bereikt. In dit artikel onderzoeken we twee zero-shot bewerkingstechnieken voor audiosignalen, die gebruikmaken van DDPM-inversie op vooraf getrainde diffusiemodellen. De eerste, overgenomen uit het beelddomein, maakt tekstgebaseerd bewerken mogelijk. De tweede is een nieuwe benadering voor het ontdekken van semantisch betekenisvolle bewerkingsrichtingen zonder supervisie. Wanneer toegepast op muzieksignalen, onthult deze methode een reeks muzikaal interessante aanpassingen, van het beheersen van de deelname van specifieke instrumenten tot improvisaties op de melodie. Voorbeelden zijn te vinden op onze voorbeeldenpagina op https://hilamanor.github.io/AudioEditing/ en de code is beschikbaar op https://github.com/hilamanor/AudioEditing/.
Vooruitgang in 3D Gaussian Splatting heeft 3D-reconstructie en -generatie aanzienlijk versneld. Het kan echter een groot aantal Gaussians vereisen, wat een aanzienlijke geheugenvoetafdruk creëert. Dit artikel introduceert GES (Generalized Exponential Splatting), een nieuwe representatie die gebruikmaakt van de Generalized Exponential Function (GEF) om 3D-scènes te modelleren, waardoor aanzienlijk minder deeltjes nodig zijn om een scène weer te geven en daardoor de efficiëntie van Gaussian Splatting-methoden aanzienlijk overtreft, met een plug-and-play vervangingsmogelijkheid voor Gaussian-gebaseerde utilities. GES wordt theoretisch en empirisch gevalideerd in zowel een principiële 1D-opstelling als realistische 3D-scènes. Het blijkt signalen met scherpe randen nauwkeuriger weer te geven, wat typisch uitdagend is voor Gaussians vanwege hun inherente laagdoorlaatkarakteristieken. Onze empirische analyse toont aan dat GEF Gaussians overtreft in het passen van natuurlijk voorkomende signalen (bijv. vierkanten, driehoeken en parabolische signalen), waardoor de noodzaak voor uitgebreide splitsingsoperaties die de geheugenvoetafdruk van Gaussian Splatting vergroten, wordt verminderd. Met behulp van een frequentiegemoduleerd verlies bereikt GES competitieve prestaties in benchmarks voor novel-view synthese, terwijl minder dan de helft van de geheugenopslag van Gaussian Splatting nodig is en de renderingsnelheid met tot 39% wordt verhoogd. De code is beschikbaar op de projectwebsite https://abdullahamdi.com/ges.
Het doel van tekst-naar-beeld (T2I) personalisatie is het aanpassen van een diffusiemodel aan een door de gebruiker aangegeven referentieconcept, waarbij diverse afbeeldingen van het concept worden gegenereerd die overeenkomen met de doelprompts. Traditionele methoden die de referentieconcepten weergeven met unieke tekst-embeddings, slagen er vaak niet in om het uiterlijk van de referentie nauwkeurig na te bootsen. Om dit aan te pakken, kan een oplossing zijn om de referentiebeelden expliciet te conditioneren in het doel-denoisingproces, bekend als key-value vervanging. Eerdere werken zijn echter beperkt tot lokale bewerkingen omdat ze de structuurpad van het vooraf getrainde T2I-model verstoren. Om dit te overwinnen, stellen we een nieuwe plug-in methode voor, genaamd DreamMatcher, die T2I-personalisatie herformuleert als semantische matching. Specifiek vervangt DreamMatcher de doelwaarden met referentiewaarden die zijn uitgelijnd door semantische matching, terwijl het structuurpad ongewijzigd blijft om de veelzijdige mogelijkheid van vooraf getrainde T2I-modellen voor het genereren van diverse structuren te behouden. We introduceren ook een semantisch consistente maskerstrategie om het gepersonaliseerde concept te isoleren van irrelevante regio's die door de doelprompts worden geïntroduceerd. Compatibel met bestaande T2I-modellen, toont DreamMatcher aanzienlijke verbeteringen in complexe scenario's. Intensieve analyses demonstreren de effectiviteit van onze aanpak.
Redeneren op basis van sequenties van ruwe sensorische gegevens is een alomtegenwoordig probleem in verschillende vakgebieden, variërend van medische apparaten tot robotica. Deze problemen houden vaak in dat lange sequenties van ruwe sensordata (bijv. magnetometers, piëzoweerstanden) worden gebruikt om sequenties van gewenste fysische grootheden (bijv. kracht, traagheidsmetingen) te voorspellen. Hoewel klassieke benaderingen krachtig zijn voor lokaal-lineaire voorspellingsproblemen, schieten ze vaak tekort bij het gebruik van real-world sensoren. Deze sensoren zijn typisch niet-lineair, worden beïnvloed door externe variabelen (bijv. trillingen) en vertonen data-afhankelijke drift. Voor veel problemen wordt de voorspellingstaak bemoeilijkt door kleine gelabelde datasets, aangezien het verkrijgen van grondwaarheidlabels dure apparatuur vereist. In dit werk presenteren we Hiërarchische State-Space Modellen (HiSS), een conceptueel eenvoudige, nieuwe techniek voor continue sequentiële voorspelling. HiSS stapelt gestructureerde state-space modellen op elkaar om een temporele hiërarchie te creëren. Over zes real-world sensordatasets, van tactiele staatspredictie tot traagheidsmetingen op basis van versnellingsmeters, presteert HiSS minstens 23% beter op MSE dan state-of-the-art sequentiemodellen zoals causale Transformers, LSTMs, S4 en Mamba. Onze experimenten geven verder aan dat HiSS efficiënt schaalt naar kleinere datasets en compatibel is met bestaande datafiltertechnieken. Code, datasets en video's zijn te vinden op https://hiss-csp.github.io.
Diffusiemodellen worden de laatste tijd steeds vaker toegepast op temporele gegevens zoals video's, simulaties van vloeistofmechanica of klimaatdata. Deze methoden behandelen over het algemeen opeenvolgende frames op dezelfde manier wat betreft de hoeveelheid ruis in het diffusieproces. Dit artikel onderzoekt Rolling Diffusion: een nieuwe aanpak die gebruikmaakt van een glijdend venster voor het verwijderen van ruis. Het zorgt ervoor dat het diffusieproces geleidelijk door de tijd heen vervalt door meer ruis toe te wijzen aan frames die later in een reeks verschijnen, wat een grotere onzekerheid over de toekomst weerspiegelt naarmate het generatieproces vordert. Empirisch tonen we aan dat wanneer de temporele dynamiek complex is, Rolling Diffusion superieur is aan standaard diffusie. Dit resultaat wordt in het bijzonder gedemonstreerd in een videovoorspellingstaak met behulp van de Kinetics-600 videodataset en in een experiment met chaotische vloeistofdynamica-voorspellingen.