Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLMs) blinken uit in diverse taken, maar ze zijn afhankelijk van zorgvuldig geformuleerde prompts die vaak aanzienlijke menselijke inspanning vergen. Om dit proces te automatiseren, stellen we in dit artikel een nieuw raamwerk voor voor discrete promptoptimalisatie, genaamd EvoPrompt, dat het idee van evolutionaire algoritmen (EAs) overneemt omdat deze goede prestaties en snelle convergentie vertonen. Om EAs te laten werken met discrete prompts, die natuurlijke taalexpressies zijn die coherent en menselijk leesbaar moeten zijn, verbinden we LLMs met EAs. Deze aanpak stelt ons in staat om tegelijkertijd gebruik te maken van de krachtige taalverwerkingscapaciteiten van LLMs en de efficiënte optimalisatieprestaties van EAs. Specifiek, zonder gebruik te maken van gradients of parameters, begint EvoPrompt met een populatie van prompts en genereert iteratief nieuwe prompts met LLMs op basis van evolutionaire operatoren, waarbij de populatie wordt verbeterd op basis van de ontwikkelingsset. We optimaliseren prompts voor zowel gesloten als open-source LLMs, waaronder GPT-3.5 en Alpaca, op 9 datasets die taalbegrip en generatietaken omvatten. EvoPrompt overtreft aanzienlijk door mensen ontworpen prompts en bestaande methoden voor automatische promptgeneratie met respectievelijk tot 25% en 14%. Bovendien toont EvoPrompt aan dat het verbinden van LLMs met EAs synergieën creëert, wat verder onderzoek naar de combinatie van LLMs en conventionele algoritmen zou kunnen inspireren.
Eerder onderzoek constateerde een afname in nauwkeurigheid bij het vervangen van de softmax-attentie door een puntgewijze activatie zoals ReLU. In de context van vision-transformers ontdekken we dat deze afname wordt verminderd wanneer gedeeld wordt door de sequentielengte. Onze experimenten met het trainen van kleine tot grote vision-transformers op ImageNet-21k geven aan dat ReLU-attentie de prestaties van softmax-attentie kan benaderen of evenaren wat betreft schaalgedrag als functie van rekenkracht.
Een van de obstakels voor een beter begrip van de interne werking van neurale netwerken is polysemantie, waarbij neuronen lijken te activeren in meerdere, semantisch verschillende contexten. Polysemantie verhindert dat we beknopte, voor mensen begrijpelijke verklaringen kunnen identificeren voor wat neurale netwerken intern doen. Een veronderstelde oorzaak van polysemantie is superpositie, waarbij neurale netwerken meer kenmerken representeren dan ze neuronen hebben, door kenmerken toe te wijzen aan een overcomplete set richtingen in de activatieruimte, in plaats van aan individuele neuronen. Hier proberen we die richtingen te identificeren door gebruik te maken van sparse autoencoders om de interne activaties van een taalmodel te reconstrueren. Deze autoencoders leren sets van spaars activerende kenmerken die meer interpreteerbaar en monosemantisch zijn dan richtingen die door alternatieve benaderingen worden geïdentificeerd, waarbij interpreteerbaarheid wordt gemeten door geautomatiseerde methoden. Het uitschakelen van deze kenmerken maakt precieze modelbewerking mogelijk, bijvoorbeeld door capaciteiten zoals voornaamwoordvoorspelling te verwijderen, terwijl het modelgedrag minder wordt verstoord dan bij eerdere technieken. Dit werk geeft aan dat het mogelijk is om superpositie in taalmodel op te lossen met behulp van een schaalbare, onbewaakte methode. Onze methode kan dienen als basis voor toekomstig mechanistisch interpreteerbaarheidsonderzoek, waarvan we hopen dat het een grotere modeltransparantie en stuurbaarheid mogelijk maakt.
We onderzoeken de impact van parametersparsheid op het schaalgedrag van Transformers die getraind zijn op enorme datasets (d.w.z. "foundation models"), zowel in visuele als taalkundige domeinen. In deze context identificeren we de eerste schaalwet die de relatie beschrijft tussen gewichtssparsheid, het aantal niet-nul parameters en de hoeveelheid trainingsdata, wat we empirisch valideren over verschillende model- en dataschaalniveaus; op ViT/JFT-4B en T5/C4. Deze resultaten stellen ons in staat om de "optimale sparsheid" te karakteriseren, het sparsheidsniveau dat de beste prestaties levert voor een gegeven effectieve modelgrootte en trainingsbudget. Voor een vast aantal niet-nul parameters identificeren we dat de optimale sparsheid toeneemt met de hoeveelheid data die gebruikt wordt voor training. We breiden ons onderzoek ook uit naar verschillende sparsheidsstructuren (zoals het hardwarevriendelijke n:m-patroon) en strategieën (zoals starten vanuit een voorgetraind dicht model). Onze bevindingen werpen licht op de kracht en beperkingen van gewichtssparsheid in verschillende parameter- en computationele instellingen, en bieden zowel theoretisch inzicht als praktische implicaties voor het benutten van sparsheid om computationele efficiëntie te verbeteren.
Om effectieve beslissingen te nemen in nieuwe omgevingen met langetermijndoelen, is het cruciaal om hiërarchisch te redeneren over ruimtelijke en temporele schalen. Dit houdt in het plannen van abstracte subdoelreeksen, visueel redeneren over de onderliggende plannen, en het uitvoeren van acties in overeenstemming met het bedachte plan door middel van visueel-motorische controle. Wij stellen Compositional Foundation Models for Hierarchical Planning (HiP) voor, een foundation model dat gebruikmaakt van meerdere expert foundation models die getraind zijn op taal-, visuele- en actiedata, om gezamenlijk langetermijntaken op te lossen. We gebruiken een groot taalmodel om symbolische plannen te construeren die verankerd zijn in de omgeving via een groot videodiffusiemodel. De gegenereerde videoplannen worden vervolgens verankerd aan visueel-motorische controle, door middel van een invers dynamisch model dat acties afleidt uit gegenereerde video's. Om effectief te kunnen redeneren binnen deze hiërarchie, handhaven we consistentie tussen de modellen via iteratieve verfijning. We demonstreren de effectiviteit en aanpasbaarheid van onze aanpak in drie verschillende langetermijn tafelbladmanipulatietaken.
Ondanks recente vooruitgang in tekst-naar-audio (TTA) generatie, laten we zien dat de state-of-the-art modellen, zoals AudioLDM, die getraind zijn op datasets met een ongelijke klasseverdeling, zoals AudioCaps, bevooroordeeld zijn in hun generatieprestaties. Specifiek blinken ze uit in het genereren van veelvoorkomende audioclassen, maar presteren ze slechter bij de zeldzame, wat de algehele generatieprestatie aantast. We verwijzen naar dit probleem als langstaart tekst-naar-audio generatie. Om dit probleem aan te pakken, stellen we een eenvoudige retrieval-augmented benadering voor TTA-modellen voor. Specifiek gebruiken we, gegeven een invoertekstprompt, eerst een Contrastive Language Audio Pretraining (CLAP) model om relevante tekst-audio paren op te halen. De kenmerken van de opgehaalde audio-tekstgegevens worden vervolgens gebruikt als aanvullende voorwaarden om het leren van TTA-modellen te begeleiden. We verbeteren AudioLDM met onze voorgestelde aanpak en duiden het resulterende uitgebreide systeem aan als Re-AudioLDM. Op de AudioCaps dataset behaalt Re-AudioLDM een state-of-the-art Frechet Audio Distance (FAD) van 1.37, wat de bestaande benaderingen met een grote marge overtreft. Bovendien laten we zien dat Re-AudioLDM realistische audio kan genereren voor complexe scènes, zeldzame audioclassen en zelfs onbekende audiotypes, wat zijn potentieel in TTA-taken aangeeft.
Text-to-image diffusiemodellen begrijpen ruimtelijke relaties tussen objecten, maar representeren ze ook de echte 3D-structuur van de wereld met alleen 2D-supervisie? Wij tonen aan dat ja, 3D-kennis is gecodeerd in 2D-beelddiffusiemodellen zoals Stable Diffusion, en we laten zien dat deze structuur kan worden benut voor 3D-visietaken. Onze methode, Viewpoint Neural Textual Inversion (ViewNeTI), controleert het 3D-gezichtspunt van objecten in gegenereerde afbeeldingen uit bevroren diffusiemodellen. We trainen een kleine neurale mapper om cameragezichtspuntparameters te nemen en tekstencoderlatenten te voorspellen; deze latenten conditioneren vervolgens het diffusiegeneratieproces om afbeeldingen te produceren met het gewenste cameragezichtspunt. ViewNeTI behandelt van nature Novel View Synthesis (NVS). Door het bevroren diffusiemodel als prior te benutten, kunnen we NVS oplossen met zeer weinig invoerweergaven; we kunnen zelfs single-view novel view synthesis uitvoeren. Onze single-view NVS-voorspellingen hebben goede semantische details en fotorealisme in vergelijking met eerdere methoden. Onze aanpak is goed geschikt voor het modelleren van de onzekerheid die inherent is aan schaarse 3D-visieproblemen, omdat het efficiënt diverse samples kan genereren. Ons gezichtspuntcontrolemecanisme is algemeen en kan zelfs het cameragezicht veranderen in afbeeldingen die gegenereerd zijn door door de gebruiker gedefinieerde prompts.