Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren een schaalbare methode om een hoogwaardig taalmodel te bouwen dat instructies kan volgen, door mensgeschreven tekst automatisch te labelen met bijbehorende instructies. Onze aanpak, genaamd instructie-backtranslation, begint met een taalmodel dat is gefinetuned op een kleine hoeveelheid seed-data en een gegeven webcorpus. Het seed-model wordt gebruikt om trainingsvoorbeelden te construeren door instructieprompts te genereren voor webdocumenten (zelf-augmentatie), en vervolgens hoogwaardige voorbeelden te selecteren uit deze kandidaten (zelf-curatie). Deze data wordt vervolgens gebruikt om een sterker model te finetunen. Het finetunen van LLaMa op twee iteraties van onze aanpak resulteert in een model dat alle andere LLaMa-gebaseerde modellen overtreft op het Alpaca-leaderboard zonder gebruik te maken van distillatiedata, wat een zeer effectieve zelf-uitlijning aantoont.
Met de opkomst van steeds krachtigere grote taalmodelen is er een groeiende interesse in het benutten van deze modellen voor informele gesprekken en rollenspeltoepassingen. Bestaande datasets voor gesprekken en rollenspel slagen er echter vaak niet in om de diverse en genuanceerde interacties vast te leggen die typisch worden vertoond door deelnemers aan rollenspellen in de echte wereld. Om deze beperking aan te pakken en bij te dragen aan het snelgroeiende vakgebied, introduceren we een gedeeltelijk synthetische dataset genaamd PIPPA (Personal Interaction Pairs between People and AI). PIPPA is het resultaat van een gemeenschapsgedreven crowdsourcing-inspanning waarbij een groep rollenspelenthousiastelingen betrokken was. De dataset omvat meer dan 1 miljoen uitingen, verdeeld over 26.000 gespreksessies, en biedt een rijke bron voor onderzoekers en AI-ontwikkelaars om conversatie-AI-systemen te verkennen en te verfijnen in de context van rollenspelscenario's.
Het trainen van state-of-the-art neurale netwerken vereist een hoge kost in termen van rekenkracht en tijd. De schaal van het model wordt erkend als een kritieke factor om de state-of-the-art te bereiken en te verbeteren. Het vergroten van de schaal van een neuraal netwerk vereist normaal gesproken een herstart vanaf nul door alle parameters van het model willekeurig te initialiseren, aangezien dit een wijziging van de architectuurparameters impliceert die geen eenvoudige overdracht van kennis van kleinere modellen mogelijk maakt. In dit werk stellen we zes samenstelbare transformaties voor om de grootte van transformer-gebaseerde neurale netwerken stapsgewijs te vergroten terwijl de functionaliteit behouden blijft, waardoor de capaciteit van het model naar behoefte kan worden uitgebreid. We leveren bewijs van exacte functiebehoud onder minimale initialisatiebeperkingen voor elke transformatie. De voorgestelde methoden kunnen efficiënte trainingspijplijnen mogelijk maken voor grotere en krachtigere modellen door de architectuur gedurende de training progressief uit te breiden.
De enorme successen van grote taalmmodellen (LLMs) stimuleren het opkomende onderzoek naar LLM-versterkte autonome agents (LAAs). Een LAA is in staat om acties te genereren met zijn kern-LLM en te interacteren met omgevingen, wat het vermogen vergemakkelijkt om complexe taken op te lossen door te conditioneren op eerdere interacties zoals observaties en acties. Aangezien het onderzoek naar LAA nog zeer recent is, zijn er beperkte verkenningen beschikbaar. Daarom bieden wij een uitgebreide vergelijking van LAA in termen van zowel agentarchitecturen als LLM-backbones. Daarnaast stellen wij een nieuwe strategie voor om meerdere LAAs te coördineren, waarbij elke arbeids-LAA zich richt op één type actie, d.w.z. BOLAA, waarbij een controller de communicatie tussen meerdere agents beheert. Wij voeren simulaties uit in zowel besluitvormings- als meerstaps redeneeromgevingen, die de capaciteit van LAAs uitgebreid rechtvaardigen. Onze prestatie-resultaten bieden kwantitatieve suggesties voor het ontwerpen van LAA-architecturen en de optimale keuze van LLMs, evenals de compatibiliteit van beide. Wij maken onze implementatiecode van LAAs openbaar op https://github.com/salesforce/BOLAA.
Het afgelopen jaar heeft een verbazingwekkende vooruitgang gezien in het genereren van afbeeldingen op basis van tekstprompts, gebaseerd op het idee van een cross-modale representatieruimte waarin de tekst- en beeld domeinen gezamenlijk worden weergegeven. In ASR (Automatische Spraakherkenning) heeft dit idee toepassing gevonden als gezamenlijke spraak-tekst encoders die kunnen schalen naar de capaciteiten van zeer grote parametermodellen door te worden getraind op zowel ongepaarde spraak als tekst. Hoewel deze methoden veelbelovend zijn, hebben ze speciale behandeling vereist van de inherente mismatch in sequentielengte tussen spraak en tekst, hetzij door up-sampling heuristieken of een expliciet aligneringsmodel. In dit werk leveren we bewijs dat gezamenlijke spraak-tekst encoders van nature consistente representaties over modaliteiten bereiken door sequentielengte te negeren, en we beargumenteren dat consistentieverliezen lengteverschillen kunnen vergeven en simpelweg uitgaan van de beste alignering. We tonen aan dat een dergelijk verlies de downstream WER (Word Error Rate) verbetert in zowel een groot-parameter eentalig als meertalig systeem.
Het analyseren van netwerktopologieën en communicatiegrafieken speelt een cruciale rol in hedendaags netwerkbeheer. De afwezigheid van een samenhangende aanpak leidt echter tot een uitdagend leerproces, meer fouten en inefficiënties. In dit artikel introduceren we een nieuwe aanpak om een op natuurlijke taal gebaseerde netwerkbeheerervaring te faciliteren, waarbij grote taalmodelen (LLM's) worden gebruikt om taakspecifieke code te genereren uit natuurlijke taalvragen. Deze methode adresseert de uitdagingen van verklaarbaarheid, schaalbaarheid en privacy door netwerkbeheerders in staat te stellen de gegenereerde code te inspecteren, de noodzaak om netwerkgegevens met LLM's te delen te elimineren, en zich te concentreren op toepassingsspecifieke verzoeken in combinatie met algemene programma-synthesetechnieken. We ontwerpen en evalueren een prototypesysteem met behulp van benchmarktoepassingen, waarbij hoge nauwkeurigheid, kosteneffectiviteit en het potentieel voor verdere verbeteringen met aanvullende programma-synthesetechnieken worden gedemonstreerd.