Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Datasets vormen de basis voor veel doorbraken in moderne kunstmatige intelligentie. Veel recente prestaties op het gebied van natuurlijke taalverwerking (NLP) kunnen worden toegeschreven aan het finetunen van vooraf getrainde modellen op een diverse set taken, waardoor een groot taalmodel (LLM) in staat is om op instructies te reageren. Instructie-finetuning (IFT) vereist specifiek geconstrueerde en geannoteerde datasets. Echter, bestaande datasets zijn vrijwel allemaal in het Engels. In dit werk is ons primaire doel om de taalkloof te overbruggen door een door mensen samengestelde dataset voor instructievolging te bouwen die 65 talen omvat. We hebben samengewerkt met vloeiende sprekers van talen uit de hele wereld om natuurlijke voorbeelden van instructies en voltooiingen te verzamelen. Bovendien creëren we de meest uitgebreide meertalige collectie tot nu toe, bestaande uit 513 miljoen voorbeelden door het templaten en vertalen van bestaande datasets in 114 talen. In totaal dragen we vier belangrijke bronnen bij: we ontwikkelen en open-sourcen het Aya Annotation Platform, de Aya Dataset, de Aya Collection en de Aya Evaluation Suite. Het Aya-initiatief dient ook als een waardevolle casestudy in participatief onderzoek, waarbij medewerkers uit 119 landen betrokken zijn. We zien dit als een waardevol kader voor toekomstige onderzoekssamenwerkingen die gericht zijn op het overbruggen van hiaten in bronnen.
De wiskundige vaardigheden van grote taalmodellen kunnen hun abstracte redeneervermogen weerspiegelen. In dit artikel introduceren en openbaren we onze wiskundige redeneer-LLM's, InternLM-Math, die voortbouwen op voortgezette pre-training van InternLM2. We integreren keten-van-gedachte-redenering, beloningsmodellering, formeel redeneren, data-augmentatie en een code-interpreter in een uniforme seq2seq-indeling en begeleiden ons model om een veelzijdige wiskundige redenaar, verificateur, bewijzer en augmentator te zijn. Deze vaardigheden kunnen worden gebruikt om de volgende generatie wiskundige LLM's of zelf-iteratie te ontwikkelen. InternLM-Math behaalt open-source state-of-the-art prestaties in de context van in-context leren, supervised fine-tuning en code-ondersteund redeneren in diverse informele en formele benchmarks, waaronder GSM8K, MATH, het Hongaarse wiskunde-examen, MathBench-ZH en MiniF2F. Ons vooraf getrainde model behaalt een score van 30,3 op de MiniF2F-testset zonder fine-tuning. We onderzoeken verder hoe LEAN kan worden gebruikt om wiskundige problemen op te lossen en bestuderen de prestaties in de context van multi-task leren, wat de mogelijkheid aantoont om LEAN als een uniform platform te gebruiken voor het oplossen en bewijzen in de wiskunde. Onze modellen, code en data zijn vrijgegeven op https://github.com/InternLM/InternLM-Math.
Het creëren van digitale avatars op basis van tekstuele prompts is al lang een gewenste maar uitdagende taak. Ondanks de veelbelovende resultaten die zijn behaald met 2D diffusie-priors in recente werken, hebben huidige methoden moeite om hoogwaardige en geanimeerde avatars effectief te realiseren. In dit artikel presenteren we HeadStudio, een nieuw framework dat gebruikmaakt van 3D Gaussian splatting om realistische en geanimeerde avatars te genereren vanuit tekstuele prompts. Onze methode stuurt 3D Gaussians semantisch aan om een flexibele en haalbare verschijning te creëren via de tussenliggende FLAME-representatie. Specifiek integreren we FLAME in zowel de 3D-representatie als de score-distillatie: 1) FLAME-gebaseerde 3D Gaussian splatting, waarbij 3D Gaussian-punten worden aangestuurd door elk punt te koppelen aan een FLAME-mesh. 2) FLAME-gebaseerde score-distillatie sampling, waarbij gebruik wordt gemaakt van FLAME-gebaseerde fijnmazige controlesignalen om de score-distillatie vanuit de tekstprompt te begeleiden. Uitgebreide experimenten tonen de effectiviteit van HeadStudio aan in het genereren van animeerbare avatars vanuit tekstuele prompts, waarbij visueel aantrekkelijke verschijningen worden getoond. De avatars zijn in staat om hoogwaardige real-time (≥ 40 fps) nieuwe weergaven te renderen met een resolutie van 1024. Ze kunnen soepel worden bestuurd door real-world spraak en video. We hopen dat HeadStudio de creatie van digitale avatars kan bevorderen en dat de huidige methode breed kan worden toegepast in verschillende domeinen.
Recente ontwikkelingen in tekst-naar-muziek-generatiemodellen hebben nieuwe mogelijkheden geopend op het gebied van muzikale creativiteit. Het genereren van muziek vereist echter meestal iteratieve verfijningen, en het bewerken van de gegenereerde muziek blijft een aanzienlijke uitdaging. Dit artikel introduceert een nieuwe benadering voor het bewerken van muziek die door dergelijke modellen is gegenereerd, waardoor specifieke attributen, zoals genre, stemming en instrument, kunnen worden aangepast terwijl andere aspecten ongewijzigd blijven. Onze methode transformeert tekstbewerking naar manipulatie in de latente ruimte, terwijl een extra beperking wordt toegevoegd om consistentie te waarborgen. Het integreert naadloos met bestaande vooraf getrainde tekst-naar-muziek-diffusiemodellen zonder dat aanvullende training vereist is. Experimentele resultaten tonen superieure prestaties aan ten opzichte van zowel zero-shot- als bepaalde gesuperviseerde baseline-methoden in evaluaties van stijl- en timbre-overdracht. Daarnaast demonstreren we de praktische toepasbaarheid van onze benadering in real-world scenario's voor muziekbewerking.
Door het combineren van natuurlijke taalbegrip en de generatiecapaciteiten en de brede kennis van grote taalmodelen met beeldperceptie, hebben recente grote visuele taalmodelen (LVLMs) ongekende redeneervaardigheden in de echte wereld getoond. Echter, de gegenereerde tekst lijdt vaak onder onnauwkeurige verankering in de visuele input, wat resulteert in fouten zoals het hallucineren van niet-bestaande scène-elementen, het missen van significante delen van de scène, en het afleiden van incorrecte attributen en relaties tussen objecten. Om deze problemen aan te pakken, introduceren we een nieuw raamwerk, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), dat gebruikmaakt van fijnmazige beloningsmodellering om de visuele verankering van LVLMs aanzienlijk te verbeteren ten opzichte van vooraf getrainde basislijnen. Deze verbetering wordt efficiënt bereikt met behulp van veel goedkopere menselijke evaluaties in plaats van volledige supervisie, evenals geautomatiseerde methoden. We tonen de effectiviteit van onze aanpak aan via talrijke metrieken op verschillende benchmarks. Daarnaast construeren we een uitgebreide en uitdagende dataset die specifiek is ontworpen om de visuele verankeringscapaciteiten van LVLMs te valideren. Tot slot zijn we van plan onze menselijke annotatie, bestaande uit ongeveer 16.000 afbeeldingen en gegenereerde tekstparen met fijnmazige evaluaties, vrij te geven om bij te dragen aan gerelateerd onderzoek in de gemeenschap.
Grote taalmodellen (LLMs) hebben het potentieel om een breed scala aan creatieve domeinen te beïnvloeden, maar de toepassing van LLMs op animatie is onderbelicht en brengt nieuwe uitdagingen met zich mee, zoals hoe gebruikers effectief beweging in natuurlijke taal kunnen beschrijven. In dit artikel presenteren we Keyframer, een ontwerptool voor het animeren van statische afbeeldingen (SVG's) met natuurlijke taal. Geïnformeerd door interviews met professionele animatieontwerpers en ingenieurs, ondersteunt Keyframer het verkennen en verfijnen van animaties door de combinatie van prompting en directe bewerking van gegenereerde output. Het systeem stelt gebruikers ook in staat om ontwerpvarianten aan te vragen, wat vergelijking en ideevorming ondersteunt. Door een gebruikersstudie met 13 deelnemers dragen we een karakterisering van gebruikerspromptstrategieën bij, inclusief een taxonomie van semantische prompttypen voor het beschrijven van beweging en een 'gedecomponeerde' promptstijl waarbij gebruikers hun doelen voortdurend aanpassen in reactie op gegenereerde output. We delen hoe directe bewerking samen met prompting iteratie mogelijk maakt die verder gaat dan de eenmalige prompting-interfaces die gebruikelijk zijn in generatieve tools van vandaag. Door dit werk stellen we voor hoe LLMs een breed publiek kunnen in staat stellen zich bezig te houden met het creëren van animaties.
We introduceren model editing met canonieke voorbeelden, een setting waarin (1) een enkel leervoorbeeld wordt gegeven voor elk gewenst gedrag, (2) evaluatie uitsluitend out-of-distribution plaatsvindt, en (3) afwijking van een initieel model strikt beperkt is. Een canoniek voorbeeld is een eenvoudig geval van goed gedrag, bijvoorbeeld "De hoofdstad van Mauritius is Port Louis" of slecht gedrag, bijvoorbeeld "Een aspect van onderzoekers is kilhartig". De evaluatieset bevat complexere voorbeelden van elk gedrag (zoals een alinea waarin de hoofdstad van Mauritius wordt genoemd). We creëren drie datasets en passen er drie meer aan voor model editing met canonieke voorbeelden, waarbij kennisintensieve verbeteringen, het verminderen van sociale vooroordelen en syntactische randgevallen worden behandeld. In onze experimenten met Pythia-taalmodellen vinden we dat LoRA beter presteert dan volledige finetuning en MEMIT. Vervolgens richten we ons op de Backpack-taalmodelarchitectuur omdat deze gericht is op gerichte verbetering. De Backpack definieert een grote bank van betekenisvectoren—een decompositie van de verschillende gebruiksmogelijkheden van elk woord—die worden gewogen en opgeteld om de uitvoerlogits van het model te vormen. We stellen betekenis-finetuning voor, waarbij een paar (ongeveer 10) betekenisvectoren worden geselecteerd en gefinetuned voor elk canoniek voorbeeld, en we ontdekken dat dit andere finetuningmethoden overtreft, bijvoorbeeld een verbetering van 4,8% versus 0,3%. Ten slotte verbeteren we GPT-J-6B door een inferentie-tijdensemble met alleen de wijzigingen van betekenis-finetuning van een 35x kleinere Backpack, waarbij in één setting het bewerken van GPT-J zelf wordt overtroffen (4,1% versus 1,0%).
We introduceren geanimeerde stickers, een videodiffusiemodel dat een animatie genereert op basis van een tekstprompt en een statische stickerafbeelding. Ons model is gebouwd op de state-of-the-art Emu tekst-naar-beeldmodel, met de toevoeging van temporele lagen om beweging te modelleren. Vanwege de domeinkloof, d.w.z. verschillen in visuele en bewegingsstijl, kan een model dat goed presteerde bij het genereren van natuurlijke video's geen levendige video's meer genereren wanneer het wordt toegepast op stickers. Om deze kloof te overbruggen, gebruiken we een tweestaps finetuning-pijplijn: eerst met zwak in-domein data, gevolgd door een human-in-the-loop (HITL) strategie die we ensemble-of-teachers noemen. Het distilleert de beste kwaliteiten van meerdere leraren in een kleiner studentmodel. We laten zien dat deze strategie ons in staat stelt specifiek verbeteringen aan te brengen in de bewegingskwaliteit terwijl de stijl van de statische afbeelding behouden blijft. Met inferentie-optimalisaties kan ons model een acht-frame video genereren met hoogwaardige, interessante en relevante beweging in minder dan een seconde.
We presenteren Premier-TACO, een aanpak voor het leren van multitask-functie-representaties die is ontworpen om de efficiëntie van few-shot beleidsleren in sequentiële besluitvormingstaken te verbeteren. Premier-TACO maakt gebruik van een subset van multitask offline datasets om een algemene functie-representatie voor te trainen, die kritieke omgevingsdynamiek vastlegt en wordt verfijnd met minimale expertdemonstraties. Het breidt het temporal action contrastive learning (TACO) doel uit, dat bekend staat om state-of-the-art resultaten in visuele controle taken, door een nieuwe strategie voor het bemonsteren van negatieve voorbeelden te incorporeren. Deze strategie is cruciaal voor het aanzienlijk verbeteren van de computationele efficiëntie van TACO, waardoor grootschalige multitask offline voorafgaande training haalbaar wordt. Onze uitgebreide empirische evaluatie in een diverse set van continue controle benchmarks, waaronder Deepmind Control Suite, MetaWorld en LIBERO, toont de effectiviteit van Premier-TACO aan in het vooraf trainen van visuele representaties, wat het few-shot imitatieleren van nieuwe taken aanzienlijk verbetert. Onze code, voorafgaande trainingsdata, evenals vooraf getrainde modelcheckpoints zullen worden vrijgegeven op https://github.com/PremierTACO/premier-taco.
Ondanks het aanzienlijke succes van grote taalmmodellen (LLM's), vormen hun uitgebreide geheugeneisen uitdagingen bij het inzetten ervan voor het genereren van tokens in lange contexten. De aanzienlijke geheugenvoetafdruk van LLM-decoders ontstaat door de noodzaak om alle voorgaande tokens op te slaan in de aandachtmodule, een vereiste die wordt opgelegd door key-value (KV)-caching. In dit werk richten we ons op het ontwikkelen van een efficiënte compressietechniek voor de KV-cache. Empirisch bewijs wijst op een significante clusteringstendens binnen key-embeddings in de aandachtmodule. Gebaseerd op dit inzicht hebben we een nieuwe cachingmethode ontwikkeld met sublineaire complexiteit, waarbij online clustering wordt toegepast op key-tokens en online ell_2-steekproeven op waarden. Het resultaat is een bewezen nauwkeurig en efficiënt aandacht-decodeeralgoritme, genaamd SubGen. Dit algoritme zorgt niet alleen voor een sublineaire geheugenvoetafdruk en sublineaire tijdcomplexiteit, maar we leggen ook een strakke foutgrens vast voor onze aanpak. Empirische evaluaties op taken voor het beantwoorden van vragen in lange contexten tonen aan dat SubGen aanzienlijk beter presteert dan bestaande en state-of-the-art KV-cachecompressiemethoden wat betreft prestaties en efficiëntie.
Bestaande methoden voor het beheersen van taalmodellen, zoals RLHF en Constitutional AI, omvatten het bepalen welke LLM-gedragingen wenselijk zijn en deze te trainen in een taalmodel. In veel gevallen is het echter wenselijk dat LLM's tijdens de inferentie beheersbaar zijn, zodat ze in meerdere contexten met uiteenlopende behoeften kunnen worden gebruikt. We illustreren dit met het Roze Olifant Probleem: een LLM instrueren om een bepaalde entiteit (een "Roze Olifant") niet te bespreken, en in plaats daarvan een voorkeursentiteit ("Grijze Olifant") te bespreken. We passen een nieuwe vereenvoudiging van Constitutional AI toe, Direct Principle Feedback, die het rangschikken van reacties overslaat en DPO direct gebruikt op kritieken en revisies. Onze resultaten laten zien dat na DPF-finetuning op onze synthetische Roze Olifanten dataset, ons 13B gefinetunede LLaMA 2-model aanzienlijk beter presteert dan Llama-2-13B-Chat en een geprompt baseline, en even goed presteert als GPT-4 op onze samengestelde testset die het Roze Olifant Probleem beoordeelt.
Grote Taalmodellen (LLMs) worden tegenwoordig verwacht inhoud te genereren die aansluit bij menselijke voorkeuren. Huidig onderzoek richt zich op afstemming tijdens de modeltraining, via technieken zoals Reinforcement Learning met Menselijke Feedback (RLHF). Het is echter onduidelijk of dergelijke methoden een effectieve keuze zijn om afstemmingsdoelen aan het model aan te leren. Ten eerste zijn het onvermogen om meerdere, aangepaste beloningen te integreren en de afhankelijkheid van de ontwikkelaar van het model voor universele en statische principes belangrijke beperkingen. Ten tweede zijn de resterende hiaten in de modeltraining en de betrouwbaarheid van dergelijke benaderingen ook twijfelachtig (bijvoorbeeld gevoeligheid voor jailbreaking zelfs na veiligheidstraining). Om dit aan te pakken, stellen we DeAL voor, een raamwerk dat de gebruiker in staat stelt beloningsfuncties aan te passen en Decoding-time Alignment van LLMs (DeAL) mogelijk maakt. In de kern beschouwen we decodering als een heuristisch geleid zoekproces en faciliteren we het gebruik van een breed scala aan afstemmingsdoelen. Onze experimenten met programmatische beperkingen zoals trefwoord- en lengtebeperkingen (uitgebreid bestudeerd in het pre-LLM-tijdperk) en abstracte doelen zoals onschadelijkheid en behulpzaamheid (voorgesteld in het post-LLM-tijdperk) laten zien dat we met DeAL fijnmazige afwegingen kunnen maken, de naleving van afstemmingsdoelen kunnen verbeteren en resterende hiaten in LLMs kunnen aanpakken. Tot slot, hoewel DeAL effectief kan worden gecombineerd met RLHF en promptingtechnieken, maakt de algemeenheid ervan het decoderen trager, een optimalisatie die we overlaten aan toekomstig werk.
Recente vooruitgang in real-world toepassingen van reinforcement learning (RL) heeft vertrouwd op het vermogen om systemen op grote schaal nauwkeurig te simuleren. Echter, domeinen zoals vloeistofdynamische systemen vertonen complexe dynamische fenomenen die moeilijk te simuleren zijn bij hoge integratiesnelheden, wat de directe toepassing van moderne deep RL-algoritmen op vaak kostbare of veiligheidskritieke hardware beperkt. In dit werk introduceren we "Box o Flows", een nieuw experimenteel controlesysteem voor op de werkbank, dat systematisch RL-algoritmen evalueert in dynamische real-world scenario's. We beschrijven de belangrijkste componenten van de Box o Flows en demonstreren via een reeks experimenten hoe state-of-the-art modelvrije RL-algoritmen een verscheidenheid aan complexe gedragingen kunnen synthetiseren via eenvoudige beloningsspecificaties. Bovendien onderzoeken we de rol van offline RL in data-efficiënte hypothesetesten door het hergebruiken van eerdere ervaringen. Wij geloven dat de inzichten uit deze voorlopige studie en de beschikbaarheid van systemen zoals de Box o Flows de weg ondersteunen voor de ontwikkeling van systematische RL-algoritmen die algemeen toepasbaar zijn op complexe, dynamische systemen. Aanvullend materiaal en video's van experimenten zijn beschikbaar op https://sites.google.com/view/box-o-flows/home.