Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren phi-1, een nieuw groot taalmodel voor code, met een aanzienlijk kleinere omvang dan concurrerende modellen: phi-1 is een Transformer-gebaseerd model met 1,3 miljard parameters, getraind gedurende 4 dagen op 8 A100's, met behulp van een selectie van "leerboekkwaliteit" data van het web (6 miljard tokens) en synthetisch gegenereerde leerboeken en oefeningen met GPT-3.5 (1 miljard tokens). Ondanks deze kleine schaal behaalt phi-1 een pass@1 nauwkeurigheid van 50,6% op HumanEval en 55,5% op MBPP. Het vertoont ook verrassende emergente eigenschappen in vergelijking met phi-1-base, ons model vóór de fine-tuning fase op een dataset van codeeroefeningen, en phi-1-small, een kleiner model met 350 miljoen parameters dat met dezelfde pipeline als phi-1 is getraind en nog steeds 45% op HumanEval behaalt.
Het genereren van realistische menselijke bewegingen op basis van gegeven actiebeschrijvingen heeft aanzienlijke vooruitgang geboekt vanwege de groeiende behoefte aan digitale mensen. Hoewel recente werken indrukwekkende resultaten hebben behaald in het direct genereren van bewegingen uit tekstuele actiebeschrijvingen, ondersteunen ze vaak slechts één modaliteit van het controlesignaal, wat hun toepassing in de echte digitale mensindustrie beperkt. Dit artikel presenteert een Motion General-Purpose generaTor (MotionGPT) die multimodale controlesignalen, zoals tekst en enkelvoudige frame-poses, kan gebruiken voor het genereren van opeenvolgende menselijke bewegingen door multimodale signalen te behandelen als speciale invoertokens in grote taalmodelen (LLM's). Specifiek kwantiseren we eerst multimodale controlesignalen in discrete codes en formuleren we deze vervolgens in een uniforme promptinstructie om de LLM's te vragen het bewegingsantwoord te genereren. Onze MotionGPT demonstreert een uniform model voor het genereren van menselijke bewegingen met multimodale controlesignalen door slechts 0,4% van de LLM-parameters af te stemmen. Voor zover wij weten, is MotionGPT de eerste methode om menselijke beweging te genereren met multimodale controlesignalen, wat we hopen dat licht kan werpen op deze nieuwe richting. Codes zullen worden vrijgegeven na acceptatie.
HomeRobot (zelfstandig naamwoord): Een betaalbare, meegaande robot die door woningen navigeert en een breed scala aan objecten manipuleert om alledaagse taken uit te voeren. Open-Vocabulary Mobile Manipulation (OVMM) is het probleem van het oppakken van elk object in een onbekende omgeving en het plaatsen ervan op een opgegeven locatie. Dit is een fundamentele uitdaging voor robots om nuttige assistenten te zijn in menselijke omgevingen, omdat het het aanpakken van deelproblemen uit verschillende domeinen van de robotica vereist: perceptie, taalbegrip, navigatie en manipulatie zijn allemaal essentieel voor OVMM. Bovendien brengt de integratie van de oplossingen voor deze deelproblemen zijn eigen aanzienlijke uitdagingen met zich mee. Om onderzoek op dit gebied te stimuleren, introduceren we de HomeRobot OVMM-benchmark, waarbij een agent door huishoudelijke omgevingen navigeert om nieuwe objecten te grijpen en ze op doelreceptacles te plaatsen. HomeRobot bestaat uit twee componenten: een simulatiecomponent, die gebruikmaakt van een grote en diverse verzameling objecten in nieuwe, hoogwaardige meerruimte woningomgevingen; en een real-world component, die een softwarestack biedt voor de goedkope Hello Robot Stretch om de replicatie van real-world experimenten tussen laboratoria aan te moedigen. We implementeren zowel reinforcement learning als heuristische (modelgebaseerde) basislijnen en tonen bewijs van sim-to-real transfer. Onze basislijnen behalen een slagingspercentage van 20% in de echte wereld; onze experimenten identificeren manieren waarop toekomstig onderzoek de prestaties kan verbeteren. Bekijk video's op onze website: https://ovmm.github.io/.
Ondanks het enorme succes van Large Language Models (LLMs) in codeerassistenten zoals GitHub Copilot, hebben deze modellen moeite om de context in een repository te begrijpen (bijv. imports, bovenliggende klassen, bestanden met vergelijkbare namen, enz.), wat resulteert in onnauwkeurige codeaanvullingen. Dit effect is sterker merkbaar bij het gebruik van deze assistenten voor repositories die het model niet heeft gezien tijdens de training, zoals propriëtaire software of werk-in-uitvoering codeprojecten. Recent onderzoek heeft de belofte getoond van het gebruik van context uit de repository tijdens inferentie. In dit werk breiden we dit idee uit en stellen we RepoFusion voor, een raamwerk om modellen te trainen om relevante repositorycontext te integreren. Experimenten met eenregelige codeaanvullingen laten zien dat onze modellen die zijn getraind met repositorycontext aanzienlijk beter presteren dan veel grotere codemodellen zoals CodeGen-16B-multi (ongeveer 73 keer groter) en de prestaties dicht benaderen van het ongeveer 70 keer grotere StarCoderBase-model dat is getraind met het Fill-in-the-Middle-doel. We beschouwen deze resultaten als een nieuwe en overtuigende demonstratie van de voordelen die training met repositorycontext kan bieden. We voeren uitgebreide ablatiestudies uit om de impact van ontwerpkeuzes zoals contexttype, aantal contexten, contextlengte en initialisatie binnen ons raamwerk te onderzoeken. Tot slot brengen we Stack-Repo uit, een dataset van 200 Java-repositories met permissieve licenties en bijna-gededupliceerde bestanden die zijn verrijkt met drie soorten repositorycontexten. Daarnaast stellen we de code en getrainde checkpoints van ons werk beschikbaar. Onze vrijgegeven bronnen zijn te vinden op https://huggingface.co/RepoFusion.
Puntwolkgegevens die in real-world toepassingen worden verzameld, zijn vaak incompleet. Data ontbreekt meestal doordat objecten vanuit gedeeltelijke gezichtspunten worden waargenomen, die slechts een specifiek perspectief of hoek vastleggen. Bovendien kan data incompleet zijn door occlusie en bemonstering met een lage resolutie. Bestaande aanvullingsmethoden vertrouwen op datasets van vooraf gedefinieerde objecten om de aanvulling van ruisachtige en incomplete puntwolken te begeleiden. Deze methoden presteren echter slecht wanneer ze worden getest op Out-Of-Distribution (OOD) objecten, die slecht vertegenwoordigd zijn in de trainingsdataset. Hier maken we gebruik van recente vooruitgang in tekstgeleide beeldgeneratie, wat heeft geleid tot belangrijke doorbraken in tekstgeleide vormgeneratie. We beschrijven een aanpak genaamd SDS-Complete die een vooraf getraind tekst-naar-beeld diffusiemodel gebruikt en de tekstsemantiek van een gegeven incomplete puntwolk van een object benut om een compleet oppervlakterepresentatie te verkrijgen. SDS-Complete kan een verscheidenheid aan objecten aanvullen met behulp van test-time optimalisatie zonder dure verzameling van 3D-informatie. We evalueren SDS-Complete op incomplete gescande objecten, vastgelegd door real-world dieptesensoren en LiDAR-scanners. We constateren dat het effectief objecten reconstrueert die afwezig zijn in veelvoorkomende datasets, waarbij de Chamfer-verlies met gemiddeld 50% wordt verminderd in vergelijking met huidige methoden. Projectpagina: https://sds-complete.github.io/
Geheugen-augmentatie is een krachtige aanpak om externe informatie efficiënt in taalmodelen te integreren, maar leidt tot verminderde prestaties in vergelijking met het ophalen van tekst. Recent onderzoek introduceerde LUMEN, een hybride geheugen-retrievalmethode die geheugen gedeeltelijk vooraf berekent en geheugenrepresentaties dynamisch bijwerkt met een kleinere live-encoder. Wij stellen GLIMMER voor, dat deze aanpak verbetert door 1) gebruik te maken van vrije toegang tot de krachtige geheugenrepresentaties door een ondiepe herrangschikker bovenop het geheugen toe te passen, waardoor de retrievalkwaliteit aanzienlijk wordt verbeterd tegen lage kosten, en 2) multi-task training te integreren om een algemene en hogere kwaliteit van geheugen en live-encoder te leren. GLIMMER behaalt sterke prestatieverbeteringen met hogere snelheden in vergelijking met LUMEN en FiD op de KILT-benchmark van kennisintensieve taken.
Het vermogen om heterogene robotervaring van verschillende robots en taken te benutten om snel nieuwe vaardigheden en belichamingen onder de knie te krijgen, heeft het potentieel om robotleren te transformeren. Geïnspireerd door recente vooruitgang in foundation-modellen voor visie en taal, stellen we een foundation-agent voor robotmanipulatie voor. Deze agent, genaamd RoboCat, is een visuele doel-geconditioneerde beslissingstransformator die in staat is om multi-belichaming actie-gelabelde visuele ervaring te verwerken. Deze data omvat een groot repertoire aan motorische controle vaardigheden van gesimuleerde en echte robotarmen met verschillende sets van observaties en acties. Met RoboCat demonstreren we het vermogen om te generaliseren naar nieuwe taken en robots, zowel zero-shot als door aanpassing met slechts 100–1000 voorbeelden voor de doeltaak. We laten ook zien hoe een getraind model zelf kan worden gebruikt om data te genereren voor volgende trainingsiteraties, wat een basisbouwsteen biedt voor een autonome verbeteringslus. We onderzoeken de mogelijkheden van de agent, met grootschalige evaluaties zowel in simulatie als op drie verschillende echte robotbelichamingen. We constateren dat naarmate we de trainingsdata uitbreiden en diversifiëren, RoboCat niet alleen tekenen van kruistakenoverdracht vertoont, maar ook efficiënter wordt in het aanpassen aan nieuwe taken.
Grote taalmodellen (LLMs) hebben opmerkelijke vaardigheden getoond in taalbegrip en -generatie. Bij de overgang van fundamentele LLMs naar instructievolgende LLMs speelt instructieafstemming een cruciale rol in het afstemmen van LLMs op menselijke voorkeuren. De bestaande LLMs zijn echter meestal gericht op Engels, wat leidt tot inferieure prestaties in niet-Engelse talen. Om de prestaties voor niet-Engelse talen te verbeteren, is het noodzakelijk om taalspecifieke trainingsdata te verzamelen voor fundamentele LLMs en taalspecifieke instructies te construeren voor instructieafstemming, wat beide zware taken zijn. Om de menselijke werklast te minimaliseren, stellen we voor om de capaciteiten van taalgeneratie en instructievolgen van Engels naar andere talen over te dragen via een interactieve vertaaltaak. We hebben BayLing ontwikkeld, een instructievolgend LLM, door LLaMA te gebruiken als het fundamentele LLM en automatisch interactieve vertaalinstructies te construeren voor instructieafstemming. Uitgebreide evaluaties tonen aan dat BayLing vergelijkbare prestaties bereikt als GPT-3.5-turbo, ondanks het gebruik van een aanzienlijk kleiner aantal parameters van slechts 13 miljard. Experimentele resultaten op vertaaltaken laten zien dat BayLing 95% van de enkelvoudige vertaalcapaciteit bereikt in vergelijking met GPT-4 bij automatische evaluatie en 96% van de interactieve vertaalcapaciteit in vergelijking met GPT-3.5-turbo bij menselijke evaluatie. Om de prestaties op algemene taken te schatten, hebben we een multi-turn instructietestset genaamd BayLing-80 gemaakt. De experimentele resultaten op BayLing-80 geven aan dat BayLing 89% van de prestaties bereikt in vergelijking met GPT-3.5-turbo. BayLing toont ook uitstekende prestaties op kennisbeoordeling van Chinese GaoKao en Engelse SAT, en staat op de tweede plaats na GPT-3.5-turbo onder een groot aantal instructievolgende LLMs. Demo, homepage, code en modellen van BayLing zijn beschikbaar.
Taalmodellen voor code (LMs) presteren goed wanneer de omringende code in de nabijheid van de generatie voldoende context biedt. Dit geldt niet wanneer het nodig wordt om types of functionaliteit te gebruiken die gedefinieerd zijn in een andere module of bibliotheek, vooral die welke niet gezien zijn tijdens de training. LMs hebben beperkt besef van dergelijke globale context en gaan hallucineren, bijvoorbeeld door types die in andere bestanden zijn gedefinieerd verkeerd te gebruiken. Recent werk probeert dit probleem te overwinnen door globale informatie op te halen om de lokale context aan te vullen. Dit maakt echter de prompt onnodig groot of vereist aanpassingen aan de architectuur en aanvullende training. Geïntegreerde ontwikkelomgevingen (IDEs) helpen ontwikkelaars door de globale context binnen handbereik te brengen met behulp van statische analyse. Wij breiden deze ondersteuning, die ontwikkelaars genieten, uit naar de LMs. Wij stellen een notie van monitors voor die op de achtergrond statische analyse gebruiken om het decoderen te begeleiden. In tegenstelling tot a priori ophalen, wordt statische analyse iteratief aangeroepen tijdens het gehele decodeerproces, waardoor de meest relevante suggesties op aanvraag worden geboden. Wij demonstreren het nut van ons voorstel door te monitoren op type-consistente gebruik van identificatoren wanneer een LM code genereert voor object dereferentie. Om onze aanpak te evalueren, hebben wij PragmaticCode samengesteld, een dataset van open-source projecten met hun ontwikkelomgevingen. Op modellen van verschillende parameterschaal tonen wij aan dat monitor-gestuurd decoderen consistent de mogelijkheid van een LM verbetert om niet alleen identificatoren te genereren die overeenkomen met de grondwaarheid, maar ook de compilatiesnelheden en overeenstemming met de grondwaarheid verbetert. Wij constateren dat LMs met minder parameters, wanneer begeleid door onze monitor, grotere LMs kunnen overtreffen. Met monitor-gestuurd decoderen behaalt SantaCoder-1.1B een betere compilatiesnelheid en volgende-identificator overeenkomst dan het veel grotere text-davinci-003 model. De datasets en code zullen worden vrijgegeven op https://aka.ms/monitors4codegen.
Denoising diffusiemodellen zijn een krachtig type generatieve modellen die worden gebruikt om complexe verdelingen van real-world signalen vast te leggen. Hun toepasbaarheid is echter beperkt tot scenario's waarin trainingsmonsters direct beschikbaar zijn, wat in praktijktoepassingen niet altijd het geval is. Bij inverse graphics is het doel bijvoorbeeld om monsters te genereren uit een verdeling van 3D-scènes die overeenkomen met een gegeven afbeelding, maar grondwaarheid 3D-scènes zijn niet beschikbaar en alleen 2D-afbeeldingen zijn toegankelijk. Om deze beperking aan te pakken, stellen we een nieuwe klasse van denoising diffusion probabilistische modellen voor die leren om te bemonsteren uit verdelingen van signalen die nooit direct worden waargenomen. In plaats daarvan worden deze signalen indirect gemeten via een bekend differentieerbaar voorwaarts model, dat gedeeltelijke observaties van het onbekende signaal produceert. Onze aanpak omvat de integratie van het voorwaartse model direct in het denoising-proces. Deze integratie verbindt effectief de generatieve modellering van observaties met de generatieve modellering van de onderliggende signalen, waardoor end-to-end training van een conditioneel generatief model over signalen mogelijk wordt. Tijdens inferentie maakt onze aanpak het mogelijk om te bemonsteren uit de verdeling van onderliggende signalen die consistent zijn met een gegeven gedeeltelijke observatie. We demonstreren de effectiviteit van onze methode op drie uitdagende computer vision-taken. In de context van inverse graphics maakt ons model bijvoorbeeld directe bemonstering mogelijk uit de verdeling van 3D-scènes die overeenkomen met een enkele 2D-invoerafbeelding.
Grootschalige visueel-taalkundige modellen (VLM) hebben indrukwekkende resultaten laten zien voor toepassingen van zoeken op basis van taal. Hoewel deze modellen zoekopdrachten op categorieniveau mogelijk maken, hebben ze momenteel moeite met gepersonaliseerde zoekopdrachten naar momenten in een video waar een specifiek object voorkomt, zoals "Mijn hond Biscuit". We presenteren de volgende drie bijdragen om dit probleem aan te pakken. Ten eerste beschrijven we een methode om een vooraf getraind VLM te meta-personaliseren, d.w.z. te leren hoe een VLM tijdens het testen gepersonaliseerd kan worden om in video's te zoeken. Onze methode breidt de tokenwoordenschat van het VLM uit door nieuwe woord-embeddings te leren die specifiek zijn voor elk object. Om alleen object-specifieke kenmerken vast te leggen, representeren we elke object-embedding als een combinatie van gedeelde en geleerde globale categoriefuncties. Ten tweede stellen we voor om een dergelijke personalisatie te leren zonder expliciete menselijke supervisie. Onze aanpak identificeert automatisch momenten van benoemde visuele objecten in video's met behulp van transcripties en visueel-taalkundige overeenkomsten in de embeddingruimte van het VLM. Tot slot introduceren we This-Is-My, een benchmark voor het ophalen van gepersonaliseerde video-objecten. We evalueren onze aanpak op This-Is-My en DeepFashion2 en laten zien dat we een relatieve verbetering van 15% behalen ten opzichte van de state-of-the-art op de laatste dataset.
Multitrack muziektranscriptie heeft als doel een muzikaal audio-input om te zetten in de muzieknoten van meerdere instrumenten tegelijkertijd. Het is een zeer uitdagende taak die doorgaans een complexer model vereist om bevredigende resultaten te behalen. Bovendien richten eerdere werken zich voornamelijk op transcripties van reguliere instrumenten, maar verwaarlozen daarbij vaak de zang, die meestal de belangrijkste signaalbron is als deze aanwezig is in een muziekstuk. In dit artikel stellen we een nieuwe deep neural network-architectuur voor, Perceiver TF, om de tijd-frequentieweergave van audio-input te modelleren voor multitrack-transcriptie. Perceiver TF breidt de Perceiver-architectuur uit door een hiërarchische uitbreiding te introduceren met een extra Transformer-laag om temporele samenhang te modelleren. Ons model erft daardoor de voordelen van Perceiver, die betere schaalbaarheid biedt, waardoor het transcripties van veel instrumenten in een enkel model goed kan verwerken. In experimenten trainen we een Perceiver TF om 12 instrumentklassen en zang te modelleren in een multi-task learning-benadering. Onze resultaten tonen aan dat het voorgestelde systeem de state-of-the-art tegenhangers (bijv. MT3 en SpecTNT) overtreft op verschillende openbare datasets.