Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De alomtegenwoordige en aantoonbaar suboptimale keuze om afbeeldingen te verkleinen naar een vaste resolutie voordat ze worden verwerkt met computervisie-modellen, is nog steeds niet succesvol uitgedaagd. Modellen zoals de Vision Transformer (ViT) bieden echter flexibele, op sequenties gebaseerde modellering, en dus variërende invoersequentielengtes. Wij maken hier gebruik van met NaViT (Native Resolution ViT), dat sequentiepakking gebruikt tijdens de training om invoer van willekeurige resoluties en beeldverhoudingen te verwerken. Naast flexibel modelgebruik, demonstreren we verbeterde trainingsefficiëntie voor grootschalige supervised en contrastieve beeld-tekst pretraining. NaViT kan efficiënt worden overgedragen naar standaard taken zoals beeld- en videoclassificatie, objectdetectie en semantische segmentatie, en leidt tot verbeterde resultaten op robuustheid en eerlijkheid benchmarks. Tijdens inferentie kan de flexibiliteit in invoerresolutie worden gebruikt om soepel te navigeren in de afweging tussen kosten en prestaties tijdens de testfase. Wij geloven dat NaViT een afwijking markeert van de standaard, door CNN ontworpen, invoer- en modelleringspipeline die door de meeste computervisie-modellen wordt gebruikt, en een veelbelovende richting vertegenwoordigt voor ViTs.
Wij stellen de In-context Autoencoder (ICAE) voor voor contextcompressie in een groot taalmodel (LLM). De ICAE bestaat uit twee modules: een leerbare encoder die met LoRA is aangepast vanuit een LLM om een lange context samen te persen in een beperkt aantal geheugenslots, en een vaste decoder die het doel-LLM is en zich kan baseren op de geheugenslots voor verschillende doeleinden. We pretrainen eerst de ICAE met zowel autoencoder- als taalmodelleringsdoelstellingen op enorme hoeveelheden tekstdata, waardoor het geheugenslots kan genereren die de oorspronkelijke context nauwkeurig en uitgebreid weergeven. Vervolgens fine-tunen we de gepretrainde ICAE op een kleine hoeveelheid instructiedata om de interactie met verschillende prompts te verbeteren voor het produceren van gewenste reacties. Onze experimentele resultaten tonen aan dat de ICAE, getraind met ons voorgestelde pretrainings- en fine-tuningparadigma, effectief geheugenslots kan produceren met een contextcompressie van 4x, waarop het doel-LLM goed kan voortborduren om te reageren op verschillende prompts. De veelbelovende resultaten tonen de significante implicaties van de ICAE voor zijn nieuwe aanpak van het langecontextprobleem en zijn potentieel om de reken- en geheugenoverhead voor LLM-inferentie in de praktijk te verminderen, wat wijst op verder onderzoek naar contextmanagement voor een LLM. Onze code en data zullen binnenkort worden vrijgegeven.
Grote taalmodellen (LLM's) tonen een opmerkelijke vaardigheid om natuurlijke taal instructies te begrijpen, te redeneren en te genereren. De ontwikkeling van LLM's is echter voornamelijk gericht geweest op talen met veel bronnen, zoals Engels, waardoor hun toepasbaarheid en onderzoek in andere talen beperkt blijft. Daarom presenteren wij PolyLM, een meertalig LLM getraind op 640 miljard (B) tokens, beschikbaar in twee modelgroottes: 1,7B en 13B. Om de meertalige capaciteiten te verbeteren, hebben we 1) tweetalige data geïntegreerd in de trainingsdata; en 2) een curriculumleren strategie toegepast die het aandeel van niet-Engelse data verhoogt van 30% in de eerste fase naar 60% in de laatste fase tijdens de pre-training. Verder stellen we een meertalige zelf-instructie methode voor die automatisch 132,7K diverse meertalige instructies genereert voor model fine-tuning. Om de prestaties van het model te beoordelen, verzamelen we verschillende bestaande meertalige taken, waaronder meertalig begrip, vraagbeantwoording, generatie en vertaling. Uitgebreide experimenten tonen aan dat PolyLM andere open-source modellen zoals LLaMA en BLOOM overtreft op meertalige taken, terwijl het vergelijkbare prestaties behoudt in het Engels. Onze modellen, samen met de instructiedata en meertalige benchmark, zijn beschikbaar op: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
Ondanks de dominantie en effectiviteit van schaling, wat resulteert in grote netwerken met honderden miljarden parameters, blijft de noodzaak om overgeparametriseerde modellen te trainen slecht begrepen, en alternatieve benaderingen maken het niet noodzakelijkerwijs goedkoper om hoogpresterende modellen te trainen. In dit artikel onderzoeken we low-rank trainingsmethoden als een alternatieve benadering voor het trainen van grote neurale netwerken. We introduceren een nieuwe methode genaamd ReLoRA, die gebruikmaakt van low-rank updates om high-rank netwerken te trainen. We passen ReLoRA toe op het vooraf trainen van transformer-taalmodellen met tot 350M parameters en laten vergelijkbare prestaties zien als reguliere neurale netwerktraining. Bovendien observeren we dat de efficiëntie van ReLoRA toeneemt met de grootte van het model, wat het een veelbelovende benadering maakt voor het efficiënt trainen van netwerken met meerdere miljarden parameters. Onze bevindingen werpen licht op het potentieel van low-rank trainingsmethoden en hun implicaties voor schalingswetten.
Dit artikel introduceert InternVid, een grootschalige, video-centrische multimodale dataset die het mogelijk maakt krachtige en overdraagbare video-tekst representaties te leren voor multimodale begrips- en generatietaken. De InternVid dataset bevat meer dan 7 miljoen video's met een totale duur van bijna 760K uur, wat resulteert in 234M videoclips vergezeld van gedetailleerde beschrijvingen van in totaal 4,1 miljard woorden. Onze kernbijdrage is het ontwikkelen van een schaalbare aanpak om autonoom een hoogwaardige video-tekst dataset te bouwen met behulp van grote taalmodellen (LLM), waardoor de effectiviteit ervan wordt aangetoond bij het leren van video-taal representaties op grote schaal. Specifiek maken we gebruik van een multi-schaal aanpak om video-gerelateerde beschrijvingen te genereren. Daarnaast introduceren we ViCLIP, een video-tekst representatie-leermodel gebaseerd op ViT-L. Dit model, getraind op InternVid via contrastief leren, toont leidende zero-shot actieherkenning en competitieve video-retrieval prestaties. Naast basisvideo-begripstaken zoals herkenning en retrieval, hebben onze dataset en model brede toepassingen. Ze zijn met name nuttig voor het genereren van verweven video-tekst data voor het leren van een video-centraal dialoogsysteem, en voor het bevorderen van onderzoek naar video-naar-tekst en tekst-naar-video generatie. Deze voorgestelde bronnen bieden een hulpmiddel voor onderzoekers en praktijkmensen die geïnteresseerd zijn in multimodale video-begrips- en generatietaken.
Grote taalmodelen (LLMs) hebben indrukwekkende resultaten laten zien bij het ontwikkelen van generalistische planningsagenten voor diverse taken. Het verankeren van deze plannen in uitgestrekte, meer verdiepingen en meerdere kamers omvattende omgevingen vormt echter een aanzienlijke uitdaging voor robotica. Wij introduceren SayPlan, een schaalbare aanpak voor op LLM gebaseerde, grootschalige taakplanning voor robotica met behulp van 3D-scènegrafiek (3DSG) representaties. Om de schaalbaarheid van onze aanpak te waarborgen, doen we het volgende: (1) benutten we de hiërarchische aard van 3DSGs om LLMs in staat te stellen een semantische zoektocht uit te voeren naar taakrelevante subgrafieken vanuit een kleinere, samengevouwen representatie van de volledige grafiek; (2) verkleinen we de planningshorizon voor het LLM door een klassieke padplanner te integreren en (3) introduceren we een iteratief herplanningsproces dat het initiële plan verfijnt met feedback van een scènegrafieksimulator, waarbij onuitvoerbare acties worden gecorrigeerd en planningsfouten worden vermeden. We evalueren onze aanpak in twee grootschalige omgevingen die tot 3 verdiepingen, 36 kamers en 140 objecten omvatten, en tonen aan dat onze aanpak in staat is om grootschalige, langetermijn taakplannen te verankeren vanuit abstracte en natuurlijke taal instructies voor een mobiele manipulatorrobot om uit te voeren.
Grote taalmodelen ondergaan doorgaans twee trainingsfasen: voorafgaande training en finetuning. Hoewel grootschalige voorafgaande training het model sterke mogelijkheden geeft om natuurlijke taalreacties te genereren, kunnen deze vooraf getrainde modellen soms nog steeds falen in het begrijpen van menselijke instructies. Om het vermogen van taalmodelen om instructies te interpreteren en erop te reageren te verbeteren, is instructiefinetuning naar voren gekomen als een cruciale methode op dit gebied. Recente studies hebben aangetoond dat grote taalmodelen kunnen worden gefinetuned om goed te presteren, zelfs met een kleine hoeveelheid hoogwaardige instructievolgende data. De selectie van hoogwaardige datasets voor het finetunen van taalmodelen ontbeert echter nog duidelijke richtlijnen. In dit artikel stellen we InstructMining voor, een lineaire regel voor het evalueren van de kwaliteit van instructievolgende data. We formuleren InstructMining met behulp van specifieke natuurlijke taalindicatoren. Om de relatie tussen data kwaliteit en deze indicatoren te onderzoeken, voeren we uitgebreide finetuningexperimenten uit. De experimentresultaten worden vervolgens gebruikt om parameters in InstructMining te schatten. Om de prestaties verder te onderzoeken, gebruiken we InstructMining om hoogwaardige data te selecteren uit onbekende datasets. Resultaten tonen aan dat InstructMining kan helpen relatief hoogwaardige samples te selecteren uit verschillende instructievolgende datasets. Vergeleken met modellen die zijn gefinetuned op ongefilterde datasets, presteren modellen die zijn gefinetuned op door InstructMining geselecteerde datasets beter in 42,5% van de gevallen.
Grote taalmodellen (LLMs), zoals GPT-4, hebben opmerkelijke capaciteiten getoond voor een breed scala aan taken, waaronder gezondheidstoepassingen. In dit artikel onderzoeken we hoe LLMs kunnen worden gebruikt om de curatie van biomedische kennis op te schalen. We constateren dat hoewel LLMs al een behoorlijke competentie hebben in het structureren van biomedische tekst, er aanzienlijke verbeteringen kunnen worden bereikt ten opzichte van out-of-the-box LLMs door middel van distillatie in een taakspecifiek studentenmodel via zelfgesuperviseerd leren, met bijkomende voordelen zoals kosten, efficiëntie en toegang tot een white-box model. We voeren een casestudy uit over de extractie van bijwerkingen van medicijnen (ADE), wat een belangrijk gebied is voor het verbeteren van de zorg. Bij standaard ADE-extractie-evaluatie behaalde een GPT-3.5 gedistilleerd PubMedBERT-model een vergelijkbare nauwkeurigheid als gesuperviseerde state-of-the-art modellen zonder gebruik te maken van gelabelde data. Ondanks dat het meer dan 1.000 keer kleiner was, presteerde het gedistilleerde model zijn leraar GPT-3.5 met meer dan 6 absolute punten in F1 en GPT-4 met meer dan 5 absolute punten. Ablatiestudies over de keuze van het distillatiemodel (bijvoorbeeld PubMedBERT versus BioGPT) en de ADE-extractiearchitectuur werpen licht op de beste praktijken voor biomedische kennisextractie. Soortgelijke verbeteringen werden bereikt door distillatie voor andere standaard biomedische kennisextractietaken, zoals gen-ziekte-associaties en beschermde gezondheidsinformatie, wat verder de belofte van deze aanpak illustreert.
Het succes van de GPT-serie bewijst dat GPT algemene informatie uit sequenties kan extraheren, waardoor alle downstream taken baat hebben. Dit motiveert ons om vooraf getrainde modellen te gebruiken om de verborgen informatie in DNA-sequenties te verkennen. Echter, de gegevens en taakeisen in DNA-sequentieanalyse zijn complex en divers, aangezien DNA-gerelateerde gegevens verschillende soorten informatie omvatten, zoals sequenties, expressieniveaus, enz., terwijl er momenteel geen model specifiek is ontworpen voor deze kenmerken. Hierbij presenteren wij DNAGPT, een gegeneraliseerd foundation model dat vooraf is getraind op meer dan 10 miljard baseparen van 9 soorten, en dat kan worden afgestemd op elke DNA-sequentieanalyse taak. Ons model kan tegelijkertijd DNA-sequenties en getallen verwerken of uitvoeren. Bovendien stelt ons unieke tokenontwerp gebruikers in staat om prompts te ontwerpen volgens hun eigen taakeisen, waardoor het toepasbaar is op elk type taak. We hebben ons model geëvalueerd op classificatie-, regressie- en generatietaken. We tonen aan dat DNAGPT baat heeft bij voorafgaande training, en daarom prestatieverbeteringen kan brengen voor elke downstream taak. Ons model is niet alleen een nieuwe poging in het veld van genomanalyse, maar biedt ook een nieuwe richting voor de toepassing van foundation modellen in de biologie.
Voordat een taalmodel (LM) binnen een bepaald domein wordt ingezet, is het belangrijk om de neiging om feitelijk onjuiste informatie in dat domein te genereren te meten. Bestaande evaluatiemethoden voor feitelijke generatie richten zich op feiten die uit het LM zelf worden bemonsterd, en beheersen dus niet de set van geëvalueerde feiten, wat kan leiden tot onderrepresentatie van zeldzame en onwaarschijnlijke feiten. Wij stellen FACTOR voor: Factual Assessment via Corpus TransfORmation, een schaalbare aanpak voor het evalueren van de feitelijkheid van LM's. FACTOR transformeert automatisch een feitelijk corpus van belang in een benchmark die de neiging van een LM evalueert om ware feiten uit het corpus te genereren versus vergelijkbare maar onjuiste uitspraken. We gebruiken ons framework om twee benchmarks te creëren: Wiki-FACTOR en News-FACTOR. We tonen aan dat: (i) onze benchmarkscores toenemen met de modelgrootte en verbeteren wanneer het LM wordt aangevuld met retrieval; (ii) de benchmarkscore correleert met perplexiteit, maar de twee metrieken zijn het niet altijd eens over de modelrangschikking; en (iii) wanneer perplexiteit en benchmarkscore niet overeenkomen, de laatste beter de feitelijkheid in open-eindegeneratie weerspiegelt, zoals gemeten door menselijke annotators. We maken onze data en code publiekelijk beschikbaar op https://github.com/AI21Labs/factor.
Ondanks de indrukwekkende mogelijkheden van recente tekst-naar-beeldmodellen om hoogwaardige afbeeldingen te genereren, hebben huidige benaderingen vaak moeite om objecten met verschillende attributen en relaties effectief samen te voegen tot een complexe en samenhangende scène. Wij stellen T2I-CompBench voor, een uitgebreide benchmark voor open-wereld compositieve tekst-naar-beeldgeneratie, bestaande uit 6.000 compositieve tekstprompts uit 3 categorieën (attribuutbinding, objectrelaties en complexe composities) en 6 subcategorieën (kleurbinding, vormbinding, textuurbinding, ruimtelijke relaties, niet-ruimtelijke relaties en complexe composities). We introduceren verder verschillende evaluatiemetrics die specifiek zijn ontworpen om compositieve tekst-naar-beeldgeneratie te evalueren. We introduceren een nieuwe benadering, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), om de compositieve tekst-naar-beeldgeneratiecapaciteiten van vooraf getrainde tekst-naar-beeldmodellen te verbeteren. Uitgebreide experimenten en evaluaties worden uitgevoerd om eerdere methoden op T2I-CompBench te benchmarken en om de effectiviteit van onze voorgestelde evaluatiemetrics en GORS-benadering te valideren. De projectpagina is beschikbaar op https://karine-h.github.io/T2I-CompBench/.
Het tekstueel en semantisch begrijpen van afbeeldingen is essentieel voor het genereren van passende bijschriften. Dit begrip vereist de detectie van objecten, het modelleren van relaties tussen deze objecten, een beoordeling van de semantiek van de scène en, ten slotte, het representeren van de geëxtraheerde kennis in een taalruimte. Om rijke taalvaardigheden te bereiken en tegelijkertijd goede afbeelding-taal-mappingen te garanderen, werden vooraf getrainde taalmodelen (LMs) geconditioneerd op vooraf getrainde multimodale (afbeelding-tekst) modellen die afbeeldingen als invoer toestaan. Dit vereist een afstemming van de afbeeldingsrepresentatie van het multimodale model met de taalrepresentaties van een generatief LM. Het is echter niet duidelijk hoe de semantiek die door de visuele encoder van het multimodale model wordt gedetecteerd, het beste kan worden overgedragen naar het LM. We introduceren twee nieuwe manieren om een lineaire mapping te construeren die met succes semantiek overdraagt tussen de inbeddingsruimtes van de twee vooraf getrainde modellen. De eerste methode stemt de inbeddingsruimte van de multimodale taalencoder af op de inbeddingsruimte van het vooraf getrainde LM via token-correspondenties. De tweede methode maakt gebruik van aanvullende data die bestaat uit afbeelding-tekst-paren om de mapping direct van visuele naar taalruimte te construeren. Door onze semantische mapping te gebruiken, maken we het mogelijk om afbeeldingsbijschriften te genereren met LMs zonder toegang tot gradientinformatie. Door gebruik te maken van verschillende databronnen behalen we sterke prestaties op het gebied van bijschriften op de MS-COCO- en Flickr30k-datasets. Zelfs bij beperkte data overtreft onze methode gedeeltelijk de prestaties van andere zero-shot en zelfs gefinetunede concurrenten. Onze ablatiestudies tonen aan dat zelfs LMs met slechts 250M parameters in staat zijn om goede bijschriften te genereren door gebruik te maken van onze semantische mapping. Onze aanpak maakt het genereren van afbeeldingsbijschriften toegankelijker voor instellingen met beperkte rekenbronnen.
Naarmate de toepassingsruimte van taalmodelle blijft evolueren, is het een natuurlijke vraag hoe we modellen snel kunnen aanpassen aan nieuwe taken. We benaderen deze klassieke vraag vanuit een perspectief van continu leren, waarbij we streven naar het blijven finetunen van modellen die getraind zijn op eerdere taken voor nieuwe taken, met als doel relevante kennis "over te dragen". Deze strategie brengt echter ook het risico met zich mee van meer kwaad dan goed, oftewel negatieve overdracht. In dit artikel construeren we een nieuwe benchmark van taaksequenties die gericht zijn op verschillende mogelijke overdrachtsscenario's waarmee men te maken kan krijgen, zoals een reeks taken met een hoge kans op positieve overdracht, een hoge kans op negatieve overdracht, geen verwacht effect, of een mix van elk. Een ideale leerder zou in staat moeten zijn om informatie maximaal te benutten van alle taken die enig potentieel hebben voor positieve overdracht, terwijl ook de negatieve effecten van afleidende taken die verwarring kunnen veroorzaken, worden vermeden. Vervolgens stellen we een eenvoudige, maar effectieve leerder voor die aan veel van onze wensen voldoet door simpelweg een selectieve strategie te gebruiken voor het initialiseren van nieuwe modellen vanuit checkpoints van eerdere taken. Toch blijven er beperkingen bestaan, en we hopen dat deze benchmark de gemeenschap kan helpen om dergelijke leerders verder te ontwikkelen en te analyseren.
Grote taalmodellen (LLM's) blijken een schat aan bruikbare kennis te bevatten die kan worden geëxtraheerd voor robotmanipulatie in de vorm van redenering en planning. Ondanks de vooruitgang zijn de meeste modellen nog steeds afhankelijk van vooraf gedefinieerde bewegingsprimitieven om fysieke interacties met de omgeving uit te voeren, wat een groot knelpunt blijft. In dit werk streven we ernaar robotbanen te synthetiseren, d.w.z. een dichte reeks van 6-DoF eindpunt-wegpunten, voor een grote verscheidenheid aan manipulatietaken, gegeven een open set van instructies en een open set van objecten. We bereiken dit door eerst te observeren dat LLM's uitblinken in het afleiden van affordanties en beperkingen op basis van een vrije-taalinstructie. Belangrijker nog, door gebruik te maken van hun codeerschrijfvaardigheden, kunnen ze interacteren met een visueel-taalmodel (VLM) om 3D-waardekaarten samen te stellen om de kennis te verankeren in de observatieruimte van de agent. De samengestelde waardekaarten worden vervolgens gebruikt in een modelgebaseerd planningsraamwerk om zero-shot gesloten-lus robotbanen te synthetiseren met robuustheid tegen dynamische verstoringen. We demonstreren verder hoe het voorgestelde raamwerk kan profiteren van online ervaringen door efficiënt een dynamisch model te leren voor scènes die contactrijke interacties omvatten. We presenteren een grootschalige studie van de voorgestelde methode in zowel gesimuleerde als echte robotomgevingen, waarbij we het vermogen tonen om een grote verscheidenheid aan alledaagse manipulatietaken uit te voeren die zijn gespecificeerd in vrije-vorm natuurlijke taal. Projectwebsite: https://voxposer.github.io
Camera-in-hand-systemen hebben potentie getoond in het verbeteren van de steekproevefficiëntie en generalisatie bij visueel gestuurde robotmanipulatie. Voor robotimitaties is het echter nog steeds kostbaar om een menselijke teleoperator grote hoeveelheden expertdemonstraties met een echte robot te laten verzamelen. Video's van mensen die taken uitvoeren, daarentegen, zijn veel goedkoper te verzamelen, omdat ze de noodzaak van expertise in robotteleoperatie elimineren en snel in een breed scala aan scenario's kunnen worden vastgelegd. Daarom vormen menselijke videodemonstraties een veelbelovende bron van gegevens voor het leren van schaalbare en generaliseerbare robotmanipulatiebeleidsregels. In dit werk verrijken we beperkte robotimitatiedatasets met brede, ongelabelde menselijke videodemonstraties om de generalisatie van visuomotorische beleidsregels voor camera-in-hand-systemen aanzienlijk te verbeteren. Hoewel er een duidelijk visueel domeingat bestaat tussen menselijke en robotgegevens, hoeft ons framework geen expliciete domeinaanpassingsmethode toe te passen, omdat we gebruikmaken van de gedeeltelijke observeerbaarheid van camera-in-hand-systemen en een eenvoudig vast beeldmaskeringsschema. Op een reeks van acht taken in de echte wereld, waarbij zowel 3-DoF als 6-DoF robotarmbesturing betrokken is, verbetert onze methode de slagingspercentages van camera-in-hand-manipulatiebeleidsregels met gemiddeld 58% (absoluut), waardoor robots kunnen generaliseren naar zowel nieuwe omgevingsconfiguraties als nieuwe taken die niet in de robotdemonstratiegegevens zijn gezien. Bekijk videoresultaten op https://giving-robots-a-hand.github.io/.