HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

15 papers found

Patch n' Pack: NaViT, een Vision Transformer voor elke beeldverhouding en resolutie
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

Jul 12

ByMostafa Dehghani, Basil Mustafa, Josip Djolonga, Jonathan Heek, Matthias Minderer, Mathilde Caron, Andreas Steiner, Joan Puigcerver, Robert Geirhos, Ibrahim Alabdulmohsin, Avital Oliver, Piotr Padlewski, Alexey Gritsenko, Mario Lučić, Neil Houlsby

De alomtegenwoordige en aantoonbaar suboptimale keuze om afbeeldingen te verkleinen naar een vaste resolutie voordat ze worden verwerkt met computervisie-modellen, is nog steeds niet succesvol uitgedaagd. Modellen zoals de Vision Transformer (ViT) bieden echter flexibele, op sequenties gebaseerde modellering, en dus variërende invoersequentielengtes. Wij maken hier gebruik van met NaViT (Native Resolution ViT), dat sequentiepakking gebruikt tijdens de training om invoer van willekeurige resoluties en beeldverhoudingen te verwerken. Naast flexibel modelgebruik, demonstreren we verbeterde trainingsefficiëntie voor grootschalige supervised en contrastieve beeld-tekst pretraining. NaViT kan efficiënt worden overgedragen naar standaard taken zoals beeld- en videoclassificatie, objectdetectie en semantische segmentatie, en leidt tot verbeterde resultaten op robuustheid en eerlijkheid benchmarks. Tijdens inferentie kan de flexibiliteit in invoerresolutie worden gebruikt om soepel te navigeren in de afweging tussen kosten en prestaties tijdens de testfase. Wij geloven dat NaViT een afwijking markeert van de standaard, door CNN ontworpen, invoer- en modelleringspipeline die door de meeste computervisie-modellen wordt gebruikt, en een veelbelovende richting vertegenwoordigt voor ViTs.

In-context Autoencoder voor Contextcompressie in een Groot Taalmodel
In-context Autoencoder for Context Compression in a Large Language Model

Jul 13

ByTao Ge, Jing Hu, Xun Wang, Si-Qing Chen, Furu Wei

Wij stellen de In-context Autoencoder (ICAE) voor voor contextcompressie in een groot taalmodel (LLM). De ICAE bestaat uit twee modules: een leerbare encoder die met LoRA is aangepast vanuit een LLM om een lange context samen te persen in een beperkt aantal geheugenslots, en een vaste decoder die het doel-LLM is en zich kan baseren op de geheugenslots voor verschillende doeleinden. We pretrainen eerst de ICAE met zowel autoencoder- als taalmodelleringsdoelstellingen op enorme hoeveelheden tekstdata, waardoor het geheugenslots kan genereren die de oorspronkelijke context nauwkeurig en uitgebreid weergeven. Vervolgens fine-tunen we de gepretrainde ICAE op een kleine hoeveelheid instructiedata om de interactie met verschillende prompts te verbeteren voor het produceren van gewenste reacties. Onze experimentele resultaten tonen aan dat de ICAE, getraind met ons voorgestelde pretrainings- en fine-tuningparadigma, effectief geheugenslots kan produceren met een contextcompressie van 4x, waarop het doel-LLM goed kan voortborduren om te reageren op verschillende prompts. De veelbelovende resultaten tonen de significante implicaties van de ICAE voor zijn nieuwe aanpak van het langecontextprobleem en zijn potentieel om de reken- en geheugenoverhead voor LLM-inferentie in de praktijk te verminderen, wat wijst op verder onderzoek naar contextmanagement voor een LLM. Onze code en data zullen binnenkort worden vrijgegeven.

PolyLM: Een Open Source Polyglot Taalmodel op Grote Schaal
PolyLM: An Open Source Polyglot Large Language Model

Jul 12

ByXiangpeng Wei, Haoran Wei, Huan Lin, Tianhao Li, Pei Zhang, Xingzhang Ren, Mei Li, Yu Wan, Zhiwei Cao, Binbin Xie, Tianxiang Hu, Shangjie Li, Binyuan Hui, Bowen Yu, Dayiheng Liu, Baosong Yang, Fei Huang, Jun Xie

Grote taalmodellen (LLM's) tonen een opmerkelijke vaardigheid om natuurlijke taal instructies te begrijpen, te redeneren en te genereren. De ontwikkeling van LLM's is echter voornamelijk gericht geweest op talen met veel bronnen, zoals Engels, waardoor hun toepasbaarheid en onderzoek in andere talen beperkt blijft. Daarom presenteren wij PolyLM, een meertalig LLM getraind op 640 miljard (B) tokens, beschikbaar in twee modelgroottes: 1,7B en 13B. Om de meertalige capaciteiten te verbeteren, hebben we 1) tweetalige data geïntegreerd in de trainingsdata; en 2) een curriculumleren strategie toegepast die het aandeel van niet-Engelse data verhoogt van 30% in de eerste fase naar 60% in de laatste fase tijdens de pre-training. Verder stellen we een meertalige zelf-instructie methode voor die automatisch 132,7K diverse meertalige instructies genereert voor model fine-tuning. Om de prestaties van het model te beoordelen, verzamelen we verschillende bestaande meertalige taken, waaronder meertalig begrip, vraagbeantwoording, generatie en vertaling. Uitgebreide experimenten tonen aan dat PolyLM andere open-source modellen zoals LLaMA en BLOOM overtreft op meertalige taken, terwijl het vergelijkbare prestaties behoudt in het Engels. Onze modellen, samen met de instructiedata en meertalige benchmark, zijn beschikbaar op: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.

Meer Lagen Anders Stapelen: Hoog-Rang Training via Laag-Rang Updates
Stack More Layers Differently: High-Rank Training Through Low-Rank Updates

Jul 11

ByVladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky

Ondanks de dominantie en effectiviteit van schaling, wat resulteert in grote netwerken met honderden miljarden parameters, blijft de noodzaak om overgeparametriseerde modellen te trainen slecht begrepen, en alternatieve benaderingen maken het niet noodzakelijkerwijs goedkoper om hoogpresterende modellen te trainen. In dit artikel onderzoeken we low-rank trainingsmethoden als een alternatieve benadering voor het trainen van grote neurale netwerken. We introduceren een nieuwe methode genaamd ReLoRA, die gebruikmaakt van low-rank updates om high-rank netwerken te trainen. We passen ReLoRA toe op het vooraf trainen van transformer-taalmodellen met tot 350M parameters en laten vergelijkbare prestaties zien als reguliere neurale netwerktraining. Bovendien observeren we dat de efficiëntie van ReLoRA toeneemt met de grootte van het model, wat het een veelbelovende benadering maakt voor het efficiënt trainen van netwerken met meerdere miljarden parameters. Onze bevindingen werpen licht op het potentieel van low-rank trainingsmethoden en hun implicaties voor schalingswetten.

InternVid: Een grootschalige video-tekst dataset voor multimodale interpretatie en generatie
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

Jul 13

ByYi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinyuan Chen, Yaohui Wang, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao

Dit artikel introduceert InternVid, een grootschalige, video-centrische multimodale dataset die het mogelijk maakt krachtige en overdraagbare video-tekst representaties te leren voor multimodale begrips- en generatietaken. De InternVid dataset bevat meer dan 7 miljoen video's met een totale duur van bijna 760K uur, wat resulteert in 234M videoclips vergezeld van gedetailleerde beschrijvingen van in totaal 4,1 miljard woorden. Onze kernbijdrage is het ontwikkelen van een schaalbare aanpak om autonoom een hoogwaardige video-tekst dataset te bouwen met behulp van grote taalmodellen (LLM), waardoor de effectiviteit ervan wordt aangetoond bij het leren van video-taal representaties op grote schaal. Specifiek maken we gebruik van een multi-schaal aanpak om video-gerelateerde beschrijvingen te genereren. Daarnaast introduceren we ViCLIP, een video-tekst representatie-leermodel gebaseerd op ViT-L. Dit model, getraind op InternVid via contrastief leren, toont leidende zero-shot actieherkenning en competitieve video-retrieval prestaties. Naast basisvideo-begripstaken zoals herkenning en retrieval, hebben onze dataset en model brede toepassingen. Ze zijn met name nuttig voor het genereren van verweven video-tekst data voor het leren van een video-centraal dialoogsysteem, en voor het bevorderen van onderzoek naar video-naar-tekst en tekst-naar-video generatie. Deze voorgestelde bronnen bieden een hulpmiddel voor onderzoekers en praktijkmensen die geïnteresseerd zijn in multimodale video-begrips- en generatietaken.

SayPlan: Het Gronden van Grote Taalmodellen met 3D Scènegrafieken voor Schaalbare Taakplanning
SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Task Planning

Jul 12

ByKrishan Rana, Jesse Haviland, Sourav Garg, Jad Abou-Chakra, Ian Reid, Niko Suenderhauf

Grote taalmodelen (LLMs) hebben indrukwekkende resultaten laten zien bij het ontwikkelen van generalistische planningsagenten voor diverse taken. Het verankeren van deze plannen in uitgestrekte, meer verdiepingen en meerdere kamers omvattende omgevingen vormt echter een aanzienlijke uitdaging voor robotica. Wij introduceren SayPlan, een schaalbare aanpak voor op LLM gebaseerde, grootschalige taakplanning voor robotica met behulp van 3D-scènegrafiek (3DSG) representaties. Om de schaalbaarheid van onze aanpak te waarborgen, doen we het volgende: (1) benutten we de hiërarchische aard van 3DSGs om LLMs in staat te stellen een semantische zoektocht uit te voeren naar taakrelevante subgrafieken vanuit een kleinere, samengevouwen representatie van de volledige grafiek; (2) verkleinen we de planningshorizon voor het LLM door een klassieke padplanner te integreren en (3) introduceren we een iteratief herplanningsproces dat het initiële plan verfijnt met feedback van een scènegrafieksimulator, waarbij onuitvoerbare acties worden gecorrigeerd en planningsfouten worden vermeden. We evalueren onze aanpak in twee grootschalige omgevingen die tot 3 verdiepingen, 36 kamers en 140 objecten omvatten, en tonen aan dat onze aanpak in staat is om grootschalige, langetermijn taakplannen te verankeren vanuit abstracte en natuurlijke taal instructies voor een mobiele manipulatorrobot om uit te voeren.

Instructie Mining: Selectie van hoogwaardige instructiedata voor grote taalmodellen
Instruction Mining: High-Quality Instruction Data Selection for Large Language Models

Jul 12

ByYihan Cao, Yanbin Kang, Lichao Sun

Grote taalmodelen ondergaan doorgaans twee trainingsfasen: voorafgaande training en finetuning. Hoewel grootschalige voorafgaande training het model sterke mogelijkheden geeft om natuurlijke taalreacties te genereren, kunnen deze vooraf getrainde modellen soms nog steeds falen in het begrijpen van menselijke instructies. Om het vermogen van taalmodelen om instructies te interpreteren en erop te reageren te verbeteren, is instructiefinetuning naar voren gekomen als een cruciale methode op dit gebied. Recente studies hebben aangetoond dat grote taalmodelen kunnen worden gefinetuned om goed te presteren, zelfs met een kleine hoeveelheid hoogwaardige instructievolgende data. De selectie van hoogwaardige datasets voor het finetunen van taalmodelen ontbeert echter nog duidelijke richtlijnen. In dit artikel stellen we InstructMining voor, een lineaire regel voor het evalueren van de kwaliteit van instructievolgende data. We formuleren InstructMining met behulp van specifieke natuurlijke taalindicatoren. Om de relatie tussen data kwaliteit en deze indicatoren te onderzoeken, voeren we uitgebreide finetuningexperimenten uit. De experimentresultaten worden vervolgens gebruikt om parameters in InstructMining te schatten. Om de prestaties verder te onderzoeken, gebruiken we InstructMining om hoogwaardige data te selecteren uit onbekende datasets. Resultaten tonen aan dat InstructMining kan helpen relatief hoogwaardige samples te selecteren uit verschillende instructievolgende datasets. Vergeleken met modellen die zijn gefinetuned op ongefilterde datasets, presteren modellen die zijn gefinetuned op door InstructMining geselecteerde datasets beter in 42,5% van de gevallen.

Distilleren van Grote Taalmodellen voor Biomedische Kennis Extractie: Een Casestudie over Bijwerkingen van Medicijnen
Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events

Jul 12

ByYu Gu, Sheng Zhang, Naoto Usuyama, Yonas Woldesenbet, Cliff Wong, Praneeth Sanapathi, Mu Wei, Naveen Valluri, Erika Strandberg, Tristan Naumann, Hoifung Poon

Grote taalmodellen (LLMs), zoals GPT-4, hebben opmerkelijke capaciteiten getoond voor een breed scala aan taken, waaronder gezondheidstoepassingen. In dit artikel onderzoeken we hoe LLMs kunnen worden gebruikt om de curatie van biomedische kennis op te schalen. We constateren dat hoewel LLMs al een behoorlijke competentie hebben in het structureren van biomedische tekst, er aanzienlijke verbeteringen kunnen worden bereikt ten opzichte van out-of-the-box LLMs door middel van distillatie in een taakspecifiek studentenmodel via zelfgesuperviseerd leren, met bijkomende voordelen zoals kosten, efficiëntie en toegang tot een white-box model. We voeren een casestudy uit over de extractie van bijwerkingen van medicijnen (ADE), wat een belangrijk gebied is voor het verbeteren van de zorg. Bij standaard ADE-extractie-evaluatie behaalde een GPT-3.5 gedistilleerd PubMedBERT-model een vergelijkbare nauwkeurigheid als gesuperviseerde state-of-the-art modellen zonder gebruik te maken van gelabelde data. Ondanks dat het meer dan 1.000 keer kleiner was, presteerde het gedistilleerde model zijn leraar GPT-3.5 met meer dan 6 absolute punten in F1 en GPT-4 met meer dan 5 absolute punten. Ablatiestudies over de keuze van het distillatiemodel (bijvoorbeeld PubMedBERT versus BioGPT) en de ADE-extractiearchitectuur werpen licht op de beste praktijken voor biomedische kennisextractie. Soortgelijke verbeteringen werden bereikt door distillatie voor andere standaard biomedische kennisextractietaken, zoals gen-ziekte-associaties en beschermde gezondheidsinformatie, wat verder de belofte van deze aanpak illustreert.

DNAGPT: Een algemeen voorgetraind hulpmiddel voor meerdere DNA-sequentieanalyse-taken
DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks

Jul 11

ByDaoan Zhang, Weitong Zhang, Bing He, Jianguo Zhang, Chenchen Qin, Jianhua Yao

Het succes van de GPT-serie bewijst dat GPT algemene informatie uit sequenties kan extraheren, waardoor alle downstream taken baat hebben. Dit motiveert ons om vooraf getrainde modellen te gebruiken om de verborgen informatie in DNA-sequenties te verkennen. Echter, de gegevens en taakeisen in DNA-sequentieanalyse zijn complex en divers, aangezien DNA-gerelateerde gegevens verschillende soorten informatie omvatten, zoals sequenties, expressieniveaus, enz., terwijl er momenteel geen model specifiek is ontworpen voor deze kenmerken. Hierbij presenteren wij DNAGPT, een gegeneraliseerd foundation model dat vooraf is getraind op meer dan 10 miljard baseparen van 9 soorten, en dat kan worden afgestemd op elke DNA-sequentieanalyse taak. Ons model kan tegelijkertijd DNA-sequenties en getallen verwerken of uitvoeren. Bovendien stelt ons unieke tokenontwerp gebruikers in staat om prompts te ontwerpen volgens hun eigen taakeisen, waardoor het toepasbaar is op elk type taak. We hebben ons model geëvalueerd op classificatie-, regressie- en generatietaken. We tonen aan dat DNAGPT baat heeft bij voorafgaande training, en daarom prestatieverbeteringen kan brengen voor elke downstream taak. Ons model is niet alleen een nieuwe poging in het veld van genomanalyse, maar biedt ook een nieuwe richting voor de toepassing van foundation modellen in de biologie.

Het Genereren van Benchmarks voor de Evaluatie van Feitelijkheid bij Taalmodellen
Generating Benchmarks for Factuality Evaluation of Language Models

Jul 13

ByDor Muhlgay, Ori Ram, Inbal Magar, Yoav Levine, Nir Ratner, Yonatan Belinkov, Omri Abend, Kevin Leyton-Brown, Amnon Shashua, Yoav Shoham

Voordat een taalmodel (LM) binnen een bepaald domein wordt ingezet, is het belangrijk om de neiging om feitelijk onjuiste informatie in dat domein te genereren te meten. Bestaande evaluatiemethoden voor feitelijke generatie richten zich op feiten die uit het LM zelf worden bemonsterd, en beheersen dus niet de set van geëvalueerde feiten, wat kan leiden tot onderrepresentatie van zeldzame en onwaarschijnlijke feiten. Wij stellen FACTOR voor: Factual Assessment via Corpus TransfORmation, een schaalbare aanpak voor het evalueren van de feitelijkheid van LM's. FACTOR transformeert automatisch een feitelijk corpus van belang in een benchmark die de neiging van een LM evalueert om ware feiten uit het corpus te genereren versus vergelijkbare maar onjuiste uitspraken. We gebruiken ons framework om twee benchmarks te creëren: Wiki-FACTOR en News-FACTOR. We tonen aan dat: (i) onze benchmarkscores toenemen met de modelgrootte en verbeteren wanneer het LM wordt aangevuld met retrieval; (ii) de benchmarkscore correleert met perplexiteit, maar de twee metrieken zijn het niet altijd eens over de modelrangschikking; en (iii) wanneer perplexiteit en benchmarkscore niet overeenkomen, de laatste beter de feitelijkheid in open-eindegeneratie weerspiegelt, zoals gemeten door menselijke annotators. We maken onze data en code publiekelijk beschikbaar op https://github.com/AI21Labs/factor.

T2I-CompBench: Een Uitgebreide Benchmark voor Open-wereld Compositionele Tekst-naar-beeld Generatie
T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

Jul 12

ByKaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu

Ondanks de indrukwekkende mogelijkheden van recente tekst-naar-beeldmodellen om hoogwaardige afbeeldingen te genereren, hebben huidige benaderingen vaak moeite om objecten met verschillende attributen en relaties effectief samen te voegen tot een complexe en samenhangende scène. Wij stellen T2I-CompBench voor, een uitgebreide benchmark voor open-wereld compositieve tekst-naar-beeldgeneratie, bestaande uit 6.000 compositieve tekstprompts uit 3 categorieën (attribuutbinding, objectrelaties en complexe composities) en 6 subcategorieën (kleurbinding, vormbinding, textuurbinding, ruimtelijke relaties, niet-ruimtelijke relaties en complexe composities). We introduceren verder verschillende evaluatiemetrics die specifiek zijn ontworpen om compositieve tekst-naar-beeldgeneratie te evalueren. We introduceren een nieuwe benadering, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), om de compositieve tekst-naar-beeldgeneratiecapaciteiten van vooraf getrainde tekst-naar-beeldmodellen te verbeteren. Uitgebreide experimenten en evaluaties worden uitgevoerd om eerdere methoden op T2I-CompBench te benchmarken en om de effectiviteit van onze voorgestelde evaluatiemetrics en GORS-benadering te valideren. De projectpagina is beschikbaar op https://karine-h.github.io/T2I-CompBench/.

SITTA: Een Semantische Afstemming tussen Beeld en Tekst voor Beeldbeschrijving
SITTA: A Semantic Image-Text Alignment for Image Captioning

Jul 10

ByFabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter

Het tekstueel en semantisch begrijpen van afbeeldingen is essentieel voor het genereren van passende bijschriften. Dit begrip vereist de detectie van objecten, het modelleren van relaties tussen deze objecten, een beoordeling van de semantiek van de scène en, ten slotte, het representeren van de geëxtraheerde kennis in een taalruimte. Om rijke taalvaardigheden te bereiken en tegelijkertijd goede afbeelding-taal-mappingen te garanderen, werden vooraf getrainde taalmodelen (LMs) geconditioneerd op vooraf getrainde multimodale (afbeelding-tekst) modellen die afbeeldingen als invoer toestaan. Dit vereist een afstemming van de afbeeldingsrepresentatie van het multimodale model met de taalrepresentaties van een generatief LM. Het is echter niet duidelijk hoe de semantiek die door de visuele encoder van het multimodale model wordt gedetecteerd, het beste kan worden overgedragen naar het LM. We introduceren twee nieuwe manieren om een lineaire mapping te construeren die met succes semantiek overdraagt tussen de inbeddingsruimtes van de twee vooraf getrainde modellen. De eerste methode stemt de inbeddingsruimte van de multimodale taalencoder af op de inbeddingsruimte van het vooraf getrainde LM via token-correspondenties. De tweede methode maakt gebruik van aanvullende data die bestaat uit afbeelding-tekst-paren om de mapping direct van visuele naar taalruimte te construeren. Door onze semantische mapping te gebruiken, maken we het mogelijk om afbeeldingsbijschriften te genereren met LMs zonder toegang tot gradientinformatie. Door gebruik te maken van verschillende databronnen behalen we sterke prestaties op het gebied van bijschriften op de MS-COCO- en Flickr30k-datasets. Zelfs bij beperkte data overtreft onze methode gedeeltelijk de prestaties van andere zero-shot en zelfs gefinetunede concurrenten. Onze ablatiestudies tonen aan dat zelfs LMs met slechts 250M parameters in staat zijn om goede bijschriften te genereren door gebruik te maken van onze semantische mapping. Onze aanpak maakt het genereren van afbeeldingsbijschriften toegankelijker voor instellingen met beperkte rekenbronnen.

Naar robuust en efficiënt continu taal leren
Towards Robust and Efficient Continual Language Learning

Jul 11

ByAdam Fisch, Amal Rannen-Triki, Razvan Pascanu, Jörg Bornschein, Angeliki Lazaridou, Elena Gribovskaya, Marc'Aurelio Ranzato

Naarmate de toepassingsruimte van taalmodelle blijft evolueren, is het een natuurlijke vraag hoe we modellen snel kunnen aanpassen aan nieuwe taken. We benaderen deze klassieke vraag vanuit een perspectief van continu leren, waarbij we streven naar het blijven finetunen van modellen die getraind zijn op eerdere taken voor nieuwe taken, met als doel relevante kennis "over te dragen". Deze strategie brengt echter ook het risico met zich mee van meer kwaad dan goed, oftewel negatieve overdracht. In dit artikel construeren we een nieuwe benchmark van taaksequenties die gericht zijn op verschillende mogelijke overdrachtsscenario's waarmee men te maken kan krijgen, zoals een reeks taken met een hoge kans op positieve overdracht, een hoge kans op negatieve overdracht, geen verwacht effect, of een mix van elk. Een ideale leerder zou in staat moeten zijn om informatie maximaal te benutten van alle taken die enig potentieel hebben voor positieve overdracht, terwijl ook de negatieve effecten van afleidende taken die verwarring kunnen veroorzaken, worden vermeden. Vervolgens stellen we een eenvoudige, maar effectieve leerder voor die aan veel van onze wensen voldoet door simpelweg een selectieve strategie te gebruiken voor het initialiseren van nieuwe modellen vanuit checkpoints van eerdere taken. Toch blijven er beperkingen bestaan, en we hopen dat deze benchmark de gemeenschap kan helpen om dergelijke leerders verder te ontwikkelen en te analyseren.

VoxPoser: Samenstelbare 3D Waardekaarten voor Robotmanipulatie met Taalmodellen
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

Jul 12

ByWenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, Li Fei-Fei

Grote taalmodellen (LLM's) blijken een schat aan bruikbare kennis te bevatten die kan worden geëxtraheerd voor robotmanipulatie in de vorm van redenering en planning. Ondanks de vooruitgang zijn de meeste modellen nog steeds afhankelijk van vooraf gedefinieerde bewegingsprimitieven om fysieke interacties met de omgeving uit te voeren, wat een groot knelpunt blijft. In dit werk streven we ernaar robotbanen te synthetiseren, d.w.z. een dichte reeks van 6-DoF eindpunt-wegpunten, voor een grote verscheidenheid aan manipulatietaken, gegeven een open set van instructies en een open set van objecten. We bereiken dit door eerst te observeren dat LLM's uitblinken in het afleiden van affordanties en beperkingen op basis van een vrije-taalinstructie. Belangrijker nog, door gebruik te maken van hun codeerschrijfvaardigheden, kunnen ze interacteren met een visueel-taalmodel (VLM) om 3D-waardekaarten samen te stellen om de kennis te verankeren in de observatieruimte van de agent. De samengestelde waardekaarten worden vervolgens gebruikt in een modelgebaseerd planningsraamwerk om zero-shot gesloten-lus robotbanen te synthetiseren met robuustheid tegen dynamische verstoringen. We demonstreren verder hoe het voorgestelde raamwerk kan profiteren van online ervaringen door efficiënt een dynamisch model te leren voor scènes die contactrijke interacties omvatten. We presenteren een grootschalige studie van de voorgestelde methode in zowel gesimuleerde als echte robotomgevingen, waarbij we het vermogen tonen om een grote verscheidenheid aan alledaagse manipulatietaken uit te voeren die zijn gespecificeerd in vrije-vorm natuurlijke taal. Projectwebsite: https://voxposer.github.io

Robots een handje helpen: Algemene manipulatietaken leren met oog-in-hand menselijke videodemonstraties
Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations

Jul 12

ByMoo Jin Kim, Jiajun Wu, Chelsea Finn

Camera-in-hand-systemen hebben potentie getoond in het verbeteren van de steekproevefficiëntie en generalisatie bij visueel gestuurde robotmanipulatie. Voor robotimitaties is het echter nog steeds kostbaar om een menselijke teleoperator grote hoeveelheden expertdemonstraties met een echte robot te laten verzamelen. Video's van mensen die taken uitvoeren, daarentegen, zijn veel goedkoper te verzamelen, omdat ze de noodzaak van expertise in robotteleoperatie elimineren en snel in een breed scala aan scenario's kunnen worden vastgelegd. Daarom vormen menselijke videodemonstraties een veelbelovende bron van gegevens voor het leren van schaalbare en generaliseerbare robotmanipulatiebeleidsregels. In dit werk verrijken we beperkte robotimitatiedatasets met brede, ongelabelde menselijke videodemonstraties om de generalisatie van visuomotorische beleidsregels voor camera-in-hand-systemen aanzienlijk te verbeteren. Hoewel er een duidelijk visueel domeingat bestaat tussen menselijke en robotgegevens, hoeft ons framework geen expliciete domeinaanpassingsmethode toe te passen, omdat we gebruikmaken van de gedeeltelijke observeerbaarheid van camera-in-hand-systemen en een eenvoudig vast beeldmaskeringsschema. Op een reeks van acht taken in de echte wereld, waarbij zowel 3-DoF als 6-DoF robotarmbesturing betrokken is, verbetert onze methode de slagingspercentages van camera-in-hand-manipulatiebeleidsregels met gemiddeld 58% (absoluut), waardoor robots kunnen generaliseren naar zowel nieuwe omgevingsconfiguraties als nieuwe taken die niet in de robotdemonstratiegegevens zijn gezien. Bekijk videoresultaten op https://giving-robots-a-hand.github.io/.

SITTA: Een Semantische Afstemming tussen Beeld en Tekst voor Beeldbeschrijving
SITTA: A Semantic Image-Text Alignment for Image Captioning

Jul 10

ByFabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter