HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

18 papers found

Kosmos-2: Het verankeren van multimodale grote taalmodellen aan de wereld
Kosmos-2: Grounding Multimodal Large Language Models to the World

Jun 26

ByZhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei

We introduceren Kosmos-2, een Multimodaal Taalmodel op Grote Schaal (MLLM), dat nieuwe mogelijkheden biedt voor het waarnemen van objectbeschrijvingen (bijvoorbeeld begrenzingsvakken) en het verankeren van tekst in de visuele wereld. Specifiek representeren we verwijzingen als links in Markdown, d.w.z. ``[tekstspan](begrenzingsvakken)'', waarbij objectbeschrijvingen worden weergegeven als reeksen locatietokens. Samen met multimodale corpora construeren we grootschalige data van verankerde beeld-tekstparen (genaamd GrIT) om het model te trainen. Naast de bestaande mogelijkheden van MLLM's (bijvoorbeeld het waarnemen van algemene modaliteiten, het volgen van instructies en het uitvoeren van in-context leren), integreert Kosmos-2 de verankeringsmogelijkheid in downstream-toepassingen. We evalueren Kosmos-2 op een breed scala aan taken, waaronder (i) multimodale verankering, zoals het begrijpen van verwijzingsexpressies en het verankeren van zinsdelen, (ii) multimodale verwijzing, zoals het genereren van verwijzingsexpressies, (iii) perceptie-taaltaken, en (iv) taalbegrip en -generatie. Dit werk legt de basis voor de ontwikkeling van Embodiment AI en werpt licht op de grote convergentie van taal, multimodale perceptie, actie en wereldmodellering, wat een cruciale stap is richting kunstmatige algemene intelligentie. Data, demo's en vooraf getrainde modellen zijn beschikbaar op https://aka.ms/kosmos-2.

MotionGPT: Menselijke Beweging als een Vreemde Taal
MotionGPT: Human Motion as a Foreign Language

Jun 26

ByBiao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen

Hoewel de vooruitgang van vooraf getrainde grote taalmodellen zich ontvouwt, blijft de verkenning van het bouwen van een uniform model voor taal en andere multimodale gegevens, zoals beweging, tot nu toe uitdagend en onontgonnen. Gelukkig vertoont menselijke beweging een semantische koppeling die vergelijkbaar is met menselijke taal, vaak gezien als een vorm van lichaamstaal. Door taalgegevens te combineren met grootschalige bewegingsmodellen, wordt motion-language pre-training die de prestaties van bewegingsgerelateerde taken kan verbeteren, haalbaar. Gedreven door dit inzicht stellen we MotionGPT voor, een uniform, veelzijdig en gebruiksvriendelijk motion-language model om meerdere bewegingsrelevante taken te behandelen. Specifiek gebruiken we discrete vectorquantisatie voor menselijke beweging en zetten we 3D-beweging om in bewegings-tokens, vergelijkbaar met het generatieproces van woord-tokens. Op basis van deze "bewegingswoordenschat" voeren we taalmodellering uit op zowel beweging als tekst op een uniforme manier, waarbij menselijke beweging wordt behandeld als een specifieke taal. Bovendien, geïnspireerd door prompt learning, pre-trainen we MotionGPT met een mix van motion-language gegevens en fine-tunen we het op prompt-gebaseerde vraag-en-antwoordtaken. Uitgebreide experimenten tonen aan dat MotionGPT state-of-the-art prestaties behaalt op meerdere bewegingsgerelateerde taken, waaronder tekstgestuurde bewegingsgeneratie, bewegingsbeschrijving, bewegingsvoorspelling en bewegingsinterpolatie.

DragDiffusion: Benutting van Diffusiemodellen voor Interactieve Puntgebaseerde Afbeeldingsbewerking
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing

Jun 26

ByYujun Shi, Chuhui Xue, Jiachun Pan, Wenqing Zhang, Vincent Y. F. Tan, Song Bai

Precies en controleerbaar beeldbewerken is een uitdagende taak die aanzienlijke aandacht heeft getrokken. Recentelijk heeft DragGAN een interactief, op punten gebaseerd beeldbewerkingsraamwerk mogelijk gemaakt en indrukwekkende bewerkingsresultaten bereikt met pixelprecisie. Omdat deze methode echter gebaseerd is op generatieve adversariële netwerken (GAN), wordt de algemeenheid ervan beperkt door de capaciteit van de vooraf getrainde GAN-modellen. In dit werk breiden we een dergelijk bewerkingsraamwerk uit naar diffusiemodellen en introduceren we DragDiffusion. Door gebruik te maken van grootschalige, vooraf getrainde diffusiemodellen, verbeteren we de toepasbaarheid van interactieve, op punten gebaseerde bewerking aanzienlijk in realistische scenario's. Terwijl de meeste bestaande op diffusie gebaseerde beeldbewerkingsmethoden werken met tekstembeddingen, optimaliseert DragDiffusion de diffusielatentie om precieze ruimtelijke controle te bereiken. Hoewel diffusiemodellen afbeeldingen op een iteratieve manier genereren, tonen we empirisch aan dat het optimaliseren van de diffusielatentie in één enkele stap voldoende is om samenhangende resultaten te genereren, waardoor DragDiffusion hoogwaardige bewerkingen efficiënt kan uitvoeren. Uitgebreide experimenten over een breed scala aan uitdagende gevallen (bijv. meerdere objecten, diverse objectcategorieën, verschillende stijlen, enz.) demonstreren de veelzijdigheid en algemeenheid van DragDiffusion.

Sneller Segment Anything: Op Weg Naar een Lichtgewicht SAM voor Mobiele Toepassingen
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications

Jun 25

ByChaoning Zhang, Dongshen Han, Yu Qiao, Jung Uk Kim, Sung-Ho Bae, Seungkyu Lee, Choong Seon Hong

Het Segment Anything Model (SAM) is een prompt-gestuurd visueel basismodel voor het uitknippen van het gewenste object uit zijn achtergrond. Sinds het Meta-onderzoeksteam het SA-project heeft vrijgegeven, heeft SAM aanzienlijke aandacht getrokken vanwege zijn indrukwekkende zero-shot transferprestaties en de hoge veelzijdigheid in combinatie met andere modellen voor geavanceerde visuele toepassingen, zoals beeldbewerking met fijnmazige controle. Veel van dergelijke use cases moeten worden uitgevoerd op apparaten met beperkte resources, zoals mobiele apps. In dit werk streven we ernaar om SAM mobielvriendelijk te maken door de zware beeldencoder te vervangen door een lichtgewicht versie. Een naïeve manier om zo'n nieuwe SAM te trainen, zoals in het oorspronkelijke SAM-paper, leidt tot onbevredigende prestaties, vooral wanneer er beperkte trainingsbronnen beschikbaar zijn. We ontdekken dat dit voornamelijk wordt veroorzaakt door de gekoppelde optimalisatie van de beeldencoder en de maskerdecoder, wat ons motiveert om gedecoupleerde distillatie voor te stellen. Concreet distilleren we de kennis van de beeldencoder ViT-H in de oorspronkelijke SAM naar een lichtgewicht beeldencoder, die automatisch compatibel is met de maskerdecoder in de oorspronkelijke SAM. De training kan worden voltooid op een enkele GPU in minder dan één dag, en het resulterende lichtgewicht SAM wordt MobileSAM genoemd, dat meer dan 60 keer kleiner is maar presteert op hetzelfde niveau als de oorspronkelijke SAM. Wat betreft inferentiesnelheid, verwerkt MobileSAM ongeveer 10ms per afbeelding: 8ms op de beeldencoder en 2ms op de maskerdecoder. Met superieure prestaties en een hogere veelzijdigheid is onze MobileSAM 7 keer kleiner en 4 keer sneller dan de gelijktijdige FastSAM, wat het geschikter maakt voor mobiele toepassingen. De code voor het MobileSAM-project is beschikbaar op https://github.com/ChaoningZhang/MobileSAM.

H_2O: Heavy-Hitter Oracle voor efficiënte generatieve inferentie van grote taalmodellen
H_2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models

Jun 24

ByZhenyu Zhang, Ying Sheng, Tianyi Zhou, Tianlong Chen, Lianmin Zheng, Ruisi Cai, Zhao Song, Yuandong Tian, Christopher Ré, Clark Barrett, Zhangyang Wang, Beidi Chen

Large Language Models (LLMs), ondanks hun recente indrukwekkende prestaties, zijn opvallend kostbaar om in te zetten, met name voor toepassingen die langere inhoud genereren, zoals dialoogsystemen en verhalen schrijven. Vaak wordt een grote hoeveelheid tijdelijke staatinformatie, bekend als de KV-cache, opgeslagen in het GPU-geheugen, naast de modelparameters, wat lineair schaalt met de sequentielengte en batchgrootte. In dit artikel introduceren we een nieuwe benadering voor het implementeren van de KV-cache die het geheugengebruik aanzienlijk vermindert. Onze benadering is gebaseerd op de opmerkelijke observatie dat een klein deel van de tokens het meeste gewicht in de schaal legt bij het berekenen van aandachtsscores. We noemen deze tokens Heavy Hitters (H_2). Door een uitgebreid onderzoek ontdekken we dat (i) het ontstaan van H_2 natuurlijk is en sterk correleert met de frequente co-voorkomst van tokens in de tekst, en (ii) het verwijderen ervan leidt tot een significante prestatievermindering. Op basis van deze inzichten stellen we Heavy Hitter Oracle (H_2O) voor, een KV-cache-verwijderingsbeleid dat dynamisch een balans behoudt tussen recente en H_2 tokens. We formuleren de KV-cache-verwijdering als een dynamisch submodulair probleem en bewijzen (onder milde aannames) een theoretische garantie voor ons nieuwe verwijderingsalgoritme, wat toekomstig werk zou kunnen begeleiden. We valideren de nauwkeurigheid van ons algoritme met OPT, LLaMA en GPT-NeoX over een breed scala aan taken. Onze implementatie van H_2O met 20% heavy hitters verbetert de doorvoer ten opzichte van drie toonaangevende inferentiesystemen, DeepSpeed Zero-Inference, Hugging Face Accelerate en FlexGen, met respectievelijk tot 29x, 29x en 3x op OPT-6.7B en OPT-30B. Met dezelfde batchgrootte kan H2O de latentie met tot 1.9x verminderen. De code is beschikbaar op https://github.com/FMInference/H2O.

Beyond Scale: de Diversiteitscoëfficiënt als een Metriek voor Data Kwaliteit Toont aan dat LLM's zijn voorgetraind op formeel diverse data
Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data

Jun 24

ByAlycia Lee, Brando Miranda, Sanmi Koyejo

Huidige trends voor het vooraf trainen van krachtige Large Language Models (LLM's) richten zich voornamelijk op het opschalen van model- en datasetgrootte. De kwaliteit van de vooraf getrainde data is echter een belangrijke factor voor het trainen van sterke LLM's, maar het is een vaag concept dat nog niet volledig is gekarakteriseerd. Daarom gebruiken we het recent voorgestelde Task2Vec-diversiteitscoëfficiënt om formele aspecten van data-kwaliteit te begrijpen en te verankeren, om verder te gaan dan alleen schaal. Specifiek meten we de diversiteitscoëfficiënt van publiek beschikbare vooraf getrainde datasets om aan te tonen dat hun formele diversiteit hoog is in vergelijking met theoretische onder- en bovengrenzen. Daarnaast voeren we interpreteerbaarheidsexperimenten uit om vertrouwen in de diversiteitscoëfficiënt op te bouwen, en we constateren dat de coëfficiënt overeenkomt met intuïtieve eigenschappen van diversiteit, zoals het toenemen naarmate het aantal latente concepten toeneemt. We concluderen dat de diversiteitscoëfficiënt betrouwbaar is, laten zien dat deze hoog is voor publiek beschikbare LLM-datasets, en vermoeden dat deze kan worden gebruikt om nuttige diverse datasets voor LLM's te bouwen.

Taalmodellen zijn zwakke leerlingen.
Language models are weak learners

Jun 25

ByHariharan Manikandan, Yiding Jiang, J Zico Kolter

Een centraal concept in zowel praktische als theoretische machine learning is dat van een zwakke leerder, classificatoren die een betere dan willekeurige prestatie leveren (op een gegeven verdeling van data), zelfs met een kleine marge. Dergelijke zwakke leerders vormen de praktische basis voor canonieke machine learning-methoden zoals boosting. In dit werk laten we zien dat prompt-gebaseerde grote taalmodellen effectief kunnen functioneren als dergelijke zwakke leerders. Specifiek illustreren we het gebruik van een groot taalmodel (LLM) als een zwakke leerder in een boosting-algoritme toegepast op tabelgegevens. We tonen aan dat door (correct gesampeld volgens de verdeling van belang) tekstbeschrijvingen van tabelgegevensmonsters te verstrekken, LLM's een samenvatting van de monsters kunnen produceren die dient als een sjabloon voor classificatie en het doel bereikt om als een zwakke leerder te fungeren voor deze taak. We integreren deze modellen in een boosting-aanpak, die in sommige gevallen de kennis binnen het LLM kan benutten om traditionele boom-gebaseerde boosting te overtreffen. Het model presteert beter dan few-shot learning en soms zelfs meer uitgebreide fine-tuning procedures, vooral voor taken met een klein aantal datapunten. De resultaten illustreren het potentieel van prompt-gebaseerde LLM's om niet alleen zelf als few-shot leerders te functioneren, maar ook als componenten van grotere machine learning-pipelines.

Gesuperviseerde voorafgaande training kan in-context reinforcement learning aanleren.
Supervised Pretraining Can Learn In-Context Reinforcement Learning

Jun 26

ByJonathan N. Lee, Annie Xie, Aldo Pacchiano, Yash Chandak, Chelsea Finn, Ofir Nachum, Emma Brunskill

Grote transformermodellen die getraind zijn op diverse datasets hebben een opmerkelijke vaardigheid getoond om in-context te leren, waarbij ze hoge few-shot prestaties behalen op taken waar ze niet expliciet voor getraind zijn. In dit artikel bestuderen we de in-context leervaardigheden van transformers in besluitvormingsproblemen, namelijk reinforcement learning (RL) voor bandits en Markov-beslissingsprocessen. Hiervoor introduceren en bestuderen we de Decision-Pretrained Transformer (DPT), een supervised pretrainingsmethode waarbij de transformer een optimale actie voorspelt gegeven een querytoestand en een in-context dataset van interacties, over een diverse set van taken. Deze procedure, hoewel eenvoudig, produceert een model met verschillende verrassende capaciteiten. We ontdekken dat de voorgetrainde transformer gebruikt kan worden om een reeks RL-problemen in-context op te lossen, waarbij het zowel exploratie online als conservatisme offline vertoont, ondanks dat het hier niet expliciet voor getraind is. Het model generaliseert ook verder dan de pretrainingsdistributie naar nieuwe taken en past automatisch zijn besluitvormingsstrategieën aan aan onbekende structuren. Theoretisch laten we zien dat DPT kan worden gezien als een efficiënte implementatie van Bayesian posterior sampling, een bewezen sample-efficiënt RL-algoritme. We benutten deze verbinding verder om garanties te geven op de regret van het in-context algoritme dat door DPT wordt opgeleverd, en bewijzen dat het sneller kan leren dan de algoritmen die gebruikt worden om de pretrainingsdata te genereren. Deze resultaten suggereren een veelbelovende maar eenvoudige weg om sterke in-context besluitvormingsvaardigheden in transformers te ontwikkelen.

Denken als een Annotator: Generatie van Instructies voor Datasetlabeling
Thinking Like an Annotator: Generation of Dataset Labeling Instructions

Jun 24

ByNadine Chang, Francesco Ferroni, Michael J. Tarr, Martial Hebert, Deva Ramanan

Grootschalige datasets zijn essentieel voor hedendaags deep learning. Voorstanders argumenteren dat het begrijpen van deze methoden transparantie over datasets vereist (bijv. "datasetcuratie, motivatie, samenstelling, verzamelproces, etc..."). Echter, bijna niemand heeft voorgesteld om de gedetailleerde definities en visuele categorievoorbeelden die aan annotators zijn verstrekt, vrij te geven - informatie die cruciaal is voor het begrijpen van de structuur van de annotaties in elke dataset. Deze labels vormen de kern van publieke datasets, maar weinig datasets bevatten de instructies die zijn gebruikt om ze te genereren. We introduceren een nieuwe taak, Labeling Instruction Generation, om het ontbreken van publiek beschikbare labelinstructies aan te pakken. In Labeling Instruction Generation nemen we een redelijk geannoteerde dataset en: 1) genereren we een set voorbeelden die visueel representatief zijn voor elke categorie in de dataset; 2) voorzien we een tekstlabel dat overeenkomt met elk van de voorbeelden. We introduceren een raamwerk dat geen modeltraining vereist om deze taak op te lossen en dat een nieuw gecreëerd snel retrievalsysteem omvat dat gebruikmaakt van een groot, vooraf getraind visueel en taalmodel. Dit raamwerk fungeert als een proxy voor menselijke annotators die kan helpen bij het genereren van een definitieve set labelinstructies en het evalueren van de kwaliteit ervan. Ons raamwerk genereert meerdere diverse visuele en tekstuele representaties van datasetcategorieën. De geoptimaliseerde instructieset presteert beter dan onze sterkste baseline over 5 folds met 7.06 mAP voor NuImages en 12.9 mAP voor COCO.

ViNT: Een Basismodel voor Visuele Navigatie
ViNT: A Foundation Model for Visual Navigation

Jun 26

ByDhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine

Algemeen vooraf getrainde modellen ("foundatiemodellen") hebben het mogelijk gemaakt voor beoefenaars om generaliseerbare oplossingen te produceren voor individuele machine learning problemen met datasets die aanzienlijk kleiner zijn dan die nodig zijn om vanaf nul te leren. Dergelijke modellen worden doorgaans getraind op grote en diverse datasets met zwakke supervisie, waarbij veel meer trainingsdata wordt gebruikt dan beschikbaar is voor individuele downstream toepassingen. In dit artikel beschrijven we de Visual Navigation Transformer (ViNT), een foundatiemodel dat ernaar streeft om het succes van algemeen vooraf getrainde modellen naar visiegebaseerde robotnavigatie te brengen. ViNT wordt getraind met een algemeen doelbereikingsdoel dat kan worden gebruikt met elke navigatiedataset, en maakt gebruik van een flexibele Transformer-gebaseerde architectuur om navigatiemogelijkheden te leren en efficiënte aanpassing aan een verscheidenheid van downstream navigatietaken mogelijk te maken. ViNT is getraind op een aantal bestaande navigatiedatasets, bestaande uit honderden uren van robotnavigatie van verschillende robotplatforms, en vertoont positieve transfer, waarbij het gespecialiseerde modellen die op individuele datasets zijn getraind, overtreft. ViNT kan worden uitgebreid met diffusiegebaseerde subdoelvoorstellen om nieuwe omgevingen te verkennen, en kan navigatieproblemen op kilometerschaal oplossen wanneer het is uitgerust met langeafstandsheuristieken. ViNT kan ook worden aangepast aan nieuwe taakspecificaties met een techniek geïnspireerd door prompt-tuning, waarbij de doelencoder wordt vervangen door een codering van een andere taakmodaliteit (bijvoorbeeld GPS-waypoints of routeercommando's) ingebed in dezelfde ruimte van doeltokens. Deze flexibiliteit en het vermogen om een verscheidenheid aan downstream probleemdomeinen te accommoderen, vestigt ViNT als een effectief foundatiemodel voor mobiele robotica. Voor video's, code en modelcheckpoints, zie onze projectpagina op https://visualnav-transformer.github.io.

RoboCook: Manipulatie van Elasto-Plastische Objecten op Lange Termijn met Diverse Gereedschappen
RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools

Jun 26

ByHaochen Shi, Huazhe Xu, Samuel Clarke, Yunzhu Li, Jiajun Wu

Mensen blinken uit in complexe, langetermijnmanipulatietaken van zachte materialen door flexibel gebruik van gereedschap: bij het bakken van brood is een mes nodig om het deeg te snijden en een deegroller om het plat te maken. Hoewel het gebruik van gereedschap vaak wordt gezien als een kenmerk van menselijke cognitie, blijft het bij autonome robots beperkt vanwege uitdagingen in het begrijpen van interacties tussen gereedschap en objecten. Hier ontwikkelen we een intelligent robotsysteem, RoboCook, dat elastisch-plastische objecten waarneemt, modelleert en manipuleert met diverse gereedschappen. RoboCook maakt gebruik van pointcloud-scène-representaties, modelleert gereedschap-objectinteracties met Graph Neural Networks (GNN's), en combineert gereedschapsclassificatie met zelfgesuperviseerd beleidsleren om manipulatieplannen te ontwerpen. We demonstreren dat een universele robotarm, met slechts 20 minuten aan real-world interactiedata per gereedschap, complexe langetermijnmanipulatietaken van zachte objecten kan leren, zoals het maken van dumplings en letterkoekjes. Uitgebreide evaluaties tonen aan dat RoboCook aanzienlijk beter presteert dan state-of-the-art benaderingen, robuustheid vertoont tegen ernstige externe verstoringen, en aanpassingsvermogen toont aan verschillende materialen.

DomainStudio: Fijnafstemming van diffusiemodellen voor domeingestuurde beeldgeneratie met beperkte data
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data

Jun 25

ByJingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan

Denoising diffusion probabilistische modellen (DDPMs) hebben bewezen in staat te zijn om hoogwaardige afbeeldingen met opmerkelijke diversiteit te synthetiseren wanneer ze getraind worden op grote hoeveelheden data. Typische diffusiemodellen en moderne grootschalige conditionele generatieve modellen, zoals tekst-naar-afbeelding generatieve modellen, zijn kwetsbaar voor overfitting wanneer ze worden afgestemd op extreem beperkte data. Bestaande werken hebben onderwerpgedreven generatie onderzocht met behulp van een referentieset die enkele afbeeldingen bevat. Echter, weinig eerdere werken onderzoeken domeingedreven generatie op basis van DDPMs, wat gericht is op het leren van de gemeenschappelijke kenmerken van doeldomeinen terwijl diversiteit behouden blijft. Dit artikel stelt een nieuwe DomainStudio-aanpak voor om DDPMs die vooraf getraind zijn op grootschalige brondatasets aan te passen aan doeldomeinen met beperkte data. Het is ontworpen om de diversiteit van onderwerpen die door brondomeinen worden geboden te behouden en hoogwaardige en diverse aangepaste samples in doeldomeinen te verkrijgen. Wij stellen voor om de relatieve afstanden tussen aangepaste samples te behouden om aanzienlijke generatiediversiteit te bereiken. Daarnaast verbeteren we het leren van hoogfrequente details verder voor een betere generatiekwaliteit. Onze aanpak is compatibel met zowel onvoorwaardelijke als conditionele diffusiemodellen. Dit werk maakt de eerste poging om onvoorwaardelijke few-shot beeldgeneratie te realiseren met diffusiemodellen, waarbij betere kwaliteit en grotere diversiteit worden bereikt dan de huidige state-of-the-art GAN-gebaseerde benaderingen. Bovendien verlicht dit werk ook aanzienlijk overfitting voor conditionele generatie en realiseert het hoogwaardige domeingedreven generatie, waardoor de toepasbare scenario's van moderne grootschalige tekst-naar-afbeelding modellen verder worden uitgebreid.

Zero-shot ruimtelijke lay-outconditionering voor tekst-naar-beeld diffusiemodellen
Zero-shot spatial layout conditioning for text-to-image diffusion models

Jun 23

ByGuillaume Couairon, Marlène Careil, Matthieu Cord, Stéphane Lathuilière, Jakob Verbeek

Grootschalige tekst-naar-beeld diffusiemodellen hebben de stand van de techniek in generatieve beeldmodellering aanzienlijk verbeterd en bieden een intuïtieve en krachtige gebruikersinterface om het beeldgeneratieproces aan te sturen. Het uitdrukken van ruimtelijke beperkingen, bijvoorbeeld om specifieke objecten op bepaalde locaties te positioneren, is omslachtig met tekst; en huidige tekstgebaseerde beeldgeneratiemodellen zijn niet in staat om dergelijke instructies nauwkeurig op te volgen. In dit artikel beschouwen we beeldgeneratie vanuit tekst die is gekoppeld aan segmenten op het beeldcanvas, wat een intuïtieve natuurlijke taalinterface combineert met precieze ruimtelijke controle over de gegenereerde inhoud. We stellen ZestGuide voor, een zero-shot segmentatiebegeleidingsbenadering die kan worden ingebouwd in vooraf getrainde tekst-naar-beeld diffusiemodellen en geen aanvullende training vereist. Het maakt gebruik van impliciete segmentatiekaarten die kunnen worden geëxtraheerd uit cross-attention lagen, en gebruikt deze om de generatie af te stemmen op invoermaskers. Onze experimentele resultaten combineren hoge beeldkwaliteit met nauwkeurige uitlijning van gegenereerde inhoud met invoersegmentaties, en verbeteren ten opzichte van eerder werk zowel kwantitatief als kwalitatief, inclusief methoden die training vereisen op afbeeldingen met bijbehorende segmentaties. Vergeleken met Paint with Words, de vorige state-of-the-art in beeldgeneratie met zero-shot segmentatieconditionering, verbeteren we met 5 tot 10 mIoU-punten op de COCO-dataset met vergelijkbare FID-scores.

Het afstemmen van grote multimodale modellen met robuuste instructieafstemming
Aligning Large Multi-Modal Model with Robust Instruction Tuning

Jun 26

ByFuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang

Ondanks de veelbelovende vooruitgang in multimodale taken, zijn huidige grote multimodale modellen (LMM) geneigd tot het hallucineren van inconsistente beschrijvingen ten opzichte van de bijbehorende afbeelding en menselijke instructies. Dit artikel behandelt dit probleem door de eerste grote en diverse visuele instructieafstemmingsdataset te introduceren, genaamd Large-scale Robust Visual (LRV)-Instruction. Onze dataset bestaat uit 120k visuele instructies gegenereerd door GPT4, die 16 visie-en-taal taken omvatten met open-einde instructies en antwoorden. In tegenstelling tot bestaande studies die zich voornamelijk richten op positieve instructievoorbeelden, ontwerpen wij LRV-Instruction om zowel positieve als negatieve instructies te bevatten voor robuustere visuele instructieafstemming. Onze negatieve instructies zijn ontworpen op twee semantische niveaus: (i) Manipulatie van niet-bestaande elementen en (ii) Manipulatie van bestaande elementen. Om de hallucinatie gegenereerd door LMMs efficiënt te meten, stellen wij GPT4-Assisted Visual Instruction Evaluation (GAVIE) voor, een nieuwe aanpak om visuele instructieafstemming te evalueren zonder de noodzaak van door mensen geannoteerde grondwaarheid-antwoorden en die zich kan aanpassen aan diverse instructieformaten. Wij voeren uitgebreide experimenten uit om de hallucinatie van LMMs te onderzoeken. Onze resultaten tonen aan dat bestaande LMMs significante hallucinatie vertonen wanneer zij worden gepresenteerd met onze negatieve instructies, met name bij Manipulatie van bestaande elementen instructies. Bovendien, door MiniGPT4 af te stemmen op LRV-Instruction, verminderen wij succesvol hallucinatie terwijl wij de prestaties op publieke datasets verbeteren met minder trainingsdata in vergelijking met state-of-the-art methoden. Daarnaast hebben wij geobserveerd dat een gebalanceerde verhouding van positieve en negatieve instanties in de trainingsdata leidt tot een robuuster model. Onze projectlink is beschikbaar op https://fuxiaoliu.github.io/LRV/.

Herstarten van Steekproeven voor Verbetering van Generatieve Processen
Restart Sampling for Improving Generative Processes

Jun 26

ByYilun Xu, Mingyang Deng, Xiang Cheng, Yonglong Tian, Ziming Liu, Tommi Jaakkola

Generatieve processen die het oplossen van differentiaalvergelijkingen omvatten, zoals diffusiemodellen, vereisen vaak een balans tussen snelheid en kwaliteit. ODE-gebaseerde samplers zijn snel maar bereiken een plafond in prestaties, terwijl SDE-gebaseerde samplers een hogere samplekwaliteit leveren ten koste van een langere samplingtijd. Wij schrijven dit verschil toe aan samplingfouten: ODE-samplers hebben kleinere discretisatiefouten, terwijl de stochasticiteit in SDE geaccumuleerde fouten vermindert. Op basis van deze bevindingen stellen we een nieuw samplingalgoritme voor, genaamd Restart, om discretisatiefouten en reductie beter in balans te brengen. De samplingmethode wisselt af tussen het toevoegen van aanzienlijke ruis in extra voorwaartse stappen en het strikt volgen van een achterwaartse ODE. Empirisch gezien overtreft de Restart-sampler zowel SDE- als ODE-samplers in zowel snelheid als nauwkeurigheid. Restart overtreft niet alleen de vorige beste SDE-resultaten, maar versnelt ook de sampling snelheid met 10-voudig / 2-voudig op CIFAR-10 / ImageNet 64 maal 64. Daarnaast bereikt het een aanzienlijk betere samplekwaliteit dan ODE-samplers binnen vergelijkbare samplingtijden. Bovendien balanceert Restart tekst-beelduitlijning/visuele kwaliteit versus diversiteit beter dan vorige samplers in het grootschalige tekst-naar-beeld Stable Diffusion-model voorgetraind op LAION 512 maal 512. Code is beschikbaar op https://github.com/Newbeeer/diffusion_restart_sampling.

Swin-Free: Betere Cross-Window Attention en Efficiëntie bereiken met Grootte-variërende Vensters
Swin-Free: Achieving Better Cross-Window Attention and Efficiency with Size-varying Window

Jun 23

ByJinkyu Koo, John Yang, Le An, Gwenaelle Cunha Sergio, Su Inn Park

Transformer-modellen hebben groot potentieel getoond in computervisie, na hun succes in taaltaken. Swin Transformer is een van deze modellen die convolutionele architecturen overtreft wat betreft nauwkeurigheid, terwijl het efficiënter is in vergelijking met Vision Transformer (ViT) en zijn varianten, die een kwadratische complexiteit hebben ten opzichte van de invoergrootte. Swin Transformer maakt gebruik van verschuivende vensters die kruisvensterverbindingen mogelijk maken, terwijl de self-attention-berekening beperkt blijft tot niet-overlappende lokale vensters. Echter, het verschuiven van vensters introduceert geheugenkopieeroperaties, die een aanzienlijk deel van de uitvoeringstijd in beslag nemen. Om dit probleem te verlichten, stellen we Swin-Free voor, waarbij we vensters met variërende grootte toepassen over verschillende fasen, in plaats van verschuivende vensters, om kruisverbindingen tussen lokale vensters te bereiken. Met deze eenvoudige ontwerpwijziging werkt Swin-Free sneller dan de Swin Transformer tijdens inferentie, met betere nauwkeurigheid. Bovendien stellen we ook enkele Swin-Free-varianten voor die sneller zijn dan hun Swin Transformer-tegenhangers.

RVT: Robotic View Transformer voor 3D-objectmanipulatie
RVT: Robotic View Transformer for 3D Object Manipulation

Jun 26

ByAnkit Goyal, Jie Xu, Yijie Guo, Valts Blukis, Yu-Wei Chao, Dieter Fox

Voor 3D-objectmanipulatie presteren methoden die een expliciete 3D-representatie bouwen beter dan methoden die alleen vertrouwen op camerabeelden. Het gebruik van expliciete 3D-representaties zoals voxels brengt echter hoge rekenkosten met zich mee, wat de schaalbaarheid nadelig beïnvloedt. In dit werk stellen we RVT voor, een multi-view transformer voor 3D-manipulatie die zowel schaalbaar als nauwkeurig is. Enkele belangrijke kenmerken van RVT zijn een aandachtmechanisme om informatie over verschillende views te aggregeren en het opnieuw renderen van de camerainvoer vanuit virtuele views rond de werkruimte van de robot. In simulaties blijkt dat een enkel RVT-model goed presteert over 18 RLBench-taken met 249 taakvariaties, waarbij het een 26% hoger relatief succes behaalt dan de bestaande state-of-the-art methode (PerAct). Het traint ook 36x sneller dan PerAct om dezelfde prestaties te bereiken en behaalt een 2,3x hogere inferentiesnelheid dan PerAct. Bovendien kan RVT een verscheidenheid aan manipulatietaken in de echte wereld uitvoeren met slechts enkele (sim10) demonstraties per taak. Visuele resultaten, code en het getrainde model zijn beschikbaar op https://robotic-view-transformer.github.io/.

SEEDS: Emulatie van Weersvoorspellingsensembles met Diffusiemodellen
SEEDS: Emulation of Weather Forecast Ensembles with Diffusion Models

Jun 24

ByLizao Li, Rob Carver, Ignacio Lopez-Gomez, Fei Sha, John Anderson

Probabilistische voorspellingen zijn cruciaal voor besluitvorming onder onzekerheid over toekomstig weer. De dominante aanpak is het gebruik van een ensemble van voorspellingen om onzekerheid in operationele numerieke weersvoorspellingen te representeren en te kwantificeren. Het genereren van ensembles is echter computationeel kostbaar. In dit artikel stellen we voor om ensemblevoorspellingen op grote schaal te genereren door gebruik te maken van recente vooruitgang in generatieve kunstmatige intelligentie. Onze aanpak leert een data-gedreven probabilistisch diffusiemodel aan op basis van de 5-ledige ensemble GEFS hervoorspellingsdataset. Het model kan vervolgens efficiënt worden bemonsterd om realistische weersvoorspellingen te produceren, geconditioneerd op enkele leden van het operationele GEFS voorspellingssysteem. De gegenereerde ensembles vertonen vergelijkbare voorspellende kwaliteit als het volledige 31-ledige GEFS ensemble, geëvalueerd tegen ERA5 heranalyse, en bootsen de statistieken van grote op fysica gebaseerde ensembles goed na. We passen dezelfde methodologie ook toe om een diffusiemodel te ontwikkelen voor generatieve nabewerking: het model leert direct om biases in het geëmuleerde voorspellingssysteem te corrigeren door gebruik te maken van heranalysedata als labels tijdens de training. Ensembles van dit generatieve nabewerkingsmodel tonen een grotere betrouwbaarheid en nauwkeurigheid, met name in de classificatie van extreme gebeurtenissen. Over het algemeen zijn ze betrouwbaarder en voorspellen ze de kans op extreem weer nauwkeuriger dan het operationele GEFS ensemble. Onze modellen bereiken deze resultaten tegen minder dan 1/10e van de computationele kosten van het operationele GEFS-systeem.

ViNT: Een Basismodel voor Visuele Navigatie
ViNT: A Foundation Model for Visual Navigation

Jun 26

ByDhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine