Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We pakken de taak van conditionele muziekgeneratie aan. We introduceren MusicGen, een enkel Taalmodel (LM) dat werkt over meerdere stromen van gecomprimeerde discrete muziekrepresentaties, d.w.z. tokens. In tegenstelling tot eerder werk bestaat MusicGen uit een transformer LM in één fase, samen met efficiënte token-interleavingpatronen, waardoor de noodzaak van het cascaderen van meerdere modellen, bijvoorbeeld hiërarchisch of upsampling, wordt geëlimineerd. Door deze aanpak te volgen, demonstreren we hoe MusicGen hoogwaardige samples kan genereren, terwijl het wordt geconditioneerd op tekstuele beschrijvingen of melodische kenmerken, wat betere controle over het gegenereerde resultaat mogelijk maakt. We voeren een uitgebreide empirische evaluatie uit, waarbij zowel automatische als menselijke studies worden overwogen, en tonen aan dat de voorgestelde aanpak superieur is aan de geëvalueerde baselines op een standaard tekst-naar-muziek benchmark. Door middel van ablatiestudies werpen we licht op het belang van elk van de componenten waaruit MusicGen bestaat. Muziekvoorbeelden, code en modellen zijn beschikbaar op https://github.com/facebookresearch/audiocraft.
Hoogwaardige instructies en reacties zijn essentieel voor de zero-shot prestaties van grote taalmodelen bij interactieve natuurlijke-taaltaken. Voor interactieve visie-taaltaken die complexe visuele scènes omvatten, is een grote hoeveelheid diverse en creatieve instructie-reactieparen cruciaal om visie-taalmodelen (VLMs) af te stemmen. Desalniettemin blijft de huidige beschikbaarheid van visie-taal-instructie-reactieparen in termen van hoeveelheid, diversiteit en creativiteit beperkt, wat uitdagingen oplevert voor de generalisatie van interactieve VLMs. Hier presenteren we MultI-Modal In-Context Instruction Tuning (MIMIC-IT), een dataset bestaande uit 2,8 miljoen multimodale instructie-reactieparen, met 2,2 miljoen unieke instructies afgeleid van afbeeldingen en video's. Elk paar wordt vergezeld door multimodale in-context informatie, waardoor conversatiecontexten ontstaan die bedoeld zijn om VLMs te empoweren in perceptie, redenering en planning. Het verzamelproces van instructie-reactieparen, genaamd Syphus, wordt opgeschaald met behulp van een automatische annotatiepijplijn die menselijke expertise combineert met de mogelijkheden van GPT. Met behulp van de MIMIC-IT-dataset trainen we een groot VLM genaamd Otter. Op basis van uitgebreide evaluaties uitgevoerd op visie-taalbenchmarks, is gebleken dat Otter opmerkelijke vaardigheden vertoont in multimodale perceptie, redenering en in-context leren. Menselijke evaluatie laat zien dat het effectief aansluit bij de intenties van de gebruiker. We publiceren de MIMIC-IT-dataset, de instructie-reactieverzamelingspijplijn, benchmarks en het Otter-model.
We presenteren een nieuwe test-time optimalisatiemethode voor het schatten van dichte en langetermijnbeweging uit een videosequentie. Bestaande algoritmen voor optische stroming of deeltjesvideotracking werken doorgaans binnen beperkte temporele vensters, wat leidt tot problemen bij het volgen door occlusies en het behouden van globale consistentie van geschatte bewegingsbanen. Wij stellen een complete en globaal consistente bewegingrepresentatie voor, genaamd OmniMotion, die nauwkeurige, volledige bewegingsschatting van elke pixel in een video mogelijk maakt. OmniMotion representeert een video met behulp van een quasi-3D canoniek volume en voert pixelgewijze tracking uit via bijecties tussen lokale en canonieke ruimte. Deze representatie stelt ons in staat om globale consistentie te garanderen, door occlusies te volgen, en elke combinatie van camera- en objectbeweging te modelleren. Uitgebreide evaluaties op de TAP-Vid benchmark en real-world beelden tonen aan dat onze aanpak eerdere state-of-the-art methoden zowel kwantitatief als kwalitatief met een grote marge overtreft. Bekijk onze projectpagina voor meer resultaten: http://omnimotion.github.io/
Conversatieagents aangedreven door Large Language Models (LLMs) bieden een nieuwe manier om te interacteren met visuele data. Hoewel er al eerste pogingen zijn gedaan voor op afbeeldingen gebaseerde conversatiemodellen, richt dit werk zich op het onderbelichte gebied van op video gebaseerde conversatie door Video-ChatGPT te introduceren. Het is een multimodaal model dat een visuele encoder, aangepast voor video, combineert met een LLM. Het model is in staat om mensachtige gesprekken over video's te begrijpen en te genereren. We introduceren een nieuwe dataset van 100.000 video-instructieparen die gebruikt wordt om Video-ChatGPT te trainen, verkregen via een handmatige en semi-geautomatiseerde pipeline die eenvoudig schaalbaar is en robuust tegen labelruis. We ontwikkelen ook een kwantitatief evaluatiekader voor op video gebaseerde dialoogmodellen om de sterke en zwakke punten van de voorgestelde modellen objectief te analyseren. Onze code, modellen, instructiesets en demo zijn vrijgegeven op https://github.com/mbzuai-oryx/Video-ChatGPT.
De opmerkelijke mogelijkheden van vooraf getrainde beelddiffusiemodellen zijn niet alleen benut voor het genereren van afbeeldingen met vaste afmetingen, maar ook voor het creëren van panorama's. Eenvoudige samenvoeging van meerdere afbeeldingen resulteert echter vaak in zichtbare naden. Recente technieken hebben geprobeerd dit probleem aan te pakken door gezamenlijke diffusies uit te voeren in meerdere vensters en latente kenmerken in overlappende gebieden te middelen. Deze benaderingen, die zich richten op naadloze montagegeneratie, leveren echter vaak onsamenhangende resultaten op door verschillende scènes binnen één afbeelding te mengen. Om deze beperking te overwinnen, stellen we SyncDiffusion voor, een plug-and-play module die meerdere diffusies synchroniseert via gradient descent op basis van een perceptueel gelijkheidsverlies. Specifiek berekenen we de gradient van het perceptuele verlies met behulp van de voorspelde ontruisde afbeeldingen bij elke denoisestap, wat zinvolle begeleiding biedt voor het bereiken van samenhangende montages. Onze experimentele resultaten tonen aan dat onze methode aanzienlijk samenhangendere resultaten oplevert in vergelijking met eerdere methoden (66,35% vs. 33,65% in onze gebruikersstudie), terwijl de trouw (beoordeeld door GIQA) en compatibiliteit met de invoerprompt (gemeten door CLIP-score) behouden blijven.
In dit artikel presenteren we het Matting Anything Model (MAM), een efficiënt en veelzijdig raamwerk voor het schatten van de alfa-matte van elke instantie in een afbeelding met flexibele en interactieve visuele of linguïstische gebruikersprompts. MAM biedt verschillende belangrijke voordelen ten opzichte van eerdere gespecialiseerde beeldmatting-netwerken: (i) MAM is in staat om verschillende soorten beeldmatting aan te pakken, waaronder semantische, instantie- en verwijzende beeldmatting met slechts één model; (ii) MAM maakt gebruik van de kenmerkkaarten van het Segment Anything Model (SAM) en neemt een lichtgewicht Mask-to-Matte (M2M)-module over om de alfa-matte te voorspellen via iteratieve verfijning, wat slechts 2,7 miljoen trainbare parameters heeft. (iii) Door SAM te integreren, vereenvoudigt MAM de gebruikersinterventie die nodig is voor het interactieve gebruik van beeldmatting van de trimap naar de box, punt of tekstprompt. We evalueren de prestaties van MAM op verschillende beeldmatting-benchmarks, en de experimentele resultaten tonen aan dat MAM vergelijkbare prestaties behaalt met de state-of-the-art gespecialiseerde beeldmatting-modellen onder verschillende metrieken op elke benchmark. Over het algemeen toont MAM een superieure generalisatiecapaciteit en kan het effectief verschillende beeldmatting-taken aanpakken met minder parameters, waardoor het een praktische oplossing is voor geünificeerde beeldmatting. Onze code en modellen zijn open-source beschikbaar op https://github.com/SHI-Labs/Matting-Anything.
Het delen van gewichten in een supernet is een cruciaal onderdeel geworden voor prestatie-inschatting in de meest geavanceerde (state-of-the-art, SOTA) neurale architectuurzoekmethoden (neural architecture search, NAS). Hoewel een supernet direct verschillende subnetwerken kan genereren zonder hertraining, is er geen garantie voor de kwaliteit van deze subnetwerken vanwege het delen van gewichten. Bij NLP-taken zoals machinaal vertalen en vooraf getraind taalmodeleren, observeren we dat bij dezelfde modelarchitectuur er een groot prestatieverschil bestaat tussen het supernet en training vanaf nul. Daarom kan het supernet niet direct worden gebruikt en is hertraining noodzakelijk na het vinden van de optimale architecturen. In dit werk stellen we mixture-of-supernets voor, een gegeneraliseerde supernetformulering waarbij mixture-of-experts (MoE) wordt toegepast om de expressieve kracht van het supernetmodel te vergroten, met verwaarloosbare trainingsoverhead. Op deze manier delen verschillende subnetwerken de modelgewichten niet direct, maar via een op architectuur gebaseerd routeringsmechanisme. Hierdoor worden de modelgewichten van verschillende subnetwerken afgestemd op hun specifieke architecturen en wordt de gewichtsgeneratie geleerd door gradient descent. In vergelijking met bestaande supernetten voor NLP die gewichten delen, kan onze methode de hertrainingstijd minimaliseren, waardoor de trainingsefficiëntie aanzienlijk wordt verbeterd. Bovendien behaalt de voorgestelde methode de SOTA-prestaties in NAS voor het bouwen van snelle machinale vertaalmodellen, wat een betere afweging tussen latentie en BLEU oplevert vergeleken met HAT, de state-of-the-art NAS voor machinaal vertalen. We behalen ook de SOTA-prestaties in NAS voor het bouwen van geheugenefficiënte, taakonafhankelijke BERT-modellen, waarbij we NAS-BERT en AutoDistil overtreffen bij verschillende modelgroottes.
Een kritisch obstakel dat de brede inzet van NeRF-modellen in de praktijk belemmert, is hun afhankelijkheid van nauwkeurige cameraposities. Hierdoor is er een groeiende interesse in het uitbreiden van NeRF-modellen om cameraposities en scèneweergave gezamenlijk te optimaliseren, wat een alternatief biedt voor standaard SfM-pipelines die bekende faalmodi hebben. Bestaande benaderingen voor NeRF zonder vooraf bekende posities werken onder beperkte aannames, zoals een vooraf bepaalde positiestelling of een ruwe initiële positie, waardoor ze minder effectief zijn in een algemene setting. In dit werk stellen we een nieuwe benadering voor, LU-NeRF, die cameraposities en neurale radiance fields gezamenlijk schat met versoepelde aannames over de positieconfiguratie. Onze benadering werkt op een lokaal-naar-globale manier, waarbij we eerst optimaliseren over lokale subsets van de data, zogenaamde mini-scènes. LU-NeRF schat lokale posities en geometrie voor deze uitdagende few-shot taak. De mini-scène posities worden in een globaal referentiekader gebracht via een robuuste posesynchronisatiestap, waarna een laatste globale optimalisatie van positie en scène kan worden uitgevoerd. We laten zien dat onze LU-NeRF-pipeline eerdere pogingen tot NeRF zonder vooraf bekende posities overtreft, zonder beperkende aannames te maken over de positie. Dit stelt ons in staat om te werken in de algemene SE(3) positie-instelling, in tegenstelling tot de baseline-modellen. Onze resultaten geven ook aan dat ons model complementair kan zijn aan feature-gebaseerde SfM-pipelines, aangezien het gunstig afsteekt tegen COLMAP bij afbeeldingen met weinig textuur en lage resolutie.
Het schatten van de diepte van objecten vanuit een enkele afbeelding is een waardevolle taak voor veel visuele, robotica- en grafische toepassingen. Huidige methoden slagen er echter vaak niet in om nauwkeurige diepteschattingen te produceren voor objecten in diverse scènes. In dit werk stellen we een eenvoudige maar effectieve strategie voor, genaamd Background Prompting, die de invoerafbeelding van het object aanpast met een aangeleerde achtergrond. We leren de achtergrondprompts uitsluitend met behulp van kleinschalige synthetische objectdatasets. Om de objectdiepte op een echte afbeelding te bepalen, plaatsen we het gesegmenteerde object in de aangeleerde achtergrondprompt en voeren we standaard dieptenetwerken uit. Background Prompting helpt de dieptenetwerken zich te concentreren op het voorgrondobject, doordat ze ongevoelig worden gemaakt voor variaties in de achtergrond. Bovendien minimaliseert Background Prompting de domeinkloof tussen synthetische en echte objectafbeeldingen, wat leidt tot een betere sim2real-generalizatie dan eenvoudige finetuning. Resultaten op meerdere synthetische en echte datasets tonen consistente verbeteringen in de geschatte dieptes van echte objecten voor een verscheidenheid aan bestaande dieptenetwerken. Code en geoptimaliseerde achtergrondprompts zijn te vinden op: https://mbaradad.github.io/depth_prompt.
Aangedreven door schaalbare diffusiemodellen die getraind zijn op grootschalige gepaarde tekst-beelddatasets, hebben tekst-naar-beeldsynthesemethoden overtuigende resultaten laten zien. Deze modellen slagen er echter nog steeds niet in om de tekstprompt precies te volgen wanneer meerdere objecten, attributen en ruimtelijke composities betrokken zijn bij de prompt. In dit artikel identificeren we de mogelijke oorzaken in zowel de cross-attention- als de self-attentionlagen van het diffusiemodel. We stellen twee nieuwe verliesfuncties voor om de aandachtkaarten te heroriënteren volgens een gegeven lay-out tijdens het samplingproces. We voeren uitgebreide experimenten uit op de DrawBench- en HRS-benchmarks met lay-outs gesynthetiseerd door Large Language Models, waarbij we aantonen dat onze voorgestelde verliesfuncties eenvoudig en effectief kunnen worden geïntegreerd in bestaande tekst-naar-beeldmethoden en consistent de afstemming tussen de gegenereerde beelden en de tekstprompts verbeteren.
We presenteren BlenderBot 3x, een update van het conversatiemodel BlenderBot 3, dat nu is getraind met organische gespreks- en feedbackgegevens van deelnemende gebruikers van het systeem om zowel de vaardigheden als de veiligheid te verbeteren. We maken de gedeïdentificeerde interactiegegevens van de deelnemers openbaar beschikbaar voor gebruik door de onderzoeksgemeenschap, om verdere vooruitgang te stimuleren. Het trainen van modellen met organische gegevens is uitdagend omdat interacties met mensen "in het wild" zowel hoogwaardige gesprekken en feedback omvatten, als ook adversariële en giftige gedragingen. We bestuderen technieken die het mogelijk maken om te leren van behulpzame leraren, terwijl wordt voorkomen dat wordt geleerd van mensen die het model proberen te misleiden tot onbehulpzame of giftige reacties. BlenderBot 3x wordt zowel in gesprekken geprefereerd boven BlenderBot 3, als ook aangetoond veiligere reacties te produceren in uitdagende situaties. Hoewel onze huidige modellen nog verre van perfect zijn, geloven we dat verdere verbetering kan worden bereikt door het voortgezette gebruik van de technieken die in dit werk worden verkend.
Text-to-image generatieve modellen hebben hoogwaardige beeldgeneratie mogelijk gemaakt over verschillende domeinen, maar vereisen dat gebruikers de inhoud specificeren die ze willen genereren. In dit artikel beschouwen we het omgekeerde probleem -- gegeven een verzameling van verschillende afbeeldingen, kunnen we de generatieve concepten ontdekken die elke afbeelding vertegenwoordigen? We presenteren een onbewaakte aanpak om generatieve concepten te ontdekken uit een verzameling afbeeldingen, waarbij verschillende kunststijlen in schilderijen, objecten en belichting uit keukenscènes worden ontward, en beeldklassen worden ontdekt bij ImageNet-afbeeldingen. We laten zien hoe dergelijke generatieve concepten de inhoud van afbeeldingen nauwkeurig kunnen weergeven, kunnen worden gecombineerd en samengesteld om nieuwe artistieke en hybride afbeeldingen te genereren, en verder kunnen worden gebruikt als een representatie voor downstream classificatietaken.
Sferische CNN's generaliseren CNN's naar functies op de bol, door sferische convoluties als de belangrijkste lineaire bewerking te gebruiken. De meest nauwkeurige en efficiënte manier om sferische convoluties te berekenen is in het spectrale domein (via het convolutietheorema), wat nog steeds duurder is dan de gebruikelijke vlakke convoluties. Om deze reden zijn toepassingen van sferische CNN's tot nu toe beperkt gebleven tot kleine problemen die met een lage modelcapaciteit kunnen worden aangepakt. In dit werk laten we zien hoe sferische CNN's kunnen worden opgeschaald voor veel grotere problemen. Om dit te bereiken, maken we cruciale verbeteringen, waaronder nieuwe varianten van veelgebruikte modelcomponenten, een implementatie van kernbewerkingen om de kenmerken van hardwareversnellers te benutten, en toepassingsspecifieke invoerrepresentaties die de eigenschappen van ons model uitbuiten. Experimenten tonen aan dat onze grotere sferische CNN's state-of-the-art bereiken op verschillende doelen van de QM9-moleculaire benchmark, die voorheen werd gedomineerd door equivariante grafische neurale netwerken, en competitieve prestaties leveren op meerdere weersvoorspellingstaken. Onze code is beschikbaar op https://github.com/google-research/spherical-cnn.
We presenteren een raamwerk dat visuele vraagbeantwoording formuleert als modulaire codegeneratie. In tegenstelling tot eerder werk over modulaire benaderingen voor VQA, vereist onze aanpak geen aanvullende training en maakt het gebruik van vooraf getrainde taalmodellen (LMs), visuele modellen die zijn getraind op afbeelding-bijschriftparen, en vijftig VQA-voorbeelden die worden gebruikt voor in-context leren. De gegenereerde Python-programma's roepen de uitvoer van de visuele modellen aan en combineren deze met behulp van rekenkundige en conditionele logica. Onze aanpak verbetert de nauwkeurigheid op de COVR-dataset met ten minste 3% en op de GQA-dataset met ongeveer 2% in vergelijking met de few-shot baseline die geen gebruik maakt van codegeneratie.
In dit artikel gaan we in op de uitdagingen die worden veroorzaakt door de aanzienlijke trainingsduur en het geheugengebruik die gepaard gaan met videotransformers, waarbij we ons richten op het ViViT-model (Video Vision Transformer), met name de Factorised Encoder-versie, als ons uitgangspunt voor actieherkenningstaken. De factorised encoder-variant volgt de late-fusiebenadering die door veel state-of-the-art methoden wordt gebruikt. Ondanks dat deze variant opvalt door zijn gunstige snelheid/nauwkeurigheid-afwegingen ten opzichte van de verschillende ViViT-varianten, vormen de aanzienlijke trainingsduur en het geheugengebruik nog steeds een belangrijke drempel. Onze methode is ontworpen om deze drempel te verlagen en is gebaseerd op het idee om de ruimtelijke transformer tijdens de training te bevriezen. Dit leidt tot een model met lage nauwkeurigheid als dit op een naïeve manier wordt gedaan. Maar we laten zien dat door (1) de temporele transformer (een module die verantwoordelijk is voor het verwerken van temporele informatie) op de juiste manier te initialiseren, en (2) een compact adaptermodel te introduceren dat bevroren ruimtelijke representaties (een module die selectief focust op regio's van de invoerafbeelding) verbindt met de temporele transformer, we de voordelen van het bevriezen van de ruimtelijke transformer kunnen benutten zonder in te leveren op nauwkeurigheid. Door uitgebreide experimenten op 6 benchmarks tonen we aan dat onze voorgestelde trainingsstrategie de trainingskosten aanzienlijk vermindert (met ongeveer 50%) en het geheugengebruik verlaagt, terwijl de prestaties behouden blijven of licht verbeteren met maximaal 1,79% ten opzichte van het basismodel. Onze aanpak maakt het bovendien mogelijk om grotere beeldtransformermodellen te gebruiken als onze ruimtelijke transformer en meer frames te verwerken met hetzelfde geheugengebruik.
Visiespecifieke concepten zoals "regio" hebben een sleutelrol gespeeld bij het uitbreiden van algemene machine learning-frameworks naar taken zoals objectdetectie. Gezien het succes van regio-gebaseerde detectoren voor supervised learning en de vooruitgang van intra-beeldmethoden voor contrastief leren, onderzoeken we het gebruik van regio's voor reconstructieve pre-training. Uitgaande van Masked Autoencoding (MAE) als zowel een baseline als een inspiratie, stellen we een parallelle pre-text taak voor die is afgestemd op het adresseren van de één-op-veel-mapping tussen afbeeldingen en regio's. Aangezien dergelijke regio's op een niet-gesuperviseerde manier kunnen worden gegenereerd, erft onze aanpak (R-MAE) de brede toepasbaarheid van MAE, terwijl deze meer "regiobewust" is. We voeren grondige analyses uit tijdens de ontwikkeling van R-MAE en komen uit op een variant die zowel effectief als efficiënt is (1,3% overhead ten opzichte van MAE). Bovendien laat het consistente kwantitatieve verbeteringen zien wanneer het wordt gegeneraliseerd naar verschillende pre-trainingsgegevens en downstream detectie- en segmentatiebenchmarks. Tot slot bieden we uitgebreide kwalitatieve visualisaties om het begrip van het gedrag en potentieel van R-MAE te vergroten. Code zal beschikbaar worden gesteld op https://github.com/facebookresearch/r-mae.