Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Om met mensen in de wereld te interageren, moeten agenten de diverse soorten taal die mensen gebruiken begrijpen, deze relateren aan de visuele wereld en erop handelen. Hoewel huidige agenten leren om eenvoudige taalopdrachten uit te voeren op basis van taakbeloningen, streven wij ernaar om agenten te bouwen die diverse taal benutten die algemene kennis overbrengt, de staat van de wereld beschrijft, interactieve feedback geeft, en meer. Onze kernidee is dat taal agenten helpt de toekomst te voorspellen: wat er zal worden waargenomen, hoe de wereld zich zal gedragen, en welke situaties beloond zullen worden. Dit perspectief verenigt taalbegrip met toekomstvoorspelling als een krachtig zelfgesuperviseerd leerdoel. Wij presenteren Dynalang, een agent die een multimodaal wereldmodel leert dat toekomstige tekst- en beeldrepresentaties voorspelt en leert te handelen vanuit geïmagineerde modelrollouts. In tegenstelling tot traditionele agenten die taal alleen gebruiken om acties te voorspellen, verwerft Dynalang rijk taalbegrip door ook eerdere taal te gebruiken om toekomstige taal, video en beloningen te voorspellen. Naast het leren van online interactie in een omgeving, kan Dynalang worden voorgetraind op datasets van tekst, video, of beide zonder acties of beloningen. Van het gebruik van taalaanwijzingen in rasterwerelden tot het navigeren door fotorealistische scans van huizen, benut Dynalang diverse soorten taal om de taakprestaties te verbeteren, waaronder omgevingsbeschrijvingen, spelregels en instructies.
We introduceren OpenFlamingo, een familie van autoregressieve visueel-taalmodel- len variërend van 3B tot 9B parameters. OpenFlamingo is een doorlopende inspanning om een open-source replicatie te produceren van DeepMind's Flamingo-modellen. Op zeven visueel-taal datasets behalen OpenFlamingo-modellen gemiddeld tussen de 80 - 89% van de corresponderende Flamingo-prestaties. Dit technische rapport beschrijft onze modellen, trainingsdata, hyperparameters en evaluatiesuite. We delen onze modellen en code op https://github.com/mlfoundations/open_flamingo.
Wiskundig redeneren is een uitdagende taak voor grote taalmodellen (LLM's), terwijl de schaalrelatie hiervan ten opzichte van de capaciteit van LLM's nog onvoldoende is onderzocht. In dit artikel onderzoeken we hoe de pre-trainingsverlies, de hoeveelheid begeleide data en de hoeveelheid uitgebreide data de redeneerprestaties van een begeleid LLM beïnvloeden. We ontdekken dat pre-trainingsverlies een betere indicator is van de prestaties van het model dan het aantal parameters van het model. We passen begeleide fine-tuning (SFT) toe met verschillende hoeveelheden begeleide data en vinden empirisch een log-lineair verband tussen de hoeveelheid data en de modelprestaties, waarbij we vaststellen dat betere modellen minder verbeteren met uitgebreide begeleide datasets. Om meer datamonsters uit te breiden voor het verbeteren van de modelprestaties zonder menselijke inspanning, stellen we voor om Rejection Sampling Fine-Tuning (RFT) toe te passen. RFT gebruikt begeleide modellen om correcte redeneerpaden te genereren en te verzamelen als uitgebreide fine-tuning datasets. We ontdekken dat met uitgebreide monsters die meer verschillende redeneerpaden bevatten, RFT de wiskundige redeneerprestaties van LLM's meer verbetert. We vinden ook dat RFT meer verbetering brengt voor minder presterende LLM's. Bovendien combineren we afgewezen monsters van meerdere modellen, wat LLaMA-7B naar een nauwkeurigheid van 49,3% duwt en de begeleide fine-tuning (SFT) nauwkeurigheid van 35,9% aanzienlijk overtreft.
Diffusiemodellen hebben veelbelovende resultaten laten zien in cross-modale generatietaken, waaronder tekst-naar-beeld en tekst-naar-audio generatie. Het genereren van muziek, als een speciaal type audio, brengt echter unieke uitdagingen met zich mee vanwege de beperkte beschikbaarheid van muziekdata en gevoelige kwesties gerelateerd aan auteursrecht en plagiaat. In dit artikel gaan we deze uitdagingen aan door eerst een state-of-the-art tekst-naar-muziek model, MusicLDM, te construeren dat de Stable Diffusion en AudioLDM architecturen aanpast aan het muziekdomein. We bereiken dit door het contrastieve taal-audio vooraf getrainde model (CLAP) en de Hifi-GAN vocoder, als onderdelen van MusicLDM, opnieuw te trainen op een verzameling muziekdatamonsters. Vervolgens pakken we de beperkingen van de trainingsdata aan en vermijden we plagiaat door gebruik te maken van een beat tracking model en stellen we twee verschillende mixup strategieën voor data-augmentatie voor: beat-synchrone audio mixup en beat-synchrone latente mixup, die trainingsaudio rechtstreeks of via een latente embeddings ruimte hercombineren. Dergelijke mixup strategieën moedigen het model aan om te interpoleren tussen muzikale trainingsmonsters en nieuwe muziek te genereren binnen het convexe omhulsel van de trainingsdata, waardoor de gegenereerde muziek diverser wordt terwijl het nog steeds trouw blijft aan de corresponderende stijl. Naast populaire evaluatiemetrics ontwerpen we verschillende nieuwe evaluatiemetrics op basis van de CLAP-score om aan te tonen dat onze voorgestelde MusicLDM en beat-synchrone mixup strategieën zowel de kwaliteit als de nieuwigheid van de gegenereerde muziek verbeteren, evenals de correspondentie tussen invoertekst en gegenereerde muziek.
Taalmodellen tonen een opmerkelijke capaciteit om representaties die in één modaliteit zijn geleerd, te generaliseren naar downstream taken in andere modaliteiten. Kunnen we dit vermogen herleiden tot individuele neuronen? We bestuderen het geval waarbij een bevroren teksttransformer wordt uitgebreid met visie door middel van een zelfsupervised visuele encoder en een enkele lineaire projectie die is geleerd op een beeld-naar-tekst taak. De uitvoer van de projectielaag is niet direct decodeerbaar in taal die de beeldinhoud beschrijft; in plaats daarvan vinden we dat de vertaling tussen modaliteiten dieper binnen de transformer plaatsvindt. We introduceren een procedure voor het identificeren van "multimodale neuronen" die visuele representaties omzetten in corresponderende tekst, en voor het decoderen van de concepten die ze injecteren in de reststroom van het model. In een reeks experimenten tonen we aan dat multimodale neuronen werken op specifieke visuele concepten over verschillende inputs, en een systematisch causaal effect hebben op beeldbeschrijving.
We presenteren het HANDAL-dataset voor categoriegewijze objectpose-schatting en affordantievoorspelling. In tegenstelling tot eerdere datasets, richt de onze zich op robotklaar manipuleerbare objecten die de juiste grootte en vorm hebben voor functioneel grijpen door robotmanipulatoren, zoals tangen, bestek en schroevendraaiers. Ons annotatieproces is gestroomlijnd en vereist slechts een enkele kant-en-klare camera en semi-geautomatiseerde verwerking, waardoor we hoogwaardige 3D-annotaties kunnen produceren zonder gebruik te maken van crowdsourcing. De dataset bestaat uit 308k geannoteerde beeldframes uit 2.2k video's van 212 objecten uit de echte wereld in 17 categorieën. We richten ons op hardware- en keukengereedschapsobjecten om onderzoek te faciliteren in praktische scenario's waarin een robotmanipulator moet interageren met de omgeving, verder dan eenvoudig duwen of ongericht grijpen. We schetsen het nut van onze dataset voor 6-DoF categoriegewijze pose+schaal-schatting en gerelateerde taken. We bieden ook 3D-gereconstrueerde meshes van alle objecten, en we schetsen enkele knelpunten die moeten worden aangepakt om de verzameling van datasets zoals deze te democratiseren.
We presenteren het All-Seeing (AS) project: een grootschalige dataset en model voor het herkennen en begrijpen van alles in de open wereld. Met behulp van een schaalbare data-engine die menselijke feedback en efficiënte modellen in de loop integreert, creëren we een nieuwe dataset (AS-1B) met meer dan 1 miljard regio's die zijn geannoteerd met semantische tags, vraag-antwoordparen en gedetailleerde beschrijvingen. Het bestrijkt een breed scala aan 3,5 miljoen veelvoorkomende en zeldzame concepten in de echte wereld, en bevat 132,2 miljard tokens die de concepten en hun attributen beschrijven. Gebruikmakend van deze nieuwe dataset ontwikkelen we het All-Seeing model (ASM), een uniform raamwerk voor panoptische visuele herkenning en begrip. Het model wordt getraind met open-einde taalprompts en locaties, waardoor het kan generaliseren naar diverse visie- en taal taken met opmerkelijke zero-shot prestaties, waaronder regio-tekst retrieval, regioherkenning, beschrijvingen en vraag-antwoordtaken. We hopen dat dit project kan dienen als basis voor onderzoek naar vision-language kunstmatige algemene intelligentie. Modellen en de dataset zullen worden vrijgegeven op https://github.com/OpenGVLab/All-Seeing, en een demo is te zien op https://huggingface.co/spaces/OpenGVLab/all-seeing.
Dit artikel presenteert een verbeterde DETR-detector die een "eenvoudige" aard behoudt: het gebruikt een enkelvoudige feature map en globale cross-attention berekeningen zonder specifieke localiteitsbeperkingen, in tegenstelling tot eerdere toonaangevende DETR-gebaseerde detectoren die architectonische inductieve biases van multi-schaal en localiteit opnieuw introduceren in de decoder. We tonen aan dat twee eenvoudige technologieën verrassend effectief zijn binnen een eenvoudig ontwerp om het gebrek aan multi-schaal feature maps en localiteitsbeperkingen te compenseren. De eerste is een box-to-pixel relatieve positiebias (BoxRPB) term die toegevoegd wordt aan de cross-attention formulering, die elke query goed begeleidt om aandacht te besteden aan het corresponderende objectgebied terwijl het ook coderingsflexibiliteit biedt. De tweede is masked image modeling (MIM)-gebaseerde backbone pre-training die helpt bij het leren van representaties met fijnmazige localisatievaardigheid en cruciaal blijkt voor het verhelpen van afhankelijkheden van de multi-schaal feature maps. Door deze technologieën en recente vooruitgang in training en probleemformulering te integreren, toonde de verbeterde "eenvoudige" DETR uitzonderlijke verbeteringen ten opzichte van de originele DETR-detector. Door gebruik te maken van het Object365 dataset voor pre-training, behaalde het een nauwkeurigheid van 63.9 mAP met een Swin-L backbone, wat zeer competitief is met state-of-the-art detectoren die allemaal sterk afhankelijk zijn van multi-schaal feature maps en regio-gebaseerde feature extractie. Code is beschikbaar op https://github.com/impiga/Plain-DETR.
Imaginatief spel is een creatief domein dat robots in staat zou kunnen stellen om op een veel meer gepersonifieerde manier met de wereld om hen heen om te gaan. Imaginatief spel kan worden gezien als het nemen van echte objecten en locaties en deze gebruiken als denkbeeldige objecten en locaties in virtuele scenario's. We hebben het verhalengeneratievermogen van grote taalmodellen (LLM's) ingezet om de verhalen te verkrijgen die worden gebruikt voor imaginatief spel met door mensen geschreven prompts. Die gegenereerde verhalen worden vereenvoudigd en omgezet in actievolgordes die de agent kunnen begeleiden tijdens het imaginatieve spel. Om te evalueren of de agent het imaginatieve spel succesvol kan voltooien, hebben we ook een tekstavonturenspel ontworpen dat een huis simuleert als speelplaats waar de agent mee kan interacteren.
Lang belichting fotografie produceert indrukwekkende beelden, waarbij bewegende elementen in een scène worden weergegeven met bewegingsonscherpte. Het wordt over het algemeen in twee modaliteiten toegepast, waarbij ofwel een voorgrond- of een achtergrondonscherpte-effect wordt geproduceerd. Voorgrondonscherpte-beelden worden traditioneel vastgelegd met een camera op een statief en tonen bewogen voorgrondelementen, zoals zijdezacht water of lichtsporen, tegen een perfect scherp achtergrondlandschap. Achtergrondonscherpte-beelden, ook wel panning fotografie genoemd, worden vastgelegd terwijl de camera een bewegend onderwerp volgt, om een beeld te produceren van een scherp onderwerp tegen een achtergrond die onscherp is door relatieve beweging. Beide technieken staan bekend als uitdagend en vereisen extra apparatuur en geavanceerde vaardigheden. In dit artikel beschrijven we een computationeel burst fotografie systeem dat werkt in een handmatige smartphonecamera-app en deze effecten volledig automatisch bereikt met een druk op de sluiterknop. Onze aanpak detecteert en segmenteert eerst het opvallende onderwerp. We volgen de scènebeweging over meerdere frames en aligneren de beelden om de gewenste scherpte te behouden en esthetisch aantrekkelijke bewegingsstrepen te produceren. We nemen een onderbelichte burst op en selecteren de subset van invoerframes die bewegingsonscherpte van gecontroleerde lengte zullen produceren, ongeacht de snelheid van de scène of camerabeweging. We voorspellen de beweging tussen frames en synthetiseren bewegingsonscherpte om de temporele gaten tussen de invoerframes op te vullen. Tot slot combineren we het onscherpe beeld met de scherpe reguliere belichting om de scherpte van gezichten of delen van de scène die nauwelijks bewegen te beschermen, en produceren we een uiteindelijke foto met hoge resolutie en hoog dynamisch bereik (HDR). Ons systeem democratiseert een mogelijkheid die voorheen voorbehouden was aan professionals en maakt deze creatieve stijl toegankelijk voor de meeste amateurfotografen. Meer informatie en aanvullend materiaal zijn te vinden op onze projectwebpagina: https://motion-mode.github.io/
Dynamische gekleurde meshes (DCM) worden veelvuldig gebruikt in diverse toepassingen; deze meshes kunnen echter verschillende processen ondergaan, zoals compressie of transmissie, wat ze kan vervormen en hun kwaliteit kan aantasten. Om de ontwikkeling van objectieve metrieken voor DCM's te vergemakkelijken en de invloed van typische vervormingen op hun perceptie te bestuderen, hebben we de Tencent - dynamic colored mesh database (TDMD) gecreëerd, die acht referentie-DCM-objecten bevat met zes typische vervormingen. Met behulp van verwerkte videosequenties (PVS) afgeleid van de DCM hebben we een grootschalig subjectief experiment uitgevoerd dat resulteerde in 303 vervormde DCM-monsters met gemiddelde beoordelingsscores, waardoor de TDMD naar onze kennis de grootste beschikbare DCM-database is. Deze database stelde ons in staat om de impact van verschillende soorten vervormingen op de menselijke perceptie te bestuderen en aanbevelingen te doen voor DCM-compressie en gerelateerde taken. Daarnaast hebben we drie soorten state-of-the-art objectieve metrieken geëvalueerd op de TDMD, waaronder beeldgebaseerde, puntgebaseerde en videogebaseerde metrieken. Onze experimentele resultaten benadrukken de sterke en zwakke punten van elke metriek, en we geven suggesties voor de selectie van metrieken in praktische DCM-toepassingen. De TDMD zal publiekelijk beschikbaar worden gesteld op de volgende locatie: https://multimedia.tencent.com/resources/tdmd.