Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Er zijn aanzienlijke vooruitgangen geboekt met behulp van grote visie-taalmodellen, zoals Stable Diffusion (SD), voor een verscheidenheid aan downstream taken, waaronder beeldbewerking, beeldcorrespondentie en 3D-vormgeneratie. Geïnspireerd door deze ontwikkelingen, onderzoeken we het benutten van deze uitgebreide visie-taalmodellen voor het segmenteren van afbeeldingen op elke gewenste granulariteit met slechts één geannoteerd voorbeeld door SLiMe voor te stellen. SLiMe benadert dit probleem als een optimalisatietaak. Specifiek, gegeven een enkele trainingsafbeelding en zijn segmentatiemasker, extraheren we eerst aandachtkaarten, inclusief onze nieuwe "gewogen geaccumuleerde zelf-aandachtskaart" uit de SD-prior. Vervolgens worden de tekst-embeddingen van Stable Diffusion geoptimaliseerd met behulp van de geëxtraheerde aandachtkaarten, zodat elk van hen leert over een enkel gesegmenteerd gebied uit de trainingsafbeelding. Deze geleerde embeddingen markeren vervolgens het gesegmenteerde gebied in de aandachtkaarten, wat op zijn beurt kan worden gebruikt om het segmentatiemasker af te leiden. Hierdoor kan SLiMe elke real-world afbeelding tijdens inferentie segmenteren met de granulariteit van het gesegmenteerde gebied in de trainingsafbeelding, met slechts één voorbeeld. Bovendien verbetert het benutten van aanvullende trainingsgegevens, indien beschikbaar, d.w.z. few-shot, de prestaties van SLiMe. We hebben een kennisrijke reeks experimenten uitgevoerd waarin verschillende ontwerpfactoren werden onderzocht en toonden aan dat SLiMe andere bestaande one-shot en few-shot segmentatiemethoden overtreft.
Eerdere studies gingen er doorgaans van uit dat grote taalmodellen niet in staat zijn om rekenkundige bewerkingen nauwkeurig uit te voeren, met name vermenigvuldigingen van >8 cijfers, en bewerkingen met decimalen en breuken, zonder het gebruik van rekenmachines. Dit artikel heeft als doel deze misvatting aan te vechten. Met voldoende trainingsgegevens kan een taalmodel met 2 miljard parameters multidigitale rekenkundige bewerkingen met bijna 100% nauwkeurigheid uitvoeren zonder datatlek, wat aanzienlijk beter is dan GPT-4 (wiens nauwkeurigheid bij multidigitale vermenigvuldigingen slechts 4,3% is). We tonen ook aan dat onze MathGLM, afgestemd op GLM-10B met een dataset met aanvullende meerstaps rekenkundige bewerkingen en wiskundige problemen beschreven in tekst, vergelijkbare prestaties behaalt als GPT-4 op een testset van 5.000 Chinese wiskundige problemen.
We presenteren CM3Leon (uitgesproken als "Chameleon"), een retrieval-augmented, token-gebaseerd, decoder-only multimodaal taalmodel dat zowel tekst als afbeeldingen kan genereren en invullen. CM3Leon maakt gebruik van de CM3 multimodale architectuur, maar laat daarnaast de extreme voordelen zien van opschaling en afstemming op meer diverse instructiegestuurde data. Het is het eerste multimodale model dat is getraind met een recept dat is aangepast van tekst-only taalmodelen, inclusief een grootschalige retrieval-augmented pre-training fase en een tweede multi-task supervised fine-tuning (SFT) fase. Het is tevens een algemeen toepasbaar model dat zowel tekst-naar-afbeelding als afbeelding-naar-tekst generatie kan uitvoeren, waardoor we zelfstandige contrastieve decodeermethoden kunnen introduceren die hoogwaardige uitvoer produceren. Uitgebreide experimenten tonen aan dat dit recept zeer effectief is voor multimodale modellen. CM3Leon behaalt state-of-the-art prestaties in tekst-naar-afbeelding generatie met 5x minder trainingsrekenkracht dan vergelijkbare methoden (zero-shot MS-COCO FID van 4.88). Na SFT kan CM3Leon ook ongekende niveaus van beheersbaarheid demonstreren in taken variërend van taalgestuurde beeldbewerking tot beeldgestuurde generatie en segmentatie.
We introduceren Matcha-TTS, een nieuwe encoder-decoder architectuur voor snelle TTS akoestische modellering, getraind met optimal-transport conditional flow matching (OT-CFM). Dit resulteert in een ODE-gebaseerde decoder die in staat is tot hoge uitvoerkwaliteit in minder synthesestappen dan modellen getraind met score matching. Zorgvuldige ontwerpkeuzes zorgen er bovendien voor dat elke synthesestap snel uit te voeren is. De methode is probabilistisch, niet-autoregressief, en leert vanaf nul te spreken zonder externe aligneringen. Vergeleken met sterke vooraf getrainde baseline-modellen heeft het Matcha-TTS-systeem de kleinste geheugenvoetafdruk, evenaart het de snelheid van de snelste modellen bij lange uitingen, en behaalt het de hoogste gemiddelde beoordeling in een luistertest. Zie https://shivammehta25.github.io/Matcha-TTS/ voor audiovoorbeelden, code en vooraf getrainde modellen.
Recente ontwikkelingen in visueel-taalkundige modellen (VLMs) hebben geleid tot verbeterde prestaties bij taken zoals visuele vraagbeantwoording en beeldbeschrijving. Hierdoor zijn deze modellen nu goed gepositioneerd om te redeneren over de fysieke wereld, met name binnen domeinen zoals robotmanipulatie. Echter, huidige VLMs zijn beperkt in hun begrip van fysieke concepten (bijvoorbeeld materiaal, breekbaarheid) van alledaagse objecten, wat hun bruikbaarheid beperkt voor robotmanipulatietaken die interactie en fysiek redeneren over dergelijke objecten vereisen. Om deze beperking aan te pakken, stellen we PhysObjects voor, een objectgecentreerde dataset van 36,9K door de crowd gegenereerde en 417K geautomatiseerde annotaties van fysieke concepten van alledaagse huishoudelijke objecten. We demonstreren dat het fine-tunen van een VLM op PhysObjects het begrip van fysieke objectconcepten verbetert, door menselijke voorkennis van deze concepten vast te leggen vanuit visuele verschijning. We integreren dit fysiek onderbouwde VLM in een interactief framework met een op een groot taalmodel gebaseerde robotplanner, en tonen verbeterde planningsprestaties aan bij taken die redeneren over fysieke objectconcepten vereisen, vergeleken met baseline-modellen die geen gebruik maken van fysiek onderbouwde VLMs. Daarnaast illustreren we de voordelen van ons fysiek onderbouwde VLM op een echte robot, waar het de taaksuccespercentages verbetert. We maken onze dataset beschikbaar en bieden verdere details en visualisaties van onze resultaten op https://iliad.stanford.edu/pg-vlm/.
Neurale velden, een categorie van neurale netwerken die zijn getraind om hoogfrequente signalen weer te geven, hebben de afgelopen jaren aanzienlijke aandacht gekregen vanwege hun indrukwekkende prestaties bij het modelleren van complexe 3D-data, met name grote neurale signed distance fields (SDFs) of radiance fields (NeRFs) via een enkel multi-layer perceptron (MLP). Ondanks de kracht en eenvoud van het weergeven van signalen met een MLP, kampen deze methoden nog steeds met uitdagingen bij het modelleren van grote en complexe temporele signalen vanwege de beperkte capaciteit van MLPs. In dit artikel stellen we een effectieve aanpak voor om deze beperking aan te pakken door temporele residulagen te integreren in neurale velden, genaamd ResFields, een nieuwe klasse van netwerken die specifiek zijn ontworpen om complexe temporele signalen effectief weer te geven. We voeren een uitgebreide analyse uit van de eigenschappen van ResFields en stellen een matrixfactorisatietechniek voor om het aantal trainbare parameters te verminderen en de generalisatiecapaciteiten te verbeteren. Belangrijk is dat onze formulering naadloos integreert met bestaande technieken en consistent betere resultaten oplevert bij verschillende uitdagende taken: 2D-video-approximatie, dynamische vormmodellering via temporele SDFs, en dynamische NeRF-reconstructie. Tot slot demonstreren we de praktische bruikbaarheid van ResFields door de effectiviteit ervan te tonen bij het vastleggen van dynamische 3D-scènes vanuit schaarse sensorische inputs van een lichtgewicht capturesysteem.
Neural Radiance Fields (NeRFs) hebben potentie getoond in toepassingen zoals viewsynthese en diepteschatting, maar het leren van multiview-beelden gaat gepaard met inherente onzekerheden. Huidige methoden om deze te kwantificeren zijn ofwel heuristisch of rekenkundig veeleisend. Wij introduceren BayesRays, een post-hoc raamwerk om onzekerheid te evalueren in elke vooraf getrainde NeRF zonder het trainingsproces aan te passen. Onze methode stelt een volumetrisch onzekerheidsveld vast met behulp van ruimtelijke verstoringen en een Bayesiaanse Laplace-benadering. We leiden ons algoritme statistisch af en tonen de superieure prestaties aan in belangrijke metrieken en toepassingen. Aanvullende resultaten zijn beschikbaar op: https://bayesrays.github.io.
Menselijke behendigheid is een kenmerk van motorische controle. Onze handen kunnen snel nieuwe gedragingen synthetiseren ondanks de complexiteit (multi-articulair en multi-gewrichten, met 23 gewrichten die worden aangestuurd door meer dan 40 spieren) van het musculoskeletale sensorimotorische systeem. In dit werk laten we ons inspireren door hoe menselijke behendigheid voortbouwt op een verscheidenheid aan eerdere ervaringen, in plaats van te worden verworven via een enkele taak. Gemotiveerd door deze observatie, hebben we ons ten doel gesteld om agents te ontwikkelen die kunnen voortbouwen op hun eerdere ervaring om snel nieuwe (voorheen onbereikbare) gedragingen te verwerven. Specifiek maakt onze aanpak gebruik van multi-task learning om impliciet taakonafhankelijke gedrags-priors (MyoDex) vast te leggen voor mensachtige behendigheid, met behulp van een fysiologisch realistisch menselijk handmodel - MyoHand. We demonstreren de effectiviteit van MyoDex in few-shot generalisatie, evenals positieve transfer naar een groot repertoire van onbekende behendige manipulatietaken. Agents die gebruikmaken van MyoDex kunnen ongeveer 3x meer taken oplossen, en 4x sneller in vergelijking met een distillatie-baseline. Terwijl eerder werk zich richtte op het synthetiseren van individuele musculoskeletale controle-gedragingen, is MyoDex de eerste generaliseerbare manipulatiefprior die het leren van behendige fysiologische controle over een grote verscheidenheid aan contactrijke gedragingen katalyseert. We demonstreren ook de effectiviteit van onze paradigma's buiten musculoskeletale controle, richting het verwerven van behendigheid in een 24 DoF Adroit Hand. Website: https://sites.google.com/view/myodex