Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We ontdekken dat veelgebruikte diffusieteruigheidschema's niet afdwingen dat de laatste tijdstap een signaal-ruisverhouding (SNR) van nul heeft, en sommige implementaties van diffusiesamplers beginnen niet vanaf de laatste tijdstap. Dergelijke ontwerpen zijn gebrekkig en weerspiegelen niet het feit dat het model tijdens inferentie puur Gaussiaanse ruis krijgt, wat een discrepantie creëert tussen training en inferentie. We tonen aan dat het gebrekkige ontwerp echte problemen veroorzaakt in bestaande implementaties. In Stable Diffusion beperkt het het model ernstig tot het genereren van alleen afbeeldingen met gemiddelde helderheid en voorkomt het dat zeer heldere en donkere samples worden gegenereerd. We stellen een aantal eenvoudige oplossingen voor: (1) herschaal het ruisschema om een terminale SNR van nul af te dwingen; (2) train het model met v-voorspelling; (3) wijzig de sampler om altijd vanaf de laatste tijdstap te beginnen; (4) herschaal de classifier-free guidance om overbelichting te voorkomen. Deze eenvoudige wijzigingen zorgen ervoor dat het diffusieproces congruent is tussen training en inferentie en stellen het model in staat om samples te genereren die trouwer zijn aan de oorspronkelijke datadistributie.
In dit artikel introduceren we FitMe, een faciale reflectantiemodel en een differentieerbaar renderingsoptimalisatiepijplijn, die kan worden gebruikt om hoogwaardige renderbare menselijke avatars te verkrijgen uit enkele of meerdere afbeeldingen. Het model bestaat uit een multimodale, op stijl gebaseerde generator, die het uiterlijk van het gezicht vastlegt in termen van diffuse en speculaire reflectantie, en een op PCA gebaseerd vormmodel. We gebruiken een snel differentieerbaar renderingsproces dat kan worden ingezet in een optimalisatiepijplijn, terwijl het ook fotorealistische gezichtsschaduw bereikt. Ons optimalisatieproces legt zowel de faciale reflectantie als de vorm nauwkeurig in detail vast, door gebruik te maken van de expressiviteit van de op stijl gebaseerde latente representatie en ons vormmodel. FitMe behaalt state-of-the-art resultaten in reflectantie-acquisitie en identiteitsbehoud bij enkele "in-the-wild" gezichtsafbeeldingen, terwijl het indrukwekkende scan-achtige resultaten produceert wanneer meerdere onbeperkte gezichtsafbeeldingen van dezelfde identiteit worden gebruikt. In tegenstelling tot recente impliciete avatarreconstructies, vereist FitMe slechts één minuut en produceert het herlichtbare mesh- en textuurgebaseerde avatars, die kunnen worden gebruikt door eindgebruikerstoepassingen.
Automatisch bepalen of een tekst en een bijbehorende afbeelding semantisch op elkaar zijn afgestemd, is een belangrijke uitdaging voor visie-taalmodellen, met toepassingen in generatieve tekst-naar-afbeelding en afbeelding-naar-tekst taken. In dit werk bestuderen we methoden voor de automatische evaluatie van tekst-afbeelding-uitlijning. We introduceren eerst SeeTRUE: een uitgebreide evaluatieset, die meerdere datasets omvat van zowel tekst-naar-afbeelding als afbeelding-naar-tekst generatietaken, met menselijke beoordelingen over of een gegeven tekst-afbeeldingpaar semantisch is uitgelijnd. Vervolgens beschrijven we twee automatische methoden om de uitlijning te bepalen: de eerste betreft een pijplijn gebaseerd op vraaggeneratie en visuele vraag-antwoordmodellen, en de tweede maakt gebruik van een end-to-end classificatiebenadering door multimodale vooraf getrainde modellen te finetunen. Beide methoden overtreffen eerdere benaderingen in verschillende tekst-afbeelding-uitlijningstaken, met aanzienlijke verbeteringen in uitdagende gevallen die complexe compositie of onnatuurlijke afbeeldingen betreffen. Tot slot demonstreren we hoe onze benaderingen specifieke misaligneringen tussen een afbeelding en een gegeven tekst kunnen lokaliseren, en hoe ze kunnen worden gebruikt om kandidaten in tekst-naar-afbeelding generatie automatisch opnieuw te rangschikken.
Mensen kunnen een enkele afbeelding gemakkelijk interpreteren als het weergeven van meerdere potentiële objecten die interactie mogelijk maken. We gebruiken deze vaardigheid om onze interacties met de wereld te plannen en het begrip van nieuwe objecten te versnellen zonder daadwerkelijk interactie aan te gaan. In dit artikel willen we machines een vergelijkbaar vermogen geven, zodat intelligente agents 3D-scènes beter kunnen verkennen of objecten kunnen manipuleren. Onze aanpak is een transformer-gebaseerd model dat de 3D-locatie, fysieke eigenschappen en affordantie van objecten voorspelt. Om dit model te voeden, verzamelen we een dataset met internetvideo's, egocentrische video's en binnenhuisafbeeldingen om onze aanpak te trainen en te valideren. Ons model levert sterke prestaties op onze data en generaliseert goed naar robotica-data.
Diffusiemodellen blinken uit in tekst-naar-beeldgeneratie, met name in onderwerpgedreven generatie voor gepersonaliseerde afbeeldingen. Bestaande methoden zijn echter inefficiënt vanwege de onderwerpspecifieke fine-tuning, wat rekenintensief is en een efficiënte implementatie belemmert. Bovendien worstelen bestaande methoden met multi-onderwerpgeneratie, omdat ze vaak kenmerken tussen onderwerpen mengen. Wij presenteren FastComposer, dat efficiënte, gepersonaliseerde, multi-onderwerp tekst-naar-beeldgeneratie mogelijk maakt zonder fine-tuning. FastComposer gebruikt onderwerp-embeddings die zijn geëxtraheerd door een beeldencoder om de generieke tekstconditionering in diffusiemodellen aan te vullen, waardoor gepersonaliseerde beeldgeneratie mogelijk wordt op basis van onderwerpafbeeldingen en tekstuele instructies met alleen forward passes. Om het probleem van identiteitsvermenging in multi-onderwerpgeneratie aan te pakken, stelt FastComposer cross-attention localisatiesupervisie voor tijdens de training, waardoor de aandacht van referentieonderwerpen wordt afgedwongen om zich te richten op de juiste regio's in de doelafbeeldingen. Naïef conditioneren op onderwerp-embeddings resulteert in onderwerpoverfitting. FastComposer stelt vertraagde onderwerpconditionering voor in de denoising-stap om zowel identiteit als bewerkbaarheid te behouden in onderwerpgedreven beeldgeneratie. FastComposer genereert afbeeldingen van meerdere onbekende individuen met verschillende stijlen, acties en contexten. Het bereikt een snelheidsverbetering van 300 tot 2500 keer vergeleken met fine-tuning-gebaseerde methoden en vereist geen extra opslag voor nieuwe onderwerpen. FastComposer baant de weg voor efficiënte, gepersonaliseerde en hoogwaardige multi-onderwerpbeeldcreatie. Code, model en dataset zijn beschikbaar op https://github.com/mit-han-lab/fastcomposer.
Onderzoek naar online continu leren (OCL) heeft zich voornamelijk gericht op het beperken van catastrofaal vergeten met vaste en beperkte opslagtoewijzing gedurende de levensduur van het systeem. De toenemende betaalbaarheid van gegevensopslag benadrukt echter een breed scala aan toepassingen die niet aan deze aannames voldoen. In deze gevallen ligt de primaire zorg bij het beheren van rekenkundige uitgaven in plaats van opslag. In dit artikel richten we ons op dergelijke situaties, waarbij we het probleem van online continu leren onderzoeken door opslagbeperkingen te versoepelen en de nadruk te leggen op een vast, beperkt economisch budget. We presenteren een eenvoudig algoritme dat de volledige binnenkomende gegevensstroom compact kan opslaan en benutten onder zeer kleine rekenkundige budgetten, met behulp van een kNN-classificator en universele vooraf getrainde kenmerkextractors. Ons algoritme biedt een consistentie-eigenschap die aantrekkelijk is voor continu leren: het zal nooit eerder geziene gegevens vergeten. We vestigen een nieuwe standaard op twee grootschalige OCL-datasets: Continual LOCalization (CLOC), met 39 miljoen afbeeldingen over 712 klassen, en Continual Google Landmarks V2 (CGLM), met 580.000 afbeeldingen over 10.788 klassen – waarbij we methoden verslaan die onder veel hogere rekenkundige budgetten werken, zowel in termen van het verminderen van catastrofaal vergeten van oude gegevens als het snel aanpassen aan snel veranderende gegevensstromen. We bieden code om onze resultaten te reproduceren op https://github.com/drimpossible/ACM.