Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren lichtdiffusie, een nieuwe methode om de belichting in portretten te verbeteren, waarbij harde schaduwen en spiegelende hooglichten worden verzacht terwijl de algehele scèneverlichting behouden blijft. Geïnspireerd door de diffusers en scrims van professionele fotografen, verzacht onze methode de belichting op basis van slechts één portretfoto. Eerdere benaderingen voor portretherbelichting richten zich op het veranderen van de gehele lichtomgeving, het verwijderen van schaduwen (waarbij sterke spiegelende hooglichten worden genegeerd), of het volledig verwijderen van schaduw. In tegenstelling hiermee stellen we een op leren gebaseerde methode voor waarmee we de mate van lichtdiffusie kunnen beheersen en deze kunnen toepassen op portretten in natuurlijke omgevingen. Daarnaast ontwerpen we een methode om synthetisch plausibele externe schaduwen te genereren met sub-oppervlakte verstrooiingseffecten, die conform zijn aan de vorm van het gezicht van het onderwerp. Tot slot tonen we aan hoe onze aanpak de robuustheid van hogere niveau visuele toepassingen kan vergroten, zoals albedo-schatting, geometrie-schatting en semantische segmentatie.
Compositioneel redeneren is een kenmerk van menselijke visuele intelligentie; toch hebben grote vision-language modellen, ondanks hun omvang, moeite met het weergeven van eenvoudige composities door objecten met hun attributen te combineren. Om dit gebrek aan compositionele vaardigheid te meten, ontwikkelen we Cola, een text-to-image retrieval benchmark om Objecten Gelokaliseerd met Attributen te Componeren. Met Cola als testomgeving onderzoeken we modelontwerpen om vooraf getrainde vision-language modellen aan te passen voor compositioneel redeneren over meerdere attributen die aan meerdere objecten zijn gekoppeld. We onderzoeken 6 finetuning-strategieën op 2 baanbrekende vision-language modellen, waarbij we gebruikmaken van 3 finetuning-datasets en 2 testbenchmarks (Cola en CREPE). Verrassend genoeg verbetert onze optimale finetuning-strategie een CLIP-model met 151M parameters, dat tijdens de pretraining beeld en taal gescheiden encodeert, zodat het even goed presteert als een FLAVA-model met 241M parameters, dat tijdens de pretraining een multimodale transformercoder gebruikt om aandacht te besteden aan zowel visuele als talige modaliteiten. Deze optimale finetuning-strategie is een lichtgewicht multimodale adapter die gezamenlijk aandacht besteedt aan zowel beeld- als taalgegenereerde kenmerken door het vooraf getrainde model. We laten zien dat dit beter werkt dan veelgebruikte strategieën zoals prompt/finetuning of het afstemmen van een vergelijkbaar aantal unimodale lagen.
Grote taalmodellen (LLM's) hebben opmerkelijke taalvaardigheden getoond. GPT-4, gebaseerd op geavanceerde LLM's, vertoont buitengewone multimodale capaciteiten die verder gaan dan eerdere visuele taalmodellen. Wij schrijven dit toe aan het gebruik van meer geavanceerde LLM's in vergelijking met eerdere multimodale modellen. Helaas zijn de modelarchitectuur en trainingsstrategieën van GPT-4 onbekend. Om LLM's multimodale capaciteiten te geven, stellen wij X-LLM voor, dat multimodale informatie (afbeeldingen, spraak, video's) omzet in vreemde talen met behulp van X2L-interfaces en deze invoert in een groot taalmodel (ChatGLM). Specifiek aligneert X-LLM meerdere bevroren enkelvoudige modale encoders en een bevroren LLM met behulp van X2L-interfaces, waarbij ``X'' multimodale informatie zoals afbeeldingen, spraak en video's vertegenwoordigt, en ``L'' talen. De training van X-LLM bestaat uit drie fasen: (1) Omzetten van multimodale informatie: In de eerste fase wordt elke X2L-interface afzonderlijk getraind om zich af te stemmen op de bijbehorende enkelvoudige modale encoder om multimodale informatie om te zetten in talen. (2) Afstemmen van X2L-representaties op de LLM: enkelvoudige modale encoders worden onafhankelijk van elkaar afgestemd op de LLM via X2L-interfaces. (3) Integreren van meerdere modaliteiten: alle enkelvoudige modale encoders worden afgestemd op de LLM via X2L-interfaces om multimodale capaciteiten in de LLM te integreren. Onze experimenten tonen aan dat X-LLM indrukwekkende multimodale chatvaardigheden vertoont, soms gedrag vertoont dat lijkt op multimodale GPT-4 bij ongeziene afbeeldingen/instructies, en een relatieve score van 84,5\% behaalt in vergelijking met GPT-4 op een synthetische multimodale instructievolgdataset. Daarnaast voeren wij kwantitatieve tests uit op het gebruik van LLM voor ASR en multimodale ASR, in de hoop het tijdperk van LLM-gebaseerde spraakherkenning te bevorderen.
Hoewel de recente snelle evolutie van 3D-generatieve neurale netwerken de generatie van 3D-vormen aanzienlijk verbetert, is het voor gewone gebruikers nog steeds niet gemakkelijk om 3D-vormen te creëren en de lokale geometrie van gegenereerde vormen te beheersen. Om deze uitdagingen aan te pakken, stellen we een op diffusie gebaseerd 3D-generatieframework voor -- lokaal attentieve SDF-diffusie, om geloofwaardige 3D-vormen te modelleren via 2D-schetsafbeeldingen als invoer. Onze methode is gebouwd op een tweestaps diffusiemodel. De eerste fase, genaamd occupancy-diffusie, heeft als doel een laagresolutie-occupancyveld te genereren om de vormschil te benaderen. De tweede fase, genaamd SDF-diffusie, synthetiseert een hoogresolutie signed distance field binnen de bezette voxels die door de eerste fase zijn bepaald, om fijne geometrie te extraheren. Ons model wordt versterkt door een nieuw view-aware lokaal aandachtmechanisme voor beeldgeconditioneerde vormgeneratie, dat gebruikmaakt van 2D-beeldpatchkenmerken om 3D-voxelkenmerken te begeleiden, waardoor de lokale bestuurbaarheid en modelgeneraliseerbaarheid aanzienlijk worden verbeterd. Door uitgebreide experimenten in schetsgeconditioneerde en categoriegeconditioneerde 3D-vormgeneratietaken valideren en demonstreren we het vermogen van onze methode om geloofwaardige en diverse 3D-vormen te bieden, evenals de superieure bestuurbaarheid en generaliseerbaarheid ten opzichte van bestaand werk. Onze code en getrainde modellen zijn beschikbaar op https://zhengxinyang.github.io/projects/LAS-Diffusion.html.
Diffusiemodellen zijn uitgegroeid tot een belangrijke pijler van foundation-modellen in visuele domeinen. Een van hun cruciale toepassingen is het universeel oplossen van verschillende downstream inverse taken via een enkele diffusieprior zonder hertraining voor elke taak. De meeste inverse taken kunnen worden geformuleerd als het afleiden van een posteriorverdeling over data (bijvoorbeeld een volledige afbeelding) gegeven een meting (bijvoorbeeld een gemaskeerde afbeelding). Dit is echter uitdagend in diffusiemodellen, aangezien de niet-lineaire en iteratieve aard van het diffusieproces de posterior onhanteerbaar maakt. Om deze uitdaging het hoofd te bieden, stellen we een variatiebenadering voor die bij ontwerp streeft naar een benadering van de ware posteriorverdeling. We laten zien dat onze benadering van nature leidt tot regularisatie door een denoiseringsdiffusieproces (RED-Diff), waarbij denoisers op verschillende tijdstappen gelijktijdig verschillende structurele beperkingen opleggen aan de afbeelding. Om de bijdrage van denoisers van verschillende tijdstappen te beoordelen, stellen we een weegmechanisme voor op basis van signaal-ruisverhouding (SNR). Onze benadering biedt een nieuw variatieperspectief voor het oplossen van inverse problemen met diffusiemodellen, waardoor we sampling kunnen formuleren als stochastische optimalisatie, waarbij men eenvoudig kant-en-klare oplossers kan toepassen met lichtgewicht iteraties. Onze experimenten voor beeldhersteltaken zoals inpainting en superresolutie demonstreren de kracht van onze methode in vergelijking met state-of-the-art sampling-gebaseerde diffusiemodellen.
Moderne generatoren produceren pratende hoofdvideo's met indrukwekkende niveaus van fotorealisme, wat nieuwe gebruikerservaringen mogelijk maakt, zoals videoconferenties met beperkte bandbreedtebudgetten. Voor een veilige adoptie is echter een mechanisme nodig om te verifiëren of de gegenereerde video betrouwbaar is. Bij videoconferenties moeten we bijvoorbeeld gevallen identificeren waarin een synthetische videoportret het uiterlijk van een individu gebruikt zonder diens toestemming. We noemen deze taak avatar fingerprinting. We stellen voor om dit aan te pakken door gebruik te maken van unieke gezichtsbewegingssignaturen van elke persoon. Specifiek leren we een embedding waarin de bewegingssignaturen van één identiteit bij elkaar worden gegroepeerd en worden gescheiden van die van andere identiteiten, ongeacht het uiterlijk in de synthetische video. Avatar fingerprinting-algoritmen zullen cruciaal worden naarmate pratende hoofdgeneratoren alomtegenwoordiger worden, en toch bestaan er geen grootschalige datasets voor deze nieuwe taak. Daarom dragen we een grote dataset bij van mensen die voorbereide en geïmproviseerde korte monologen voordragen, vergezeld van synthetische video's waarin we video's van één persoon renderen met het gezichtsuiterlijk van een ander. Projectpagina: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
Webpagina's zijn een rijke en schaalbare bron geweest voor visie-taal- en alleen-taaltaken. Toch worden slechts delen van webpagina's bewaard: afbeelding-bijschriftparen, lange tekstartikelen of ruwe HTML, nooit alles op één plek. Hierdoor hebben taken gerelateerd aan webpagina's weinig aandacht gekregen en is gestructureerde beeld-tekstdata onderbenut gebleven. Om multimodale webpagina-begrip te bestuderen, introduceren we de Wikipedia Webpage suite (WikiWeb2M) van 2 miljoen pagina's. We verifiëren het nut ervan aan de hand van drie generatieve taken: paginabeschrijving generatie, sectiesamenvatting en contextuele afbeelding-bijschrijving. We ontwerpen een nieuw aandachtmechanisme genaamd Prefix Global, dat de meest relevante afbeeldingen en tekstinhoud selecteert als globale tokens om de rest van de webpagina voor context te benaderen. Door de paginastructuur te gebruiken om dergelijke tokens te scheiden, presteert het beter dan volledige aandacht met een lagere computationele complexiteit. Experimenten tonen aan dat de nieuwe annotaties van WikiWeb2M de taakprestaties verbeteren in vergelijking met data uit eerder werk. We nemen ook ablatieonderzoeken op naar sequentielengte, invoerkenmerken en modelgrootte.
We presenteren een deep learning-methode voor samengestelde en taakgestuurde bewegingscontrole voor fysiek gesimuleerde karakters. In tegenstelling tot bestaande data-gedreven benaderingen die gebruikmaken van reinforcement learning om volledige lichaamsbewegingen na te bootsen, leren we ontkoppelde bewegingen voor specifieke lichaamsdelen van meerdere referentiebewegingen tegelijkertijd en direct door gebruik te maken van meerdere discriminators in een GAN-achtige opzet. In dit proces is geen handmatig werk nodig om samengestelde referentiebewegingen voor het leren te produceren. In plaats daarvan verkent het controlebeleid zelf hoe de samengestelde bewegingen automatisch gecombineerd kunnen worden. We houden verder rekening met meerdere taakspecifieke beloningen en trainen een enkel, multi-objectief controlebeleid. Hiertoe stellen we een nieuw raamwerk voor multi-objectief leren voor dat adaptief het leren van verschillende bewegingen uit meerdere bronnen en meerdere doelgerichte controleobjectieven in balans brengt. Daarnaast, omdat samengestelde bewegingen typisch uitbreidingen zijn van eenvoudigere gedragingen, introduceren we een sample-efficiënte methode voor het trainen van samengestelde controlebeleidsregels op een incrementele manier, waarbij we een vooraf getraind beleid hergebruiken als het meta-beleid en een coöperatief beleid trainen dat het meta-beleid aanpast voor nieuwe samengestelde taken. We tonen de toepasbaarheid van onze aanpak aan op een verscheidenheid aan uitdagende multi-objectieve taken die zowel samengestelde bewegingen imiteren als meerdere doelgerichte controle omvatten.