Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het watermerken van de uitvoer van generatieve modellen is een cruciale techniek voor het traceren van auteursrechten en het voorkomen van mogelijke schade door AI-gegenereerde inhoud. In dit artikel introduceren we een nieuwe techniek genaamd Tree-Ring Watermarking die robuust vingerafdrukken aanbrengt in de uitvoer van diffusiemodellen. In tegenstelling tot bestaande methoden die achteraf wijzigingen aanbrengen aan afbeeldingen na het bemonsteren, beïnvloedt Tree-Ring Watermarking subtiel het gehele bemonsteringsproces, wat resulteert in een modelvingerafdruk die onzichtbaar is voor mensen. Het watermerk wordt ingebed in de initiële ruisvector die wordt gebruikt voor het bemonsteren. Deze patronen zijn gestructureerd in Fourier-ruimte, zodat ze invariant zijn voor convoluties, uitsnijdingen, vergrotingen, spiegelingen en rotaties. Na het genereren van de afbeelding wordt het watermerksignaal gedetecteerd door het diffusieproces om te keren om de ruisvector op te halen, die vervolgens wordt gecontroleerd op het ingebedde signaal. We tonen aan dat deze techniek eenvoudig kan worden toegepast op willekeurige diffusiemodellen, waaronder tekst-geconditioneerde Stable Diffusion, als een plug-in met een verwaarloosbaar verlies in FID. Ons watermerk is semantisch verborgen in de beeldruimte en is veel robuuster dan alternatieve watermerktechnieken die momenteel worden ingezet. Code is beschikbaar op github.com/YuxinWenRick/tree-ring-watermark.
Transformer grote taalmodellen (LLMs) hebben bewondering opgewekt vanwege hun uitzonderlijke prestaties op taken die ingewikkeld, meerstaps redeneren vereisen. Toch laten deze modellen tegelijkertijd fouten zien op verrassend triviale problemen. Dit roept de vraag op: zijn deze fouten toevallig, of wijzen ze op meer substantiële beperkingen? In een poging om Transformers te ontrafelen, onderzoeken we de grenzen van deze modellen aan de hand van drie representatieve compositionele taken — vermenigvuldiging van meerdere cijfers, logische roosterpuzzels en een klassiek dynamisch programmeerprobleem. Deze taken vereisen het opdelen van problemen in substappen en het samenvoegen van deze stappen tot een precies antwoord. We formuleren compositionele taken als rekenkundige grafieken om het complexiteitsniveau systematisch te kwantificeren en breken redeneerstappen op in tussenliggende subprocedures. Onze empirische bevindingen suggereren dat Transformers compositionele taken oplossen door meerstaps compositioneel redeneren te reduceren tot lineaire subgraafovereenkomsten, zonder noodzakelijkerwijs systematische probleemoplossende vaardigheden te ontwikkelen. Om ons empirische onderzoek af te ronden, bieden we theoretische argumenten over abstracte meerstaps redeneerproblemen die benadrukken hoe de prestaties van Transformers snel zullen afnemen bij toenemende taakcomplexiteit.
Automatische tekst-naar-3D-synthese heeft opmerkelijke vooruitgang geboekt door de optimalisatie van 3D-modellen. Bestaande methoden maken doorgaans gebruik van vooraf getrainde tekst-naar-beeld generatieve modellen, zoals diffusiemodellen, die scores leveren voor 2D-weergaven van Neural Radiance Fields (NeRFs) en worden gebruikt voor het optimaliseren van NeRFs. Deze methoden kampen echter vaak met artefacten en inconsistenties over meerdere aanzichten vanwege hun beperkte begrip van 3D-geometrie. Om deze beperkingen aan te pakken, stellen we een herformulering van de optimalisatiefout voor met behulp van de diffusieprior. Daarnaast introduceren we een nieuwe trainingsaanpak die het potentieel van de diffusieprior ontsluit. Om de 3D-geometrieweergave te verbeteren, passen we aanvullende dieptesupervisie toe voor NeRF-gegenereerde beelden en regulariseren we het dichtheidsveld van NeRFs. Uitgebreide experimenten tonen de superioriteit van onze methode aan ten opzichte van eerdere werken, wat resulteert in geavanceerde fotorealistische kwaliteit en verbeterde consistentie over meerdere aanzichten.
Recente vooruitgang in diffusiemodellen heeft het mogelijk gemaakt om hoogwaardige afbeeldingen te genereren met behulp van tekstprompts. Er bestaat echter een domeinkloof tussen gegenereerde afbeeldingen en afbeeldingen uit de echte wereld, wat een uitdaging vormt bij het genereren van hoogwaardige variaties van afbeeldingen uit de echte wereld. Ons onderzoek toont aan dat deze domeinkloof voortkomt uit een verschil in de verdeling van latente variabelen in verschillende diffusieprocessen. Om dit probleem aan te pakken, stellen we een nieuwe inferentiepipeline voor genaamd Real-world Image Variation by ALignment (RIVAL), die diffusiemodellen gebruikt om afbeeldingsvariaties te genereren vanuit een enkele afbeeldingsvoorbeeld. Onze pipeline verbetert de generatiekwaliteit van afbeeldingsvariaties door het afbeeldingsgeneratieproces af te stemmen op de inversieketen van de bronafbeelding. Specifiek tonen we aan dat stapgewijze uitlijning van de latente verdeling essentieel is voor het genereren van hoogwaardige variaties. Om dit te bereiken, ontwerpen we een cross-image self-attention injectie voor feature-interactie en een stapgewijze distributienormalisatie om de latente features uit te lijnen. Door deze uitlijningsprocessen te integreren in een diffusiemodel, kan RIVAL hoogwaardige afbeeldingsvariaties genereren zonder verdere parameteroptimalisatie. Onze experimentele resultaten tonen aan dat onze voorgestelde aanpak bestaande methoden overtreft wat betreft semantische-voorwaarde gelijkenis en perceptuele kwaliteit. Bovendien kan deze gegeneraliseerde inferentiepipeline eenvoudig worden toegepast op andere diffusiegebaseerde generatietaken, zoals afbeeldingsgeconditioneerde tekst-naar-afbeelding generatie en voorbeeldgebaseerde afbeeldingsinpainting.
De recente vooruitgang in beeld-tekst diffusiemodellen heeft de onderzoeksinteresse in grootschalige 3D-generatieve modellen gestimuleerd. Desalniettemin vormt de beperkte beschikbaarheid van diverse 3D-bronnen aanzienlijke uitdagingen voor het leerproces. In dit artikel presenteren we een nieuwe methode voor het genereren van hoogwaardige, gestileerde 3D-avatars die gebruikmaakt van vooraf getrainde beeld-tekst diffusiemodellen voor datageneratie en een op Generative Adversarial Networks (GAN) gebaseerd 3D-generatienetwerk voor training. Onze methode benut de uitgebreide voorkennis van uiterlijk en geometrie die door beeld-tekst diffusiemodellen wordt geboden om multi-view beelden van avatars in verschillende stijlen te genereren. Tijdens de datageneratie gebruiken we poses die zijn geëxtraheerd uit bestaande 3D-modellen om de generatie van multi-view beelden te sturen. Om de misalignering tussen poses en beelden in de data aan te pakken, onderzoeken we view-specifieke prompts en ontwikkelen we een coarse-to-fine discriminator voor GAN-training. We verdiepen ons ook in attribuutgerelateerde prompts om de diversiteit van de gegenereerde avatars te vergroten. Daarnaast ontwikkelen we een latent diffusiemodel binnen de stijlruimte van StyleGAN om de generatie van avatars op basis van beeldinvoer mogelijk te maken. Onze aanpak toont superieure prestaties ten opzichte van huidige state-of-the-art methoden wat betreft visuele kwaliteit en diversiteit van de geproduceerde avatars.
Dit artikel introduceert een nieuwe spraakdataset genaamd ``LibriTTS-R'', ontworpen voor tekst-naar-spraak (TTS) toepassingen. De dataset is afgeleid door spraakrestauratie toe te passen op het LibriTTS-corpus, dat bestaat uit 585 uur aan spraakdata met een samplefrequentie van 24 kHz van 2.456 sprekers en de bijbehorende teksten. De samenstellende samples van LibriTTS-R zijn identiek aan die van LibriTTS, waarbij alleen de geluidskwaliteit is verbeterd. Experimentele resultaten tonen aan dat de ground-truth samples van LibriTTS-R een aanzienlijk verbeterde geluidskwaliteit vertonen in vergelijking met die in LibriTTS. Daarnaast bereikte neurale end-to-end TTS, getraind met LibriTTS-R, een spraaknatuurlijkheid die vergelijkbaar is met die van de ground-truth samples. Het corpus is vrij beschikbaar voor download via http://www.openslr.org/141/.
We presenteren het trainingsrecept en de resultaten van het opschalen van PaLI-X, een meertalig visueel en taalmodel, zowel wat betreft de grootte van de componenten als de breedte van de trainings taakmix. Ons model bereikt nieuwe niveaus van prestaties op een breed scala aan gevarieerde en complexe taken, waaronder meerdere beeldgebaseerde ondertitelings- en vraag-antwoordtaken, beeldgebaseerd documentbegrip en few-shot (in-context) leren, evenals objectdetectie, video-vraag-antwoord en video-ondertiteling. PaLI-X verbetert de state-of-the-art op de meeste beschouwde visie-en-taal benchmarks (meer dan 25). Ten slotte observeren we opkomende capaciteiten, zoals complex tellen en meertalige objectdetectie, taken die niet expliciet in de trainingsmix zitten.
Grote taalmmodellen (LLMs) kunnen leren om een breed scala aan natuurlijke taaltaken uit te voeren aan de hand van slechts een handvol in-context voorbeelden. Voor het genereren van strings uit sterk gestructureerde talen (bijvoorbeeld semantisch parsen naar domeinspecifieke talen met een hoge complexiteit) is het echter een uitdaging voor het LLM om te generaliseren op basis van slechts enkele voorbeelden. Wij onderzoeken grammatica-prompting als een eenvoudige aanpak om LLMs in staat te stellen externe kennis en domeinspecifieke beperkingen te gebruiken, uitgedrukt via een grammatica in Backus-Naur Form (BNF), tijdens in-context leren. Grammatica-prompting verrijkt elk demonstratievoorbeeld met een gespecialiseerde grammatica die minimaal voldoende is voor het genereren van het specifieke uitvoervoorbeeld, waarbij de gespecialiseerde grammatica een subset is van de volledige DSL-grammatica. Voor inferentie voorspelt het LLM eerst een BNF-grammatica op basis van een testinvoer en genereert vervolgens de uitvoer volgens de regels van de grammatica. Experimenten tonen aan dat grammatica-prompting LLMs in staat stelt om competitief te presteren op een diverse set van DSL-generatietaken, waaronder semantisch parsen (SMCalFlow, Overnight, GeoQuery), PDDL-planning en zelfs molecuulgeneratie (SMILES).
Grote diffusiemodellen zijn succesvol gebleken in tekst-naar-audio (T2A) synthesetaken, maar ze kampen vaak met veelvoorkomende problemen zoals semantische uitlijning en slechte temporele consistentie vanwege beperkt begrip van natuurlijke taal en schaarste aan data. Bovendien leiden 2D-ruimtelijke structuren die veel worden gebruikt in T2A-werk tot onbevredigende audiokwaliteit bij het genereren van audiofragmenten met variabele lengte, omdat ze temporele informatie niet voldoende prioriteren. Om deze uitdagingen aan te pakken, stellen we Make-an-Audio 2 voor, een latent diffusie-gebaseerde T2A-methode die voortbouwt op het succes van Make-an-Audio. Onze aanpak omvat verschillende technieken om de semantische uitlijning en temporele consistentie te verbeteren: Ten eerste gebruiken we vooraf getrainde grote taalmodelen (LLM's) om de tekst te ontleden in gestructureerde <gebeurtenis & volgorde>-paren voor een betere vastlegging van temporele informatie. We introduceren ook een andere gestructureerde-tekstencoder om het leren van semantische uitlijning tijdens het diffusie-denoisingsproces te ondersteunen. Om de prestaties van generatie met variabele lengte te verbeteren en de extractie van temporele informatie te versterken, ontwerpen we een feed-forward Transformer-gebaseerde diffusie-denoiser. Tot slot gebruiken we LLM's om een grote hoeveelheid audio-labeldata om te zetten in audio-tekstdatasets om het probleem van schaarste aan temporele data te verlichten. Uitgebreide experimenten tonen aan dat onze methode de baseline-modellen overtreft in zowel objectieve als subjectieve metrieken, en aanzienlijke verbeteringen bereikt in het begrip van temporele informatie, semantische consistentie en geluidskwaliteit.
Wij stellen een geautomatiseerd algoritme voor om een getraind visueel model te stress-testen door het genereren van taalgestuurde tegenfeitelijke testafbeeldingen (LANCE). Onze methode maakt gebruik van recente vooruitgang in grootschalige taalmodellering en tekstgebaseerde beeldbewerking om een IID-testset aan te vullen met een reeks diverse, realistische en uitdagende testafbeeldingen zonder de modelgewichten aan te passen. We meten de prestaties van een diverse set vooraf getrainde modellen op onze gegenereerde gegevens en observeren significante en consistente prestatieverminderingen. We analyseren verder de gevoeligheid van het model voor verschillende soorten bewerkingen en demonstreren de toepasbaarheid ervan bij het blootleggen van voorheen onbekende klasse-specifieke modelvooroordelen in ImageNet.
Problemen met geometrische gegevens komen voor in diverse vakgebieden, waaronder computervisie, robotica, scheikunde en natuurkunde. Dergelijke gegevens kunnen verschillende vormen aannemen, zoals punten, richtingsvectoren, vlakken of transformaties, maar tot op heden bestaat er geen enkele architectuur die kan worden toegepast op zo'n breed scala aan geometrische typen terwijl hun symmetrieën worden gerespecteerd. In dit artikel introduceren we de Geometric Algebra Transformer (GATr), een algemene architectuur voor geometrische gegevens. GATr representeert invoer, uitvoer en verborgen toestanden in de projectieve geometrische algebra, die een efficiënte 16-dimensionale vectorruimte-representatie biedt van veelvoorkomende geometrische objecten en operatoren die daarop inwerken. GATr is equivariant ten opzichte van E(3), de symmetriegroep van de 3D Euclidische ruimte. Als transformer is GATr schaalbaar, expressief en veelzijdig. In experimenten met n-lichaamsmodellering en robotplanning laat GATr sterke verbeteringen zien ten opzichte van niet-geometrische basislijnen.
Dit artikel presenteert een methode die dynamische 3D-avatars snel kan aanpassen aan willekeurige tekstbeschrijvingen van nieuwe stijlen. Onder de bestaande benaderingen voor avatarstylisering kunnen directe optimalisatiemethoden uitstekende resultaten opleveren voor willekeurige stijlen, maar ze zijn onaangenaam traag. Bovendien vereisen ze dat het optimalisatieproces voor elke nieuwe invoer opnieuw wordt uitgevoerd. Snelle benaderingsmethoden die gebruikmaken van feed-forward netwerken getraind op een grote dataset van stijlafbeeldingen kunnen snel resultaten genereren voor nieuwe invoeren, maar hebben de neiging niet goed te generaliseren naar nieuwe stijlen en schieten tekort in kwaliteit. Daarom onderzoeken we een nieuwe benadering, AlteredAvatar, die deze twee methoden combineert met behulp van het meta-leerframework. In de binnenste lus leert het model te optimaliseren om een enkele doelstijl goed te matchen; terwijl in de buitenste lus het model leert om efficiënt te styliseren over vele stijlen. Na de training leert AlteredAvatar een initialisatie die zich binnen een klein aantal update-stappen snel kan aanpassen aan een nieuwe stijl, die kan worden gegeven via teksten, een referentieafbeelding, of een combinatie van beide. We tonen aan dat AlteredAvatar een goede balans kan bereiken tussen snelheid, flexibiliteit en kwaliteit, terwijl consistentie wordt behouden over een breed scala aan nieuwe gezichtspunten en gezichtsuitdrukkingen.
Diffusiemodellen vormen de huidige stand van de techniek op het gebied van beeldgeneratie, waarbij hoogwaardige afbeeldingen worden gesynthetiseerd door het generatieproces op te splitsen in vele fijnmazige denoiseringsstappen. Ondanks hun goede prestaties zijn diffusiemodellen rekenkundig kostbaar, omdat ze veel neurale functie-evaluaties (NFEs) vereisen. In dit werk stellen we een op diffusie gebaseerde methode voor die op elk moment levensvatbare afbeeldingen kan genereren wanneer deze op willekeurige tijdstippen voor voltooiing wordt gestopt. Met behulp van bestaande vooraf getrainde diffusiemodellen laten we zien dat het generatieschema kan worden herschreven als twee geneste diffusieprocessen, waardoor snelle iteratieve verfijning van een gegenereerde afbeelding mogelijk wordt. We gebruiken deze Nested Diffusion-benadering om inzicht te krijgen in het generatieproces en flexibele planning mogelijk te maken op basis van de directe voorkeur van de gebruiker. In experimenten met ImageNet en op Stable Diffusion gebaseerde tekst-naar-beeldgeneratie tonen we zowel kwalitatief als kwantitatief aan dat de tussenliggende generatiekwaliteit van onze methode die van het oorspronkelijke diffusiemodel ruimschoots overtreft, terwijl het uiteindelijke langzame generatieresultaat vergelijkbaar blijft.
Het begrijpen van beeldadvertenties is een cruciale taak met brede toepassingen in de praktijk. Hoewel het zeer uitdagend is vanwege de betrokkenheid van diverse atypische scènes, real-world entiteiten en redeneren over scèneteksten, is het interpreteren van beeldadvertenties relatief onderbelicht, vooral in het tijdperk van fundamentele visie-taalmodellen (VLMs) die indrukwekkende generaliseerbaarheid en aanpassingsvermogen vertonen. In dit artikel voeren we de eerste empirische studie uit naar het begrijpen van beeldadvertenties door de lens van vooraf getrainde VLMs. We benchmarken en onthullen praktische uitdagingen bij het aanpassen van deze VLMs aan het begrijpen van beeldadvertenties. We stellen een eenvoudige strategie voor feature-aanpassing voor om multimodale informatie effectief te integreren voor beeldadvertenties en versterken deze verder met kennis van real-world entiteiten. We hopen dat onze studie meer aandacht trekt voor het begrijpen van beeldadvertenties, wat breed relevant is voor de advertentie-industrie.