Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Convolutionele Neurale Netwerken (CNN's) en Vision Transformers (ViT's) gelden als de twee meest populaire basisarchitecturen voor het leren van visuele representaties. Terwijl CNN's opmerkelijke schaalbaarheid vertonen met lineaire complexiteit ten opzichte van de beeldresolutie, overtreffen ViT's hen in aanpassingsvermogen ondanks hun kwadratische complexiteit. Een nadere inspectie onthult dat ViT's superieure prestaties in visuele modellering bereiken door het integreren van globale receptieve velden en dynamische gewichten. Deze observatie motiveert ons om een nieuwe architectuur voor te stellen die deze componenten overneemt terwijl de rekenkundige efficiëntie wordt verbeterd. Hiertoe putten we inspiratie uit het recent geïntroduceerde toestandsruimtemodel en introduceren we het Visuele Toestandsruimtemodel (VMamba), dat lineaire complexiteit bereikt zonder globale receptieve velden op te offeren. Om het tegengekomen richtingsgevoelige probleem aan te pakken, introduceren we de Cross-Scan Module (CSM) om het ruimtelijke domein te doorlopen en elk niet-causaal visueel beeld om te zetten in geordende patchreeksen. Uitgebreide experimentele resultaten bevestigen dat VMamba niet alleen veelbelovende capaciteiten toont in diverse visuele perceptietaken, maar ook meer uitgesproken voordelen vertoont ten opzichte van gevestigde benchmarks naarmate de beeldresolutie toeneemt. De broncode is beschikbaar op https://github.com/MzeroMiko/VMamba.
Diffusiemodellen hebben nieuwe mogelijkheden geopend op het gebied van beeldgeneratie, wat heeft geleid tot een toename van hoogwaardige modellen die worden gedeeld op open-source platforms. Een grote uitdaging blijft echter bestaan in huidige tekst-naar-beeld systemen, die vaak niet in staat zijn om diverse invoer te verwerken of beperkt zijn tot resultaten van een enkel model. Huidige geïntegreerde pogingen vallen vaak in twee orthogonale aspecten: i) het verwerken van diverse prompts in de invoerfase; ii) het activeren van een expertmodel voor de uitvoer. Om het beste van beide werelden te combineren, stellen we DiffusionGPT voor, dat gebruikmaakt van Large Language Models (LLM) om een geïntegreerd generatiesysteem te bieden dat naadloos verschillende soorten prompts kan accommoderen en domeinexpertmodellen kan integreren. DiffusionGPT construeert domeinspecifieke bomen voor verschillende generatieve modellen op basis van voorkennis. Wanneer een invoer wordt gegeven, parseert de LLM de prompt en gebruikt de Trees-of-Thought om de selectie van een geschikt model te begeleiden, waardoor invoerbeperkingen worden versoepeld en uitstekende prestaties over diverse domeinen worden gegarandeerd. Bovendien introduceren we Voordelen Databases, waar de Tree-of-Thought wordt verrijkt met menselijke feedback, waardoor het modelselectieproces wordt afgestemd op menselijke voorkeuren. Door uitgebreide experimenten en vergelijkingen tonen we de effectiviteit van DiffusionGPT aan, waarbij het potentieel wordt getoond om de grenzen van beeld synthese in diverse domeinen te verleggen.
We introduceren SPARse Fine-grained Contrastive Alignment (SPARC), een eenvoudige methode voor het vooraf trainen van meer fijnmazige multimodale representaties uit beeld-tekstparen. Gezien het feit dat meerdere beeldpatches vaak overeenkomen met enkele woorden, stellen we voor om een groepering van beeldpatches te leren voor elk token in de bijschrift. Om dit te bereiken, gebruiken we een sparse similariteitsmetriek tussen beeldpatches en taaltokens en berekenen we voor elk token een taal-gegroepeerde visuele embedding als het gewogen gemiddelde van patches. De token en taal-gegroepeerde visuele embeddings worden vervolgens gecontrasteerd door een fijnmazig sequentiegewijs verlies dat alleen afhangt van individuele samples en geen andere batchsamples als negatieven vereist. Hierdoor kan gedetailleerdere informatie op een computationeel efficiënte manier worden geleerd. SPARC combineert dit fijnmazige verlies met een contrastief verlies tussen globale beeld- en tekstembeddings om representaties te leren die tegelijkertijd globale en lokale informatie coderen. We evalueren onze voorgestelde methode grondig en tonen verbeterde prestaties aan ten opzichte van concurrerende benaderingen, zowel op beeldniveau taken die afhankelijk zijn van grofmazige informatie, zoals classificatie, als op regioniveau taken die afhankelijk zijn van fijnmazige informatie, zoals retrieval, objectdetectie en segmentatie. Bovendien verbetert SPARC de betrouwbaarheid van modellen en de bijschrijving in fundamentele visie-taalmodellen.
Net als bij veel machine learning-problemen hangt de vooruitgang van methoden voor beeldgeneratie af van goede evaluatiemetrics. Een van de meest populaire is de Frechet Inception Distance (FID). FID schat de afstand tussen een verdeling van Inception-v3-features van echte afbeeldingen en die van afbeeldingen die door het algoritme zijn gegenereerd. We belichten belangrijke tekortkomingen van FID: de slechte representatie door Inception van de rijke en gevarieerde inhoud die door moderne tekst-naar-beeldmodellen wordt gegenereerd, onjuiste normaliteitsaannames en slechte steekproefcomplexiteit. We pleiten voor een herziening van het gebruik van FID als primaire kwaliteitsmetric voor gegenereerde afbeeldingen. We tonen empirisch aan dat FID in tegenspraak is met menselijke beoordelaars, dat het geen geleidelijke verbetering van iteratieve tekst-naar-beeldmodellen weerspiegelt, dat het vervormingsniveaus niet vastlegt en dat het inconsistente resultaten oplevert bij het variëren van de steekproefgrootte. We stellen ook een nieuwe alternatieve metric voor, CMMD, gebaseerd op rijkere CLIP-embeddings en de maximale gemiddelde discrepantie-afstand met de Gaussische RBF-kernel. Het is een zuivere schatter die geen aannames doet over de kansverdeling van de embeddings en efficiënt is wat betreft steekproeven. Door uitgebreide experimenten en analyses tonen we aan dat FID-gebaseerde evaluaties van tekst-naar-beeldmodellen onbetrouwbaar kunnen zijn, en dat CMMD een robuustere en betrouwbaardere beoordeling van beeldkwaliteit biedt.
We presenteren SHINOBI, een end-to-end framework voor de reconstructie van vorm, materiaal en belichting op basis van objectafbeeldingen die zijn vastgelegd met variërende belichting, pose en achtergrond. Inverse rendering van een object op basis van onbeperkte beeldcollecties is een lang bestaande uitdaging in computervisie en grafische technologie en vereist een gezamenlijke optimalisatie van vorm, radiatie en pose. We tonen aan dat een impliciete vormrepresentatie gebaseerd op een multi-resolutie hash-codering een snellere en robuustere vormreconstructie mogelijk maakt met gezamenlijke camera-uitlijningoptimalisatie die beter presteert dan eerder werk. Verder optimaliseren we, om de bewerking van belichting en objectreflectie (d.w.z. materiaal) mogelijk te maken, BRDF en belichting samen met de vorm van het object. Onze methode is klasse-agnostisch en werkt op in-the-wild beeldcollecties van objecten om relightbare 3D-assets te produceren voor verschillende use cases zoals AR/VR, films, games, enz. Projectpagina: https://shinobi.aengelhardt.com Video: https://www.youtube.com/watch?v=iFENQ6AcYd8&feature=youtu.be
Het doel van dit artikel is om realistische audio te genereren met een lichtgewicht en snelle, op diffusie gebaseerde vocoder genaamd FreGrad. Ons framework bestaat uit de volgende drie belangrijke componenten: (1) We gebruiken een discrete wavelet-transformatie die een complex golfvorm ontleedt in sub-band wavelets, wat FreGrad helpt om te werken in een eenvoudige en beknopte kenmerkruimte, (2) We ontwerpen een frequentiebewuste dilated convolutie die het frequentiebewustzijn verhoogt, wat resulteert in het genereren van spraak met nauwkeurige frequentie-informatie, en (3) We introduceren een reeks technieken die de generatiekwaliteit van het voorgestelde model verbeteren. In onze experimenten behaalt FreGrad een 3,7 keer snellere trainingstijd en een 2,2 keer snellere inferentiesnelheid in vergelijking met onze baseline, terwijl het modelformaat met 0,6 keer wordt verkleind (slechts 1,78M parameters) zonder in te leveren op de uitvoerkwaliteit. Audiovoorbeelden zijn beschikbaar op: https://mm.kaist.ac.kr/projects/FreGrad.
Gepersonaliseerde tekst-naar-video-generatie heeft als doel hoogwaardige video's te genereren die worden gestuurd door tekstprompts en onderwerpverwijzingen. Bestaande methoden die zijn ontworpen voor afzonderlijke onderwerpen, hebben moeite met het behandelen van meerdere onderwerpen, wat een uitdagender en praktischer scenario is. In dit werk streven we ernaar om tekst-naar-video-personalisatie met meerdere onderwerpen te bevorderen. We introduceren CustomVideo, een nieuw framework dat identiteit-bewarende video's kan genereren met begeleiding van meerdere onderwerpen. Specifiek moedigen we eerst het gelijktijdig voorkomen van meerdere onderwerpen aan door ze in één afbeelding te combineren. Verder ontwerpen we, gebaseerd op een basis tekst-naar-video-diffusiemodel, een eenvoudige maar effectieve aandachtcontrole-strategie om verschillende onderwerpen in de latente ruimte van het diffusiemodel te ontwarren. Bovendien helpen we het model om zich te concentreren op het specifieke objectgebied door het object uit gegeven referentieafbeeldingen te segmenteren en een bijbehorend objectmasker te bieden voor aandachtleren. Ook hebben we een dataset voor tekst-naar-video-generatie met meerdere onderwerpen samengesteld als een uitgebreide benchmark, met 69 individuele onderwerpen en 57 betekenisvolle paren. Uitgebreide kwalitatieve, kwantitatieve en gebruikersstudieresultaten tonen de superioriteit van onze methode aan in vergelijking met de vorige state-of-the-art benaderingen.