Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Kandinsky 3.0, een grootschalig tekst-naar-beeld generatiemodel gebaseerd op latente diffusie, dat de reeks tekst-naar-beeld Kandinsky-modellen voortzet en onze vooruitgang weerspiegelt om een hogere kwaliteit en realisme van beeldgeneratie te bereiken. In vergelijking met eerdere versies van Kandinsky 2.x, maakt Kandinsky 3.0 gebruik van een U-Net backbone die twee keer zo groot is, een tekstencoder die tien keer zo groot is, en verwijdert het diffusie-mapping. We beschrijven de architectuur van het model, de procedure voor het verzamelen van data, de trainingsmethode en het productiesysteem voor gebruikersinteractie. We richten ons op de belangrijkste componenten die, zoals we hebben geïdentificeerd als resultaat van een groot aantal experimenten, de meest significante impact hadden op het verbeteren van de kwaliteit van ons model in vergelijking met andere. Uit onze zij-aan-zij vergelijkingen blijkt dat Kandinsky beter wordt in tekstbegrip en beter presteert in specifieke domeinen. Projectpagina: https://ai-forever.github.io/Kandinsky-3
In tekst-naar-spraak (TTS) synthese hebben diffusiemodellen veelbelovende generatiekwaliteit bereikt. Vanwege het vooraf gedefinieerde data-naar-ruis diffusieproces is hun priorverdeling echter beperkt tot een ruisachtige representatie, die weinig informatie biedt over het generatiedoel. In dit werk presenteren we een nieuw TTS-systeem, Bridge-TTS, dat als eerste poging doet om het ruisachtige Gaussiaanse prior in gevestigde diffusiegebaseerde TTS-methoden te vervangen door een schone en deterministische prior, die sterke structurele informatie van het doel biedt. Specifiek maken we gebruik van de latente representatie verkregen uit tekstinvoer als onze prior, en bouwen we een volledig traceerbare Schrödinger-brug tussen deze en de grondwaarheid mel-spectrogram, wat resulteert in een data-naar-data proces. Bovendien stellen de traceerbaarheid en flexibiliteit van onze formulering ons in staat om empirisch ontwerpruimtes zoals ruisschema's te bestuderen, evenals stochastische en deterministische samplers te ontwikkelen. Experimentele resultaten op de LJ-Speech dataset illustreren de effectiviteit van onze methode in termen van zowel synthesekwaliteit als samplingefficiëntie, waarbij onze diffusie-tegenhanger Grad-TTS significant wordt overtroffen in 50-staps/1000-staps synthese en sterke snelle TTS-modellen in weinig-staps scenario's. Projectpagina: https://bridge-tts.github.io/
Contrastive Language-Image Pre-training (CLIP) speelt een essentiële rol in het extraheren van waardevolle inhoudsinformatie uit afbeeldingen voor diverse taken. Het brengt tekstuele en visuele modaliteiten op één lijn om het gehele beeld te begrijpen, inclusief alle details, zelfs die welke niet relevant zijn voor specifieke taken. Voor een fijnere interpretatie en gecontroleerde bewerking van afbeeldingen is het echter cruciaal om te focussen op specifieke interessegebieden, die door mensen of perceptiemodellen kunnen worden aangegeven als punten, maskers of vakken. Om aan deze vereisten te voldoen, introduceren we Alpha-CLIP, een verbeterde versie van CLIP met een aanvullende alfakanaal om aandachtgebieden aan te geven en afgestemd op miljoenen geconstrueerde RGBA gebied-tekst paren. Alpha-CLIP behoudt niet alleen de visuele herkenningscapaciteit van CLIP, maar maakt ook precieze controle mogelijk over de nadruk van beeldinhoud. Het toont effectiviteit in verschillende taken, waaronder maar niet beperkt tot open-wereldherkenning, multimodale grote taalmodellen en conditionele 2D/3D-generatie. Het heeft een sterk potentieel om te dienen als een veelzijdig hulpmiddel voor beeldgerelateerde taken.
Code biedt een algemene syntactische structuur om complexe programma's te bouwen en precieze berekeningen uit te voeren wanneer het wordt gecombineerd met een code-interpreter -- we veronderstellen dat taalmodellen (LMs) het schrijven van code kunnen benutten om Chain of Thought-redenering te verbeteren, niet alleen voor logische en rekenkundige taken, maar ook voor taalkundige taken (en in het bijzonder die welke een mix van beide zijn). Beschouw bijvoorbeeld het aanmoedigen van een LM om code te schrijven die het aantal keren telt dat het sarcasme detecteert in een essay: de LM zou kunnen worstelen met het schrijven van een implementatie voor "detect_sarcasm(string)" die door de interpreter kan worden uitgevoerd (het omgaan met de edge cases zou onoverkomelijk zijn). Echter, LMs kunnen nog steeds een geldige oplossing produceren als ze niet alleen worden gebruikt om de code te schrijven, maar ook om selectief de interpreter te "emuleren" door het verwachte resultaat van "detect_sarcasm(string)" en andere regels code te genereren (bijvoorbeeld die de interpreter niet kon compileren). In dit werk stellen we Chain of Code (CoT) voor, een eenvoudige maar verrassend effectieve uitbreiding die de code-gestuurde redenering van LMs verbetert. Het kernidee is om LMs aan te moedigen taalkundige sub-taken in een programma te formatteren als flexibele pseudocode, zodat de compiler expliciet ongedefinieerd gedrag kan opvangen en kan overdragen om te simuleren met een LM (als een "LMulator"). Experimenten tonen aan dat Chain of Code Chain of Thought en andere baseline-methoden overtreft op een verscheidenheid aan benchmarks; op BIG-Bench Hard behaalt Chain of Code 84%, een verbetering van 12% ten opzichte van Chain of Thought. CoT schaalt goed met zowel grote als kleine modellen, en verbreedt het scala aan redeneervragen die LMs correct kunnen beantwoorden door "in code te denken". Projectwebpagina: https://chain-of-code.github.io/.
Het creëren van hoogwaardige 3D-hoofdavatars is altijd een belangrijk onderzoeksgebied geweest, maar het blijft een grote uitdaging onder lichtgewicht, spaarzame camerasetups. In dit artikel stellen we Gaussian Head Avatar voor, gerepresenteerd door controleerbare 3D-Gaussians voor het modelleren van hoogwaardige hoofdavatars. We optimaliseren de neutrale 3D-Gaussians en een volledig geleerd MLP-gebaseerd vervormingsveld om complexe expressies vast te leggen. De twee componenten versterken elkaar, waardoor onze methode fijnmazige dynamische details kan modelleren terwijl de nauwkeurigheid van de expressies wordt gewaarborgd. Bovendien ontwikkelen we een goed doordachte geometrie-gestuurde initialisatiestrategie gebaseerd op impliciete SDF en Deep Marching Tetrahedra voor de stabiliteit en convergentie van het trainingsproces. Experimenten tonen aan dat onze aanpak andere state-of-the-art methoden met spaarzame camerabeelden overtreft, waarbij een ultrahoogwaardige renderkwaliteit op 2K-resolutie wordt bereikt, zelfs onder overdreven expressies.
Bewegingen in een video bestaan voornamelijk uit camerabeweging, veroorzaakt door beweging van de camera, en objectbeweging, het gevolg van beweging van objecten. Nauwkeurige controle over zowel camerabeweging als objectbeweging is essentieel voor videogeneratie. Echter, bestaande werken richten zich voornamelijk op één type beweging of maken geen duidelijk onderscheid tussen de twee, wat hun controlecapaciteiten en diversiteit beperkt. Daarom presenteert dit artikel MotionCtrl, een uniforme en flexibele bewegingcontroller voor videogeneratie, ontworpen om camerabeweging en objectbeweging effectief en onafhankelijk te controleren. De architectuur en trainingsstrategie van MotionCtrl zijn zorgvuldig ontworpen, rekening houdend met de inherente eigenschappen van camerabeweging, objectbeweging en onvolmaakte trainingsdata. Vergeleken met eerdere methoden biedt MotionCtrl drie belangrijke voordelen: 1) Het controleert camerabeweging en objectbeweging effectief en onafhankelijk, waardoor meer fijnmazige bewegingscontrole mogelijk is en flexibele en diverse combinaties van beide soorten beweging worden gefaciliteerd. 2) De bewegingscondities worden bepaald door cameraposities en -trajecten, die vrij zijn van uiterlijk en minimale invloed hebben op het uiterlijk of de vorm van objecten in gegenereerde video's. 3) Het is een relatief generaliseerbaar model dat zich kan aanpassen aan een breed scala aan cameraposities en -trajecten zodra het is getraind. Uitgebreide kwalitatieve en kwantitatieve experimenten zijn uitgevoerd om de superioriteit van MotionCtrl ten opzichte van bestaande methoden aan te tonen.
Dit artikel presenteert een diepgaande analyse van Large Language Models (LLM's), met een focus op LLaMA, een prominent open-source fundamenteel model in natuurlijke taalverwerking. In plaats van LLaMA te beoordelen via zijn generatieve output, ontwerpen we meerkeuzetaken om zijn intrinsieke begrip te onderzoeken in hogere-orde taken zoals redeneren en rekenen. We onderzoeken het model horizontaal, door verschillende groottes te vergelijken, en verticaal, door verschillende lagen te beoordelen. We onthullen verschillende belangrijke en ongebruikelijke bevindingen op basis van de ontworpen onderzoektaken: (1) Horizontaal gezien kon het vergroten van de modelgroottes bijna geen extra kennis of rekenkracht automatisch toevoegen. In plaats daarvan kan het redeneervaardigheden verbeteren, vooral bij het oplossen van wiskundige problemen, en helpt het hallucinaties te verminderen, maar alleen voorbij bepaalde grootte-drempels; (2) In verticale analyse ontbreekt het de onderste lagen van LLaMA aan substantiële rekenkundige en feitelijke kennis, terwijl ze logisch denken, meertalige en herkenningsvaardigheden tonen, waarbij de bovenste lagen het meeste rekenvermogen en kennis van de echte wereld bevatten.
We hebben recentelijk enorme vooruitgang gezien in het fotorealistisch modelleren en renderen van mensen. Toch blijft het efficiënt renderen van realistische menselijke prestaties en de integratie ervan in het rasterisatiepipeline een uitdaging. In dit artikel presenteren we HiFi4G, een expliciete en compacte Gaussiaanse benadering voor hoogwaardige rendering van menselijke prestaties uit dichte beeldopnamen. Onze kernintuïtie is om de 3D Gaussiaanse representatie te combineren met niet-rigide tracking, wat resulteert in een compacte en compressievriendelijke representatie. We stellen eerst een dual-grafiekmechanisme voor om bewegingsprioriteiten te verkrijgen, met een grove vervormingsgrafiek voor effectieve initialisatie en een fijnmazige Gaussiaanse grafiek om vervolgbeperkingen af te dwingen. Vervolgens gebruiken we een 4D Gaussiaans optimalisatieschema met adaptieve ruimtelijk-temporele regularisatoren om effectief een balans te vinden tussen de niet-rigide prior en Gaussiaanse updates. We presenteren ook een begeleidend compressieschema met restcompensatie voor meeslepende ervaringen op verschillende platforms. Het bereikt een aanzienlijke compressieratio van ongeveer 25 keer, met minder dan 2MB opslag per frame. Uitgebreide experimenten tonen de effectiviteit van onze aanpak aan, die bestaande benaderingen aanzienlijk overtreft op het gebied van optimalisatiesnelheid, renderkwaliteit en opslagoverhead.
We stellen Context Diffusion voor, een op diffusie gebaseerd raamwerk dat beeldgeneratiemodellen in staat stelt te leren van visuele voorbeelden die in context worden gepresenteerd. Recent werk richt zich op dergelijk in-context leren voor beeldgeneratie, waarbij een querybeeld wordt aangeboden naast contextvoorbeelden en tekstprompts. Echter, de kwaliteit en nauwkeurigheid van de gegenereerde beelden verslechteren wanneer de prompt niet aanwezig is, wat aantoont dat deze modellen niet echt kunnen leren van de visuele context. Om dit aan te pakken, stellen we een nieuw raamwerk voor dat de codering van de visuele context scheidt en de structuur van de querybeelden behoudt. Dit resulteert in de mogelijkheid om te leren van de visuele context en tekstprompts, maar ook van slechts één van beide. Bovendien stellen we ons model in staat om few-shot instellingen te hanteren, om diverse in-context leer scenario's effectief aan te pakken. Onze experimenten en gebruikersstudie tonen aan dat Context Diffusion uitblinkt in zowel in-domein als out-of-domein taken, wat resulteert in een algehele verbetering van de beeldkwaliteit en nauwkeurigheid in vergelijking met tegenhanger modellen.
Grote taalmodelen (LLM's) zoals ChatGPT hebben enorme belangstelling gekregen vanwege hun algemene taalbegrip en, in het bijzonder, hun vermogen om hoogwaardige tekst of computercode te genereren. Voor veel beroepen vertegenwoordigen LLM's een onmisbaar hulpmiddel dat het werk kan versnellen en de kwaliteit ervan kan verbeteren. In deze notitie bespreken we in hoeverre ze professionele wiskundigen kunnen ondersteunen. We geven eerst een wiskundige beschrijving van het transformermodel dat in alle moderne taalmodelen wordt gebruikt. Op basis van recente studies schetsen we vervolgens best practices en potentiële problemen en rapporteren we over de wiskundige vaardigheden van taalmodelen. Tot slot belichten we het potentieel van LLM's om de manier waarop wiskundigen werken te veranderen.
Tekstgebaseerde videobewerking heeft recentelijk aanzienlijke belangstelling getrokken voor het veranderen van de stijl of het vervangen van objecten met een vergelijkbare structuur. Daarnaast tonen we aan dat eigenschappen zoals vorm, grootte, locatie, beweging, enz., ook in video's kunnen worden bewerkt. Onze belangrijkste inzicht is dat de keyframe-transformaties van specifieke interne kenmerken (bijvoorbeeld randenkaarten van objecten of menselijke houdingen), eenvoudig kunnen worden doorgevoerd naar andere frames om generatiebegeleiding te bieden. We stellen daarom MagicStick voor, een beheersbare videobewerkingsmethode die de video-eigenschappen bewerkt door gebruik te maken van de transformatie op de geëxtraheerde interne controlesignalen. Om het uiterlijk te behouden, breiden we zowel het vooraf getrainde beelddiffusiemodel als ControlNet uit naar de temporele dimensie en trainen we low-rank aanpassingslagen (LORA) om aan te sluiten bij specifieke scènes. Vervolgens voeren we tijdens het bewerken een inversie- en bewerkingsframework uit. Anders dan gebruikelijk wordt de fijn afgestemde ControlNet geïntroduceerd in zowel de inversie als de generatie voor aandachtbegeleiding met de voorgestelde aandachtremix tussen de ruimtelijke aandachtkaarten van inversie en bewerking. Hoewel beknopt, is onze methode de eerste methode die het vermogen toont om video-eigenschappen te bewerken vanuit het vooraf getrainde tekst-naar-beeldmodel. We presenteren experimenten op talrijke voorbeelden binnen ons geïntegreerde framework. We vergelijken ook met vormbewuste tekstgebaseerde bewerking en handgemaakte bewegingsvideogeneratie, waarbij we onze superieure temporele consistentie en bewerkingscapaciteit aantonen in vergelijking met eerdere werken. De code en modellen zullen publiekelijk beschikbaar worden gemaakt.
Dit artikel introduceert Representation-Conditioned Image Generation (RCG), een eenvoudig maar effectief framework voor beeldgeneratie dat een nieuwe standaard zet in klasse-onvoorwaardelijke beeldgeneratie. RCG maakt geen gebruik van menselijke annotaties. In plaats daarvan baseert het zich op een zelf-supervisiede representatiedistributie die wordt afgeleid van de beelddistributie met behulp van een vooraf getrainde encoder. Tijdens het generatieproces neemt RCG steekproeven uit deze representatiedistributie met behulp van een representatiediffusiemodel (RDM) en gebruikt een pixelgenerator om beeldpixels te creëren die zijn geconditioneerd op de geselecteerde representatie. Dit ontwerp biedt aanzienlijke begeleiding tijdens het generatieve proces, wat resulteert in hoogwaardige beeldgeneratie. Getest op ImageNet 256x256 bereikt RCG een Frechet Inception Distance (FID) van 3.31 en een Inception Score (IS) van 253.4. Deze resultaten verbeteren niet alleen aanzienlijk de state-of-the-art in klasse-onvoorwaardelijke beeldgeneratie, maar wedijveren ook met de huidige toonaangevende methoden in klasse-voorwaardelijke beeldgeneratie, waardoor de lang bestaande prestatiekloof tussen deze twee taken wordt overbrugd. De code is beschikbaar op https://github.com/LTH14/rcg.
Door gebruik te maken van vooraf getrainde 2D grootschalige generatieve modellen, zijn recente werken in staat om hoogwaardige nieuwe aanzichten te genereren vanuit een enkele afbeelding uit de praktijk. Echter, door het gebrek aan informatie vanuit meerdere aanzichten, ondervinden deze werken moeilijkheden bij het genereren van controleerbare nieuwe aanzichten. In dit artikel presenteren we DreamComposer, een flexibel en schaalbaar raamwerk dat bestaande aanzicht-gevoelige diffusiemodellen kan verbeteren door multi-aanzicht condities in te brengen. Specifiek gebruikt DreamComposer eerst een aanzicht-gevoelige 3D-liftmodule om 3D-representaties van een object vanuit meerdere aanzichten te verkrijgen. Vervolgens worden de latente kenmerken van het doelaanzicht vanuit de 3D-representaties gerenderd met de multi-aanzicht kenmerkenfusiemodule. Ten slotte worden de doelaanzicht kenmerken die uit multi-aanzicht invoeren zijn geëxtraheerd, ingebracht in een vooraf getraind diffusiemodel. Experimenten tonen aan dat DreamComposer compatibel is met state-of-the-art diffusiemodellen voor zero-shot synthese van nieuwe aanzichten, waardoor ze verder worden verbeterd om hoogwaardige nieuwe aanzicht afbeeldingen te genereren met multi-aanzicht condities, klaar voor controleerbare 3D-objectreconstructie en diverse andere toepassingen.
We introduceren de nieuwe taak van het genereren van Geïllustreerde Instructies, d.w.z. visuele instructies die zijn afgestemd op de behoeften van een gebruiker. We identificeren unieke vereisten voor deze taak en formaliseren deze via een reeks automatische en menselijke evaluatiemetrics, ontworpen om de geldigheid, consistentie en effectiviteit van de gegenereerde instructies te meten. We combineren de kracht van grote taalmodellen (LLM's) samen met sterke tekst-naar-beeldgeneratie-diffusiemodellen om een eenvoudige aanpak genaamd StackedDiffusion voor te stellen, die dergelijke geïllustreerde instructies genereert op basis van tekst als invoer. Het resulterende model presteert aanzienlijk beter dan baseline-aanpakken en state-of-the-art multimodale LLM's; en in 30% van de gevallen verkiezen gebruikers het zelfs boven door mensen geschreven artikelen. Het meest opvallende is dat het diverse nieuwe en spannende toepassingen mogelijk maakt die ver gaan buiten wat statische artikelen op het web kunnen bieden, zoals gepersonaliseerde instructies met tussenstappen en afbeeldingen die aansluiten bij de individuele situatie van een gebruiker.
We introduceren de Efficient Monotonic Multihead Attention (EMMA), een state-of-the-art simultaan vertaalmodel met numeriek stabiele en onbevooroordeelde monotone aligneringsschatting. Daarnaast presenteren we verbeterde trainings- en inferentiestrategieën, waaronder simultane fine-tuning van een offline vertaalmodel en reductie van monotone aligneringsvariantie. De experimentele resultaten tonen aan dat het voorgestelde model state-of-the-art prestaties bereikt in simultane spraak-naar-tekst vertaling voor de Spaanse en Engelse vertaaltaak.
Neurale stralingsvelden bieden state-of-the-art kwaliteit voor viewsynthese, maar zijn vaak traag om weer te geven. Een reden hiervoor is dat ze gebruikmaken van volumetrische rendering, waardoor veel samples (en modelquery's) per straal nodig zijn tijdens het renderen. Hoewel deze representatie flexibel en eenvoudig te optimaliseren is, kunnen de meeste objecten in de echte wereld efficiënter worden gemodelleerd met oppervlakken in plaats van volumes, wat veel minder samples per straal vereist. Deze observatie heeft aanzienlijke vooruitgang gestimuleerd in oppervlakrepresentaties zoals signed distance functions, maar deze kunnen moeite hebben met het modelleren van semi-transparante en dunne structuren. Wij stellen een methode voor, HybridNeRF, die de sterke punten van beide representaties benut door de meeste objecten als oppervlakken weer te geven, terwijl de (meestal) kleine fractie van uitdagende regio's volumetrisch wordt gemodelleerd. We evalueren HybridNeRF tegen de uitdagende Eyeful Tower-dataset, samen met andere veelgebruikte datasets voor viewsynthese. In vergelijking met state-of-the-art baselines, waaronder recente rasterisatiegebaseerde benaderingen, verbeteren we de foutpercentages met 15-30% terwijl we real-time framerates (minstens 36 FPS) behalen voor virtual-reality-resoluties (2Kx2K).
Het genereren van instructiebeelden van menselijke dagelijkse handelingen vanuit een egocentrisch perspectief vormt een cruciale stap naar efficiënte vaardigheidsoverdracht. In dit artikel introduceren we een nieuw probleem -- de generatie van egocentrische actiekaders. Het doel is om het actiekader te synthetiseren op basis van een gebruikerspromptvraag en een ingevoerde egocentrische afbeelding die de omgeving van de gebruiker vastlegt. Opmerkelijk is dat bestaande egocentrische datasets de gedetailleerde annotaties missen die de uitvoering van handelingen beschrijven. Bovendien slagen op diffusie gebaseerde beeldmanipulatiemodellen er niet in om de staatswijziging van een handeling binnen de corresponderende egocentrische beeldpixelruimte te beheersen. Daarom finetunen we een visueel groot taalmodel (VLLM) via visuele instructieafstemming om verrijkte actiebeschrijvingen te cureren voor ons voorgestelde probleem. Verder stellen we voor om het genereren van Learn EGOcentric (LEGO) actiekaders te leren met behulp van beeld- en tekstembeddingen van VLLM als aanvullende conditionering. We valideren ons voorgestelde model op twee egocentrische datasets -- Ego4D en Epic-Kitchens. Onze experimenten tonen een aanzienlijke verbetering ten opzichte van eerdere beeldmanipulatiemodellen in zowel kwantitatieve als kwalitatieve evaluatie. We voeren ook gedetailleerde ablatiestudies en analyses uit om inzicht te geven in onze methode.