Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente vooruitgang in grote taalmodellen (LLMs) heeft geleid tot de ontwikkeling van intelligente agents die complexe taken kunnen uitvoeren. Dit artikel introduceert een nieuw LLM-gebaseerd multimodaal agentframework dat is ontworpen om smartphoneapplicaties te bedienen. Ons framework stelt de agent in staat om smartphoneapplicaties te bedienen via een vereenvoudigde actieruimte, waarbij mensachtige interacties zoals tikken en vegen worden nagebootst. Deze nieuwe aanpak omzeilt de noodzaak van toegang tot het systeem-back-end, waardoor de toepasbaarheid ervan over diverse apps wordt vergroot. Centraal in de functionaliteit van onze agent staat zijn innovatieve leermethode. De agent leert om nieuwe apps te navigeren en te gebruiken door middel van autonome verkenning of door het observeren van menselijke demonstraties. Dit proces genereert een kennisbasis waar de agent naar verwijst voor het uitvoeren van complexe taken in verschillende applicaties. Om de praktische bruikbaarheid van onze agent aan te tonen, hebben we uitgebreide tests uitgevoerd over 50 taken in 10 verschillende applicaties, waaronder sociale media, e-mail, kaarten, winkelen en geavanceerde beeldbewerkingsgereedschappen. De resultaten bevestigen de vaardigheid van onze agent in het uitvoeren van een diverse reeks hoogwaardige taken.
Dit artikel presenteert Paint3D, een nieuw generatief raamwerk van grof naar fijn dat in staat is om hoogwaardige, verlichtingsvrije en diverse 2K UV-textuurkaarten te produceren voor ongetextureerde 3D-meshes, gebaseerd op tekst- of beeldinvoer. De belangrijkste uitdaging die wordt aangepakt, is het genereren van hoogwaardige texturen zonder ingebedde verlichtingsinformatie, wat het mogelijk maakt om de texturen opnieuw te belichten of te bewerken binnen moderne grafische pijplijnen. Om dit te bereiken, maakt onze methode eerst gebruik van een vooraf getraind dieptegevoelig 2D-diffusiemodel om beeldgeconditioneerde afbeeldingen te genereren en multi-view textuurfusie uit te voeren, wat resulteert in een initiële grove textuurkaart. Omdat 2D-modellen echter niet volledig 3D-vormen kunnen weergeven en verlichtingseffecten uitschakelen, vertoont de grove textuurkaart onvolledige gebieden en verlichtingsartefacten. Om dit op te lossen, trainen we aparte UV-inpainting- en UVHD-diffusiemodellen die gespecialiseerd zijn in de vormbewuste verfijning van onvolledige gebieden en het verwijderen van verlichtingsartefacten. Door dit proces van grof naar fijn kan Paint3D hoogwaardige 2K UV-texturen produceren die semantische consistentie behouden terwijl ze verlichtingsvrij zijn, wat een significante vooruitgang betekent in de state-of-the-art van het textureren van 3D-objecten.
Recente ontwikkelingen in gepersonaliseerde tekst-naar-beeld (T2I) modellen hebben een revolutie teweeggebracht in contentcreatie, waardoor niet-experts in staat zijn verbluffende afbeeldingen met unieke stijlen te genereren. Hoewel veelbelovend, brengt het toevoegen van realistische bewegingen aan deze gepersonaliseerde afbeeldingen via tekst aanzienlijke uitdagingen met zich mee, zoals het behouden van onderscheidende stijlen, hoogwaardige details en het bereiken van bewegingsbestuurbaarheid via tekst. In dit artikel presenteren we PIA, een Personalized Image Animator die uitblinkt in het afstemmen op conditieafbeeldingen, het bereiken van bewegingsbestuurbaarheid via tekst, en de compatibiliteit met verschillende gepersonaliseerde T2I-modellen zonder specifieke afstemming. Om deze doelen te bereiken, bouwt PIA voort op een basis T2I-model met goed getrainde tijdelijke uitlijningslagen, waardoor elk gepersonaliseerd T2I-model naadloos kan worden omgezet in een beeldanimatiemodel. Een belangrijk onderdeel van PIA is de introductie van de conditiemodule, die gebruikmaakt van het conditiekader en inter-frame affiniteit als invoer om uiterlijke informatie over te dragen, geleid door de affiniteitshint voor individuele framesynthese in de latente ruimte. Dit ontwerp vermindert de uitdagingen van uiterlijk-gerelateerde beelduitlijning en maakt het mogelijk om zich sterker te richten op het afstemmen met bewegingsgerelateerde begeleiding.
Semantische beeldgeneratie, oftewel het genereren van beelden op basis van door de gebruiker aangeleverde semantische labelkaarten, is een belangrijke taak binnen conditionele beeldgeneratie, omdat het zowel de inhoud als de ruimtelijke lay-out van gegenereerde beelden mogelijk maakt. Hoewel diffusiemodellen de standaard hebben verhoogd in generatieve beeldmodellering, maakt het iteratieve karakter van hun inferentieproces ze rekenkundig veeleisend. Andere benaderingen, zoals GANs, zijn efficiënter omdat ze slechts één feed-forward-pass nodig hebben voor generatie, maar de beeldkwaliteit lijdt vaak onder grote en diverse datasets. In dit werk stellen we een nieuwe klasse van GAN-discriminatoren voor semantische beeldgeneratie voor, die zeer realistische beelden genereert door gebruik te maken van feature backbone-netwerken die vooraf zijn getraind voor taken zoals beeldclassificatie. We introduceren ook een nieuwe generatorarchitectuur met betere contextmodellering en het gebruik van cross-attention om ruis in latente variabelen te injecteren, wat leidt tot meer diverse gegenereerde beelden. Ons model, dat we DP-SIMS noemen, behaalt state-of-the-art resultaten op het gebied van beeldkwaliteit en consistentie met de invoerlabelkaarten op ADE-20K, COCO-Stuff en Cityscapes, en overtreft recente diffusiemodellen terwijl het twee ordes van grootte minder rekenkracht vereist voor inferentie.
Video view synthesis, waarmee het mogelijk wordt om visueel aantrekkelijke frames te creëren vanuit willekeurige gezichtspunten en tijden, biedt een meeslepende kijkervaring. Neural radiance fields, met name NeRF, oorspronkelijk ontwikkeld voor statische scènes, hebben de ontwikkeling van diverse methoden voor video view synthesis gestimuleerd. De uitdaging voor video view synthesis ligt echter in motion blur, een gevolg van object- of camerabeweging tijdens de belichting, wat de precieze synthese van scherpe spatio-temporele beelden belemmert. Als antwoord hierop stellen wij een nieuw dynamisch deblurring NeRF-framework voor, genaamd DyBluRF, bestaande uit een Interleave Ray Refinement (IRR) fase en een Motion Decomposition-based Deblurring (MDD) fase. Onze DyBluRF is de eerste die de novel view synthesis voor wazige monoscopische video aanpakt en verwerkt. De IRR fase reconstrueert gezamenlijk dynamische 3D-scènes en verfijnt de onnauwkeurige camerapose-informatie om de onnauwkeurige pose-informatie die uit de gegeven wazige frames wordt geëxtraheerd, te bestrijden. De MDD fase is een nieuwe incrementele latent sharp-rays prediction (ILSP) benadering voor de wazige monoscopische videoframes door de latente scherpe stralen te ontbinden in globale camerabeweging en lokale objectbewegingscomponenten. Uitgebreide experimentele resultaten tonen aan dat onze DyBluRF kwalitatief en kwantitatief superieur presteert ten opzichte van de meest recente state-of-the-art methoden. Onze projectpagina, inclusief broncodes en voorgetrainde modellen, is publiekelijk beschikbaar op https://kaist-viclab.github.io/dyblurf-site/.