Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno portato alla creazione di agenti intelligenti in grado di eseguire compiti complessi. Questo articolo introduce un nuovo framework multimodale basato su LLM progettato per operare applicazioni per smartphone. Il nostro framework consente all'agente di utilizzare le applicazioni per smartphone attraverso uno spazio d'azione semplificato, imitando interazioni simili a quelle umane come il tocco e lo scorrimento. Questo approccio innovativo evita la necessità di accesso al back-end del sistema, ampliando così la sua applicabilità su diverse app. Al centro della funzionalità del nostro agente c'è il suo metodo di apprendimento innovativo. L'agente impara a navigare e utilizzare nuove app attraverso l'esplorazione autonoma o osservando dimostrazioni umane. Questo processo genera una base di conoscenza a cui l'agente fa riferimento per eseguire compiti complessi su diverse applicazioni. Per dimostrare la praticità del nostro agente, abbiamo condotto test estensivi su 50 compiti in 10 applicazioni diverse, inclusi social media, email, mappe, shopping e strumenti sofisticati di editing delle immagini. I risultati confermano la competenza del nostro agente nel gestire una vasta gamma di compiti di alto livello.
Questo articolo presenta Paint3D, un innovativo framework generativo di tipo coarse-to-fine in grado di produrre mappe UV texture 2K ad alta risoluzione, prive di illuminazione e diversificate, per mesh 3D non texturizzate, condizionate da input testuali o immagini. La sfida principale affrontata è la generazione di texture di alta qualità senza informazioni di illuminazione incorporate, il che consente alle texture di essere ri-illuminate o rielaborate all'interno delle moderne pipeline grafiche. Per raggiungere questo obiettivo, il nostro metodo sfrutta inizialmente un modello di diffusione 2D pre-addestrato e consapevole della profondità per generare immagini condizionate alla vista e eseguire la fusione di texture multi-vista, producendo una mappa texture iniziale di tipo coarse. Tuttavia, poiché i modelli 2D non possono rappresentare completamente le forme 3D e disabilitano gli effetti di illuminazione, la mappa texture coarse presenta aree incomplete e artefatti di illuminazione. Per risolvere questo problema, addestriamo separatamente modelli di diffusione UV Inpainting e UVHD specializzati per il perfezionamento consapevole della forma delle aree incomplete e la rimozione degli artefatti di illuminazione. Attraverso questo processo coarse-to-fine, Paint3D è in grado di produrre texture UV 2K di alta qualità che mantengono la coerenza semantica pur essendo prive di illuminazione, rappresentando un significativo avanzamento dello stato dell'arte nella texturizzazione di oggetti 3D.
I recenti progressi nei modelli di testo-immagine (T2I) personalizzati hanno rivoluzionato la creazione di contenuti, consentendo ai non esperti di generare immagini straordinarie con stili unici. Sebbene promettenti, l'aggiunta di movimenti realistici a queste immagini personalizzate tramite testo presenta sfide significative nel preservare stili distinti, dettagli ad alta fedeltà e nel raggiungere la controllabilità del movimento tramite testo. In questo articolo, presentiamo PIA, un Animatore di Immagini Personalizzato che eccelle nell'allineamento con immagini di condizione, nel raggiungere la controllabilità del movimento tramite testo e nella compatibilità con vari modelli T2I personalizzati senza necessità di regolazioni specifiche. Per raggiungere questi obiettivi, PIA si basa su un modello T2I di base con strati di allineamento temporale ben addestrati, consentendo la trasformazione senza soluzione di continuità di qualsiasi modello T2I personalizzato in un modello di animazione di immagini. Un componente chiave di PIA è l'introduzione del modulo di condizione, che utilizza il frame di condizione e l'affinità inter-frame come input per trasferire informazioni sull'aspetto guidate dal suggerimento di affinità per la sintesi di frame individuali nello spazio latente. Questo design mitiga le sfide legate all'allineamento delle immagini relative all'aspetto e consente una maggiore focalizzazione sull'allineamento con le indicazioni relative al movimento.
La sintesi semantica di immagini, ovvero la generazione di immagini a partire da mappe di etichette semantiche fornite dall'utente, è un'importante attività di generazione condizionata di immagini poiché consente di controllare sia il contenuto che il layout spaziale delle immagini generate. Sebbene i modelli di diffusione abbiano spinto lo stato dell'arte nella modellazione generativa di immagini, la natura iterativa del loro processo di inferenza li rende computazionalmente impegnativi. Altri approcci, come le GAN, sono più efficienti in quanto richiedono solo un singolo passaggio feed-forward per la generazione, ma la qualità delle immagini tende a risentirne su dataset ampi e diversificati. In questo lavoro, proponiamo una nuova classe di discriminatori GAN per la sintesi semantica di immagini che genera immagini altamente realistiche sfruttando reti di backbone pre-addestrate per attività come la classificazione di immagini. Introduciamo inoltre una nuova architettura di generatore con una migliore modellazione del contesto e l'uso di cross-attention per iniettare rumore nelle variabili latenti, portando a immagini generate più diversificate. Il nostro modello, che chiamiamo DP-SIMS, raggiunge risultati all'avanguardia in termini di qualità delle immagini e coerenza con le mappe di etichette in input su ADE-20K, COCO-Stuff e Cityscapes, superando i recenti modelli di diffusione pur richiedendo due ordini di grandezza in meno di calcolo per l'inferenza.
La sintesi di visualizzazione video, che consente la creazione di fotogrammi visivamente accattivanti da punti di vista e tempi arbitrari, offre esperienze di visione immersive. I campi di radianza neurale, in particolare il NeRF, inizialmente sviluppati per scene statiche, hanno stimolato la creazione di vari metodi per la sintesi di visualizzazione video. Tuttavia, la sfida per la sintesi di visualizzazione video deriva dal motion blur, una conseguenza del movimento degli oggetti o della telecamera durante l'esposizione, che ostacola la precisa sintesi di viste spazio-temporali nitide. In risposta, proponiamo un nuovo framework NeRF dinamico per il deblurring di video monoculari sfocati, chiamato DyBluRF, composto da una fase di Interleave Ray Refinement (IRR) e una fase di Motion Decomposition-based Deblurring (MDD). Il nostro DyBluRF è il primo che affronta e gestisce la sintesi di nuove viste per video monoculari sfocati. La fase IRR ricostruisce congiuntamente scene 3D dinamiche e affina le informazioni imprecise sulla posa della telecamera per contrastare le informazioni di posa inesatte estratte dai fotogrammi sfocati forniti. La fase MDD è un nuovo approccio incrementale di previsione dei raggi nitidi latenti (ILSP) per i fotogrammi video monoculari sfocati, scomponendo i raggi nitidi latenti in componenti di movimento globale della telecamera e movimento locale degli oggetti. I risultati sperimentali estesi dimostrano che il nostro DyBluRF supera qualitativamente e quantitativamente i metodi più recenti all'avanguardia. La nostra pagina del progetto, inclusi i codici sorgente e il modello preaddestrato, è pubblicamente disponibile all'indirizzo https://kaist-viclab.github.io/dyblurf-site/.