Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'editing delle immagini basato su trascinamento ha recentemente guadagnato popolarità per la sua interattività e precisione. Tuttavia, nonostante la capacità dei modelli testo-immagine di generare campioni in un secondo, l'editing tramite trascinamento rimane indietro a causa della sfida di riflettere accuratamente l'interazione dell'utente pur mantenendo il contenuto dell'immagine. Alcuni approcci esistenti si basano sull'ottimizzazione intensiva dal punto di vista computazionale per immagine o su metodi basati su guida intricati, che richiedono input aggiuntivi come maschere per regioni mobili e istruzioni di testo, compromettendo così l'interattività del processo di editing. Presentiamo InstantDrag, un flusso di lavoro senza ottimizzazione che migliora l'interattività e la velocità, richiedendo solo un'immagine e un'istruzione di trascinamento come input. InstantDrag è composto da due reti attentamente progettate: un generatore di flusso ottico condizionato al trascinamento (FlowGen) e un modello di diffusione condizionato al flusso ottico (FlowDiffusion). InstantDrag apprende la dinamica del movimento per l'editing delle immagini basato su trascinamento in set di dati video del mondo reale scomponendo il compito in generazione di movimento e generazione di immagini condizionata al movimento. Dimostriamo la capacità di InstantDrag di eseguire modifiche rapide e fotorealistiche senza maschere o istruzioni di testo attraverso esperimenti su set di dati video facciali e scene generali. Questi risultati evidenziano l'efficienza del nostro approccio nel gestire l'editing delle immagini basato su trascinamento, rendendolo una soluzione promettente per applicazioni interattive e in tempo reale.
L'animazione di vari disegni di personaggi è un coinvolgente compito di creazione di contenuti visivi. Dato un singolo disegno di personaggio, i metodi di animazione esistenti sono limitati a movimenti bidimensionali piatti e mancano quindi di effetti tridimensionali. Una soluzione alternativa è ricostruire un modello 3D da un disegno di personaggio come procura e quindi riindirizzare i dati di movimento 3D su di esso. Tuttavia, i metodi esistenti di immagine-a-3D non funzionavano bene per i disegni di personaggi amatoriali in termini di aspetto e geometria. Osserviamo che le linee di contorno, comunemente presenti nei disegni di personaggi, potrebbero introdurre un'ambiguità significativa nella sintesi della texture a causa della loro dipendenza dalla vista. Inoltre, le regioni sottili rappresentate da contorni a linea singola sono difficili da ricostruire (ad esempio, arti sottili di un omino di bastoncino) a causa delle loro strutture delicate. Per affrontare questi problemi, proponiamo un nuovo sistema, DrawingSpinUp, per produrre plausibili animazioni 3D e infondere vita nei disegni di personaggi, consentendo loro di girare liberamente, saltare e persino eseguire una danza hip-hop. Per migliorare l'aspetto, adottiamo una strategia di rimozione e successiva ripristino per rimuovere prima le linee di contorno dipendenti dalla vista e quindi renderle di nuovo dopo aver riindirizzato il personaggio ricostruito. Per il perfezionamento della geometria, sviluppiamo un algoritmo di deformazione di assottigliamento basato su scheletro per perfezionare le strutture sottili rappresentate dai contorni a linea singola. Le valutazioni sperimentali e uno studio utente percettivo mostrano che il nostro metodo proposto supera i metodi di animazione 2D e 3D esistenti e genera animazioni 3D di alta qualità da un singolo disegno di personaggio. Si prega di fare riferimento alla nostra pagina del progetto (https://lordliang.github.io/DrawingSpinUp) per il codice e le animazioni generate.
La rilevazione a vocabolario aperto (OVD) mira a rilevare oggetti al di là di un insieme predefinito di categorie. Come modello pionieristico che incorpora la serie YOLO nell'OVD, YOLO-World è ben adatto per scenari che danno priorità alla velocità e all'efficienza. Tuttavia, le sue prestazioni sono ostacolate dal meccanismo di fusione delle caratteristiche del collo, che causa la complessità quadratica e i campi recettivi guidati limitati. Per affrontare queste limitazioni, presentiamo Mamba-YOLO-World, un nuovo modello OVD basato su YOLO che impiega la proposta Rete di Aggregazione del Percorso di Fusione Mamba (MambaFusion-PAN) come architettura del collo. In particolare, introduciamo un innovativo meccanismo di fusione delle caratteristiche basato sul Modello dello Spazio di Stato che consiste in un algoritmo di Scansione Selettiva Parallela-Guidata e un algoritmo di Scansione Selettiva Seriale-Guidata con complessità lineare e campi recettivi globalmente guidati. Sfrutta sequenze di input multimodali e stati nascosti di mamba per guidare il processo di scansione selettiva. Gli esperimenti dimostrano che il nostro modello supera l'originale YOLO-World sui benchmark COCO e LVIS sia nelle impostazioni di zero-shot che di fine-tuning mantenendo parametri e FLOPs comparabili. Inoltre, supera i metodi OVD esistenti all'avanguardia con meno parametri e FLOPs.
I campi di radianza per il rilumino sono gravemente sottodeterminati per i dati multi-view, che vengono per lo più catturati in una singola condizione di illuminazione; è particolarmente difficile per scene complete contenenti molteplici oggetti. Introduciamo un metodo per creare campi di radianza rilumino utilizzando tali dati a illuminazione singola sfruttando le conoscenze a priori estratte dai modelli di diffusione delle immagini 2D. Prima tarochiamo un modello di diffusione 2D su un dataset multi-illuminazione condizionato dalla direzione della luce, consentendoci di ampliare una cattura a illuminazione singola in un dataset multi-illuminazione realistico - ma possibilmente inconsistente - da direzioni di luce definite direttamente. Utilizziamo questi dati ampliati per creare un campo di radianza rilumino rappresentato da schizzi gaussiani 3D. Per consentire il controllo diretto della direzione della luce per l'illuminazione a bassa frequenza, rappresentiamo l'aspetto con un perceptron a strati multipli parametrizzato sulla direzione della luce. Per garantire la coerenza multi-view e superare le inesattezze ottimizziamo un vettore di caratteristiche ausiliarie per immagine. Mostriamo i risultati su dati multi-view sintetici e reali sotto illuminazione singola, dimostrando che il nostro metodo sfrutta con successo le conoscenze a priori del modello di diffusione 2D per consentire un rilumino 3D realistico per scene complete. Sito del progetto https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/
Il video volumetrico rappresenta un avanzamento trasformativo nei media visivi, consentendo agli utenti di navigare liberamente esperienze virtuali immersive e riducendo il divario tra mondi digitali e reali. Tuttavia, la necessità di un'elevata intervento manuale per stabilizzare sequenze mesh e la generazione di risorse eccessivamente grandi nei flussi di lavoro esistenti ostacolano una più ampia adozione. In questo articolo, presentiamo un nuovo approccio basato su Gaussiana, chiamato DualGS, per la riproduzione in tempo reale e ad alta fedeltà di complesse performance umane con eccellenti rapporti di compressione. L'idea chiave di DualGS è rappresentare separatamente il movimento e l'aspetto utilizzando le rispettive Gaussiane della pelle e delle articolazioni. Tale disintegrazione esplicita può ridurre significativamente la ridondanza del movimento e migliorare la coerenza temporale. Iniziamo inizializzando il DualGS e ancorando le Gaussiane della pelle alle Gaussiane delle articolazioni al primo fotogramma. Successivamente, adottiamo una strategia di addestramento da grezzo a fine per la modellazione delle performance umane fotogramma per fotogramma. Questo include una fase di allineamento grezza per la previsione del movimento complessivo e un'ottimizzazione dettagliata per un tracciamento robusto e un rendering ad alta fedeltà. Per integrare il video volumetrico in modo trasparente negli ambienti VR, comprimiamo efficientemente il movimento utilizzando la codifica dell'entropia e l'aspetto utilizzando la compressione del codec accoppiata con un libro dei codici persistente. Il nostro approccio raggiunge un rapporto di compressione fino a 120 volte, richiedendo approssimativamente solo 350KB di archiviazione per fotogramma. Dimostriamo l'efficacia della nostra rappresentazione attraverso esperienze fotorealistiche e a visione libera su visori VR, consentendo agli utenti di guardare in modo immersivo musicisti in performance e percepire il ritmo delle note alle dita degli interpreti.
Il ripristino audio è diventato sempre più significativo nella società moderna, non solo a causa della domanda di esperienze uditive di alta qualità rese possibili dai dispositivi di riproduzione avanzati, ma anche perché le crescenti capacità dei modelli audio generativi richiedono un audio ad alta fedeltà. Tipicamente, il ripristino audio è definito come un compito di predire un audio non distorto da un input danneggiato, spesso addestrato utilizzando un framework GAN per bilanciare percezione e distorsione. Poiché il degrado audio è principalmente concentrato nelle gamme di frequenza medie e alte, specialmente a causa dei codec, una sfida chiave risiede nel progettare un generatore capace di preservare le informazioni a bassa frequenza mentre ricostruisce accuratamente contenuti di alta qualità a frequenze medie e alte. Ispirato ai recenti progressi nella separazione musicale ad alta frequenza di campionamento, miglioramento del parlato e modelli di codec audio, proponiamo Apollo, un modello generativo progettato per il ripristino audio ad alta frequenza di campionamento. Apollo impiega un modulo esplicito di suddivisione delle bande di frequenza per modellare le relazioni tra diverse bande di frequenza, consentendo un audio ripristinato più coerente e di alta qualità. Valutato sui set di dati MUSDB18-HQ e MoisesDB, Apollo supera costantemente i modelli SR-GAN esistenti su vari bit rate e generi musicali, eccellendo particolarmente in scenari complessi che coinvolgono mix di strumenti e voci multipli. Apollo migliora significativamente la qualità del ripristino musicale mantenendo al contempo l'efficienza computazionale. Il codice sorgente di Apollo è disponibile pubblicamente su https://github.com/JusperLee/Apollo.
I recenti progressi nei modelli generativi hanno rivoluzionato la generazione e la modifica di immagini, rendendo queste attività accessibili anche a non esperti. Questo articolo si concentra sulla modifica locale delle immagini, in particolare sul compito di aggiungere nuovo contenuto in un'area vagamente specificata. I metodi esistenti spesso richiedono una maschera precisa o una descrizione dettagliata della posizione, il che può essere ingombrante e soggetto a errori. Proponiamo Click2Mask, un nuovo approccio che semplifica il processo di modifica locale richiedendo solo un singolo punto di riferimento (oltre alla descrizione del contenuto). Una maschera viene dinamicamente espansa intorno a questo punto durante un processo di Diffusione Latente Miscelata (BLD), guidato da una perdita semantica basata su CLIP mascherato. Click2Mask supera i limiti dei metodi basati sulla segmentazione e dipendenti dal fine-tuning, offrendo una soluzione più user-friendly e accurata dal punto di vista contestuale. I nostri esperimenti dimostrano che Click2Mask non solo riduce al minimo lo sforzo dell'utente, ma fornisce anche risultati di manipolazione di immagini locali competitivi o superiori rispetto ai metodi SoTA, secondo sia il giudizio umano che le metriche automatiche. Le principali contribuzioni includono la semplificazione dell'input dell'utente, la capacità di aggiungere liberamente oggetti non vincolati da segmenti esistenti e il potenziale di integrazione del nostro approccio di maschera dinamica con altri metodi di modifica.