Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo articolo presenta un modello di diffusione controllabile da testo a video (T2V), denominato Video-ControlNet, che genera video condizionati da una sequenza di segnali di controllo, come mappe di bordi o di profondità. Video-ControlNet è costruito su un modello pre-addestrato di diffusione condizionale da testo a immagine (T2I), incorporando un meccanismo di auto-attenzione spazio-temporale e strati temporali addestrabili per una modellizzazione efficiente tra frame. Viene proposta una strategia di condizionamento sul primo frame per facilitare la generazione di video trasferiti dal dominio delle immagini, nonché video di lunghezza arbitraria in modo auto-regressivo. Inoltre, Video-ControlNet utilizza una nuova strategia di inizializzazione del rumore basata su residui per introdurre un precedente di movimento da un video di input, producendo video più coerenti. Con l'architettura e le strategie proposte, Video-ControlNet può raggiungere una convergenza efficiente in termini di risorse e generare video di qualità superiore e coerenti con un controllo fine-granulare. Esperimenti estensivi dimostrano il suo successo in varie attività generative di video, come l'editing video e il trasferimento di stile video, superando i metodi precedenti in termini di coerenza e qualità. Pagina del progetto: https://controlavideo.github.io/
I recenti modelli di generazione di immagini da testo hanno dimostrato una capacità impressionante di produrre immagini allineate al testo con alta fedeltà. Tuttavia, generare immagini di nuovi concetti forniti dall'immagine di input dell'utente rimane un compito impegnativo. Per affrontare questo problema, i ricercatori hanno esplorato vari metodi per personalizzare modelli pre-addestrati di generazione di immagini da testo. Attualmente, la maggior parte dei metodi esistenti per la personalizzazione di questi modelli pre-addestrati prevede l'uso di tecniche di regolarizzazione per prevenire l'overfitting. Sebbene la regolarizzazione faciliti la sfida della personalizzazione e porti a una creazione di contenuti di successo rispetto alla guida del testo, potrebbe limitare la capacità del modello, causando la perdita di informazioni dettagliate e prestazioni inferiori. In questo lavoro, proponiamo un nuovo framework per la generazione personalizzata di immagini da testo senza l'uso di regolarizzazione. Nello specifico, il nostro framework proposto consiste in una rete di codifica e un nuovo metodo di campionamento che può affrontare il problema dell'overfitting senza ricorrere alla regolarizzazione. Con il framework proposto, siamo in grado di personalizzare un modello su larga scala di generazione di immagini da testo in meno di mezzo minuto su una singola GPU, con una sola immagine fornita dall'utente. Dimostriamo negli esperimenti che il nostro framework supera i metodi esistenti e preserva dettagli più fini.