Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Seed-TTS, una famiglia di modelli autoregressivi su larga scala per la sintesi vocale (TTS) in grado di generare un parlato praticamente indistinguibile da quello umano. Seed-TTS funge da modello di base per la generazione vocale e si distingue nell'apprendimento contestuale del parlato, raggiungendo prestazioni in termini di somiglianza del parlante e naturalezza che eguagliano il parlato umano di riferimento sia in valutazioni oggettive che soggettive. Con un affinamento, otteniamo punteggi soggettivi ancora più elevati in queste metriche. Seed-TTS offre una superiore controllabilità su vari attributi vocali come l'emozione ed è in grado di generare un parlato altamente espressivo e diversificato per parlanti in contesti reali. Inoltre, proponiamo un metodo di auto-distillazione per la fattorizzazione del parlato, nonché un approccio di apprendimento per rinforzo per migliorare la robustezza del modello, la somiglianza del parlante e la controllabilità. Presentiamo inoltre una variante non autoregressiva (NAR) del modello Seed-TTS, denominata Seed-TTS_DiT, che utilizza un'architettura interamente basata sulla diffusione. A differenza dei precedenti sistemi TTS basati su NAR, Seed-TTS_DiT non dipende da durate fonematiche pre-stimate e genera il parlato attraverso un'elaborazione end-to-end. Dimostriamo che questa variante raggiunge prestazioni comparabili alla variante basata su modello linguistico e ne evidenziamo l'efficacia nell'editing vocale. Invitiamo i lettori ad ascoltare le demo disponibili su https://bytedancespeech.github.io/seedtts_tech_report.
Esploriamo la quantificazione dell'incertezza nei grandi modelli linguistici (LLM), con l'obiettivo di identificare quando l'incertezza nelle risposte fornite a una query è elevata. Consideriamo simultaneamente sia l'incertezza epistemica che quella aleatoria, dove la prima deriva dalla mancanza di conoscenza sulla verità di fondo (come fatti o la lingua), e la seconda deriva da una casualità irriducibile (come più risposte possibili). In particolare, deriviamo una metrica basata sulla teoria dell'informazione che consente di rilevare in modo affidabile quando solo l'incertezza epistemica è elevata, nel qual caso l'output del modello è inaffidabile. Questa condizione può essere calcolata esclusivamente basandosi sull'output del modello ottenuto semplicemente attraverso un prompting iterativo speciale basato sulle risposte precedenti. Tale quantificazione, ad esempio, consente di rilevare allucinazioni (casi in cui l'incertezza epistemica è alta) sia nelle risposte singole che in quelle multiple. Questo è in contrasto con molte strategie standard di quantificazione dell'incertezza (come la sogliazione della log-verosimiglianza di una risposta) in cui le allucinazioni nel caso di risposte multiple non possono essere rilevate. Condurremo una serie di esperimenti che dimostrano il vantaggio della nostra formulazione. Inoltre, le nostre indagini gettano luce su come le probabilità assegnate a un determinato output da un LLM possano essere amplificate dal prompting iterativo, il che potrebbe essere di interesse indipendente.
Sia i metodi online che offline di RLHF come PPO e DPO hanno avuto un enorme successo nell'allineare l'IA alle preferenze umane. Nonostante il loro successo, i metodi esistenti soffrono di un problema fondamentale: la loro soluzione ottimale è altamente dipendente dal compito (cioè, non è robusta rispetto a compiti fuori distribuzione, OOD). Qui affrontiamo questa sfida proponendo Self-Improving Robust Preference Optimization (SRPO), un framework pratico e matematicamente fondato di RLHF offline che è completamente robusto ai cambiamenti del compito. L'idea chiave di SRPO è formulare il problema dell'apprendimento dalle preferenze umane come un processo di auto-miglioramento, che può essere espresso matematicamente in termini di un obiettivo min-max che mira all'ottimizzazione congiunta della politica di auto-miglioramento e della politica generativa in modo avversariale. La soluzione di questo problema di ottimizzazione è indipendente dal compito di addestramento e quindi è robusta ai suoi cambiamenti. Mostriamo poi che questo obiettivo può essere riformulato nella forma di una perdita offline non avversariale che può essere ottimizzata utilizzando tecniche standard di ottimizzazione supervisionata su larga scala, senza la necessità di un modello di ricompensa e di inferenza online. Dimostriamo l'efficacia di SRPO in termini di AI Win-Rate (WR) rispetto alle completazioni umane (GOLD). In particolare, quando SRPO viene valutato sul dataset OOD XSUM, supera il rinomato DPO con un margine chiaro del 15% dopo 5 auto-revisioni, raggiungendo un WR del 90%.
La generazione di video da testo è rimasta indietro rispetto alla sintesi di immagini da testo in termini di qualità e diversità a causa della complessità della modellazione spazio-temporale e della limitata disponibilità di dataset video-testo. Questo articolo presenta I4VGen, un framework di inferenza per la diffusione video senza necessità di addestramento e plug-and-play, che migliora la generazione di video da testo sfruttando tecniche avanzate per le immagini. Nello specifico, seguendo l'approccio testo-immagine-video, I4VGen scompone la generazione di video da testo in due fasi: sintesi dell'immagine di ancoraggio e sintesi del video guidata dall'immagine di ancoraggio. Di conseguenza, viene impiegata una pipeline ben progettata di generazione-selezione per ottenere un'immagine di ancoraggio visivamente realistica e semanticamente fedele, e viene incorporata un'innovativa tecnica di campionamento per la distillazione del punteggio video invariante al rumore (Noise-Invariant Video Score Distillation Sampling) per animare l'immagine in un video dinamico, seguita da un processo di rigenerazione video per affinare il risultato. Questa strategia di inferenza mitiga efficacemente il problema diffuso del rapporto segnale-rumore terminale non nullo. Valutazioni estensive dimostrano che I4VGen non solo produce video con un realismo visivo e una fedeltà testuale superiori, ma si integra perfettamente nei modelli esistenti di diffusione da immagine a video, migliorando così la qualità complessiva del video.
I principali aspetti di interesse nei modelli di diffusione per la generazione di immagini sono la qualità dell'immagine, la quantità di variazione nei risultati e quanto bene i risultati si allineano a una determinata condizione, ad esempio un'etichetta di classe o un prompt testuale. Il popolare approccio del classifier-free guidance utilizza un modello incondizionato per guidare un modello condizionato, portando a un migliore allineamento con il prompt e a immagini di qualità superiore, al costo di una ridotta variazione. Questi effetti sembrano intrinsecamente intrecciati e quindi difficili da controllare. Facciamo l'osservazione sorprendente che è possibile ottenere un controllo disaccoppiato sulla qualità dell'immagine senza compromettere la quantità di variazione, guidando la generazione utilizzando una versione più piccola e meno addestrata del modello stesso piuttosto che un modello incondizionato. Ciò porta a significativi miglioramenti nella generazione su ImageNet, stabilendo record FID di 1.01 per 64x64 e 1.25 per 512x512, utilizzando reti disponibili pubblicamente. Inoltre, il metodo è applicabile anche ai modelli di diffusione incondizionati, migliorando drasticamente la loro qualità.
I recenti progressi nell'Intelligenza Artificiale (IA) sono stati in gran parte alimentati dal concetto di scalabilità. Nella robotica, la scalabilità è ostacolata dalla mancanza di accesso a grandi dataset robotici. Proponiamo l'uso di simulazioni fisiche realistiche come mezzo per scalare ambienti, compiti e dataset per i metodi di apprendimento robotico. Presentiamo RoboCasa, un framework di simulazione su larga scala per l'addestramento di robot generalisti in ambienti quotidiani. RoboCasa offre scene realistiche e diversificate, con un focus particolare sugli ambienti cucina. Forniamo migliaia di asset 3D appartenenti a oltre 150 categorie di oggetti e decine di mobili ed elettrodomestici interattivi. Arricchiamo il realismo e la diversità della nostra simulazione utilizzando strumenti di IA generativa, come asset di oggetti derivati da modelli text-to-3D e texture ambientali da modelli text-to-image. Progettiamo un insieme di 100 compiti per una valutazione sistematica, inclusi compiti compositi generati con la guida di modelli linguistici di grandi dimensioni. Per facilitare l'apprendimento, forniamo dimostrazioni umane di alta qualità e integriamo metodi di generazione automatica di traiettorie per ampliare sostanzialmente i nostri dataset con un carico umano minimo. I nostri esperimenti mostrano una chiara tendenza alla scalabilità nell'uso di dati robotici sintetici per l'apprendimento imitativo su larga scala e dimostrano un grande potenziale nell'utilizzo di dati simulati per compiti nel mondo reale. Video e codice open-source sono disponibili su https://robocasa.ai/.
Nel campo della generazione di video ritratto, l'uso di singole immagini per generare video ritratto è diventato sempre più diffuso. Un approccio comune prevede l'utilizzo di modelli generativi per migliorare gli adattatori per una generazione controllata. Tuttavia, i segnali di controllo (ad esempio, testo, audio, immagine di riferimento, posa, mappa di profondità, ecc.) possono variare in intensità. Tra questi, le condizioni più deboli spesso faticano a essere efficaci a causa dell'interferenza di condizioni più forti, rappresentando una sfida nel bilanciare queste condizioni. Nel nostro lavoro sulla generazione di video ritratto, abbiamo identificato i segnali audio come particolarmente deboli, spesso oscurati da segnali più forti come la posa del volto e l'immagine di riferimento. Tuttavia, l'addestramento diretto con segnali deboli spesso porta a difficoltà nella convergenza. Per affrontare questo problema, proponiamo V-Express, un metodo semplice che bilancia diversi segnali di controllo attraverso l'addestramento progressivo e l'operazione di dropout condizionale. Il nostro metodo abilita gradualmente un controllo efficace da parte di condizioni deboli, raggiungendo così capacità di generazione che tengono conto simultaneamente della posa del volto, dell'immagine di riferimento e dell'audio. I risultati sperimentali dimostrano che il nostro metodo può generare efficacemente video ritratto controllati dall'audio. Inoltre, viene fornita una potenziale soluzione per l'uso simultaneo ed efficace di condizioni di diversa intensità.
Recentemente, i modelli di diffusione video sono emersi come strumenti generativi espressivi per la creazione di contenuti video di alta qualità, facilmente accessibili agli utenti comuni. Tuttavia, questi modelli spesso non offrono un controllo preciso sulle pose della telecamera per la generazione di video, limitando l'espressione del linguaggio cinematografico e il controllo dell'utente. Per affrontare questo problema, introduciamo CamCo, che consente un controllo fine delle pose della telecamera per la generazione di video da immagini. Dotiamo un generatore pre-addestrato da immagine a video di un input di pose della telecamera accuratamente parametrizzato utilizzando le coordinate di Plücker. Per migliorare la coerenza 3D nei video prodotti, integriamo un modulo di attenzione epipolare in ogni blocco di attenzione che applica vincoli epipolari alle mappe di caratteristiche. Inoltre, ottimizziamo CamCo su video del mondo reale con pose della telecamera stimate attraverso algoritmi di struttura da movimento per sintetizzare meglio il movimento degli oggetti. I nostri esperimenti dimostrano che CamCo migliora significativamente la coerenza 3D e le capacità di controllo della telecamera rispetto ai modelli precedenti, generando efficacemente un movimento plausibile degli oggetti. Pagina del progetto: https://ir1d.github.io/CamCo/