Articoli di ricerca IA selezionati quotidianamente con traduzioni
La crescente domanda di generazione di video ad alta fedeltà a partire da descrizioni testuali ha catalizzato una significativa ricerca in questo campo. In questo lavoro, presentiamo MagicVideo-V2, che integra il modello di generazione di immagini da testo, il generatore di movimento video, il modulo di incorporamento di immagini di riferimento e il modulo di interpolazione dei fotogrammi in una pipeline end-to-end per la generazione di video. Grazie a queste scelte architetturali, MagicVideo-V2 è in grado di generare video esteticamente piacevoli, ad alta risoluzione, con una fedeltà e una fluidità notevoli. Dimostra prestazioni superiori rispetto ai principali sistemi di generazione di video da testo, come Runway, Pika 1.0, Morph, Moon Valley e il modello Stable Video Diffusion, attraverso valutazioni su larga scala da parte degli utenti.
Presentiamo MAGNeT, un metodo di modellazione sequenziale generativa mascherata che opera direttamente su più flussi di token audio. A differenza dei lavori precedenti, MAGNeT è composto da un trasformatore a singolo stadio e non autoregressivo. Durante l'addestramento, prevediamo intervalli di token mascherati ottenuti da un pianificatore di mascheramento, mentre durante l'inferenza costruiamo gradualmente la sequenza di output utilizzando diversi passaggi di decodifica. Per migliorare ulteriormente la qualità dell'audio generato, introduciamo un nuovo metodo di ricalibrazione in cui sfruttiamo un modello pre-addestrato esterno per ricalibrare e classificare le previsioni di MAGNeT, che verranno poi utilizzate per i successivi passaggi di decodifica. Infine, esploriamo una versione ibrida di MAGNeT, in cui fondiamo modelli autoregressivi e non autoregressivi per generare i primi secondi in modo autoregressivo mentre il resto della sequenza viene decodificato in parallelo. Dimostriamo l'efficienza di MAGNeT per il compito di generazione da testo a musica e da testo a audio e conduciamo una valutazione empirica approfondita, considerando sia metriche oggettive che studi umani. L'approccio proposto è paragonabile ai baseline valutati, pur essendo significativamente più veloce (x7 più veloce rispetto al baseline autoregressivo). Attraverso studi di ablazione e analisi, evidenziamo l'importanza di ciascuno dei componenti che costituiscono MAGNeT, insieme ai compromessi tra modellazione autoregressiva e non autoregressiva, considerando latenza, throughput e qualità della generazione. I campioni sono disponibili sulla nostra pagina demo https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT.
L'attenzione lineare è un meccanismo di attenzione efficiente che è emerso recentemente come una valida alternativa all'attenzione softmax convenzionale. Grazie alla sua capacità di elaborare token con complessità computazionali lineari, l'attenzione lineare, in teoria, può gestire sequenze di lunghezza illimitata senza sacrificare la velocità, mantenendo cioè una velocità di addestramento costante per varie lunghezze di sequenza con un consumo di memoria fisso. Tuttavia, a causa del problema della somma cumulativa (cumsum), gli attuali algoritmi di attenzione lineare non riescono a dimostrare il loro vantaggio teorico in un contesto causale. In questo articolo, presentiamo Lightning Attention-2, la prima implementazione di attenzione lineare che consente all'attenzione lineare di realizzare i suoi benefici computazionali teorici. Per raggiungere questo obiettivo, sfruttiamo l'idea del tiling, gestendo separatamente i componenti intra-blocco e inter-blocco nel calcolo dell'attenzione lineare. Nello specifico, utilizziamo il meccanismo di calcolo dell'attenzione convenzionale per gli intra-blocchi e applichiamo i trucchi del kernel di attenzione lineare per gli inter-blocchi. Una tecnica di tiling viene adottata sia nelle procedure di forward che di backward per sfruttare al massimo l'hardware GPU. Implementiamo il nostro algoritmo in Triton per renderlo IO-aware e hardware-friendly. Sono stati condotti vari esperimenti su diverse dimensioni di modelli e lunghezze di sequenza. Lightning Attention-2 mantiene una velocità di addestramento e inferenza costante indipendentemente dalla lunghezza della sequenza di input ed è significativamente più veloce rispetto ad altri meccanismi di attenzione. Il codice sorgente è disponibile all'indirizzo https://github.com/OpenNLPLab/lightning-attention.
Il ragionamento basato su tabelle con modelli linguistici di grandi dimensioni (LLM) rappresenta una direzione promettente per affrontare numerosi compiti di comprensione delle tabelle, come il question answering basato su tabelle e la verifica di fatti. Rispetto al ragionamento generico, il ragionamento basato su tabelle richiede l'estrazione della semantica sottostante sia da domande in linguaggio libero che da dati tabellari semi-strutturati. Il Chain-of-Thought e approcci simili incorporano la catena di ragionamento sotto forma di contesto testuale, ma rimane una questione aperta come sfruttare efficacemente i dati tabellari nella catena di ragionamento. Proponiamo il framework Chain-of-Table, in cui i dati tabellari vengono esplicitamente utilizzati nella catena di ragionamento come proxy per pensieri intermedi. Nello specifico, guidiamo gli LLM utilizzando l'apprendimento in contesto per generare iterativamente operazioni e aggiornare la tabella per rappresentare una catena di ragionamento tabellare. Gli LLM possono quindi pianificare dinamicamente l'operazione successiva in base ai risultati delle precedenti. Questa evoluzione continua della tabella forma una catena, mostrando il processo di ragionamento per un dato problema tabellare. La catena trasporta informazioni strutturate sui risultati intermedi, consentendo previsioni più accurate e affidabili. Chain-of-Table raggiunge nuove prestazioni all'avanguardia sui benchmark WikiTQ, FeTaQA e TabFact con diverse scelte di LLM.
Un jump cut introduce un cambiamento brusco, talvolta indesiderato, nell'esperienza visiva. Presentiamo un nuovo framework per smussare questi jump cut, nel contesto di video con volti parlanti. Sfruttiamo l'aspetto del soggetto dagli altri frame sorgente del video, fondendolo con una rappresentazione di livello medio guidata dai keypoint di DensePose e dai landmark facciali. Per ottenere il movimento, interpoliamo i keypoint e i landmark tra i frame finali attorno al taglio. Utilizziamo quindi una rete di traduzione di immagini dai keypoint e dai frame sorgente per sintetizzare i pixel. Poiché i keypoint possono contenere errori, proponiamo uno schema di attenzione cross-modale per selezionare e scegliere la sorgente più appropriata tra più opzioni per ciascun keypoint. Sfruttando questa rappresentazione di livello medio, il nostro metodo può ottenere risultati migliori rispetto a una solida baseline di interpolazione video. Dimostriamo il nostro metodo su vari jump cut nei video con volti parlanti, come l'eliminazione di parole di riempimento, pause e persino tagli casuali. I nostri esperimenti mostrano che possiamo ottenere transizioni fluide, anche nei casi complessi in cui il volto parlante ruota o si muove drasticamente nel jump cut.
Le applicazioni delle reti neurali nel campo della visione e della visione-linguaggio, come la classificazione delle immagini e la generazione di didascalie, si basano su dataset annotati su larga scala che richiedono processi di raccolta dati non banali. Questo sforzo dispendioso in termini di tempo ostacola l'emergere di dataset su larga scala, limitando ricercatori e professionisti a un numero ridotto di opzioni. Pertanto, cerchiamo modi più efficienti per raccogliere e annotare immagini. Iniziative precedenti hanno raccolto didascalie da testi alternativi HTML e da post sui social media, ma queste fonti di dati sono affette da rumore, scarsità o soggettività. Per questo motivo, ci rivolgiamo ai siti web di shopping commerciali, i cui dati soddisfano tre criteri: pulizia, informatività e fluidità. Introduciamo il dataset Let's Go Shopping (LGS), un dataset pubblico su larga scala con 15 milioni di coppie immagine-didascalia provenienti da siti web di e-commerce pubblicamente disponibili. Rispetto ai dataset esistenti di dominio generale, le immagini di LGS si concentrano sull'oggetto in primo piano e hanno sfondi meno complessi. I nostri esperimenti su LGS mostrano che i classificatori addestrati su dataset di benchmark esistenti non si generalizzano facilmente ai dati di e-commerce, mentre specifici estrattori di caratteristiche visive auto-supervisionati possono generalizzare meglio. Inoltre, le immagini di alta qualità focalizzate sull'e-commerce e la natura bimodale di LGS lo rendono vantaggioso per i task bimodali visione-linguaggio: LGS consente ai modelli di generazione di didascalie di produrre descrizioni più ricche e aiuta i modelli di generazione di immagini da testo a ottenere il trasferimento di stile e-commerce.
Le domande fattuali possono tipicamente essere risposte correttamente a diversi livelli di granularità. Ad esempio, sia "4 agosto 1961" che "1961" sono risposte corrette alla domanda "Quando è nato Barack Obama?". Tuttavia, i protocolli standard di valutazione per il question answering (QA) non tengono esplicitamente conto di questo aspetto e confrontano una risposta prevista con risposte di un unico livello di granularità. In questo lavoro, proponiamo GRANOLA QA, una nuova impostazione di valutazione in cui una risposta prevista viene valutata in termini di accuratezza e informatività rispetto a un insieme di risposte multi-granularità. Presentiamo una metodologia semplice per arricchire i dataset esistenti con risposte multi-granularità e creiamo GRANOLA-EQ, una versione multi-granularità del dataset EntityQuestions. Valutiamo una gamma di metodi di decodifica su GRANOLA-EQ, inclusa un nuovo algoritmo chiamato Decoding with Response Aggregation (DRAG), che è progettato per allineare la granularità della risposta con l'incertezza del modello. I nostri esperimenti mostrano che i grandi modelli linguistici con decodifica standard tendono a generare risposte specifiche, che spesso sono errate. Al contrario, quando valutati su risposte multi-granularità, DRAG produce un aumento medio di quasi 20 punti in accuratezza, che aumenta ulteriormente per entità rare. Nel complesso, ciò rivela che i metodi standard di valutazione e decodifica possono sottostimare significativamente la conoscenza racchiusa nei modelli linguistici.
Nonostante il potenziale dei modelli di diffusione nel miglioramento del segnale vocale, il loro utilizzo nella cancellazione dell'eco acustica (AEC) è stato limitato. In questo articolo, proponiamo DI-AEC, introducendo un approccio innovativo basato sulla rigenerazione stocastica tramite diffusione specificamente dedicato all'AEC. Inoltre, presentiamo FADI-AEC, un framework rapido per la cancellazione dell'eco basato su modelli di diffusione e punteggi, progettato per ridurre le esigenze computazionali e renderlo favorevole per dispositivi edge. Questo metodo si distingue per l'esecuzione del modello di punteggio una volta per frame, ottenendo un significativo aumento dell'efficienza di elaborazione. Oltre a ciò, introduciamo una nuova tecnica di generazione del rumore in cui vengono utilizzati i segnali lato remoto, incorporando sia i segnali lato remoto che quelli lato vicino per affinare l'accuratezza del modello di punteggio. Testiamo il nostro metodo proposto sul dataset di valutazione della sfida di cancellazione profonda dell'eco Microsoft ICASSP2023, dove il nostro metodo supera alcuni dei metodi end-to-end e altri metodi di cancellazione dell'eco basati sulla diffusione.