Articoli di ricerca IA selezionati quotidianamente con traduzioni
Modelli come GPT-4o consentono l'interazione in tempo reale con grandi modelli linguistici (LLM) attraverso il linguaggio parlato, migliorando significativamente l'esperienza dell'utente rispetto all'interazione tradizionale basata sul testo. Tuttavia, c'è ancora una mancanza di esplorazione su come costruire modelli di interazione vocale basati su LLM open-source. Per affrontare questo problema, proponiamo LLaMA-Omni, un'architettura di modello innovativa progettata per un'interazione vocale a bassa latenza e di alta qualità con LLM. LLaMA-Omni integra un codificatore vocale preaddestrato, un adattatore vocale, un LLM e un decodificatore vocale in streaming. Elimina la necessità di trascrizione vocale e può generare contemporaneamente risposte in testo e voce direttamente dalle istruzioni vocali con una latenza estremamente bassa. Costruiamo il nostro modello basandoci sul recente modello Llama-3.1-8B-Instruct. Per allineare il modello con scenari di interazione vocale, costruiamo un dataset chiamato InstructS2S-200K, che include 200.000 istruzioni vocali e relative risposte vocali. I risultati sperimentali mostrano che rispetto ai precedenti modelli di linguaggio vocale, LLaMA-Omni fornisce risposte migliori sia per contenuto che per stile, con una latenza di risposta fino a 226 ms. Inoltre, addestrare LLaMA-Omni richiede meno di 3 giorni con soli 4 GPU, aprendo la strada allo sviluppo efficiente di modelli di linguaggio vocale in futuro.
La Generazione potenziata da Recupero (RAG) è emersa come un paradigma comune per utilizzare Grandi Modelli Linguistici (LLM) insieme a basi di conoscenza private e aggiornate. In questo lavoro, affrontiamo le sfide dell'utilizzo di LLM-come-Giudice nella valutazione di risposte fondate generate dai sistemi RAG. Per valutare le capacità di calibrazione e discriminazione dei modelli giudice, identifichiamo 7 modalità di fallimento del generatore e introduciamo GroUSE (Valutazione Unitaria Fondata delle Evaluatori), un benchmark di meta-valutazione di 144 test unitari. Questo benchmark rivela che i framework di valutazione RAG automatici esistenti spesso trascurano importanti modalità di fallimento, anche quando si utilizza GPT-4 come giudice. Per migliorare il design attuale dei framework di valutazione RAG automatici, proponiamo un nuovo pipeline e scopriamo che mentre i modelli chiusi si comportano bene su GroUSE, i giudici open-source all'avanguardia non generalizzano ai nostri criteri proposti, nonostante una forte correlazione con il giudizio di GPT-4. I nostri risultati suggeriscono che la correlazione con GPT-4 è un proxy incompleto per le prestazioni pratiche dei modelli giudice e dovrebbe essere integrata con valutazioni su test unitari per una precisa individuazione delle modalità di fallimento. Inoltre dimostriamo che il raffinamento di Llama-3 sulle tracce di ragionamento di GPT-4 potenzia significativamente le sue capacità di valutazione, migliorando sia la correlazione con le valutazioni di GPT-4 che la calibrazione su situazioni di riferimento.
L'affordance indica le interazioni potenziali intrinseche negli oggetti. La percezione dell'affordance può consentire agli agenti intelligenti di navigare e interagire con nuovi ambienti in modo efficiente. Il grounding dell'affordance debolmente supervisionato insegna agli agenti il concetto di affordance senza costose annotazioni a livello di pixel, ma con immagini esocentriche. Sebbene i recenti progressi nel grounding dell'affordance debolmente supervisionato abbiano prodotto risultati promettenti, rimangono sfide tra cui il requisito di un dataset di immagini esocentriche ed egocentriche accoppiate e la complessità nel grounding di diverse affordance per un singolo oggetto. Per affrontarle, proponiamo il grounding dell'affordance debolmente supervisionato consapevole delle relazioni di interazione (INTRA). A differenza delle opere precedenti, INTRA riformula questo problema come apprendimento della rappresentazione per identificare le caratteristiche uniche delle interazioni attraverso l'apprendimento contrastivo solo con immagini esocentriche, eliminando la necessità di dataset accoppiati. Inoltre, sfruttiamo gli embedding dei modelli visione-linguaggio per eseguire il grounding dell'affordance in modo flessibile con qualsiasi testo, progettando la generazione di mappe di affordance condizionate al testo per riflettere la relazione di interazione per l'apprendimento contrastivo e potenziare la robustezza con la nostra augmentazione dei sinonimi del testo. Il nostro metodo ha superato le opere precedenti su dataset diversi come AGD20K, IIT-AFF, CAD e UMD. Inoltre, i risultati sperimentali dimostrano che il nostro metodo ha una notevole scalabilità di dominio per immagini / illustrazioni sintetizzate ed è in grado di eseguire il grounding dell'affordance per interazioni e oggetti nuovi in modo efficace.
La musica è parte integrante della cultura umana, incarnando l'intelligenza e la creatività umane, di cui le canzoni costituiscono una parte essenziale. Mentre vari aspetti della generazione di brani musicali sono stati esplorati da lavori precedenti, come la voce cantante, la composizione vocale e l'arrangiamento strumentale, generare canzoni con sia la voce che l'accompagnamento dati i testi rimane una sfida significativa, ostacolando l'applicazione dei modelli di generazione musicale nel mondo reale. In questo contesto, proponiamo SongCreator, un sistema di generazione di canzoni progettato per affrontare questa sfida. Il modello presenta due design innovativi: un modello linguistico a doppia sequenza (DSLM) attentamente progettato per catturare le informazioni della voce e dell'accompagnamento per la generazione di canzoni, e una strategia aggiuntiva di maschera di attenzione per DSLM, che consente al nostro modello di comprendere, generare e modificare canzoni, rendendolo adatto a varie attività di generazione legate alle canzoni. Estesi esperimenti dimostrano l'efficacia di SongCreator raggiungendo prestazioni all'avanguardia o competitive in tutte e otto le attività. In particolare, supera di gran lunga i lavori precedenti nella trasformazione di testi in canzoni e testi in voci. Inoltre, è in grado di controllare indipendentemente le condizioni acustiche della voce e dell'accompagnamento nella canzone generata attraverso prompt diversi, mostrando la sua potenziale applicabilità. I nostri campioni sono disponibili su https://songcreator.github.io/.
Foley è un termine comunemente usato nel campo del cinema, che si riferisce all'aggiunta di effetti sonori quotidiani a film muti o video per migliorare l'esperienza uditiva. Il Video-to-Audio (V2A), come particolare tipo di compito automatico di foley, presenta sfide intrinseche legate alla sincronizzazione audio-visiva. Queste sfide includono il mantenimento della coerenza del contenuto tra il video in input e l'audio generato, nonché l'allineamento delle proprietà temporali e di volume all'interno del video. Per affrontare tali questioni, abbiamo sviluppato un modello di sintesi video-to-audio controllabile, chiamato Draw an Audio, che supporta molteplici istruzioni in input attraverso maschere disegnate e segnali di volume. Per garantire la coerenza del contenuto tra l'audio sintetizzato e il video di destinazione, introduciamo il Modulo di Attenzione con Maschera (MAM), che utilizza istruzioni video mascherate per consentire al modello di concentrarsi sulle regioni di interesse. Inoltre, implementiamo il Modulo Tempo-Volume (TLM), che utilizza un segnale di volume ausiliario per garantire la sintesi del suono che si allinea con il video sia nei volumi che nelle dimensioni temporali. Inoltre, abbiamo esteso un dataset V2A su larga scala, chiamato VGGSound-Caption, annotando prompt di didascalie. Estesi esperimenti su benchmark impegnativi su due dataset V2A su larga scala confermano che Draw an Audio raggiunge lo stato dell'arte. Pagina del progetto: https://yannqi.github.io/Draw-an-Audio/.
Negli ultimi anni, lo sviluppo dei modelli di diffusione ha portato a progressi significativi nei compiti di generazione di immagini e video, con modelli pre-addestrati come la serie Stable Diffusion che svolgono un ruolo cruciale. Ispirati dalla potatura del modello che alleggerisce i grandi modelli pre-addestrati rimuovendo i parametri non importanti, proponiamo un nuovo metodo di raffinamento del modello per sfruttare appieno questi parametri inefficaci ed abilitare il modello pre-addestrato con nuove capacità specifiche per il compito. In questo lavoro, indaghiamo innanzitutto l'importanza dei parametri nei modelli di diffusione pre-addestrati e scopriamo che il 10% al 20% più piccolo dei parametri per valore assoluto non contribuisce al processo di generazione. Sulla base di questa osservazione, proponiamo un metodo chiamato SaRA che riutilizza questi parametri temporaneamente inefficaci, ottimizzando una matrice di pesi sparsi per apprendere la conoscenza specifica del compito. Per mitigare l'overfitting, proponiamo uno schema di addestramento sparsamente a basso rango basato sulla norma nucleare per un raffinamento efficiente. Inoltre, progettiamo una nuova strategia di aggiustamento progressivo dei parametri per sfruttare appieno i parametri riaaddestrati/raffinati. Infine, proponiamo una nuova strategia di backpropagation non strutturata, che riduce significativamente i costi di memoria durante il raffinamento. Il nostro metodo potenzia le capacità generative dei modelli pre-addestrati nelle applicazioni derivate e supera i tradizionali metodi di raffinamento come LoRA nel mantenere la capacità di generalizzazione del modello. Convalidiamo il nostro approccio attraverso esperimenti di raffinamento sui modelli SD, dimostrando significativi miglioramenti. SaRA offre anche un vantaggio pratico che richiede solo una singola modifica di codice per un'implementazione efficiente ed è perfettamente compatibile con i metodi esistenti.
I Neural Radiance Fields (NeRF) hanno rivoluzionato la ricostruzione di scene e oggetti statici in 3D, offrendo una qualità senza precedenti. Tuttavia, estendere i NeRF per modellare oggetti dinamici o articolazioni degli oggetti rimane un problema impegnativo. Lavori precedenti hanno affrontato questa questione concentrandosi sulla ricostruzione a livello di parti e sull'individuazione del movimento degli oggetti, ma spesso si basano su euristiche riguardanti il numero di parti in movimento o le categorie degli oggetti, il che può limitarne l'uso pratico. In questo lavoro, presentiamo LEIA, un nuovo approccio per rappresentare oggetti dinamici in 3D. Il nostro metodo prevede di osservare l'oggetto in distinti passaggi temporali o "stati" e condizionare un iper-rete sullo stato attuale, utilizzandolo per parametrizzare il nostro NeRF. Questo approccio ci consente di apprendere una rappresentazione latente invariante alla vista per ciascuno stato. Dimostriamo inoltre che interpolando tra questi stati, possiamo generare nuove configurazioni di articolazioni nello spazio 3D che non erano state viste in precedenza. I nostri risultati sperimentali evidenziano l'efficacia del nostro metodo nell'articolare oggetti in modo indipendente dall'angolo di visione e dalla configurazione delle articolazioni. In particolare, il nostro approccio supera i metodi precedenti che si basano sulle informazioni di movimento per la registrazione delle articolazioni.