Articoli di ricerca IA selezionati quotidianamente con traduzioni
La descrizione automatica della musica, che genera descrizioni in linguaggio naturale per brani musicali specifici, ha un potenziale significativo per migliorare la comprensione e l'organizzazione di grandi volumi di dati musicali. Nonostante la sua importanza, i ricercatori affrontano sfide dovute al processo costoso e dispendioso in termini di tempo di raccolta dei dataset esistenti musica-linguaggio, che sono limitati in dimensioni. Per affrontare questa carenza di dati, proponiamo l'uso di modelli linguistici di grandi dimensioni (LLM) per generare artificialmente frasi descrittive a partire da dataset di tag su larga scala. Ciò si traduce in circa 2,2 milioni di descrizioni abbinate a 0,5 milioni di clip audio. Lo definiamo Large Language Model based Pseudo music caption dataset, abbreviato in LP-MusicCaps. Abbiamo condotto una valutazione sistematica del dataset su larga scala per la descrizione musicale utilizzando varie metriche di valutazione quantitative impiegate nel campo dell'elaborazione del linguaggio naturale, nonché una valutazione umana. Inoltre, abbiamo addestrato un modello di descrizione musicale basato su transformer con il dataset e lo abbiamo valutato in contesti di zero-shot e transfer learning. I risultati dimostrano che il nostro approccio proposto supera il modello baseline supervisionato.
Studiamo come i modelli visione-linguaggio addestrati su dati di scala Internet possano essere integrati direttamente nel controllo robotico end-to-end per potenziare la generalizzazione e abilitare il ragionamento semantico emergente. Il nostro obiettivo è consentire a un singolo modello addestrato end-to-end sia di apprendere a mappare le osservazioni del robot in azioni, sia di beneficiare del pre-addestramento su larga scala su dati linguistici e visione-linguaggio provenienti dal web. A tal fine, proponiamo di co-fine-tuneare modelli visione-linguaggio all'avanguardia sia su dati di traiettorie robotiche che su task visione-linguaggio di scala Internet, come il visual question answering. A differenza di altri approcci, proponiamo una ricetta semplice e generale per raggiungere questo obiettivo: per adattare sia le risposte in linguaggio naturale che le azioni robotiche allo stesso formato, esprimiamo le azioni come token di testo e le incorporiamo direttamente nel set di addestramento del modello nello stesso modo dei token di linguaggio naturale. Definiamo questa categoria di modelli come modelli visione-linguaggio-azione (VLA) e istanziamo un esempio di tale modello, che chiamiamo RT-2. La nostra valutazione estensiva (6k prove di valutazione) dimostra che il nostro approccio porta a politiche robotiche performanti e consente a RT-2 di ottenere una gamma di capacità emergenti dall'addestramento su scala Internet. Ciò include un miglioramento significativo nella generalizzazione a nuovi oggetti, la capacità di interpretare comandi non presenti nei dati di addestramento del robot (come posizionare un oggetto su un numero o un'icona specifica), e la capacità di eseguire un ragionamento rudimentale in risposta ai comandi dell'utente (come raccogliere l'oggetto più piccolo o più grande, o quello più vicino a un altro oggetto). Mostriamo inoltre che l'incorporazione del ragionamento a catena di pensiero consente a RT-2 di eseguire un ragionamento semantico multi-stadio, ad esempio capire quale oggetto raccogliere per usarlo come martello improvvisato (una roccia), o quale tipo di bevanda è più adatta per qualcuno che è stanco (una bevanda energetica).
Investighiamo varie strategie di prompting per migliorare le prestazioni di raccomandazione di contenuti personalizzati con modelli linguistici di grandi dimensioni (LLM) attraverso l'aumento degli input. Il nostro approccio proposto, denominato LLM-Rec, comprende quattro distinte strategie di prompting: (1) prompting di base, (2) prompting guidato dalla raccomandazione, (3) prompting guidato dall'engagement e (4) prompting guidato dalla raccomandazione + prompting guidato dall'engagement. I nostri esperimenti empirici dimostrano che combinare la descrizione originale del contenuto con il testo di input aumentato generato dall'LLM utilizzando queste strategie di prompting porta a un miglioramento delle prestazioni di raccomandazione. Questo risultato evidenzia l'importanza di incorporare prompt diversificati e tecniche di aumento degli input per potenziare le capacità di raccomandazione con modelli linguistici di grandi dimensioni per la raccomandazione di contenuti personalizzati.
Investighiamo la struttura interna dei calcoli dei modelli linguistici utilizzando analisi causale e dimostriamo due motivi ricorrenti: (1) una forma di calcolo adattivo in cui l'ablazione di uno strato di attenzione di un modello linguistico induce un altro strato a compensare (che denominiamo effetto Hydra) e (2) una funzione di bilanciamento degli strati MLP finali che agiscono per ridurre la regolazione del token a massima verosimiglianza. I nostri studi di ablazione dimostrano che gli strati dei modelli linguistici sono tipicamente accoppiati in modo relativamente lasco (le ablazioni di uno strato influenzano solo un piccolo numero di strati a valle). Sorprendentemente, questi effetti si verificano anche in modelli linguistici addestrati senza alcuna forma di dropout. Analizziamo questi effetti nel contesto del richiamo di fatti e consideriamo le loro implicazioni per l'attribuzione a livello di circuito nei modelli linguistici.
La generazione di didascalie per immagini è convenzionalmente formulata come il compito di produrre descrizioni per immagini che corrispondano alla distribuzione delle coppie immagine-didascalia di riferimento. Tuttavia, le didascalie di riferimento nei dataset standard sono brevi e potrebbero non identificare in modo univoco le immagini che descrivono. Questi problemi sono ulteriormente esacerbati quando i modelli vengono addestrati direttamente su coppie immagine-testo alternativo raccolte da internet. In questo lavoro, dimostriamo che è possibile generare didascalie più specifiche con modifiche minime al processo di addestramento. Implementiamo la guida senza classificatore per un modello di generazione di didascalie autoregressivo, ottimizzandolo per stimare sia le distribuzioni condizionali che quelle incondizionali sulle didascalie. La scala di guida applicata durante la decodifica controlla un compromesso tra la massimizzazione di p(didascalia|immagine) e p(immagine|didascalia). Rispetto alla decodifica greedy standard, la decodifica con una scala di guida di 2 migliora sostanzialmente le metriche senza riferimento come CLIPScore (0,808 vs. 0,775) e le prestazioni di recupero immagine-da-didascalia nello spazio di embedding CLIP (recall@1 44,6% vs. 26,5%), ma peggiora le metriche standard di generazione di didascalie basate su riferimento (ad esempio, CIDEr 78,6 vs 126,1). Esploriamo ulteriormente l'uso di modelli linguistici per guidare il processo di decodifica, ottenendo piccoli miglioramenti rispetto alla frontiera di Pareto delle metriche senza riferimento vs. basate su riferimento che emerge dalla guida senza classificatore, e migliorando sostanzialmente la qualità delle didascalie generate da un modello addestrato solo su dati web minimamente curati.
Recentemente, l'integrazione di modelli di base per i video e di modelli linguistici di grandi dimensioni ha permesso di costruire un sistema di comprensione video che supera i limiti dei compiti visivi predefiniti. Tuttavia, i sistemi esistenti possono gestire solo video con un numero molto ridotto di fotogrammi. Per i video lunghi, la complessità computazionale, il costo della memoria e la connessione temporale a lungo termine rimangono sfide aperte. Ispirati dal modello di memoria di Atkinson-Shiffrin, abbiamo sviluppato un meccanismo di memoria che include una memoria a breve termine aggiornata rapidamente e una memoria a lungo termine compatta e quindi sostenuta. Utilizziamo i token nei Transformer come vettori della memoria. MovieChat raggiunge prestazioni all'avanguardia nella comprensione di video lunghi.
I Large Language Model (LLM) hanno reso l'ambiziosa ricerca di agenti generalisti significativamente lontana dall'essere una fantasia. Un ostacolo chiave per la costruzione di tali modelli generali è la diversità e l'eterogeneità dei compiti e delle modalità. Una soluzione promettente è l'unificazione, che consente di supportare una miriade di compiti e modalità all'interno di un unico framework. Sebbene pochi modelli di grandi dimensioni (ad esempio, Flamingo (Alayrac et al., 2022), addestrati su enormi dataset, possano supportare più di due modalità, gli attuali modelli unificati di piccole e medie dimensioni sono ancora limitati a 2 modalità, solitamente immagine-testo o video-testo. La domanda che ci poniamo è: è possibile costruire in modo efficiente un modello unificato che possa supportare tutte le modalità? Per rispondere a questo, proponiamo UnIVAL, un passo avanti verso questo obiettivo ambizioso. Senza fare affidamento su dimensioni di dataset stravaganti o modelli con miliardi di parametri, il modello UnIVAL da ~0,25 miliardi di parametri va oltre due modalità e unisce testo, immagini, video e audio in un unico modello. Il nostro modello è pre-addestrato in modo efficiente su molti compiti, basandosi sul bilanciamento dei compiti e sull'apprendimento curriculare multimodale. UnIVAL mostra prestazioni competitive rispetto agli approcci all'avanguardia esistenti, nei compiti di immagine e video-testo. Le rappresentazioni delle caratteristiche apprese dalle modalità immagine e video-testo consentono al modello di ottenere prestazioni competitive quando viene messo a punto su compiti audio-testo, nonostante non sia stato pre-addestrato sull'audio. Grazie al modello unificato, proponiamo uno studio innovativo sulla fusione di modelli multimodali tramite interpolazione di pesi di modelli addestrati su diversi compiti multimodali, mostrando i loro benefici in particolare per la generalizzazione fuori distribuzione. Infine, motiviamo l'unificazione mostrando la sinergia tra i compiti. I pesi del modello e il codice sono rilasciati qui: https://github.com/mshukor/UnIVAL.
Possiamo anticipare meglio le azioni future di un attore (ad esempio, mescolare le uova) conoscendo ciò che comunemente accade dopo la sua azione corrente (ad esempio, rompere le uova)? E se conoscessimo anche l'obiettivo a lungo termine dell'attore (ad esempio, preparare del riso saltato con uova)? Il compito di anticipazione delle azioni a lungo termine (LTA) mira a prevedere il comportamento futuro di un attore a partire da osservazioni video sotto forma di sequenze di verbi e sostantivi, ed è cruciale per l'interazione uomo-macchina. Proponiamo di formulare il compito LTA da due prospettive: un approccio bottom-up che prevede le azioni successive in modo autoregressivo modellando le dinamiche temporali; e un approccio top-down che inferisce l'obiettivo dell'attore e pianifica la procedura necessaria per raggiungerlo. Ipotesizziamo che i grandi modelli linguistici (LLM), che sono stati pre-addestrati su dati testuali procedurali (ad esempio, ricette, guide), abbiano il potenziale di aiutare il LTA da entrambe le prospettive. Possono infatti fornire la conoscenza a priori sulle possibili azioni successive e inferire l'obiettivo data la parte osservata di una procedura, rispettivamente. Per sfruttare i LLM, proponiamo un framework in due fasi, AntGPT. Prima riconosce le azioni già eseguite nei video osservati e poi chiede a un LLM di prevedere le azioni future tramite generazione condizionata, o di inferire l'obiettivo e pianificare l'intera procedura tramite prompt a catena di pensiero. I risultati empirici sui benchmark Ego4D LTA v1 e v2, EPIC-Kitchens-55, così come EGTEA GAZE+ dimostrano l'efficacia del nostro approccio proposto. AntGPT raggiunge prestazioni all'avanguardia su tutti i benchmark sopra citati e può inferire con successo l'obiettivo, eseguendo così previsioni "controfattuali" condizionate all'obiettivo tramite analisi qualitative. Codice e modello saranno rilasciati su https://brown-palm.github.io/AntGPT.
Il Video Temporal Grounding (VTG), che mira a individuare clip target dai video (come intervalli consecutivi o sequenze disgiunte) in base a query linguistiche personalizzate (ad esempio, frasi o parole), è fondamentale per la navigazione dei video sui social media. La maggior parte dei metodi in questo ambito sviluppa modelli specifici per il compito, addestrati con etichette di tipo specifico, come il recupero di momenti (intervallo temporale) e il rilevamento di momenti salienti (curva di rilevanza), il che limita la loro capacità di generalizzare a vari compiti ed etichette VTG. In questo articolo, proponiamo di unificare le diverse etichette e compiti VTG, denominato UniVTG, lungo tre direzioni: in primo luogo, esaminiamo un'ampia gamma di etichette e compiti VTG e definiamo una formulazione unificata. Sulla base di ciò, sviluppiamo schemi di annotazione dei dati per creare una supervisione pseudo scalabile. In secondo luogo, sviluppiamo un modello di grounding efficace e flessibile in grado di affrontare ogni compito e di sfruttare appieno ogni etichetta. Infine, grazie al framework unificato, siamo in grado di sbloccare il pretraining del temporal grounding da etichette diversificate su larga scala e sviluppare capacità di grounding più forti, ad esempio il grounding zero-shot. Esperimenti estesi su tre compiti (recupero di momenti, rilevamento di momenti salienti e riassunto video) su sette dataset (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum e QFVS) dimostrano l'efficacia e la flessibilità del nostro framework proposto. I codici sono disponibili all'indirizzo https://github.com/showlab/UniVTG.
Basati su potenti Modelli Linguistici di Grande Scala (LLM), i recenti Modelli Linguistici Multimodali Generativi (MLLM) hanno acquisito rilevanza come area di ricerca fondamentale, dimostrando una notevole capacità sia di comprensione che di generazione. In questo lavoro, affrontiamo la valutazione della comprensione generativa negli MLLM come passo preliminare verso una valutazione completa dei modelli generativi, introducendo un benchmark denominato SEED-Bench. SEED-Bench è composto da 19K domande a scelta multipla con annotazioni umane accurate (6 volte più grande rispetto ai benchmark esistenti), che coprono 12 dimensioni di valutazione, inclusa la comprensione delle modalità immagine e video. Sviluppiamo una pipeline avanzata per la generazione di domande a scelta multipla che mirano a specifiche dimensioni di valutazione, integrando sia processi di filtraggio automatico che di verifica manuale. Le domande a scelta multipla con opzioni di verità derivanti da annotazioni umane consentono una valutazione oggettiva ed efficiente delle prestazioni del modello, eliminando la necessità di intervento umano o di GPT durante la valutazione. Valutiamo ulteriormente le prestazioni di 18 modelli in tutte le 12 dimensioni, coprendo sia la comprensione spaziale che temporale. Rivelando i limiti degli MLLM esistenti attraverso i risultati della valutazione, miriamo a fornire con SEED-Bench spunti per motivare la ricerca futura. Lanceremo e manterremo costantemente una classifica per fornire una piattaforma alla comunità per valutare e investigare le capacità dei modelli.
Presentiamo l'Iniezione Virtuale di Prompt (Virtual Prompt Injection, VPI) per i Modelli Linguistici di Grande Dimensione (Large Language Models, LLMs) ottimizzati per seguire istruzioni. La VPI consente a un prompt virtuale specificato da un attaccante di orientare il comportamento del modello in scenari di trigger specifici senza alcuna iniezione esplicita nell'input del modello. Ad esempio, se un LLM viene compromesso con il prompt virtuale "Descrivi Joe Biden in modo negativo" per istruzioni relative a Joe Biden, qualsiasi servizio che utilizza questo modello propagherà visioni distorte quando gestisce query degli utenti relative a Joe Biden. La VPI è particolarmente dannosa per due ragioni principali. In primo luogo, l'attaccante può ottenere un controllo granulare sui comportamenti degli LLM definendo vari prompt virtuali, sfruttando la capacità degli LLM di seguire le istruzioni. In secondo luogo, questo controllo viene raggiunto senza alcuna interazione da parte dell'attaccante mentre il modello è in servizio, portando a un attacco persistente. Per dimostrare la minaccia, proponiamo un metodo semplice per eseguire la VPI avvelenando i dati di ottimizzazione delle istruzioni del modello. Troviamo che il nostro metodo proposto è altamente efficace nell'orientare l'LLM con la VPI. Ad esempio, iniettando solo 52 esempi avvelenati (lo 0,1% della dimensione dei dati di addestramento) nei dati di ottimizzazione delle istruzioni, la percentuale di risposte negative fornite dal modello addestrato su query relative a Joe Biden passa dallo 0% al 40%. Sottolineiamo quindi la necessità di garantire l'integrità dei dati di ottimizzazione delle istruzioni, poiché una piccola quantità di dati avvelenati può causare danni subdoli e persistenti al modello distribuito. Esploriamo ulteriormente le possibili difese e identifichiamo il filtraggio dei dati come un modo efficace per difendersi dagli attacchi di avvelenamento. La nostra pagina del progetto è disponibile all'indirizzo https://poison-llm.github.io.
I robot autonomi dispiegati nel mondo reale avranno bisogno di politiche di controllo che si adattino rapidamente ai cambiamenti ambientali. A tal fine, proponiamo AutoRobotics-Zero (ARZ), un metodo basato su AutoML-Zero che scopre politiche adattabili zero-shot da zero. A differenza delle politiche di adattamento delle reti neurali, in cui vengono ottimizzati solo i parametri del modello, ARZ può costruire algoritmi di controllo con tutta la potenza espressiva di una macchina a registri lineari. Evolviamo politiche modulari che regolano i parametri del modello e modificano il loro algoritmo di inferenza al volo per adattarsi a improvvisi cambiamenti ambientali. Dimostriamo il nostro metodo su un robot quadrupede simulato realistico, per il quale evolviamo politiche di controllo sicure che evitano la caduta quando singoli arti si rompono improvvisamente. Si tratta di un compito impegnativo in cui due popolari baseline di reti neurali falliscono. Infine, conduciamo un'analisi dettagliata del nostro metodo su un nuovo e impegnativo compito di controllo non stazionario denominato Cataclysmic Cartpole. I risultati confermano le nostre scoperte che ARZ è significativamente più robusto ai cambiamenti ambientali improvvisi e può costruire politiche di controllo semplici e interpretabili.