Articoli di ricerca IA selezionati quotidianamente con traduzioni
Lo sviluppo di modelli linguistici di grandi dimensioni ha suscitato un diffuso interesse tra i ricercatori per comprenderne le capacità intrinseche di ragionamento e problem solving. Nonostante una buona quantità di ricerca sia in corso per chiarire queste capacità, esiste ancora un divario significativo nella comprensione dello sviluppo morale e dei giudizi di questi modelli. Gli approcci attuali per valutare le capacità di ragionamento etico di questi modelli come un compito di classificazione presentano numerose imprecisioni a causa di una eccessiva semplificazione. In questo studio, abbiamo costruito una connessione psicologica unendo due campi disparati: la psicologia umana e l'intelligenza artificiale. Abbiamo proposto un quadro di valutazione efficace che può aiutare a delineare la capacità di ragionamento etico del modello in termini di coerenza morale e delle fasi dello sviluppo morale di Kohlberg con l'aiuto dello strumento di valutazione psicometrica Defining Issues Test.
Sebbene i recenti metodi di generazione testo-video (T2V) abbiano registrato progressi significativi, la maggior parte di questi lavori si concentra sulla produzione di brevi clip video di un singolo evento con un singolo sfondo (cioè video a scena singola). Nel frattempo, i recenti modelli linguistici di grandi dimensioni (LLM) hanno dimostrato la loro capacità di generare layout e programmi per controllare moduli visivi downstream come i modelli di generazione di immagini. Ciò solleva una domanda importante: possiamo sfruttare la conoscenza incorporata in questi LLM per la generazione di video lunghi temporalmente coerenti? In questo articolo, proponiamo VideoDirectorGPT, un nuovo framework per la generazione coerente di video multi-scena che utilizza la conoscenza degli LLM per la pianificazione del contenuto video e la generazione di video contestualizzati. Nello specifico, dato un singolo prompt di testo, chiediamo prima al nostro LLM pianificatore video (GPT-4) di espanderlo in un "piano video", che prevede la generazione delle descrizioni delle scene, delle entità con i rispettivi layout, dello sfondo per ogni scena e dei raggruppamenti di coerenza delle entità e degli sfondi. Successivamente, guidato da questo output del pianificatore video, il nostro generatore video, Layout2Vid, ha un controllo esplicito sui layout spaziali e può mantenere la coerenza temporale delle entità/sfondi tra le scene, pur essendo addestrato solo con annotazioni a livello di immagine. I nostri esperimenti dimostrano che il framework VideoDirectorGPT migliora sostanzialmente il controllo del layout e del movimento sia nella generazione di video a scena singola che multi-scena e può generare video multi-scena con coerenza visiva tra le scene, raggiungendo prestazioni competitive con gli SOTA nella generazione T2V a scena singola in dominio aperto. Dimostriamo inoltre che il nostro framework può controllare dinamicamente l'intensità della guida del layout e può anche generare video con immagini fornite dall'utente. Speriamo che il nostro framework possa ispirare futuri lavori per una migliore integrazione della capacità di pianificazione degli LLM nella generazione coerente di video lunghi.
I Large Multimodal Models (LMM) sono costruiti su più modalità e il disallineamento tra due modalità può portare a "allucinazioni", generando output testuali che non sono supportati dalle informazioni multimodali nel contesto. Per affrontare il problema del disallineamento multimodale, adattiamo il Reinforcement Learning from Human Feedback (RLHF) dal dominio testuale al compito di allineamento visione-linguaggio, dove agli annotatori umani viene chiesto di confrontare due risposte e identificare quella più allucinata, e il modello visione-linguaggio viene addestrato per massimizzare le ricompense umane simulate. Proponiamo un nuovo algoritmo di allineamento chiamato Factually Augmented RLHF che arricchisce il modello di ricompensa con informazioni fattuali aggiuntive come didascalie delle immagini e opzioni a scelta multipla di riferimento, il che allevia il fenomeno del reward hacking in RLHF e migliora ulteriormente le prestazioni. Miglioriamo inoltre i dati di addestramento generati da GPT-4 (per il tuning delle istruzioni visive) con coppie immagine-testo scritte da esseri umani precedentemente disponibili, per migliorare le capacità generali del nostro modello. Per valutare l'approccio proposto in scenari reali, sviluppiamo un nuovo benchmark di valutazione, MMHAL-BENCH, con un focus particolare sulla penalizzazione delle allucinazioni. Come primo LMM addestrato con RLHF, il nostro approccio ottiene un miglioramento significativo sul dataset LLaVA-Bench, raggiungendo il 94% delle prestazioni del GPT-4 solo testuale (mentre i metodi precedenti migliori raggiungevano solo l'87%), e un miglioramento del 60% su MMHAL-BENCH rispetto ad altre baseline. Rendiamo disponibili il nostro codice, modello e dati all'indirizzo https://llava-rlhf.github.io.
La maggior parte dei modelli multi-modali esistenti, ostacolati dalla loro incapacità di gestire con destrezza input intercalati di immagini e testo in dialoghi multi-immagine e multi-turno, affrontano notevoli limitazioni nell'allocazione delle risorse per l'addestramento e nell'accessibilità dei dati, influenzando la loro adattabilità e scalabilità in vari ambiti di interazione. Per affrontare questo problema, presentiamo il framework DeepSpeed-VisualChat, progettato per ottimizzare i Large Language Models (LLMs) incorporando capacità multi-modali, con un focus sul miglioramento della competenza dei Large Vision and Language Models nella gestione di input intercalati. Il nostro framework si distingue per (1) il supporto open-source per dialoghi multi-turno e multi-immagine, (2) l'introduzione di un innovativo meccanismo di attenzione causale multi-modale, e (3) l'utilizzo di tecniche di miscelazione dei dati su dataset esistenti per garantire interazioni fluide in conversazioni multi-turno e multi-immagine. Rispetto ai framework esistenti, DeepSpeed-VisualChat dimostra una scalabilità superiore fino a dimensioni di modelli linguistici con 70 miliardi di parametri, rappresentando un significativo progresso nei modelli linguistici multi-modali e gettando una solida base per future esplorazioni.
I team che hanno addestrato modelli di grandi dimensioni basati su Transformer hanno riportato instabilità durante l'addestramento su larga scala, che non si manifestavano quando si utilizzavano gli stessi iperparametri su scale più ridotte. Sebbene le cause di tali instabilità siano di interesse scientifico, la quantità di risorse necessarie per riprodurle ha reso difficile l'indagine. In questo lavoro, cerchiamo modi per riprodurre e studiare la stabilità e l'instabilità dell'addestramento su scale più piccole. In primo luogo, ci concentriamo su due fonti di instabilità durante l'addestramento descritte in lavori precedenti: la crescita dei logit negli strati di attenzione (Dehghani et al., 2023) e la divergenza dei logit di output dalle probabilità logaritmiche (Chowdhery et al., 2022). Misurando la relazione tra tasso di apprendimento e perdita su diverse scale, dimostriamo che queste instabilità compaiono anche in modelli piccoli quando si addestra con tassi di apprendimento elevati, e che le mitigazioni precedentemente impiegate su larga scala sono ugualmente efficaci in questo regime. Ciò ci spinge a indagare fino a che punto altri interventi noti sull'ottimizzatore e sul modello influenzano la sensibilità della perdita finale alle variazioni del tasso di apprendimento. A tal fine, studiamo metodi come il warm-up, il decadimento dei pesi e il muParam (Yang et al., 2022), e combiniamo tecniche per addestrare modelli piccoli che raggiungono perdite simili su ordini di grandezza di variazione del tasso di apprendimento. Infine, per concludere la nostra esplorazione, studiamo due casi in cui le instabilità possono essere previste prima che si manifestino, esaminando il comportamento di scalabilità delle norme delle attivazioni e dei gradienti del modello.
I modelli linguistici di grandi dimensioni (LLM) possono migliorare la loro accuratezza su vari compiti attraverso il raffinamento e la revisione iterativa del loro output basata su feedback. Osserviamo che queste revisioni possono introdurre errori, nel qual caso è preferibile tornare a un risultato precedente. Inoltre, le revisioni sono tipicamente omogenee: utilizzano lo stesso metodo di ragionamento che ha prodotto la risposta iniziale, il quale potrebbe non correggere gli errori. Per favorire l'esplorazione in questo ambito, presentiamo SCREWS, un framework modulare per il ragionamento con revisioni. Esso è composto da tre moduli principali: Campionamento, Ricampionamento Condizionale e Selezione, ciascuno costituito da sotto-moduli che possono essere selezionati manualmente in base al compito. Dimostriamo che SCREWS non solo unifica diversi approcci precedenti sotto un framework comune, ma rivela anche diverse nuove strategie per identificare catene di ragionamento migliorate. Valutiamo il nostro framework con LLM all'avanguardia (ChatGPT e GPT-4) su un insieme diversificato di compiti di ragionamento e scopriamo utili nuove strategie di ragionamento per ciascuno: problemi di aritmetica verbale, risposte a domande multi-hop e debug del codice. Le strategie di revisione eterogenee si rivelano importanti, così come la selezione tra candidati originali e revisionati.
I recenti progressi nei grandi modelli linguistici (LLM) nel campo della modellazione del linguaggio e delle capacità emergenti li rendono un promettente valutatore senza riferimento della qualità della generazione del linguaggio naturale, e una valida alternativa alla valutazione umana. Tuttavia, ostacolati dalla natura closed-source o dall'elevata richiesta computazionale necessaria per ospitarli e adattarli, manca una pratica consolidata per calibrare ulteriormente un valutatore basato su LLM preconfigurato verso un migliore allineamento con le preferenze umane. In questo lavoro, proponiamo AutoCalibrate, un approccio multi-stadio e senza gradienti per calibrare e allineare automaticamente un valutatore basato su LLM alle preferenze umane. Invece di modellare esplicitamente le preferenze umane, le includiamo implicitamente all'interno di un insieme di etichette umane. Successivamente, un insieme iniziale di criteri di valutazione viene redatto dal modello linguistico stesso, sfruttando l'apprendimento in-context su diversi esempi few-shot. Per calibrare ulteriormente questo insieme di criteri, selezioniamo i migliori performer e li rielaboriamo attraverso un processo di auto-affinamento. I nostri esperimenti su più dataset di valutazione della qualità del testo mostrano un significativo miglioramento nella correlazione con la valutazione esperta grazie alla calibrazione. La nostra analisi qualitativa completa fornisce intuizioni e osservazioni approfondite sull'essenza dei criteri di valutazione efficaci.
La segmentazione di video lunghi in capitoli consente agli utenti di navigare rapidamente verso le informazioni di loro interesse. Questo importante argomento è stato poco studiato a causa della mancanza di dataset pubblicamente disponibili. Per affrontare questo problema, presentiamo VidChapters-7M, un dataset di 817K video con capitoli annotati dagli utenti, comprendente un totale di 7M capitoli. VidChapters-7M è stato creato automaticamente da video online in modo scalabile, estraendo i capitoli annotati dagli utenti e quindi senza alcuna annotazione manuale aggiuntiva. Introduciamo i seguenti tre task basati su questi dati. Innanzitutto, il task di generazione di capitoli video consiste nella segmentazione temporale del video e nella generazione di un titolo per ciascun segmento. Per analizzare ulteriormente il problema, definiamo anche due varianti di questo task: la generazione di capitoli video dati i limiti temporali di riferimento, che richiede la generazione di un titolo dato un segmento video annotato, e il grounding di capitoli video, che richiede la localizzazione temporale di un capitolo dato il suo titolo annotato. Confrontiamo sia baseline semplici che modelli video-linguistici all'avanguardia per questi tre task. Mostriamo inoltre che il pretraining su VidChapters-7M si trasferisce bene ai task di captioning video denso sia in impostazioni zero-shot che di fine-tuning, migliorando significativamente lo stato dell'arte sui benchmark YouCook2 e ViTT. Infine, i nostri esperimenti rivelano che le prestazioni a valle scalano bene con la dimensione del dataset di pretraining. Il nostro dataset, codice e modelli sono pubblicamente disponibili all'indirizzo https://antoyang.github.io/vidchapters.html.