Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo la serie ShareGPT4Video, con l'obiettivo di facilitare la comprensione video dei grandi modelli video-linguistici (LVLM) e la generazione video dei modelli testo-video (T2VM) attraverso descrizioni dense e precise. La serie comprende: 1) ShareGPT4Video, 40K annotazioni dense di video di varie lunghezze e fonti realizzate con GPT4V, sviluppate attraverso una strategia di filtraggio e annotazione dei dati attentamente progettata. 2) ShareCaptioner-Video, un modello di descrizione efficiente e capace per video arbitrari, con 4.8M video di alta qualità estetica annotati da esso. 3) ShareGPT4Video-8B, un LVLM semplice ma eccellente che ha raggiunto prestazioni SOTA su tre benchmark video avanzati. Per raggiungere questo obiettivo, escludendo gli annotatori umani costosi e non scalabili, abbiamo scoperto che l'uso di GPT4V per descrivere video con una strategia di input multi-frame o concatenazione di frame ingenua porta a risultati meno dettagliati e talvolta temporalmente confusi. Sosteniamo che la sfida di progettare una strategia di descrizione video di alta qualità risieda in tre aspetti: 1) Comprensione precisa dei cambiamenti temporali inter-frame. 2) Descrizione dettagliata del contenuto intra-frame. 3) Scalabilità del numero di frame per video di lunghezza arbitraria. A tal fine, abbiamo progettato meticolosamente una strategia di descrizione video differenziale, che è stabile, scalabile ed efficiente per generare descrizioni per video con risoluzione, proporzioni e lunghezza arbitrarie. Sulla base di essa, costruiamo ShareGPT4Video, che contiene 40K video di alta qualità che coprono un'ampia gamma di categorie, e le descrizioni risultanti comprendono una ricca conoscenza del mondo, attributi degli oggetti, movimenti della fotocamera e, crucialmente, descrizioni temporali dettagliate e precise degli eventi. Basandoci su ShareGPT4Video, sviluppiamo ulteriormente ShareCaptioner-Video, un descrittore superiore in grado di generare in modo efficiente descrizioni di alta qualità per video arbitrari...
I modelli di generazione di immagini basati su diffusione hanno ottenuto un grande successo negli ultimi anni, dimostrando la capacità di sintetizzare contenuti di alta qualità. Tuttavia, questi modelli contengono un numero enorme di parametri, risultando in dimensioni del modello significativamente grandi. Salvarli e trasferirli rappresenta un collo di bottiglia per varie applicazioni, specialmente quelle eseguite su dispositivi con risorse limitate. In questo lavoro, sviluppiamo un nuovo metodo di quantizzazione dei pesi che quantizza la UNet di Stable Diffusion v1.5 a 1,99 bit, ottenendo un modello con dimensioni 7,9 volte più piccole e una qualità di generazione persino migliore rispetto a quella originale. Il nostro approccio include diverse tecniche innovative, come l'assegnazione di bit ottimali a ciascun livello, l'inizializzazione del modello quantizzato per migliorare le prestazioni e il perfezionamento della strategia di addestramento per ridurre drasticamente l'errore di quantizzazione. Inoltre, valutiamo ampiamente il nostro modello quantizzato su vari dataset di benchmark e attraverso valutazioni umane per dimostrare la sua qualità di generazione superiore.
Recentemente, l'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) ha esteso il suo successo dall'allineamento di grandi modelli linguistici (LLM) all'allineamento di modelli di diffusione testo-immagine con le preferenze umane. A differenza della maggior parte dei metodi DPO esistenti, che presuppongono che tutti i passi di diffusione condividano un ordine di preferenza coerente con le immagini generate finali, sosteniamo che questa ipotesi trascura le prestazioni specifiche di ogni passo nel processo di denoising e che le etichette di preferenza dovrebbero essere adattate al contributo di ciascun passo. Per affrontare questa limitazione, proponiamo l'ottimizzazione delle preferenze consapevole del passo (Step-aware Preference Optimization, SPO), un nuovo approccio post-addestramento che valuta e regola in modo indipendente le prestazioni di denoising a ogni passo, utilizzando un modello di preferenza consapevole del passo e un ricampionatore passo-passo per garantire una supervisione accurata e specifica per ogni passo. In particolare, a ogni passo di denoising, campioniamo un insieme di immagini, troviamo una coppia vincente-perdente adatta e, soprattutto, selezioniamo casualmente una singola immagine dall'insieme per inizializzare il passo successivo di denoising. Questo processo di ricampionamento passo-passo assicura che la prossima coppia di immagini vincente-perdente provenga dalla stessa immagine, rendendo il confronto vincente-perdente indipendente dal passo precedente. Per valutare le preferenze a ogni passo, addestriamo un modello di preferenza consapevole del passo separato, che può essere applicato sia a immagini rumorose che a immagini pulite. I nostri esperimenti con Stable Diffusion v1.5 e SDXL dimostrano che SPO supera significativamente l'ultima versione di Diffusion-DPO nell'allineamento delle immagini generate con prompt complessi e dettagliati e nel miglioramento dell'estetica, raggiungendo inoltre un'efficienza di addestramento più di 20 volte superiore. Codice e modello: https://rockeycoss.github.io/spo.github.io/
Introduciamo Buffer of Thoughts (BoT), un approccio innovativo e versatile di ragionamento aumentato dai pensieri, progettato per migliorare l'accuratezza, l'efficienza e la robustezza dei modelli linguistici di grandi dimensioni (LLM). Nello specifico, proponiamo un meta-buffer per memorizzare una serie di pensieri di alto livello informativi, denominati thought-template, distillati dai processi di risoluzione dei problemi in vari compiti. Per ogni problema, recuperiamo un thought-template rilevante e lo istanziamo in modo adattivo con strutture di ragionamento specifiche per condurre un ragionamento efficiente. Per garantire scalabilità e stabilità, proponiamo ulteriormente un buffer-manager per aggiornare dinamicamente il meta-buffer, migliorando così la sua capacità man mano che vengono risolti più compiti. Abbiamo condotto esperimenti estesi su 10 compiti impegnativi e intensivi dal punto di vista del ragionamento, ottenendo miglioramenti significativi delle prestazioni rispetto ai metodi SOTA precedenti: 11% su Game of 24, 20% su Geometric Shapes e 51% su Checkmate-in-One. Ulteriori analisi dimostrano la superiore capacità di generalizzazione e la robustezza del modello del nostro BoT, richiedendo solo il 12% del costo dei metodi di prompting multi-query (ad esempio, albero/grafo di pensieri) in media. In particolare, abbiamo riscontrato che il nostro Llama3-8B+BoT ha il potenziale per superare il modello Llama3-70B. Il nostro progetto è disponibile all'indirizzo: https://github.com/YangLing0818/buffer-of-thought-llm.
I modelli di diffusione hanno dimostrato un grande successo nella generazione di testo-video (T2V). Tuttavia, i metodi esistenti possono incontrare difficoltà nella gestione di scenari complessi di generazione video (lunghi) che coinvolgono più oggetti o cambiamenti dinamici nel numero di oggetti. Per affrontare queste limitazioni, proponiamo VideoTetris, un nuovo framework che abilita la generazione composizionale T2V. Nello specifico, proponiamo una diffusione composizionale spazio-temporale per seguire con precisione la semantica testuale complessa manipolando e componendo le mappe di attenzione delle reti di denoising sia spazialmente che temporalmente. Inoltre, proponiamo un preprocessamento avanzato dei dati video per migliorare i dati di addestramento riguardo alla dinamica del movimento e alla comprensione del prompt, dotato di un nuovo meccanismo di attenzione ai frame di riferimento per migliorare la coerenza della generazione video auto-regressiva. Esperimenti estensivi dimostrano che il nostro VideoTetris raggiunge risultati qualitativi e quantitativi impressionanti nella generazione composizionale T2V. Il codice è disponibile all'indirizzo: https://github.com/YangLing0818/VideoTetris
I modelli di generazione video basati su diffusione hanno dimostrato un successo notevole nel produrre video ad alta fedeltà attraverso il processo iterativo di denoising. Tuttavia, questi modelli richiedono più passaggi di denoising durante il campionamento, risultando in costi computazionali elevati. In questo lavoro, proponiamo un approccio innovativo per ottenere modelli di generazione video a singolo passaggio, sfruttando l'addestramento adversarial per affinare modelli di diffusione video pre-addestrati. Dimostriamo che, attraverso l'addestramento adversarial, il modello di diffusione video a più passaggi, ovvero Stable Video Diffusion (SVD), può essere addestrato per eseguire un singolo passaggio in avanti e sintetizzare video di alta qualità, catturando sia le dipendenze temporali che spaziali nei dati video. Esperimenti estesi dimostrano che il nostro metodo raggiunge una qualità di generazione competitiva per i video sintetizzati, con un sovraccarico computazionale significativamente ridotto per il processo di denoising (ovvero, un'accelerazione di circa 23 volte rispetto a SVD e 6 volte rispetto ai lavori esistenti, con una qualità di generazione persino migliore), aprendo la strada alla sintesi e all'editing video in tempo reale. Ulteriori risultati di visualizzazione sono resi pubblicamente disponibili all'indirizzo https://snap-research.github.io/SF-V.
Costruire agenti generalisti in grado di gestire compiti diversificati ed evolversi attraverso diversi ambienti è un obiettivo a lungo termine nella comunità dell'IA. I grandi modelli linguistici (LLM) sono considerati una base promettente per costruire tali agenti grazie alle loro capacità generalizzate. Gli approcci attuali prevedono che gli agenti basati su LLM imitino passo-passo le traiettorie fornite da esperti, richiedendo una supervisione umana che è difficile da scalare e limita l'esplorazione ambientale; oppure lasciano che gli agenti esplorino e apprendano in ambienti isolati, ottenendo agenti specializzati con una generalizzazione limitata. In questo articolo, compiamo il primo passo verso la costruzione di agenti basati su LLM con capacità generali e abilità di auto-evoluzione. Identifichiamo una triade di ingredienti: 1) ambienti diversificati per l'esplorazione e l'apprendimento degli agenti, 2) un insieme di traiettorie per dotare gli agenti di capacità di base e conoscenze pregresse, e 3) un metodo di evoluzione efficace e scalabile. Proponiamo AgentGym, un nuovo framework che offre una varietà di ambienti e compiti per un'esplorazione ampia, in tempo reale, in formato unificato e concorrente degli agenti. AgentGym include anche un database con istruzioni ampliate, una suite di benchmark e traiettorie di alta qualità attraverso gli ambienti. Successivamente, proponiamo un metodo innovativo, AgentEvol, per investigare il potenziale di auto-evoluzione degli agenti oltre i dati precedentemente osservati, attraverso compiti e ambienti. I risultati sperimentali mostrano che gli agenti evoluti possono ottenere risultati comparabili ai modelli SOTA. Rilasciamo la suite AgentGym, inclusa la piattaforma, il dataset, il benchmark, i checkpoint e le implementazioni degli algoritmi. La suite AgentGym è disponibile su https://github.com/WooooDyy/AgentGym.
La generazione di immagini guidata da testo consente la creazione di contenuti visivi a partire da descrizioni testuali. Tuttavia, alcuni concetti visivi non possono essere efficacemente comunicati attraverso il linguaggio da soli. Ciò ha suscitato un rinnovato interesse nell'utilizzo dello spazio di embedding delle immagini CLIP per compiti più orientati al visivo, attraverso metodi come IP-Adapter. È interessante notare che lo spazio di embedding delle immagini CLIP si è dimostrato semanticamente significativo, dove operazioni lineari all'interno di questo spazio producono risultati semanticamente significativi. Tuttavia, il significato specifico di queste operazioni può variare in modo imprevedibile tra immagini diverse. Per sfruttare questo potenziale, introduciamo pOps, un framework che addestra operatori semantici specifici direttamente sugli embedding delle immagini CLIP. Ogni operatore pOps è costruito su un modello Diffusion Prior pre-addestrato. Sebbene il modello Diffusion Prior sia stato originariamente addestrato per mappare tra embedding di testo e embedding di immagini, dimostriamo che può essere adattato per accogliere nuove condizioni di input, risultando in un operatore di diffusione. Lavorare direttamente sugli embedding delle immagini non solo migliora la nostra capacità di apprendere operazioni semantiche, ma ci permette anche di utilizzare direttamente una perdita CLIP testuale come supervisione aggiuntiva quando necessario. Mostriamo che pOps può essere utilizzato per apprendere una varietà di operatori ispirati alla fotografia con significati semantici distinti, evidenziando la diversità semantica e il potenziale del nostro approccio proposto.
Negli ultimi anni si è verificato un enorme incremento delle capacità generali dei sistemi di intelligenza artificiale, alimentato principalmente dall'addestramento di modelli di base su dati di scala internet. Tuttavia, la creazione di un'IA in grado di auto-migliorarsi in modo aperto e continuativo rimane sfuggente. In questo position paper, sosteniamo che gli ingredienti necessari per raggiungere l'apertura nei sistemi di IA rispetto a un osservatore umano sono ora disponibili. Inoltre, affermiamo che tale apertura è una proprietà essenziale di qualsiasi intelligenza artificiale superumana (ASI). Iniziamo fornendo una definizione formale concreta di apertura attraverso la lente della novità e dell'apprendibilità. Successivamente, illustriamo un percorso verso l'ASI tramite sistemi aperti costruiti su modelli di base, capaci di fare scoperte nuove e rilevanti per gli esseri umani. Concludiamo esaminando le implicazioni per la sicurezza di un'IA aperta e generalmente capace. Ci aspettiamo che i modelli di base aperti si dimostreranno un'area di ricerca sempre più fertile e critica per la sicurezza nel prossimo futuro.