Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici preaddestrati sono alla base di diverse applicazioni di intelligenza artificiale, ma il loro elevato costo computazionale per l'addestramento ne limita l'accessibilità. Iniziative come BLOOM e StarCoder mirano a democratizzare l'accesso ai modelli preaddestrati per uno sviluppo comunitario collaborativo. Tuttavia, questi modelli esistenti affrontano diverse sfide: capacità multilingue limitate, preaddestramento continuo che causa il fenomeno della dimenticanza catastrofica, mentre il preaddestramento da zero è computazionalmente costoso, e la conformità con le leggi sulla sicurezza e lo sviluppo dell'IA. Questo articolo presenta Aurora-M, un modello open-source multilingue da 15 miliardi di parametri addestrato su inglese, finlandese, hindi, giapponese, vietnamita e codice. Preaddestrato in modo continuativo a partire da StarCoderPlus su 435 miliardi di token aggiuntivi, Aurora-M supera i 2 trilioni di token nel conteggio totale dei token di addestramento. È il primo modello open-source multilingue fine-tuned su istruzioni di sicurezza revisionate da esseri umani, allineando così il suo sviluppo non solo con le considerazioni convenzionali del red-teaming, ma anche con le specifiche preoccupazioni espresse nell'Ordine Esecutivo Biden-Harris sullo Sviluppo e l'Uso Sicuro, Protetto e Affidabile dell'Intelligenza Artificiale. Aurora-M è rigorosamente valutato su vari compiti e lingue, dimostrando robustezza contro la dimenticanza catastrofica e superando le alternative in contesti multilingue, in particolare nelle valutazioni di sicurezza. Per promuovere uno sviluppo responsabile dei modelli linguistici open-source, Aurora-M e le sue varianti sono rilasciati su https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407.
Uno dei principali limiti degli attuali modelli di testo-immagine (T2I) è la loro incapacità di generare in modo coerente immagini che seguano fedelmente le relazioni spaziali specificate nel prompt testuale. In questo articolo, offriamo un'analisi approfondita di questa limitazione, sviluppando al contempo dataset e metodi che raggiungono prestazioni all'avanguardia. In primo luogo, osserviamo che i dataset attuali di visione e linguaggio non rappresentano adeguatamente le relazioni spaziali; per alleviare questo collo di bottiglia, creiamo SPRIGHT, il primo dataset su larga scala focalizzato sull'aspetto spaziale, ricaptionando 6 milioni di immagini provenienti da 4 dataset di visione ampiamente utilizzati. Attraverso una pipeline di valutazione e analisi tripartita, scopriamo che SPRIGHT migliora significativamente rispetto ai dataset esistenti nella cattura delle relazioni spaziali. Per dimostrarne l'efficacia, utilizziamo solo ~0,25% di SPRIGHT e otteniamo un miglioramento del 22% nella generazione di immagini spazialmente accurate, migliorando anche i punteggi FID e CMMD. In secondo luogo, osserviamo che l'addestramento su immagini contenenti un numero elevato di oggetti porta a sostanziali miglioramenti nella coerenza spaziale. In particolare, raggiungiamo lo stato dell'arte su T2I-CompBench con un punteggio spaziale di 0,2133, effettuando il fine-tuning su meno di 500 immagini. Infine, attraverso una serie di esperimenti controllati e ablazioni, documentiamo molteplici risultati che riteniamo possano migliorare la comprensione dei fattori che influenzano la coerenza spaziale nei modelli testo-immagine. Rilasciamo pubblicamente il nostro dataset e il modello per favorire ulteriori ricerche in questo ambito.
La generazione di contenuti 3D a partire da prompt testuali o singole immagini ha compiuto progressi significativi in termini di qualità e velocità recentemente. Uno dei paradigmi dominanti prevede la generazione di immagini multi-vista coerenti, seguite da una ricostruzione a vista sparsa. Tuttavia, a causa della difficoltà di deformare direttamente la rappresentazione mesh per avvicinarsi alla topologia target, la maggior parte delle metodologie apprende una rappresentazione implicita (come NeRF) durante la ricostruzione a vista sparsa e acquisisce la mesh target attraverso un'estrazione post-elaborazione. Sebbene la rappresentazione implicita possa modellare efficacemente informazioni 3D ricche, il suo addestramento richiede tipicamente un lungo tempo di convergenza. Inoltre, l'operazione di estrazione post-elaborazione dal campo implicito porta anche a artefatti visivi indesiderati. In questo articolo, proponiamo FlexiDreamer, un nuovo framework di generazione 3D da singola immagine che ricostruisce la mesh target in modo end-to-end. Sfruttando un'estrazione basata su gradienti flessibile nota come FlexiCubes, il nostro metodo evita i difetti causati dalla post-elaborazione e facilita l'acquisizione diretta della mesh target. Inoltre, incorporiamo uno schema di codifica a griglia hash multi-risoluzione che attiva progressivamente i livelli di codifica nel campo implicito di FlexiCubes per aiutare a catturare dettagli geometrici per l'ottimizzazione passo-passo. È degno di nota che FlexiDreamer recupera una struttura 3D densa da un'immagine a singola vista in circa 1 minuto su una singola GPU NVIDIA A100, superando di gran lunga le metodologie precedenti.
La generazione di scene 3D a partire da condizioni specificate dall'utente rappresenta una promettente via per alleviare il carico di produzione nelle applicazioni 3D. Studi precedenti richiedevano uno sforzo significativo per realizzare la scena desiderata, a causa delle limitate condizioni di controllo. Proponiamo un metodo per controllare e generare scene 3D sotto condizioni multimodali utilizzando immagini parziali, informazioni di layout rappresentate in vista dall'alto e prompt testuali. Combinare queste condizioni per generare una scena 3D comporta le seguenti difficoltà significative: (1) la creazione di grandi dataset, (2) la riflessione sull'interazione delle condizioni multimodali e (3) la dipendenza dal dominio delle condizioni di layout. Scomponiamo il processo di generazione di scene 3D in generazione di immagini 2D dalle condizioni date e generazione di scene 3D da immagini 2D. La generazione di immagini 2D è ottenuta attraverso il fine-tuning di un modello pre-addestrato da testo a immagine con un piccolo dataset artificiale di immagini parziali e layout, mentre la generazione di scene 3D è realizzata mediante stima della profondità condizionata dal layout e campi di radianza neurale (NeRF), evitando così la creazione di grandi dataset. L'uso di una rappresentazione comune delle informazioni spaziali mediante immagini a 360 gradi consente di considerare le interazioni delle condizioni multimodali e riduce la dipendenza dal dominio del controllo del layout. I risultati sperimentali hanno dimostrato qualitativamente e quantitativamente che il metodo proposto è in grado di generare scene 3D in diversi domini, dall'interno all'esterno, in base a condizioni multimodali.
I modelli generativi sono ora ampiamente utilizzati da graphic designer e artisti. Studi precedenti hanno dimostrato che questi modelli memorizzano e spesso replicano contenuti dai loro dati di addestramento durante la generazione. Pertanto, con la loro crescente diffusione, è diventato importante eseguire una ricerca nel database per determinare se le proprietà dell'immagine siano attribuibili a specifici dati di addestramento, ogni volta prima che un'immagine generata venga utilizzata per scopi professionali. Gli strumenti esistenti per questo scopo si concentrano sul recupero di immagini con contenuto semantico simile. Nel frattempo, molti artisti sono preoccupati per la replicazione dello stile nei modelli text-to-image. Presentiamo un framework per comprendere ed estrarre descrittori di stile dalle immagini. Il nostro framework comprende un nuovo dataset curato utilizzando l'idea che lo stile sia una proprietà soggettiva di un'immagine che cattura interazioni complesse ma significative di fattori tra cui, ma non limitati a, colori, texture, forme, ecc. Proponiamo inoltre un metodo per estrarre descrittori di stile che possono essere utilizzati per attribuire lo stile di un'immagine generata alle immagini utilizzate nel dataset di addestramento di un modello text-to-image. Mostriamo risultati promettenti in varie attività di recupero dello stile. Analizziamo inoltre quantitativamente e qualitativamente l'attribuzione e la corrispondenza dello stile nel modello Stable Diffusion. Codice e artefatti sono disponibili all'indirizzo https://github.com/learn2phoenix/CSD.
Presentiamo CosmicMan, un modello di base text-to-image specializzato nella generazione di immagini umane ad alta fedeltà. A differenza degli attuali modelli di base generici, che si trovano nel dilemma di una qualità inferiore e di un disallineamento testo-immagine per le figure umane, CosmicMan consente di generare immagini umane fotorealistiche con un aspetto meticoloso, una struttura ragionevole e un preciso allineamento testo-immagine con descrizioni dense e dettagliate. Al centro del successo di CosmicMan ci sono nuove riflessioni e prospettive sui dati e sui modelli: (1) Abbiamo scoperto che la qualità dei dati e un flusso di produzione dati scalabile sono essenziali per i risultati finali dei modelli addestrati. Pertanto, proponiamo un nuovo paradigma di produzione dati, Annotate Anyone, che funge da volano perpetuo per produrre dati di alta qualità con annotazioni accurate ed economicamente efficienti nel tempo. Sulla base di ciò, abbiamo costruito un dataset su larga scala, CosmicMan-HQ 1.0, con 6 milioni di immagini umane di alta qualità del mondo reale in una risoluzione media di 1488x1255, corredate da precise annotazioni testuali derivanti da 115 milioni di attributi in diverse granularità. (2) Sosteniamo che un modello di base text-to-image specializzato per gli esseri umani deve essere pragmatico – facile da integrare in compiti downstream mentre efficace nella produzione di immagini umane di alta qualità. Pertanto, proponiamo di modellare la relazione tra descrizioni testuali dense e pixel dell'immagine in modo scomposto, e presentiamo il framework di addestramento Decomposed-Attention-Refocusing (Daring). Esso scompone in modo fluido le caratteristiche di cross-attention nei modelli di diffusione text-to-image esistenti, e impone un refocusing dell'attenzione senza aggiungere moduli extra. Attraverso Daring, dimostriamo che discretizzare esplicitamente lo spazio testuale continuo in diversi gruppi di base che si allineano con la struttura del corpo umano è la chiave per affrontare con facilità il problema del disallineamento.
Presentiamo Condition-Aware Neural Network (CAN), un nuovo metodo per aggiungere controllo ai modelli generativi di immagini. In parallelo ai precedenti metodi di controllo condizionale, CAN controlla il processo di generazione delle immagini manipolando dinamicamente i pesi della rete neurale. Questo è ottenuto introducendo un modulo di generazione dei pesi condizionale che genera pesi condizionali per i livelli convoluzionali/lineari in base alla condizione di input. Testiamo CAN sulla generazione di immagini condizionate per classe su ImageNet e sulla generazione di immagini da testo su COCO. CAN fornisce costantemente miglioramenti significativi per i modelli di trasformatori di diffusione, inclusi DiT e UViT. In particolare, CAN combinato con EfficientViT (CaT) raggiunge un FID di 2.78 su ImageNet 512x512, superando DiT-XL/2 mentre richiede 52x meno MACs per passo di campionamento.
Un modello ideale per la descrizione densa di video -- la previsione di didascalie localizzate temporalmente in un video -- dovrebbe essere in grado di gestire video di input lunghi, prevedere descrizioni testuali ricche e dettagliate, e produrre output prima di aver elaborato l'intero video. I modelli attuali all'avanguardia, tuttavia, elaborano un numero fisso di frame sottocampionati e producono una singola previsione completa solo dopo aver visto l'intero video. Proponiamo un modello di descrizione densa di video in streaming che consiste di due componenti innovative: in primo luogo, proponiamo un nuovo modulo di memoria, basato sul clustering dei token in ingresso, che può gestire video di lunghezza arbitraria poiché la memoria ha una dimensione fissa. In secondo luogo, sviluppiamo un algoritmo di decodifica in streaming che consente al nostro modello di fare previsioni prima che l'intero video sia stato elaborato. Il nostro modello raggiunge questa capacità di streaming e migliora significativamente lo stato dell'arte su tre benchmark di descrizione densa di video: ActivityNet, YouCook2 e ViTT. Il nostro codice è disponibile all'indirizzo https://github.com/google-research/scenic.
Le tecniche di modellazione delle preferenze, come l'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO), si sono dimostrate efficaci nel migliorare le capacità di generalizzazione dei modelli linguistici di grandi dimensioni (Large Language Models, LLM). Tuttavia, nei compiti che coinvolgono l'interpretazione di istruzioni video, fornire feedback informativi, specialmente per rilevare allucinazioni nelle risposte generate, rimane una sfida significativa. Studi precedenti hanno esplorato l'uso di grandi modelli multimodali (Large Multimodal Models, LMMs) come modelli di ricompensa per guidare la modellazione delle preferenze, ma la loro capacità di valutare accuratamente la fattualità delle risposte generate rispetto ai video corrispondenti non è stata definitivamente stabilita. Questo articolo introduce un nuovo framework che utilizza didascalie video dettagliate come proxy del contenuto video, consentendo ai modelli linguistici di incorporare queste informazioni come prove a supporto per la valutazione delle previsioni nelle attività di risposta a domande video (Video Question Answering, QA). Il nostro approccio dimostra un forte allineamento con il meccanismo di ricompensa del modello OpenAI GPT-4V, che prende direttamente i fotogrammi video come input. Inoltre, mostriamo che l'applicazione di questa ricompensa personalizzata attraverso la DPO migliora significativamente le prestazioni dei LMMs video nelle attività di QA video.
I recenti progressi nei grandi modelli linguistici (LLM) hanno rivoluzionato il campo dell'elaborazione del linguaggio naturale, ampliando progressivamente il loro ambito alla percezione e generazione multimodale. Tuttavia, integrare efficacemente capacità di ascolto negli LLM presenta sfide significative, in particolare per quanto riguarda la generalizzazione in contesti variabili e l'esecuzione di compiti uditivi complessi. In questo lavoro, introduciamo WavLLM, un robusto e adattabile modello linguistico di grandi dimensioni per il parlato con doppi encoder e un adattatore di pesi LoRA consapevole del prompt, ottimizzato attraverso un approccio di apprendimento curriculare a due fasi. Sfruttando i doppi encoder, separiamo diversi tipi di informazioni vocali, utilizzando un encoder Whisper per elaborare il contenuto semantico del parlato e un encoder WavLM per catturare le caratteristiche uniche dell'identità del parlante. All'interno del framework di apprendimento curriculare, WavLLM sviluppa prima le sue capacità di base ottimizzandosi su compiti elementari singoli misti, seguito da un addestramento multi-task avanzato su compiti più complessi come combinazioni dei compiti elementari. Per migliorare la flessibilità e l'aderenza a diversi compiti e istruzioni, viene introdotto un adattatore di pesi LoRA consapevole del prompt nella seconda fase avanzata di addestramento multi-task. Validiamo il modello proposto su benchmark universali del parlato, inclusi compiti come ASR, ST, SV, ER, e lo applichiamo anche a dataset specializzati come il set di comprensione orale in inglese del Gaokao per SQA e il set di valutazione del ragionamento a catena (CoT) nel parlato. Gli esperimenti dimostrano che il modello proposto raggiunge prestazioni all'avanguardia su una gamma di compiti vocali con la stessa dimensione del modello, mostrando robuste capacità di generalizzazione nell'esecuzione di compiti complessi utilizzando l'approccio CoT. Inoltre, il nostro modello completa con successo i compiti del Gaokao senza un addestramento specializzato. I codici, i modelli, gli audio e il set di valutazione del Gaokao sono accessibili su aka.ms/wavllm.
Un documento visivamente ricco (VRD) utilizza caratteristiche visive insieme a segnali linguistici per diffondere informazioni. Addestrare un estrattore personalizzato che identifica entità nominate da un documento richiede un gran numero di istanze del tipo di documento target annotate nelle modalità testuali e visive. Questo rappresenta un collo di bottiglia costoso negli scenari aziendali, in cui si desidera addestrare estrattori personalizzati per migliaia di diversi tipi di documento in modo scalabile. Pre-addestrare un modello estrattore su istanze non etichettate del tipo di documento target, seguito da un passaggio di fine-tuning su istanze etichettate manualmente, non funziona in questi scenari, poiché supera il tempo massimo di addestramento consentito per l'estrattore. Affrontiamo questo scenario proponendo un metodo di addestramento consapevole del rumore, o NAT, in questo articolo. Invece di acquisire documenti etichettati manualmente a costi elevati, NAT utilizza documenti debolmente etichettati per addestrare un estrattore in modo scalabile. Per evitare il degrado della qualità del modello a causa di campioni debolmente etichettati e rumorosi, NAT stima la confidenza di ciascun campione di addestramento e la incorpora come misura di incertezza durante l'addestramento. Addestriamo più modelli estrattori all'avanguardia utilizzando NAT. Esperimenti su numerosi dataset pubblicamente disponibili e interni mostrano che i modelli addestrati con NAT non solo sono robusti in termini di prestazioni – superano una baseline di transfer learning fino al 6% in termini di punteggio macro-F1 – ma sono anche più efficienti nell'uso delle etichette – riducono la quantità di sforzo umano necessario per ottenere prestazioni comparabili fino al 73%.
I Large Language Model (LLM) hanno dimostrato capacità impressionanti nella comprensione e generazione di testi, stimolando gli sforzi di ricerca verso i video LLM per facilitare l'interazione uomo-IA a livello video. Tuttavia, come codificare e comprendere efficacemente i video nei sistemi di dialogo basati su video rimane una questione da risolvere. In questo articolo, indaghiamo una domanda semplice ma inesplorata: possiamo inserire tutti i token spazio-temporali nel LLM, delegando così il compito di modellazione delle sequenze video ai LLM? Sorprendentemente, questo approccio semplice produce miglioramenti significativi nella comprensione dei video. Sulla base di ciò, proponiamo ST-LLM, una baseline efficace di video-LLM con modellazione di sequenze spazio-temporali all'interno del LLM. Inoltre, per affrontare i problemi di overhead e stabilità introdotti dai token video non compressi all'interno dei LLM, sviluppiamo una strategia di mascheramento dinamico con obiettivi di formazione su misura. Per video particolarmente lunghi, abbiamo anche progettato un modulo di input globale-locale per bilanciare efficienza ed efficacia. Di conseguenza, sfruttiamo il LLM per una modellazione spazio-temporale competente, mantenendo al contempo efficienza e stabilità. I risultati sperimentali estesi attestano l'efficacia del nostro metodo. Attraverso un modello e una pipeline di addestramento più concisi, ST-LLM stabilisce un nuovo stato dell'arte su VideoChatGPT-Bench e MVBench. I codici sono disponibili su https://github.com/TencentARC/ST-LLM.