Articoli di ricerca IA selezionati quotidianamente con traduzioni
La creazione di contenuti per un'identità specifica (ID) ha suscitato un notevole interesse nel campo dei modelli generativi. Nel settore della generazione di immagini da testo (T2I), la generazione di contenuti guidata dal soggetto ha compiuto grandi progressi, con l'ID nelle immagini controllabile. Tuttavia, estenderla alla generazione di video non è stata ancora esplorata a fondo. In questo lavoro, proponiamo un framework semplice ma efficace per la generazione di video con controllo dell'identità del soggetto, denominato Video Custom Diffusion (VCD). Con un ID del soggetto specificato da poche immagini, VCD rafforza l'estrazione delle informazioni sull'identità e inietta una correlazione frame-by-frame nella fase di inizializzazione per ottenere output video stabili con l'identità preservata in larga misura. Per raggiungere questo obiettivo, proponiamo tre componenti innovativi essenziali per una preservazione di alta qualità dell'ID: 1) un modulo ID addestrato con l'identità ritagliata tramite prompt-to-segmentation per separare le informazioni sull'ID dal rumore di fondo, consentendo un apprendimento più accurato dei token ID; 2) un modulo T2V VCD con 3D Gaussian Noise Prior per una migliore coerenza inter-fotogramma; e 3) moduli V2V Face VCD e Tiled VCD per ridurre la sfocatura del volto e aumentare la risoluzione del video. Nonostante la sua semplicità, abbiamo condotto esperimenti approfonditi per verificare che VCD sia in grado di generare video stabili e di alta qualità con un'identità migliore rispetto ai baseline selezionati. Inoltre, grazie alla trasferibilità del modulo ID, VCD funziona bene anche con modelli text-to-image fine-tuned disponibili pubblicamente, migliorando ulteriormente la sua usabilità. I codici sono disponibili all'indirizzo https://github.com/Zhen-Dong/Magic-Me.
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto prestazioni notevoli nel ragionamento in vari domini. Tuttavia, nel contesto dei compiti di ragionamento, scopriamo una fragilità: gli LLM sono sorprendentemente sensibili all'ordine delle premesse, nonostante tale ordine non alteri il compito sottostante. In particolare, osserviamo che gli LLM raggiungono le migliori prestazioni quando l'ordine delle premesse si allinea con il contesto richiesto nei passaggi intermedi del ragionamento. Ad esempio, nei compiti di ragionamento deduttivo, presentare le premesse nello stesso ordine della prova di riferimento nel prompt (anziché in un ordine casuale) aumenta drasticamente l'accuratezza del modello. Esaminiamo innanzitutto l'effetto dell'ordine delle premesse sul ragionamento deduttivo in una varietà di LLM, e la nostra valutazione mostra che permutare l'ordine delle premesse può causare un calo delle prestazioni superiore al 30%. Inoltre, rilasciamo il benchmark R-GSM, basato su GSM8K, per esaminare l'effetto dell'ordine nella risoluzione di problemi matematici, e osserviamo nuovamente un calo significativo dell'accuratezza rispetto al benchmark originale GSM8K.
I modelli di generazione di immagini basati su diffusione, come DALL-E 3 e Stable Diffusion-XL, dimostrano capacità straordinarie nel generare immagini con composizioni realistiche e uniche. Tuttavia, questi modelli non sono robusti nel ragionare con precisione sulle configurazioni fisiche e spaziali degli oggetti, specialmente quando vengono istruiti con descrizioni non convenzionali e quindi fuori distribuzione, come "una sedia con cinque gambe". In questo articolo, proponiamo un agente linguistico con catena di pensieri 3D (L3GO), un approccio in fase di inferenza che può ragionare sulla generazione di mesh 3D basata su parti per oggetti non convenzionali con cui i modelli di diffusione guidati dai dati attuali faticano a confrontarsi. Più concretamente, utilizziamo modelli linguistici di grandi dimensioni come agenti per comporre un oggetto desiderato tramite tentativi ed errori all'interno di un ambiente di simulazione 3D. Per facilitare la nostra indagine, sviluppiamo un nuovo benchmark, Oggetti Non Convenzionalmente Fattibili (UFO), nonché SimpleBlenv, un ambiente wrapper costruito su Blender in cui gli agenti linguistici possono costruire e comporre blocchi costitutivi atomici tramite chiamate API. Le valutazioni umane e automatiche con GPT-4V mostrano che il nostro approccio supera il GPT-4 standard e altri agenti linguistici (ad esempio, ReAct e Reflexion) nella generazione di mesh 3D su ShapeNet. Inoltre, quando testato sul nostro benchmark UFO, il nostro approccio supera altri modelli all'avanguardia di testo-immagine 2D e testo-3D basati su valutazioni umane.
Il fine-tuning basato su ricompense è emerso come un approccio promettente per allineare i modelli di base con gli obiettivi a valle. Successi notevoli sono stati ottenuti nel dominio del linguaggio utilizzando l'apprendimento per rinforzo (RL) per massimizzare ricompense che riflettono le preferenze umane. Tuttavia, nel dominio della visione, i metodi esistenti di fine-tuning basati su ricompense tramite RL sono limitati dalla loro instabilità nell'addestramento su larga scala, rendendoli incapaci di generalizzare a prompt complessi e non visti in precedenza. In questo articolo, proponiamo il Proximal Reward Difference Prediction (PRDP), che consente per la prima volta un fine-tuning stabile delle ricompense per modelli di diffusione su dataset di prompt su larga scala con oltre 100K prompt. La nostra innovazione chiave è l'obiettivo Reward Difference Prediction (RDP), che ha la stessa soluzione ottimale dell'obiettivo RL pur godendo di una maggiore stabilità nell'addestramento. Nello specifico, l'obiettivo RDP è un obiettivo di regressione supervisionata che assegna al modello di diffusione il compito di prevedere la differenza di ricompensa di coppie di immagini generate a partire dalle loro traiettorie di denoising. Dimostriamo teoricamente che il modello di diffusione che ottiene una previsione perfetta della differenza di ricompensa è esattamente il massimizzatore dell'obiettivo RL. Sviluppiamo inoltre un algoritmo online con aggiornamenti prossimali per ottimizzare in modo stabile l'obiettivo RDP. Negli esperimenti, dimostriamo che PRDP può eguagliare la capacità di massimizzazione delle ricompense dei metodi consolidati basati su RL nell'addestramento su piccola scala. Inoltre, attraverso l'addestramento su larga scala su prompt testuali provenienti dal Human Preference Dataset v2 e dal dataset Pick-a-Pic v1, PRDP raggiunge una qualità di generazione superiore su un insieme diversificato di prompt complessi e non visti in precedenza, mentre i metodi basati su RL falliscono completamente.
La potenza di calcolo, o "compute", è cruciale per lo sviluppo e l'implementazione delle capacità di intelligenza artificiale (AI). Di conseguenza, governi e aziende hanno iniziato a sfruttare il compute come strumento per governare l'AI. Ad esempio, i governi stanno investendo nella capacità di calcolo domestica, controllando il flusso di compute verso paesi concorrenti e sovvenzionando l'accesso al compute per determinati settori. Tuttavia, questi sforzi rappresentano solo una parte di come il compute possa essere utilizzato per governare lo sviluppo e l'implementazione dell'AI. Rispetto ad altri input chiave per l'AI (dati e algoritmi), il compute rilevante per l'AI è un punto di intervento particolarmente efficace: è rilevabile, escludibile e quantificabile, ed è prodotto attraverso una catena di approvvigionamento estremamente concentrata. Queste caratteristiche, insieme all'importanza fondamentale del compute per i modelli di AI all'avanguardia, suggeriscono che governare il compute possa contribuire al raggiungimento di obiettivi politici comuni, come garantire la sicurezza e l'uso benefico dell'AI. Più precisamente, i policymaker potrebbero utilizzare il compute per facilitare la visibilità normativa dell'AI, allocare risorse per promuovere risultati benefici e applicare restrizioni contro lo sviluppo e l'uso irresponsabile o malevolo dell'AI. Tuttavia, sebbene le politiche e le tecnologie basate sul compute abbiano il potenziale di supportare queste aree, vi è una significativa varietà nella loro prontezza per l'implementazione. Alcune idee sono attualmente in fase di sperimentazione, mentre altre sono ostacolate dalla necessità di ricerca fondamentale. Inoltre, approcci ingenui o mal definiti alla governance del compute comportano rischi significativi in aree come la privacy, gli impatti economici e la centralizzazione del potere. Concludiamo suggerendo delle salvaguardie per minimizzare questi rischi derivanti dalla governance del compute.
La generalizzazione della lunghezza, definita come la capacità di estrapolare da sequenze di addestramento più corte a sequenze di test più lunghe, rappresenta una sfida significativa per i modelli linguistici. Questo problema persiste anche con i Transformer su larga scala che affrontano compiti relativamente semplici. In questo articolo, testiamo la capacità di generalizzazione della lunghezza del Transformer utilizzando il compito di addizione di due numeri interi. Dimostriamo che il successo della generalizzazione della lunghezza è strettamente legato al formato dei dati e al tipo di codifica posizionale. Utilizzando la giusta combinazione di formato dei dati e codifiche posizionali, mostriamo per la prima volta che i Transformer standard possono estrapolare a una lunghezza di sequenza che è 2,5 volte la lunghezza dell'input. Tuttavia, a differenza della generalizzazione in-distribuzione, la generalizzazione della lunghezza rimane fragile, influenzata in modo significativo da fattori come l'inizializzazione casuale dei pesi e l'ordine dei dati di addestramento, portando a grandi variazioni tra diversi semi casuali.
La necessità imperativa di scalare il calcolo su numerosi nodi evidenzia l'importanza di un calcolo parallelo efficiente, in particolare nell'ambito dell'integrazione dell'Interfaccia di Passaggio Messaggi (MPI). La complessa attività di programmazione parallela relativa alla generazione di programmi paralleli basati su MPI è rimasta inesplorata. Questo studio analizza inizialmente le prestazioni dei modelli linguistici più avanzati nella generazione di programmi paralleli basati su MPI. I risultati rivelano che modelli ampiamente utilizzati come GPT-3.5 e PolyCoder (modelli di codice specializzati multilingue) mostrano un degrado significativo delle prestazioni quando generano programmi basati su MPI rispetto a programmi generici. Al contrario, modelli specifici per il dominio come MonoCoder, pre-addestrati su linguaggi di programmazione correlati a MPI come C e C++, superano i modelli più grandi. Successivamente, introduciamo un'attività dedicata di generazione di programmi basati su MPI, ottimizzando MonoCoder su HPCorpusMPI. Chiamiamo il modello risultante MPIrigen. Proponiamo un'innovativa pre-elaborazione per il completamento solo dopo aver osservato l'intero codice, consentendo così un completamento migliore con un contesto più ampio. L'analisi comparativa rispetto alle prestazioni zero-shot di GPT-3.5, utilizzando un nuovo metodo di valutazione orientato all'HPC, dimostra che MPIrigen eccelle nella generazione di funzioni MPI accurate, raggiungendo fino a 0,8 di accuratezza nelle previsioni di posizione e funzione, e oltre 0,9 di accuratezza nelle previsioni degli argomenti. Il successo di questa soluzione su misura sottolinea l'importanza dell'ottimizzazione specifica per il dominio nell'ottimizzazione dei modelli linguistici per la generazione di codice di calcolo parallelo, aprendo la strada a una nuova generazione di strumenti di parallelizzazione automatica. Le fonti di questo lavoro sono disponibili nel nostro repository GitHub MPIrigen: https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen.
I modelli linguistici di grandi dimensioni (LLM) stanno diventando sempre più diffusi e trovano un utilizzo ubiquitario nell'offrire diverse forme di assistenza alla scrittura. Tuttavia, i sistemi di scrittura basati su LLM possono frustrare gli utenti a causa della loro limitata personalizzazione e controllo, un problema che può essere esacerbato quando gli utenti hanno poca esperienza con l'ingegneria dei prompt. Vediamo il design come un modo per affrontare queste sfide e introduciamo GhostWriter, una sonda di design per la scrittura potenziata dall'IA in cui gli utenti possono esercitare una maggiore agenzia e personalizzazione. GhostWriter sfrutta i LLM per apprendere implicitamente lo stile di scrittura desiderato dall'utente mentre scrive, consentendo al contempo momenti di insegnamento esplicito attraverso modifiche e annotazioni manuali dello stile. Abbiamo studiato 18 partecipanti che hanno utilizzato GhostWriter in due diverse attività di scrittura, osservando che aiuta gli utenti a creare generazioni di testo personalizzate e li potenzia fornendo molteplici modi per controllare lo stile di scrittura del sistema. Da questo studio, presentiamo approfondimenti riguardo al rapporto delle persone con la scrittura assistita dall'IA e offriamo raccomandazioni di design per lavori futuri.
Con l'aumento della complessità dei modelli generativi di intelligenza artificiale, la quantizzazione post-addestramento (PTQ) è emersa come una soluzione promettente per il deployment di modelli su larga scala su dispositivi edge come smartphone e televisori. Tuttavia, gli schemi PTQ esistenti richiedono tempi e risorse considerevoli, il che potrebbe rappresentare un collo di bottiglia in situazioni reali in cui sono necessari aggiornamenti frequenti del modello e ottimizzazioni multiple degli iperparametri. Come alternativa economicamente vantaggiosa, sono stati proposti schemi PTQ one-shot. Tuttavia, le prestazioni sono in qualche modo limitate poiché non riescono a considerare la dipendenza inter-strato all'interno del modulo di attenzione, che è una caratteristica molto importante dei Transformer. In questo articolo, proponiamo quindi un nuovo algoritmo PTQ che bilancia accuratezza ed efficienza. L'idea chiave dell'algoritmo proposto, denominato aespa, è quella di eseguire la quantizzazione strato per strato per garantire efficienza, pur considerando la dipendenza cross-strato per preservare il punteggio di attenzione. Attraverso esperimenti estesi su vari modelli linguistici e analisi di complessità, dimostriamo che aespa è accurato ed efficiente nella quantizzazione dei modelli Transformer.