Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Large Language Model (LLM) eccellono in vari compiti, ma si basano su prompt accuratamente progettati che spesso richiedono un notevole sforzo umano. Per automatizzare questo processo, in questo articolo proponiamo un nuovo framework per l'ottimizzazione discreta dei prompt, chiamato EvoPrompt, che prende spunto dagli algoritmi evolutivi (EA) poiché dimostrano buone prestazioni e una rapida convergenza. Per consentire agli EA di lavorare su prompt discreti, che sono espressioni in linguaggio naturale che devono essere coerenti e leggibili, colleghiamo gli LLM con gli EA. Questo approccio ci permette di sfruttare contemporaneamente le potenti capacità di elaborazione del linguaggio degli LLM e le prestazioni efficienti di ottimizzazione degli EA. Nello specifico, astenendosi da qualsiasi gradiente o parametro, EvoPrompt parte da una popolazione di prompt e genera iterativamente nuovi prompt con gli LLM basandosi sugli operatori evolutivi, migliorando la popolazione in base al set di sviluppo. Ottimizziamo i prompt sia per LLM proprietari che open-source, inclusi GPT-3.5 e Alpaca, su 9 dataset che coprono compiti di comprensione e generazione del linguaggio. EvoPrompt supera significativamente i prompt progettati manualmente e i metodi esistenti per la generazione automatica dei prompt rispettivamente fino al 25% e al 14%. Inoltre, EvoPrompt dimostra che collegare gli LLM con gli EA crea sinergie, che potrebbero ispirare ulteriori ricerche sulla combinazione di LLM e algoritmi convenzionali.
Ricerche precedenti hanno osservato un degrado dell'accuratezza quando si sostituisce la softmax dell'attenzione con un'attivazione punto-punto come la ReLU. Nel contesto dei vision transformer, abbiamo scoperto che questo degrado è mitigato quando si divide per la lunghezza della sequenza. I nostri esperimenti, addestrando vision transformer di dimensioni variabili da piccole a grandi su ImageNet-21k, indicano che l'attenzione con ReLU può avvicinarsi o eguagliare le prestazioni dell'attenzione con softmax in termini di comportamento di scalabilità in funzione del calcolo.
Uno degli ostacoli a una migliore comprensione del funzionamento interno delle reti neurali è la polisemanticità, in cui i neuroni sembrano attivarsi in contesti multipli e semanticamente distinti. La polisemanticità ci impedisce di identificare spiegazioni concise e comprensibili per l'uomo su ciò che le reti neurali stanno facendo internamente. Una causa ipotizzata della polisemanticità è la sovrapposizione, in cui le reti neurali rappresentano più caratteristiche di quante ne abbiano neuroni, assegnando le caratteristiche a un insieme sovracompleto di direzioni nello spazio di attivazione, piuttosto che a singoli neuroni. In questo lavoro, tentiamo di identificare queste direzioni, utilizzando autoencoder sparsi per ricostruire le attivazioni interne di un modello linguistico. Questi autoencoder apprendono insiemi di caratteristiche che si attivano in modo sparso e sono più interpretabili e monosemantici rispetto alle direzioni identificate da approcci alternativi, dove l'interpretabilità è misurata con metodi automatizzati. L'ablazione di queste caratteristiche consente una modifica precisa del modello, ad esempio rimuovendo capacità come la previsione dei pronomi, con un impatto minore sul comportamento del modello rispetto alle tecniche precedenti. Questo lavoro indica che è possibile risolvere la sovrapposizione nei modelli linguistici utilizzando un metodo scalabile e non supervisionato. Il nostro metodo potrebbe servire come base per futuri lavori di interpretabilità meccanicistica, che speriamo possano portare a una maggiore trasparenza e governabilità dei modelli.
Esploriamo l'impatto della sparsità dei parametri sul comportamento di scalabilità dei Transformer addestrati su dataset di grandi dimensioni (cioè, "modelli di base"), sia nel dominio visivo che linguistico. In questo contesto, identifichiamo la prima legge di scalabilità che descrive la relazione tra sparsità dei pesi, numero di parametri non nulli e quantità di dati di addestramento, che validiamo empiricamente su diverse scale di modelli e dati; su ViT/JFT-4B e T5/C4. Questi risultati ci permettono di caratterizzare la "sparsità ottimale", il livello di sparsità che fornisce le migliori prestazioni per una data dimensione effettiva del modello e budget di addestramento. Per un numero fisso di parametri non nulli, identifichiamo che la sparsità ottimale aumenta con la quantità di dati utilizzati per l'addestramento. Estendiamo inoltre il nostro studio a diverse strutture di sparsità (come il pattern n:m compatibile con l'hardware) e strategie (come partire da un modello denso pre-addestrato). Le nostre scoperte gettano luce sui poteri e i limiti della sparsità dei pesi in vari contesti parametrici e computazionali, offrendo sia una comprensione teorica che implicazioni pratiche per sfruttare la sparsità verso miglioramenti dell'efficienza computazionale.
Per prendere decisioni efficaci in ambienti nuovi con obiettivi a lungo termine, è cruciale impegnarsi in un ragionamento gerarchico attraverso scale spaziali e temporali. Ciò implica pianificare sequenze di sottobiettivi astratti, ragionare visivamente sui piani sottostanti ed eseguire azioni in conformità con il piano elaborato attraverso il controllo visuo-motorio. Proponiamo Compositional Foundation Models for Hierarchical Planning (HiP), un modello di base che sfrutta più modelli di base esperti, addestrati individualmente su dati linguistici, visivi e di azione, per risolvere congiuntamente compiti a lungo termine. Utilizziamo un modello linguistico di grandi dimensioni per costruire piani simbolici che sono radicati nell'ambiente attraverso un modello di diffusione video di grandi dimensioni. I piani video generati vengono poi ancorati al controllo visuo-motorio, attraverso un modello di dinamica inversa che inferisce le azioni dai video generati. Per abilitare un ragionamento efficace all'interno di questa gerarchia, imponiamo la coerenza tra i modelli tramite un affinamento iterativo. Illustriamo l'efficacia e l'adattabilità del nostro approccio in tre diversi compiti di manipolazione su tavolo a lungo termine.
Nonostante i recenti progressi nella generazione testo-audio (TTA), dimostriamo che i modelli all'avanguardia, come AudioLDM, addestrati su dataset con una distribuzione di classi sbilanciata, come AudioCaps, presentano un bias nelle prestazioni di generazione. In particolare, eccellono nella generazione di classi audio comuni mentre hanno prestazioni inferiori per quelle rare, degradando così le prestazioni complessive di generazione. Definiamo questo problema come generazione testo-audio a coda lunga. Per affrontare questa questione, proponiamo un semplice approccio basato sul retrieval per i modelli TTA. Nello specifico, dato un prompt di testo in input, sfruttiamo prima un modello Contrastive Language Audio Pretraining (CLAP) per recuperare coppie testo-audio rilevanti. Le caratteristiche dei dati audio-testo recuperati vengono poi utilizzate come condizioni aggiuntive per guidare l'apprendimento dei modelli TTA. Abbiamo potenziato AudioLDM con il nostro approccio proposto e denominiamo il sistema risultante come Re-AudioLDM. Sul dataset AudioCaps, Re-AudioLDM raggiunge una distanza di Frechet Audio (FAD) all'avanguardia di 1.37, superando di gran lunga gli approcci esistenti. Inoltre, dimostriamo che Re-AudioLDM può generare audio realistico per scene complesse, classi audio rare e persino tipi di audio mai visti, indicando il suo potenziale nei compiti TTA.
I modelli di diffusione text-to-image comprendono le relazioni spaziali tra gli oggetti, ma rappresentano la vera struttura 3D del mondo partendo solo da supervisione 2D? Dimostriamo che sì, la conoscenza 3D è codificata nei modelli di diffusione di immagini 2D come Stable Diffusion, e mostriamo che questa struttura può essere sfruttata per compiti di visione 3D. Il nostro metodo, Viewpoint Neural Textual Inversion (ViewNeTI), controlla il punto di vista 3D degli oggetti nelle immagini generate da modelli di diffusione congelati. Addestriamo un piccolo mapper neurale per prendere i parametri del punto di vista della telecamera e prevedere i latenti del codificatore di testo; i latenti condizionano poi il processo di generazione della diffusione per produrre immagini con il punto di vista della telecamera desiderato. ViewNeTI affronta naturalmente la Sintesi di Nuove Viste (Novel View Synthesis, NVS). Sfruttando il modello di diffusione congelato come prior, possiamo risolvere il problema NVS con pochissime viste di input; possiamo persino fare la sintesi di nuove viste a partire da una singola vista. Le nostre previsioni NVS a singola vista presentano dettagli semantici e fotorealismo migliori rispetto ai metodi precedenti. Il nostro approccio è particolarmente adatto per modellare l'incertezza intrinseca ai problemi di visione 3D sparsa, poiché può generare in modo efficiente campioni diversi. Il nostro meccanismo di controllo della vista è generale e può persino cambiare il punto di vista della telecamera nelle immagini generate da prompt definiti dall'utente.