Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il recente aumento dei modelli linguistici di grandi dimensioni (LLM) open-source, come LLaMA, Falcon e Mistral, offre opzioni diversificate per i professionisti e i ricercatori dell'IA. Tuttavia, la maggior parte degli LLM ha rilasciato solo artefatti parziali, come i pesi finali del modello o il codice di inferenza, e i rapporti tecnici limitano sempre più il loro ambito a scelte progettuali di alto livello e statistiche superficiali. Queste scelte ostacolano il progresso nel campo riducendo la trasparenza nel processo di addestramento degli LLM e costringendo i team a riscoprire molti dettagli nel processo di formazione. Presentiamo LLM360, un'iniziativa per rendere completamente open-source gli LLM, che sostiene la condivisione con la comunità di tutto il codice e i dati di addestramento, i checkpoint del modello e i risultati intermedi. L'obiettivo di LLM360 è supportare la ricerca aperta e collaborativa nell'IA rendendo trasparente e riproducibile da chiunque il processo di addestramento end-to-end degli LLM. Come primo passo di LLM360, rilasciamo due LLM da 7B parametri pre-addestrati da zero, Amber e CrystalCoder, inclusi il loro codice di addestramento, i dati, i checkpoint intermedi e le analisi (disponibili su https://www.llm360.ai). Ci impegniamo a spingere continuamente i confini degli LLM attraverso questo sforzo open-source. Modelli più grandi e potenti sono in fase di sviluppo e verranno rilasciati in futuro.
Il fine-tuning dei modelli linguistici (LMs) su dati generati da esseri umani rimane una pratica diffusa. Tuttavia, le prestazioni di tali modelli sono spesso limitate dalla quantità e dalla diversità di dati umani di alta qualità. In questo articolo, esploriamo se sia possibile andare oltre i dati umani in compiti in cui abbiamo accesso a feedback scalare, ad esempio, in problemi di matematica dove è possibile verificare la correttezza. A tal fine, investigiamo un semplice metodo di auto-addestramento basato sull'algoritmo di massimizzazione dell'aspettativa, che chiamiamo ReST^{EM}, in cui (1) generiamo campioni dal modello e li filtriamo utilizzando feedback binari, (2) eseguiamo il fine-tuning del modello su questi campioni e (3) ripetiamo il processo alcune volte. Testando su benchmark avanzati di ragionamento matematico MATH e di codifica APPS utilizzando modelli PaLM-2, scopriamo che ReST^{EM} scala favorevolmente con la dimensione del modello e supera significativamente il fine-tuning eseguito solo su dati umani. Nel complesso, i nostri risultati suggeriscono che l'auto-addestramento con feedback può ridurre sostanzialmente la dipendenza dai dati generati da esseri umani.
Recentemente, la creazione di contenuti 3D a partire da prompt testuali ha dimostrato progressi significativi grazie all'utilizzo di modelli di diffusione 2D e 3D. Mentre i modelli di diffusione 3D garantiscono un'eccellente coerenza multi-vista, la loro capacità di generare asset 3D di alta qualità e diversificati è limitata dalla scarsità di dati 3D. Al contrario, i modelli di diffusione 2D adottano un approccio di distillazione che raggiunge un'eccellente generalizzazione e dettagli ricchi senza alcun dato 3D. Tuttavia, i metodi di sollevamento 2D soffrono di un'ambiguità intrinseca indipendente dalla vista, portando a seri problemi di multi-faccia Janus, in cui i prompt testuali non forniscono una guida sufficiente per apprendere risultati 3D coerenti. Invece di riaddestrare un costoso modello consapevole del punto di vista, studiamo come sfruttare appieno una conoscenza 3D approssimata facilmente accessibile per migliorare i prompt e guidare l'ottimizzazione del sollevamento 2D per il perfezionamento. In questo articolo, proponiamo Sherpa3D, un nuovo framework text-to-3D che raggiunge simultaneamente alta fedeltà, generalizzabilità e coerenza geometrica. Nello specifico, progettiamo una coppia di strategie di guida derivate dal prior 3D approssimato generato dal modello di diffusione 3D: una guida strutturale per la fedeltà geometrica e una guida semantica per la coerenza 3D. Utilizzando questi due tipi di guida, il modello di diffusione 2D arricchisce il contenuto 3D con risultati diversificati e di alta qualità. Esperimenti estensivi dimostrano la superiorità del nostro Sherpa3D rispetto ai metodi text-to-3D all'avanguardia in termini di qualità e coerenza 3D.
Presentiamo W.A.L.T, un approccio basato su transformer per la generazione di video fotorealistici tramite modellazione a diffusione. Il nostro approccio si basa su due decisioni progettuali chiave. In primo luogo, utilizziamo un encoder causale per comprimere congiuntamente immagini e video all'interno di uno spazio latente unificato, consentendo l'addestramento e la generazione attraverso diverse modalità. In secondo luogo, per ottimizzare memoria ed efficienza durante l'addestramento, adottiamo un'architettura di attenzione a finestra specificamente progettata per la modellazione generativa congiunta spaziale e spaziotemporale. Queste scelte progettuali ci permettono di raggiungere prestazioni all'avanguardia su benchmark consolidati per la generazione di video (UCF-101 e Kinetics-600) e immagini (ImageNet) senza l'utilizzo di guida priva di classificatore. Infine, addestriamo anche una cascata di tre modelli per il compito di generazione di video da testo, composta da un modello base di diffusione latente per video e due modelli di diffusione per la super-risoluzione video, in grado di generare video con risoluzione 512x896 a 8 fotogrammi al secondo.
I moderni Large Vision-Language Models (LVLM) condividono lo stesso vocabolario visivo -- CLIP, che può coprire la maggior parte delle comuni attività visive. Tuttavia, per alcune attività visive speciali che richiedono una percezione visiva densa e fine, ad esempio, l'OCR a livello di documento o la comprensione di grafici, specialmente in scenari non in lingua inglese, il vocabolario in stile CLIP potrebbe incontrare una bassa efficienza nella tokenizzazione della conoscenza visiva e persino soffrire di problemi di fuori vocabolario. Di conseguenza, proponiamo Vary, un metodo efficiente ed efficace per ampliare il vocabolario visivo degli LVLM. Le procedure di Vary sono naturalmente divise in due fasi: la generazione e l'integrazione di un nuovo vocabolario visivo. Nella prima fase, progettiamo una rete di vocabolario insieme a un piccolo trasformatore decoder-only per produrre il vocabolario desiderato tramite autoregressione. Successivamente, ampliamo il vocabolario visivo di base unendo il nuovo vocabolario con quello originale (CLIP), consentendo agli LVLM di acquisire rapidamente nuove caratteristiche. Rispetto ai popolari BLIP-2, MiniGPT4 e LLaVA, Vary può mantenere le sue capacità di base mentre gode di una migliore capacità di percezione e comprensione fine. In particolare, Vary è competente nelle nuove funzionalità di analisi dei documenti (OCR o conversione in markdown) raggiungendo il 78,2% di ANLS in DocVQA e il 36,2% in MMVet. Il nostro codice sarà pubblicamente disponibile sulla homepage.
I grandi modelli linguistici (LLM) possiedono la straordinaria capacità di risolvere nuovi compiti con pochi esempi, ma necessitano di accesso agli strumenti appropriati. La Generazione Aumentata con Recupero (RAG) affronta questo problema recuperando una lista di strumenti rilevanti per un determinato compito. Tuttavia, il passo di recupero degli strumenti in RAG richiede che tutte le informazioni necessarie siano esplicitamente presenti nella query. Questa è una limitazione, poiché la ricerca semantica, il metodo di recupero degli strumenti ampiamente adottato, può fallire quando la query è incompleta o manca di contesto. Per affrontare questa limitazione, proponiamo il Context Tuning per RAG, che impiega un sistema intelligente di recupero del contesto per ottenere informazioni rilevanti che migliorano sia il recupero degli strumenti che la generazione del piano. Il nostro modello leggero di recupero del contesto utilizza segnali numerici, categorici e di utilizzo abituale per recuperare e classificare gli elementi del contesto. I nostri risultati empirici dimostrano che il context tuning migliora significativamente la ricerca semantica, ottenendo un miglioramento di 3,5 volte e 1,5 volte nel Recall@K rispettivamente per i compiti di recupero del contesto e di recupero degli strumenti, e portando a un aumento dell'11,6% nell'accuratezza del pianificatore basato su LLM. Inoltre, mostriamo che il nostro modello leggero proposto, che utilizza la Fusione del Rango Reciproco (RRF) con LambdaMART, supera il recupero basato su GPT-4. Inoltre, osserviamo che l'aumento del contesto nella generazione del piano, anche dopo il recupero degli strumenti, riduce l'allucinazione.
Presentiamo lo sviluppo di Alter3, un robot umanoide in grado di generare movimenti spontanei utilizzando un modello di linguaggio di grandi dimensioni (LLM), nello specifico GPT-4. Questo risultato è stato raggiunto integrando GPT-4 nel nostro androide proprietario, Alter3, collegando così efficacemente l'LLM ai movimenti corporei di Alter. Tipicamente, il controllo di basso livello dei robot dipende dall'hardware e non rientra nel corpus degli LLM, rappresentando una sfida per il controllo diretto dei robot basato su LLM. Tuttavia, nel caso di robot umanoidi come Alter3, il controllo diretto è fattibile mappando le espressioni linguistiche delle azioni umane sul corpo del robot attraverso codice di programmazione. In modo notevole, questo approccio consente ad Alter3 di assumere varie pose, come una posa da "selfie" o "fingere di essere un fantasma", e di generare sequenze di azioni nel tempo senza una programmazione esplicita per ogni parte del corpo. Ciò dimostra le capacità di apprendimento zero-shot del robot. Inoltre, il feedback verbale può regolare le pose, eliminando la necessità di un affinamento. Un video dei movimenti generati da Alter3 è disponibile all'indirizzo https://tnoinkwms.github.io/ALTER-LLM/.
I Modelli di Diffusione Latente (LDMs) catturano l'evoluzione dinamica delle variabili latenti nel tempo, integrando pattern e multimodalità in un sistema generativo. Nonostante la competenza degli LDM in varie applicazioni, come la generazione di immagini da testo, facilitata da robusti encoder testuali e un autoencoder variazionale, la necessità critica di implementare grandi modelli generativi su dispositivi edge spinge alla ricerca di alternative più compatte ma altrettanto efficaci. La Quantizzazione Post-Addestramento (PTQ), un metodo per comprimere le dimensioni operative dei modelli di deep learning, incontra sfide quando applicata agli LDM a causa delle complessità temporali e strutturali. Questo studio propone una strategia di quantizzazione che quantizza efficientemente gli LDM, sfruttando il Rapporto Segnale-Rumore di Quantizzazione (SQNR) come metrica fondamentale per la valutazione. Trattando la discrepanza di quantizzazione come rumore relativo e identificando le parti sensibili del modello, proponiamo un approccio di quantizzazione efficiente che comprende sia strategie globali che locali. Il processo di quantizzazione globale mitiga il rumore di quantizzazione relativo avviando una quantizzazione a precisione più elevata sui blocchi sensibili, mentre i trattamenti locali affrontano specifiche sfide nei moduli sensibili alla quantizzazione e al tempo. I risultati dei nostri esperimenti rivelano che l'implementazione sia dei trattamenti globali che locali produce una Quantizzazione Post-Addestramento (PTQ) altamente efficiente ed efficace degli LDM.
Presentiamo Llama Guard, un modello di salvaguardia input-output basato su LLM (Large Language Model) orientato ai casi d'uso di conversazione Uomo-AI. Il nostro modello incorpora una tassonomia dei rischi di sicurezza, uno strumento prezioso per categorizzare un insieme specifico di rischi di sicurezza presenti nei prompt degli LLM (ovvero, la classificazione dei prompt). Questa tassonomia è anche fondamentale per classificare le risposte generate dagli LLM a questi prompt, un processo che definiamo come classificazione delle risposte. Ai fini sia della classificazione dei prompt che delle risposte, abbiamo raccolto meticolosamente un dataset di alta qualità. Llama Guard, un modello Llama2-7b ottimizzato tramite istruzioni sul nostro dataset raccolto, sebbene di volume ridotto, dimostra prestazioni solide su benchmark esistenti come il dataset OpenAI Moderation Evaluation e ToxicChat, dove le sue prestazioni eguagliano o superano quelle degli attuali strumenti di moderazione dei contenuti. Llama Guard funziona come un modello linguistico, eseguendo una classificazione multi-classe e generando punteggi decisionali binari. Inoltre, l'ottimizzazione tramite istruzioni di Llama Guard consente la personalizzazione dei compiti e l'adattamento dei formati di output. Questa funzionalità potenzia le capacità del modello, come consentire l'adeguamento delle categorie della tassonomia per allinearsi a casi d'uso specifici e facilitare il prompting zero-shot o few-shot con diverse tassonomie in input. Rendiamo disponibili i pesi del modello Llama Guard e incoraggiamo i ricercatori a svilupparli e adattarli ulteriormente per soddisfare le esigenze in evoluzione della comunità per la sicurezza dell'AI.
I modelli linguistici di grandi dimensioni pre-addestrati (LLM) richiedono un fine-tuning per migliorare la loro reattività alle istruzioni in linguaggio naturale. L'apprendimento federato (FL) offre un modo per eseguire il fine-tuning utilizzando i dati abbondanti presenti sui dispositivi finali senza compromettere la privacy dei dati. La maggior parte dei metodi esistenti di fine-tuning federato per LLM si basa su tecniche di fine-tuning efficiente in termini di parametri, che potrebbero non raggiungere le prestazioni massime ottenibili con il fine-tuning completo dei parametri. Tuttavia, il sovraccarico di comunicazione associato al fine-tuning completo dei parametri è proibitivamente elevato sia per i server che per i client. Questo lavoro introduce FedKSeed, un approccio innovativo che utilizza l'ottimizzazione di ordine zero (ZOO) con un insieme di semi casuali. Ciò consente il fine-tuning federato completo dei parametri di LLM di dimensioni miliardarie direttamente sui dispositivi. Il nostro metodo riduce significativamente i requisiti di trasmissione tra il server e i client a pochi gradienti scalari e semi casuali, ammontando a solo poche migliaia di byte. Sulla base di ciò, sviluppiamo una strategia per valutare l'importanza delle perturbazioni ZOO per il FL, consentendo un campionamento dei semi differenziato per probabilità. Questo dà priorità alle perturbazioni che hanno un impatto maggiore sull'accuratezza del modello. Esperimenti condotti in sei scenari con diversi LLM, dataset e partizioni dei dati dimostrano che il nostro approccio supera i metodi esistenti di fine-tuning federato di LLM in termini di efficienza di comunicazione e generalizzazione su nuovi compiti.
Sono stati proposti vari metodi per utilizzare i Large Language Models (LLM) nella guida autonoma. Una strategia per impiegare i LLM in questo ambito prevede l'inserimento degli oggetti circostanti come prompt testuali nei LLM, insieme alle loro coordinate e informazioni sulla velocità, per poi generare i movimenti successivi del veicolo. Quando si utilizzano i LLM per tali scopi, sono essenziali capacità come il riconoscimento spaziale e la pianificazione. In particolare, sono richieste due capacità fondamentali: (1) il processo decisionale consapevole dello spazio, ovvero la capacità di riconoscere lo spazio a partire dalle informazioni sulle coordinate e prendere decisioni per evitare collisioni, e (2) la capacità di rispettare le regole del traffico. Tuttavia, non sono stati condotti studi quantitativi su quanto accuratamente diversi tipi di LLM possano gestire questi problemi. In questo studio, abbiamo valutato quantitativamente queste due capacità dei LLM nel contesto della guida autonoma. Inoltre, per condurre una Proof of Concept (POC) sulla fattibilità dell'implementazione di queste capacità in veicoli reali, abbiamo sviluppato un sistema che utilizza i LLM per guidare un veicolo.
Captum è una libreria completa per l'interpretabilità dei modelli in PyTorch, che offre una gamma di metodi tratti dalla letteratura sull'interpretabilità per migliorare la comprensione degli utenti riguardo ai modelli PyTorch. In questo articolo, presentiamo nuove funzionalità di Captum specificamente progettate per analizzare il comportamento dei modelli linguistici generativi. Forniamo una panoramica delle funzionalità disponibili e delle applicazioni esemplificative del loro potenziale per comprendere le associazioni apprese all'interno dei modelli linguistici generativi.
MEGA è una recente architettura basata su transformer, che utilizza un operatore ricorrente lineare la cui computazione parallela, basata sulla FFT, scala come O(LlogL), dove L è la lunghezza della sequenza. Costruiamo sul loro approccio sostituendo la ricorrenza lineare con una speciale rete convoluzionale temporale che consente una dimensione del campo ricettivo maggiore con reti più superficiali e riduce la complessità computazionale a O(L). Il modello risultante è chiamato TCNCA, una Rete Convoluzionale Temporale con Attenzione a Blocchi. Valutiamo TCNCA sulla modellazione del linguaggio EnWik8, sulla classificazione di sequenze long-range-arena (LRA), nonché su un benchmark sintetico di ragionamento associative recall. Su EnWik8, TCNCA supera MEGA, raggiungendo una perdita inferiore con un passaggio in avanti/indietro 1.37 volte/1.24 volte più veloce durante l'addestramento. Le convoluzioni dilatate utilizzate in TCNCA sono operazioni costantemente e significativamente più veloci rispetto alla ricorrenza parallelizzata basata su FFT nelle GPU, rendendole un candidato scalabile per gestire sequenze molto lunghe: sono fino a 7.07 volte/2.86 volte più veloci nel passaggio in avanti/indietro per sequenze fino a 131k. Inoltre, su LRA, TCNCA ottiene, in media, un'accelerazione di 1.28 volte durante l'inferenza con un'accuratezza simile a quella raggiunta da MEGA. Su associative recall, troviamo che anche una versione semplificata di TCNCA, senza eccessive interazioni moltiplicative e additive, rimane superiore o competitiva rispetto a MEGA su un intervallo di lunghezze di sequenza e dimensioni del vocabolario.
I Large Language Model (LLM) hanno dimostrato una potente capacità di generazione di testo. Tuttavia, ottenere risultati ottimali con un dato prompt o istruzione può essere impegnativo, specialmente per modelli di dimensioni nell'ordine dei miliardi. Inoltre, comportamenti indesiderati come tossicità o allucinazioni possono manifestarsi. Sebbene modelli molto più grandi (ad esempio, ChatGPT) possano dimostrare una maggiore capacità nel mitigare questi problemi, non vi è ancora alcuna garanzia di una prevenzione completa. In questo lavoro, proponiamo di formalizzare la generazione di testo come un problema di generazione vincolata al futuro, al fine di minimizzare i comportamenti indesiderati e garantire la fedeltà alle istruzioni. La stima della soddisfazione dei vincoli futuri, ottenuta utilizzando LLM, guida il processo di generazione del testo. I nostri ampi esperimenti dimostrano l'efficacia dell'approccio proposto in tre distinti compiti di generazione di testo: generazione vincolata da parole chiave (Lin et al., 2020), riduzione della tossicità (Gehman et al., 2020) e correttezza fattuale nel question-answering (Gao et al., 2023).
In questo articolo, studiamo empiricamente le dinamiche di ottimizzazione dell'apprendimento multi-task, concentrandoci in particolare su quelle che governano una raccolta di task con uno squilibrio significativo nei dati. Presentiamo un metodo semplice ma efficace di pre-addestramento su task ad alta disponibilità di dati, seguito da un affinamento su una miscela di task ad alta/bassa disponibilità di dati. Forniamo uno studio empirico approfondito e un'analisi dei vantaggi di questo metodo, dimostrando che esso raggiunge miglioramenti consistenti rispetto al profilo di compromesso delle prestazioni del classico approccio di ponderazione statica. Analizziamo in quali regimi di dati questo metodo è applicabile e ne dimostriamo i miglioramenti empiricamente nella traduzione automatica neurale (NMT) e nella modellazione del linguaggio multilingue.