Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo TinyLlama, un modello linguistico compatto da 1,1 miliardi di parametri pre-addestrato su circa 1 trilione di token per approssimativamente 3 epoche. Basandosi sull'architettura e sul tokenizer di Llama 2, TinyLlama sfrutta vari progressi contribuiti dalla comunità open-source (ad esempio, FlashAttention), raggiungendo una migliore efficienza computazionale. Nonostante le sue dimensioni relativamente ridotte, TinyLlama dimostra prestazioni notevoli in una serie di task downstream. Supera significativamente i modelli linguistici open-source esistenti di dimensioni comparabili. I nostri checkpoint del modello e il codice sono disponibili pubblicamente su GitHub all'indirizzo https://github.com/jzhang38/TinyLlama.
L'introduzione di ChatGPT ha portato a un significativo aumento nell'utilizzo dei Large Language Models (LLM) per affrontare task downstream. In questo contesto, c'è una crescente attenzione verso l'addestramento e il dispiegamento efficienti in termini di costi. L'addestramento e il dispiegamento a basso costo dei LLM rappresentano la tendenza futura dello sviluppo. Questo articolo esamina l'evoluzione delle tecniche di addestramento dei grandi modelli linguistici e delle tecnologie di inferenza e dispiegamento allineate a questa tendenza emergente. La discussione sull'addestramento include vari aspetti, tra cui la pre-elaborazione dei dati, l'architettura di addestramento, i task di pre-training, l'addestramento parallelo e i contenuti relativi al fine-tuning del modello. Sul lato dell'inferenza, l'articolo copre argomenti come la compressione del modello, il calcolo parallelo, la gestione della memoria e l'ottimizzazione strutturale. Esplora inoltre l'utilizzo dei LLM e fornisce approfondimenti sul loro sviluppo futuro.
Gli esseri umani generalmente acquisiscono nuove competenze senza compromettere quelle precedenti; tuttavia, il contrario vale per i Large Language Models (LLM), ad esempio da LLaMA a CodeLLaMA. A tal fine, proponiamo un nuovo metodo di post-pretraining per i LLM con un'espansione dei blocchi Transformer. Ottimizziamo i blocchi espansi utilizzando solo nuovi corpora, migliorando in modo efficiente ed efficace la conoscenza del modello senza incorrere in dimenticanza catastrofica. In questo articolo, sperimentiamo su corpora di codice e matematica, ottenendo LLaMA Pro-8.3B, un modello di base versatile inizializzato da LLaMA2-7B, eccellente in compiti generali, programmazione e matematica. LLaMA Pro e la sua controparte che segue le istruzioni (LLaMA Pro-Instruct) raggiungono prestazioni avanzate in vari benchmark, dimostrando una superiorità rispetto ai modelli open esistenti della famiglia LLaMA e il potenziale immenso nel ragionamento e nell'affrontare compiti diversi come agenti intelligenti. Le nostre scoperte forniscono intuizioni preziose sull'integrazione di linguaggi naturali e di programmazione, gettando una solida base per lo sviluppo di agenti linguistici avanzati che operano efficacemente in vari ambienti.
I modelli fondazionali con miliardi di parametri, addestrati su ampi corpora di dati, hanno dimostrato abilità non banali in una varietà di domini. Tuttavia, a causa della loro struttura monolitica, è complesso e costoso potenziarli o impartire loro nuove competenze. D'altro canto, grazie alle loro capacità di adattamento, diverse nuove istanze di questi modelli vengono addestrate per nuovi domini e compiti. In questo lavoro, studiamo il problema della composizione efficiente e pratica di modelli fondazionali esistenti con modelli più specifici per abilitare nuove capacità. A tal fine, proponiamo CALM -- Composition to Augment Language Models -- che introduce un meccanismo di cross-attention tra modelli per comporre le loro rappresentazioni e abilitare nuove funzionalità. Le caratteristiche salienti di CALM sono: (i) Scala i modelli linguistici di grandi dimensioni (LLM) su nuovi compiti "riutilizzando" LLM esistenti insieme a pochi parametri e dati aggiuntivi, (ii) I pesi dei modelli esistenti rimangono intatti, preservando così le capacità già acquisite, e (iii) Si applica a domini e contesti diversi. Dimostriamo che potenziare PaLM2-S con un modello più piccolo addestrato su lingue a bassa risorsa comporta un miglioramento assoluto fino al 13\% in compiti come la traduzione in inglese e il ragionamento aritmetico per lingue a bassa risorsa. Analogamente, quando PaLM2-S viene potenziato con un modello specifico per il codice, osserviamo un miglioramento relativo del 40\% rispetto al modello base per compiti di generazione e spiegazione del codice -- in linea con controparti completamente fine-tuned.
L'apprendimento per imitazione da dimostrazioni umane ha dimostrato prestazioni impressionanti nella robotica. Tuttavia, la maggior parte dei risultati si concentra su manipolazioni da tavolo, mancando della mobilità e destrezza necessarie per compiti generalmente utili. In questo lavoro, sviluppiamo un sistema per imitare compiti di manipolazione mobile che sono bimanuali e richiedono il controllo dell'intero corpo. Presentiamo innanzitutto Mobile ALOHA, un sistema di teleoperazione a basso costo e per l'intero corpo per la raccolta dati. Esso amplia il sistema ALOHA con una base mobile e un'interfaccia di teleoperazione per l'intero corpo. Utilizzando i dati raccolti con Mobile ALOHA, eseguiamo poi un cloning comportamentale supervisionato e scopriamo che l'addestramento congiunto con i dataset esistenti di ALOHA statico migliora le prestazioni sui compiti di manipolazione mobile. Con 50 dimostrazioni per ciascun compito, l'addestramento congiunto può aumentare i tassi di successo fino al 90%, consentendo a Mobile ALOHA di completare autonomamente complessi compiti di manipolazione mobile come saltare e servire un gamberetto, aprire un armadio a due ante per riporre pentole pesanti, chiamare e entrare in un ascensore, e sciacquare leggermente una padella usata utilizzando un rubinetto della cucina. Sito web del progetto: https://mobile-aloha.github.io
Questo articolo presenta instruct-imagen, un modello che affronta compiti eterogenei di generazione di immagini e generalizza su compiti non visti in precedenza. Introduciamo l'*istruzione multi-modale* per la generazione di immagini, una rappresentazione del compito che articola con precisione una gamma di intenti di generazione. Utilizza il linguaggio naturale per amalgamare modalità disparate (ad esempio, testo, contorni, stile, soggetto, ecc.), in modo che gli abbondanti intenti di generazione possano essere standardizzati in un formato uniforme. Successivamente, costruiamo instruct-imagen ottimizzando un modello di diffusione testo-immagine pre-addestrato con un framework a due fasi. In primo luogo, adattiamo il modello utilizzando l'addestramento potenziato dal recupero, per migliorare le capacità del modello di basare la generazione su un contesto multimodale esterno. In seguito, ottimizziamo il modello adattato su vari compiti di generazione di immagini che richiedono una comprensione visione-linguaggio (ad esempio, generazione guidata dal soggetto, ecc.), ciascuno associato a un'istruzione multi-modale che incapsula l'essenza del compito. La valutazione umana su vari dataset di generazione di immagini rivela che instruct-imagen eguaglia o supera i precedenti modelli specifici per compito nel dominio e dimostra una promettente generalizzazione su compiti non visti e più complessi.
In questo articolo, presentiamo LLaVA-phi (LLaVA-Phi), un assistente multimodale efficiente che sfrutta la potenza del recente modello linguistico di piccole dimensioni, Phi-2, per facilitare dialoghi multimodali. LLaVA-Phi rappresenta un progresso significativo nel campo dei modelli multimodali compatti. Dimostra che anche modelli linguistici più piccoli, con appena 2,7 miliardi di parametri, possono impegnarsi efficacemente in dialoghi complessi che integrano elementi testuali e visivi, purché siano addestrati con corpora di alta qualità. Il nostro modello offre prestazioni notevoli su benchmark pubblicamente disponibili che comprendono comprensione visiva, ragionamento e percezione basata sulla conoscenza. Oltre alla sua straordinaria performance nei compiti di dialogo multimodale, il nostro modello apre nuove strade per applicazioni in ambienti sensibili al tempo e sistemi che richiedono interazione in tempo reale, come agenti incarnati. Evidenzia il potenziale dei modelli linguistici più piccoli di raggiungere livelli sofisticati di comprensione e interazione, mantenendo al contempo una maggiore efficienza delle risorse. Il progetto è disponibile all'indirizzo {https://github.com/zhuyiche/llava-phi}.
Le Generative Adversarial Networks (GAN) 3D-aware hanno dimostrato progressi significativi nell'apprendimento della generazione di immagini multi-vista coerenti e geometrie 3D di scene a partire da collezioni di immagini 2D attraverso il rendering neurale volumetrico. Tuttavia, gli elevati costi di memoria e computazione legati al campionamento denso nel rendering volumetrico hanno costretto le GAN 3D ad adottare un addestramento basato su patch o a utilizzare rendering a bassa risoluzione con super-risoluzione 2D post-elaborazione, sacrificando la coerenza multi-vista e la qualità della geometria risolta. Di conseguenza, le GAN 3D non sono ancora state in grado di risolvere completamente la ricca geometria 3D presente nelle immagini 2D. In questo lavoro, proponiamo tecniche per scalare il rendering neurale volumetrico alla risoluzione molto più elevata delle immagini 2D native, risolvendo così geometrie 3D dettagliate con una precisione senza precedenti. Il nostro approccio utilizza campionatori basati sull'apprendimento per accelerare il rendering neurale nell'addestramento delle GAN 3D, impiegando fino a 5 volte meno campioni di profondità. Ciò ci consente di "rendere ogni pixel" dell'immagine a piena risoluzione durante l'addestramento e l'inferenza senza ricorrere alla super-risoluzione 2D post-elaborazione. Insieme alla nostra strategia per apprendere geometrie superficiali di alta qualità, il nostro metodo sintetizza geometrie 3D ad alta risoluzione e immagini strettamente coerenti rispetto alla vista, mantenendo una qualità dell'immagine pari a quella delle baseline che si affidano alla super-risoluzione post-elaborazione. Dimostriamo una qualità geometrica 3D all'avanguardia su FFHQ e AFHQ, stabilendo un nuovo standard per l'apprendimento non supervisionato di forme 3D nelle GAN 3D.
I modelli all'avanguardia nei benchmark contemporanei di percezione 3D come ScanNet elaborano ed etichettano nuvole di punti 3D fornite dai dataset, ottenute attraverso il post-processing di immagini RGB-D multiview acquisite. Questi modelli sono tipicamente addestrati in dominio, rinunciano a un pre-addestramento su larga scala in 2D e superano le alternative che invece caratterizzano le immagini RGB-D multiview con pose. La differenza di prestazioni tra i metodi che elaborano immagini con pose rispetto a quelli che utilizzano nuvole di punti 3D post-processate ha alimentato la convinzione che la percezione 2D e 3D richieda architetture di modelli distinte. In questo articolo, mettiamo in discussione questa visione e proponiamo ODIN (Omni-Dimensional INstance segmentation), un modello in grado di segmentare ed etichettare sia immagini RGB 2D che nuvole di punti 3D, utilizzando un'architettura transformer che alterna la fusione di informazioni 2D intra-view e 3D cross-view. Il nostro modello differenzia le operazioni su feature 2D e 3D attraverso gli encoding posizionali dei token coinvolti, che catturano le coordinate dei pixel per i token di patch 2D e le coordinate 3D per i token di feature 3D. ODIN raggiunge prestazioni all'avanguardia sui benchmark di segmentazione di istanze 3D ScanNet200, Matterport3D e AI2THOR, e prestazioni competitive su ScanNet, S3DIS e COCO. Supera tutti i lavori precedenti con un ampio margine quando la nuvola di punti 3D acquisita viene utilizzata al posto della nuvola di punti campionata da una mesh 3D. Quando utilizzato come motore di percezione 3D in un'architettura di agente embodied istruibile, stabilisce un nuovo stato dell'arte sul benchmark TEACh per l'azione basata sul dialogo. Il nostro codice e i checkpoint sono disponibili sul sito del progetto: https://odin-seg.github.io.
L'apprendimento di modelli 3D di tutti gli animali sulla Terra richiede un ampliamento massiccio delle soluzioni esistenti. Con questo obiettivo finale in mente, sviluppiamo 3D-Fauna, un approccio che apprende un modello deformabile 3D pan-categoria per più di 100 specie animali in modo congiunto. Uno dei principali colli di bottiglia nella modellazione degli animali è la disponibilità limitata di dati di addestramento, che superiamo semplicemente apprendendo da immagini 2D disponibili su Internet. Dimostriamo che i precedenti tentativi specifici per categoria non riescono a generalizzare per specie rare con un numero limitato di immagini di addestramento. Affrontiamo questa sfida introducendo il Semantic Bank of Skinned Models (SBSM), che scopre automaticamente un piccolo insieme di forme animali di base combinando prior geometrici induttivi con conoscenze semantiche catturate implicitamente da un estrattore di funzionalità auto-supervisionato disponibile sul mercato. Per addestrare un tale modello, contribuiamo anche con un nuovo dataset su larga scala di diverse specie animali. Al momento dell'inferenza, data una singola immagine di qualsiasi animale quadrupede, il nostro modello ricostruisce una mesh 3D articolata in modo feed-forward in pochi secondi.
L'emergenza di modelli linguistici di grandi dimensioni (LLM) come ChatGPT e LLaMA incontra limitazioni nei compiti specifici di dominio, con questi modelli che spesso mancano di profondità e accuratezza in aree specializzate, e mostrano una diminuzione delle capacità generali quando vengono sottoposti a fine-tuning, in particolare nella capacità di analisi nei modelli di piccole dimensioni. Per affrontare queste lacune, introduciamo ICE-GRT, utilizzando l'apprendimento per rinforzo basato sul feedback umano (RLHF) fondato sull'ottimizzazione delle politiche prossimali (PPO), dimostrando una notevole capacità negli scenari di dominio senza compromettere le prestazioni nei compiti generali. La nostra esplorazione di ICE-GRT evidenzia la sua capacità di comprensione e ragionamento non solo nel generare risposte robuste, ma anche nel fornire analisi dettagliate delle ragioni alla base della risposta. Questa capacità rappresenta un progresso significativo oltre lo scopo dei modelli di fine-tuning supervisionato. Il successo di ICE-GRT dipende da diversi fattori cruciali, tra cui Dati Appropriati, Scalatura della Ricompensa, Controllo KL, Normalizzazione del Vantaggio, ecc. Il modello ICE-GRT mostra prestazioni all'avanguardia nei compiti specifici di dominio e in 12 compiti linguistici generali rispetto a LLM di dimensioni equivalenti e persino maggiori, evidenziando l'efficacia del nostro approccio. Forniamo un'analisi completa di ICE-GRT, sottolineando i significativi progressi che apporta al campo dei LLM.
Percepire con precisione le proprietà geometriche e semantiche degli oggetti 3D del mondo reale è cruciale per l'evoluzione continua delle applicazioni di realtà aumentata e robotica. A tal fine, presentiamo (), che incorpora gli embedding visione-linguaggio dei modelli di base nel 3D Gaussian Splatting (GS). Il contributo chiave di questo lavoro è un metodo efficiente per ricostruire e rappresentare modelli 3D visione-linguaggio. Questo è ottenuto distillando le mappe di caratteristiche generate da modelli di base basati su immagini in quelle renderizzate dal nostro modello 3D. Per garantire un rendering di alta qualità e un addestramento rapido, introduciamo una nuova rappresentazione della scena integrando i punti di forza sia di GS che delle codifiche hash a multi-risoluzione (MHE). La nostra procedura di addestramento efficace introduce anche una perdita di allineamento dei pixel che rende vicina la distanza delle caratteristiche renderizzate delle stesse entità semantiche, seguendo i confini semantici a livello di pixel. I nostri risultati dimostrano una notevole coerenza semantica multi-vista, facilitando diverse attività downstream, superando i metodi all'avanguardia del 10,2 percento nel rilevamento di oggetti basato su linguaggio a vocabolario aperto, nonostante siamo 851 volte più veloci nell'inferenza. Questa ricerca esplora l'intersezione tra visione, linguaggio e rappresentazione di scene 3D, aprendo la strada a una migliore comprensione delle scene in ambienti reali non controllati. Prevediamo di rilasciare il codice all'accettazione del documento.
I modelli di diffusione rappresentano una nuova classe di modelli generativi e hanno notevolmente migliorato la generazione di immagini, raggiungendo una qualità e una diversità senza precedenti. I modelli di diffusione esistenti cercano principalmente di ricostruire un'immagine di input a partire da una corrotta, utilizzando vincoli pixel-wise o feature-wise lungo gli assi spaziali. Tuttavia, tale ricostruzione basata su singoli punti potrebbe non garantire che ogni pixel/feature previsto preservi completamente il contesto del suo intorno, compromettendo la sintesi di immagini basata sulla diffusione. Il contesto, come potente fonte di segnale di supervisione automatica, è stato ampiamente studiato per l'apprendimento di rappresentazioni. Ispirati da ciò, proponiamo per la prima volta ConPreDiff per migliorare la sintesi di immagini basata sulla diffusione attraverso la previsione del contesto. Esplicitamente rafforziamo ogni punto per prevedere il contesto del suo intorno (ad esempio, feature/token/pixel a multi-stride) utilizzando un decoder di contesto alla fine dei blocchi di denoising della diffusione durante la fase di addestramento, rimuovendo poi il decoder per l'inferenza. In questo modo, ogni punto può ricostruire se stesso in modo più efficace preservando le sue connessioni semantiche con il contesto circostante. Questo nuovo paradigma di ConPreDiff può generalizzarsi a qualsiasi backbone di diffusione discreta o continua senza introdurre parametri aggiuntivi durante la procedura di campionamento. Sono stati condotti esperimenti estesi su generazione di immagini incondizionata, generazione di immagini da testo e inpainting di immagini. Il nostro ConPreDiff supera costantemente i metodi precedenti e raggiunge nuovi risultati all'avanguardia nella generazione di immagini da testo su MS-COCO, con un punteggio FID zero-shot di 6.21.
Il ragionamento visivo è dominato da reti neurali end-to-end scalate a miliardi di parametri del modello e esempi di addestramento. Tuttavia, anche i modelli più grandi faticano con il ragionamento compositivo, la generalizzazione, il ragionamento spaziale e temporale fine e il conteggio. Il ragionamento visivo con modelli linguistici di grandi dimensioni (LLM) come controller può, in linea di principio, affrontare queste limitazioni scomponendo il compito e risolvendo i sottocompiti orchestrando un insieme di strumenti (visivi). Recentemente, questi modelli hanno ottenuto ottime prestazioni in compiti come il question answering visivo compositivo, il grounding visivo e il ragionamento temporale nei video. Tuttavia, nella loro forma attuale, questi modelli si basano fortemente sull'ingegnerizzazione umana di esempi in-context nel prompt, che sono spesso specifici per dataset e compiti e richiedono un lavoro significativo da parte di programmatori altamente qualificati. In questo lavoro, presentiamo un framework che mitiga questi problemi introducendo routine spazialmente e temporalmente astratte e sfruttando un piccolo numero di esempi etichettati per generare automaticamente esempi in-context, evitando così la creazione umana di esempi in-context. Su una serie di compiti di ragionamento visivo, dimostriamo che il nostro framework porta a guadagni consistenti nelle prestazioni, rende più robusta la configurazione degli LLM come controller e elimina la necessità di ingegnerizzazione umana degli esempi in-context.