Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo lavoro introduce un metodo efficiente per scalare i modelli linguistici di grandi dimensioni (LLM) basati su Transformer a input di lunghezza infinita con memoria e calcolo limitati. Un componente chiave del nostro approccio proposto è una nuova tecnica di attenzione denominata Infini-attention. L'Infini-attention incorpora una memoria compressiva nel meccanismo di attenzione standard e integra sia l'attenzione locale mascherata che i meccanismi di attenzione lineare a lungo termine in un singolo blocco Transformer. Dimostriamo l'efficacia del nostro approccio su benchmark di modellazione linguistica a contesto lungo, il recupero di blocchi di contesto passkey con sequenze di 1M di lunghezza e il riassunto di libri con sequenze di 500K di lunghezza utilizzando LLM da 1B e 8B parametri. Il nostro approccio introduce parametri di memoria limitati e consente un'inferenza in streaming rapida per i LLM.
Il test "ago-in-un-pagliaio" (NIAH), che valuta la capacità di recuperare un'informazione specifica (l'"ago") da lunghi testi distrattori (il "pagliaio"), è stato ampiamente adottato per valutare i modelli linguistici (LM) con contesto lungo. Tuttavia, questo semplice test basato sul recupero è indicativo solo di una forma superficiale di comprensione del contesto lungo. Per fornire una valutazione più completa dei LM con contesto lungo, abbiamo creato un nuovo benchmark sintetico chiamato RULER con configurazioni flessibili per lunghezze di sequenza personalizzate e complessità del task. RULER amplia il classico test NIAH per includere variazioni con diversi tipi e quantità di aghi. Inoltre, RULER introduce nuove categorie di task come il tracciamento multi-hop e l'aggregazione per testare comportamenti che vanno oltre la semplice ricerca nel contesto. Abbiamo valutato dieci LM con contesto lungo utilizzando 13 task rappresentativi in RULER. Nonostante raggiungano un'accuratezza quasi perfetta nel classico test NIAH, tutti i modelli mostrano un calo significativo delle prestazioni all'aumentare della lunghezza del contesto. Sebbene questi modelli dichiarino tutti dimensioni del contesto di 32K token o superiori, solo quattro modelli (GPT-4, Command-R, Yi-34B e Mixtral) riescono a mantenere prestazioni soddisfacenti alla lunghezza di 32K. La nostra analisi di Yi-34B, che supporta una lunghezza del contesto di 200K, rivela un ampio margine di miglioramento all'aumentare della lunghezza dell'input e della complessità del task. RULER è stato reso open source per stimolare una valutazione completa dei LM con contesto lungo.
I Large Language Model (LLM) hanno ottenuto risultati straordinari, ma la loro crescente richiesta di risorse è diventata un ostacolo significativo per lo sviluppo di un'intelligenza superumana potente e accessibile. Questo rapporto introduce JetMoE-8B, un nuovo LLM addestrato con meno di 0,1 milioni di dollari, utilizzando 1,25 trilioni di token provenienti da corpora open-source accuratamente miscelati e 30.000 ore di GPU H100. Nonostante il basso costo, JetMoE-8B dimostra prestazioni impressionanti, con JetMoE-8B che supera il modello Llama2-7B e JetMoE-8B-Chat che supera il modello Llama2-13B-Chat. Questi risultati suggeriscono che l'addestramento degli LLM può essere molto più conveniente di quanto generalmente si pensi. JetMoE-8B si basa su un'architettura efficiente di Sparsely-gated Mixture-of-Experts (SMoE), composta da esperti di attenzione e feedforward. Entrambi i livelli sono attivati in modo sparso, consentendo a JetMoE-8B di avere 8 miliardi di parametri mentre ne attiva solo 2 miliardi per ogni token di input, riducendo il calcolo di inferenza di circa il 70% rispetto a Llama2-7B. Inoltre, JetMoE-8B è altamente aperto e favorevole al mondo accademico, utilizzando solo dataset pubblici e codice di addestramento. Tutti i parametri di addestramento e le miscele di dati sono stati dettagliati in questo rapporto per facilitare futuri sforzi nello sviluppo di modelli di base aperti. Questa trasparenza mira a incoraggiare la collaborazione e ulteriori progressi nel campo degli LLM accessibili ed efficienti. I pesi del modello sono disponibili pubblicamente all'indirizzo https://github.com/myshell-ai/JetMoE.
Presentiamo RealmDreamer, una tecnica per la generazione di scene 3D frontali generali a partire da descrizioni testuali. La nostra tecnica ottimizza una rappresentazione a splatting gaussiano 3D per adattarla a prompt testuali complessi. Inizializziamo questi splat utilizzando generatori testo-immagine all'avanguardia, elevando i loro campioni in 3D e calcolando il volume di occlusione. Successivamente, ottimizziamo questa rappresentazione attraverso più visualizzazioni come un'attività di inpainting 3D con modelli di diffusione condizionati da immagini. Per apprendere la corretta struttura geometrica, incorporiamo un modello di diffusione della profondità condizionando sui campioni del modello di inpainting, ottenendo una struttura geometrica ricca. Infine, affiniamo il modello utilizzando campioni nitidi dai generatori di immagini. È importante notare che la nostra tecnica non richiede dati video o multi-vista e può sintetizzare una varietà di scene 3D di alta qualità in diversi stili, composte da più oggetti. La sua generalità consente inoltre la sintesi 3D a partire da una singola immagine.
La crescente domanda di applicazioni di realtà virtuale ha evidenziato l'importanza di creare asset 3D immersivi. Presentiamo una pipeline di generazione di scene 360^{circ} da testo a 3D che facilita la creazione di scene 360^{circ} complete per ambienti reali in pochi minuti. Il nostro approccio sfrutta la potenza generativa di un modello di diffusione 2D e l'autoraffinamento delle prompt per creare un'immagine panoramica di alta qualità e coerenza globale. Questa immagine funge da rappresentazione preliminare "piatta" (2D) della scena. Successivamente, viene trasformata in Gaussiane 3D, utilizzando tecniche di splatting per consentire un'esplorazione in tempo reale. Per produrre una geometria 3D coerente, la nostra pipeline costruisce una struttura spazialmente coerente allineando la profondità monoculare 2D in una nuvola di punti ottimizzata globalmente. Questa nuvola di punti serve come stato iniziale per i centroidi delle Gaussiane 3D. Per affrontare i problemi di visibilità intrinseci agli input a vista singola, imponiamo vincoli semantici e geometrici sia sulle viste sintetizzate che su quelle della telecamera di input come regolarizzazioni. Questi guidano l'ottimizzazione delle Gaussiane, aiutando nella ricostruzione delle regioni non visibili. In sintesi, il nostro metodo offre una scena 3D globalmente coerente in una prospettiva 360^{circ}, fornendo un'esperienza immersiva migliorata rispetto alle tecniche esistenti. Sito web del progetto: http://dreamscene360.github.io/
Analizziamo quanto bene i grandi modelli linguistici pre-addestrati (ad esempio, Llama2, GPT-4, Claude 3, ecc.) siano in grado di eseguire regressioni lineari e non lineari quando vengono forniti esempi in contesto, senza alcun addestramento aggiuntivo o aggiornamento dei gradienti. I nostri risultati rivelano che diversi grandi modelli linguistici (ad esempio, GPT-4, Claude 3) sono in grado di svolgere compiti di regressione con una performance che rivaleggia (o addirittura supera) quella dei metodi supervisionati tradizionali come Random Forest, Bagging o Gradient Boosting. Ad esempio, sul complesso dataset di regressione Friedman #2, Claude 3 supera molti metodi supervisionati come AdaBoost, SVM, Random Forest, KNN o Gradient Boosting. Successivamente, indaghiamo quanto bene la performance dei grandi modelli linguistici si ridimensiona con il numero di esempi in contesto. Prendiamo in prestito il concetto di rimpianto (regret) dall'apprendimento online e dimostriamo empiricamente che i grandi modelli linguistici sono in grado di ottenere un rimpianto sub-lineare.
I modelli visione-linguaggio (VLMs) sono tipicamente composti da un encoder visivo, ad esempio CLIP, e da un modello linguistico (LM) che interpreta le caratteristiche codificate per risolvere task downstream. Nonostante i notevoli progressi, i VLMs presentano diverse limitazioni dovute alle capacità ridotte degli encoder visivi, come la "cecità" a determinate caratteristiche delle immagini, allucinazioni visive, ecc. Per affrontare questi problemi, studiamo l'ampliamento delle capacità di codifica visiva dei VLMs. Inizialmente, eseguiamo un benchmark completo di diversi encoder visivi con diversi bias induttivi per risolvere task di VLMs. Osserviamo che non esiste una singola configurazione di codifica che ottenga costantemente prestazioni migliori su task diversi, e che encoder con bias diversi possono performare in modo sorprendentemente simile. Motivati da ciò, introduciamo un metodo, denominato BRAVE, che consolida le caratteristiche di più encoder congelati in una rappresentazione più versatile che può essere direttamente utilizzata come input per un LM congelato. BRAVE raggiunge prestazioni all'avanguardia su un'ampia gamma di benchmark di captioning e VQA e riduce significativamente i problemi sopra menzionati dei VLMs, richiedendo un numero inferiore di parametri addestrabili rispetto ai metodi esistenti e avendo una rappresentazione più compressa. I nostri risultati evidenziano il potenziale dell'incorporazione di diversi bias visivi per una comprensione visiva più ampia e contestualizzata nei VLMs.
Questo lavoro esamina se i Transformer decoder-only come LLaMA, originariamente progettati per modelli linguistici di grandi dimensioni (LLM), possano essere adattati al campo della visione artificiale. Iniziamo "LLaMAficando" passo dopo passo un ViT standard per allinearlo all'architettura di LLaMA, e scopriamo che l'applicazione diretta di una maschera causale all'auto-attenzione provoca un collasso dell'attenzione, portando al fallimento dell'addestramento della rete. Proponiamo di riposizionare il token di classe dietro i token dell'immagine con una tecnica di token di classe post-sequenza per superare questa sfida, consentendo all'auto-attenzione causale di catturare efficacemente l'intera informazione dell'immagine. Inoltre, sviluppiamo una strategia di maschera soft che introduce gradualmente una maschera causale all'auto-attenzione all'inizio dell'addestramento per facilitare il comportamento di ottimizzazione. Il modello personalizzato, denominato image LLaMA (iLLaMA), è simile a LLaMA nell'architettura e consente l'apprendimento supervisionato diretto. La sua auto-attenzione causale aumenta l'efficienza computazionale e apprende rappresentazioni complesse elevando i ranghi delle mappe di attenzione. iLLaMA rivaleggia con le prestazioni delle controparti encoder-only, raggiungendo un'accuratezza top-1 su ImageNet del 75,1% con soli 5,7M di parametri. Scalare il modello a ~310M e pre-addestrarlo su ImageNet-21K migliora ulteriormente l'accuratezza all'86,0%. Esperimenti estensivi dimostrano le proprietà affidabili di iLLaMA: calibrazione, bias forma-texture, compatibilità con la quantizzazione, segmentazione ADE20K e transfer learning su CIFAR. Speriamo che il nostro studio possa accendere nuove prospettive sul design dei modelli visivi nell'onda degli LLM. Modelli pre-addestrati e codici sono disponibili qui.
I dataset esistenti per la comprensione audio si concentrano principalmente su interazioni a turno singolo (ad esempio, descrizione audio, risposta a domande audio) per descrivere l'audio in linguaggio naturale, limitando così la comprensione dell'audio tramite dialoghi interattivi. Per colmare questa lacuna, introduciamo Audio Dialogues: un dataset di dialoghi multi-turno contenente 163.8k campioni per suoni generali e musica. Oltre ai dialoghi, Audio Dialogues include anche coppie domanda-risposta per comprendere e confrontare più input audio insieme. Audio Dialogues sfrutta un approccio basato su prompt e annotazioni di descrizione da dataset esistenti per generare dialoghi multi-turno utilizzando un Large Language Model (LLM). Valutiamo i modelli linguistici di grandi dimensioni potenziati per l'audio sul nostro dataset proposto per dimostrare la complessità e l'applicabilità di Audio Dialogues. Il nostro codice per la generazione del dataset sarà reso pubblicamente disponibile. Prompt dettagliati e dialoghi generati possono essere trovati sul sito demo https://audiodialogues.github.io/.
Il recente successo dei modelli pre-addestrati di visione e linguaggio ha reso possibile la Segmentazione a Vocabolario Aperto (Open-Vocabulary Segmentation, OVS). Nonostante le prestazioni promettenti, questo approccio introduce un pesante sovraccarico computazionale a causa di due sfide principali: 1) le dimensioni elevate dei modelli di base; 2) i costi elevati durante la fase di fine-tuning. Queste sfide limitano l'applicabilità e l'accessibilità di questa strategia OVS negli scenari reali. Sebbene metodi tradizionali come la compressione dei modelli e il fine-tuning efficiente possano affrontare queste sfide, spesso si basano su euristiche. Ciò significa che le loro soluzioni non possono essere facilmente trasferite e richiedono un ri-addestramento su modelli diversi, con un costo associato. Nel contesto di un OVS efficiente, il nostro obiettivo è raggiungere prestazioni paragonabili o addirittura superiori rispetto ai precedenti lavori OVS basati su grandi modelli di visione e linguaggio, utilizzando modelli più piccoli che comportano costi di addestramento inferiori. La strategia principale è rendere la nostra efficienza basata su principi e quindi trasferibile senza soluzione di continuità da un framework OVS a un altro senza ulteriori personalizzazioni. Esperimenti completi su diversi benchmark OVS dimostrano il nostro miglior compromesso tra accuratezza di segmentazione e costi computazionali rispetto ai lavori precedenti. Il nostro codice è disponibile su https://github.com/Xujxyang/OpenTrans.