HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

10 papers found

Non Lasciare Indietro Nessun Contesto: Trasformatori Efficienti con Contesto Infinito tramite Infini-attention
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Apr 10

ByTsendsuren Munkhdalai, Manaal Faruqui, Siddharth Gopal

111

Questo lavoro introduce un metodo efficiente per scalare i modelli linguistici di grandi dimensioni (LLM) basati su Transformer a input di lunghezza infinita con memoria e calcolo limitati. Un componente chiave del nostro approccio proposto è una nuova tecnica di attenzione denominata Infini-attention. L'Infini-attention incorpora una memoria compressiva nel meccanismo di attenzione standard e integra sia l'attenzione locale mascherata che i meccanismi di attenzione lineare a lungo termine in un singolo blocco Transformer. Dimostriamo l'efficacia del nostro approccio su benchmark di modellazione linguistica a contesto lungo, il recupero di blocchi di contesto passkey con sequenze di 1M di lunghezza e il riassunto di libri con sequenze di 500K di lunghezza utilizzando LLM da 1B e 8B parametri. Il nostro approccio introduce parametri di memoria limitati e consente un'inferenza in streaming rapida per i LLM.

RULER: Qual è la vera dimensione del contesto dei tuoi modelli linguistici a lungo contesto?
RULER: What's the Real Context Size of Your Long-Context Language Models?

Apr 9

ByCheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Boris Ginsburg

Il test "ago-in-un-pagliaio" (NIAH), che valuta la capacità di recuperare un'informazione specifica (l'"ago") da lunghi testi distrattori (il "pagliaio"), è stato ampiamente adottato per valutare i modelli linguistici (LM) con contesto lungo. Tuttavia, questo semplice test basato sul recupero è indicativo solo di una forma superficiale di comprensione del contesto lungo. Per fornire una valutazione più completa dei LM con contesto lungo, abbiamo creato un nuovo benchmark sintetico chiamato RULER con configurazioni flessibili per lunghezze di sequenza personalizzate e complessità del task. RULER amplia il classico test NIAH per includere variazioni con diversi tipi e quantità di aghi. Inoltre, RULER introduce nuove categorie di task come il tracciamento multi-hop e l'aggregazione per testare comportamenti che vanno oltre la semplice ricerca nel contesto. Abbiamo valutato dieci LM con contesto lungo utilizzando 13 task rappresentativi in RULER. Nonostante raggiungano un'accuratezza quasi perfetta nel classico test NIAH, tutti i modelli mostrano un calo significativo delle prestazioni all'aumentare della lunghezza del contesto. Sebbene questi modelli dichiarino tutti dimensioni del contesto di 32K token o superiori, solo quattro modelli (GPT-4, Command-R, Yi-34B e Mixtral) riescono a mantenere prestazioni soddisfacenti alla lunghezza di 32K. La nostra analisi di Yi-34B, che supporta una lunghezza del contesto di 200K, rivela un ampio margine di miglioramento all'aumentare della lunghezza dell'input e della complessità del task. RULER è stato reso open source per stimolare una valutazione completa dei LM con contesto lungo.

JetMoE: Raggiungere le prestazioni di Llama2 con 0,1 milioni di dollari
JetMoE: Reaching Llama2 Performance with 0.1M Dollars

Apr 11

ByYikang Shen, Zhen Guo, Tianle Cai, Zengyi Qin

I Large Language Model (LLM) hanno ottenuto risultati straordinari, ma la loro crescente richiesta di risorse è diventata un ostacolo significativo per lo sviluppo di un'intelligenza superumana potente e accessibile. Questo rapporto introduce JetMoE-8B, un nuovo LLM addestrato con meno di 0,1 milioni di dollari, utilizzando 1,25 trilioni di token provenienti da corpora open-source accuratamente miscelati e 30.000 ore di GPU H100. Nonostante il basso costo, JetMoE-8B dimostra prestazioni impressionanti, con JetMoE-8B che supera il modello Llama2-7B e JetMoE-8B-Chat che supera il modello Llama2-13B-Chat. Questi risultati suggeriscono che l'addestramento degli LLM può essere molto più conveniente di quanto generalmente si pensi. JetMoE-8B si basa su un'architettura efficiente di Sparsely-gated Mixture-of-Experts (SMoE), composta da esperti di attenzione e feedforward. Entrambi i livelli sono attivati in modo sparso, consentendo a JetMoE-8B di avere 8 miliardi di parametri mentre ne attiva solo 2 miliardi per ogni token di input, riducendo il calcolo di inferenza di circa il 70% rispetto a Llama2-7B. Inoltre, JetMoE-8B è altamente aperto e favorevole al mondo accademico, utilizzando solo dataset pubblici e codice di addestramento. Tutti i parametri di addestramento e le miscele di dati sono stati dettagliati in questo rapporto per facilitare futuri sforzi nello sviluppo di modelli di base aperti. Questa trasparenza mira a incoraggiare la collaborazione e ulteriori progressi nel campo degli LLM accessibili ed efficienti. I pesi del modello sono disponibili pubblicamente all'indirizzo https://github.com/myshell-ai/JetMoE.

RealmDreamer: Generazione di Scene 3D Guidata da Testo con Inpainting e Diffusione della Profondità
RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion

Apr 10

ByJaidev Shriram, Alex Trevithick, Lingjie Liu, Ravi Ramamoorthi

Presentiamo RealmDreamer, una tecnica per la generazione di scene 3D frontali generali a partire da descrizioni testuali. La nostra tecnica ottimizza una rappresentazione a splatting gaussiano 3D per adattarla a prompt testuali complessi. Inizializziamo questi splat utilizzando generatori testo-immagine all'avanguardia, elevando i loro campioni in 3D e calcolando il volume di occlusione. Successivamente, ottimizziamo questa rappresentazione attraverso più visualizzazioni come un'attività di inpainting 3D con modelli di diffusione condizionati da immagini. Per apprendere la corretta struttura geometrica, incorporiamo un modello di diffusione della profondità condizionando sui campioni del modello di inpainting, ottenendo una struttura geometrica ricca. Infine, affiniamo il modello utilizzando campioni nitidi dai generatori di immagini. È importante notare che la nostra tecnica non richiede dati video o multi-vista e può sintetizzare una varietà di scene 3D di alta qualità in diversi stili, composte da più oggetti. La sua generalità consente inoltre la sintesi 3D a partire da una singola immagine.

DreamScene360: Generazione non vincolata di scene 3D da testo con splatting gaussiano panoramico
DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting

Apr 10

ByShijie Zhou, Zhiwen Fan, Dejia Xu, Haoran Chang, Pradyumna Chari, Tejas Bharadwaj, Suya You, Zhangyang Wang, Achuta Kadambi

La crescente domanda di applicazioni di realtà virtuale ha evidenziato l'importanza di creare asset 3D immersivi. Presentiamo una pipeline di generazione di scene 360^{circ} da testo a 3D che facilita la creazione di scene 360^{circ} complete per ambienti reali in pochi minuti. Il nostro approccio sfrutta la potenza generativa di un modello di diffusione 2D e l'autoraffinamento delle prompt per creare un'immagine panoramica di alta qualità e coerenza globale. Questa immagine funge da rappresentazione preliminare "piatta" (2D) della scena. Successivamente, viene trasformata in Gaussiane 3D, utilizzando tecniche di splatting per consentire un'esplorazione in tempo reale. Per produrre una geometria 3D coerente, la nostra pipeline costruisce una struttura spazialmente coerente allineando la profondità monoculare 2D in una nuvola di punti ottimizzata globalmente. Questa nuvola di punti serve come stato iniziale per i centroidi delle Gaussiane 3D. Per affrontare i problemi di visibilità intrinseci agli input a vista singola, imponiamo vincoli semantici e geometrici sia sulle viste sintetizzate che su quelle della telecamera di input come regolarizzazioni. Questi guidano l'ottimizzazione delle Gaussiane, aiutando nella ricostruzione delle regioni non visibili. In sintesi, il nostro metodo offre una scena 3D globalmente coerente in una prospettiva 360^{circ}, fornendo un'esperienza immersiva migliorata rispetto alle tecniche esistenti. Sito web del progetto: http://dreamscene360.github.io/

Da Parole a Numeri: Il Tuo Modello Linguistico di Grandi Dimensioni è Segretamente un Abile Regressore Quando Fornito di Esempi in Contesto
From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples

Apr 11

ByRobert Vacareanu, Vlad-Andrei Negru, Vasile Suciu, Mihai Surdeanu

Analizziamo quanto bene i grandi modelli linguistici pre-addestrati (ad esempio, Llama2, GPT-4, Claude 3, ecc.) siano in grado di eseguire regressioni lineari e non lineari quando vengono forniti esempi in contesto, senza alcun addestramento aggiuntivo o aggiornamento dei gradienti. I nostri risultati rivelano che diversi grandi modelli linguistici (ad esempio, GPT-4, Claude 3) sono in grado di svolgere compiti di regressione con una performance che rivaleggia (o addirittura supera) quella dei metodi supervisionati tradizionali come Random Forest, Bagging o Gradient Boosting. Ad esempio, sul complesso dataset di regressione Friedman #2, Claude 3 supera molti metodi supervisionati come AdaBoost, SVM, Random Forest, KNN o Gradient Boosting. Successivamente, indaghiamo quanto bene la performance dei grandi modelli linguistici si ridimensiona con il numero di esempi in contesto. Prendiamo in prestito il concetto di rimpianto (regret) dall'apprendimento online e dimostriamo empiricamente che i grandi modelli linguistici sono in grado di ottenere un rimpianto sub-lineare.

BRAVE: Ampliamento della codifica visiva nei modelli visione-linguaggio
BRAVE: Broadening the visual encoding of vision-language models

Apr 10

ByOğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, Federico Tombari

I modelli visione-linguaggio (VLMs) sono tipicamente composti da un encoder visivo, ad esempio CLIP, e da un modello linguistico (LM) che interpreta le caratteristiche codificate per risolvere task downstream. Nonostante i notevoli progressi, i VLMs presentano diverse limitazioni dovute alle capacità ridotte degli encoder visivi, come la "cecità" a determinate caratteristiche delle immagini, allucinazioni visive, ecc. Per affrontare questi problemi, studiamo l'ampliamento delle capacità di codifica visiva dei VLMs. Inizialmente, eseguiamo un benchmark completo di diversi encoder visivi con diversi bias induttivi per risolvere task di VLMs. Osserviamo che non esiste una singola configurazione di codifica che ottenga costantemente prestazioni migliori su task diversi, e che encoder con bias diversi possono performare in modo sorprendentemente simile. Motivati da ciò, introduciamo un metodo, denominato BRAVE, che consolida le caratteristiche di più encoder congelati in una rappresentazione più versatile che può essere direttamente utilizzata come input per un LM congelato. BRAVE raggiunge prestazioni all'avanguardia su un'ampia gamma di benchmark di captioning e VQA e riduce significativamente i problemi sopra menzionati dei VLMs, richiedendo un numero inferiore di parametri addestrabili rispetto ai metodi esistenti e avendo una rappresentazione più compressa. I nostri risultati evidenziano il potenziale dell'incorporazione di diversi bias visivi per una comprensione visiva più ampia e contestualizzata nei VLMs.

Adattamento del Decoder LLaMA al Vision Transformer
Adapting LLaMA Decoder to Vision Transformer

Apr 10

ByJiahao Wang, Wenqi Shao, Mengzhao Chen, Chengyue Wu, Yong Liu, Kaipeng Zhang, Songyang Zhang, Kai Chen, Ping Luo

Questo lavoro esamina se i Transformer decoder-only come LLaMA, originariamente progettati per modelli linguistici di grandi dimensioni (LLM), possano essere adattati al campo della visione artificiale. Iniziamo "LLaMAficando" passo dopo passo un ViT standard per allinearlo all'architettura di LLaMA, e scopriamo che l'applicazione diretta di una maschera causale all'auto-attenzione provoca un collasso dell'attenzione, portando al fallimento dell'addestramento della rete. Proponiamo di riposizionare il token di classe dietro i token dell'immagine con una tecnica di token di classe post-sequenza per superare questa sfida, consentendo all'auto-attenzione causale di catturare efficacemente l'intera informazione dell'immagine. Inoltre, sviluppiamo una strategia di maschera soft che introduce gradualmente una maschera causale all'auto-attenzione all'inizio dell'addestramento per facilitare il comportamento di ottimizzazione. Il modello personalizzato, denominato image LLaMA (iLLaMA), è simile a LLaMA nell'architettura e consente l'apprendimento supervisionato diretto. La sua auto-attenzione causale aumenta l'efficienza computazionale e apprende rappresentazioni complesse elevando i ranghi delle mappe di attenzione. iLLaMA rivaleggia con le prestazioni delle controparti encoder-only, raggiungendo un'accuratezza top-1 su ImageNet del 75,1% con soli 5,7M di parametri. Scalare il modello a ~310M e pre-addestrarlo su ImageNet-21K migliora ulteriormente l'accuratezza all'86,0%. Esperimenti estensivi dimostrano le proprietà affidabili di iLLaMA: calibrazione, bias forma-texture, compatibilità con la quantizzazione, segmentazione ADE20K e transfer learning su CIFAR. Speriamo che il nostro studio possa accendere nuove prospettive sul design dei modelli visivi nell'onda degli LLM. Modelli pre-addestrati e codici sono disponibili qui.

Dialoghi Audio: Dataset di dialoghi per la comprensione dell'audio e della musica
Audio Dialogues: Dialogues dataset for audio and music understanding

Apr 11

ByArushi Goel, Zhifeng Kong, Rafael Valle, Bryan Catanzaro

I dataset esistenti per la comprensione audio si concentrano principalmente su interazioni a turno singolo (ad esempio, descrizione audio, risposta a domande audio) per descrivere l'audio in linguaggio naturale, limitando così la comprensione dell'audio tramite dialoghi interattivi. Per colmare questa lacuna, introduciamo Audio Dialogues: un dataset di dialoghi multi-turno contenente 163.8k campioni per suoni generali e musica. Oltre ai dialoghi, Audio Dialogues include anche coppie domanda-risposta per comprendere e confrontare più input audio insieme. Audio Dialogues sfrutta un approccio basato su prompt e annotazioni di descrizione da dataset esistenti per generare dialoghi multi-turno utilizzando un Large Language Model (LLM). Valutiamo i modelli linguistici di grandi dimensioni potenziati per l'audio sul nostro dataset proposto per dimostrare la complessità e l'applicabilità di Audio Dialogues. Il nostro codice per la generazione del dataset sarà reso pubblicamente disponibile. Prompt dettagliati e dialoghi generati possono essere trovati sul sito demo https://audiodialogues.github.io/.

Efficienza Trasferibile e Principiata per la Segmentazione a Vocabolario Aperto
Transferable and Principled Efficiency for Open-Vocabulary Segmentation

Apr 11

ByJingxuan Xu, Wuyang Chen, Yao Zhao, Yunchao Wei

Il recente successo dei modelli pre-addestrati di visione e linguaggio ha reso possibile la Segmentazione a Vocabolario Aperto (Open-Vocabulary Segmentation, OVS). Nonostante le prestazioni promettenti, questo approccio introduce un pesante sovraccarico computazionale a causa di due sfide principali: 1) le dimensioni elevate dei modelli di base; 2) i costi elevati durante la fase di fine-tuning. Queste sfide limitano l'applicabilità e l'accessibilità di questa strategia OVS negli scenari reali. Sebbene metodi tradizionali come la compressione dei modelli e il fine-tuning efficiente possano affrontare queste sfide, spesso si basano su euristiche. Ciò significa che le loro soluzioni non possono essere facilmente trasferite e richiedono un ri-addestramento su modelli diversi, con un costo associato. Nel contesto di un OVS efficiente, il nostro obiettivo è raggiungere prestazioni paragonabili o addirittura superiori rispetto ai precedenti lavori OVS basati su grandi modelli di visione e linguaggio, utilizzando modelli più piccoli che comportano costi di addestramento inferiori. La strategia principale è rendere la nostra efficienza basata su principi e quindi trasferibile senza soluzione di continuità da un framework OVS a un altro senza ulteriori personalizzazioni. Esperimenti completi su diversi benchmark OVS dimostrano il nostro miglior compromesso tra accuratezza di segmentazione e costi computazionali rispetto ai lavori precedenti. Il nostro codice è disponibile su https://github.com/Xujxyang/OpenTrans.

Adattamento del Decoder LLaMA al Vision Transformer
Adapting LLaMA Decoder to Vision Transformer

Apr 10

ByJiahao Wang, Wenqi Shao, Mengzhao Chen, Chengyue Wu, Yong Liu, Kaipeng Zhang, Songyang Zhang, Kai Chen, Ping Luo