HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

10 papers found

Jamba: Un Modello Linguistico Ibrido Transformer-Mamba
Jamba: A Hybrid Transformer-Mamba Language Model

Mar 28

ByOpher Lieber, Barak Lenz, Hofit Bata, Gal Cohen, Jhonathan Osin, Itay Dalmedigos, Erez Safahi, Shaked Meirom, Yonatan Belinkov, Shai Shalev-Shwartz, Omri Abend, Raz Alon, Tomer Asida, Amir Bergman, Roman Glozman, Michael Gokhman, Avashalom Manevich, Nir Ratner, Noam Rozen, Erez Shwartz, Mor Zusman, Yoav Shoham

111

Presentiamo Jamba, un nuovo modello linguistico di base di grandi dimensioni basato su una innovativa architettura ibrida Transformer-Mamba con mixture-of-experts (MoE). Nello specifico, Jamba intercala blocchi di layer Transformer e Mamba, sfruttando i vantaggi di entrambe le famiglie di modelli. Il MoE viene aggiunto in alcuni di questi layer per aumentare la capacità del modello mantenendo gestibile l'utilizzo dei parametri attivi. Questa architettura flessibile consente configurazioni specifiche per risorse e obiettivi. Nella configurazione particolare che abbiamo implementato, otteniamo un modello potente che può essere contenuto in una singola GPU da 80GB. Costruito su larga scala, Jamba offre un'elevata produttività e una ridotta impronta di memoria rispetto ai Transformer tradizionali, mantenendo al contempo prestazioni all'avanguardia nei benchmark standard per modelli linguistici e nelle valutazioni su contesti lunghi. In modo notevole, il modello presenta risultati solidi per contesti fino a 256K token. Studiamo varie decisioni architetturali, come combinare i layer Transformer e Mamba e come miscelare gli esperti, dimostrando che alcune di esse sono cruciali nella modellazione su larga scala. Descriviamo inoltre diverse proprietà interessanti di queste architetture emerse durante l'addestramento e la valutazione di Jamba, e prevediamo di rilasciare checkpoint da varie esecuzioni di ablazione, per incoraggiare ulteriori esplorazioni di questa innovativa architettura. Rendiamo pubblicamente disponibili i pesi della nostra implementazione di Jamba sotto una licenza permissiva.

Gecko: Embedding Testuali Versatili Distillati da Modelli Linguistici di Grande Dimensione
Gecko: Versatile Text Embeddings Distilled from Large Language Models

Mar 29

ByJinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim

Presentiamo Gecko, un modello di embedding testuale compatto e versatile. Gecco ottiene prestazioni di retrieval robuste sfruttando un'idea chiave: distillare la conoscenza da modelli linguistici di grandi dimensioni (LLM) in un retriever. Il nostro processo di distillazione in due fasi inizia con la generazione di dati sintetici accoppiati e diversificati utilizzando un LLM. Successivamente, perfezioniamo ulteriormente la qualità dei dati recuperando un insieme di passaggi candidati per ciascuna query e rietichettando i passaggi positivi e quelli negativi difficili utilizzando lo stesso LLM. L'efficacia del nostro approccio è dimostrata dalla compattezza di Gecko. Sul Massive Text Embedding Benchmark (MTEB), Gecko con 256 dimensioni di embedding supera tutte le voci esistenti con dimensioni di embedding pari a 768. Gecko con 768 dimensioni di embedding raggiunge un punteggio medio di 66.31, competendo con modelli 7 volte più grandi e embedding con dimensioni 5 volte superiori.

Transformer-Lite: Implementazione ad alta efficienza di modelli linguistici di grandi dimensioni su GPU di telefoni cellulari
Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs

Mar 29

ByLuchang Li, Sheng Qian, Jie Lu, Lunxi Yuan, Rui Wang, Qin Xie

Il Large Language Model (LLM) è ampiamente utilizzato per compiti come assistenti intelligenti, riassunto di testi, traduzione e multi-modalità sui telefoni cellulari. Tuttavia, i metodi attuali per il deployment on-device degli LLM mantengono una velocità di inferenza lenta, causando una scarsa esperienza utente. Per facilitare un deployment ad alta efficienza degli LLM sulle GPU dei dispositivi, proponiamo quattro tecniche di ottimizzazione: (a) un approccio basato su espressioni simboliche per supportare l'inferenza di modelli con forma dinamica; (b) ottimizzazioni degli operatori e impostazione della priorità di esecuzione per migliorare la velocità di inferenza e ridurre i rallentamenti del telefono; (c) un metodo di quantizzazione FP4 denominato M0E4 per ridurre l'overhead di dequantizzazione; (d) una tecnica basata su sub-tensor per eliminare la necessità di copiare la cache KV dopo l'inferenza dell'LLM. Inoltre, implementiamo questi metodi nel nostro motore di inferenza mobile, Transformer-Lite, compatibile sia con processori Qualcomm che MTK. Abbiamo valutato le prestazioni di Transformer-Lite utilizzando LLM con architetture e parametri variabili da 2B a 14B. In particolare, abbiamo raggiunto velocità di prefill e decodifica di 121 token/s e 14 token/s per ChatGLM2 6B, e rispettivamente 330 token/s e 30 token/s per il più piccolo Gemma 2B. Rispetto a FastLLM basato su CPU e MLC-LLM basato su GPU, il nostro motore ottiene un incremento di velocità superiore a 10x per la velocità di prefill e di 2~3x per la velocità di decodifica.

ReALM: Risoluzione dei Riferimenti come Modellazione Linguistica
ReALM: Reference Resolution As Language Modeling

Mar 29

ByJoel Ruben Antony Moniz, Soundarya Krishnan, Melis Ozyildirim, Prathamesh Saraf, Halim Cagri Ates, Yuan Zhang, Hong Yu, Nidhi Rajshree

La risoluzione dei riferimenti è un problema importante, essenziale per comprendere e gestire con successo contesti di diverso tipo. Questo contesto include sia i turni precedenti che il contesto relativo a entità non conversazionali, come le entità presenti sullo schermo dell'utente o quelle in esecuzione in background. Sebbene i modelli linguistici di grandi dimensioni (LLM) si siano dimostrati estremamente potenti per una varietà di compiti, il loro utilizzo nella risoluzione dei riferimenti, in particolare per entità non conversazionali, rimane sottoutilizzato. Questo articolo dimostra come gli LLM possano essere utilizzati per creare un sistema estremamente efficace per risolvere riferimenti di vario tipo, mostrando come la risoluzione dei riferimenti possa essere convertita in un problema di modellazione del linguaggio, nonostante coinvolga forme di entità come quelle sullo schermo che tradizionalmente non si prestano a essere ridotte a una modalità esclusivamente testuale. Dimostriamo miglioramenti significativi rispetto a un sistema esistente con funzionalità simili per diversi tipi di riferimenti, con il nostro modello più piccolo che ottiene guadagni assoluti di oltre il 5% per i riferimenti sullo schermo. Confrontiamo anche le prestazioni con GPT-3.5 e GPT-4, con il nostro modello più piccolo che raggiunge prestazioni paragonabili a quelle di GPT-4, e i nostri modelli più grandi che superano sostanzialmente GPT-4.

InstantSplat: Gaussian Splatting Illimitato con Viste Sparse e Senza Posa in 40 Secondi
InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds

Mar 29

ByZhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang

Mentre la sintesi di nuove viste (NVS) ha compiuto progressi significativi nella visione artificiale 3D, richiede tipicamente una stima iniziale dei parametri intrinseci ed estrinseci della fotocamera da punti di vista densi. Questo pre-processing viene solitamente condotto tramite una pipeline Structure-from-Motion (SfM), una procedura che può essere lenta e inaffidabile, specialmente in scenari con viste sparse in cui le caratteristiche corrispondenti sono insufficienti per una ricostruzione accurata. In questo lavoro, integriamo i punti di forza delle rappresentazioni basate su punti (ad esempio, 3D Gaussian Splatting, 3D-GS) con modelli di stereo denso end-to-end (DUSt3R) per affrontare le complesse ma irrisolte problematiche della NVS in contesti non vincolati, che includono sfide legate all'assenza di pose e alle viste sparse. Il nostro framework, InstantSplat, unisce i priori di stereo denso con il 3D-GS per costruire Gaussiane 3D di scene su larga scala a partire da immagini sparse e senza pose in meno di 1 minuto. Nello specifico, InstantSplat comprende un modulo di Inizializzazione Geometrica Approssimativa (CGI) che stabilisce rapidamente una struttura preliminare della scena e i parametri della fotocamera per tutte le viste di addestramento, utilizzando mappe di punti 3D allineate globalmente derivate da una pipeline di stereo denso pre-addestrata. Questo è seguito dal modulo di Ottimizzazione Rapida delle Gaussiane 3D (F-3DGO), che ottimizza congiuntamente gli attributi delle Gaussiane 3D e le pose inizializzate con regolarizzazione delle pose. Gli esperimenti condotti sui dataset su larga scala Tanks & Temples dimostrano che InstantSplat migliora significativamente l'SSIM (del 32%) riducendo contemporaneamente l'Errore Assoluto della Traiettoria (ATE) dell'80%. Questi risultati stabiliscono InstantSplat come una soluzione valida per scenari che coinvolgono condizioni senza pose e con viste sparse. Pagina del progetto: instantsplat.github.io.

Rilevamento di Problemi Irrisolvibili: Valutazione dell'Affidabilità dei Modelli di Linguaggio Visivo
Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models

Mar 29

ByAtsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa

Questo articolo introduce una nuova e significativa sfida per i Modelli di Visione e Linguaggio (VLMs), denominata Rilevazione di Problemi Irrisolvibili (UPD). L'UPD esamina la capacità dei VLMs di astenersi dal fornire risposte quando si confrontano con problemi irrisolvibili nel contesto di attività di Risposta a Domande Visuali (VQA). L'UPD comprende tre contesti distinti: Rilevazione di Risposte Assenti (AAD), Rilevazione di Insiemi di Risposte Incompatibili (IASD) e Rilevazione di Domande Visuali Incompatibili (IVQD). Per approfondire il problema dell'UPD, esperimenti estensivi indicano che la maggior parte dei VLMs, inclusi GPT-4V e LLaVA-Next-34B, incontrano difficoltà nei nostri benchmark in misura variabile, evidenziando un significativo margine di miglioramento. Per affrontare l'UPD, esploriamo sia soluzioni senza addestramento che basate su addestramento, offrendo nuove intuizioni sulla loro efficacia e limitazioni. Speriamo che le nostre intuizioni, insieme a futuri sforzi nei contesti proposti dall'UPD, contribuiscano a una migliore comprensione e sviluppo di VLMs più pratici e affidabili.

Localizzazione della Memorizzazione di Paragrafi nei Modelli Linguistici
Localizing Paragraph Memorization in Language Models

Mar 28

ByNiklas Stoehr, Mitchell Gordon, Chiyuan Zhang, Owen Lewis

Possiamo localizzare i pesi e i meccanismi utilizzati da un modello linguistico per memorizzare e recitare interi paragrafi dei suoi dati di addestramento? In questo articolo, dimostriamo che, sebbene la memorizzazione sia distribuita su più livelli e componenti del modello, i gradienti dei paragrafi memorizzati presentano un modello spaziale distinguibile, essendo più ampi nei livelli inferiori del modello rispetto ai gradienti degli esempi non memorizzati. Inoltre, gli esempi memorizzati possono essere "dimenticati" attraverso un fine-tuning che agisce solo sui pesi con gradienti elevati. Localizziamo una testa di attenzione nei livelli più bassi che sembra essere particolarmente coinvolta nella memorizzazione dei paragrafi. Questa testa concentra principalmente la sua attenzione su token distintivi e rari, che sono meno frequenti in una distribuzione unigramma a livello di corpus. Successivamente, studiamo quanto sia localizzata la memorizzazione tra i token nel prefisso perturbando i token e misurando la variazione risultante nella decodifica. Alcuni token distintivi all'inizio di un prefisso possono spesso corrompere l'intera continuazione. In generale, le continuazioni memorizzate non solo sono più difficili da dimenticare, ma anche da corrompere rispetto a quelle non memorizzate.

MambaMixer: Modelli Efficienti di Spazio degli Stati Selettivi con Selezione Duale di Token e Canali
MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection

Mar 29

ByAli Behrouz, Michele Santacatterina, Ramin Zabih

I recenti progressi nel deep learning si sono principalmente basati sui Transformer grazie alla loro dipendenza dai dati e alla capacità di apprendere su larga scala. Tuttavia, il modulo di attenzione in queste architetture presenta una complessità quadratica in termini di tempo e spazio rispetto alla dimensione dell'input, limitando la loro scalabilità per la modellazione di sequenze lunghe. Nonostante i recenti tentativi di progettare architetture efficienti ed efficaci per dati multidimensionali, come immagini e serie temporali multivariate, i modelli esistenti sono o indipendenti dai dati o non consentono la comunicazione inter- e intra-dimensione. Recentemente, i modelli a spazio di stato (SSM), e più specificamente i Selective State Space Models, con un'implementazione efficiente e consapevole dell'hardware, hanno mostrato un potenziale promettente per la modellazione di sequenze lunghe. Motivati dal successo degli SSM, presentiamo MambaMixer, una nuova architettura con pesi dipendenti dai dati che utilizza un meccanismo di selezione duale tra token e canali, chiamato Selective Token and Channel Mixer. MambaMixer collega i mixer selettivi utilizzando un meccanismo di media ponderata, consentendo ai livelli di accedere direttamente alle feature iniziali. Come prova di concetto, progettiamo le architetture Vision MambaMixer (ViM2) e Time Series MambaMixer (TSM2) basate sul blocco MambaMixer e ne esploriamo le prestazioni in vari compiti di visione e previsione di serie temporali. I nostri risultati sottolineano l'importanza della miscelazione selettiva sia tra token che tra canali. Nelle attività di classificazione su ImageNet, rilevazione di oggetti e segmentazione semantica, ViM2 raggiunge prestazioni competitive rispetto ai modelli di visione consolidati e supera i modelli di visione basati su SSM. Nella previsione di serie temporali, TSM2 ottiene prestazioni eccezionali rispetto ai metodi all'avanguardia, dimostrando al contempo un significativo miglioramento del costo computazionale. Questi risultati mostrano che, sebbene i Transformer, l'attenzione cross-canale e le MLP siano sufficienti per ottenere buone prestazioni nella previsione di serie temporali, nessuno di essi è necessario.

DiJiang: Modelli Linguistici di Grande Scala Efficienti tramite Kernelizzazione Compatta
DiJiang: Efficient Large Language Models through Compact Kernelization

Mar 29

ByHanting Chen, Zhicheng Liu, Xutao Wang, Yuchuan Tian, Yunhe Wang

Nel tentativo di ridurre il carico computazionale dei Transformer, la ricerca sull'attenzione lineare ha guadagnato un significativo slancio. Tuttavia, le strategie di miglioramento per i meccanismi di attenzione richiedono tipicamente un ampio riaddestramento, il che è impraticabile per i grandi modelli linguistici con un vasto numero di parametri. In questo articolo, presentiamo DiJiang, un innovativo approccio di Kernelizzazione nel Dominio della Frequenza che consente la trasformazione di un Transformer pre-addestrato in un modello a complessità lineare con costi di addestramento minimi. Utilizzando un metodo di campionamento Quasi-Monte Carlo ponderato, l'approccio proposto offre teoricamente una superiore efficienza di approssimazione. Per ridurre ulteriormente la complessità computazionale dell'addestramento, la nostra kernelizzazione si basa su operazioni di Trasformata Discreta del Coseno (DCT). Esperimenti estensivi dimostrano che il metodo proposto raggiunge prestazioni comparabili al Transformer originale, ma con costi di addestramento significativamente ridotti e velocità di inferenza molto più elevate. Il nostro DiJiang-7B ottiene prestazioni comparabili a LLaMA2-7B su vari benchmark, richiedendo solo circa 1/50 del costo di addestramento. Il codice è disponibile all'indirizzo https://github.com/YuchuanTian/DiJiang.

Snap-it, Tap-it, Splat-it: Ricostruzione di Superfici Complesse con 3D Gaussian Splatting Basato su Input Tattili
Snap-it, Tap-it, Splat-it: Tactile-Informed 3D Gaussian Splatting for Reconstructing Challenging Surfaces

Mar 29

ByMauro Comi, Alessio Tonioni, Max Yang, Jonathan Tremblay, Valts Blukis, Yijiong Lin, Nathan F. Lepora, Laurence Aitchison

Il tatto e la vista vanno di pari passo, migliorando reciprocamente la nostra capacità di comprendere il mondo. Dal punto di vista della ricerca, il problema di combinare tatto e visione è poco esplorato e presenta sfide interessanti. A tal fine, proponiamo Tactile-Informed 3DGS, un approccio innovativo che incorpora dati tattili (mappe di profondità locali) con dati visivi multi-vista per ottenere la ricostruzione della superficie e la sintesi di nuove viste. Il nostro metodo ottimizza i primitivi 3D Gaussiani per modellare accuratamente la geometria dell'oggetto nei punti di contatto. Creando un framework che riduce la trasmittanza nelle posizioni di contatto, otteniamo una ricostruzione della superficie più raffinata, garantendo una mappa di profondità uniformemente liscia. Il tatto è particolarmente utile quando si considerano oggetti non-Lambertiani (ad esempio superfici lucide o riflettenti), poiché i metodi contemporanei tendono a fallire nella ricostruzione fedele delle luci speculari. Combinando visione e sensazione tattile, otteniamo ricostruzioni geometriche più accurate con un numero inferiore di immagini rispetto ai metodi precedenti. Eseguiamo valutazioni su oggetti con superfici lucide e riflettenti e dimostriamo l'efficacia del nostro approccio, offrendo miglioramenti significativi nella qualità della ricostruzione.

MambaMixer: Modelli Efficienti di Spazio degli Stati Selettivi con Selezione Duale di Token e Canali
MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection

Mar 29

ByAli Behrouz, Michele Santacatterina, Ramin Zabih