Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Jamba, un nuovo modello linguistico di base di grandi dimensioni basato su una innovativa architettura ibrida Transformer-Mamba con mixture-of-experts (MoE). Nello specifico, Jamba intercala blocchi di layer Transformer e Mamba, sfruttando i vantaggi di entrambe le famiglie di modelli. Il MoE viene aggiunto in alcuni di questi layer per aumentare la capacità del modello mantenendo gestibile l'utilizzo dei parametri attivi. Questa architettura flessibile consente configurazioni specifiche per risorse e obiettivi. Nella configurazione particolare che abbiamo implementato, otteniamo un modello potente che può essere contenuto in una singola GPU da 80GB. Costruito su larga scala, Jamba offre un'elevata produttività e una ridotta impronta di memoria rispetto ai Transformer tradizionali, mantenendo al contempo prestazioni all'avanguardia nei benchmark standard per modelli linguistici e nelle valutazioni su contesti lunghi. In modo notevole, il modello presenta risultati solidi per contesti fino a 256K token. Studiamo varie decisioni architetturali, come combinare i layer Transformer e Mamba e come miscelare gli esperti, dimostrando che alcune di esse sono cruciali nella modellazione su larga scala. Descriviamo inoltre diverse proprietà interessanti di queste architetture emerse durante l'addestramento e la valutazione di Jamba, e prevediamo di rilasciare checkpoint da varie esecuzioni di ablazione, per incoraggiare ulteriori esplorazioni di questa innovativa architettura. Rendiamo pubblicamente disponibili i pesi della nostra implementazione di Jamba sotto una licenza permissiva.
Presentiamo Gecko, un modello di embedding testuale compatto e versatile. Gecco ottiene prestazioni di retrieval robuste sfruttando un'idea chiave: distillare la conoscenza da modelli linguistici di grandi dimensioni (LLM) in un retriever. Il nostro processo di distillazione in due fasi inizia con la generazione di dati sintetici accoppiati e diversificati utilizzando un LLM. Successivamente, perfezioniamo ulteriormente la qualità dei dati recuperando un insieme di passaggi candidati per ciascuna query e rietichettando i passaggi positivi e quelli negativi difficili utilizzando lo stesso LLM. L'efficacia del nostro approccio è dimostrata dalla compattezza di Gecko. Sul Massive Text Embedding Benchmark (MTEB), Gecko con 256 dimensioni di embedding supera tutte le voci esistenti con dimensioni di embedding pari a 768. Gecko con 768 dimensioni di embedding raggiunge un punteggio medio di 66.31, competendo con modelli 7 volte più grandi e embedding con dimensioni 5 volte superiori.
Il Large Language Model (LLM) è ampiamente utilizzato per compiti come assistenti intelligenti, riassunto di testi, traduzione e multi-modalità sui telefoni cellulari. Tuttavia, i metodi attuali per il deployment on-device degli LLM mantengono una velocità di inferenza lenta, causando una scarsa esperienza utente. Per facilitare un deployment ad alta efficienza degli LLM sulle GPU dei dispositivi, proponiamo quattro tecniche di ottimizzazione: (a) un approccio basato su espressioni simboliche per supportare l'inferenza di modelli con forma dinamica; (b) ottimizzazioni degli operatori e impostazione della priorità di esecuzione per migliorare la velocità di inferenza e ridurre i rallentamenti del telefono; (c) un metodo di quantizzazione FP4 denominato M0E4 per ridurre l'overhead di dequantizzazione; (d) una tecnica basata su sub-tensor per eliminare la necessità di copiare la cache KV dopo l'inferenza dell'LLM. Inoltre, implementiamo questi metodi nel nostro motore di inferenza mobile, Transformer-Lite, compatibile sia con processori Qualcomm che MTK. Abbiamo valutato le prestazioni di Transformer-Lite utilizzando LLM con architetture e parametri variabili da 2B a 14B. In particolare, abbiamo raggiunto velocità di prefill e decodifica di 121 token/s e 14 token/s per ChatGLM2 6B, e rispettivamente 330 token/s e 30 token/s per il più piccolo Gemma 2B. Rispetto a FastLLM basato su CPU e MLC-LLM basato su GPU, il nostro motore ottiene un incremento di velocità superiore a 10x per la velocità di prefill e di 2~3x per la velocità di decodifica.
La risoluzione dei riferimenti è un problema importante, essenziale per comprendere e gestire con successo contesti di diverso tipo. Questo contesto include sia i turni precedenti che il contesto relativo a entità non conversazionali, come le entità presenti sullo schermo dell'utente o quelle in esecuzione in background. Sebbene i modelli linguistici di grandi dimensioni (LLM) si siano dimostrati estremamente potenti per una varietà di compiti, il loro utilizzo nella risoluzione dei riferimenti, in particolare per entità non conversazionali, rimane sottoutilizzato. Questo articolo dimostra come gli LLM possano essere utilizzati per creare un sistema estremamente efficace per risolvere riferimenti di vario tipo, mostrando come la risoluzione dei riferimenti possa essere convertita in un problema di modellazione del linguaggio, nonostante coinvolga forme di entità come quelle sullo schermo che tradizionalmente non si prestano a essere ridotte a una modalità esclusivamente testuale. Dimostriamo miglioramenti significativi rispetto a un sistema esistente con funzionalità simili per diversi tipi di riferimenti, con il nostro modello più piccolo che ottiene guadagni assoluti di oltre il 5% per i riferimenti sullo schermo. Confrontiamo anche le prestazioni con GPT-3.5 e GPT-4, con il nostro modello più piccolo che raggiunge prestazioni paragonabili a quelle di GPT-4, e i nostri modelli più grandi che superano sostanzialmente GPT-4.
Mentre la sintesi di nuove viste (NVS) ha compiuto progressi significativi nella visione artificiale 3D, richiede tipicamente una stima iniziale dei parametri intrinseci ed estrinseci della fotocamera da punti di vista densi. Questo pre-processing viene solitamente condotto tramite una pipeline Structure-from-Motion (SfM), una procedura che può essere lenta e inaffidabile, specialmente in scenari con viste sparse in cui le caratteristiche corrispondenti sono insufficienti per una ricostruzione accurata. In questo lavoro, integriamo i punti di forza delle rappresentazioni basate su punti (ad esempio, 3D Gaussian Splatting, 3D-GS) con modelli di stereo denso end-to-end (DUSt3R) per affrontare le complesse ma irrisolte problematiche della NVS in contesti non vincolati, che includono sfide legate all'assenza di pose e alle viste sparse. Il nostro framework, InstantSplat, unisce i priori di stereo denso con il 3D-GS per costruire Gaussiane 3D di scene su larga scala a partire da immagini sparse e senza pose in meno di 1 minuto. Nello specifico, InstantSplat comprende un modulo di Inizializzazione Geometrica Approssimativa (CGI) che stabilisce rapidamente una struttura preliminare della scena e i parametri della fotocamera per tutte le viste di addestramento, utilizzando mappe di punti 3D allineate globalmente derivate da una pipeline di stereo denso pre-addestrata. Questo è seguito dal modulo di Ottimizzazione Rapida delle Gaussiane 3D (F-3DGO), che ottimizza congiuntamente gli attributi delle Gaussiane 3D e le pose inizializzate con regolarizzazione delle pose. Gli esperimenti condotti sui dataset su larga scala Tanks & Temples dimostrano che InstantSplat migliora significativamente l'SSIM (del 32%) riducendo contemporaneamente l'Errore Assoluto della Traiettoria (ATE) dell'80%. Questi risultati stabiliscono InstantSplat come una soluzione valida per scenari che coinvolgono condizioni senza pose e con viste sparse. Pagina del progetto: instantsplat.github.io.
Questo articolo introduce una nuova e significativa sfida per i Modelli di Visione e Linguaggio (VLMs), denominata Rilevazione di Problemi Irrisolvibili (UPD). L'UPD esamina la capacità dei VLMs di astenersi dal fornire risposte quando si confrontano con problemi irrisolvibili nel contesto di attività di Risposta a Domande Visuali (VQA). L'UPD comprende tre contesti distinti: Rilevazione di Risposte Assenti (AAD), Rilevazione di Insiemi di Risposte Incompatibili (IASD) e Rilevazione di Domande Visuali Incompatibili (IVQD). Per approfondire il problema dell'UPD, esperimenti estensivi indicano che la maggior parte dei VLMs, inclusi GPT-4V e LLaVA-Next-34B, incontrano difficoltà nei nostri benchmark in misura variabile, evidenziando un significativo margine di miglioramento. Per affrontare l'UPD, esploriamo sia soluzioni senza addestramento che basate su addestramento, offrendo nuove intuizioni sulla loro efficacia e limitazioni. Speriamo che le nostre intuizioni, insieme a futuri sforzi nei contesti proposti dall'UPD, contribuiscano a una migliore comprensione e sviluppo di VLMs più pratici e affidabili.
Possiamo localizzare i pesi e i meccanismi utilizzati da un modello linguistico per memorizzare e recitare interi paragrafi dei suoi dati di addestramento? In questo articolo, dimostriamo che, sebbene la memorizzazione sia distribuita su più livelli e componenti del modello, i gradienti dei paragrafi memorizzati presentano un modello spaziale distinguibile, essendo più ampi nei livelli inferiori del modello rispetto ai gradienti degli esempi non memorizzati. Inoltre, gli esempi memorizzati possono essere "dimenticati" attraverso un fine-tuning che agisce solo sui pesi con gradienti elevati. Localizziamo una testa di attenzione nei livelli più bassi che sembra essere particolarmente coinvolta nella memorizzazione dei paragrafi. Questa testa concentra principalmente la sua attenzione su token distintivi e rari, che sono meno frequenti in una distribuzione unigramma a livello di corpus. Successivamente, studiamo quanto sia localizzata la memorizzazione tra i token nel prefisso perturbando i token e misurando la variazione risultante nella decodifica. Alcuni token distintivi all'inizio di un prefisso possono spesso corrompere l'intera continuazione. In generale, le continuazioni memorizzate non solo sono più difficili da dimenticare, ma anche da corrompere rispetto a quelle non memorizzate.
I recenti progressi nel deep learning si sono principalmente basati sui Transformer grazie alla loro dipendenza dai dati e alla capacità di apprendere su larga scala. Tuttavia, il modulo di attenzione in queste architetture presenta una complessità quadratica in termini di tempo e spazio rispetto alla dimensione dell'input, limitando la loro scalabilità per la modellazione di sequenze lunghe. Nonostante i recenti tentativi di progettare architetture efficienti ed efficaci per dati multidimensionali, come immagini e serie temporali multivariate, i modelli esistenti sono o indipendenti dai dati o non consentono la comunicazione inter- e intra-dimensione. Recentemente, i modelli a spazio di stato (SSM), e più specificamente i Selective State Space Models, con un'implementazione efficiente e consapevole dell'hardware, hanno mostrato un potenziale promettente per la modellazione di sequenze lunghe. Motivati dal successo degli SSM, presentiamo MambaMixer, una nuova architettura con pesi dipendenti dai dati che utilizza un meccanismo di selezione duale tra token e canali, chiamato Selective Token and Channel Mixer. MambaMixer collega i mixer selettivi utilizzando un meccanismo di media ponderata, consentendo ai livelli di accedere direttamente alle feature iniziali. Come prova di concetto, progettiamo le architetture Vision MambaMixer (ViM2) e Time Series MambaMixer (TSM2) basate sul blocco MambaMixer e ne esploriamo le prestazioni in vari compiti di visione e previsione di serie temporali. I nostri risultati sottolineano l'importanza della miscelazione selettiva sia tra token che tra canali. Nelle attività di classificazione su ImageNet, rilevazione di oggetti e segmentazione semantica, ViM2 raggiunge prestazioni competitive rispetto ai modelli di visione consolidati e supera i modelli di visione basati su SSM. Nella previsione di serie temporali, TSM2 ottiene prestazioni eccezionali rispetto ai metodi all'avanguardia, dimostrando al contempo un significativo miglioramento del costo computazionale. Questi risultati mostrano che, sebbene i Transformer, l'attenzione cross-canale e le MLP siano sufficienti per ottenere buone prestazioni nella previsione di serie temporali, nessuno di essi è necessario.
Nel tentativo di ridurre il carico computazionale dei Transformer, la ricerca sull'attenzione lineare ha guadagnato un significativo slancio. Tuttavia, le strategie di miglioramento per i meccanismi di attenzione richiedono tipicamente un ampio riaddestramento, il che è impraticabile per i grandi modelli linguistici con un vasto numero di parametri. In questo articolo, presentiamo DiJiang, un innovativo approccio di Kernelizzazione nel Dominio della Frequenza che consente la trasformazione di un Transformer pre-addestrato in un modello a complessità lineare con costi di addestramento minimi. Utilizzando un metodo di campionamento Quasi-Monte Carlo ponderato, l'approccio proposto offre teoricamente una superiore efficienza di approssimazione. Per ridurre ulteriormente la complessità computazionale dell'addestramento, la nostra kernelizzazione si basa su operazioni di Trasformata Discreta del Coseno (DCT). Esperimenti estensivi dimostrano che il metodo proposto raggiunge prestazioni comparabili al Transformer originale, ma con costi di addestramento significativamente ridotti e velocità di inferenza molto più elevate. Il nostro DiJiang-7B ottiene prestazioni comparabili a LLaMA2-7B su vari benchmark, richiedendo solo circa 1/50 del costo di addestramento. Il codice è disponibile all'indirizzo https://github.com/YuchuanTian/DiJiang.
Il tatto e la vista vanno di pari passo, migliorando reciprocamente la nostra capacità di comprendere il mondo. Dal punto di vista della ricerca, il problema di combinare tatto e visione è poco esplorato e presenta sfide interessanti. A tal fine, proponiamo Tactile-Informed 3DGS, un approccio innovativo che incorpora dati tattili (mappe di profondità locali) con dati visivi multi-vista per ottenere la ricostruzione della superficie e la sintesi di nuove viste. Il nostro metodo ottimizza i primitivi 3D Gaussiani per modellare accuratamente la geometria dell'oggetto nei punti di contatto. Creando un framework che riduce la trasmittanza nelle posizioni di contatto, otteniamo una ricostruzione della superficie più raffinata, garantendo una mappa di profondità uniformemente liscia. Il tatto è particolarmente utile quando si considerano oggetti non-Lambertiani (ad esempio superfici lucide o riflettenti), poiché i metodi contemporanei tendono a fallire nella ricostruzione fedele delle luci speculari. Combinando visione e sensazione tattile, otteniamo ricostruzioni geometriche più accurate con un numero inferiore di immagini rispetto ai metodi precedenti. Eseguiamo valutazioni su oggetti con superfici lucide e riflettenti e dimostriamo l'efficacia del nostro approccio, offrendo miglioramenti significativi nella qualità della ricostruzione.