Articoli di ricerca IA selezionati quotidianamente con traduzioni
La crescente dimensione dei modelli linguistici di grandi dimensioni ha posto sfide per il loro dispiegamento e sollevato preoccupazioni riguardo all'impatto ambientale a causa dell'elevato consumo energetico. In questo lavoro, introduciamo BitNet, un'architettura Transformer scalabile e stabile a 1 bit progettata per modelli linguistici di grandi dimensioni. Nello specifico, introduciamo BitLinear come sostituto diretto del livello nn.Linear per addestrare pesi a 1 bit da zero. I risultati sperimentali sulla modellazione linguistica mostrano che BitNet raggiunge prestazioni competitive riducendo sostanzialmente l'impronta di memoria e il consumo energetico, rispetto ai metodi di quantizzazione a 8 bit all'avanguardia e ai baseline Transformer FP16. Inoltre, BitNet mostra una legge di scala simile ai Transformer a precisione completa, suggerendo il suo potenziale per un'effettiva scalabilità a modelli linguistici ancora più grandi, mantenendo i benefici in termini di efficienza e prestazioni.
Questo articolo si concentra sulla sintesi di viste ad alta fedeltà e in tempo reale di scene 3D dinamiche a risoluzione 4K. Recentemente, alcuni metodi per la sintesi di viste dinamiche hanno dimostrato una qualità di rendering impressionante. Tuttavia, la loro velocità rimane limitata quando si tratta di renderizzare immagini ad alta risoluzione. Per superare questo problema, proponiamo 4K4D, una rappresentazione di nuvola di punti 4D che supporta la rasterizzazione hardware e consente una velocità di rendering senza precedenti. La nostra rappresentazione è costruita su una griglia di caratteristiche 4D, in modo che i punti siano naturalmente regolarizzati e possano essere ottimizzati in modo robusto. Inoltre, progettiamo un nuovo modello di aspetto ibrido che migliora significativamente la qualità del rendering mantenendo l'efficienza. Inoltre, sviluppiamo un algoritmo di peeling della profondità differenziabile per apprendere efficacemente il modello proposto da video RGB. Gli esperimenti dimostrano che la nostra rappresentazione può essere renderizzata a oltre 400 FPS sul dataset DNA-Rendering a risoluzione 1080p e a 80 FPS sul dataset ENeRF-Outdoor a risoluzione 4K utilizzando una GPU RTX 4090, il che è 30 volte più veloce rispetto ai metodi precedenti e raggiunge la qualità di rendering allo stato dell'arte. Rilasceremo il codice per garantire la riproducibilità.
L'adattamento a basso rango (LoRA) è un metodo popolare che riduce il numero di parametri addestrabili durante il fine-tuning di grandi modelli linguistici, ma affronta ancora sfide significative di archiviazione quando si scala a modelli ancora più grandi o si distribuiscono numerosi modelli adattati per utente o per task. In questo lavoro, presentiamo l'Adattamento a Matrice Casuale basato su Vettori (VeRA), che riduce il numero di parametri addestrabili di 10 volte rispetto a LoRA, mantenendo però le stesse prestazioni. Questo risultato è ottenuto utilizzando una singola coppia di matrici a basso rango condivise tra tutti i livelli e apprendendo piccoli vettori di scalatura invece. Dimostriamo la sua efficacia sui benchmark GLUE ed E2E e mostriamo la sua applicazione nel seguire istruzioni con soli 1,4 milioni di parametri utilizzando il modello Llama2 7B.
Presentiamo Set-of-Mark (SoM), un nuovo metodo di prompting visivo, per sfruttare le capacità di grounding visivo dei grandi modelli multimodali (LMMs), come GPT-4V. Come illustrato nella Fig. 1 (a destra), utilizziamo modelli di segmentazione interattiva già disponibili, come SAM, per suddividere un'immagine in regioni a diversi livelli di granularità, e sovrapporre queste regioni con un insieme di marcatori, ad esempio alfanumerici, maschere o riquadri. Utilizzando l'immagine marcata come input, GPT-4V può rispondere a domande che richiedono grounding visivo. Condurremo uno studio empirico completo per validare l'efficacia di SoM su un'ampia gamma di task visivi e multimodali di dettaglio. Ad esempio, i nostri esperimenti dimostrano che GPT-4V con SoM supera il modello di segmentazione riferita completamente addestrato allo stato dell'arte su RefCOCOg in un contesto zero-shot.
I modelli generativi per visione e linguaggio hanno conosciuto una crescita esponenziale negli ultimi anni. Per la generazione di video, sono stati rilasciati vari modelli open-source e servizi pubblicamente disponibili per produrre video di alta qualità visiva. Tuttavia, questi metodi spesso utilizzano pochi parametri accademici, come FVD o IS, per valutare le prestazioni. Sosteniamo che sia difficile giudicare i grandi modelli generativi condizionati da metriche semplici, poiché questi modelli sono spesso addestrati su dataset molto ampi con capacità multi-aspetto. Pertanto, proponiamo un nuovo framework e pipeline per valutare in modo esaustivo le prestazioni dei video generati. Per raggiungere questo obiettivo, iniziamo creando una nuova lista di prompt per la generazione di video da testo, analizzando le liste di prompt del mondo reale con l'aiuto di un grande modello linguistico. Successivamente, valutiamo i modelli generativi di video all'avanguardia sui nostri benchmark accuratamente progettati, in termini di qualità visiva, qualità del contenuto, qualità del movimento e allineamento con il testo-caption, utilizzando circa 18 metriche oggettive. Per ottenere la classifica finale dei modelli, adattiamo anche una serie di coefficienti per allineare le metriche oggettive alle opinioni degli utenti. Basandoci sul metodo proposto di allineamento delle opinioni, il nostro punteggio finale mostra una correlazione più alta rispetto alla semplice media delle metriche, dimostrando l'efficacia del metodo di valutazione proposto.
I modelli linguistici di grandi dimensioni come ChatGPT dimostrano una notevole capacità di apprendere nuovi concetti durante l'inferenza senza alcun fine-tuning. Tuttavia, i modelli visivi addestrati per rilevare nuovi oggetti durante l'inferenza non sono stati in grado di replicare questa abilità, e invece ottengono prestazioni scarse o richiedono meta-training e/o fine-tuning su oggetti simili. In questo lavoro, proponiamo un algoritmo di meta-apprendimento che emula i modelli linguistici di grandi dimensioni apprendendo nuovi concetti visivi durante l'inferenza senza fine-tuning. Il nostro approccio sfrutta un estrattore di caratteristiche pre-addestrato e congelato e, analogamente all'apprendimento in contesto, riformula il meta-apprendimento come modellazione di sequenze su punti dati con etichette note e un punto di test con un'etichetta sconosciuta. Su 8 degli 11 benchmark di meta-apprendimento, il nostro approccio -- senza meta-training o fine-tuning -- supera o eguaglia l'algoritmo all'avanguardia, P>M>F, che è meta-addestrato su questi benchmark.
Come ridurre i requisiti di calcolo e memoria delle reti neurali (NN) senza comprometterne le prestazioni? Molti lavori recenti utilizzano Sparse Mixtures of Experts (MoEs) per costruire modelli linguistici (LM) di grandi dimensioni efficienti in termini di risorse. In questo articolo introduciamo diverse prospettive innovative sui MoEs, presentando un framework generale che unifica vari metodi per approssimare NN a due strati (ad esempio, i blocchi feedforward dei Transformer), incluse le product-key memories (PKMs). Sfruttando le intuizioni derivanti da questo framework, proponiamo metodi per migliorare sia i MoEs che le PKMs. A differenza dei lavori precedenti che confrontano i MoEs con baseline dense in condizioni di calcolo equivalente, la nostra condizione di valutazione è basata su parametri equivalenti, aspetto cruciale per valutare correttamente i LM. Dimostriamo che i nostri MoEs sono competitivi con il Transformer-XL denso sia sul dataset WikiText-103 che su enwiki8 a due scale diverse, pur essendo molto più efficienti in termini di risorse. Ciò dimostra che i MoEs sono rilevanti non solo per LM estremamente grandi, ma anche per LM efficienti in termini di risorse di qualsiasi scala. Il nostro codice è pubblico.
Man mano che i modelli linguistici di grandi dimensioni (LLM) diventano più diffusi, cresce la necessità di nuovi e migliorati metodi di quantizzazione in grado di soddisfare le esigenze computazionali di queste moderne architetture, mantenendo al contempo l'accuratezza. In questo articolo, presentiamo TEQ, una trasformazione equivalente addestrabile che preserva la precisione FP32 dell'output del modello sfruttando al contempo la quantizzazione a bassa precisione, in particolare la quantizzazione solo dei pesi a 3 e 4 bit. Il processo di addestramento è leggero, richiedendo solo 1K passaggi e meno dello 0,1 percento dei parametri addestrabili del modello originale. Inoltre, la trasformazione non aggiunge alcun sovraccarico computazionale durante l'inferenza. I nostri risultati sono in linea con i metodi all'avanguardia (SOTA) sui tipici LLM. Il nostro approccio può essere combinato con altri metodi per ottenere prestazioni ancora migliori. Il codice è disponibile all'indirizzo https://github.com/intel/neural-compressor.
Con i notevoli progressi nella generazione di immagini da testo basata su diffusione, estendere tale potente capacità generativa al testo-video sta suscitando enorme interesse. I metodi esistenti richiedono o grandi quantità di coppie testo-video e risorse di training significative, oppure apprendono movimenti perfettamente allineati con video template. È non banale bilanciare un compromesso tra il grado di libertà generativa e i costi delle risorse per la generazione video. Nel nostro studio, presentiamo un framework di tuning basato su few-shot, LAMP, che consente a un modello di diffusione testo-immagine di apprendere uno specifico pattern di movimento con 8~16 video su una singola GPU. Nello specifico, progettiamo una pipeline condizionata al primo fotogramma che utilizza un modello testo-immagine preesistente per la generazione del contenuto, in modo che il nostro modello di diffusione video sintonizzato si concentri principalmente sull'apprendimento del movimento. Le tecniche testo-immagine ben sviluppate possono fornire contenuti visivamente piacevoli e diversificati come condizioni di generazione, migliorando notevolmente la qualità video e la libertà generativa. Per catturare le caratteristiche della dimensione temporale, espandiamo i livelli di convoluzione 2D pre-addestrati del modello T2I ai nostri nuovi livelli di apprendimento del movimento spazio-temporale e modifichiamo i blocchi di attenzione a livello temporale. Inoltre, sviluppiamo un efficace trucco di inferenza, il campionamento con rumore condiviso, che può migliorare la stabilità dei video con costi computazionali. Il nostro metodo può essere applicato in modo flessibile anche ad altri task, come l'animazione di immagini del mondo reale e l'editing video. Esperimenti estensivi dimostrano che LAMP può apprendere efficacemente il pattern di movimento su dati limitati e generare video di alta qualità. Il codice e i modelli sono disponibili su https://rq-wu.github.io/projects/LAMP.
I modelli di completamento del codice hanno compiuto progressi significativi negli ultimi anni, tuttavia i dataset di valutazione attualmente più popolari, come HumanEval e MBPP, si concentrano principalmente su task di completamento del codice all'interno di un singolo file. Questo contesto eccessivamente semplificato non rappresenta adeguatamente lo scenario reale dello sviluppo software, in cui i repository si estendono su più file con numerose dipendenze tra file, e l'accesso e la comprensione del contesto tra file sono spesso necessari per completare correttamente il codice. Per colmare questa lacuna, proponiamo CrossCodeEval, un benchmark diversificato e multilingue per il completamento del codice che richiede una comprensione approfondita del contesto tra file per completare il codice in modo accurato. CrossCodeEval è costruito su un insieme variegato di repository open-source reali, con licenze permissive, in quattro linguaggi di programmazione popolari: Python, Java, TypeScript e C#. Per creare esempi che richiedano strettamente il contesto tra file per un completamento accurato, proponiamo un approccio semplice ma efficiente basato sull'analisi statica per identificare l'uso del contesto tra file all'interno del file corrente. Esperimenti estesi su modelli linguistici di codice all'avanguardia come CodeGen e StarCoder dimostrano che CrossCodeEval è estremamente impegnativo quando il contesto rilevante tra file è assente, e osserviamo chiari miglioramenti quando tale contesto viene aggiunto al prompt. Tuttavia, nonostante questi miglioramenti, il picco delle prestazioni rimane notevolmente irraggiungibile anche con il modello più performante, indicando che CrossCodeEval è anche in grado di valutare la capacità del modello di sfruttare un contesto esteso per migliorare il completamento del codice. Infine, abbiamo valutato vari metodi per il recupero del contesto tra file e dimostrato che CrossCodeEval può essere utilizzato anche per misurare la capacità dei sistemi di recupero del codice.