Articoli di ricerca IA selezionati quotidianamente con traduzioni
Una finestra di contesto ampia è una caratteristica desiderabile nei grandi modelli linguistici (LLM). Tuttavia, a causa degli elevati costi di fine-tuning, della scarsità di testi lunghi e dei valori catastrofici introdotti dalle nuove posizioni dei token, le attuali finestre di contesto estese sono limitate a circa 128k token. Questo articolo introduce LongRoPE che, per la prima volta, estende la finestra di contesto di LLM pre-addestrati a un impressionante 2048k token, con un massimo di soli 1k passi di fine-tuning entro lunghezze di addestramento di 256k, mantenendo al contempo le prestazioni nella finestra di contesto breve originale. Questo risultato è ottenuto grazie a tre innovazioni chiave: (i) identifichiamo e sfruttiamo due forme di non uniformità nell'interpolazione posizionale attraverso una ricerca efficiente, fornendo una migliore inizializzazione per il fine-tuning e consentendo un'estensione di 8x in scenari senza fine-tuning; (ii) introduciamo una strategia di estensione progressiva che prima esegue il fine-tuning di un LLM con lunghezza 256k e poi conduce una seconda interpolazione posizionale sull'LLM esteso e fine-tuned per raggiungere una finestra di contesto di 2048k; (iii) riadattiamo LongRoPE su una lunghezza di 8k per recuperare le prestazioni della finestra di contesto breve. Esperimenti estensivi su LLaMA2 e Mistral in vari compiti dimostrano l'efficacia del nostro metodo. I modelli estesi tramite LongRoPE mantengono l'architettura originale con lievi modifiche all'embedding posizionale e possono riutilizzare la maggior parte delle ottimizzazioni preesistenti.
I metodi di deep learning odierni si concentrano su come progettare le funzioni obiettivo più appropriate affinché i risultati predittivi del modello possano essere il più vicini possibile alla verità di riferimento. Allo stesso tempo, è necessario progettare un'architettura adeguata che possa facilitare l'acquisizione di informazioni sufficienti per la previsione. I metodi esistenti ignorano il fatto che, quando i dati di input subiscono un'estrazione di caratteristiche strato per strato e una trasformazione spaziale, una grande quantità di informazioni andrà persa. Questo articolo approfondirà le questioni cruciali della perdita di dati quando questi vengono trasmessi attraverso reti profonde, ovvero il collo di bottiglia informativo e le funzioni reversibili. Abbiamo proposto il concetto di informazione sul gradiente programmabile (PGI) per affrontare i vari cambiamenti richiesti dalle reti profonde per raggiungere molteplici obiettivi. Il PGI può fornire informazioni complete sull'input per il compito target per calcolare la funzione obiettivo, in modo da ottenere informazioni affidabili sul gradiente per aggiornare i pesi della rete. Inoltre, è stata progettata una nuova architettura di rete leggera -- Generalized Efficient Layer Aggregation Network (GELAN), basata sulla pianificazione del percorso del gradiente. L'architettura di GELAN conferma che il PGI ha ottenuto risultati superiori su modelli leggeri. Abbiamo verificato il GELAN e il PGI proposti sulla rilevazione di oggetti basata sul dataset MS COCO. I risultati mostrano che GELAN utilizza solo operatori di convoluzione convenzionali per ottenere una migliore utilizzazione dei parametri rispetto ai metodi all'avanguardia sviluppati basandosi sulla convoluzione depth-wise. Il PGI può essere utilizzato per una varietà di modelli, da quelli leggeri a quelli di grandi dimensioni. Può essere utilizzato per ottenere informazioni complete, in modo che i modelli addestrati da zero possano ottenere risultati migliori rispetto ai modelli all'avanguardia pre-addestrati utilizzando grandi dataset, i risultati del confronto sono mostrati nella Figura 1. I codici sorgente sono disponibili su: https://github.com/WongKinYiu/yolov9.
Presentiamo il dataset Aria Everyday Activities (AEA), un dataset egocentrico multimodale aperto registrato utilizzando gli occhiali Project Aria. AEA contiene 143 sequenze di attività quotidiane registrate da più utilizzatori in cinque luoghi interni geograficamente diversificati. Ciascuna registrazione include dati multimodali raccolti attraverso gli occhiali Project Aria. Inoltre, AEA fornisce dati di percezione macchina, tra cui traiettorie 3D ad alta frequenza allineate globalmente, nuvole di punti della scena, vettori 3D dello sguardo per fotogramma e trascrizioni vocali allineate temporalmente. In questo articolo, dimostriamo alcune applicazioni di ricerca esemplari abilitate da questo dataset, tra cui la ricostruzione neurale della scena e la segmentazione guidata. AEA è un dataset open source scaricabile da projectaria.com. Forniamo inoltre implementazioni open source ed esempi su come utilizzare il dataset in Project Aria Tools.
Proponiamo un metodo di distillazione diffusa che raggiunge nuovi risultati all'avanguardia nella generazione di immagini da testo in un singolo passaggio/poche iterazioni a risoluzione 1024px basata su SDXL. Il nostro metodo combina distillazione progressiva e avversaria per ottenere un equilibrio tra qualità e copertura modale. In questo articolo, discutiamo l'analisi teorica, la progettazione del discriminatore, la formulazione del modello e le tecniche di addestramento. Rilasciamo come open-source i nostri modelli distillati SDXL-Lightning sia come pesi LoRA che come pesi UNet completi.
I modelli contemporanei per la generazione di immagini dimostrano una qualità e versatilità notevoli. Influenzati da questi vantaggi, la comunità di ricerca li ripropone per generare video. Poiché il contenuto video è altamente ridondante, sosteniamo che l'applicazione ingenua dei progressi dei modelli di immagini al dominio della generazione video riduca la fedeltà del movimento, la qualità visiva e comprometta la scalabilità. In questo lavoro, sviluppiamo Snap Video, un modello orientato ai video che affronta sistematicamente queste sfide. Per farlo, estendiamo innanzitutto il framework EDM per tenere conto dei pixel ridondanti sia spazialmente che temporalmente, supportando naturalmente la generazione video. In secondo luogo, dimostriamo che una U-Net - un elemento fondamentale nella generazione di immagini - scala male nella generazione di video, richiedendo un sovraccarico computazionale significativo. Proponiamo quindi una nuova architettura basata su transformer che si addestra 3,31 volte più velocemente delle U-Net (ed è ~4,5 volte più veloce nell'inferenza). Ciò ci permette di addestrare in modo efficiente un modello text-to-video con miliardi di parametri per la prima volta, raggiungendo risultati all'avanguardia su numerosi benchmark e generando video con una qualità, coerenza temporale e complessità del movimento sostanzialmente superiori. Gli studi sugli utenti hanno mostrato che il nostro modello è stato preferito con un ampio margine rispetto ai metodi più recenti. Visita il nostro sito web all'indirizzo https://snap-research.github.io/snapvideo/.
I grandi modelli linguistici (LLM) hanno rivoluzionato l'elaborazione del linguaggio naturale. Tuttavia, incorporare efficacemente dati complessi e potenzialmente rumorosi provenienti dalle interazioni degli utenti rimane una sfida. Per affrontare questo problema, proponiamo User-LLM, un nuovo framework che sfrutta gli embedding degli utenti per contestualizzare gli LLM. Questi embedding, distillati da diverse interazioni degli utenti utilizzando il pretraining auto-supervisionato, catturano le preferenze latenti degli utenti e la loro evoluzione nel tempo. Integriamo questi embedding degli utenti con gli LLM attraverso meccanismi di cross-attention e soft-prompting, consentendo agli LLM di adattarsi dinamicamente al contesto dell'utente. I nostri esperimenti completi sui dataset MovieLens, Amazon Review e Google Local Review dimostrano significativi miglioramenti delle prestazioni in vari compiti. In particolare, il nostro approccio supera la contestualizzazione basata su prompt di testo nei compiti con sequenze lunghe e nei compiti che richiedono una profonda comprensione dell'utente, pur essendo computazionalmente efficiente. Inoltre, incorporiamo strati Perceiver per semplificare l'integrazione tra gli encoder degli utenti e gli LLM, riducendo le richieste computazionali.
Recenti studi hanno dimostrato che gli agenti di apprendimento per rinforzo profondo incontrano difficoltà nell'utilizzare efficacemente i parametri della loro rete. Sfruttiamo intuizioni precedenti sui vantaggi delle tecniche di addestramento sparse e dimostriamo che la potatura graduale basata sulla magnitudine consente agli agenti di massimizzare l'efficacia dei parametri. Ciò si traduce in reti che offrono miglioramenti prestazionali significativi rispetto alle reti tradizionali e che mostrano una sorta di "legge di scala", utilizzando solo una piccola frazione dei parametri totali della rete.
È stato recentemente dimostrato che gli attacchi avversari sui grandi modelli linguistici (LLM) possono "sbloccare" il modello, portandolo a produrre dichiarazioni dannose. In questo lavoro, sosteniamo che lo spettro degli attacchi avversari sugli LLM è molto più ampio del semplice sblocco. Forniamo una panoramica generale delle possibili superfici di attacco e degli obiettivi degli attacchi. Basandoci su una serie di esempi concreti, discutiamo, categorizziamo e sistematizziamo gli attacchi che inducono comportamenti non intenzionali vari, come la disinformazione, il controllo del modello, il denial-of-service o l'estrazione di dati. Analizziamo questi attacchi in esperimenti controllati e scopriamo che molti di essi derivano dalla pratica di pre-addestrare gli LLM con capacità di codifica, nonché dalla persistenza di strani token "glitch" nei vocabolari comuni degli LLM che dovrebbero essere rimossi per motivi di sicurezza.
Con lo sviluppo dei modelli di diffusione, il trasferimento di stile delle immagini guidato da testo ha dimostrato risultati di sintesi controllata di alta qualità. Tuttavia, l'utilizzo del testo per il trasferimento di stile musicale diversificato presenta sfide significative, principalmente a causa della limitata disponibilità di dataset audio-testo corrispondenti. La musica, essendo una forma d'arte astratta e complessa, presenta variazioni e complessità anche all'interno dello stesso genere, rendendo così difficile la descrizione testuale accurata. Questo articolo presenta un approccio al trasferimento di stile musicale che cattura efficacemente gli attributi musicali utilizzando dati minimi. Introduciamo un nuovo modulo di inversione testuale variabile nel tempo per catturare con precisione le caratteristiche dei mel-spettrogrammi a diversi livelli. Durante l'inferenza, proponiamo una tecnica di stilizzazione a riduzione di distorsione per ottenere risultati stabili. I risultati sperimentali dimostrano che il nostro metodo può trasferire lo stile di strumenti specifici, nonché incorporare suoni naturali per comporre melodie. Campioni e codice sorgente sono disponibili all'indirizzo https://lsfhuihuiff.github.io/MusicTI/.
Il meccanismo di attenzione è stato cruciale per i modelli di diffusione delle immagini, tuttavia, la loro complessità computazionale quadratica limita le dimensioni delle immagini che possiamo elaborare entro tempi e vincoli di memoria ragionevoli. Questo articolo indaga l'importanza dell'attenzione densa nei modelli generativi di immagini, che spesso contengono caratteristiche ridondanti, rendendoli adatti a meccanismi di attenzione più sparsi. Proponiamo un nuovo metodo ToDo, che non richiede addestramento, basato sul campionamento ridotto dei token chiave e valore per accelerare l'inferenza di Stable Diffusion fino a 2x per dimensioni comuni e fino a 4.5x o più per risoluzioni elevate come 2048x2048. Dimostriamo che il nostro approccio supera i metodi precedenti nel bilanciare un'efficiente velocità di elaborazione e fedeltà.
Il ragionamento multimodale rappresenta una capacità fondamentale per i grandi modelli visione-linguaggio (LVLM). L'integrazione con i Linguaggi Specifici di Dominio (DSL), che offrono rappresentazioni visive precise, fornisce a questi modelli l'opportunità di eseguire ragionamenti più accurati in domini complessi e professionali. Tuttavia, il metodo standard di prompting a Catena di Pensiero (CoT) incontra difficoltà nel sfruttare efficacemente i punti di forza unici delle rappresentazioni visive e DSL, principalmente a causa dei loro meccanismi di ragionamento divergenti. Inoltre, spesso non riesce a gestire adeguatamente i passaggi critici nei compiti di ragionamento a più fasi. Per mitigare queste sfide, introduciamo il metodo di prompting Allineamento Comportamentale Bi-Modale (BBA), progettato per massimizzare il potenziale dei DSL nel potenziare i compiti complessi di ragionamento multimodale. Questo metodo inizia guidando i LVLM a creare catene di ragionamento separate per le rappresentazioni visive e DSL. Successivamente, allinea queste catene risolvendo eventuali incongruenze, ottenendo così un'integrazione coerente dei comportamenti provenienti da diverse modalità. I nostri esperimenti dimostrano che il BBA migliora significativamente le prestazioni di GPT-4V(ision) nella risoluzione di problemi di geometria (da 28,34% a 34,22%), nella previsione del vantaggio posizionale negli scacchi (da 42,08% a 46,99%) e nella previsione delle proprietà molecolari (da 77,47% a 83,52%).
Domare i risultati generativi dei modelli all'avanguardia di Diffusion e Flow-Matching (FM) senza dover riaddestrare un modello specifico per il compito sblocca uno strumento potente per risolvere problemi inversi, generazione condizionata e generazione controllata in generale. In questo lavoro introduciamo D-Flow, un framework semplice per controllare il processo di generazione differenziando attraverso il flusso, ottimizzando il punto sorgente (rumore). Motiviamo questo framework con la nostra osservazione chiave che afferma che per i modelli Diffusion/FM addestrati con percorsi di probabilità gaussiana, differenziare attraverso il processo di generazione proietta il gradiente sulla varietà dei dati, iniettando implicitamente il prior nel processo di ottimizzazione. Validiamo il nostro framework su problemi di generazione controllata lineari e non lineari, inclusi: problemi inversi di immagini e audio e generazione condizionata di molecole, raggiungendo prestazioni all'avanguardia in tutti i casi.
I metodi di decodifica basati su bozze e verifica, come la decodifica speculativa, sono ampiamente adottati come approcci senza addestramento per accelerare l'inferenza dei grandi modelli linguistici (LLM). Invece di impiegare un processo autoregressivo per decodificare i token in sequenza, la decodifica speculativa inizialmente crea bozze utilizzando un modello piccolo ed efficiente. Successivamente, i LLM sono chiamati a condurre la verifica e la correzione in modo non autoregressivo per minimizzare il sovraccarico temporale. Generare bozze più lunghe può portare a accelerazioni ancora più significative una volta verificate, ma comporta anche costi sostanziali di tentativi ed errori in caso di fallimento. Soffrendo di un'elevata probabilità di fallimento nella verifica, i metodi di decodifica esistenti non possono elaborare troppi contenuti per la verifica in una sola volta, ottenendo un'accelerazione dell'inferenza sub-ottimale. In questo articolo, introduciamo Ouroboros, che costruisce un pool di candidati di frasi dal processo di verifica dei LLM per fornire candidati alla generazione di bozze del modello piccolo. In questo modo, Ouroboros può ulteriormente migliorare l'efficienza e l'efficacia delle bozze iniziali. I risultati sperimentali su tipici compiti di generazione di testo mostrano che Ouroboros raggiunge accelerazioni fino a 1,9x e 2,8x rispetto alla decodifica lookahead e alla decodifica speculativa, rispettivamente. Il codice sorgente di Ouroboros è disponibile all'indirizzo https://github.com/thunlp/Ouroboros.