HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

13 papers found

LongRoPE: Estensione della Finestra di Contesto degli LLM Oltre i 2 Milioni di Token
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Feb 21

ByYiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang

116

Una finestra di contesto ampia è una caratteristica desiderabile nei grandi modelli linguistici (LLM). Tuttavia, a causa degli elevati costi di fine-tuning, della scarsità di testi lunghi e dei valori catastrofici introdotti dalle nuove posizioni dei token, le attuali finestre di contesto estese sono limitate a circa 128k token. Questo articolo introduce LongRoPE che, per la prima volta, estende la finestra di contesto di LLM pre-addestrati a un impressionante 2048k token, con un massimo di soli 1k passi di fine-tuning entro lunghezze di addestramento di 256k, mantenendo al contempo le prestazioni nella finestra di contesto breve originale. Questo risultato è ottenuto grazie a tre innovazioni chiave: (i) identifichiamo e sfruttiamo due forme di non uniformità nell'interpolazione posizionale attraverso una ricerca efficiente, fornendo una migliore inizializzazione per il fine-tuning e consentendo un'estensione di 8x in scenari senza fine-tuning; (ii) introduciamo una strategia di estensione progressiva che prima esegue il fine-tuning di un LLM con lunghezza 256k e poi conduce una seconda interpolazione posizionale sull'LLM esteso e fine-tuned per raggiungere una finestra di contesto di 2048k; (iii) riadattiamo LongRoPE su una lunghezza di 8k per recuperare le prestazioni della finestra di contesto breve. Esperimenti estensivi su LLaMA2 e Mistral in vari compiti dimostrano l'efficacia del nostro metodo. I modelli estesi tramite LongRoPE mantengono l'architettura originale con lievi modifiche all'embedding posizionale e possono riutilizzare la maggior parte delle ottimizzazioni preesistenti.

YOLOv9: Apprendere ciò che vuoi apprendere utilizzando informazioni programmabili sul gradiente
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

Feb 21

ByChien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao

I metodi di deep learning odierni si concentrano su come progettare le funzioni obiettivo più appropriate affinché i risultati predittivi del modello possano essere il più vicini possibile alla verità di riferimento. Allo stesso tempo, è necessario progettare un'architettura adeguata che possa facilitare l'acquisizione di informazioni sufficienti per la previsione. I metodi esistenti ignorano il fatto che, quando i dati di input subiscono un'estrazione di caratteristiche strato per strato e una trasformazione spaziale, una grande quantità di informazioni andrà persa. Questo articolo approfondirà le questioni cruciali della perdita di dati quando questi vengono trasmessi attraverso reti profonde, ovvero il collo di bottiglia informativo e le funzioni reversibili. Abbiamo proposto il concetto di informazione sul gradiente programmabile (PGI) per affrontare i vari cambiamenti richiesti dalle reti profonde per raggiungere molteplici obiettivi. Il PGI può fornire informazioni complete sull'input per il compito target per calcolare la funzione obiettivo, in modo da ottenere informazioni affidabili sul gradiente per aggiornare i pesi della rete. Inoltre, è stata progettata una nuova architettura di rete leggera -- Generalized Efficient Layer Aggregation Network (GELAN), basata sulla pianificazione del percorso del gradiente. L'architettura di GELAN conferma che il PGI ha ottenuto risultati superiori su modelli leggeri. Abbiamo verificato il GELAN e il PGI proposti sulla rilevazione di oggetti basata sul dataset MS COCO. I risultati mostrano che GELAN utilizza solo operatori di convoluzione convenzionali per ottenere una migliore utilizzazione dei parametri rispetto ai metodi all'avanguardia sviluppati basandosi sulla convoluzione depth-wise. Il PGI può essere utilizzato per una varietà di modelli, da quelli leggeri a quelli di grandi dimensioni. Può essere utilizzato per ottenere informazioni complete, in modo che i modelli addestrati da zero possano ottenere risultati migliori rispetto ai modelli all'avanguardia pre-addestrati utilizzando grandi dataset, i risultati del confronto sono mostrati nella Figura 1. I codici sorgente sono disponibili su: https://github.com/WongKinYiu/yolov9.

Dataset delle Attività Quotidiane di Aria
Aria Everyday Activities Dataset

Feb 20

ByZhaoyang Lv, Nickolas Charron, Pierre Moulon, Alexander Gamino, Cheng Peng, Chris Sweeney, Edward Miller, Huixuan Tang, Jeff Meissner, Jing Dong, Kiran Somasundaram, Luis Pesqueira, Mark Schwesinger, Omkar Parkhi, Qiao Gu, Renzo De Nardi, Shangyi Cheng, Steve Saarinen, Vijay Baiyya, Yuyang Zou, Richard Newcombe, Jakob Julian Engel, Xiaqing Pan, Carl Ren

Presentiamo il dataset Aria Everyday Activities (AEA), un dataset egocentrico multimodale aperto registrato utilizzando gli occhiali Project Aria. AEA contiene 143 sequenze di attività quotidiane registrate da più utilizzatori in cinque luoghi interni geograficamente diversificati. Ciascuna registrazione include dati multimodali raccolti attraverso gli occhiali Project Aria. Inoltre, AEA fornisce dati di percezione macchina, tra cui traiettorie 3D ad alta frequenza allineate globalmente, nuvole di punti della scena, vettori 3D dello sguardo per fotogramma e trascrizioni vocali allineate temporalmente. In questo articolo, dimostriamo alcune applicazioni di ricerca esemplari abilitate da questo dataset, tra cui la ricostruzione neurale della scena e la segmentazione guidata. AEA è un dataset open source scaricabile da projectaria.com. Forniamo inoltre implementazioni open source ed esempi su come utilizzare il dataset in Project Aria Tools.

SDXL-Lightning: Distillazione Adversariale Progressiva per Diffusion
SDXL-Lightning: Progressive Adversarial Diffusion Distillation

Feb 21

ByShanchuan Lin, Anran Wang, Xiao Yang

Proponiamo un metodo di distillazione diffusa che raggiunge nuovi risultati all'avanguardia nella generazione di immagini da testo in un singolo passaggio/poche iterazioni a risoluzione 1024px basata su SDXL. Il nostro metodo combina distillazione progressiva e avversaria per ottenere un equilibrio tra qualità e copertura modale. In questo articolo, discutiamo l'analisi teorica, la progettazione del discriminatore, la formulazione del modello e le tecniche di addestramento. Rilasciamo come open-source i nostri modelli distillati SDXL-Lightning sia come pesi LoRA che come pesi UNet completi.

Snap Video: Trasformatori Spaziotemporali Scalati per la Sintesi da Testo a Video
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis

Feb 22

ByWilli Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, Sergey Tulyakov

I modelli contemporanei per la generazione di immagini dimostrano una qualità e versatilità notevoli. Influenzati da questi vantaggi, la comunità di ricerca li ripropone per generare video. Poiché il contenuto video è altamente ridondante, sosteniamo che l'applicazione ingenua dei progressi dei modelli di immagini al dominio della generazione video riduca la fedeltà del movimento, la qualità visiva e comprometta la scalabilità. In questo lavoro, sviluppiamo Snap Video, un modello orientato ai video che affronta sistematicamente queste sfide. Per farlo, estendiamo innanzitutto il framework EDM per tenere conto dei pixel ridondanti sia spazialmente che temporalmente, supportando naturalmente la generazione video. In secondo luogo, dimostriamo che una U-Net - un elemento fondamentale nella generazione di immagini - scala male nella generazione di video, richiedendo un sovraccarico computazionale significativo. Proponiamo quindi una nuova architettura basata su transformer che si addestra 3,31 volte più velocemente delle U-Net (ed è ~4,5 volte più veloce nell'inferenza). Ciò ci permette di addestrare in modo efficiente un modello text-to-video con miliardi di parametri per la prima volta, raggiungendo risultati all'avanguardia su numerosi benchmark e generando video con una qualità, coerenza temporale e complessità del movimento sostanzialmente superiori. Gli studi sugli utenti hanno mostrato che il nostro modello è stato preferito con un ampio margine rispetto ai metodi più recenti. Visita il nostro sito web all'indirizzo https://snap-research.github.io/snapvideo/.

User-LLM: Contestualizzazione Efficiente di LLM con Embedding Utente
User-LLM: Efficient LLM Contextualization with User Embeddings

Feb 21

ByLin Ning, Luyang Liu, Jiaxing Wu, Neo Wu, Devora Berlowitz, Sushant Prakash, Bradley Green, Shawn O'Banion, Jun Xie

I grandi modelli linguistici (LLM) hanno rivoluzionato l'elaborazione del linguaggio naturale. Tuttavia, incorporare efficacemente dati complessi e potenzialmente rumorosi provenienti dalle interazioni degli utenti rimane una sfida. Per affrontare questo problema, proponiamo User-LLM, un nuovo framework che sfrutta gli embedding degli utenti per contestualizzare gli LLM. Questi embedding, distillati da diverse interazioni degli utenti utilizzando il pretraining auto-supervisionato, catturano le preferenze latenti degli utenti e la loro evoluzione nel tempo. Integriamo questi embedding degli utenti con gli LLM attraverso meccanismi di cross-attention e soft-prompting, consentendo agli LLM di adattarsi dinamicamente al contesto dell'utente. I nostri esperimenti completi sui dataset MovieLens, Amazon Review e Google Local Review dimostrano significativi miglioramenti delle prestazioni in vari compiti. In particolare, il nostro approccio supera la contestualizzazione basata su prompt di testo nei compiti con sequenze lunghe e nei compiti che richiedono una profonda comprensione dell'utente, pur essendo computazionalmente efficiente. Inoltre, incorporiamo strati Perceiver per semplificare l'integrazione tra gli encoder degli utenti e gli LLM, riducendo le richieste computazionali.

Nell'apprendimento per rinforzo profondo, una rete potata è una rete efficace.
In deep reinforcement learning, a pruned network is a good network

Feb 19

ByJohan Obando-Ceron, Aaron Courville, Pablo Samuel Castro

Recenti studi hanno dimostrato che gli agenti di apprendimento per rinforzo profondo incontrano difficoltà nell'utilizzare efficacemente i parametri della loro rete. Sfruttiamo intuizioni precedenti sui vantaggi delle tecniche di addestramento sparse e dimostriamo che la potatura graduale basata sulla magnitudine consente agli agenti di massimizzare l'efficacia dei parametri. Ciò si traduce in reti che offrono miglioramenti prestazionali significativi rispetto alle reti tradizionali e che mostrano una sorta di "legge di scala", utilizzando solo una piccola frazione dei parametri totali della rete.

Costringere i LLM a fare e rivelare (quasi) qualsiasi cosa
Coercing LLMs to do and reveal (almost) anything

Feb 21

ByJonas Geiping, Alex Stein, Manli Shu, Khalid Saifullah, Yuxin Wen, Tom Goldstein

È stato recentemente dimostrato che gli attacchi avversari sui grandi modelli linguistici (LLM) possono "sbloccare" il modello, portandolo a produrre dichiarazioni dannose. In questo lavoro, sosteniamo che lo spettro degli attacchi avversari sugli LLM è molto più ampio del semplice sblocco. Forniamo una panoramica generale delle possibili superfici di attacco e degli obiettivi degli attacchi. Basandoci su una serie di esempi concreti, discutiamo, categorizziamo e sistematizziamo gli attacchi che inducono comportamenti non intenzionali vari, come la disinformazione, il controllo del modello, il denial-of-service o l'estrazione di dati. Analizziamo questi attacchi in esperimenti controllati e scopriamo che molti di essi derivano dalla pratica di pre-addestrare gli LLM con capacità di codifica, nonché dalla persistenza di strani token "glitch" nei vocabolari comuni degli LLM che dovrebbero essere rimossi per motivi di sicurezza.

Trasferimento dello Stile Musicale con Inversione Temporale dei Modelli di Diffusione
Music Style Transfer with Time-Varying Inversion of Diffusion Models

Feb 21

BySifei Li, Yuxin Zhang, Fan Tang, Chongyang Ma, Weiming dong, Changsheng Xu

Con lo sviluppo dei modelli di diffusione, il trasferimento di stile delle immagini guidato da testo ha dimostrato risultati di sintesi controllata di alta qualità. Tuttavia, l'utilizzo del testo per il trasferimento di stile musicale diversificato presenta sfide significative, principalmente a causa della limitata disponibilità di dataset audio-testo corrispondenti. La musica, essendo una forma d'arte astratta e complessa, presenta variazioni e complessità anche all'interno dello stesso genere, rendendo così difficile la descrizione testuale accurata. Questo articolo presenta un approccio al trasferimento di stile musicale che cattura efficacemente gli attributi musicali utilizzando dati minimi. Introduciamo un nuovo modulo di inversione testuale variabile nel tempo per catturare con precisione le caratteristiche dei mel-spettrogrammi a diversi livelli. Durante l'inferenza, proponiamo una tecnica di stilizzazione a riduzione di distorsione per ottenere risultati stabili. I risultati sperimentali dimostrano che il nostro metodo può trasferire lo stile di strumenti specifici, nonché incorporare suoni naturali per comporre melodie. Campioni e codice sorgente sono disponibili all'indirizzo https://lsfhuihuiff.github.io/MusicTI/.

ToDo: Downsampling dei Token per la Generazione Efficiente di Immagini ad Alta Risoluzione
ToDo: Token Downsampling for Efficient Generation of High-Resolution Images

Feb 21

ByEthan Smith, Nayan Saxena, Aninda Saha

Il meccanismo di attenzione è stato cruciale per i modelli di diffusione delle immagini, tuttavia, la loro complessità computazionale quadratica limita le dimensioni delle immagini che possiamo elaborare entro tempi e vincoli di memoria ragionevoli. Questo articolo indaga l'importanza dell'attenzione densa nei modelli generativi di immagini, che spesso contengono caratteristiche ridondanti, rendendoli adatti a meccanismi di attenzione più sparsi. Proponiamo un nuovo metodo ToDo, che non richiede addestramento, basato sul campionamento ridotto dei token chiave e valore per accelerare l'inferenza di Stable Diffusion fino a 2x per dimensioni comuni e fino a 4.5x o più per risoluzioni elevate come 2048x2048. Dimostriamo che il nostro approccio supera i metodi precedenti nel bilanciare un'efficiente velocità di elaborazione e fedeltà.

BBA: Allineamento Comportamentale Bi-Modale per il Ragionamento con Modelli Linguistico-Visuali di Grande Scala
BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models

Feb 21

ByXueliang Zhao, Xinting Huang, Tingchen Fu, Qintong Li, Shansan Gong, Lemao Liu, Wei Bi, Lingpeng Kong

Il ragionamento multimodale rappresenta una capacità fondamentale per i grandi modelli visione-linguaggio (LVLM). L'integrazione con i Linguaggi Specifici di Dominio (DSL), che offrono rappresentazioni visive precise, fornisce a questi modelli l'opportunità di eseguire ragionamenti più accurati in domini complessi e professionali. Tuttavia, il metodo standard di prompting a Catena di Pensiero (CoT) incontra difficoltà nel sfruttare efficacemente i punti di forza unici delle rappresentazioni visive e DSL, principalmente a causa dei loro meccanismi di ragionamento divergenti. Inoltre, spesso non riesce a gestire adeguatamente i passaggi critici nei compiti di ragionamento a più fasi. Per mitigare queste sfide, introduciamo il metodo di prompting Allineamento Comportamentale Bi-Modale (BBA), progettato per massimizzare il potenziale dei DSL nel potenziare i compiti complessi di ragionamento multimodale. Questo metodo inizia guidando i LVLM a creare catene di ragionamento separate per le rappresentazioni visive e DSL. Successivamente, allinea queste catene risolvendo eventuali incongruenze, ottenendo così un'integrazione coerente dei comportamenti provenienti da diverse modalità. I nostri esperimenti dimostrano che il BBA migliora significativamente le prestazioni di GPT-4V(ision) nella risoluzione di problemi di geometria (da 28,34% a 34,22%), nella previsione del vantaggio posizionale negli scacchi (da 42,08% a 46,99%) e nella previsione delle proprietà molecolari (da 77,47% a 83,52%).

D-Flow: Differenziazione attraverso Flussi per la Generazione Controllata
D-Flow: Differentiating through Flows for Controlled Generation

Feb 21

ByHeli Ben-Hamu, Omri Puny, Itai Gat, Brian Karrer, Uriel Singer, Yaron Lipman

Domare i risultati generativi dei modelli all'avanguardia di Diffusion e Flow-Matching (FM) senza dover riaddestrare un modello specifico per il compito sblocca uno strumento potente per risolvere problemi inversi, generazione condizionata e generazione controllata in generale. In questo lavoro introduciamo D-Flow, un framework semplice per controllare il processo di generazione differenziando attraverso il flusso, ottimizzando il punto sorgente (rumore). Motiviamo questo framework con la nostra osservazione chiave che afferma che per i modelli Diffusion/FM addestrati con percorsi di probabilità gaussiana, differenziare attraverso il processo di generazione proietta il gradiente sulla varietà dei dati, iniettando implicitamente il prior nel processo di ottimizzazione. Validiamo il nostro framework su problemi di generazione controllata lineari e non lineari, inclusi: problemi inversi di immagini e audio e generazione condizionata di molecole, raggiungendo prestazioni all'avanguardia in tutti i casi.

Ouroboros: Decodifica Speculativa con Generazione di Bozze Potenziata da Modelli di Grandi Dimensioni
Ouroboros: Speculative Decoding with Large Model Enhanced Drafting

Feb 21

ByWeilin Zhao, Yuxiang Huang, Xu Han, Chaojun Xiao, Zhiyuan Liu, Maosong Sun

I metodi di decodifica basati su bozze e verifica, come la decodifica speculativa, sono ampiamente adottati come approcci senza addestramento per accelerare l'inferenza dei grandi modelli linguistici (LLM). Invece di impiegare un processo autoregressivo per decodificare i token in sequenza, la decodifica speculativa inizialmente crea bozze utilizzando un modello piccolo ed efficiente. Successivamente, i LLM sono chiamati a condurre la verifica e la correzione in modo non autoregressivo per minimizzare il sovraccarico temporale. Generare bozze più lunghe può portare a accelerazioni ancora più significative una volta verificate, ma comporta anche costi sostanziali di tentativi ed errori in caso di fallimento. Soffrendo di un'elevata probabilità di fallimento nella verifica, i metodi di decodifica esistenti non possono elaborare troppi contenuti per la verifica in una sola volta, ottenendo un'accelerazione dell'inferenza sub-ottimale. In questo articolo, introduciamo Ouroboros, che costruisce un pool di candidati di frasi dal processo di verifica dei LLM per fornire candidati alla generazione di bozze del modello piccolo. In questo modo, Ouroboros può ulteriormente migliorare l'efficienza e l'efficacia delle bozze iniziali. I risultati sperimentali su tipici compiti di generazione di testo mostrano che Ouroboros raggiunge accelerazioni fino a 1,9x e 2,8x rispetto alla decodifica lookahead e alla decodifica speculativa, rispettivamente. Il codice sorgente di Ouroboros è disponibile all'indirizzo https://github.com/thunlp/Ouroboros.

YOLOv9: Apprendere ciò che vuoi apprendere utilizzando informazioni programmabili sul gradiente
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

Feb 21

ByChien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao