HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

5 papers found

VisionLLaMA: Un'interfaccia LLaMA unificata per compiti visivi
VisionLLaMA: A Unified LLaMA Interface for Vision Tasks

Mar 1

ByXiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen

I grandi modelli linguistici sono costruiti su un'architettura basata su trasformatori per elaborare input testuali. Ad esempio, LLaMA si distingue tra le molte implementazioni open-source. È possibile utilizzare lo stesso trasformatore per elaborare immagini 2D? In questo articolo, rispondiamo a questa domanda presentando un trasformatore visivo simile a LLaMA in forme semplici e piramidali, denominato VisionLLaMA, progettato specificamente per questo scopo. VisionLLaMA è un framework di modellazione unificato e generico per risolvere la maggior parte delle attività visive. Valutiamo ampiamente la sua efficacia utilizzando paradigmi di pre-addestramento tipici in una buona parte di attività downstream di percezione delle immagini e, in particolare, di generazione di immagini. In molti casi, VisionLLaMA ha mostrato miglioramenti significativi rispetto ai precedenti trasformatori visivi all'avanguardia. Crediamo che VisionLLaMA possa servire come un nuovo e solido modello di base per la generazione e la comprensione visiva. Il nostro codice sarà rilasciato su https://github.com/Meituan-AutoML/VisionLLaMA.

Apprendimento e Sfruttamento di Modelli del Mondo nell'Apprendimento di Rappresentazioni Visive
Learning and Leveraging World Models in Visual Representation Learning

Mar 1

ByQuentin Garrido, Mahmoud Assran, Nicolas Ballas, Adrien Bardes, Laurent Najman, Yann LeCun

La Joint-Embedding Predictive Architecture (JEPA) è emersa come un approccio promettente nell'apprendimento auto-supervisionato che sfrutta un modello del mondo. Mentre in precedenza era limitata alla previsione di parti mancanti di un input, esploriamo come generalizzare il compito di previsione della JEPA a un insieme più ampio di corruzioni. Introduciamo Image World Models (IWM), un approccio che va oltre il masked image modeling e impara a prevedere l'effetto di trasformazioni fotometriche globali nello spazio latente. Studiamo la ricetta per apprendere IWM performanti e dimostriamo che si basa su tre aspetti chiave: condizionamento, difficoltà di previsione e capacità. Inoltre, mostriamo che il modello del mondo predittivo appreso da IWM può essere adattato attraverso il fine-tuning per risolvere compiti diversi; un modello del mondo IWM fine-tuned eguaglia o supera le prestazioni dei precedenti metodi auto-supervisionati. Infine, dimostriamo che l'apprendimento con un IWM consente di controllare il livello di astrazione delle rappresentazioni apprese, apprendendo rappresentazioni invarianti come nei metodi contrastivi, o rappresentazioni equivarianti come nel masked image modeling.

Resonance RoPE: Migliorare la Generalizzazione della Lunghezza del Contesto nei Modelli Linguistici di Grande Dimensione
Resonance RoPE: Improving Context Length Generalization of Large Language Models

Feb 29

BySuyuchen Wang, Ivan Kobyzev, Peng Lu, Mehdi Rezagholizadeh, Bang Liu

Questo articolo affronta la sfida degli scenari train-short-test-long (TSTL) nei Large Language Models (LLM) dotati di Rotary Position Embedding (RoPE), in cui i modelli pre-addestrati su sequenze più brevi incontrano difficoltà con le posizioni dei token fuori distribuzione (OOD) in sequenze più lunghe. Introduciamo Resonance RoPE, un approccio innovativo progettato per ridurre il divario di generalizzazione negli scenari TSTL, perfezionando l'interpolazione delle caratteristiche RoPE per le posizioni OOD, migliorando significativamente le prestazioni del modello senza costi computazionali aggiuntivi online. Inoltre, presentiamo PosGen, un nuovo benchmark sintetico specificamente progettato per l'analisi comportamentale granulare negli scenari TSTL, con l'obiettivo di isolare la difficoltà costantemente crescente della generazione di token su contesti lunghi dalle sfide del riconoscimento di nuove posizioni dei token. I nostri esperimenti su compiti sintetici dimostrano che, dopo l'applicazione di Resonance RoPE, i Transformer riconoscono le posizioni OOD in modo migliore e più robusto. I nostri estesi esperimenti su LLM mostrano anche prestazioni superiori dopo l'applicazione di Resonance RoPE al metodo di scalatura RoPE attualmente all'avanguardia, YaRN, sia nei compiti di modellazione del linguaggio upstream che in una varietà di applicazioni downstream su testi lunghi.

RealCustom: Affinamento delle parole del testo reale per la personalizzazione testo-immagine in tempo reale in domini aperti
RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization

Mar 1

ByMengqi Huang, Zhendong Mao, Mingcong Liu, Qian He, Yongdong Zhang

La personalizzazione da testo a immagine, che mira a sintetizzare immagini guidate da testo per i soggetti specificati, ha recentemente rivoluzionato la creazione di contenuti. I lavori esistenti seguono il paradigma delle pseudo-parole, ovvero rappresentano i soggetti specificati come pseudo-parole e poi le compongono con il testo fornito. Tuttavia, l'intrinseco ambito di influenza intrecciato delle pseudo-parole con il testo dato risulta in un paradosso del doppio ottimo, cioè la somiglianza dei soggetti specificati e la controllabilità del testo fornito non possono essere ottimali simultaneamente. Presentiamo RealCustom che, per la prima volta, separa la somiglianza dalla controllabilità limitando con precisione l'influenza del soggetto solo alle parti rilevanti, ottenuto restringendo gradualmente la parola reale del testo dalla sua connotazione generale al soggetto specifico e utilizzando la sua cross-attention per distinguere la rilevanza. Nello specifico, RealCustom introduce un nuovo framework "train-inference" disaccoppiato: (1) durante l'addestramento, RealCustom apprende l'allineamento generale tra le condizioni visive e le condizioni testuali originali attraverso un nuovo modulo di scoring adattivo per modulare adattivamente la quantità di influenza; (2) durante l'inferenza, viene proposta una nuova strategia di guida a maschera adattativa per aggiornare iterativamente l'ambito di influenza e la quantità di influenza dei soggetti specificati, restringendo gradualmente la generazione della parola reale del testo. Esperimenti completi dimostrano la superiore capacità di personalizzazione in tempo reale di RealCustom nel dominio aperto, raggiungendo sia una somiglianza senza precedenti dei soggetti specificati che una controllabilità del testo fornito per la prima volta. La pagina del progetto è https://corleone-huang.github.io/realcustom/.

AtP: Un metodo efficiente e scalabile per localizzare il comportamento dei modelli linguistici di grandi dimensioni nei componenti
AtP: An efficient and scalable method for localizing LLM behaviour to components

Mar 1

ByJános Kramár, Tom Lieberum, Rohin Shah, Neel Nanda

L'Activation Patching è un metodo per calcolare direttamente le attribuzioni causali del comportamento ai componenti del modello. Tuttavia, applicarlo in modo esaustivo richiede un'analisi con un costo che scala linearmente rispetto al numero di componenti del modello, il che può essere proibitivamente costoso per i Large Language Model (LLM) allo stato dell'arte. Investigiamo l'Attribution Patching (AtP), un'approssimazione basata su gradienti e veloce dell'Activation Patching, e individuiamo due classi di modalità di fallimento di AtP che portano a significativi falsi negativi. Proponiamo una variante di AtP chiamata AtP*, con due modifiche per affrontare queste modalità di fallimento mantenendo la scalabilità. Presentiamo il primo studio sistematico di AtP e di metodi alternativi per un Activation Patching più veloce e dimostriamo che AtP supera significativamente tutti gli altri metodi investigati, con AtP* che fornisce un ulteriore significativo miglioramento. Infine, forniamo un metodo per limitare la probabilità di falsi negativi rimanenti nelle stime di AtP*.

RealCustom: Affinamento delle parole del testo reale per la personalizzazione testo-immagine in tempo reale in domini aperti
RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization

Mar 1

ByMengqi Huang, Zhendong Mao, Mingcong Liu, Qian He, Yongdong Zhang