Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici sono costruiti su un'architettura basata su trasformatori per elaborare input testuali. Ad esempio, LLaMA si distingue tra le molte implementazioni open-source. È possibile utilizzare lo stesso trasformatore per elaborare immagini 2D? In questo articolo, rispondiamo a questa domanda presentando un trasformatore visivo simile a LLaMA in forme semplici e piramidali, denominato VisionLLaMA, progettato specificamente per questo scopo. VisionLLaMA è un framework di modellazione unificato e generico per risolvere la maggior parte delle attività visive. Valutiamo ampiamente la sua efficacia utilizzando paradigmi di pre-addestramento tipici in una buona parte di attività downstream di percezione delle immagini e, in particolare, di generazione di immagini. In molti casi, VisionLLaMA ha mostrato miglioramenti significativi rispetto ai precedenti trasformatori visivi all'avanguardia. Crediamo che VisionLLaMA possa servire come un nuovo e solido modello di base per la generazione e la comprensione visiva. Il nostro codice sarà rilasciato su https://github.com/Meituan-AutoML/VisionLLaMA.
La Joint-Embedding Predictive Architecture (JEPA) è emersa come un approccio promettente nell'apprendimento auto-supervisionato che sfrutta un modello del mondo. Mentre in precedenza era limitata alla previsione di parti mancanti di un input, esploriamo come generalizzare il compito di previsione della JEPA a un insieme più ampio di corruzioni. Introduciamo Image World Models (IWM), un approccio che va oltre il masked image modeling e impara a prevedere l'effetto di trasformazioni fotometriche globali nello spazio latente. Studiamo la ricetta per apprendere IWM performanti e dimostriamo che si basa su tre aspetti chiave: condizionamento, difficoltà di previsione e capacità. Inoltre, mostriamo che il modello del mondo predittivo appreso da IWM può essere adattato attraverso il fine-tuning per risolvere compiti diversi; un modello del mondo IWM fine-tuned eguaglia o supera le prestazioni dei precedenti metodi auto-supervisionati. Infine, dimostriamo che l'apprendimento con un IWM consente di controllare il livello di astrazione delle rappresentazioni apprese, apprendendo rappresentazioni invarianti come nei metodi contrastivi, o rappresentazioni equivarianti come nel masked image modeling.
Questo articolo affronta la sfida degli scenari train-short-test-long (TSTL) nei Large Language Models (LLM) dotati di Rotary Position Embedding (RoPE), in cui i modelli pre-addestrati su sequenze più brevi incontrano difficoltà con le posizioni dei token fuori distribuzione (OOD) in sequenze più lunghe. Introduciamo Resonance RoPE, un approccio innovativo progettato per ridurre il divario di generalizzazione negli scenari TSTL, perfezionando l'interpolazione delle caratteristiche RoPE per le posizioni OOD, migliorando significativamente le prestazioni del modello senza costi computazionali aggiuntivi online. Inoltre, presentiamo PosGen, un nuovo benchmark sintetico specificamente progettato per l'analisi comportamentale granulare negli scenari TSTL, con l'obiettivo di isolare la difficoltà costantemente crescente della generazione di token su contesti lunghi dalle sfide del riconoscimento di nuove posizioni dei token. I nostri esperimenti su compiti sintetici dimostrano che, dopo l'applicazione di Resonance RoPE, i Transformer riconoscono le posizioni OOD in modo migliore e più robusto. I nostri estesi esperimenti su LLM mostrano anche prestazioni superiori dopo l'applicazione di Resonance RoPE al metodo di scalatura RoPE attualmente all'avanguardia, YaRN, sia nei compiti di modellazione del linguaggio upstream che in una varietà di applicazioni downstream su testi lunghi.
La personalizzazione da testo a immagine, che mira a sintetizzare immagini guidate da testo per i soggetti specificati, ha recentemente rivoluzionato la creazione di contenuti. I lavori esistenti seguono il paradigma delle pseudo-parole, ovvero rappresentano i soggetti specificati come pseudo-parole e poi le compongono con il testo fornito. Tuttavia, l'intrinseco ambito di influenza intrecciato delle pseudo-parole con il testo dato risulta in un paradosso del doppio ottimo, cioè la somiglianza dei soggetti specificati e la controllabilità del testo fornito non possono essere ottimali simultaneamente. Presentiamo RealCustom che, per la prima volta, separa la somiglianza dalla controllabilità limitando con precisione l'influenza del soggetto solo alle parti rilevanti, ottenuto restringendo gradualmente la parola reale del testo dalla sua connotazione generale al soggetto specifico e utilizzando la sua cross-attention per distinguere la rilevanza. Nello specifico, RealCustom introduce un nuovo framework "train-inference" disaccoppiato: (1) durante l'addestramento, RealCustom apprende l'allineamento generale tra le condizioni visive e le condizioni testuali originali attraverso un nuovo modulo di scoring adattivo per modulare adattivamente la quantità di influenza; (2) durante l'inferenza, viene proposta una nuova strategia di guida a maschera adattativa per aggiornare iterativamente l'ambito di influenza e la quantità di influenza dei soggetti specificati, restringendo gradualmente la generazione della parola reale del testo. Esperimenti completi dimostrano la superiore capacità di personalizzazione in tempo reale di RealCustom nel dominio aperto, raggiungendo sia una somiglianza senza precedenti dei soggetti specificati che una controllabilità del testo fornito per la prima volta. La pagina del progetto è https://corleone-huang.github.io/realcustom/.
L'Activation Patching è un metodo per calcolare direttamente le attribuzioni causali del comportamento ai componenti del modello. Tuttavia, applicarlo in modo esaustivo richiede un'analisi con un costo che scala linearmente rispetto al numero di componenti del modello, il che può essere proibitivamente costoso per i Large Language Model (LLM) allo stato dell'arte. Investigiamo l'Attribution Patching (AtP), un'approssimazione basata su gradienti e veloce dell'Activation Patching, e individuiamo due classi di modalità di fallimento di AtP che portano a significativi falsi negativi. Proponiamo una variante di AtP chiamata AtP*, con due modifiche per affrontare queste modalità di fallimento mantenendo la scalabilità. Presentiamo il primo studio sistematico di AtP e di metodi alternativi per un Activation Patching più veloce e dimostriamo che AtP supera significativamente tutti gli altri metodi investigati, con AtP* che fornisce un ulteriore significativo miglioramento. Infine, forniamo un metodo per limitare la probabilità di falsi negativi rimanenti nelle stime di AtP*.