Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo articolo rivela una nuova caratteristica lineare esclusiva dei decoder transformer, inclusi modelli come GPT, LLaMA, OPT, BLOOM e altri. Analizziamo le trasformazioni degli embedding tra strati sequenziali, scoprendo una relazione quasi perfettamente lineare (punteggio di similarità di Procrustes di 0,99). Tuttavia, la linearità diminuisce quando la componente residua viene rimossa a causa di una norma di output costantemente bassa dello strato transformer. I nostri esperimenti dimostrano che la rimozione o l'approssimazione lineare di alcuni dei blocchi più lineari dei transformer non influisce significativamente sulla perdita o sulle prestazioni del modello. Inoltre, nei nostri esperimenti di pre-addestramento su modelli più piccoli, introduciamo una regolarizzazione basata sulla similarità del coseno, mirata a ridurre la linearità degli strati. Questa regolarizzazione migliora le metriche di prestazione su benchmark come Tiny Stories e SuperGLUE e riduce con successo la linearità dei modelli. Questo studio mette in discussione la comprensione attuale delle architetture transformer, suggerendo che il loro funzionamento potrebbe essere più lineare di quanto si pensasse in precedenza.
La memorizzazione chiave-valore (KV) svolge un ruolo essenziale nell'accelerazione del processo di decodifica per i modelli linguistici di grandi dimensioni (LLM) autoregressivi basati su trasformatori. Tuttavia, la quantità di memoria necessaria per memorizzare la cache KV può diventare proibitiva per sequenze lunghe e dimensioni di batch elevate. Dalla creazione del trasformatore, due degli interventi più efficaci scoperti per ridurre le dimensioni della cache KV sono stati l'attenzione multi-query (MQA) e la sua generalizzazione, l'attenzione a query raggruppate (GQA). Sia MQA che GQA modificano il design del blocco di attenzione in modo che più teste di query possano condividere una singola testa chiave/valore, riducendo il numero di teste chiave/valore distinte di un fattore significativo, pur degradando solo minimamente l'accuratezza. In questo articolo, dimostriamo che è possibile spingere ulteriormente l'attenzione multi-query condividendo anche le teste chiave e valore tra strati adiacenti, ottenendo un nuovo design di attenzione che chiamiamo Attenzione Cross-Layer (CLA). Con CLA, abbiamo scoperto che è possibile ridurre ulteriormente le dimensioni della cache KV di un altro 2x mantenendo quasi la stessa accuratezza di MQA non modificato. Negli esperimenti di addestramento di modelli da 1B e 3B parametri da zero, dimostriamo che CLA offre un miglioramento di Pareto rispetto ai compromessi memoria/accuratezza possibili con il tradizionale MQA, consentendo inferenze con sequenze più lunghe e dimensioni di batch più grandi rispetto a quanto sarebbe altrimenti possibile.
I modelli del mondo rappresentano un approccio promettente per addestrare agenti di apprendimento per rinforzo in modo sicuro ed efficiente in termini di campioni. I recenti modelli del mondo operano prevalentemente su sequenze di variabili latenti discrete per modellare le dinamiche dell'ambiente. Tuttavia, questa compressione in una rappresentazione discreta compatta potrebbe ignorare dettagli visivi importanti per l'apprendimento per rinforzo. Parallelamente, i modelli di diffusione sono diventati un approccio dominante per la generazione di immagini, sfidando i metodi consolidati che modellano latenti discreti. Motivati da questo cambio di paradigma, introduciamo DIAMOND (DIffusion As a Model Of eNvironment Dreams), un agente di apprendimento per rinforzo addestrato in un modello del mondo basato sulla diffusione. Analizziamo le scelte progettuali chiave necessarie per rendere la diffusione adatta alla modellazione del mondo e dimostriamo come dettagli visivi migliorati possano portare a prestazioni superiori dell'agente. DIAMOND raggiunge un punteggio medio normalizzato umano di 1,46 sul benchmark competitivo Atari 100k; un nuovo record per agenti addestrati interamente all'interno di un modello del mondo. Per promuovere future ricerche sulla diffusione per la modellazione del mondo, rilasciamo il nostro codice, gli agenti e i modelli del mondo giocabili all'indirizzo https://github.com/eloialonso/diamond.
I metodi attuali di reenactment e swapping facciale si basano principalmente su framework GAN, ma l'attenzione recente si è spostata verso modelli di diffusione pre-addestrati per le loro superiori capacità di generazione. Tuttavia, l'addestramento di questi modelli è dispendioso in termini di risorse, e i risultati non hanno ancora raggiunto livelli di prestazione soddisfacenti. Per affrontare questo problema, introduciamo Face-Adapter, un adattatore efficiente ed efficace progettato per l'editing facciale ad alta precisione e alta fedeltà per modelli di diffusione pre-addestrati. Osserviamo che sia i compiti di reenactment che di swapping facciale coinvolgono essenzialmente combinazioni di struttura target, ID e attributi. Miriamo a disaccoppiare sufficientemente il controllo di questi fattori per realizzare entrambi i compiti in un unico modello. Nello specifico, il nostro metodo include: 1) Un Generatore di Condizioni Spaziali che fornisce landmark precisi e lo sfondo; 2) Un Codificatore di Identità Plug-and-play che trasferisce gli embedding facciali nello spazio testuale tramite un decoder trasformatore. 3) Un Controllore di Attributi che integra condizioni spaziali e attributi dettagliati. Face-Adapter raggiunge prestazioni comparabili o addirittura superiori in termini di precisione del controllo del movimento, capacità di ritenzione dell'ID e qualità della generazione rispetto ai modelli di reenactment/swapping facciale completamente fine-tuned. Inoltre, Face-Adapter si integra perfettamente con vari modelli StableDiffusion.
Il campo del matching di immagini ha assistito a una continua comparsa di nuove tecniche apprendibili per il matching di feature, con prestazioni in costante miglioramento sui benchmark convenzionali. Tuttavia, la nostra indagine mostra che, nonostante questi progressi, il loro potenziale per applicazioni nel mondo reale è limitato dalle loro capacità di generalizzazione limitate a nuovi domini di immagini. In questo articolo, introduciamo OmniGlue, il primo matcher di immagini apprendibile progettato con la generalizzazione come principio fondamentale. OmniGlue sfrutta una conoscenza ampia da un modello di fondazione visiva per guidare il processo di matching delle feature, migliorando la generalizzazione a domini non visti durante l'addestramento. Inoltre, proponiamo un nuovo meccanismo di attenzione guidato dalla posizione dei keypoint che separa le informazioni spaziali e di aspetto, portando a descrittori di matching migliorati. Eseguiamo esperimenti completi su una suite di 7 dataset con vari domini di immagini, inclusi immagini a livello di scena, centrate su oggetti e aeree. I componenti innovativi di OmniGlue portano a guadagni relativi su domini non visti del 20,9% rispetto a un modello di riferimento direttamente confrontabile, superando anche il recente metodo LightGlue del 9,5% in termini relativi. Codice e modello sono disponibili all'indirizzo https://hwjiang1510.github.io/OmniGlue.
Presentiamo residui personalizzati e campionamento guidato da attenzione localizzata per una generazione efficiente guidata da concetti utilizzando modelli di diffusione testo-immagine. Il nostro metodo rappresenta inizialmente i concetti congelando i pesi di un modello di diffusione pre-addestrato condizionato al testo e apprendendo residui a basso rango per un piccolo sottoinsieme degli strati del modello. L'approccio basato sui residui consente quindi l'applicazione diretta della nostra tecnica di campionamento proposta, che applica i residui appresi solo nelle aree in cui il concetto è localizzato tramite cross-attenzione e utilizza i pesi originali del modello di diffusione in tutte le altre regioni. Il campionamento localizzato combina quindi l'identità appresa del concetto con il precedente generativo esistente del modello di diffusione sottostante. Dimostriamo che i residui personalizzati catturano efficacemente l'identità di un concetto in circa 3 minuti su una singola GPU senza l'uso di immagini di regolarizzazione e con meno parametri rispetto ai modelli precedenti, e il campionamento localizzato consente di utilizzare il modello originale come forte precedente per gran parte dell'immagine.