Articoli di ricerca IA selezionati quotidianamente con traduzioni
I costosi strati di self-attention nei moderni Transformer richiedono memoria e calcoli quadratici rispetto alla lunghezza della sequenza. I metodi di approssimazione esistenti generalmente ottengono prestazioni inferiori e non riescono a ottenere significativi miglioramenti di velocità nella pratica. Qui presentiamo SwitchHead, un metodo innovativo che riduce sia i requisiti di calcolo che di memoria e ottiene un'accelerazione in termini di tempo reale, mantenendo le prestazioni di modellazione del linguaggio dei Transformer di riferimento con lo stesso budget di parametri. SwitchHead utilizza strati Mixture-of-Experts (MoE) per le proiezioni dei valori e degli output e richiede da 4 a 8 volte meno matrici di attenzione rispetto ai Transformer standard. La nostra nuova attenzione può anche essere combinata con strati MLP MoE, risultando in un efficiente modello Transformer completamente MoE chiamato "SwitchAll". Il nostro codice è pubblico.
Sebbene la generazione di video basata su modelli di diffusione abbia registrato rapidi progressi, i risultati di inferenza dei modelli esistenti mostrano ancora una consistenza temporale insoddisfacente e dinamiche innaturali. In questo articolo, approfondiamo l'inizializzazione del rumore nei modelli di diffusione video e scopriamo un divario implicito tra addestramento e inferenza che contribuisce alla qualità insoddisfacente dell'inferenza. Le nostre principali scoperte sono: 1) la distribuzione della frequenza spazio-temporale del latente iniziale durante l'inferenza è intrinsecamente diversa da quella durante l'addestramento, e 2) il processo di denoising è significativamente influenzato dalle componenti a bassa frequenza del rumore iniziale. Motivati da queste osservazioni, proponiamo una strategia di campionamento per l'inferenza concisa ma efficace, chiamata FreeInit, che migliora significativamente la consistenza temporale dei video generati dai modelli di diffusione. Attraverso il raffinamento iterativo delle componenti a bassa frequenza spazio-temporale del latente iniziale durante l'inferenza, FreeInit è in grado di compensare il divario di inizializzazione tra addestramento e inferenza, migliorando così efficacemente l'aspetto del soggetto e la consistenza temporale dei risultati generati. Esperimenti estensivi dimostrano che FreeInit migliora costantemente i risultati di generazione di vari modelli di generazione video da testo senza ulteriore addestramento.
I modelli di linguaggio visivo (VLMs) hanno fatto rapidi progressi grazie ai recenti successi dei grandi modelli di linguaggio (LLMs). Sono stati compiuti crescenti sforzi per l'ottimizzazione tramite istruzioni visive al fine di estendere i LLM con input visivi, ma manca uno studio approfondito del processo di pre-addestramento del linguaggio visivo, in cui il modello impara a eseguire una modellazione congiunta su entrambe le modalità. In questo lavoro, esaminiamo le opzioni di progettazione per il pre-addestramento dei VLMs potenziando i LLM verso i VLMs attraverso confronti controllati passo-passo. Introduciamo tre principali risultati: (1) il congelamento dei LLMs durante il pre-addestramento può ottenere prestazioni zero-shot decenti, ma manca della capacità di apprendimento in contesto, che richiede lo scongelamento del LLM; (2) i dati di pre-addestramento intervallati sono vantaggiosi, mentre le sole coppie immagine-testo non sono ottimali; (3) il ri-miscelamento dei dati di istruzione solo testuali con i dati immagine-testo durante l'ottimizzazione tramite istruzioni non solo rimedia al degrado delle attività solo testuali, ma migliora anche l'accuratezza delle attività VLM. Con una ricetta di pre-addestramento potenziata, costruiamo VILA, una famiglia di modelli di linguaggio visivo che supera costantemente i modelli all'avanguardia, ad esempio LLaVA-1.5, nei principali benchmark senza fronzoli. Il pre-addestramento multimodale aiuta anche a svelare proprietà interessanti di VILA, tra cui il ragionamento su più immagini, un migliore apprendimento in contesto e una migliore conoscenza del mondo.
I modelli di diffusione hanno raggiunto una qualità di generazione di immagini straordinaria, superando i precedenti modelli generativi. Tuttavia, una limitazione significativa dei modelli di diffusione, rispetto alle GAN, è la loro difficoltà nell'interpolare in modo fluido tra due campioni di immagini, a causa del loro spazio latente altamente non strutturato. Tale interpolazione fluida è intrigante in quanto rappresenta naturalmente una soluzione per il compito di morphing di immagini con molte applicazioni. In questo lavoro, presentiamo DiffMorpher, il primo approccio che consente un'interpolazione di immagini fluida e naturale utilizzando modelli di diffusione. La nostra idea chiave è catturare la semantica delle due immagini adattando rispettivamente due LoRA a ciascuna di esse, e interpolare sia i parametri dei LoRA che i rumori latenti per garantire una transizione semantica fluida, in cui la corrispondenza emerge automaticamente senza la necessità di annotazioni. Inoltre, proponiamo una tecnica di interpolazione e iniezione dell'attenzione e un nuovo schema di campionamento per migliorare ulteriormente la fluidità tra immagini consecutive. Esperimenti estensivi dimostrano che DiffMorpher ottiene effetti di morphing di immagini notevolmente migliori rispetto ai metodi precedenti in una varietà di categorie di oggetti, colmando un gap funzionale critico che distingueva i modelli di diffusione dalle GAN.
Approcci recenti come ControlNet offrono agli utenti un controllo spaziale fine sui modelli di diffusione testo-immagine (T2I). Tuttavia, è necessario addestrare moduli ausiliari per ogni tipo di condizione spaziale, architettura del modello e checkpoint, rendendoli in contrasto con le diverse intenzioni e preferenze che un progettista umano vorrebbe trasmettere ai modelli di intelligenza artificiale durante il processo di creazione dei contenuti. In questo lavoro, presentiamo FreeControl, un approccio senza addestramento per la generazione controllata di immagini T2I che supporta simultaneamente più condizioni, architetture e checkpoint. FreeControl progetta una guida strutturale per facilitare l'allineamento strutturale con un'immagine di riferimento e una guida estetica per consentire la condivisione dell'aspetto tra immagini generate utilizzando lo stesso seme. Esperimenti qualitativi e quantitativi estesi dimostrano la performance superiore di FreeControl su una varietà di modelli T2I pre-addestrati. In particolare, FreeControl facilita un comodo controllo senza addestramento su molte architetture e checkpoint diversi, consente condizioni di input complesse su cui la maggior parte dei metodi esistenti senza addestramento fallisce e raggiunge una qualità di sintesi competitiva con approcci basati su addestramento.
La valutazione dei modelli linguistici di grandi dimensioni (LLM) è fondamentale per valutarne le prestazioni e mitigare i potenziali rischi di sicurezza. In questo articolo, presentiamo PromptBench, una libreria unificata per la valutazione degli LLM. Essa è composta da diversi componenti chiave che sono facilmente utilizzabili ed estendibili dai ricercatori: costruzione dei prompt, ingegnerizzazione dei prompt, caricamento di dataset e modelli, attacchi avversari tramite prompt, protocolli di valutazione dinamici e strumenti di analisi. PromptBench è progettata per essere una codebase aperta, generale e flessibile per scopi di ricerca, in grado di facilitare studi originali nella creazione di nuovi benchmark, nel dispiegamento di applicazioni downstream e nella progettazione di nuovi protocolli di valutazione. Il codice è disponibile all'indirizzo: https://github.com/microsoft/promptbench e sarà supportato in modo continuativo.
Esaminiamo le applicazioni dei modelli di base preaddestrati nella robotica. I tradizionali modelli di apprendimento profondo in robotica vengono addestrati su piccoli dataset specifici per compiti particolari, il che limita la loro adattabilità a una vasta gamma di applicazioni. Al contrario, i modelli di base preaddestrati su dati di scala internet sembrano possedere capacità di generalizzazione superiori e, in alcuni casi, mostrano un'abilità emergente di trovare soluzioni zero-shot a problemi non presenti nei dati di addestramento. I modelli di base potrebbero avere il potenziale di migliorare vari componenti dello stack di autonomia robotica, dalla percezione alla decisione e al controllo. Ad esempio, i grandi modelli linguistici possono generare codice o fornire ragionamenti di senso comune, mentre i modelli visione-linguaggio abilitano il riconoscimento visivo a vocabolario aperto. Tuttavia, rimangono significative sfide di ricerca aperte, in particolare riguardo alla scarsità di dati di addestramento rilevanti per la robotica, alle garanzie di sicurezza e alla quantificazione dell'incertezza, nonché all'esecuzione in tempo reale. In questa rassegna, studiamo articoli recenti che hanno utilizzato o costruito modelli di base per risolvere problemi di robotica. Esploriamo come i modelli di base contribuiscono a migliorare le capacità dei robot nei domini della percezione, della decisione e del controllo. Discutiamo le sfide che ostacolano l'adozione dei modelli di base nell'autonomia robotica e forniamo opportunità e potenziali percorsi per futuri progressi. Il progetto GitHub corrispondente a questo articolo (Rilascio preliminare. Ci impegniamo a migliorare e aggiornare ulteriormente questo lavoro per garantirne qualità e rilevanza) può essere trovato qui: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models
A causa della notevole scala dei Modelli Linguistici di Grandi Dimensioni (LLMs), l'applicazione diretta delle metodologie di compressione convenzionali si rivela impraticabile. Le esigenze computazionali associate anche ai minimi aggiornamenti dei gradienti presentano sfide significative, specialmente su hardware di livello consumer. Questo articolo introduce un approccio innovativo per la compressione parametrica e pratica degli LLMs basato sulla modellizzazione a ordine ridotto, che implica la decomposizione a basso rango nello spazio delle caratteristiche e la ri-parametrizzazione nello spazio dei pesi. È importante notare che questa tecnica di compressione opera in modo strato per strato, eliminando la necessità di un dispositivo GPU e consentendo la compressione di modelli su scala miliardi entro vincoli stringenti sia di memoria che di tempo. Il nostro metodo rappresenta un progresso significativo nella compressione dei modelli sfruttando la decomposizione matriciale, dimostrando un'efficacia superiore rispetto al metodo prevalente di potatura strutturata allo stato dell'arte.
Recenti ricerche hanno compiuto progressi significativi nell'applicazione di tecniche di allineamento per migliorare l'utilità e l'innocuità dei grandi modelli linguistici (LLM) in conformità con le intenzioni umane. In questo articolo, sosteniamo l'importanza dell'allineamento per l'onestà, garantendo che gli LLM rifiutino proattivamente di rispondere alle domande quando non possiedono le conoscenze necessarie, senza tuttavia essere eccessivamente conservativi. Tuttavia, un aspetto cruciale dell'allineamento per l'onestà riguarda la capacità di discernere i limiti delle conoscenze di un LLM, il che è tutt'altro che semplice. Questa sfida richiede soluzioni complete in termini di sviluppo di metriche, creazione di benchmark e metodologie di addestramento. In questo articolo, affrontiamo queste sfide definendo innanzitutto un problema preciso e definendo l'"onestà" ispirandoci agli Analetti di Confucio. Questo serve come fondamento per sviluppare metriche che misurino efficacemente l'onestà di un LLM quantificando i suoi progressi dopo l'allineamento. Inoltre, introduciamo un framework di addestramento flessibile che viene ulteriormente istanziato da diverse tecniche di fine-tuning efficienti che enfatizzano l'onestà senza sacrificare le prestazioni su altri compiti. I nostri esperimenti estensivi rivelano che questi modelli allineati mostrano un marcato aumento dell'onestà, come indicato dalle metriche da noi proposte. Rendiamo disponibili una vasta gamma di risorse per facilitare la ricerca futura all'indirizzo https://github.com/GAIR-NLP/alignment-for-honesty, inclusi modelli allineati per l'onestà, dataset di addestramento e valutazione per l'allineamento dell'onestà, glossario dei concetti, nonché tutto il codice sorgente rilevante.
Nei Modelli Linguistici Multimodali di Grande Scala (MLLMs), un proiettore visivo svolge un ruolo cruciale nel collegare encoder visivi pre-addestrati con i LLM, consentendo una profonda comprensione visiva sfruttando le robuste capacità dei LLM. Nonostante l'importanza del proiettore visivo, esso è stato relativamente poco esplorato. In questo studio, identifichiamo innanzitutto due proprietà essenziali del proiettore: (i) la flessibilità nella gestione del numero di token visivi, cruciale per l'efficienza complessiva degli MLLMs, e (ii) la preservazione del contesto locale dalle caratteristiche visive, vitale per la comprensione spaziale. Sulla base di queste osservazioni, proponiamo un nuovo design di proiettore che è sia flessibile che potenziato nella località, soddisfacendo efficacemente le due proprietà desiderabili. Inoltre, presentiamo strategie complete per utilizzare efficacemente dataset di istruzioni multipli e multifaccettati. Attraverso esperimenti estesi, esaminiamo l'impatto delle singole scelte progettuali. Infine, il nostro MLLM proposto, Honeybee, supera notevolmente i precedenti metodi all'avanguardia su vari benchmark, tra cui MME, MMBench, SEED-Bench e LLaVA-Bench, raggiungendo un'efficienza significativamente maggiore. Codice e modelli sono disponibili all'indirizzo https://github.com/kakaobrain/honeybee.
Presentiamo FIND, un'interfaccia generalizzata per l'allineamento degli embedding dei modelli di base. Come mostrato nella figura introduttiva, un'interfaccia transformer leggera senza la necessità di ottimizzare i pesi del modello di base è sufficiente per una comprensione unificata a livello di immagine (segmentazione) e di dataset (recupero). L'interfaccia proposta presenta i seguenti attributi favorevoli: (1) Generalizzabile. Si applica a varie attività che spaziano dal recupero alla segmentazione, ecc., mantenendo la stessa architettura e gli stessi pesi. (2) Prototipabile. Diverse attività possono essere implementate attraverso la prototipazione di maschere di attenzione e tipi di embedding. (3) Estendibile. L'interfaccia proposta è adattabile a nuove attività e nuovi modelli. (4) Intervallabile. Grazie al vantaggio dell'addestramento multi-task e multi-modale, l'interfaccia proposta crea uno spazio di embedding condiviso intervallato. Alla luce dello spazio di embedding intervallato, introduciamo FIND-Bench, che aggiunge nuove annotazioni di addestramento e valutazione al dataset COCO per la segmentazione e il recupero intervallati. Il nostro approccio raggiunge prestazioni all'avanguardia su FIND-Bench e prestazioni competitive nelle impostazioni standard di recupero e segmentazione. Il codice di addestramento, valutazione e demo, nonché il dataset, sono stati rilasciati su https://github.com/UX-Decoder/FIND.
I Modelli di Consistenza (CMs) hanno dimostrato un potenziale promettente nella creazione di contenuti visivi in modo efficiente e di alta qualità. Tuttavia, il modo per aggiungere nuovi controlli condizionali ai CMs pre-addestrati non è stato ancora esplorato. In questo rapporto tecnico, consideriamo strategie alternative per aggiungere controlli condizionali simili a ControlNet ai CMs e presentiamo tre risultati significativi. 1) ControlNet addestrato per modelli di diffusione (DMs) può essere applicato direttamente ai CMs per controlli semantici di alto livello, ma incontra difficoltà con i dettagli di basso livello e il controllo del realismo. 2) I CMs rappresentano una classe indipendente di modelli generativi, sulla base della quale ControlNet può essere addestrato da zero utilizzando il Consistency Training proposto da Song et al. 3) Un adattatore leggero può essere ottimizzato congiuntamente sotto molteplici condizioni attraverso il Consistency Training, consentendo un trasferimento rapido di ControlNet basato su DMs ai CMs. Studiamo queste tre soluzioni attraverso vari controlli condizionali, tra cui bordi, profondità, pose umane, immagini a bassa risoluzione e immagini mascherate con modelli di consistenza latente da testo a immagine.
Mentre il rendering neurale ha portato a impressionanti progressi nella ricostruzione di scene e nella sintesi di nuove visualizzazioni, esso si basa fortemente su pose della camera pre-calcolate con precisione. Per ridurre questo vincolo, sono stati compiuti diversi sforzi per addestrare i Campi di Radianza Neurale (NeRF) senza pose della camera pre-elaborate. Tuttavia, le rappresentazioni implicite dei NeRF presentano ulteriori sfide per ottimizzare contemporaneamente la struttura 3D e le pose della camera. D'altra parte, il recentemente proposto 3D Gaussian Splatting offre nuove opportunità grazie alle sue rappresentazioni esplicite di nuvole di punti. Questo articolo sfrutta sia la rappresentazione geometrica esplicita che la continuità del flusso video in ingresso per eseguire la sintesi di nuove visualizzazioni senza alcuna pre-elaborazione SfM. Elaboriamo i fotogrammi in ingresso in modo sequenziale e incrementiamo progressivamente l'insieme delle Gaussiane 3D prendendo un fotogramma in ingresso alla volta, senza la necessità di pre-calcolare le pose della camera. Il nostro metodo migliora significativamente rispetto agli approcci precedenti nella sintesi di visualizzazioni e nella stima delle pose della camera in presenza di ampi cambiamenti di movimento. La pagina del nostro progetto è https://oasisyang.github.io/colmap-free-3dgs.
Introduciamo il Contrastive Activation Addition (CAA), un metodo innovativo per orientare i modelli linguistici modificando le attivazioni durante i loro passaggi in avanti. Il CAA calcola "vettori di orientamento" mediando la differenza nelle attivazioni del flusso residuo tra coppie di esempi positivi e negativi di un comportamento specifico, come risposte fattuali rispetto a quelle allucinatorie. Durante l'inferenza, questi vettori di orientamento vengono aggiunti in tutte le posizioni dei token dopo il prompt dell'utente con un coefficiente positivo o negativo, consentendo un controllo preciso sul grado del comportamento mirato. Valutiamo l'efficacia del CAA su Llama 2 Chat utilizzando sia dataset di domande comportamentali a scelta multipla che task di generazione aperta. Dimostriamo che il CAA altera significativamente il comportamento del modello, supera i metodi tradizionali come il fine-tuning e il prompting few-shot e riduce minimamente le capacità. Inoltre, impiegando vari metodi di interpretazione dello spazio di attivazione, otteniamo approfondimenti più dettagliati sui meccanismi del CAA. Il CAA non solo orienta con precisione gli output del modello, ma getta anche luce su come i concetti di alto livello sono rappresentati nei Large Language Models (LLM).
Recentemente sono stati compiuti notevoli progressi nella generazione di video da testo, con modelli all'avanguardia in grado di produrre video di alta qualità e realistici. Tuttavia, questi modelli non consentono agli utenti di controllare e generare video in modo interattivo, una capacità che potrebbe aprire nuove aree di applicazione. Come primo passo verso questo obiettivo, affrontiamo il problema di dotare i modelli di generazione video basati su diffusione di un controllo spazio-temporale interattivo sul loro output. A tal fine, traiamo ispirazione dai recenti progressi nella letteratura sulla segmentazione per proporre un nuovo modulo di attenzione mascherata spazio-temporale: Peekaboo. Questo modulo è un'aggiunta priva di overhead durante l'inferenza e non richiede addestramento ai modelli di generazione video esistenti, consentendo il controllo spazio-temporale. Proponiamo inoltre un benchmark di valutazione per il compito di generazione video interattiva. Attraverso un'ampia valutazione qualitativa e quantitativa, dimostriamo che Peekaboo abilita la generazione di video controllati e ottiene un miglioramento fino a 3,8x in mIoU rispetto ai modelli di base.
Nel campo dell'apprendimento automatico, la generalizzazione rispetto agli spostamenti di distribuzione — in cui le condizioni di utilizzo divergono dagli scenari di addestramento — è cruciale, specialmente in settori come la modellazione climatica, la biomedicina e la guida autonoma. L'emergere di modelli di base, caratterizzati da un ampio pre-addestramento e versatilità nei compiti, ha suscitato un crescente interesse per la loro adattabilità agli spostamenti di distribuzione. GPT-4V(ision) rappresenta il modello di base multimodale più avanzato pubblicamente accessibile, con applicazioni estese in vari ambiti, tra cui il rilevamento di anomalie, la comprensione video, la generazione di immagini e la diagnosi medica. Tuttavia, la sua robustezza rispetto alle distribuzioni di dati rimane in gran parte inesplorata. Colmando questa lacuna, questo studio valuta rigorosamente l'adattabilità e le capacità di generalizzazione di GPT-4V in ambienti dinamici, confrontandolo con modelli di rilievo come CLIP e LLaVA. Esploriamo la generalizzazione zero-shot di GPT-4V su 13 dataset diversi che spaziano dai domini naturali a quelli medici e molecolari. Inoltre, indaghiamo la sua adattabilità a perturbazioni controllate dei dati ed esaminiamo l'efficacia dell'apprendimento in contesto come strumento per migliorare la sua adattabilità. I nostri risultati delineano i limiti delle capacità di GPT-4V negli spostamenti di distribuzione, evidenziandone punti di forza e limitazioni in vari scenari. In modo significativo, questa indagine contribuisce alla nostra comprensione di come i modelli di base dell'IA generalizzano gli spostamenti di distribuzione, offrendo intuizioni fondamentali sulla loro adattabilità e robustezza. Il codice è disponibile pubblicamente all'indirizzo https://github.com/jameszhou-gl/gpt-4v-distribution-shift.
I Diffusion Transformer hanno recentemente dimostrato una notevole efficacia nella generazione di nuvole di punti 3D di alta qualità. Tuttavia, l'addestramento di modelli di diffusione basati su voxel per voxel 3D ad alta risoluzione rimane proibitivamente costoso a causa della complessità cubica degli operatori di attenzione, derivante dalla dimensione aggiuntiva dei voxel. Motivati dalla ridondanza intrinseca del 3D rispetto al 2D, proponiamo FastDiT-3D, un innovativo transformer di diffusione mascherato progettato per una generazione efficiente di nuvole di punti 3D, che riduce significativamente i costi di addestramento. Nello specifico, traiamo ispirazione dagli autoencoder mascherati per operare dinamicamente il processo di denoising su nuvole di punti voxelizzate mascherate. Proponiamo inoltre una nuova strategia di mascheratura voxel-aware per aggregare in modo adattivo le informazioni di sfondo/primo piano dalle nuvole di punti voxelizzate. Il nostro metodo raggiunge prestazioni all'avanguardia con un rapporto di mascheratura estremo di quasi il 99%. Inoltre, per migliorare la generazione 3D multi-categoria, introduciamo il Mixture-of-Expert (MoE) nel modello di diffusione 3D. Ogni categoria può apprendere un percorso di diffusione distinto con esperti diversi, alleviando i conflitti di gradiente. I risultati sperimentali sul dataset ShapeNet dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia nella generazione di nuvole di punti 3D ad alta fedeltà e diversità. Il nostro FastDiT-3D migliora le metriche di Accuratezza del Vicino più Vicino (1-Nearest Neighbor Accuracy) e Copertura (Coverage) nella generazione di nuvole di punti voxel a risoluzione 128, utilizzando solo il 6,5% del costo di addestramento originale.
Un fattore critico per il successo dei sistemi di supporto alle decisioni è la modellazione accurata delle preferenze degli utenti. La ricerca psicologica ha dimostrato che gli utenti spesso sviluppano le proprie preferenze durante il processo di elicitation, sottolineando il ruolo cruciale dell'interazione sistema-utente nello sviluppo di sistemi personalizzati. Questo articolo introduce un approccio innovativo, che combina Large Language Models (LLM) con la Programmazione a Vincoli per facilitare il supporto decisionale interattivo. Studiamo questo framework ibrido attraverso il caso specifico della pianificazione di riunioni, un'attività quotidiana che richiede tempo e che affrontano numerosi lavoratori dell'informazione. Abbiamo condotto tre studi per valutare il nuovo framework, tra cui uno studio diario (n=64) per caratterizzare le preferenze contestuali nella pianificazione, una valutazione quantitativa delle prestazioni del sistema e uno studio utente (n=10) con un sistema prototipo. Il nostro lavoro evidenzia il potenziale di un approccio ibrido che combina LLM e ottimizzazione per l'elicitazione iterativa delle preferenze e le considerazioni progettuali per la costruzione di sistemi che supportano processi decisionali collaborativi tra uomo e sistema.