Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'IA generativa conversazionale ha dimostrato un notevole potenziale nel potenziare i professionisti biomedici, ma le attuali indagini si concentrano su testi unimodali. L'IA conversazionale multimodale ha fatto rapidi progressi sfruttando miliardi di coppie immagine-testo dal web pubblico, ma tali modelli visione-linguaggio di dominio generale mancano ancora di sofisticazione nella comprensione e nella conversazione riguardo alle immagini biomediche. In questo articolo, proponiamo un approccio efficiente in termini di costi per addestrare un assistente conversazionale visione-linguaggio in grado di rispondere a domande di ricerca aperte su immagini biomediche. L'idea chiave è sfruttare un ampio dataset biomedico di figure-didascalie estratto da PubMed Central, utilizzare GPT-4 per auto-istruire dati di istruzione aperta dalle didascalie, e poi affinare un modello visione-linguaggio di dominio generale utilizzando un nuovo metodo di apprendimento curriculare. Specificamente, il modello impara prima ad allineare il vocabolario biomedico utilizzando le coppie figura-didascalia così come sono, poi impara a padroneggiare la semantica conversazionale aperta utilizzando i dati di istruzione generati da GPT-4, imitando in modo ampio come una persona comune acquisisce gradualmente conoscenze biomediche. Questo ci permette di addestrare un Large Language and Vision Assistant for BioMedicine (LLaVA-Med) in meno di 15 ore (con otto A100). LLaVA-Med mostra un'eccellente capacità conversazionale multimodale e può seguire istruzioni aperte per assistere con le richieste su un'immagine biomedica. Su tre dataset standard di risposta a domande visive biomediche, LLaVA-Med supera i precedenti stati dell'arte supervisionati su alcune metriche. Per facilitare la ricerca multimodale biomedica, rilasceremo i nostri dati di istruzione e il modello LLaVA-Med.
I modelli pre-addestrati di grandi dimensioni per la generazione di immagini da testo sintetizzano immagini impressionanti con un uso appropriato di prompt testuali. Tuttavia, le ambiguità intrinseche del linguaggio naturale e gli effetti di distribuzione fuori dal dominio rendono difficile sintetizzare stili di immagini che sfruttino uno schema di design, una texture o un materiale specifico. In questo articolo, introduciamo StyleDrop, un metodo che consente la sintesi di immagini che seguono fedelmente uno stile specifico utilizzando un modello di generazione di immagini da testo. Il metodo proposto è estremamente versatile e cattura le sfumature e i dettagli di uno stile fornito dall'utente, come schemi di colore, ombreggiatura, modelli di design ed effetti locali e globali. Apprende in modo efficiente un nuovo stile ottimizzando pochissimi parametri addestrabili (meno dell'1% dei parametri totali del modello) e migliorando la qualità attraverso un addestramento iterativo con feedback umano o automatizzato. Ancora meglio, StyleDrop è in grado di fornire risultati impressionanti anche quando l'utente fornisce una singola immagine che specifica lo stile desiderato. Uno studio approfondito dimostra che, per il compito di adattamento stilistico dei modelli di generazione di immagini da testo, StyleDrop implementato su Muse supera in modo convincente altri metodi, tra cui DreamBooth e inversione testuale su Imagen o Stable Diffusion. Ulteriori risultati sono disponibili sul nostro sito web del progetto: https://styledrop.github.io.
Introduciamo un agente RL basato sul valore, che chiamiamo BBF, in grado di raggiungere prestazioni sovrumane nel benchmark Atari 100K. BBF si basa sul ridimensionamento delle reti neurali utilizzate per la stima del valore, insieme a una serie di altre scelte progettuali che consentono questo ridimensionamento in modo efficiente dal punto di vista dei campioni. Conduciamo analisi approfondite di queste scelte progettuali e forniamo spunti per lavori futuri. Concludiamo con una discussione sull'aggiornamento degli obiettivi per la ricerca RL efficiente nei campioni sull'ALE. Rendiamo disponibili pubblicamente il nostro codice e i dati all'indirizzo https://github.com/google-research/google-research/tree/master/bigger_better_faster.
Le immagini generate da modelli di diffusione come Stable Diffusion stanno diventando sempre più diffuse. Recenti lavori e persino cause legali hanno dimostrato che questi modelli tendono a replicare i dati di addestramento, a insaputa dell'utente. In questo articolo, analizziamo innanzitutto questo problema di memorizzazione nei modelli di diffusione testo-immagine. Sebbene si ritenga comunemente che le immagini duplicate nel set di addestramento siano responsabili della replicazione del contenuto al momento dell'inferenza, osserviamo che il condizionamento testuale del modello svolge un ruolo altrettanto importante. In effetti, nei nostri esperimenti vediamo che la replicazione dei dati spesso non avviene per modelli non condizionati, mentre è comune nel caso di modelli condizionati dal testo. Motivati dalle nostre scoperte, proponiamo quindi diverse tecniche per ridurre la replicazione dei dati sia durante l'addestramento che al momento dell'inferenza, randomizzando e aumentando le didascalie delle immagini nel set di addestramento.
I Transformer sono emersi come il fulcro dei modelli all'avanguardia per l'elaborazione del linguaggio naturale, dimostrando prestazioni eccezionali in un'ampia gamma di applicazioni di intelligenza artificiale. Tuttavia, le esigenze di memoria imposte dal meccanismo di self-attention e dalla grande rete feedforward nei Transformer limitano la loro capacità di gestire sequenze lunghe, creando così sfide per i compiti che coinvolgono più sequenze lunghe o dipendenze a lungo termine. Presentiamo un approccio innovativo, il Blockwise Parallel Transformer (BPT), che sfrutta il calcolo a blocchi della self-attention e la fusione della rete feedforward per minimizzare i costi di memoria. Elaborando sequenze di input più lunghe mantenendo al contempo l'efficienza della memoria, il BPT consente di addestrare sequenze fino a 32 volte più lunghe rispetto ai Transformer tradizionali e da 2 a 4 volte più lunghe rispetto ai precedenti metodi efficienti in termini di memoria. Esperimenti estesi su compiti di modellazione del linguaggio e apprendimento per rinforzo dimostrano l'efficacia del BPT nel ridurre i requisiti di memoria e migliorare le prestazioni.
Il Contrastive Language-Image Pre-training (CLIP) rappresenta uno dei metodi più efficaci e scalabili per addestrare modelli di visione trasferibili utilizzando dati accoppiati di immagini e testo. I modelli CLIP vengono addestrati utilizzando una funzione di perdita contrastiva, che tipicamente si affida a tecniche di aumento dei dati per prevenire l'overfitting e l'utilizzo di scorciatoie. Tuttavia, nel paradigma di addestramento di CLIP, le tecniche di aumento dei dati vengono applicate esclusivamente agli input di immagini, mentre gli input di testo rimangono invariati durante l'intero processo di addestramento, limitando l'esposizione a testi diversi per la stessa immagine. In questo articolo, introduciamo il Language augmented CLIP (LaCLIP), un approccio semplice ma altamente efficace per migliorare l'addestramento di CLIP attraverso la riscrittura del testo. Sfruttando la capacità di apprendimento in contesto dei modelli linguistici di grandi dimensioni, riscriviamo le descrizioni testuali associate a ciascuna immagine. Questi testi riscritti presentano diversità nella struttura delle frasi e nel vocabolario, pur preservando i concetti chiave e i significati originali. Durante l'addestramento, LaCLIP seleziona casualmente i testi originali o le versioni riscritte come tecniche di aumento dei dati per ciascuna immagine. Esperimenti estesi sui dataset CC3M, CC12M, RedCaps e LAION-400M dimostrano che il pre-addestramento di CLIP con riscritture del testo migliora significativamente le prestazioni di trasferimento senza aumentare il costo computazionale o di memoria durante l'addestramento. In particolare, per l'accuratezza zero-shot su ImageNet, LaCLIP supera CLIP dell'8,2% su CC12M e del 2,4% su LAION-400M. Il codice è disponibile all'indirizzo https://github.com/LijieFan/LaCLIP.
Considerando la rapida ascesa dei grandi modelli linguistici (LLM), ci poniamo la seguente domanda: (Come) possono i grandi modelli linguistici aiutare nella revisione di articoli scientifici o proposte? Iniziamo conducendo alcuni studi pilota in cui scopriamo che (i) GPT-4 supera altri LLM (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), e (ii) formulare prompt con una domanda specifica (ad esempio, per identificare errori) produce risultati migliori rispetto a semplicemente chiedere di scrivere una recensione. Con queste intuizioni, studiamo l'uso degli LLM (in particolare, GPT-4) per tre compiti: 1. Identificazione di errori: Costruiamo 13 brevi articoli di informatica, ciascuno con un errore inserito deliberatamente, e chiediamo all'LLM di verificarne la correttezza. Osserviamo che l'LLM identifica errori in 7 di essi, comprendendo sia errori matematici che concettuali. 2. Verifica di checklist: Assegniamo all'LLM il compito di verificare 16 domande chiuse di una checklist nelle rispettive sezioni di 15 articoli di NeurIPS 2022. Rileviamo che, su 119 coppie {domanda della checklist, articolo}, l'LLM ha raggiunto un'accuratezza dell'86,6%. 3. Scelta del "miglior" articolo: Generiamo 10 coppie di abstract, progettando deliberatamente ciascuna coppia in modo che un abstract fosse chiaramente superiore all'altro. Tuttavia, l'LLM ha faticato a discernere queste differenze relativamente semplici, commettendo errori nelle valutazioni per 6 delle 10 coppie. Sulla base di questi esperimenti, riteniamo che gli LLM abbiano un potenziale promettente come assistenti di revisione per compiti specifici, ma non (ancora) per valutazioni complete di articoli o proposte.
Negli ultimi anni si sono registrati notevoli progressi nel campo della modifica delle immagini tramite istruzioni testuali. Tuttavia, quando questi editor vengono applicati alla modifica di scene dinamiche, la nuova scena tende a essere temporalmente incoerente a causa della natura frame-by-frame di questi editor 2D. Per affrontare questo problema, proponiamo Control4D, un approccio innovativo per la modifica di ritratti 4D ad alta fedeltà e temporalmente coerente. Control4D si basa su una rappresentazione 4D efficiente con un editor basato su diffusione 2D. Invece di utilizzare supervisioni dirette dall'editor, il nostro metodo apprende un GAN 4D da esso ed evita i segnali di supervisione incoerenti. Nello specifico, utilizziamo un discriminatore per apprendere la distribuzione di generazione basata sulle immagini modificate e poi aggiorniamo il generatore con i segnali di discriminazione. Per un addestramento più stabile, vengono estratte informazioni multi-livello dalle immagini modificate e utilizzate per facilitare l'apprendimento del generatore. I risultati sperimentali mostrano che Control4D supera i precedenti approcci e raggiunge prestazioni di modifica 4D più fotorealistiche e coerenti. Il link al nostro sito web del progetto è https://control4darxiv.github.io.
L'apprendimento per rinforzo offline (offline RL) mira a imparare politiche ottimali da dataset offline, dove la parametrizzazione delle politiche è cruciale ma spesso trascurata. Recentemente, Diffusion-QL ha migliorato significativamente le prestazioni dell'offline RL rappresentando una politica con un modello di diffusione, il cui successo si basa su una catena di Markov parametrizzata con centinaia di passaggi per il campionamento. Tuttavia, Diffusion-QL soffre di due limitazioni critiche. 1) È computazionalmente inefficiente propagare in avanti e indietro l'intera catena di Markov durante l'addestramento. 2) È incompatibile con gli algoritmi di RL basati sulla massima verosimiglianza (ad esempio, i metodi del gradiente della politica) poiché la verosimiglianza dei modelli di diffusione è intrattabile. Pertanto, proponiamo una politica di diffusione efficiente (EDP) per superare queste due sfide. EDP costruisce approssimativamente le azioni da quelle corrotte durante l'addestramento per evitare di eseguire la catena di campionamento. Abbiamo condotto esperimenti estesi sul benchmark D4RL. I risultati mostrano che EDP può ridurre il tempo di addestramento della politica di diffusione da 5 giorni a 5 ore sui task di locomozione in gym. Inoltre, dimostriamo che EDP è compatibile con vari algoritmi di offline RL (TD3, CRR e IQL) e raggiunge nuovi stati dell'arte su D4RL con margini significativi rispetto ai metodi precedenti. Il nostro codice è disponibile all'indirizzo https://github.com/sail-sg/edp.
Presentiamo un approccio per ricostruire esseri umani e tracciarli nel tempo. Al centro del nostro metodo, proponiamo una versione completamente "trasformata" di una rete per il recupero della mesh umana. Questa rete, HMR 2.0, avanza lo stato dell'arte e dimostra la capacità di analizzare pose insolite che in passato sono state difficili da ricostruire da immagini singole. Per analizzare video, utilizziamo le ricostruzioni 3D di HMR 2.0 come input per un sistema di tracciamento che opera in 3D. Ciò ci consente di gestire più persone e mantenere le identità durante eventi di occlusione. Il nostro approccio completo, 4DHumans, raggiunge risultati all'avanguardia per il tracciamento di persone da video monoculare. Inoltre, dimostriamo l'efficacia di HMR 2.0 nel compito successivo di riconoscimento delle azioni, ottenendo miglioramenti significativi rispetto ai precedenti approcci basati sulla postura per il riconoscimento delle azioni. Il nostro codice e i nostri modelli sono disponibili sul sito web del progetto: https://shubham-goel.github.io/4dhumans/.
La pianificazione procedurale, che implica la scomposizione di un obiettivo di alto livello in una sequenza di passaggi temporalmente ordinati, è un compito importante ma complesso per le macchine. Richiede l'integrazione di conoscenza di senso comune per ragionare su situazioni contestualizzate e spesso controfattuali, ad esempio "prenotare una visita medica senza un telefono". Sebbene gli approcci attuali mostrino risultati promettenti utilizzando modelli linguistici di grandi dimensioni (LLM), sono ostacolati da svantaggi come costose chiamate API e problemi di riproducibilità. In questo articolo, sosteniamo la pianificazione utilizzando modelli linguistici più piccoli. Presentiamo PlaSma, un approccio innovativo a due livelli per dotare i modelli linguistici di piccole dimensioni di conoscenza procedurale e capacità di pianificazione (anche controfattuale). Più concretamente, sviluppiamo una distillazione simbolica della conoscenza procedurale per migliorare la conoscenza implicita nei modelli linguistici di piccole dimensioni e un algoritmo di inferenza per facilitare un ragionamento più strutturato e accurato. Inoltre, introduciamo un nuovo compito, la Pianificazione Controfattuale, che richiede la revisione di un piano per affrontare una situazione controfattuale. Sia nel contesto originale che in quello controfattuale, dimostriamo che modelli di ordini di grandezza più piccoli (770M-11B parametri) possono competere e spesso superare le capacità dei loro modelli insegnanti più grandi.
I grandi modelli linguistici (LLM) hanno dimostrato un successo straordinario in un'ampia gamma di compiti di generazione del linguaggio naturale, dove un corretto design dei prompt ha un impatto significativo. Mentre i metodi di prompting esistenti sono normalmente limitati a fornire informazioni corrette, in questo articolo incoraggiamo il modello a riflettere proponendo un nuovo framework di prompting chiamato Deliberate then Generate (DTG), che consiste in istruzioni di rilevamento degli errori e candidati che possono contenere errori. DTG è una tecnica semplice ma efficace che può essere applicata a vari compiti di generazione di testo con modifiche minime. Abbiamo condotto esperimenti estesi su oltre 20 dataset relativi a 7 compiti di generazione di testo, tra cui riassunto, traduzione, dialogo e altro. Dimostriamo che DTG supera costantemente i metodi di prompting esistenti e raggiunge prestazioni all'avanguardia in molteplici compiti di generazione di testo. Forniamo inoltre analisi approfondite per rivelare i meccanismi sottostanti di DTG, che potrebbero ispirare future ricerche sul prompting per i LLM.
Presentiamo "Human or Not?", un gioco online ispirato al test di Turing, che misura la capacità dei chatbot di imitare gli esseri umani nel dialogo e degli esseri umani di distinguere i bot da altri esseri umani. Nel corso di un mese, il gioco è stato utilizzato da oltre 1,5 milioni di utenti che hanno partecipato a sessioni di chat anonime della durata di due minuti con un altro essere umano o con un modello di linguaggio AI programmato per comportarsi come un essere umano. Il compito dei giocatori era indovinare correttamente se stavano parlando con una persona o con un'IA. Questo test in stile Turing su scala più ampia mai condotto finora ha rivelato alcuni fatti interessanti. Ad esempio, nel complesso gli utenti hanno indovinato correttamente l'identità dei loro partner solo nel 68% delle partite. Nel sottoinsieme di partite in cui gli utenti si sono confrontati con un bot AI, i tassi di indovinamento corretti sono stati ancora più bassi, pari al 60% (cioè non molto superiori al caso). Questo white paper descrive in dettaglio lo sviluppo, l'implementazione e i risultati di questo esperimento unico. Sebbene questo esperimento richieda molte estensioni e perfezionamenti, questi risultati iniziano già a gettare luce sull'inevitabile futuro prossimo in cui esseri umani e IA si mescoleranno.