Articoli di ricerca IA selezionati quotidianamente con traduzioni
La generazione di immagini da testo ha recentemente raggiunto risultati straordinari. Presentiamo un modello di diffusione di immagini condizionato dal testo, denominato RAPHAEL, in grado di generare immagini altamente artistiche che rappresentano accuratamente i prompt testuali, comprendenti più sostantivi, aggettivi e verbi. Questo risultato è ottenuto impilando decine di strati di mixture-of-experts (MoE), ovvero strati space-MoE e time-MoE, che abilitano miliardi di percorsi di diffusione (route) dall'input alla rete all'output. Ogni percorso funziona intuitivamente come un "pittore" per rappresentare un particolare concetto testuale in una specifica regione dell'immagine in un determinato passo temporale della diffusione. Esperimenti completi rivelano che RAPHAEL supera i recenti modelli all'avanguardia, come Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd e DALL-E 2, sia in termini di qualità dell'immagine che di appeal estetico. In primo luogo, RAPHAEL dimostra prestazioni superiori nel passaggio tra immagini di stili diversi, come fumetti giapponesi, realismo, cyberpunk e illustrazioni a inchiostro. In secondo luogo, un singolo modello con tre miliardi di parametri, addestrato su 1.000 GPU A100 per due mesi, raggiunge uno score FID zero-shot di 6.61 sul dataset COCO, stabilendo un nuovo stato dell'arte. Inoltre, RAPHAEL supera significativamente i suoi concorrenti nelle valutazioni umane sul benchmark ViLG-300. Crediamo che RAPHAEL abbia il potenziale per spingere le frontiere della ricerca sulla generazione di immagini sia in ambito accademico che industriale, aprendo la strada a futuri progressi in questo campo in rapida evoluzione. Ulteriori dettagli sono disponibili su una pagina web del progetto: https://raphael-painter.github.io/.
Proponiamo un metodo per fondere modelli linguistici di grandi dimensioni (LLM) congelati e basati esclusivamente su testo con modelli pre-addestrati di codifica e decodifica di immagini, mappando tra i loro spazi di embedding. Il nostro modello dimostra un'ampia gamma di capacità multimodali: recupero di immagini, generazione di nuove immagini e dialogo multimodale. Il nostro è il primo approccio in grado di condizionare input di immagini e testo intervallati arbitrariamente per generare output coerenti di immagini (e testo). Per ottenere prestazioni solide nella generazione di immagini, proponiamo una rete di mappatura efficiente per ancorare l'LLM a un modello preesistente di generazione di immagini da testo. Questa rete di mappatura traduce le rappresentazioni nascoste del testo nello spazio di embedding dei modelli visivi, consentendoci di sfruttare le forti rappresentazioni testuali dell'LLM per output visivi. Il nostro approccio supera i modelli di generazione di base in compiti con linguaggio più lungo e complesso. Oltre alla generazione di nuove immagini, il nostro modello è anche in grado di recuperare immagini da un dataset predefinito e decide se recuperare o generare al momento dell'inferenza. Questo viene fatto con un modulo decisionale appreso che si condiziona sulle rappresentazioni nascoste dell'LLM. Il nostro modello mostra una gamma più ampia di capacità rispetto ai precedenti modelli linguistici multimodali. Può elaborare input di immagini e testo e produrre immagini recuperate, immagini generate e testo generato, superando i modelli di generazione non basati su LLM in diversi compiti di generazione di immagini da testo che misurano la dipendenza dal contesto.
Stable Diffusion ha rivoluzionato la creazione di immagini a partire da descrizioni testuali. GPT-2, GPT-3(.5) e GPT-4 hanno dimostrato prestazioni sorprendenti in una varietà di compiti linguistici. ChatGPT ha portato questi modelli linguistici al grande pubblico. È ormai chiaro che i grandi modelli linguistici (LLM) sono destinati a rimanere e porteranno cambiamenti drastici nell'intero ecosistema di testi e immagini online. In questo articolo consideriamo cosa potrebbe riservare il futuro. Cosa accadrà a GPT-{n} una volta che gli LLM contribuiranno a gran parte del linguaggio trovato online? Scopriamo che l'uso di contenuti generati da modelli durante l'addestramento causa difetti irreversibili nei modelli risultanti, dove le code della distribuzione originale del contenuto scompaiono. Chiamiamo questo effetto "demenza del modello" e dimostriamo che può verificarsi negli Autoencoder Variazionali (VAE), nei Modelli a Mistura Gaussiana (GMM) e negli LLM. Costruiamo un'intuizione teorica dietro il fenomeno e ne illustriamo l'ubiquità tra tutti i modelli generativi appresi. Dimostriamo che deve essere preso seriamente se vogliamo mantenere i benefici dell'addestramento su dati su larga scala raccolti dal web. In effetti, il valore dei dati raccolti sulle interazioni autentiche degli esseri umani con i sistemi sarà sempre più prezioso in presenza di contenuti generati da LLM nei dati estratti da Internet.
I modelli di diffusione su larga scala per la generazione di immagini da testo, come Stable Diffusion, hanno attirato notevole attenzione da parte della comunità. Questi modelli possono essere facilmente personalizzati per nuovi concetti utilizzando adattamenti a basso rango (LoRA). Tuttavia, l'utilizzo di più LoRA per concetti diversi al fine di supportare congiuntamente più concetti personalizzati rappresenta una sfida. Questo scenario viene definito come personalizzazione decentralizzata multi-concetto, che coinvolge l'ottimizzazione dei concetti da parte di singoli clienti e la fusione dei concetti a livello centrale. In questo articolo, proponiamo un nuovo framework chiamato Mix-of-Show che affronta le sfide della personalizzazione decentralizzata multi-concetto, inclusi i conflitti tra concetti derivanti dall'ottimizzazione LoRA da parte di singoli clienti e la perdita di identità durante la fusione dei modelli. Mix-of-Show adotta un LoRA a decomposizione di embedding (ED-LoRA) per l'ottimizzazione da parte di singoli clienti e una fusione basata sui gradienti per il nodo centrale, al fine di preservare l'essenza intrinseca dei singoli concetti e supportare teoricamente una fusione illimitata di concetti. Inoltre, introduciamo un campionamento controllato a livello regionale, che estende il campionamento controllato spazialmente (ad esempio, ControlNet e T2I-Adaptor) per affrontare i problemi di associazione degli attributi e di oggetti mancanti nel campionamento multi-concetto. Esperimenti estensivi dimostrano che Mix-of-Show è in grado di comporre più concetti personalizzati con alta fedeltà, inclusi personaggi, oggetti e scene.
I grandi modelli linguistici (LLM) dimostrano prestazioni promettenti nella traduzione tra varie lingue naturali. Tuttavia, molti LLM, in particolare quelli open-source come BLOOM e LLaMA, sono dominati dall'inglese e supportano solo alcune decine di lingue naturali, rendendo il potenziale degli LLM nella traduzione linguistica meno esplorato. In questo lavoro, presentiamo BigTrans, che adatta LLaMA, che copre solo 20 lingue, e lo potenzia con capacità di traduzione multilingue su oltre 100 lingue. BigTrans è costruito su LLaMA-13B e viene ottimizzato in tre fasi. Innanzitutto, continuiamo ad addestrare LLaMA con un'enorme quantità di dati monolingue cinesi. In secondo luogo, continuiamo l'addestramento del modello con un ampio dataset parallelo che copre 102 lingue naturali. In terzo luogo, ottimizziamo il modello di base con istruzioni di traduzione multilingue, ottenendo così il nostro modello BigTrans. Gli esperimenti preliminari sulla traduzione multilingue mostrano che BigTrans si comporta in modo comparabile a ChatGPT e Google Translate in molte lingue e supera addirittura ChatGPT in 8 coppie linguistiche. Rilasciamo il modello BigTrans con la speranza che possa avanzare il progresso della ricerca.
Presentiamo MindEye, un nuovo approccio fMRI-to-image per recuperare e ricostruire immagini visualizzate a partire dall'attività cerebrale. Il nostro modello comprende due sottomoduli paralleli specializzati rispettivamente per il recupero (utilizzando l'apprendimento contrastivo) e la ricostruzione (utilizzando un prior di diffusione). MindEye è in grado di mappare l'attività cerebrale fMRI in qualsiasi spazio latente multimodale ad alta dimensionalità, come lo spazio delle immagini CLIP, consentendo la ricostruzione di immagini attraverso modelli generativi che accettano embedding da questo spazio latente. Confrontiamo in modo esaustivo il nostro approccio con altri metodi esistenti, utilizzando sia confronti qualitativi affiancati che valutazioni quantitative, e dimostriamo che MindEye raggiunge prestazioni all'avanguardia sia nei compiti di ricostruzione che di recupero. In particolare, MindEye è in grado di recuperare l'immagine originale esatta anche tra candidati molto simili, indicando che i suoi embedding cerebrali conservano informazioni specifiche e dettagliate dell'immagine. Ciò ci permette di recuperare con precisione immagini anche da database su larga scala come LAION-5B. Attraverso ablazioni, dimostriamo che i miglioramenti delle prestazioni di MindEye rispetto ai metodi precedenti derivano dai sottomoduli specializzati per il recupero e la ricostruzione, da tecniche di addestramento migliorate e dall'addestramento di modelli con un ordine di grandezza in più di parametri. Inoltre, mostriamo che MindEye può preservare meglio le caratteristiche di basso livello delle immagini nelle ricostruzioni utilizzando img2img, con output provenienti da un autoencoder separato. Tutto il codice è disponibile su GitHub.
Una visualizzazione accurata delle storie richiede diversi elementi necessari, come la coerenza dell'identità tra i fotogrammi, l'allineamento tra il testo semplice e il contenuto visivo, e una disposizione ragionevole degli oggetti nelle immagini. La maggior parte dei lavori precedenti si sforza di soddisfare questi requisiti adattando un modello da testo a immagine (T2I) su un insieme di video con lo stesso stile e gli stessi personaggi, ad esempio il dataset FlintstonesSV. Tuttavia, i modelli T2I appresi in genere faticano ad adattarsi a nuovi personaggi, scene e stili, e spesso mancano della flessibilità necessaria per modificare la disposizione delle immagini sintetizzate. Questo articolo propone un sistema per la visualizzazione interattiva generica di storie, in grado di gestire più personaggi nuovi e supportare la modifica della disposizione e della struttura locale. È sviluppato sfruttando la conoscenza pregressa di grandi modelli linguistici e T2I, addestrati su corpora massicci. Il sistema comprende quattro componenti interconnessi: generazione da storia a prompt (S2P), generazione da testo a layout (T2L), generazione controllata da testo a immagine (C-T2I), e animazione da immagine a video (I2V). Innanzitutto, il modulo S2P converte le informazioni concise della storia in prompt dettagliati richiesti per le fasi successive. Successivamente, T2L genera layout diversificati e ragionevoli basati sui prompt, offrendo agli utenti la possibilità di regolare e perfezionare il layout secondo le loro preferenze. Il componente principale, C-T2I, consente la creazione di immagini guidate da layout, schizzi e identificatori specifici per gli attori per mantenere coerenza e dettaglio nelle visualizzazioni. Infine, I2V arricchisce il processo di visualizzazione animando le immagini generate. Sono stati condotti esperimenti estesi e uno studio utente per validare l'efficacia e la flessibilità della modifica interattiva del sistema proposto.
Questo articolo si propone di abilitare in modo efficiente i Modelli Linguistici di Grande Scala (LLMs) all'utilizzo di strumenti multimodali. Modelli avanzati proprietari come ChatGPT e GPT-4 hanno dimostrato un grande potenziale nell'uso di strumenti attraverso sofisticate tecniche di prompt engineering. Tuttavia, questi modelli si basano tipicamente su costi computazionali proibitivi e dati non accessibili pubblicamente. Per affrontare queste sfide, proponiamo GPT4Tools, basato su self-instruct, per consentire a LLMs open-source come LLaMA e OPT di utilizzare strumenti. Questo metodo genera un dataset di istruzioni seguite sollecitando un insegnante avanzato con vari contesti multimodali. Utilizzando l'ottimizzazione Low-Rank Adaptation (LoRA), il nostro approccio facilita la risoluzione di una gamma di problemi visivi da parte dei LLMs open-source, inclusi la comprensione visiva e la generazione di immagini. Inoltre, forniamo un benchmark per valutare la capacità dei LLMs di utilizzare strumenti, eseguito sia in modalità zero-shot che di fine-tuning. Esperimenti estesi dimostrano l'efficacia del nostro metodo su vari modelli linguistici, che non solo migliora significativamente l'accuratezza nell'invocazione di strumenti noti, ma abilita anche la capacità zero-shot per strumenti non visti. Il codice e la demo sono disponibili all'indirizzo https://github.com/StevenGrove/GPT4Tools.
I Large Language Model (LLM) con forti capacità nelle attività di elaborazione del linguaggio naturale sono emersi e sono stati rapidamente applicati in vari ambiti come la scienza, la finanza e l'ingegneria del software. Tuttavia, la capacità degli LLM di far progredire il campo della chimica rimane poco chiara. In questo articolo, stabiliamo un benchmark completo contenente 8 compiti pratici di chimica, tra cui 1) previsione del nome, 2) previsione delle proprietà, 3) previsione della resa, 4) previsione della reazione, 5) retrosintesi (previsione dei reagenti a partire dai prodotti), 6) progettazione di molecole basata su testo, 7) descrizione di molecole e 8) selezione dei reagenti. La nostra analisi si basa su dataset ampiamente riconosciuti come BBBP, Tox21, PubChem, USPTO e ChEBI, facilitando un'esplorazione approfondita delle capacità degli LLM nel contesto della chimica pratica. Tre modelli GPT (GPT-4, GPT-3.5 e Davinci-003) vengono valutati per ciascun compito di chimica in contesti di apprendimento zero-shot e few-shot con esempi di dimostrazione accuratamente selezionati e prompt appositamente progettati. I risultati chiave della nostra indagine sono: 1) GPT-4 supera gli altri due modelli tra i tre valutati; 2) i modelli GPT mostrano prestazioni meno competitive nei compiti che richiedono una comprensione precisa della rappresentazione SMILES delle molecole, come la previsione delle reazioni e la retrosintesi; 3) i modelli GPT dimostrano forti capacità nei compiti di spiegazione basati su testo, come la descrizione delle molecole; e 4) i modelli GPT mostrano prestazioni comparabili o migliori rispetto ai classici modelli di machine learning quando applicati a problemi chimici che possono essere trasformati in compiti di classificazione o ranking, come la previsione delle proprietà e la previsione della resa.
Introduciamo SwiftSage, un innovativo framework per agenti ispirato alla teoria del doppio processo della cognizione umana, progettato per eccellere nella pianificazione delle azioni per compiti complessi di ragionamento interattivo. SwiftSage integra i punti di forza della clonazione del comportamento e del prompting di grandi modelli linguistici (LLM) per migliorare le prestazioni nel completamento dei task. Il framework è composto da due moduli principali: il modulo Swift, che rappresenta il pensiero rapido e intuitivo, e il modulo Sage, che emula i processi di pensiero deliberato. Il modulo Swift è un piccolo modello linguistico encoder-decoder fine-tuned sulle traiettorie di azioni dell'agente oracolo, mentre il modulo Sage utilizza LLM come GPT-4 per la pianificazione dei sottobiettivi e il grounding. Sviluppiamo un metodo euristico per integrare armoniosamente i due moduli, ottenendo un processo di risoluzione dei problemi più efficiente e robusto. In 30 task del benchmark ScienceWorld, SwiftSage supera significativamente altri metodi come SayCan, ReAct e Reflexion, dimostrando la sua efficacia nella risoluzione di complessi task del mondo reale.
Sfruttando dataset su larga scala di immagini-testo e i progressi nei modelli di diffusione, i modelli generativi guidati da testo hanno compiuto passi da gigante nel campo della generazione e modifica di immagini. Questo studio esplora il potenziale di estendere la capacità guidata da testo alla generazione e modifica di video lunghi condizionati da più testi. Le metodologie attuali per la generazione e modifica di video, sebbene innovative, sono spesso limitate a video estremamente brevi (tipicamente meno di 24 fotogrammi) e a una singola condizione testuale. Questi vincoli limitano significativamente le loro applicazioni, considerando che i video del mondo reale di solito consistono in più segmenti, ciascuno con informazioni semantiche diverse. Per affrontare questa sfida, introduciamo un nuovo paradigma denominato Gen-L-Video, in grado di estendere i modelli di diffusione per video brevi già esistenti per generare e modificare video composti da centinaia di fotogrammi con segmenti semantici diversi senza introdurre ulteriori addestramenti, preservando al contempo la coerenza del contenuto. Abbiamo implementato tre metodologie principali per la generazione e modifica di video guidati da testo e le abbiamo estese per adattarle a video più lunghi arricchiti da una varietà di segmenti semantici con il nostro paradigma proposto. I risultati sperimentali rivelano che il nostro approccio amplia significativamente le capacità generative e di modifica dei modelli di diffusione per video, offrendo nuove possibilità per future ricerche e applicazioni. Il codice è disponibile all'indirizzo https://github.com/G-U-N/Gen-L-Video.
I modelli attuali di generazione di immagini da testo spesso faticano a seguire le istruzioni testuali, specialmente quelle che richiedono ragionamento spaziale. D'altra parte, i Large Language Models (LLM), come GPT-4, hanno dimostrato una precisione notevole nella generazione di frammenti di codice per rappresentare graficamente input testuali, ad esempio tramite TikZ. In questo lavoro, introduciamo Control-GPT per guidare le pipeline di generazione di immagini basate su diffusione con schizzi programmatici generati da GPT-4, migliorando la loro capacità di seguire le istruzioni. Control-GPT funziona interrogando GPT-4 per scrivere codice TikZ, e gli schizzi generati vengono utilizzati come riferimenti insieme alle istruzioni testuali per i modelli di diffusione (ad esempio, ControlNet) per generare immagini foto-realistiche. Una delle principali sfide nell'addestramento della nostra pipeline è la mancanza di un dataset contenente testo, immagini e schizzi allineati. Affrontiamo il problema convertendo le maschere delle istanze nei dataset esistenti in poligoni per simulare gli schizzi utilizzati durante il test. Di conseguenza, Control-GPT aumenta notevolmente la controllabilità della generazione di immagini. Stabilisce un nuovo stato dell'arte nella generazione di disposizioni spaziali e posizionamento di oggetti e migliora il controllo degli utenti su posizioni, dimensioni degli oggetti, ecc., quasi raddoppiando l'accuratezza dei modelli precedenti. Il nostro lavoro, come primo tentativo, mostra il potenziale di impiegare LLM per migliorare le prestazioni nei compiti di visione artificiale.
Il fine-tuning dei modelli linguistici (LM) ha ottenuto successo in vari task downstream, ma man mano che le dimensioni dei LM aumentano, la retropropagazione richiede una quantità di memoria proibitivamente elevata. I metodi di ordine zero (ZO) possono in linea di principio stimare i gradienti utilizzando solo due passaggi in avanti, ma si teorizza che siano catastroficamente lenti per l'ottimizzazione di modelli di grandi dimensioni. In questo lavoro, proponiamo un ottimizzatore di ordine zero efficiente in termini di memoria (MeZO), adattando il classico metodo ZO-SGD per operare in-place, consentendo così il fine-tuning dei LM con lo stesso footprint di memoria dell'inferenza. Ad esempio, con una singola GPU A100 80GB, MeZO può addestrare un modello con 30 miliardi di parametri, mentre il fine-tuning con retropropagazione può addestrare solo un LM da 2,7B con lo stesso budget. Abbiamo condotto esperimenti completi su diversi tipi di modelli (LM mascherati e autoregressivi), scale di modelli (fino a 66B) e task downstream (classificazione, scelta multipla e generazione). I nostri risultati dimostrano che (1) MeZO supera significativamente l'apprendimento in-context e il probing lineare; (2) MeZO raggiunge prestazioni comparabili al fine-tuning con retropropagazione su più task, con una riduzione della memoria fino a 12x; (3) MeZO è compatibile sia con tecniche di tuning a parametri completi che con tecniche efficienti come LoRA e prefix tuning; (4) MeZO può ottimizzare efficacemente obiettivi non differenziabili (ad esempio, massimizzare l'accuratezza o l'F1). Supportiamo i nostri risultati empirici con intuizioni teoriche, evidenziando come un adeguato pre-training e prompt di task consentano a MeZO di effettuare il fine-tuning di modelli enormi, nonostante le analisi classiche ZO suggeriscano il contrario.
In un'epoca in cui le immagini e i contenuti visivi dominano il nostro panorama digitale, la capacità di manipolare e personalizzare queste immagini è diventata una necessità. Immagina di sostituire senza soluzione di continuità un gatto soriano che si rilassa su un davanzale soleggiato in una fotografia con il tuo cucciolo giocherellone, preservando il fascino originale e la composizione dell'immagine. Presentiamo Photoswap, un approccio innovativo che consente questa esperienza di editing immersivo attraverso lo scambio personalizzato di soggetti in immagini esistenti. Photoswap apprende prima il concetto visivo del soggetto da immagini di riferimento e poi lo scambia nell'immagine target utilizzando modelli di diffusione pre-addestrati in modo privo di training. Dimostriamo che un soggetto visivo ben concettualizzato può essere trasferito senza soluzione di continuità in qualsiasi immagine con un'appropriata manipolazione dell'auto-attenzione e dell'attenzione incrociata, mantenendo la posa del soggetto scambiato e la coerenza complessiva dell'immagine. Esperimenti completi sottolineano l'efficacia e la controllabilità di Photoswap nello scambio personalizzato di soggetti. Inoltre, Photoswap supera significativamente i metodi di base nelle valutazioni umane in termini di scambio di soggetti, conservazione dello sfondo e qualità complessiva, rivelando il suo vasto potenziale applicativo, dall'intrattenimento all'editing professionale.
Recentemente, si è registrato un crescente interesse nello sviluppo di modelli generativi testo-immagine basati su diffusione, in grado di produrre testo visivo coerente e ben strutturato. In questo articolo, proponiamo un approccio innovativo ed efficiente chiamato GlyphControl per affrontare questo compito. A differenza dei metodi esistenti che si basano su encoder di testo sensibili ai caratteri come ByT5 e richiedono il riaddestramento dei modelli testo-immagine, il nostro approccio sfrutta informazioni condizionali aggiuntive sui glifi per migliorare le prestazioni del modello Stable-Diffusion già disponibile nella generazione di testo visivo accurato. Incorporando istruzioni sui glifi, gli utenti possono personalizzare il contenuto, la posizione e le dimensioni del testo generato in base alle loro esigenze specifiche. Per facilitare ulteriori ricerche nella generazione di testo visivo, abbiamo costruito un dataset di benchmark per l'addestramento chiamato LAION-Glyph. Valutiamo l'efficacia del nostro approccio misurando metriche basate su OCR e punteggi CLIP del testo visivo generato. Le nostre valutazioni empiriche dimostrano che GlyphControl supera il recente approccio DeepFloyd IF in termini di accuratezza OCR e punteggi CLIP, evidenziando l'efficacia del nostro metodo.
Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono continuamente sviluppati, la loro valutazione diventa sempre più importante ma anche impegnativa. Questo lavoro propone Chain-of-Thought Hub, una suite di valutazione open-source sulle capacità di ragionamento multi-step dei modelli linguistici di grandi dimensioni. Siamo interessati a questo contesto per due motivi: (1) dal comportamento delle famiglie di modelli GPT e PaLM, osserviamo che il ragionamento complesso è probabilmente un fattore chiave di differenziazione tra LLM più deboli e più forti; (2) prevediamo che i modelli linguistici di grandi dimensioni diventeranno la prossima generazione di piattaforme computazionali e favoriranno un ecosistema di nuove applicazioni basate su LLM, il che richiede naturalmente che i modelli di base siano in grado di eseguire compiti complessi che spesso coinvolgono la composizione di operazioni linguistiche e logiche. Il nostro approccio consiste nel compilare una suite di benchmark di ragionamento impegnativi per monitorare i progressi degli LLM. I nostri risultati attuali mostrano che: (1) la scala del modello è chiaramente correlata alle capacità di ragionamento; (2) A maggio 2023, Claude-v1.3 e PaLM-2 sono gli unici due modelli paragonabili a GPT-4, mentre i modelli open-source sono ancora in ritardo; (3) LLaMA-65B si avvicina a code-davinci-002, indicando che con un ulteriore sviluppo di successo, come il reinforcement learning da feedback umano (RLHF), ha un grande potenziale per avvicinarsi a GPT-3.5-Turbo. I nostri risultati suggeriscono inoltre che, affinché gli sforzi open-source possano recuperare il ritardo, la comunità potrebbe concentrarsi maggiormente sulla costruzione di modelli di base migliori e sull'esplorazione dell'RLHF.
L'affascinante mondo di Minecraft ha attirato un notevole interesse di ricerca negli ultimi anni, fungendo da piattaforma ricca per lo sviluppo di agenti intelligenti in grado di operare in ambienti open-world. Tuttavia, il panorama attuale della ricerca si concentra prevalentemente su obiettivi specifici, come il popolare compito "ObtainDiamond", e non ha ancora dimostrato un'efficace generalizzazione a un più ampio spettro di attività. Inoltre, il tasso di successo attualmente più elevato per il compito "ObtainDiamond" si attesta intorno al 20%, evidenziando i limiti dei controller basati su Reinforcement Learning (RL) utilizzati nei metodi esistenti. Per affrontare queste sfide, introduciamo Ghost in the Minecraft (GITM), un nuovo framework che integra Large Language Models (LLM) con conoscenza e memoria basate su testo, con l'obiettivo di creare Agenti Generalmente Capaci (GCA) in Minecraft. Questi agenti, dotati delle capacità logiche e di senso comune degli LLM, possono navigare abilmente in ambienti complessi e a ricompensa sparsa attraverso interazioni basate su testo. Sviluppiamo un insieme di azioni strutturate e sfruttiamo gli LLM per generare piani d'azione che gli agenti possono eseguire. L'agente basato su LLM risultante supera nettamente i metodi precedenti, ottenendo un notevole miglioramento del +47,5% nel tasso di successo per il compito "ObtainDiamond", dimostrando una robustezza superiore rispetto ai tradizionali controller basati su RL. In particolare, il nostro agente è il primo a ottenere tutti gli oggetti dell'albero tecnologico del Minecraft Overworld, dimostrando le sue ampie capacità. GITM non richiede alcuna GPU per l'addestramento, ma è sufficiente un singolo nodo CPU con 32 core. Questa ricerca mostra il potenziale degli LLM nello sviluppo di agenti capaci di gestire compiti complessi a lungo termine e di adattarsi alle incertezze degli ambienti open-world. Visita il sito del progetto all'indirizzo https://github.com/OpenGVLab/GITM.
Nonostante il notevole successo dei modelli generativi basati su diffusione nella generazione di immagini da testo, replicare questo successo nel campo della compressione delle immagini si è rivelato difficile. In questo articolo, dimostriamo che la diffusione può migliorare significativamente la qualità percettiva a una determinata velocità di trasmissione, superando gli approcci all'avanguardia PO-ELIC e HiFiC misurati tramite il punteggio FID. Questo risultato è ottenuto utilizzando un approccio semplice ma teoricamente motivato in due fasi, che combina un autoencoder mirato all'MSE seguito da un ulteriore decoder basato su punteggio. Tuttavia, come mostreremo, i dettagli implementativi sono cruciali e le decisioni di progettazione ottimali possono differire notevolmente dai tipici modelli di generazione di immagini da testo.
I modelli linguistici di grandi dimensioni (LLM) hanno notevolmente migliorato la fluidità e la diversità del testo generato automaticamente. Tuttavia, questo progresso presenta anche una sfida significativa nel rilevare l'origine di un determinato testo, e la ricerca attuale sui metodi di rilevamento è in ritardo rispetto alla rapida evoluzione degli LLM. I metodi convenzionali basati su addestramento hanno limitazioni in termini di flessibilità, in particolare quando si adattano a nuovi domini, e spesso mancano di potere esplicativo. Per colmare questa lacuna, proponiamo una nuova strategia di rilevamento senza addestramento chiamata Analisi Divergente N-Gram (DNA-GPT). Dato un testo, lo tronchiamo prima a metà e poi utilizziamo solo la parte precedente come input per gli LLM per rigenerare le nuove parti rimanenti. Analizzando le differenze tra le parti rimanenti originali e nuove attraverso l'analisi N-gram in modalità black-box o la divergenza di probabilità in modalità white-box, possiamo illustrare chiaramente le significative discrepanze tra il testo generato automaticamente e quello scritto da esseri umani. Abbiamo condotto esperimenti estesi sui più avanzati LLM di OpenAI, inclusi text-davinci-003, GPT-3.5-turbo e GPT-4, nonché su modelli open-source come GPT-NeoX-20B e LLaMa-13B. I risultati mostrano che il nostro approccio zero-shot offre prestazioni all'avanguardia nel distinguere tra testo umano e generato da GPT su quattro dataset in inglese e uno in tedesco, superando il classificatore di OpenAI, che è addestrato su milioni di testi. Inoltre, i nostri metodi forniscono spiegazioni ragionevoli e prove a supporto della nostra affermazione, che è una caratteristica unica del rilevamento esplicabile. Il nostro metodo è anche robusto sotto l'attacco di testo rivisto e può inoltre risolvere il problema dell'identificazione del modello. I codici sono disponibili su https://github.com/Xianjun-Yang/DNA-GPT.