Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli di generazione di musica da testo sono ora in grado di produrre audio musicale di alta qualità in un'ampia varietà di stili. Tuttavia, il controllo tramite testo è principalmente adatto per la manipolazione di attributi musicali globali come genere, umore e tempo, ed è meno adatto per un controllo preciso su attributi variabili nel tempo, come la posizione dei battiti o le dinamiche in evoluzione della musica. Proponiamo Music ControlNet, un modello di generazione musicale basato su diffusione che offre molteplici controlli precisi e variabili nel tempo sull'audio generato. Per dotare i modelli di generazione di musica da testo di un controllo variabile nel tempo, proponiamo un approccio analogo al controllo pixel-per-pixel del metodo ControlNet nel dominio delle immagini. Nello specifico, estraiamo controlli da audio di addestramento ottenendo dati accoppiati, e ottimizziamo un modello generativo condizionale basato su diffusione sugli spettrogrammi audio dati controlli di melodia, dinamiche e ritmo. Mentre il metodo Uni-ControlNet nel dominio delle immagini consente già la generazione con qualsiasi sottoinsieme di controlli, elaboriamo una nuova strategia per permettere ai creatori di inserire controlli parzialmente specificati nel tempo. Valutiamo sia su controlli estratti da audio che su controlli che ci aspettiamo i creatori forniscano, dimostrando di poter generare musica realistica che corrisponde agli input di controllo in entrambe le situazioni. Sebbene esistano pochi modelli comparabili per la generazione musicale, confrontiamo le prestazioni con MusicGen, un modello recente che accetta input di testo e melodia, e mostriamo che il nostro modello genera musica che è il 49% più fedele alle melodie di input nonostante abbia 35 volte meno parametri, sia addestrato su 11 volte meno dati e abiliti due forme aggiuntive di controllo variabile nel tempo. Esempi audio sono disponibili su https://MusicControlNet.github.io/web/.
In questo rapporto tecnico, ci proponiamo di generare personaggi antropomorfizzati per personaggi basati su LLM in modo online, includendo aspetto visivo, personalità e toni, utilizzando solo descrizioni testuali. Per raggiungere questo obiettivo, sfruttiamo innanzitutto la capacità di apprendimento contestuale degli LLM per la generazione della personalità, progettando attentamente una serie di prompt di sistema. Successivamente, introduciamo due nuovi concetti: la miscela di voci (MoV) e la miscela di diffusori (MoD) per la generazione di voci e aspetti diversificati. Per MoV, utilizziamo algoritmi di sintesi vocale (TTS) con una varietà di toni predefiniti e selezioniamo automaticamente quello più adatto in base alla descrizione testuale fornita dall'utente. Per MoD, combiniamo le recenti tecniche di generazione di immagini da testo e algoritmi di testa parlante per semplificare il processo di creazione di oggetti parlanti. Abbiamo denominato l'intero framework ChatAnything. Con esso, gli utenti possono animare qualsiasi cosa con personaggi antropomorfi utilizzando solo pochi input testuali. Tuttavia, abbiamo osservato che gli oggetti antropomorfi prodotti dai modelli generativi attuali spesso non sono rilevabili dai rilevatori di landmark facciali pre-addestrati, portando al fallimento della generazione del movimento facciale, anche se questi volti possiedono un aspetto umano, poiché tali immagini sono quasi mai state viste durante l'addestramento (ad esempio, campioni OOD). Per affrontare questo problema, incorporiamo una guida a livello di pixel per infondere landmark facciali umani durante la fase di generazione dell'immagine. Per valutare queste metriche, abbiamo creato un dataset di valutazione. Sulla base di esso, verifichiamo che il tasso di rilevamento dei landmark facciali è aumentato significativamente dal 57,0% al 92,5%, consentendo così l'animazione automatica del volto basata sul contenuto vocale generato. Il codice e ulteriori risultati sono disponibili all'indirizzo https://chatanything.github.io/.
Generare movimenti umani naturali da una storia ha il potenziale di trasformare il panorama delle industrie dell'animazione, dei giochi e del cinema. Una nuova e impegnativa sfida, denominata Story-to-Motion, emerge quando i personaggi devono spostarsi in varie posizioni ed eseguire movimenti specifici basati su una descrizione testuale lunga. Questo compito richiede una fusione di controllo a basso livello (traiettorie) e controllo ad alto livello (semantica del movimento). I lavori precedenti nel controllo dei personaggi e nel text-to-motion hanno affrontato aspetti correlati, ma una soluzione completa rimane sfuggente: i metodi di controllo dei personaggi non gestiscono la descrizione testuale, mentre i metodi text-to-motion mancano di vincoli di posizione e spesso producono movimenti instabili. Alla luce di queste limitazioni, proponiamo un sistema innovativo che genera movimenti controllabili, infinitamente lunghi e traiettorie allineate con il testo di input. (1) Sfruttiamo i moderni Large Language Model per agire come pianificatori di movimenti guidati dal testo, estraendo una serie di coppie (testo, posizione, durata) da testi lunghi. (2) Sviluppiamo uno schema di recupero del movimento guidato dal testo che incorpora il matching del movimento con vincoli semantici e di traiettoria. (3) Progettiamo un transformer progressivo con maschera che affronta gli artefatti comuni nei movimenti di transizione, come pose innaturali e scivolamenti dei piedi. Oltre al suo ruolo pionieristico come prima soluzione completa per Story-to-Motion, il nostro sistema viene valutato in tre sottocompiti distinti: seguimento della traiettoria, composizione temporale delle azioni e blending dei movimenti, dove supera i precedenti metodi all'avanguardia nella sintesi del movimento. Homepage: https://story2motion.github.io/.
I modelli foundation multimodali, rappresentati da GPT-4V, hanno introdotto un nuovo paradigma per i compiti di percezione e comprensione visiva di basso livello, in grado di rispondere a un'ampia gamma di istruzioni naturali umane all'interno di un modello. Sebbene i modelli foundation esistenti abbiano mostrato potenziali entusiasmanti nei compiti visivi di basso livello, le loro capacità correlate sono ancora preliminari e necessitano di miglioramenti. Per potenziare questi modelli, abbiamo condotto un esperimento soggettivo su larga scala, raccogliendo un vasto numero di feedback umani reali sulla visione di basso livello. Ogni feedback segue un percorso che inizia con una descrizione dettagliata dell'aspetto visivo di basso livello (*ad esempio chiarezza, colore, luminosità* di un'immagine) e si conclude con una valutazione complessiva, con una lunghezza media di 45 parole. Il dataset **Q-Pathway** costruito include 58K feedback umani dettagliati su 18.973 immagini con aspetti visivi di basso livello diversificati. Inoltre, per consentire ai modelli foundation di rispondere in modo robusto a diversi tipi di domande, abbiamo progettato una conversione con partecipazione GPT per elaborare questi feedback in 200K coppie istruzione-risposta in formati diversificati. I risultati sperimentali indicano che **Q-Instruct** migliora costantemente le capacità di percezione e comprensione di basso livello in diversi modelli foundation. Prevediamo che i nostri dataset possano aprire la strada a un futuro in cui l'intelligenza generale possa percepire, comprendere l'aspetto visivo di basso livello e valutare la qualità visiva come un essere umano. Il nostro dataset, il modello zoo e la demo sono pubblicati su: https://q-future.github.io/Q-Instruct.
Negli scenari di dispiegamento come case e magazzini, si prevede che i robot mobili navigheranno in modo autonomo per periodi prolungati, eseguendo senza soluzione di continuità compiti espressi in termini intuitivamente comprensibili per gli operatori umani. Presentiamo GO To Any Thing (GOAT), un sistema di navigazione universale in grado di affrontare questi requisiti con tre caratteristiche chiave: a) Multimodale: può gestire obiettivi specificati tramite etichette di categoria, immagini target e descrizioni linguistiche, b) Lifelong: trae vantaggio dalla sua esperienza passata nello stesso ambiente, e c) Indipendente dalla piattaforma: può essere rapidamente implementato su robot con diverse configurazioni fisiche. GOAT è reso possibile grazie a un design modulare del sistema e a una memoria semantica consapevole delle istanze che viene continuamente arricchita, tenendo traccia dell'aspetto degli oggetti da diverse prospettive oltre alla semantica a livello di categoria. Ciò consente a GOAT di distinguere tra diverse istanze della stessa categoria per abilitare la navigazione verso target specificati da immagini e descrizioni linguistiche. In confronti sperimentali che coprono oltre 90 ore in 9 case diverse, comprendenti 675 obiettivi selezionati tra più di 200 istanze di oggetti, GOAT raggiunge un tasso di successo complessivo dell'83%, superando i metodi precedenti e le versioni ridotte del sistema di un miglioramento assoluto del 32%. GOAT migliora con l'esperienza nell'ambiente, passando da un tasso di successo del 60% al primo obiettivo a un tasso di successo del 90% dopo l'esplorazione. Inoltre, dimostriamo che GOAT può essere facilmente applicato a compiti successivi come il pick and place e la navigazione sociale.
I metodi esistenti di messa a punto delle istruzioni visive tipicamente sollecitano i grandi modelli linguistici con descrizioni testuali per generare dati che seguono le istruzioni. Nonostante le prestazioni promettenti ottenute, queste descrizioni sono derivate da annotazioni di immagini, che spesso sono di grana grossolana. Inoltre, le istruzioni potrebbero persino contraddire il contenuto visivo senza osservare l'intero contesto visivo. Per affrontare questa sfida, introduciamo un dataset di istruzioni visive di grana fine, LVIS-Instruct4V, che contiene 220K istruzioni allineate visivamente e consapevoli del contesto, prodotte sollecitando il potente GPT-4V con immagini provenienti da LVIS. Attraverso la validazione sperimentale e studi di caso, dimostriamo che dati di istruzioni visive di alta qualità potrebbero migliorare le prestazioni di LLaVA-1.5, un modello multimodale di grandi dimensioni all'avanguardia, su un'ampia gamma di benchmark con margini chiari. In particolare, semplicemente sostituendo LLaVA-Instruct con il nostro LVIS-Instruct4V, otteniamo risultati migliori rispetto a LLaVA sulla maggior parte dei benchmark LMM più impegnativi, ad esempio LLaVA^w (76.7 vs. 70.7) e MM-Vet (40.2 vs. 35.4). Rilasciamo i nostri dati e il modello su https://github.com/X2FD/LVIS-INSTRUCT4V.
Presentiamo MM-Navigator, un agente basato su GPT-4V per il compito di navigazione dell'interfaccia grafica utente (GUI) degli smartphone. MM-Navigator può interagire con lo schermo di uno smartphone come farebbero gli utenti umani e determinare le azioni successive per soddisfare le istruzioni fornite. I nostri risultati dimostrano che i grandi modelli multimodali (LMM), in particolare GPT-4V, eccellono nella navigazione GUI in modalità zero-shot grazie alle sue avanzate capacità di interpretazione dello schermo, ragionamento sulle azioni e localizzazione precisa delle azioni. Inizialmente, abbiamo valutato MM-Navigator sul nostro dataset di schermate iOS raccolto. Secondo le valutazioni umane, il sistema ha mostrato un tasso di accuratezza del 91% nella generazione di descrizioni di azioni ragionevoli e un tasso di accuratezza del 75% nell'esecuzione delle azioni corrette per istruzioni a singolo passaggio su iOS. Inoltre, abbiamo valutato il modello su un sottoinsieme di un dataset di navigazione su schermate Android, dove il modello ha superato i precedenti navigatori GUI in modalità zero-shot. Il nostro benchmark e le analisi dettagliate mirano a gettare una solida base per future ricerche sul compito di navigazione GUI. La pagina del progetto è disponibile all'indirizzo https://github.com/zzxslp/MM-Navigator.
Presentiamo SPHINX, un versatile modello linguistico multimodale di grandi dimensioni (MLLM) con una miscelazione congiunta di pesi del modello, attività di tuning e incorporamenti visivi. Innanzitutto, per un migliore allineamento visione-linguaggio, sblocchiamo il modello linguistico di grandi dimensioni (LLM) durante il pre-addestramento e introduciamo una strategia di miscelazione dei pesi tra LLM addestrati con dati reali e sintetici. Integrando direttamente i pesi provenienti da due domini, l'LLM miscelato può incorporare in modo efficiente una semantica diversificata con una robustezza favorevole. Successivamente, per abilitare capacità multipurpose, misceliamo una varietà di attività per il tuning congiunto delle istruzioni visive e progettiamo istruzioni specifiche per evitare conflitti tra le attività. Oltre al rispondere a domande visive di base, includiamo attività più impegnative come la comprensione a livello di regione, il grounding delle didascalie, il rilevamento del layout dei documenti e la stima della posa umana, contribuendo a un miglioramento reciproco in diversi scenari. Inoltre, proponiamo di estrarre incorporamenti visivi completi da varie architetture di rete, paradigmi di pre-addestramento e granularità delle informazioni, fornendo ai modelli linguistici rappresentazioni di immagini più robuste. Basandoci sulla nostra proposta di miscelazione congiunta, SPHINX mostra capacità superiori di comprensione multimodale in un'ampia gamma di applicazioni. Oltre a ciò, proponiamo ulteriormente una strategia efficiente mirata a catturare meglio gli aspetti finemente dettagliati delle immagini ad alta risoluzione. Con una miscelazione di diverse scale e sotto-immagini ad alta risoluzione, SPHINX raggiunge prestazioni eccezionali di analisi e ragionamento visivo sui benchmark di valutazione esistenti. Speriamo che il nostro lavoro possa gettare luce sull'esplorazione della miscelazione congiunta nella futura ricerca sugli MLLM. Il codice è rilasciato all'indirizzo https://github.com/Alpha-VLLM/LLaMA2-Accessory.
Recentemente, si è assistito a un rapido progresso nella ricerca sui Modelli Linguistici di Grande Dimensione (LLM), che ha portato a significativi avanzamenti in diversi compiti di Elaborazione del Linguaggio Naturale (NLP). Di conseguenza, c'è stato un aumento della ricerca sulla valutazione degli LLM per comprendere le capacità e i limiti di questi modelli. Tuttavia, gran parte di questa ricerca si è concentrata sulla lingua inglese, lasciando relativamente inesplorata la costruzione e la valutazione degli LLM per lingue non inglesi. Con l'introduzione di diversi nuovi LLM, è diventato necessario valutarli su lingue non inglesi. Questo studio mira ad espandere la nostra suite di benchmark MEGA includendo sei nuovi dataset per formare il benchmark MEGAVERSE. Il benchmark comprende 22 dataset che coprono 81 lingue, incluse lingue africane a bassa risorsa. Valutiamo diversi LLM all'avanguardia come GPT-3.5-Turbo, GPT4, PaLM2 e Llama2 sui dataset MEGAVERSE. Inoltre, includiamo due dataset multimodali nel benchmark e valutiamo le prestazioni del modello LLaVa-v1.5. I nostri esperimenti suggeriscono che GPT4 e PaLM2 superano i modelli Llama in vari compiti, in particolare su lingue a bassa risorsa, con GPT4 che supera PaLM2 su più dataset rispetto al contrario. Tuttavia, problemi come la contaminazione dei dati devono essere affrontati per ottenere una valutazione accurata delle prestazioni degli LLM su lingue non inglesi.
Negli ultimi anni, progressi rivoluzionari nell'elaborazione del linguaggio naturale hanno portato all'emergere di potenti modelli linguistici di grandi dimensioni (LLM), che hanno dimostrato capacità straordinarie in una vasta gamma di domini, inclusi la comprensione, la generazione e la traduzione del linguaggio naturale, e persino compiti che vanno oltre l'elaborazione del linguaggio. In questo rapporto, approfondiamo le prestazioni degli LLM nel contesto della scoperta scientifica, concentrandoci su GPT-4, il modello linguistico all'avanguardia. La nostra indagine abbraccia una varietà di aree scientifiche che includono la scoperta di farmaci, la biologia, la chimica computazionale (teoria del funzionale della densità (DFT) e dinamica molecolare (MD)), la progettazione di materiali e le equazioni alle derivate parziali (PDE). Valutare GPT-4 su compiti scientifici è cruciale per scoprire il suo potenziale in vari domini di ricerca, convalidare la sua competenza specifica nel settore, accelerare il progresso scientifico, ottimizzare l'allocazione delle risorse, guidare lo sviluppo futuro dei modelli e promuovere la ricerca interdisciplinare. La nostra metodologia di esplorazione consiste principalmente in valutazioni di casi guidate da esperti, che offrono approfondimenti qualitativi sulla comprensione del modello di concetti e relazioni scientifiche complesse, e occasionalmente in test di benchmark, che valutano quantitativamente la capacità del modello di risolvere problemi specifici del dominio ben definiti. La nostra esplorazione preliminare indica che GPT-4 mostra un potenziale promettente per una varietà di applicazioni scientifiche, dimostrando la sua attitudine a gestire compiti complessi di problem-solving e integrazione delle conoscenze. In generale, valutiamo la base di conoscenza di GPT-4, la sua comprensione scientifica, le capacità di calcolo numerico scientifico e varie capacità di previsione scientifica.
I grandi modelli linguistici (LLM) vengono addestrati su corpora di scala web che inevitabilmente includono informazioni fattuali contraddittorie provenienti da fonti di affidabilità variabile. In questo articolo, proponiamo di misurare una proprietà degli LLM chiamata allineamento alle fonti attendibili (Trusted Source Alignment, TSA): la propensione del modello ad allinearsi con i contenuti prodotti da editori attendibili in caso di incertezza o controversia. Presentiamo FactCheckQA, un dataset di valutazione TSA basato su un corpus di articoli di fact-checking. Descriviamo un protocollo semplice per valutare la TSA e offriamo un'analisi dettagliata delle considerazioni progettuali, tra cui l'estrazione delle risposte, la contestualizzazione delle affermazioni e i bias nella formulazione dei prompt. Applicando il protocollo a PaLM-2, scopriamo che, aumentando la dimensione del modello, le prestazioni su FactCheckQA migliorano da un livello quasi casuale fino a un'accuratezza bilanciata dell'80% nell'allineamento con le fonti attendibili.
La generazione condizionale di layout grafici, che mappa automaticamente i vincoli dell'utente in layout di alta qualità, ha attirato un'attenzione significativa oggi. Nonostante i recenti lavori abbiano raggiunto prestazioni promettenti, la mancanza di versatilità e di efficienza nei dati ne ostacola le applicazioni pratiche. In questo lavoro, proponiamo LayoutPrompter, che sfrutta i grandi modelli linguistici (LLM) per affrontare i suddetti problemi attraverso l'apprendimento in contesto. LayoutPrompter è composto da tre componenti chiave: serializzazione input-output, selezione dinamica di esempi e ranking dei layout. Nello specifico, il componente di serializzazione input-output progetta meticolosamente i formati di input e output per ogni task di generazione di layout. La selezione dinamica di esempi è responsabile della scelta degli esempi più utili per un dato input. E un ranker di layout viene utilizzato per selezionare il layout di qualità più alta tra le molteplici uscite degli LLM. Abbiamo condotto esperimenti su tutti i task esistenti di generazione di layout utilizzando quattro dataset pubblici. Nonostante la semplicità del nostro approccio, i risultati sperimentali mostrano che LayoutPrompter può competere o addirittura superare gli approcci all'avanguardia su questi task senza alcun addestramento o fine-tuning del modello. Ciò dimostra l'efficacia di questo approccio versatile e privo di addestramento. Inoltre, gli studi di ablazione mostrano che LayoutPrompter è significativamente superiore alla baseline basata su addestramento in un regime di dati limitati, indicando ulteriormente l'efficienza nei dati di LayoutPrompter. Il nostro progetto è disponibile all'indirizzo https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.
I modelli linguistici di grandi dimensioni (LLM) come T0, FLAN e OPT-IML eccellono nel multitasking all'interno di un paradigma unificato di esecuzione di istruzioni, dimostrando anche notevoli capacità di generalizzazione su compiti non visti. Nonostante le loro prestazioni impressionanti, questi LLM, con dimensioni che vanno da diversi miliardi a centinaia di miliardi di parametri, richiedono risorse computazionali sostanziali, rendendo il loro addestramento e inferenza costosi e inefficienti. Inoltre, l'adattamento di questi modelli ad applicazioni downstream, in particolare compiti complessi, è spesso impraticabile a causa degli estesi requisiti hardware per il fine-tuning, anche quando si utilizzano approcci efficienti in termini di parametri come il prompt tuning. In aggiunta, i più potenti LLM multitasking, come OPT-IML-175B e FLAN-PaLM-540B, non sono accessibili pubblicamente, limitando fortemente il loro potenziale di personalizzazione. Per affrontare queste sfide, introduciamo un piccolo modello preaddestrato, Cappy, progettato per migliorare le prestazioni e l'efficienza degli LLM multitasking. Con appena 360 milioni di parametri, Cappy funziona in modo indipendente su compiti di classificazione o serve come componente ausiliario per gli LLM, migliorando le loro prestazioni. Inoltre, Cappy consente di integrare efficientemente la supervisione downstream senza richiedere il fine-tuning degli LLM né l'accesso ai loro parametri. I nostri esperimenti dimostrano che, operando in modo indipendente su 11 compiti di comprensione del linguaggio di PromptSource, Cappy supera gli LLM che sono di diversi ordini di grandezza più grandi. Inoltre, su 45 compiti complessi di BIG-Bench, Cappy migliora significativamente le prestazioni dell'avanzato LLM multitasking FLAN-T5. Inoltre, Cappy è flessibile nel cooperare con altri adattamenti di LLM, incluso il fine-tuning e l'apprendimento in contesto, offrendo un ulteriore miglioramento delle prestazioni.
In questo lavoro, estendiamo il modello Llama-2 sintonizzato su istruzioni con capacità di elaborazione e ragionamento end-to-end per il parlato generico, mantenendo l'ampia gamma di capacità dei modelli linguistici di grandi dimensioni (LLM), senza utilizzare dati accoppiati accuratamente curati. Il modello proposto può utilizzare prompt audio come sostituti del testo e sostenere una conversazione. Tale modello possiede inoltre capacità cross-modali estese, come la capacità di eseguire risposte a domande basate sul parlato, traduzione del parlato e riassunto audio, tra molti altri compiti in domini chiusi e aperti. Ciò differisce dagli approcci precedenti nel campo del parlato, in cui gli LLM vengono estesi per gestire l'audio solo per un numero limitato di compiti predefiniti. Gli esperimenti dimostrano che il nostro approccio end-to-end è pari o superiore a un sistema a cascata (riconoscitore vocale + LLM) in termini di modellazione della risposta a un prompt. Inoltre, a differenza di un sistema a cascata, il nostro approccio mostra la capacità di scambiare le modalità testo e audio e di utilizzare il contesto precedente in una conversazione per fornire risultati migliori.
Introduciamo e studiamo il problema dell'aritmetica avversaria, che fornisce un banco di prova semplice ma impegnativo per l'allineamento dei modelli linguistici. Questo problema è composto da domande aritmetiche formulate in linguaggio naturale, con una stringa avversaria arbitraria inserita prima che la domanda sia completa. Anche nel contesto semplice di problemi di addizione a una cifra, è facile trovare prompt avversari che fanno comportare male tutti i modelli testati (inclusi PaLM2, GPT4, Claude2), e persino indirizzare i modelli verso una risposta errata specifica. Forniamo inoltre un semplice algoritmo per trovare attacchi di successo interrogando gli stessi modelli, che abbiamo denominato "prompt inversion rejection sampling" (PIRS). Infine, dimostriamo che i modelli possono essere parzialmente rafforzati contro questi attacchi tramite apprendimento per rinforzo e tramite cicli costituzionali agentici. Tuttavia, non siamo riusciti a rendere un modello linguistico completamente robusto contro gli attacchi di aritmetica avversaria.