Articoli di ricerca IA selezionati quotidianamente con traduzioni
Con l'avanzamento dei modelli testo-immagine (ad esempio, Stable Diffusion) e delle corrispondenti tecniche di personalizzazione come DreamBooth e LoRA, chiunque può trasformare la propria immaginazione in immagini di alta qualità a costi accessibili. Di conseguenza, c'è una grande richiesta di tecniche di animazione delle immagini per combinare ulteriormente le immagini statiche generate con dinamiche di movimento. In questo rapporto, proponiamo un framework pratico per animare la maggior parte dei modelli testo-immagine personalizzati esistenti una volta per tutte, risparmiando sforzi nella regolazione specifica del modello. Al centro del framework proposto c'è l'inserimento di un modulo di modellazione del movimento appena inizializzato nel modello testo-immagine congelato e il suo addestramento su clip video per distillare prior di movimento ragionevoli. Una volta addestrato, semplicemente iniettando questo modulo di modellazione del movimento, tutte le versioni personalizzate derivate dallo stesso modello T2I di base diventano facilmente modelli guidati da testo che producono immagini animate diversificate e personalizzate. Abbiamo condotto la nostra valutazione su diversi modelli testo-immagine personalizzati rappresentativi pubblici, spaziando da immagini anime a fotografie realistiche, e dimostriamo che il nostro framework proposto aiuta questi modelli a generare clip di animazione temporalmente fluide preservando il dominio e la diversità dei loro output. Codice e pesi pre-addestrati saranno pubblicamente disponibili su https://animatediff.github.io/.
I grandi modelli linguistici (LLM) hanno delineato un progetto per l'avanzamento dell'intelligenza artificiale generale. Il loro obiettivo principale è funzionare come assistenti centrati sull'uomo (utili, onesti e innocui). L'allineamento con gli esseri umani assume un'importanza fondamentale, e l'apprendimento per rinforzo con feedback umano (RLHF) emerge come il paradigma tecnologico chiave che sostiene questa ricerca. Le attuali strade tecniche includono generalmente modelli di ricompensa per misurare le preferenze umane, l'ottimizzazione delle politiche prossimali (PPO) per ottimizzare gli output del modello di politica, e la supervisione del processo per migliorare le capacità di ragionamento passo-passo. Tuttavia, a causa delle sfide legate alla progettazione delle ricompense, all'interazione con l'ambiente e all'addestramento degli agenti, unitamente agli enormi costi di prova ed errore dei grandi modelli linguistici, esiste una barriera significativa per i ricercatori di IA nel motivare lo sviluppo dell'allineamento tecnico e dell'atterraggio sicuro degli LLM. L'addestramento stabile dell'RLHF rimane ancora un enigma. Nel primo rapporto, analizziamo il framework dell'RLHF, rivalutiamo il funzionamento interno del PPO e esploriamo come le parti che compongono gli algoritmi PPO influenzano l'addestramento degli agenti di politica. Identifichiamo i vincoli di politica come il fattore chiave per l'implementazione efficace dell'algoritmo PPO. Pertanto, esploriamo il PPO-max, una versione avanzata dell'algoritmo PPO, per migliorare in modo efficiente la stabilità dell'addestramento del modello di politica. Sulla base dei nostri principali risultati, eseguiamo un'analisi completa delle capacità dell'RLHF rispetto ai modelli SFT e ChatGPT. L'assenza di implementazioni open-source ha posto sfide significative all'indagine sull'allineamento degli LLM. Pertanto, siamo desiderosi di rilasciare rapporti tecnici, modelli di ricompensa e codici PPO.
Recentemente sono stati compiuti progressi significativi nelle applicazioni creative di modelli pre-addestrati di grandi dimensioni per task downstream nella visione 3D, come la generazione di forme a partire da testo. Ciò motiva la nostra indagine su come questi modelli pre-addestrati possano essere utilizzati in modo efficace per generare forme 3D da schizzi, una sfida che rimane in gran parte aperta a causa della limitata disponibilità di dataset accoppiati schizzo-forma e del variabile livello di astrazione negli schizzi. Scopriamo che condizionare un modello generativo 3D sulle feature (ottenute da un modello di visione pre-addestrato di grandi dimensioni e congelato) di rendering sintetici durante l'addestramento ci consente di generare efficacemente forme 3D da schizzi al momento dell'inferenza. Ciò suggerisce che le feature dei modelli di visione pre-addestrati di grandi dimensioni trasportano segnali semantici resilienti ai cambiamenti di dominio, permettendoci di utilizzare solo rendering RGB, ma generalizzando agli schizzi al momento dell'inferenza. Conduciamo una serie completa di esperimenti che indagano diversi fattori di progettazione e dimostriamo l'efficacia del nostro approccio diretto per la generazione di più forme 3D per ciascuno schizzo di input, indipendentemente dal loro livello di astrazione, senza richiedere alcun dataset accoppiato durante l'addestramento.
Presentiamo Emu, un modello fondazionale multimodale basato su Transformer, in grado di generare in modo fluido immagini e testi in contesti multimodali. Questo modello onnivoro può accettare indiscriminatamente qualsiasi input di dati unimodale o multimodale (ad esempio, immagini, testi e video intervallati) attraverso un processo di addestramento autoregressivo one-model-for-all. In primo luogo, i segnali visivi vengono codificati in embedding e, insieme ai token di testo, formano una sequenza di input intervallata. Emu viene quindi addestrato end-to-end con un obiettivo unificato di classificare il prossimo token di testo o di regredire il prossimo embedding visivo nella sequenza multimodale. Questa versatilità multimodale consente l'esplorazione su larga scala di diverse fonti di dati di pre-addestramento, come video con frame e testo intervallati, pagine web con immagini e testo intervallati, nonché coppie immagine-testo e video-testo su scala web. Emu può fungere da interfaccia multimodale generalista sia per compiti di immagine-a-testo che di testo-a-immagine e supporta la generazione di immagini e testi in contesto. In un'ampia gamma di task zero-shot/few-shot, tra cui descrizione di immagini, risposta a domande visive, risposta a domande su video e generazione di immagini da testo, Emu dimostra prestazioni eccellenti rispetto ai più avanzati modelli multimodali di grandi dimensioni. Sono inoltre dimostrate capacità estese, come assistenti multimodali tramite instruction tuning, con risultati impressionanti.
In questo articolo presentiamo Semantic-SAM, un modello universale di segmentazione delle immagini in grado di segmentare e riconoscere qualsiasi elemento a qualsiasi livello di granularità desiderato. Il nostro modello offre due vantaggi chiave: consapevolezza semantica e abbondanza di granularità. Per raggiungere la consapevolezza semantica, integriamo più dataset attraverso tre livelli di granularità e introduciamo una classificazione disaccoppiata per oggetti e parti. Ciò consente al nostro modello di catturare informazioni semantiche ricche. Per la capacità multi-granularità, proponiamo uno schema di apprendimento a scelta multipla durante l'addestramento, che permette a ogni clic di generare maschere a più livelli corrispondenti a più maschere di verità di base. È importante notare che questo lavoro rappresenta il primo tentativo di addestrare congiuntamente un modello su dataset SA-1B, generici e di segmentazione delle parti. I risultati sperimentali e le visualizzazioni dimostrano che il nostro modello raggiunge con successo la consapevolezza semantica e l'abbondanza di granularità. Inoltre, combinare l'addestramento su SA-1B con altre attività di segmentazione, come la segmentazione panottica e delle parti, porta a miglioramenti delle prestazioni. Forniremo codice e una demo per ulteriori esplorazioni e valutazioni.
Presentiamo VampNet, un approccio di modellazione di token acustici mascherati per la sintesi, compressione, inpainting e variazione musicale. Utilizziamo una pianificazione di mascheramento variabile durante l'addestramento che ci consente di campionare musica coerente dal modello applicando diverse strategie di mascheramento (denominate prompt) durante l'inferenza. VampNet è non autoregressivo, sfruttando un'architettura transformer bidirezionale che considera tutti i token in un singolo passaggio in avanti. Con soli 36 passaggi di campionamento, VampNet è in grado di generare forme d'onda musicali ad alta fedeltà e coerenti. Dimostriamo che, utilizzando prompt diversi, VampNet può essere applicato a compiti come la compressione musicale, l'inpainting, l'outpainting, la continuazione e il looping con variazione (vamping). Se opportunamente sollecitato, VampNet è capace di mantenere stile, genere, strumentazione e altri aspetti di alto livello della musica. Questa flessibilità nel prompting rende VampNet uno strumento potente per la co-creazione musicale. Codice e campioni audio sono disponibili online.
L'intelligenza umana prospera sul concetto di sinergia cognitiva, dove la collaborazione e l'integrazione di informazioni tra diversi processi cognitivi producono risultati superiori rispetto ai singoli processi cognitivi isolati. Sebbene i Modelli Linguistici di Grande Scala (LLM) abbiano dimostrato prestazioni promettenti come agenti generalisti per la risoluzione di compiti, continuano a incontrare difficoltà con attività che richiedono una conoscenza approfondita del dominio e un ragionamento complesso. In questo lavoro, proponiamo il "Solo Performance Prompting" (SPP), che trasforma un singolo LLM in un sinergista cognitivo, impegnandolo in una collaborazione multi-turno con sé stesso attraverso molteplici personaggi. Un sinergista cognitivo si riferisce a un agente intelligente che collabora con molteplici menti, combinando i loro punti di forza e conoscenze individuali, per migliorare la risoluzione dei problemi e le prestazioni complessive in compiti complessi. Identificando e simulando dinamicamente diversi personaggi in base agli input del compito, lo SPP libera il potenziale della sinergia cognitiva negli LLM. Abbiamo scoperto che l'assegnazione di molteplici personaggi dettagliati negli LLM stimola migliori capacità di risoluzione dei problemi rispetto all'uso di un singolo o di un numero fisso di personaggi. Valutiamo lo SPP su tre compiti impegnativi: Scrittura Creativa di Trivia, Codenames Collaborativo e Puzzle a Griglia Logica, che comprendono sia tipi ad alta intensità di conoscenza che di ragionamento. A differenza di lavori precedenti, come il "Chain-of-Thought", che migliorano esclusivamente le capacità di ragionamento negli LLM, lo SPP stimola efficacemente le capacità di acquisizione interna della conoscenza, riduce le allucinazioni e mantiene forti capacità di ragionamento. Codice, dati e prompt sono disponibili al seguente link: https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git.
Osserviamo che i grandi modelli linguistici pre-addestrati (LLM) sono in grado di completare in modo autoregressivo sequenze complesse di token -- da quelle arbitrarie generate proceduralmente mediante grammatiche libere dal contesto probabilistiche (PCFG), a modelli spaziali più ricchi presenti nel Corpus di Ragionamento Astratto (ARC), un benchmark per l'intelligenza artificiale generale, presentati nello stile dell'ASCII art. Sorprendentemente, la capacità di completamento dei modelli può essere parzialmente mantenuta anche quando le sequenze sono espresse utilizzando token campionati casualmente dal vocabolario. Questi risultati suggeriscono che, senza alcun addestramento aggiuntivo, gli LLM possono fungere da modellatori generali di sequenze, guidati dall'apprendimento contestuale. In questo lavoro, indaghiamo come queste capacità zero-shot possano essere applicate a problemi nella robotica -- dall'estrapolazione di sequenze numeriche che rappresentano stati nel tempo per completare movimenti semplici, al prompting da meno a più di traiettorie condizionate alla ricompensa che possono scoprire e rappresentare politiche a ciclo chiuso (ad esempio, un controller stabilizzante per il CartPole). Sebbene oggi sia difficile implementare questa tecnica per sistemi reali a causa della latenza, delle limitazioni delle dimensioni del contesto e dei costi computazionali, l'approccio di utilizzare gli LLM per guidare il controllo di basso livello potrebbe offrire un'emozionante anteprima di come i modelli tra le parole possano essere trasferiti alle azioni.
Una sfida nello sviluppo di sistemi di NLP per le lingue del mondo è comprendere come questi si generalizzano rispetto alle differenze tipologiche rilevanti per applicazioni nel mondo reale. A tal fine, proponiamo M2C, un framework morfologicamente consapevole per il test comportamentale di modelli NLP. Utilizziamo M2C per generare test che esplorano il comportamento dei modelli in relazione a specifiche caratteristiche linguistiche in 12 lingue tipologicamente diverse. Valutiamo modelli linguistici all'avanguardia sui test generati. Mentre i modelli eccellono nella maggior parte dei test in inglese, evidenziamo fallimenti di generalizzazione rispetto a specifiche caratteristiche tipologiche come le espressioni temporali in swahili e i possessivi composti in finlandese. I nostri risultati motivano lo sviluppo di modelli che affrontino questi punti ciechi.
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto un successo straordinario nel campo dell'elaborazione del linguaggio naturale, consentendo una migliore interazione uomo-computer attraverso l'uso del linguaggio naturale. Tuttavia, l'integrazione fluida dei segnali vocali negli LLM non è stata ancora esplorata a fondo. Anche l'architettura "decoder-only" non è stata ampiamente studiata per le attività di elaborazione del parlato. In questa ricerca, introduciamo Speech-LLaMA, un approccio innovativo che incorpora efficacemente le informazioni acustiche nei modelli linguistici di grandi dimensioni basati su testo. Il nostro metodo sfrutta la Classificazione Temporale Connessionista e un semplice codificatore audio per mappare le caratteristiche acustiche compresse nello spazio semantico continuo dell'LLM. Inoltre, esploriamo ulteriormente l'architettura decoder-only per le attività di conversione da parlato a testo, addestrando un modello Speech-LLaMA di scala più piccola e inizializzato casualmente utilizzando esclusivamente dati accoppiati parlato-testo. Condividiamo esperimenti su compiti di traduzione da parlato a testo multilingue e dimostriamo un miglioramento significativo rispetto a baseline robuste, evidenziando i potenziali vantaggi dei modelli decoder-only per la conversione da parlato a testo.
L'obiettivo della sintesi di programmi, o generazione di codice, è produrre codice eseguibile basandosi su descrizioni fornite. Recentemente, è aumentato il numero di studi che impiegano il reinforcement learning (RL) per migliorare le prestazioni dei grandi modelli linguistici (LLM) per il codice. Tuttavia, questi metodi RL hanno utilizzato solo framework offline, limitando l'esplorazione di nuovi spazi campionari. Inoltre, gli approcci attuali che sfruttano i segnali dei test unitari sono piuttosto semplici e non tengono conto delle posizioni specifiche degli errori nel codice. Per affrontare questi problemi, abbiamo proposto RLTF, ovvero Reinforcement Learning from Unit Test Feedback, un innovativo framework RL online con feedback di test unitari a multi-granularità per affinare i LLM di codice. Il nostro approccio genera dati in tempo reale durante l'addestramento e utilizza simultaneamente segnali di feedback fine-granularità per guidare il modello verso la produzione di codice di qualità superiore. Esperimenti estensivi dimostrano che RLTF raggiunge prestazioni all'avanguardia sui benchmark APPS e MBPP. Il nostro codice è disponibile all'indirizzo: https://github.com/Zyq-scut/RLTF.
La coerenza e l'affidabilità sono cruciali per condurre ricerche nell'ambito dell'IA. Molti campi di ricerca rinomati, come il rilevamento di oggetti, sono stati confrontati e validati con solide strutture di benchmark. Dopo AlphaFold2, il compito del folding proteico è entrato in una nuova fase, e molti metodi sono stati proposti basandosi sui componenti di AlphaFold2. L'importanza di un framework di ricerca unificato nel folding proteico include implementazioni e benchmark per confrontare in modo coerente e equo vari approcci. Per raggiungere questo obiettivo, presentiamo Solvent, un framework per il folding proteico che supporta componenti significativi dei modelli all'avanguardia attraverso un'interfaccia pronta all'uso. Solvent include diversi modelli implementati in una codebase unificata e supporta l'addestramento e la valutazione di modelli definiti sullo stesso dataset. Eseguiamo benchmark su algoritmi noti e sui loro componenti e forniamo esperimenti che offrono utili approfondimenti nel campo della modellazione della struttura proteica. Speriamo che Solvent aumenti l'affidabilità e la coerenza dei modelli proposti e migliori l'efficienza sia in termini di velocità che di costi, contribuendo così ad accelerare la ricerca sulla modellazione del folding proteico. Il codice è disponibile all'indirizzo https://github.com/kakaobrain/solvent, e il progetto continuerà a essere sviluppato.
Le istituzioni internazionali potrebbero svolgere un ruolo importante nel garantire che i sistemi di IA avanzata portino benefici all'umanità. Le collaborazioni internazionali possono sbloccare il potenziale dell'IA per promuovere lo sviluppo sostenibile, e il coordinamento degli sforzi normativi può ridurre gli ostacoli all'innovazione e alla diffusione dei benefici. Al contrario, le potenziali capacità pericolose dei sistemi di IA potenti e a scopo generale creano esternalità globali nel loro sviluppo e implementazione, e gli sforzi internazionali per promuovere pratiche responsabili nell'IA potrebbero aiutare a gestire i rischi che essi comportano. Questo articolo identifica una serie di funzioni di governance che potrebbero essere svolte a livello internazionale per affrontare queste sfide, che vanno dal supporto all'accesso ai sistemi di IA di frontiera alla definizione di standard di sicurezza internazionali. Queste funzioni sono raggruppate in quattro modelli istituzionali che presentano sinergie interne e hanno precedenti in organizzazioni esistenti: 1) una Commissione sull'IA di Frontiera che facilita il consenso degli esperti sulle opportunità e i rischi dell'IA avanzata, 2) un'Organizzazione per la Governance dell'IA Avanzata che stabilisce standard internazionali per gestire le minacce globali dei modelli avanzati, ne supporta l'implementazione e possibilmente monitora la conformità a un futuro regime di governance, 3) una Collaborativa per l'IA di Frontiera che promuove l'accesso all'IA all'avanguardia, e 4) un Progetto per la Sicurezza dell'IA che riunisce i principali ricercatori e ingegneri per promuovere la ricerca sulla sicurezza dell'IA. Esploriamo l'utilità di questi modelli e identifichiamo domande aperte sulla loro fattibilità.
La dettatura vocale è una modalità di input testuale sempre più importante. I sistemi esistenti che consentono sia la dettatura che la modifica tramite voce limitano il loro linguaggio di comando a modelli piatti attivati da parole chiave. In questo lavoro, studiamo la fattibilità di permettere agli utenti di interrompere la dettatura con comandi di modifica espressi in linguaggio naturale aperto. Introduciamo un nuovo compito e un nuovo dataset, TERTiUS, per sperimentare con tali sistemi. Per supportare questa flessibilità in tempo reale, un sistema deve segmentare e classificare in modo incrementale porzioni di discorso come dettatura o comando, e interpretare le porzioni che sono comandi. Sperimentiamo l'uso di grandi modelli linguistici pre-addestrati per prevedere il testo modificato, o in alternativa, per prevedere un piccolo programma di modifica del testo. Gli esperimenti mostrano un naturale compromesso tra accuratezza del modello e latenza: un modello più piccolo raggiunge un'accuratezza dello stato finale del 30% con una latenza di 1,3 secondi, mentre un modello più grande raggiunge un'accuratezza dello stato finale del 55% con una latenza di 7 secondi.
Proponiamo un sistema per riorganizzare oggetti in una scena al fine di ottenere una relazione desiderata tra oggetto e scena, come ad esempio un libro inserito in uno spazio aperto di una libreria. La pipeline si generalizza a geometrie, pose e layout nuovi sia per le scene che per gli oggetti, ed è addestrata su dimostrazioni per operare direttamente su nuvole di punti 3D. Il nostro sistema supera le sfide associate all'esistenza di molte soluzioni di riorganizzazione geometricamente simili per una data scena. Sfruttando una procedura di addestramento iterativa di de-rumore delle pose, siamo in grado di adattare dati dimostrativi multi-modali e produrre output multi-modali mantenendo precisione e accuratezza. Mostriamo inoltre i vantaggi di condizionare il sistema su caratteristiche geometriche locali rilevanti, ignorando la struttura globale irrilevante che danneggia sia la generalizzazione che la precisione. Dimostriamo il nostro approccio su tre distinti compiti di riorganizzazione che richiedono la gestione della multi-modalità e la generalizzazione rispetto alla forma e alla posa degli oggetti, sia in simulazione che nel mondo reale. Sito del progetto, codice e video: https://anthonysimeonov.github.io/rpdiff-multi-modal/
La teleoperazione basata sulla visione offre la possibilità di dotare i robot di un'intelligenza di livello umano per interagire fisicamente con l'ambiente, richiedendo solo sensori a basso costo come le telecamere. Tuttavia, gli attuali sistemi di teleoperazione basati sulla visione sono progettati e ingegnerizzati per un particolare modello di robot e ambiente di utilizzo, il che si traduce in una scarsa scalabilità man mano che il numero di modelli di robot si espande e la varietà degli ambienti operativi aumenta. In questo articolo, proponiamo AnyTeleop, un sistema di teleoperazione unificato e generale in grado di supportare diverse braccia, mani, realtà e configurazioni di telecamere all'interno di un unico sistema. Nonostante sia progettato per offrire grande flessibilità nella scelta di simulatori e hardware reale, il nostro sistema è comunque in grado di ottenere prestazioni eccellenti. Negli esperimenti nel mondo reale, AnyTeleop supera un sistema precedente progettato per un hardware robotico specifico, ottenendo un tasso di successo più elevato utilizzando lo stesso robot. Per la teleoperazione in simulazione, AnyTeleop porta a migliori prestazioni nell'apprendimento per imitazione rispetto a un sistema precedente progettato specificamente per quel simulatore. Pagina del progetto: http://anyteleop.com/.