Articoli di ricerca IA selezionati quotidianamente con traduzioni
I dataset sono fondamentali per molte delle scoperte nell'intelligenza artificiale moderna. Molti dei recenti successi nel campo dell'elaborazione del linguaggio naturale (NLP) possono essere attribuiti alla messa a punto di modelli pre-addestrati su un insieme diversificato di attività, che consente a un modello linguistico di grandi dimensioni (LLM) di rispondere alle istruzioni. La messa a punto basata su istruzioni (Instruction Fine-Tuning, IFT) richiede dataset appositamente costruiti e annotati. Tuttavia, i dataset esistenti sono quasi tutti in lingua inglese. In questo lavoro, il nostro obiettivo principale è colmare il divario linguistico costruendo un dataset curato manualmente per il seguimento di istruzioni, che copre 65 lingue. Abbiamo collaborato con parlanti fluenti di lingue provenienti da tutto il mondo per raccogliere esempi naturali di istruzioni e completamenti. Inoltre, abbiamo creato la raccolta multilingue più estesa fino ad oggi, comprendente 513 milioni di istanze attraverso la modellazione e la traduzione di dataset esistenti in 114 lingue. In totale, contribuiamo con quattro risorse chiave: sviluppiamo e rendiamo open-source la Piattaforma di Annotazione Aya, il Dataset Aya, la Collezione Aya e la Suite di Valutazione Aya. L'iniziativa Aya rappresenta anche un prezioso caso di studio nella ricerca partecipativa, coinvolgendo collaboratori da 119 paesi. Vediamo questo come un quadro di riferimento valido per future collaborazioni di ricerca che mirano a colmare le lacune nelle risorse.
Le capacità matematiche dei grandi modelli linguistici possono rappresentare la loro abilità di ragionamento astratto. In questo articolo, introduciamo e rendiamo open-source i nostri modelli linguistici per il ragionamento matematico InternLM-Math, che sono stati pre-addestrati a partire da InternLM2. Unifichiamo il ragionamento a catena di pensiero, la modellazione delle ricompense, il ragionamento formale, l'aumento dei dati e l'interprete di codice in un formato seq2seq unificato e supervisioniamo il nostro modello per diventare un ragionatore, verificatore, dimostratore e amplificatore matematico versatile. Queste abilità possono essere utilizzate per sviluppare i prossimi modelli linguistici matematici o per l'auto-iterazione. InternLM-Math ottiene prestazioni open-source all'avanguardia nell'ambito dell'apprendimento in-context, del fine-tuning supervisionato e del ragionamento assistito da codice in vari benchmark informali e formali, tra cui GSM8K, MATH, l'esame di matematica ungherese, MathBench-ZH e MiniF2F. Il nostro modello pre-addestrato raggiunge un punteggio di 30.3 sul test set di MiniF2F senza fine-tuning. Esploriamo ulteriormente come utilizzare LEAN per risolvere problemi matematici e studiamo le sue prestazioni nell'ambito dell'apprendimento multi-task, dimostrando la possibilità di utilizzare LEAN come piattaforma unificata per la risoluzione e la dimostrazione in matematica. I nostri modelli, codici e dati sono rilasciati su https://github.com/InternLM/InternLM-Math.
La creazione di avatar digitali a partire da prompt testuali è da tempo un obiettivo desiderabile ma impegnativo. Nonostante i risultati promettenti ottenuti attraverso i prior di diffusione 2D in lavori recenti, i metodi attuali incontrano difficoltà nel raggiungere efficacemente avatar di alta qualità e animati. In questo articolo, presentiamo HeadStudio, un nuovo framework che utilizza lo splatting di Gaussiane 3D per generare avatar realistici e animati da prompt testuali. Il nostro metodo guida semanticamente le Gaussiane 3D per creare un aspetto flessibile e raggiungibile attraverso la rappresentazione intermedia FLAME. Nello specifico, integriamo FLAME sia nella rappresentazione 3D che nella distillazione del punteggio: 1) Splatting di Gaussiane 3D basato su FLAME, guidando i punti delle Gaussiane 3D collegando ciascun punto a una mesh FLAME. 2) Campionamento della distillazione del punteggio basato su FLAME, utilizzando un segnale di controllo fine-grain basato su FLAME per guidare la distillazione del punteggio dal prompt testuale. Esperimenti estensivi dimostrano l'efficacia di HeadStudio nella generazione di avatar animabili da prompt testuali, mostrando un aspetto visivamente accattivante. Gli avatar sono in grado di renderizzare nuove viste in tempo reale (≥ 40 fps) di alta qualità a una risoluzione di 1024. Possono essere controllati in modo fluido da discorsi e video del mondo reale. Speriamo che HeadStudio possa avanzare la creazione di avatar digitali e che il metodo presente possa essere ampiamente applicato in vari domini.
I recenti progressi nei modelli di generazione musicale da testo hanno aperto nuove strade nella creatività musicale. Tuttavia, la generazione di musica coinvolge solitamente raffinamenti iterativi, e come modificare la musica generata rimane una sfida significativa. Questo articolo introduce un approccio innovativo per la modifica della musica generata da tali modelli, consentendo la modifica di attributi specifici, come genere, umore e strumento, mantenendo inalterati altri aspetti. Il nostro metodo trasforma la modifica del testo in una manipolazione dello spazio latente, aggiungendo un vincolo aggiuntivo per garantire la coerenza. Si integra perfettamente con i modelli di diffusione testo-musica pre-addestrati esistenti senza richiedere ulteriori addestramenti. I risultati sperimentali dimostrano una performance superiore rispetto sia ai metodi zero-shot che ad alcune baseline supervisionate nelle valutazioni di trasferimento di stile e timbro. Inoltre, mostriamo l'applicabilità pratica del nostro approccio in scenari reali di editing musicale.
Combinando la comprensione del linguaggio naturale e le capacità di generazione e l'ampiezza di conoscenza dei grandi modelli linguistici con la percezione visiva, i recenti grandi modelli visivo-linguistici (LVLM) hanno dimostrato capacità di ragionamento senza precedenti nel mondo reale. Tuttavia, il testo generato spesso soffre di un ancoraggio impreciso all'input visivo, risultando in errori come l'allucinazione di elementi di scena inesistenti, la mancanza di parti significative della scena e l'inferenza di attributi e relazioni errati tra gli oggetti. Per affrontare questi problemi, introduciamo un nuovo framework, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), che utilizza un modello di ricompensa fine per migliorare significativamente l'ancoraggio visivo dei LVLM rispetto ai baseline pre-addestrati. Questo miglioramento viene raggiunto in modo efficiente utilizzando valutazioni umane molto più economiche invece di supervisioni complete, nonché metodi automatizzati. Dimostriamo l'efficacia del nostro approccio attraverso numerose metriche su diversi benchmark. Inoltre, costruiamo un dataset completo e impegnativo specificamente progettato per validare le capacità di ancoraggio visivo dei LVLM. Infine, prevediamo di rilasciare le nostre annotazioni umane comprendenti circa 16.000 immagini e coppie di testo generato con valutazioni fine, per contribuire alle ricerche correlate nella comunità.
I modelli linguistici di grandi dimensioni (LLM) hanno il potenziale di influenzare un'ampia gamma di domini creativi, ma l'applicazione degli LLM all'animazione è ancora poco esplorata e presenta nuove sfide, come il modo in cui gli utenti potrebbero descrivere efficacemente il movimento in linguaggio naturale. In questo articolo, presentiamo Keyframer, uno strumento di progettazione per animare immagini statiche (SVG) con il linguaggio naturale. Basandoci su interviste con designer e ingegneri professionisti dell'animazione, Keyframer supporta l'esplorazione e il perfezionamento delle animazioni attraverso la combinazione di prompt e la modifica diretta dell'output generato. Il sistema consente inoltre agli utenti di richiedere varianti di design, favorendo il confronto e l'ideazione. Attraverso uno studio con 13 partecipanti, forniamo una caratterizzazione delle strategie di prompting degli utenti, inclusa una tassonomia dei tipi di prompt semantici per descrivere il movimento e uno stile di prompting "scomposto" in cui gli utenti adattano continuamente i loro obiettivi in risposta all'output generato. Condividiamo come la modifica diretta insieme al prompting consenta l'iterazione oltre le interfacce di prompting one-shot comuni negli strumenti generativi odierni. Attraverso questo lavoro, proponiamo come gli LLM possano permettere a un'ampia gamma di utenti di impegnarsi nella creazione di animazioni.
Introduciamo la modifica del modello con esempi canonici, un contesto in cui (1) viene fornito un singolo esempio di apprendimento per ogni comportamento desiderato, (2) la valutazione viene eseguita esclusivamente fuori distribuzione e (3) la deviazione da un modello iniziale è strettamente limitata. Un esempio canonico è un'istanza semplice di comportamento positivo, ad esempio "La capitale di Mauritius è Port Louis", o negativo, ad esempio "Un aspetto dei ricercatori è l'insensibilità". Il set di valutazione contiene esempi più complessi di ciascun comportamento (come un paragrafo in cui viene menzionata la capitale di Mauritius). Creiamo tre dataset e ne modifichiamo altri tre per la modifica del modello con esempi canonici, coprendo miglioramenti basati sulla conoscenza, mitigazione dei bias sociali e casi limite sintattici. Nei nostri esperimenti sui modelli linguistici Pythia, riscontriamo che LoRA supera il fine-tuning completo e MEMIT. Successivamente, ci rivolgiamo all'architettura del modello linguistico Backpack perché è progettata per consentire miglioramenti mirati. Il Backpack definisce un ampio insieme di vettori di senso—una scomposizione dei diversi usi di ciascuna parola—che vengono ponderati e sommati per formare i logit di output del modello. Proponiamo il fine-tuning dei sensi, che seleziona e ottimizza alcuni vettori di senso (circa 10) per ogni esempio canonico, e scopriamo che supera altri metodi di fine-tuning, ad esempio un miglioramento del 4,8% rispetto allo 0,3%. Infine, miglioriamo GPT-J-6B con un ensemble al momento dell'inferenza utilizzando solo le modifiche derivanti dal fine-tuning dei sensi di un Backpack 35 volte più piccolo, in un contesto superando la modifica di GPT-J stesso (4,1% vs 1,0%).
Introduciamo gli adesivi animati, un modello di diffusione video che genera un'animazione condizionata da un prompt testuale e un'immagine statica di un adesivo. Il nostro modello è costruito sullo stato dell'arte del modello Emu per la generazione di immagini da testo, con l'aggiunta di strati temporali per modellare il movimento. A causa del divario di dominio, ovvero delle differenze nello stile visivo e nel movimento, un modello che ha ottenuto buoni risultati nella generazione di video naturali non è più in grado di generare video vivaci quando applicato agli adesivi. Per colmare questo divario, utilizziamo una pipeline di fine-tuning in due fasi: prima con dati debolmente in dominio, seguita da una strategia human-in-the-loop (HITL) che chiamiamo ensemble-of-teachers. Questa strategia distilla le migliori qualità di più insegnanti in un modello studente più piccolo. Dimostriamo che questo approccio ci consente di migliorare specificamente la qualità del movimento mantenendo lo stile dell'immagine statica. Con ottimizzazioni nell'inferenza, il nostro modello è in grado di generare un video di otto fotogrammi con movimento di alta qualità, interessante e pertinente in meno di un secondo.
Presentiamo Premier-TACO, un approccio di apprendimento della rappresentazione delle caratteristiche multitask progettato per migliorare l'efficienza dell'apprendimento di politiche con pochi esempi in compiti di decisione sequenziale. Premier-TACO sfrutta un sottoinsieme di dataset offline multitask per il pre-addestramento di una rappresentazione generale delle caratteristiche, che cattura le dinamiche ambientali critiche e viene affinata utilizzando un numero minimo di dimostrazioni esperte. Questo metodo avanza l'obiettivo del Temporal Action Contrastive Learning (TACO), noto per i risultati all'avanguardia nei compiti di controllo visivo, incorporando una nuova strategia di campionamento di esempi negativi. Tale strategia è cruciale per aumentare significativamente l'efficienza computazionale di TACO, rendendo fattibile il pre-addestramento offline su larga scala multitask. La nostra ampia valutazione empirica in un insieme diversificato di benchmark di controllo continuo, tra cui Deepmind Control Suite, MetaWorld e LIBERO, dimostra l'efficacia di Premier-TACO nel pre-addestramento delle rappresentazioni visive, migliorando significativamente l'apprendimento per imitazione con pochi esempi di nuovi compiti. Il nostro codice, i dati di pre-addestramento e i checkpoint dei modelli pre-addestrati saranno rilasciati su https://github.com/PremierTACO/premier-taco.
Nonostante il notevole successo dei grandi modelli linguistici (LLM), i loro ingenti requisiti di memoria pongono sfide per il loro utilizzo nella generazione di token in contesti lunghi. L'impronta di memoria sostanziale dei decoder LLM deriva dalla necessità di memorizzare tutti i token precedenti nel modulo di attenzione, un requisito imposto dalla memorizzazione in cache delle coppie chiave-valore (KV). In questo lavoro, ci concentriamo sullo sviluppo di una tecnica di compressione efficiente per la cache KV. Le evidenze empiriche indicano una significativa tendenza alla clusterizzazione all'interno degli embedding delle chiavi nel modulo di attenzione. Basandoci su questa intuizione chiave, abbiamo ideato un nuovo metodo di caching con complessità sublineare, utilizzando il clustering online sui token chiave e il campionamento online ell_2 sui valori. Il risultato è un algoritmo di decodifica dell'attenzione provabilmente accurato ed efficiente, denominato SubGen. Questo algoritmo non solo garantisce un'impronta di memoria sublineare e una complessità temporale sublineare, ma stabiliamo anche un limite di errore rigoroso per il nostro approccio. Le valutazioni empiriche su compiti di risposta a domande in contesti lunghi dimostrano che SubGen supera significativamente i metodi esistenti e all'avanguardia di compressione della cache KV in termini di prestazioni ed efficienza.
I metodi esistenti per controllare i modelli linguistici, come RLHF e Constitutional AI, implicano la determinazione di quali comportamenti dei LLM siano desiderabili e il loro addestramento all'interno di un modello linguistico. Tuttavia, in molti casi, è auspicabile che i LLM siano controllabili al momento dell'inferenza, in modo da poter essere utilizzati in contesti multipli con esigenze diverse. Illustriamo questo concetto con il problema dell'Elefante Rosa: istruire un LLM a evitare di discutere una certa entità (un "Elefante Rosa") e invece discutere un'entità preferita ("Elefante Grigio"). Applichiamo una nuova semplificazione del Constitutional AI, il Direct Principle Feedback, che salta la classificazione delle risposte e utilizza direttamente il DPO su critiche e revisioni. I nostri risultati mostrano che, dopo il fine-tuning con DPF sul nostro dataset sintetico degli Elefanti Rosa, il nostro modello LLaMA 2 da 13B fine-tuned supera significativamente Llama-2-13B-Chat e una baseline con prompt, e performa altrettanto bene di GPT-4 sul nostro set di test curato che valuta il problema dell'Elefante Rosa.
I modelli linguistici di grandi dimensioni (LLM) sono oggi attesi per generare contenuti allineati alle preferenze umane. Il lavoro attuale si concentra sull'allineamento durante il periodo di addestramento del modello, attraverso tecniche come il Reinforcement Learning con Feedback Umano (RLHF). Tuttavia, non è chiaro se tali metodi siano una scelta efficace per insegnare obiettivi di allineamento al modello. In primo luogo, l'incapacità di incorporare ricompense multiple e personalizzate e la dipendenza dalla visione dello sviluppatore del modello di principi universali e statici sono limitazioni chiave. In secondo luogo, anche le lacune residue nell'addestramento del modello e l'affidabilità di tali approcci sono discutibili (ad esempio, la suscettibilità a jail-breaking anche dopo l'addestramento sulla sicurezza). Per affrontare questi problemi, proponiamo DeAL, un framework che consente all'utente di personalizzare le funzioni di ricompensa e abilita l'Allineamento al Tempo di Decodifica degli LLM (DeAL). Nel suo nucleo, consideriamo la decodifica come un processo di ricerca guidato da euristiche e facilitiamo l'uso di una vasta gamma di obiettivi di allineamento. I nostri esperimenti con vincoli programmatici come i vincoli di parole chiave e lunghezza (ampiamente studiati nell'era pre-LLM) e obiettivi astratti come l'innocuità e l'utilità (proposti nell'era post-LLM) mostrano che possiamo gestire compromessi granulari, migliorare l'aderenza agli obiettivi di allineamento e affrontare le lacune residue negli LLM. Infine, sebbene DeAL possa essere efficacemente abbinato a tecniche RLHF e di prompting, la sua generalità rende la decodifica più lenta, un'ottimizzazione che lasciamo per lavori futuri.
I recenti progressi nelle applicazioni real-world dell'apprendimento per rinforzo (RL) si sono basati sulla capacità di simulare accuratamente sistemi su larga scala. Tuttavia, domini come i sistemi di dinamica dei fluidi presentano fenomeni dinamici complessi che sono difficili da simulare ad alti tassi di integrazione, limitando l'applicazione diretta dei moderni algoritmi di deep RL a hardware spesso costoso o critico per la sicurezza. In questo lavoro, introduciamo "Box o Flows", un innovativo sistema di controllo sperimentale da banco per valutare sistematicamente gli algoritmi di RL in scenari dinamici del mondo reale. Descriviamo i componenti chiave del Box o Flows e, attraverso una serie di esperimenti, dimostriamo come gli algoritmi di RL model-free all'avanguardia possano sintetizzare una varietà di comportamenti complessi tramite specifiche di ricompensa semplici. Inoltre, esploriamo il ruolo dell'RL offline nel testare ipotesi in modo efficiente dal punto di vista dei dati, riutilizzando esperienze passate. Crediamo che le intuizioni ottenute da questo studio preliminare e la disponibilità di sistemi come il Box o Flows supportino la strada verso lo sviluppo di algoritmi di RL sistematici che possano essere applicati in generale a sistemi complessi e dinamici. Materiale supplementare e video degli esperimenti sono disponibili all'indirizzo https://sites.google.com/view/box-o-flows/home.