Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo un modello di sintesi vocale (TTS) chiamato BASE TTS, che sta per Big Adaptive Streamable TTS with Emergent abilities. BASE TTS è il più grande modello TTS fino ad oggi, addestrato su 100.000 ore di dati vocali di dominio pubblico, raggiungendo un nuovo stato dell'arte nella naturalezza del parlato. Utilizza un Transformer autoregressivo da 1 miliardo di parametri che converte testi grezzi in codici discreti ("speechcodes"), seguiti da un decoder basato su convoluzioni che trasforma questi speechcodes in waveform in modo incrementale e streamable. Inoltre, i nostri speechcodes sono costruiti utilizzando una nuova tecnica di tokenizzazione vocale che include la separazione dell'ID del parlante e la compressione con byte-pair encoding. Ricalcando le ampiamente riportate "abilità emergenti" dei modelli linguistici di grandi dimensioni quando addestrati su volumi crescenti di dati, dimostriamo che le varianti di BASE TTS costruite con oltre 10.000 ore e 500 milioni di parametri iniziano a mostrare una prosodia naturale su frasi testualmente complesse. Progettiamo e condividiamo un dataset specializzato per misurare queste abilità emergenti nella sintesi vocale. Mostriamo la naturalezza all'avanguardia di BASE TTS valutandolo rispetto a baseline che includono sistemi di sintesi vocale su larga scala disponibili pubblicamente: YourTTS, Bark e TortoiseTTS. Campioni audio generati dal modello possono essere ascoltati su https://amazon-ltts-paper.com/.
Gli attuali modelli linguistici presentano limitazioni nella comprensione di aspetti del mondo non facilmente descrivibili a parole e faticano con compiti complessi e di lunga durata. Le sequenze video offrono preziose informazioni temporali assenti nel linguaggio e nelle immagini statiche, rendendole attraenti per una modellizzazione congiunta con il linguaggio. Tali modelli potrebbero sviluppare una comprensione sia della conoscenza testuale umana che del mondo fisico, abilitando capacità AI più ampie per assistere gli esseri umani. Tuttavia, l'apprendimento da milioni di token di sequenze video e linguistiche presenta sfide dovute a vincoli di memoria, complessità computazionale e dataset limitati. Per affrontare queste sfide, abbiamo curato un ampio dataset di video e libri diversificati, utilizzato la tecnica RingAttention per addestrare in modo scalabile su sequenze lunghe e aumentato gradualmente la dimensione del contesto da 4K a 1M di token. Questo articolo fornisce i seguenti contributi: (a) Rete neurale con la più ampia dimensione di contesto: Abbiamo addestrato uno dei transformer con la più ampia dimensione di contesto su sequenze lunghe di video e linguaggio, stabilendo nuovi benchmark in compiti di recupero difficili e nella comprensione di video lunghi. (b) Soluzioni per superare le sfide dell'addestramento visione-linguaggio, inclusa l'utilizzo del masked sequence packing per mescolare diverse lunghezze di sequenza, la ponderazione della perdita per bilanciare linguaggio e visione e un dataset QA generato dal modello per chat su sequenze lunghe. (c) Un'implementazione altamente ottimizzata con RingAttention, masked sequence packing e altre caratteristiche chiave per l'addestramento su sequenze multimodali di milioni di token. (d) Modelli completamente open-source di 7B parametri in grado di elaborare documenti di testo lunghi (LWM-Text, LWM-Text-Chat) e video (LWM, LWM-Chat) di oltre 1M di token. Questo lavoro apre la strada all'addestramento su enormi dataset di video e linguaggio lunghi per sviluppare una comprensione sia della conoscenza umana che del mondo multimodale, e capacità più ampie.
I recenti rapidi progressi nei modelli di apprendimento (auto) supervisionato sono in gran parte previsti da leggi di scala empiriche: le prestazioni di un modello aumentano proporzionalmente alla sua dimensione. Tuttavia, leggi di scala analoghe rimangono elusive nei domini dell'apprendimento per rinforzo, dove l'aumento del numero di parametri di un modello spesso ne compromette le prestazioni finali. In questo articolo, dimostriamo che l'incorporazione di moduli Mixture-of-Expert (MoE), e in particolare Soft MoEs (Puigcerver et al., 2023), nelle reti basate su valori porta a modelli più scalabili in termini di parametri, come evidenziato da sostanziali miglioramenti delle prestazioni in una varietà di regimi di addestramento e dimensioni del modello. Questo lavoro fornisce quindi una forte evidenza empirica verso lo sviluppo di leggi di scala per l'apprendimento per rinforzo.
Presentiamo Lumos, il primo sistema end-to-end di risposta a domande multimodale con capacità di comprensione del testo. Al cuore di Lumos si trova un componente di Riconoscimento del Testo nelle Scene (STR, Scene Text Recognition) che estrae il testo da immagini in prima persona, il cui output viene utilizzato per arricchire l'input di un Modello Linguistico Multimodale di Grande Scala (MM-LLM, Multimodal Large Language Model). Durante lo sviluppo di Lumos, abbiamo affrontato numerose sfide legate alla qualità dello STR, alla latenza complessiva e all'inferenza del modello. In questo articolo, approfondiamo tali sfide e discutiamo l'architettura del sistema, le scelte progettuali e le tecniche di modellazione impiegate per superare questi ostacoli. Forniamo inoltre una valutazione completa per ciascun componente, dimostrando elevata qualità ed efficienza.
Presentiamo UFO, un innovativo agente focalizzato sull'interfaccia utente (UI) progettato per soddisfare le richieste degli utenti in applicazioni specifiche per il sistema operativo Windows, sfruttando le capacità di GPT-Vision. UFO utilizza un framework a doppio agente per osservare e analizzare meticolosamente l'interfaccia grafica (GUI) e le informazioni di controllo delle applicazioni Windows. Ciò consente all'agente di navigare e operare in modo fluido all'interno di singole applicazioni e tra di esse per soddisfare le richieste degli utenti, anche quando queste coinvolgono più applicazioni. Il framework include un modulo di interazione di controllo, che facilita l'ancoraggio delle azioni senza intervento umano e consente un'esecuzione completamente automatizzata. Di conseguenza, UFO trasforma processi complessi e dispendiosi in tempo in semplici attività realizzabili esclusivamente tramite comandi in linguaggio naturale. Abbiamo testato UFO su 9 applicazioni Windows popolari, coprendo una varietà di scenari rappresentativi dell'uso quotidiano degli utenti. I risultati, derivati sia da metriche quantitative che da casi di studio reali, evidenziano l'efficacia superiore di UFO nel soddisfare le richieste degli utenti. Per quanto ne sappiamo, UFO rappresenta il primo agente UI specificamente progettato per il completamento di attività nell'ambiente Windows OS. Il codice open-source di UFO è disponibile su https://github.com/microsoft/UFO.
Le Graph Neural Networks (GNN) hanno dimostrato un potenziale promettente nell'apprendimento di rappresentazioni di grafi. La maggior parte delle GNN definisce un meccanismo locale di passaggio di messaggi, propagando le informazioni sul grafo attraverso l'impilamento di più strati. Tuttavia, questi metodi sono noti per soffrire di due principali limitazioni: l'eccessiva compressione (over-squashing) e la scarsa capacità di catturare dipendenze a lungo raggio. Recentemente, i Graph Transformers (GT) sono emersi come una potente alternativa alle Message-Passing Neural Networks (MPNN). I GT, tuttavia, presentano un costo computazionale quadratico, mancano di bias induttivi sulle strutture dei grafi e si basano su complessi Positional/Structural Encodings (SE/PE). In questo articolo, dimostriamo che, sebbene i Transformers, il complesso passaggio di messaggi e gli SE/PE siano sufficienti per ottenere buone prestazioni nella pratica, nessuno di questi elementi è strettamente necessario. Motivati dal recente successo dei State Space Models (SSM), come Mamba, presentiamo le Graph Mamba Networks (GMN), un framework generale per una nuova classe di GNN basata su SSM selettivi. Discutiamo e categorizziamo le nuove sfide nell'adottare gli SSM per dati strutturati a grafo e presentiamo quattro passaggi obbligatori e uno opzionale per progettare le GMN, in cui scegliamo (1) Tokenizzazione del Vicinato, (2) Ordinamento dei Token, (3) Architettura del Codificatore SSM Selettivo Bidirezionale, (4) Codifica Locale, e opzionalmente (5) PE e SE. Forniamo inoltre una giustificazione teorica per la potenza delle GMN. Gli esperimenti dimostrano che, nonostante un costo computazionale molto inferiore, le GMN raggiungono prestazioni eccezionali su dataset di benchmark a lungo raggio, su piccola scala, su larga scala e eterofili.
Man mano che i Modelli Linguistici di Grande Dimensione (LLM) si evolvono rapidamente, la loro influenza nella scienza sta diventando sempre più rilevante. Le capacità emergenti degli LLM nella generalizzazione dei compiti e nel dialogo libero possono avanzare significativamente campi come la chimica e la biologia. Tuttavia, il campo della biologia a singola cellula, che costituisce i mattoni fondamentali degli organismi viventi, deve ancora affrontare diverse sfide. Le elevate barriere di conoscenza e la scalabilità limitata dei metodi attuali limitano lo sfruttamento completo degli LLM nel padroneggiare i dati a singola cellula, ostacolando l'accessibilità diretta e l'iterazione rapida. A tal fine, introduciamo ChatCell, che segna un cambiamento di paradigma facilitando l'analisi a singola cellula con il linguaggio naturale. Sfruttando l'adattamento del vocabolario e la generazione unificata di sequenze, ChatCell ha acquisito una profonda competenza nella biologia a singola cellula e la capacità di adattarsi a una vasta gamma di attività di analisi. Esperimenti estesi dimostrano ulteriormente le robuste prestazioni di ChatCell e il potenziale di approfondire le intuizioni a singola cellula, aprendo la strada a un'esplorazione più accessibile e intuitiva in questo campo cruciale. La homepage del nostro progetto è disponibile all'indirizzo https://zjunlp.github.io/project/ChatCell.
La maggior parte dei generatori di testo-3D si basano su modelli preesistenti di testo-immagine addestrati su miliardi di immagini. Utilizzano varianti del metodo Score Distillation Sampling (SDS), che è lento, piuttosto instabile e soggetto alla comparsa di artefatti. Una possibile soluzione è quella di ottimizzare il generatore 2D per renderlo consapevole delle viste multiple, il che può migliorare il processo di distillazione o essere combinato con reti di ricostruzione per produrre direttamente oggetti 3D. In questo articolo, esploriamo ulteriormente lo spazio di progettazione dei modelli testo-3D. Miglioriamo significativamente la generazione di viste multiple considerando generatori di video anziché di immagini. Combinando questo approccio con un algoritmo di ricostruzione 3D che, utilizzando lo splatting gaussiano, può ottimizzare una robusta funzione di perdita basata sulle immagini, produciamo direttamente output 3D di alta qualità a partire dalle viste generate. Il nostro nuovo metodo, IM-3D, riduce il numero di valutazioni della rete generatrice 2D di 10-100 volte, risultando in una pipeline molto più efficiente, una qualità migliore, meno inconsistenze geometriche e una resa più elevata di asset 3D utilizzabili.
Gli attuali controlli sui modelli di diffusione (ad esempio, tramite testo o ControlNet) per la generazione di immagini non sono sufficienti per riconoscere attributi astratti e continui come la direzione dell'illuminazione o i cambiamenti di forma non rigidi. In questo articolo, presentiamo un approccio che consente agli utenti dei modelli di testo-immagine di avere un controllo fine su diversi attributi di un'immagine. Lo facciamo progettando speciali set di token di input che possono essere trasformati in modo continuo, che chiamiamo "Parole 3D Continue". Questi attributi possono, ad esempio, essere rappresentati come slider e applicati insieme a prompt testuali per un controllo dettagliato sulla generazione delle immagini. Utilizzando solo una singola mesh e un motore di rendering, dimostriamo che il nostro approccio può essere adottato per fornire un controllo continuo dell'utente su diversi attributi consapevoli della 3D, tra cui l'illuminazione in base all'ora del giorno, l'orientamento delle ali degli uccelli, l'effetto dollyzoom e le pose degli oggetti. Il nostro metodo è in grado di condizionare la creazione di immagini con più Parole 3D Continue e descrizioni testuali simultaneamente, senza aggiungere alcun sovraccarico al processo generativo. Pagina del progetto: https://ttchengab.github.io/continuous_3d_words
La natura autoregressiva dei convenzionali modelli linguistici di grandi dimensioni (LLM) limita intrinsecamente la velocità di inferenza, poiché i token vengono generati in sequenza. Sebbene le tecniche di decodifica speculativa e parallela tentino di mitigare questo problema, presentano delle limitazioni: o si basano su modelli più piccoli e meno accurati per la generazione, o non riescono a sfruttare appieno le rappresentazioni del modello LLM di base. Introduciamo una nuova architettura, i Tandem Transformers, per affrontare queste problematiche. Questa architettura combina in modo unico (1) un piccolo modello autoregressivo e (2) un modello di grandi dimensioni che opera in modalità a blocchi (elaborando più token simultaneamente). L'accuratezza predittiva del modello piccolo viene notevolmente migliorata consentendogli di prestare attenzione alle rappresentazioni più ricche del modello grande. Sul dataset di pre-addestramento PaLM2, un tandem composto da PaLM2-Bison e PaLM2-Gecko dimostra un miglioramento del 3,3% nell'accuratezza della predizione del token successivo rispetto a un PaLM2-Gecko autonomo, offrendo un'accelerazione di 1,16x rispetto a un modello PaLM2-Otter con prestazioni comparabili nei task downstream. Integriamo ulteriormente il modello tandem all'interno del framework di decodifica speculativa (SPEED), in cui il modello grande convalida i token generati dal modello piccolo. Ciò garantisce che il tandem di PaLM2-Bison e PaLM2-Gecko raggiunga un'accelerazione significativa (circa 1,14x più veloce rispetto all'uso del vanilla PaLM2-Gecko in SPEED) mantenendo al contempo un'accuratezza identica nei task downstream.
Il riconoscimento dei gesti manuali sta diventando una modalità sempre più diffusa di interazione uomo-computer, soprattutto con la proliferazione di telecamere nei dispositivi di uso quotidiano. Nonostante i progressi continui in questo campo, la personalizzazione dei gesti è spesso poco esplorata. La personalizzazione è cruciale in quanto consente agli utenti di definire e dimostrare gesti più naturali, memorabili e accessibili. Tuttavia, la personalizzazione richiede un uso efficiente dei dati forniti dall'utente. Introduciamo un metodo che consente agli utenti di progettare facilmente gesti personalizzati con una telecamera monoculare partendo da una sola dimostrazione. Utilizziamo trasformatori e tecniche di meta-apprendimento per affrontare le sfide dell'apprendimento con pochi esempi. A differenza dei lavori precedenti, il nostro metodo supporta qualsiasi combinazione di gesti a una mano, a due mani, statici e dinamici, inclusi diversi punti di vista. Abbiamo valutato il nostro metodo di personalizzazione attraverso uno studio utente con 20 gesti raccolti da 21 partecipanti, raggiungendo una precisione media di riconoscimento fino al 97% partendo da una sola dimostrazione. Il nostro lavoro fornisce un percorso praticabile per la personalizzazione dei gesti basata sulla visione, gettando le basi per futuri progressi in questo dominio.
Un Neural Radiance Field (NeRF) codifica la relazione specifica tra la geometria 3D e l'aspetto di una scena. In questo lavoro ci chiediamo se sia possibile trasferire l'aspetto da un NeRF sorgente a una geometria 3D target in modo semanticamente significativo, in modo che il nuovo NeRF risultante mantenga la geometria target ma abbia un aspetto che rappresenti un'analogia rispetto al NeRF sorgente. A tal fine, generalizziamo le analogie classiche delle immagini 2D ai NeRF. Sfruttiamo il trasferimento di corrispondenze basato sull'affinità semantica, guidato da caratteristiche semantiche provenienti da modelli pre-addestrati su immagini 2D su larga scala, per ottenere un trasferimento dell'aspetto coerente su più viste. Il nostro metodo consente di esplorare lo spazio prodotto del mix-and-match tra geometria 3D e aspetto. Dimostriamo che il nostro metodo supera i tradizionali approcci basati sulla stilizzazione e che la maggior parte degli utenti preferisce il nostro metodo rispetto a diverse baseline tipiche.