Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo AudioPaLM, un modello linguistico di grandi dimensioni per la comprensione e la generazione del parlato. AudioPaLM fonde modelli linguistici basati su testo e su parlato, PaLM-2 [Anil et al., 2023] e AudioLM [Borsos et al., 2022], in un'architettura multimodale unificata in grado di elaborare e generare testo e parlato con applicazioni che includono il riconoscimento vocale e la traduzione da parlato a parlato. AudioPaLM eredita la capacità di preservare informazioni paralinguistiche come l'identità del parlante e l'intonazione da AudioLM e la conoscenza linguistica presente solo nei modelli linguistici di grandi dimensioni basati su testo come PaLM-2. Dimostriamo che l'inizializzazione di AudioPaLM con i pesi di un modello linguistico di grandi dimensioni basato esclusivamente su testo migliora l'elaborazione del parlato, sfruttando con successo la maggiore quantità di dati di testo utilizzati nel pre-addestramento per assistere nei compiti legati al parlato. Il modello risultante supera significativamente i sistemi esistenti per i compiti di traduzione vocale e ha la capacità di eseguire traduzioni da parlato a testo in modalità zero-shot per molte lingue per le quali le combinazioni di lingue di input/target non erano state viste durante l'addestramento. AudioPaLM dimostra inoltre caratteristiche dei modelli linguistici audio, come il trasferimento di una voce tra lingue basandosi su un breve prompt vocale. Rilasciamo esempi del nostro metodo all'indirizzo https://google-research.github.io/seanet/audiopalm/examples.
Il recentemente proposto modello Segment Anything (SAM) ha avuto un impatto significativo in molti compiti di visione artificiale. Sta diventando un passaggio fondamentale per molte attività di alto livello, come la segmentazione delle immagini, la descrizione delle immagini e la modifica delle immagini. Tuttavia, i suoi elevati costi computazionali ne limitano un'applicazione più ampia negli scenari industriali. La computazione deriva principalmente dall'architettura Transformer con input ad alta risoluzione. In questo articolo, proponiamo un metodo alternativo accelerato per questo compito fondamentale, con prestazioni comparabili. Riformulando il compito come generazione di segmenti e prompting, scopriamo che un normale rilevatore CNN con un ramo di segmentazione delle istanze può svolgere bene anche questo compito. Nello specifico, convertiamo questo compito nel ben studiato compito di segmentazione delle istanze e addestriamo direttamente il metodo esistente di segmentazione delle istanze utilizzando solo 1/50 del dataset SA-1B pubblicato dagli autori di SAM. Con il nostro metodo, otteniamo prestazioni comparabili al metodo SAM con una velocità di esecuzione 50 volte superiore. Forniamo risultati sperimentali sufficienti per dimostrarne l'efficacia. I codici e le demo saranno rilasciati su https://github.com/CASIA-IVA-Lab/FastSAM.
In che modo il linguaggio influenza il nostro pensiero a valle? In particolare, come gli esseri umani costruiscono significato a partire dal linguaggio — e come possiamo sfruttare una teoria del significato linguistico per costruire macchine che pensano in modi più simili a quelli umani? In questo articolo, proponiamo la costruzione razionale del significato, un framework computazionale per il pensiero informato dal linguaggio che combina modelli neurali del linguaggio con modelli probabilistici per l'inferenza razionale. Definiamo il significato linguistico come una mappatura sensibile al contesto dal linguaggio naturale a un linguaggio probabilistico del pensiero (PLoT) — un substrato simbolico generico per la modellazione probabilistica e generativa del mondo. La nostra architettura integra due potenti strumenti computazionali che finora non erano stati combinati: modelliamo il pensiero con programmi probabilistici, una rappresentazione espressiva per il ragionamento flessibile di senso comune; e modelliamo la costruzione del significato con grandi modelli linguistici (LLM), che supportano una traduzione ad ampio spettro da espressioni linguistiche naturali a espressioni di codice in un linguaggio di programmazione probabilistica. Illustriamo il nostro framework in azione attraverso esempi che coprono quattro domini fondamentali della scienza cognitiva: ragionamento probabilistico, ragionamento logico e relazionale, ragionamento visivo e fisico, e ragionamento sociale su agenti e i loro piani. In ciascuno di questi, dimostriamo che gli LLM possono generare traduzioni sensibili al contesto che catturano significati linguistici pragmaticamente appropriati, mentre l'inferenza bayesiana con i programmi generati supporta un ragionamento di senso comune coerente e robusto. Estendiamo il nostro framework per integrare moduli simbolici motivati cognitivamente, fornendo un'interfaccia unificata per il pensiero di senso comune a partire dal linguaggio. Infine, esploriamo come il linguaggio possa guidare la costruzione stessa dei modelli del mondo.
La quantizzazione di attivazioni, pesi e gradienti a 4 bit rappresenta una promettente soluzione per accelerare l'addestramento delle reti neurali. Tuttavia, i metodi esistenti per l'addestramento a 4 bit richiedono formati numerici personalizzati che non sono supportati dall'hardware contemporaneo. In questo lavoro, proponiamo un metodo di addestramento per trasformatori in cui tutte le moltiplicazioni matriciali sono implementate utilizzando l'aritmetica INT4. L'addestramento con una precisione INT4 ultra-bassa è impegnativo. Per raggiungere questo obiettivo, analizziamo attentamente le strutture specifiche delle attivazioni e dei gradienti nei trasformatori per proporre quantizzatori dedicati. Per la propagazione in avanti, identifichiamo la sfida rappresentata dagli outlier e proponiamo un quantizzatore Hadamard per sopprimerli. Per la retropropagazione, sfruttiamo la sparsità strutturale dei gradienti proponendo tecniche di suddivisione dei bit e campionamento basato su punteggi di leverage per quantizzare i gradienti in modo accurato. Il nostro algoritmo raggiunge un'accuratezza competitiva su un'ampia gamma di task, tra cui comprensione del linguaggio naturale, traduzione automatica e classificazione di immagini. A differenza dei precedenti metodi di addestramento a 4 bit, il nostro algoritmo può essere implementato sulla generazione attuale di GPU. La nostra implementazione prototipale dell'operatore lineare è fino a 2,2 volte più veloce rispetto alle controparti FP16 e accelera l'addestramento fino al 35,1%.
Consideriamo i grandi modelli linguistici (LLM) come strati linguistici stocastici in una rete, dove i parametri apprendibili sono i prompt in linguaggio naturale a ciascun livello. Sovrapponiamo due di questi strati, alimentando l'output di un livello al successivo. Chiamiamo questa architettura impilata Deep Language Network (DLN). Iniziamo mostrando come ottimizzare efficacemente i prompt per una rete linguistica a 1 strato (DLN-1). Successivamente, dimostriamo come addestrare DLN a 2 strati (DLN-2), dove è necessario apprendere due prompt. Consideriamo l'output del primo strato come una variabile latente da marginalizzare e sviluppiamo un algoritmo di inferenza variazionale per l'addestramento congiunto dei prompt. Una DLN-2 raggiunge prestazioni superiori rispetto a un singolo strato, a volte comparabili a GPT-4 con pochi esempi, anche quando ogni LLM nella rete è più piccolo e meno potente. Il codice DLN è open source: https://github.com/microsoft/deep-language-networks.
I modelli Transformer sono stati ampiamente adottati in vari ambiti negli ultimi anni, e in particolare i grandi modelli linguistici hanno fatto progredire significativamente il campo dell'IA. Grazie alle loro dimensioni, la capacità di queste reti è aumentata enormemente, ma ciò è avvenuto a costo di un significativo incremento delle risorse computazionali necessarie. La quantizzazione è uno dei metodi più efficaci per ridurre il tempo di calcolo e il consumo di memoria delle reti neurali. Tuttavia, molti studi hanno dimostrato che i moderni modelli Transformer tendono a imparare forti valori anomali nelle loro attivazioni, rendendoli difficili da quantizzare. Per mantenere prestazioni accettabili, la presenza di questi valori anomali richiede che le attivazioni siano rappresentate con una maggiore larghezza di bit, l'uso di formati numerici diversi, un ulteriore fine-tuning o altre soluzioni alternative. Mostriamo che i forti valori anomali sono legati a un comportamento molto specifico delle teste di attenzione che cercano di imparare un "no-op" o solo un aggiornamento parziale del residuo. Per ottenere gli zeri esatti necessari nella matrice di attenzione per un non-aggiornamento, l'input della softmax viene spinto a diventare sempre più grande durante l'addestramento, causando valori anomali in altre parti della rete. Sulla base di queste osservazioni, proponiamo due semplici (e indipendenti) modifiche al meccanismo di attenzione: la softmax limitata e l'attenzione gated. Dimostriamo empiricamente che i modelli pre-addestrati utilizzando i nostri metodi imparano valori anomali significativamente più piccoli, mantenendo e talvolta migliorando le prestazioni in virgola mobile. Ciò ci permette di quantizzare i Transformer con una quantizzazione completa INT8 delle attivazioni senza alcuno sforzo aggiuntivo. Dimostriamo l'efficacia dei nostri metodi sia sui modelli linguistici (BERT, OPT) che sui vision transformer.
I modelli di diffusione testo-immagine pre-addestrati su miliardi di coppie immagine-testo hanno recentemente reso possibile la creazione di contenuti 3D a partire da testo, ottimizzando un campo di radianza neurale (NeRF) inizializzato casualmente attraverso la distillazione del punteggio. Tuttavia, i modelli 3D risultanti presentano due limitazioni: (a) problemi di qualità come colori saturi e il problema di Janus; (b) una diversità estremamente bassa rispetto alla sintesi di immagini guidata da testo. In questo articolo, dimostriamo che il conflitto tra il processo di ottimizzazione del NeRF e il campionamento uniforme dei passaggi temporali nella distillazione del punteggio è la causa principale di queste limitazioni. Per risolvere questo conflitto, proponiamo di dare priorità al campionamento dei passaggi temporali utilizzando funzioni monotonicamente non crescenti, allineando così l'ottimizzazione del NeRF con il processo di campionamento del modello di diffusione. Esperimenti estesi dimostrano che questa semplice riprogettazione migliora significativamente la creazione di contenuti 3D a partire da testo, con una qualità e una diversità maggiori.
I recenti progressi nei modelli di diffusione su larga scala per la generazione di immagini da testo hanno abilitato numerose applicazioni nel campo dell'editing delle immagini. Tuttavia, nessuno di questi metodi è stato in grado di modificare il layout di singole immagini esistenti. Per colmare questa lacuna, proponiamo il primo framework per l'editing del layout di una singola immagine preservandone le proprietà visive, consentendo così un editing continuo su un'unica immagine. Il nostro approccio si basa su due moduli chiave. Innanzitutto, per preservare le caratteristiche di più oggetti all'interno di un'immagine, separiamo i concetti dei diversi oggetti e li incorporiamo in token testuali separati utilizzando un metodo innovativo chiamato inversione testuale mascherata. Successivamente, proponiamo un metodo di ottimizzazione senza addestramento per controllare il layout in un modello di diffusione pre-addestrato, che ci permette di rigenerare immagini con concetti appresi e allinearle a layout specificati dall'utente. Come primo framework in grado di modificare il layout di immagini esistenti, dimostriamo che il nostro metodo è efficace e supera altre baseline adattate per supportare questo compito. Il nostro codice sarà liberamente disponibile per uso pubblico dopo l'accettazione.
Polis è una piattaforma che sfrutta l'intelligenza artificiale per ampliare i processi deliberativi. In questo articolo, esploriamo le opportunità e i rischi associati all'applicazione dei Modelli Linguistici di Grande Scala (LLM) alle sfide legate alla facilitazione, moderazione e sintesi dei risultati delle interazioni su Polis. In particolare, dimostriamo attraverso esperimenti pilota condotti con Claude di Anthropic che gli LLM possono effettivamente potenziare l'intelligenza umana per gestire in modo più efficiente le conversazioni su Polis. In particolare, scopriamo che le capacità di sintesi abilitano metodi categoricamente nuovi con un enorme potenziale per coinvolgere il pubblico in esercizi di creazione collettiva di significato. E, in modo significativo, le limitazioni contestuali degli LLM hanno un impatto rilevante sull'approfondimento e sulla qualità di questi risultati. Tuttavia, queste opportunità comportano anche dei rischi. Discutiamo alcuni di questi rischi, nonché i principi e le tecniche per caratterizzarli e mitigarli, e le implicazioni per altri sistemi deliberativi o politici che potrebbero impiegare gli LLM. Infine, concludiamo con diverse direzioni future di ricerca aperte per potenziare strumenti come Polis con gli LLM.
I Transformer equivarianti come Equiformer hanno dimostrato l'efficacia dell'applicazione dei Transformer al dominio dei sistemi atomistici 3D. Tuttavia, sono ancora limitati a piccoli gradi di rappresentazioni equivarianti a causa della loro complessità computazionale. In questo articolo, indaghiamo se queste architetture possano scalare bene a gradi più elevati. Partendo da Equiformer, sostituiamo prima le convoluzioni SO(3) con convoluzioni eSCN per incorporare in modo efficiente tensori di grado superiore. Poi, per sfruttare meglio la potenza dei gradi più elevati, proponiamo tre miglioramenti architetturali: la rinormalizzazione dell'attenzione, l'attivazione separabile S^2 e la normalizzazione separabile a strati. Mettendo tutto insieme, proponiamo EquiformerV2, che supera i precedenti metodi all'avanguardia sul dataset su larga scala OC20 fino al 12% sulle forze, al 4% sulle energie, offre migliori compromessi velocità-precisione e una riduzione di 2 volte nei calcoli DFT necessari per calcolare le energie di adsorbimento.