HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

10 papers found

AudioPaLM: Un Modello Linguistico di Grandi Dimensioni in Grado di Parlare e Ascoltare
AudioPaLM: A Large Language Model That Can Speak and Listen

Jun 22

ByPaul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo Velimirović, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank

Presentiamo AudioPaLM, un modello linguistico di grandi dimensioni per la comprensione e la generazione del parlato. AudioPaLM fonde modelli linguistici basati su testo e su parlato, PaLM-2 [Anil et al., 2023] e AudioLM [Borsos et al., 2022], in un'architettura multimodale unificata in grado di elaborare e generare testo e parlato con applicazioni che includono il riconoscimento vocale e la traduzione da parlato a parlato. AudioPaLM eredita la capacità di preservare informazioni paralinguistiche come l'identità del parlante e l'intonazione da AudioLM e la conoscenza linguistica presente solo nei modelli linguistici di grandi dimensioni basati su testo come PaLM-2. Dimostriamo che l'inizializzazione di AudioPaLM con i pesi di un modello linguistico di grandi dimensioni basato esclusivamente su testo migliora l'elaborazione del parlato, sfruttando con successo la maggiore quantità di dati di testo utilizzati nel pre-addestramento per assistere nei compiti legati al parlato. Il modello risultante supera significativamente i sistemi esistenti per i compiti di traduzione vocale e ha la capacità di eseguire traduzioni da parlato a testo in modalità zero-shot per molte lingue per le quali le combinazioni di lingue di input/target non erano state viste durante l'addestramento. AudioPaLM dimostra inoltre caratteristiche dei modelli linguistici audio, come il trasferimento di una voce tra lingue basandosi su un breve prompt vocale. Rilasciamo esempi del nostro metodo all'indirizzo https://google-research.github.io/seanet/audiopalm/examples.

Segmentazione Rapida di Qualsiasi Cosa
Fast Segment Anything

Jun 21

ByXu Zhao, Wenchao Ding, Yongqi An, Yinglong Du, Tao Yu, Min Li, Ming Tang, Jinqiao Wang

Il recentemente proposto modello Segment Anything (SAM) ha avuto un impatto significativo in molti compiti di visione artificiale. Sta diventando un passaggio fondamentale per molte attività di alto livello, come la segmentazione delle immagini, la descrizione delle immagini e la modifica delle immagini. Tuttavia, i suoi elevati costi computazionali ne limitano un'applicazione più ampia negli scenari industriali. La computazione deriva principalmente dall'architettura Transformer con input ad alta risoluzione. In questo articolo, proponiamo un metodo alternativo accelerato per questo compito fondamentale, con prestazioni comparabili. Riformulando il compito come generazione di segmenti e prompting, scopriamo che un normale rilevatore CNN con un ramo di segmentazione delle istanze può svolgere bene anche questo compito. Nello specifico, convertiamo questo compito nel ben studiato compito di segmentazione delle istanze e addestriamo direttamente il metodo esistente di segmentazione delle istanze utilizzando solo 1/50 del dataset SA-1B pubblicato dagli autori di SAM. Con il nostro metodo, otteniamo prestazioni comparabili al metodo SAM con una velocità di esecuzione 50 volte superiore. Forniamo risultati sperimentali sufficienti per dimostrarne l'efficacia. I codici e le demo saranno rilasciati su https://github.com/CASIA-IVA-Lab/FastSAM.

Da modelli di parole a modelli del mondo: tradurre dal linguaggio naturale al linguaggio probabilistico del pensiero
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Jun 22

ByLionel Wong, Gabriel Grand, Alexander K. Lew, Noah D. Goodman, Vikash K. Mansinghka, Jacob Andreas, Joshua B. Tenenbaum

In che modo il linguaggio influenza il nostro pensiero a valle? In particolare, come gli esseri umani costruiscono significato a partire dal linguaggio — e come possiamo sfruttare una teoria del significato linguistico per costruire macchine che pensano in modi più simili a quelli umani? In questo articolo, proponiamo la costruzione razionale del significato, un framework computazionale per il pensiero informato dal linguaggio che combina modelli neurali del linguaggio con modelli probabilistici per l'inferenza razionale. Definiamo il significato linguistico come una mappatura sensibile al contesto dal linguaggio naturale a un linguaggio probabilistico del pensiero (PLoT) — un substrato simbolico generico per la modellazione probabilistica e generativa del mondo. La nostra architettura integra due potenti strumenti computazionali che finora non erano stati combinati: modelliamo il pensiero con programmi probabilistici, una rappresentazione espressiva per il ragionamento flessibile di senso comune; e modelliamo la costruzione del significato con grandi modelli linguistici (LLM), che supportano una traduzione ad ampio spettro da espressioni linguistiche naturali a espressioni di codice in un linguaggio di programmazione probabilistica. Illustriamo il nostro framework in azione attraverso esempi che coprono quattro domini fondamentali della scienza cognitiva: ragionamento probabilistico, ragionamento logico e relazionale, ragionamento visivo e fisico, e ragionamento sociale su agenti e i loro piani. In ciascuno di questi, dimostriamo che gli LLM possono generare traduzioni sensibili al contesto che catturano significati linguistici pragmaticamente appropriati, mentre l'inferenza bayesiana con i programmi generati supporta un ragionamento di senso comune coerente e robusto. Estendiamo il nostro framework per integrare moduli simbolici motivati cognitivamente, fornendo un'interfaccia unificata per il pensiero di senso comune a partire dal linguaggio. Infine, esploriamo come il linguaggio possa guidare la costruzione stessa dei modelli del mondo.

Addestramento di Transformer con interi a 4 bit
Training Transformers with 4-bit Integers

Jun 21

ByHaocheng Xi, Changhao Li, Jianfei Chen, Jun Zhu

La quantizzazione di attivazioni, pesi e gradienti a 4 bit rappresenta una promettente soluzione per accelerare l'addestramento delle reti neurali. Tuttavia, i metodi esistenti per l'addestramento a 4 bit richiedono formati numerici personalizzati che non sono supportati dall'hardware contemporaneo. In questo lavoro, proponiamo un metodo di addestramento per trasformatori in cui tutte le moltiplicazioni matriciali sono implementate utilizzando l'aritmetica INT4. L'addestramento con una precisione INT4 ultra-bassa è impegnativo. Per raggiungere questo obiettivo, analizziamo attentamente le strutture specifiche delle attivazioni e dei gradienti nei trasformatori per proporre quantizzatori dedicati. Per la propagazione in avanti, identifichiamo la sfida rappresentata dagli outlier e proponiamo un quantizzatore Hadamard per sopprimerli. Per la retropropagazione, sfruttiamo la sparsità strutturale dei gradienti proponendo tecniche di suddivisione dei bit e campionamento basato su punteggi di leverage per quantizzare i gradienti in modo accurato. Il nostro algoritmo raggiunge un'accuratezza competitiva su un'ampia gamma di task, tra cui comprensione del linguaggio naturale, traduzione automatica e classificazione di immagini. A differenza dei precedenti metodi di addestramento a 4 bit, il nostro algoritmo può essere implementato sulla generazione attuale di GPU. La nostra implementazione prototipale dell'operatore lineare è fino a 2,2 volte più veloce rispetto alle controparti FP16 e accelera l'addestramento fino al 35,1%.

Reti Linguistiche Profonde: Addestramento Congiunto di Prompt per Modelli Linguistici Impilati utilizzando Inferenza Variazionale
Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

Jun 21

ByAlessandro Sordoni, Xingdi Yuan, Marc-Alexandre Côté, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux

Consideriamo i grandi modelli linguistici (LLM) come strati linguistici stocastici in una rete, dove i parametri apprendibili sono i prompt in linguaggio naturale a ciascun livello. Sovrapponiamo due di questi strati, alimentando l'output di un livello al successivo. Chiamiamo questa architettura impilata Deep Language Network (DLN). Iniziamo mostrando come ottimizzare efficacemente i prompt per una rete linguistica a 1 strato (DLN-1). Successivamente, dimostriamo come addestrare DLN a 2 strati (DLN-2), dove è necessario apprendere due prompt. Consideriamo l'output del primo strato come una variabile latente da marginalizzare e sviluppiamo un algoritmo di inferenza variazionale per l'addestramento congiunto dei prompt. Una DLN-2 raggiunge prestazioni superiori rispetto a un singolo strato, a volte comparabili a GPT-4 con pochi esempi, anche quando ogni LLM nella rete è più piccolo e meno potente. Il codice DLN è open source: https://github.com/microsoft/deep-language-networks.

Transformer Quantizzabili: Rimuovere gli Outlier Aiutando le Teste di Attenzione a Non Fare Nulla
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

Jun 22

ByYelysei Bondarenko, Markus Nagel, Tijmen Blankevoort

I modelli Transformer sono stati ampiamente adottati in vari ambiti negli ultimi anni, e in particolare i grandi modelli linguistici hanno fatto progredire significativamente il campo dell'IA. Grazie alle loro dimensioni, la capacità di queste reti è aumentata enormemente, ma ciò è avvenuto a costo di un significativo incremento delle risorse computazionali necessarie. La quantizzazione è uno dei metodi più efficaci per ridurre il tempo di calcolo e il consumo di memoria delle reti neurali. Tuttavia, molti studi hanno dimostrato che i moderni modelli Transformer tendono a imparare forti valori anomali nelle loro attivazioni, rendendoli difficili da quantizzare. Per mantenere prestazioni accettabili, la presenza di questi valori anomali richiede che le attivazioni siano rappresentate con una maggiore larghezza di bit, l'uso di formati numerici diversi, un ulteriore fine-tuning o altre soluzioni alternative. Mostriamo che i forti valori anomali sono legati a un comportamento molto specifico delle teste di attenzione che cercano di imparare un "no-op" o solo un aggiornamento parziale del residuo. Per ottenere gli zeri esatti necessari nella matrice di attenzione per un non-aggiornamento, l'input della softmax viene spinto a diventare sempre più grande durante l'addestramento, causando valori anomali in altre parti della rete. Sulla base di queste osservazioni, proponiamo due semplici (e indipendenti) modifiche al meccanismo di attenzione: la softmax limitata e l'attenzione gated. Dimostriamo empiricamente che i modelli pre-addestrati utilizzando i nostri metodi imparano valori anomali significativamente più piccoli, mantenendo e talvolta migliorando le prestazioni in virgola mobile. Ciò ci permette di quantizzare i Transformer con una quantizzazione completa INT8 delle attivazioni senza alcuno sforzo aggiuntivo. Dimostriamo l'efficacia dei nostri metodi sia sui modelli linguistici (BERT, OPT) che sui vision transformer.

DreamTime: Una Strategia di Ottimizzazione Migliorata per la Creazione di Contenuti da Testo a 3D
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

Jun 21

ByYukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang

I modelli di diffusione testo-immagine pre-addestrati su miliardi di coppie immagine-testo hanno recentemente reso possibile la creazione di contenuti 3D a partire da testo, ottimizzando un campo di radianza neurale (NeRF) inizializzato casualmente attraverso la distillazione del punteggio. Tuttavia, i modelli 3D risultanti presentano due limitazioni: (a) problemi di qualità come colori saturi e il problema di Janus; (b) una diversità estremamente bassa rispetto alla sintesi di immagini guidata da testo. In questo articolo, dimostriamo che il conflitto tra il processo di ottimizzazione del NeRF e il campionamento uniforme dei passaggi temporali nella distillazione del punteggio è la causa principale di queste limitazioni. Per risolvere questo conflitto, proponiamo di dare priorità al campionamento dei passaggi temporali utilizzando funzioni monotonicamente non crescenti, allineando così l'ottimizzazione del NeRF con il processo di campionamento del modello di diffusione. Esperimenti estesi dimostrano che questa semplice riprogettazione migliora significativamente la creazione di contenuti 3D a partire da testo, con una qualità e una diversità maggiori.

Modifica continua del layout di singole immagini con modelli di diffusione
Continuous Layout Editing of Single Images with Diffusion Models

Jun 22

ByZhiyuan Zhang, Zhitong Huang, Jing Liao

I recenti progressi nei modelli di diffusione su larga scala per la generazione di immagini da testo hanno abilitato numerose applicazioni nel campo dell'editing delle immagini. Tuttavia, nessuno di questi metodi è stato in grado di modificare il layout di singole immagini esistenti. Per colmare questa lacuna, proponiamo il primo framework per l'editing del layout di una singola immagine preservandone le proprietà visive, consentendo così un editing continuo su un'unica immagine. Il nostro approccio si basa su due moduli chiave. Innanzitutto, per preservare le caratteristiche di più oggetti all'interno di un'immagine, separiamo i concetti dei diversi oggetti e li incorporiamo in token testuali separati utilizzando un metodo innovativo chiamato inversione testuale mascherata. Successivamente, proponiamo un metodo di ottimizzazione senza addestramento per controllare il layout in un modello di diffusione pre-addestrato, che ci permette di rigenerare immagini con concetti appresi e allinearle a layout specificati dall'utente. Come primo framework in grado di modificare il layout di immagini esistenti, dimostriamo che il nostro metodo è efficace e supera altre baseline adattate per supportare questo compito. Il nostro codice sarà liberamente disponibile per uso pubblico dopo l'accettazione.

Opportunità e Rischi dei Modelli Linguistici di Grande Dimensione per la Deliberazione Scalabile con Polis
Opportunities and Risks of LLMs for Scalable Deliberation with Polis

Jun 20

ByChristopher T. Small, Ivan Vendrov, Esin Durmus, Hadjar Homaei, Elizabeth Barry, Julien Cornebise, Ted Suzman, Deep Ganguli, Colin Megill

Polis è una piattaforma che sfrutta l'intelligenza artificiale per ampliare i processi deliberativi. In questo articolo, esploriamo le opportunità e i rischi associati all'applicazione dei Modelli Linguistici di Grande Scala (LLM) alle sfide legate alla facilitazione, moderazione e sintesi dei risultati delle interazioni su Polis. In particolare, dimostriamo attraverso esperimenti pilota condotti con Claude di Anthropic che gli LLM possono effettivamente potenziare l'intelligenza umana per gestire in modo più efficiente le conversazioni su Polis. In particolare, scopriamo che le capacità di sintesi abilitano metodi categoricamente nuovi con un enorme potenziale per coinvolgere il pubblico in esercizi di creazione collettiva di significato. E, in modo significativo, le limitazioni contestuali degli LLM hanno un impatto rilevante sull'approfondimento e sulla qualità di questi risultati. Tuttavia, queste opportunità comportano anche dei rischi. Discutiamo alcuni di questi rischi, nonché i principi e le tecniche per caratterizzarli e mitigarli, e le implicazioni per altri sistemi deliberativi o politici che potrebbero impiegare gli LLM. Infine, concludiamo con diverse direzioni future di ricerca aperte per potenziare strumenti come Polis con gli LLM.

EquiformerV2: Trasformatore Equivariante Migliorato per il Ridimensionamento a Rappresentazioni di Grado Superiore
EquiformerV2: Improved Equivariant Transformer for Scaling to Higher-Degree Representations

Jun 21

ByYi-Lun Liao, Brandon Wood, Abhishek Das, Tess Smidt

I Transformer equivarianti come Equiformer hanno dimostrato l'efficacia dell'applicazione dei Transformer al dominio dei sistemi atomistici 3D. Tuttavia, sono ancora limitati a piccoli gradi di rappresentazioni equivarianti a causa della loro complessità computazionale. In questo articolo, indaghiamo se queste architetture possano scalare bene a gradi più elevati. Partendo da Equiformer, sostituiamo prima le convoluzioni SO(3) con convoluzioni eSCN per incorporare in modo efficiente tensori di grado superiore. Poi, per sfruttare meglio la potenza dei gradi più elevati, proponiamo tre miglioramenti architetturali: la rinormalizzazione dell'attenzione, l'attivazione separabile S^2 e la normalizzazione separabile a strati. Mettendo tutto insieme, proponiamo EquiformerV2, che supera i precedenti metodi all'avanguardia sul dataset su larga scala OC20 fino al 12% sulle forze, al 4% sulle energie, offre migliori compromessi velocità-precisione e una riduzione di 2 volte nei calcoli DFT necessari per calcolare le energie di adsorbimento.

Da modelli di parole a modelli del mondo: tradurre dal linguaggio naturale al linguaggio probabilistico del pensiero
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Jun 22

ByLionel Wong, Gabriel Grand, Alexander K. Lew, Noah D. Goodman, Vikash K. Mansinghka, Jacob Andreas, Joshua B. Tenenbaum