HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

8 papers found

Oltre le leggi di scala: comprendere le prestazioni dei Transformer con la memoria associativa
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

May 14

ByXueyan Niu, Bo Bai, Lei Deng, Wei Han

Aumentare le dimensioni di un modello Transformer non sempre porta a un miglioramento delle prestazioni. Questo fenomeno non può essere spiegato dalle leggi di scala empiriche. Inoltre, una migliore capacità di generalizzazione si verifica quando il modello memorizza i campioni di addestramento. Presentiamo un quadro teorico che getta luce sul processo di memorizzazione e sulle dinamiche delle prestazioni dei modelli linguistici basati su Transformer. Modelliamo il comportamento dei Transformer con memorie associative utilizzando reti di Hopfield, in modo che ogni blocco del Transformer conduca effettivamente una ricerca approssimata del vicino più prossimo. Sulla base di ciò, progettiamo una funzione di energia analoga a quella nella moderna rete di Hopfield continua, che fornisce una spiegazione approfondita del meccanismo di attenzione. Utilizzando la tecnica di maggiorazione-minimizzazione, costruiamo una funzione di energia globale che cattura l'architettura stratificata del Transformer. In condizioni specifiche, dimostriamo che la perdita di entropia incrociata minima raggiungibile è limitata inferiormente da una costante approssimativamente uguale a 1. Sosteniamo i nostri risultati teorici conducendo esperimenti con GPT-2 su varie dimensioni dei dati, nonché addestrando Transformer standard su un dataset di 2M token.

Coin3D: Generazione Controllabile e Interattiva di Asset 3D con Condizionamento Guidato da Proxy
Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning

May 13

ByWenqi Dong, Bangbang Yang, Lin Ma, Xiao Liu, Liyuan Cui, Hujun Bao, Yuewen Ma, Zhaopeng Cui

Noi esseri umani aspiriamo a creare contenuti multimediali che siano sia liberamente voluti che facilmente controllabili. Grazie allo sviluppo significativo delle tecniche generative, ora possiamo facilmente utilizzare metodi di diffusione 2D per sintetizzare immagini controllate da schizzi grezzi o pose umane designate, e persino modificare/rigenerare progressivamente regioni locali con inpainting mascherato. Tuttavia, flussi di lavoro simili nei compiti di modellazione 3D sono ancora indisponibili a causa della mancanza di controllabilità ed efficienza nella generazione 3D. In questo articolo, presentiamo un nuovo framework di modellazione di asset 3D controllabile e interattivo, denominato Coin3D. Coin3D consente agli utenti di controllare la generazione 3D utilizzando un proxy geometrico approssimativo assemblato da forme di base, e introduce un flusso di lavoro di generazione interattivo per supportare la modifica senza soluzione di continuità di parti locali, fornendo al contempo un'anteprima reattiva degli oggetti 3D in pochi secondi. A tal fine, sviluppiamo diverse tecniche, tra cui l'adattatore 3D che applica il controllo volumetrico della forma approssimativa al modello di diffusione, la strategia di modifica limitata dal proxy per una modifica precisa delle parti, la cache volumetrica progressiva per supportare un'anteprima reattiva, e il volume-SDS per garantire una ricostruzione mesh coerente. Esperimenti estesi di generazione e modifica interattiva su diversi proxy di forma dimostrano che il nostro metodo raggiunge una controllabilità e flessibilità superiori nel compito di generazione di asset 3D.

Hunyuan-DiT: Un Potente Trasformatore di Diffusione Multi-Risoluzione con Comprensione Fine-Granularità del Cinese
Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

May 14

ByZhimin Li, Jianwei Zhang, Qin Lin, Jiangfeng Xiong, Yanxin Long, Xinchi Deng, Yingfang Zhang, Xingchao Liu, Minbin Huang, Zedong Xiao, Dayou Chen, Jiajun He, Jiahao Li, Wenyue Li, Chen Zhang, Rongwei Quan, Jianxiang Lu, Jiabin Huang, Xiaoyan Yuan, Xiaoxiao Zheng, Yixuan Li, Jihong Zhang, Chao Zhang, Meng Chen, Jie Liu, Zheng Fang, Weiyan Wang, Jinbao Xue, Yangyu Tao, Jianchen Zhu, Kai Liu, Sihuan Lin, Yifu Sun, Yun Li, Dongdong Wang, Mingtao Chen, Zhichao Hu, Xiao Xiao, Yan Chen, Yuhong Liu, Wei Liu, Di Wang, Yong Yang, Jie Jiang, Qinglin Lu

Presentiamo Hunyuan-DiT, un trasformatore di diffusione da testo a immagine con una comprensione fine sia dell'inglese che del cinese. Per costruire Hunyuan-DiT, abbiamo progettato con cura la struttura del trasformatore, l'encoder di testo e la codifica posizionale. Abbiamo inoltre sviluppato da zero un'intera pipeline di dati per aggiornare e valutare i dati per l'ottimizzazione iterativa del modello. Per una comprensione fine del linguaggio, abbiamo addestrato un Modello Linguistico Multimodale di Grande Scala per affinare le descrizioni delle immagini. Infine, Hunyuan-DiT è in grado di eseguire dialoghi multimodali multi-turn con gli utenti, generando e perfezionando le immagini in base al contesto. Attraverso il nostro protocollo di valutazione umana olistico con più di 50 valutatori umani professionisti, Hunyuan-DiT stabilisce un nuovo stato dell'arte nella generazione di immagini da testo cinese rispetto ad altri modelli open-source. Il codice e i modelli preaddestrati sono disponibili pubblicamente su github.com/Tencent/HunyuanDiT.

SpeechVerse: Un Modello Linguistico Audio Scalabile e Generalizzabile su Larga Scala
SpeechVerse: A Large-scale Generalizable Audio Language Model

May 14

ByNilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff

I grandi modelli linguistici (LLM) hanno dimostrato una straordinaria capacità nell'eseguire compiti che richiedono una comprensione semantica delle istruzioni in linguaggio naturale. Recentemente, molti lavori hanno ulteriormente ampliato questa capacità per percepire input multimodali audio e testuali, ma le loro funzionalità sono spesso limitate a specifici compiti ottimizzati, come il riconoscimento vocale automatico e la traduzione. Abbiamo quindi sviluppato SpeechVerse, un robusto framework di formazione multi-task e apprendimento curriculare che combina modelli di base pre-addestrati per il parlato e il testo attraverso un piccolo insieme di parametri apprendibili, mantenendo i modelli pre-addestrati congelati durante la formazione. I modelli vengono ottimizzati per le istruzioni utilizzando rappresentazioni latenti continue estratte dal modello di base per il parlato, per ottenere prestazioni ottimali zero-shot su una vasta gamma di compiti di elaborazione del parlato utilizzando istruzioni in linguaggio naturale. Eseguiamo un benchmarking estensivo che include il confronto delle prestazioni del nostro modello con i tradizionali baseline su diversi dataset e compiti. Inoltre, valutiamo la capacità del modello di seguire istruzioni generalizzate testandolo su dataset fuori dominio, prompt nuovi e compiti mai visti. I nostri esperimenti empirici rivelano che il nostro modello multi-task SpeechVerse è addirittura superiore ai tradizionali baseline specifici per compito in 9 su 11 dei compiti analizzati.

Comprendere il divario di prestazione tra gli algoritmi di allineamento online e offline
Understanding the performance gap between online and offline alignment algorithms

May 14

ByYunhao Tang, Daniel Zhaohan Guo, Zeyu Zheng, Daniele Calandriello, Yuan Cao, Eugene Tarassov, Rémi Munos, Bernardo Ávila Pires, Michal Valko, Yong Cheng, Will Dabney

L'apprendimento per rinforzo con feedback umano (RLHF) rappresenta il framework canonico per l'allineamento dei modelli linguistici di grandi dimensioni. Tuttavia, la crescente popolarità degli algoritmi di allineamento offline mette in discussione la necessità del campionamento on-policy nell'RLHF. Nel contesto dell'ottimizzazione eccessiva della ricompensa, iniziamo con una serie preliminare di esperimenti che dimostrano il chiaro vantaggio dei metodi online rispetto a quelli offline. Questo ci spinge a indagare le cause della discrepanza nelle prestazioni attraverso una serie di ablazioni sperimentali accuratamente progettate. Dimostriamo empiricamente che ipotesi come la copertura dei dati offline e la qualità dei dati di per sé non possono spiegare in modo convincente la differenza di prestazioni. Troviamo inoltre che, sebbene gli algoritmi offline addestrino la politica a eccellere nella classificazione a coppie, risultano peggiori nella generazione; nel frattempo, le politiche addestrate dagli algoritmi online sono efficaci nella generazione ma meno performanti nella classificazione a coppie. Ciò suggerisce un'interazione unica tra capacità discriminative e generative, fortemente influenzata dal processo di campionamento. Infine, osserviamo che la discrepanza nelle prestazioni persiste sia per le funzioni di perdita contrastive che non contrastive e sembra non essere risolta semplicemente aumentando la scala delle reti delle politiche. Nel complesso, il nostro studio evidenzia il ruolo cruciale del campionamento on-policy nell'allineamento dell'IA e suggerisce alcune sfide fondamentali degli algoritmi di allineamento offline.

Generazione Composizionale di Immagini da Testo con Rappresentazioni Dense di Blob
Compositional Text-to-Image Generation with Dense Blob Representations

May 14

ByWeili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat

I modelli esistenti di generazione di immagini da testo faticano a seguire prompt testuali complessi, evidenziando la necessità di input aggiuntivi per un migliore controllo. In questo lavoro, proponiamo di scomporre una scena in primitive visive - denominate rappresentazioni dense a blob - che contengono dettagli granulari della scena pur essendo modulari, interpretabili dall'uomo e facili da costruire. Basandoci sulle rappresentazioni a blob, sviluppiamo un modello di diffusione testo-immagine ancorato ai blob, denominato BlobGEN, per la generazione composizionale. In particolare, introduciamo un nuovo modulo di cross-attention mascherato per separare la fusione tra rappresentazioni a blob e caratteristiche visive. Per sfruttare la composizionalità dei grandi modelli linguistici (LLM), introduciamo un nuovo approccio di apprendimento in-context per generare rappresentazioni a blob da prompt testuali. I nostri ampi esperimenti dimostrano che BlobGEN raggiunge una qualità di generazione zero-shot superiore e un migliore controllo guidato dal layout su MS-COCO. Quando potenziato dagli LLM, il nostro metodo mostra una correttezza numerica e spaziale superiore su benchmark di generazione composizionale di immagini. Pagina del progetto: https://blobgen-2d.github.io.

Non c'è tempo da perdere: comprimere il tempo nei canali per la comprensione dei video mobili
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding

May 14

ByYingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang

Le architetture attuali per la comprensione video si basano principalmente su blocchi convoluzionali 3D o convoluzioni 2D con operazioni aggiuntive per la modellazione temporale. Tuttavia, questi metodi considerano l'asse temporale come una dimensione separata della sequenza video, il che richiede un elevato budget computazionale e di memoria, limitando così il loro utilizzo su dispositivi mobili. In questo articolo, proponiamo di comprimere l'asse temporale di una sequenza video nella dimensione dei canali e presentiamo una rete leggera per il riconoscimento video, denominata SqueezeTime, per la comprensione video su dispositivi mobili. Per migliorare la capacità di modellazione temporale della rete proposta, abbiamo progettato un blocco di apprendimento canale-tempo (Channel-Time Learning, CTL) per catturare le dinamiche temporali della sequenza. Questo modulo ha due rami complementari, in cui un ramo è dedicato all'apprendimento dell'importanza temporale e un altro ramo, con capacità di ripristino della posizione temporale, è progettato per migliorare la capacità di modellazione degli oggetti inter-temporali. La rete SqueezeTime proposta è molto leggera e veloce, con elevate precisioni per la comprensione video su dispositivi mobili. Esperimenti estesi su vari benchmark di riconoscimento video e rilevamento di azioni, come Kinetics400, Kinetics600, HMDB51, AVA2.1 e THUMOS14, dimostrano la superiorità del nostro modello. Ad esempio, la nostra SqueezeTime raggiunge un aumento di precisione dell'1,2% e un guadagno di throughput GPU dell'80% su Kinetics400 rispetto ai metodi precedenti. I codici sono disponibili pubblicamente su https://github.com/xinghaochen/SqueezeTime e https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.

SpeechGuard: Esplorare la Robustezza Adversarial dei Modelli Linguistici Multimodali di Grande Scala
SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models

May 14

ByRaghuveer Peri, Sai Muralidhar Jayanthi, Srikanth Ronanki, Anshu Bhatia, Karel Mundnich, Saket Dingliwal, Nilaksh Das, Zejiang Hou, Goeric Huybrechts, Srikanth Vishnubhotla, Daniel Garcia-Romero, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff

I modelli integrati di linguaggio e parlato (SLM) in grado di seguire istruzioni vocali e generare risposte testuali pertinenti hanno guadagnato popolarità di recente. Tuttavia, la sicurezza e la robustezza di questi modelli rimangono in gran parte incerte. In questo lavoro, indaghiamo le potenziali vulnerabilità di tali modelli linguistici basati su istruzioni vocali agli attacchi avversari e al jailbreaking. Nello specifico, progettiamo algoritmi in grado di generare esempi avversari per effettuare jailbreaking degli SLM sia in contesti di attacco white-box che black-box senza il coinvolgimento umano. Inoltre, proponiamo contromisure per contrastare tali attacchi di jailbreaking. I nostri modelli, addestrati su dati di dialogo con istruzioni vocali, raggiungono prestazioni all'avanguardia nel task di risposta a domande vocali, ottenendo punteggi superiori all'80% sia nelle metriche di sicurezza che di utilità. Nonostante le misure di sicurezza, gli esperimenti sul jailbreaking dimostrano la vulnerabilità degli SLM alle perturbazioni avversarie e agli attacchi di trasferimento, con tassi di successo medio rispettivamente del 90% e del 10% quando valutati su un dataset di domande dannose accuratamente progettate, che coprono 12 diverse categorie di contenuti tossici. Tuttavia, dimostriamo che le nostre contromisure proposte riducono significativamente il tasso di successo degli attacchi.

Non c'è tempo da perdere: comprimere il tempo nei canali per la comprensione dei video mobili
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding

May 14

ByYingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang