Articoli di ricerca IA selezionati quotidianamente con traduzioni
Aumentare le dimensioni di un modello Transformer non sempre porta a un miglioramento delle prestazioni. Questo fenomeno non può essere spiegato dalle leggi di scala empiriche. Inoltre, una migliore capacità di generalizzazione si verifica quando il modello memorizza i campioni di addestramento. Presentiamo un quadro teorico che getta luce sul processo di memorizzazione e sulle dinamiche delle prestazioni dei modelli linguistici basati su Transformer. Modelliamo il comportamento dei Transformer con memorie associative utilizzando reti di Hopfield, in modo che ogni blocco del Transformer conduca effettivamente una ricerca approssimata del vicino più prossimo. Sulla base di ciò, progettiamo una funzione di energia analoga a quella nella moderna rete di Hopfield continua, che fornisce una spiegazione approfondita del meccanismo di attenzione. Utilizzando la tecnica di maggiorazione-minimizzazione, costruiamo una funzione di energia globale che cattura l'architettura stratificata del Transformer. In condizioni specifiche, dimostriamo che la perdita di entropia incrociata minima raggiungibile è limitata inferiormente da una costante approssimativamente uguale a 1. Sosteniamo i nostri risultati teorici conducendo esperimenti con GPT-2 su varie dimensioni dei dati, nonché addestrando Transformer standard su un dataset di 2M token.
Noi esseri umani aspiriamo a creare contenuti multimediali che siano sia liberamente voluti che facilmente controllabili. Grazie allo sviluppo significativo delle tecniche generative, ora possiamo facilmente utilizzare metodi di diffusione 2D per sintetizzare immagini controllate da schizzi grezzi o pose umane designate, e persino modificare/rigenerare progressivamente regioni locali con inpainting mascherato. Tuttavia, flussi di lavoro simili nei compiti di modellazione 3D sono ancora indisponibili a causa della mancanza di controllabilità ed efficienza nella generazione 3D. In questo articolo, presentiamo un nuovo framework di modellazione di asset 3D controllabile e interattivo, denominato Coin3D. Coin3D consente agli utenti di controllare la generazione 3D utilizzando un proxy geometrico approssimativo assemblato da forme di base, e introduce un flusso di lavoro di generazione interattivo per supportare la modifica senza soluzione di continuità di parti locali, fornendo al contempo un'anteprima reattiva degli oggetti 3D in pochi secondi. A tal fine, sviluppiamo diverse tecniche, tra cui l'adattatore 3D che applica il controllo volumetrico della forma approssimativa al modello di diffusione, la strategia di modifica limitata dal proxy per una modifica precisa delle parti, la cache volumetrica progressiva per supportare un'anteprima reattiva, e il volume-SDS per garantire una ricostruzione mesh coerente. Esperimenti estesi di generazione e modifica interattiva su diversi proxy di forma dimostrano che il nostro metodo raggiunge una controllabilità e flessibilità superiori nel compito di generazione di asset 3D.
Presentiamo Hunyuan-DiT, un trasformatore di diffusione da testo a immagine con una comprensione fine sia dell'inglese che del cinese. Per costruire Hunyuan-DiT, abbiamo progettato con cura la struttura del trasformatore, l'encoder di testo e la codifica posizionale. Abbiamo inoltre sviluppato da zero un'intera pipeline di dati per aggiornare e valutare i dati per l'ottimizzazione iterativa del modello. Per una comprensione fine del linguaggio, abbiamo addestrato un Modello Linguistico Multimodale di Grande Scala per affinare le descrizioni delle immagini. Infine, Hunyuan-DiT è in grado di eseguire dialoghi multimodali multi-turn con gli utenti, generando e perfezionando le immagini in base al contesto. Attraverso il nostro protocollo di valutazione umana olistico con più di 50 valutatori umani professionisti, Hunyuan-DiT stabilisce un nuovo stato dell'arte nella generazione di immagini da testo cinese rispetto ad altri modelli open-source. Il codice e i modelli preaddestrati sono disponibili pubblicamente su github.com/Tencent/HunyuanDiT.
I grandi modelli linguistici (LLM) hanno dimostrato una straordinaria capacità nell'eseguire compiti che richiedono una comprensione semantica delle istruzioni in linguaggio naturale. Recentemente, molti lavori hanno ulteriormente ampliato questa capacità per percepire input multimodali audio e testuali, ma le loro funzionalità sono spesso limitate a specifici compiti ottimizzati, come il riconoscimento vocale automatico e la traduzione. Abbiamo quindi sviluppato SpeechVerse, un robusto framework di formazione multi-task e apprendimento curriculare che combina modelli di base pre-addestrati per il parlato e il testo attraverso un piccolo insieme di parametri apprendibili, mantenendo i modelli pre-addestrati congelati durante la formazione. I modelli vengono ottimizzati per le istruzioni utilizzando rappresentazioni latenti continue estratte dal modello di base per il parlato, per ottenere prestazioni ottimali zero-shot su una vasta gamma di compiti di elaborazione del parlato utilizzando istruzioni in linguaggio naturale. Eseguiamo un benchmarking estensivo che include il confronto delle prestazioni del nostro modello con i tradizionali baseline su diversi dataset e compiti. Inoltre, valutiamo la capacità del modello di seguire istruzioni generalizzate testandolo su dataset fuori dominio, prompt nuovi e compiti mai visti. I nostri esperimenti empirici rivelano che il nostro modello multi-task SpeechVerse è addirittura superiore ai tradizionali baseline specifici per compito in 9 su 11 dei compiti analizzati.
L'apprendimento per rinforzo con feedback umano (RLHF) rappresenta il framework canonico per l'allineamento dei modelli linguistici di grandi dimensioni. Tuttavia, la crescente popolarità degli algoritmi di allineamento offline mette in discussione la necessità del campionamento on-policy nell'RLHF. Nel contesto dell'ottimizzazione eccessiva della ricompensa, iniziamo con una serie preliminare di esperimenti che dimostrano il chiaro vantaggio dei metodi online rispetto a quelli offline. Questo ci spinge a indagare le cause della discrepanza nelle prestazioni attraverso una serie di ablazioni sperimentali accuratamente progettate. Dimostriamo empiricamente che ipotesi come la copertura dei dati offline e la qualità dei dati di per sé non possono spiegare in modo convincente la differenza di prestazioni. Troviamo inoltre che, sebbene gli algoritmi offline addestrino la politica a eccellere nella classificazione a coppie, risultano peggiori nella generazione; nel frattempo, le politiche addestrate dagli algoritmi online sono efficaci nella generazione ma meno performanti nella classificazione a coppie. Ciò suggerisce un'interazione unica tra capacità discriminative e generative, fortemente influenzata dal processo di campionamento. Infine, osserviamo che la discrepanza nelle prestazioni persiste sia per le funzioni di perdita contrastive che non contrastive e sembra non essere risolta semplicemente aumentando la scala delle reti delle politiche. Nel complesso, il nostro studio evidenzia il ruolo cruciale del campionamento on-policy nell'allineamento dell'IA e suggerisce alcune sfide fondamentali degli algoritmi di allineamento offline.
I modelli esistenti di generazione di immagini da testo faticano a seguire prompt testuali complessi, evidenziando la necessità di input aggiuntivi per un migliore controllo. In questo lavoro, proponiamo di scomporre una scena in primitive visive - denominate rappresentazioni dense a blob - che contengono dettagli granulari della scena pur essendo modulari, interpretabili dall'uomo e facili da costruire. Basandoci sulle rappresentazioni a blob, sviluppiamo un modello di diffusione testo-immagine ancorato ai blob, denominato BlobGEN, per la generazione composizionale. In particolare, introduciamo un nuovo modulo di cross-attention mascherato per separare la fusione tra rappresentazioni a blob e caratteristiche visive. Per sfruttare la composizionalità dei grandi modelli linguistici (LLM), introduciamo un nuovo approccio di apprendimento in-context per generare rappresentazioni a blob da prompt testuali. I nostri ampi esperimenti dimostrano che BlobGEN raggiunge una qualità di generazione zero-shot superiore e un migliore controllo guidato dal layout su MS-COCO. Quando potenziato dagli LLM, il nostro metodo mostra una correttezza numerica e spaziale superiore su benchmark di generazione composizionale di immagini. Pagina del progetto: https://blobgen-2d.github.io.
Le architetture attuali per la comprensione video si basano principalmente su blocchi convoluzionali 3D o convoluzioni 2D con operazioni aggiuntive per la modellazione temporale. Tuttavia, questi metodi considerano l'asse temporale come una dimensione separata della sequenza video, il che richiede un elevato budget computazionale e di memoria, limitando così il loro utilizzo su dispositivi mobili. In questo articolo, proponiamo di comprimere l'asse temporale di una sequenza video nella dimensione dei canali e presentiamo una rete leggera per il riconoscimento video, denominata SqueezeTime, per la comprensione video su dispositivi mobili. Per migliorare la capacità di modellazione temporale della rete proposta, abbiamo progettato un blocco di apprendimento canale-tempo (Channel-Time Learning, CTL) per catturare le dinamiche temporali della sequenza. Questo modulo ha due rami complementari, in cui un ramo è dedicato all'apprendimento dell'importanza temporale e un altro ramo, con capacità di ripristino della posizione temporale, è progettato per migliorare la capacità di modellazione degli oggetti inter-temporali. La rete SqueezeTime proposta è molto leggera e veloce, con elevate precisioni per la comprensione video su dispositivi mobili. Esperimenti estesi su vari benchmark di riconoscimento video e rilevamento di azioni, come Kinetics400, Kinetics600, HMDB51, AVA2.1 e THUMOS14, dimostrano la superiorità del nostro modello. Ad esempio, la nostra SqueezeTime raggiunge un aumento di precisione dell'1,2% e un guadagno di throughput GPU dell'80% su Kinetics400 rispetto ai metodi precedenti. I codici sono disponibili pubblicamente su https://github.com/xinghaochen/SqueezeTime e https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
I modelli integrati di linguaggio e parlato (SLM) in grado di seguire istruzioni vocali e generare risposte testuali pertinenti hanno guadagnato popolarità di recente. Tuttavia, la sicurezza e la robustezza di questi modelli rimangono in gran parte incerte. In questo lavoro, indaghiamo le potenziali vulnerabilità di tali modelli linguistici basati su istruzioni vocali agli attacchi avversari e al jailbreaking. Nello specifico, progettiamo algoritmi in grado di generare esempi avversari per effettuare jailbreaking degli SLM sia in contesti di attacco white-box che black-box senza il coinvolgimento umano. Inoltre, proponiamo contromisure per contrastare tali attacchi di jailbreaking. I nostri modelli, addestrati su dati di dialogo con istruzioni vocali, raggiungono prestazioni all'avanguardia nel task di risposta a domande vocali, ottenendo punteggi superiori all'80% sia nelle metriche di sicurezza che di utilità. Nonostante le misure di sicurezza, gli esperimenti sul jailbreaking dimostrano la vulnerabilità degli SLM alle perturbazioni avversarie e agli attacchi di trasferimento, con tassi di successo medio rispettivamente del 90% e del 10% quando valutati su un dataset di domande dannose accuratamente progettate, che coprono 12 diverse categorie di contenuti tossici. Tuttavia, dimostriamo che le nostre contromisure proposte riducono significativamente il tasso di successo degli attacchi.