Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo articolo presenta l'architettura Block Transformer, che adotta un modellamento gerarchico globale-locale per i transformer autoregressivi al fine di mitigare i colli di bottiglia nell'inferenza dovuti al self-attention. Per applicare il self-attention, la cache chiave-valore (KV) di tutte le sequenze precedenti deve essere recuperata dalla memoria ad ogni passo di decodifica. Di conseguenza, questo input/output della cache KV diventa un significativo collo di bottiglia nell'inferenza in batch. Notiamo che questi costi derivano dall'applicazione del self-attention sul contesto globale, pertanto isoliamo i costosi colli di bottiglia del modellamento globale nei livelli inferiori e applichiamo un rapido modellamento locale nei livelli superiori. Per mitigare i costi rimanenti nei livelli inferiori, aggregiamo i token di input in blocchi di dimensione fissa e poi applichiamo il self-attention a questo livello grossolano. Le informazioni contestuali vengono aggregate in un singolo embedding per consentire ai livelli superiori di decodificare il prossimo blocco di token, senza attenzione globale. Liberi dai colli di bottiglia dell'attenzione globale, i livelli superiori possono sfruttare appieno l'hardware di calcolo per massimizzare la velocità di inferenza. Sfruttando moduli globali e locali, l'architettura Block Transformer dimostra un miglioramento di 10-20 volte nella velocità di inferenza rispetto ai transformer standard con una perplessità equivalente. Il nostro lavoro introduce un nuovo approccio per ottimizzare l'inferenza dei modelli linguistici attraverso un'applicazione innovativa del modellamento globale-locale. Il codice è disponibile all'indirizzo https://github.com/itsnamgyu/block-transformer.
Il rapido sviluppo di Modelli Linguistici Multimodali di Grande Scala (MLLMs) come GPT-4V ha segnato un passo significativo verso l'intelligenza artificiale generale. I metodi esistenti si concentrano principalmente sull'allineamento degli encoder visivi con i LLM attraverso il fine-tuning supervisionato (SFT) per dotare i LLM di abilità multimodali, facendo sì che la capacità intrinseca degli MLLM di reagire a più lingue si deteriori progressivamente con l'avanzare del processo di addestramento. Empiricamente, abbiamo riscontrato che i dataset SFT sbilanciati, composti principalmente da coppie immagine-testo centrate sull'inglese, portano a una riduzione significativa delle prestazioni nelle lingue non inglesi. Ciò è dovuto al mancato allineamento dell'encoder visivo e del LLM con i token multilingue durante il processo SFT. In questo articolo, introduciamo Parrot, un metodo innovativo che utilizza la guida testuale per guidare l'allineamento dei token visivi a livello linguistico. Parrot condiziona i token visivi su input linguistici diversi e utilizza il Mixture-of-Experts (MoE) per promuovere l'allineamento dei token multilingue. Nello specifico, per migliorare l'allineamento dei token visivi non inglesi, calcoliamo l'attenzione incrociata utilizzando le caratteristiche visive iniziali e gli embedding testuali, il cui risultato viene poi inserito nel router MoE per selezionare gli esperti più rilevanti. Gli esperti selezionati convertono successivamente i token visivi iniziali in token visivi specifici per la lingua. Inoltre, considerando l'attuale mancanza di benchmark per valutare le capacità multilingue nel campo, abbiamo raccolto e reso disponibile un Massive Multilingual Multimodal Benchmark che include 6 lingue, 15 categorie e 12.000 domande, denominato MMMB. Il nostro metodo non solo dimostra prestazioni all'avanguardia su MMBench multilingue e MMMB, ma eccelle anche in un'ampia gamma di task multimodali. Sia il codice sorgente che il dataset di addestramento di Parrot saranno resi pubblicamente disponibili.
Le attività operative sui dispositivi mobili stanno diventando sempre più uno scenario popolare per le applicazioni multi-modali dell'IA. Gli attuali Modelli Linguistici Multi-modali di Grande Scala (MLLMs), limitati dai loro dati di addestramento, non possiedono la capacità di funzionare efficacemente come assistenti operativi. Al contrario, gli agenti basati su MLLM, che potenziano le proprie capacità attraverso l'invocazione di strumenti, stanno gradualmente venendo applicati a questo scenario. Tuttavia, le due principali sfide di navigazione nelle attività operative sui dispositivi mobili, la navigazione del progresso del compito e la navigazione del contenuto in primo piano, risultano significativamente complicate nell'architettura a singolo agente dei lavori esistenti. Ciò è dovuto alle sequenze di token eccessivamente lunghe e al formato intervallato di dati testo-immagine, che limitano le prestazioni. Per affrontare efficacemente queste sfide di navigazione, proponiamo Mobile-Agent-v2, un'architettura multi-agente per l'assistenza nelle operazioni sui dispositivi mobili. L'architettura comprende tre agenti: agente di pianificazione, agente decisionale e agente di riflessione. L'agente di pianificazione genera il progresso del compito, rendendo più efficiente la navigazione delle operazioni storiche. Per mantenere il contenuto in primo piano, progettiamo un'unità di memoria che si aggiorna con il progresso del compito. Inoltre, per correggere le operazioni errate, l'agente di riflessione osserva i risultati di ciascuna operazione e gestisce eventuali errori di conseguenza. I risultati sperimentali indicano che Mobile-Agent-v2 raggiunge un miglioramento superiore al 30% nel completamento dei compiti rispetto all'architettura a singolo agente di Mobile-Agent. Il codice è open-source all'indirizzo https://github.com/X-PLUG/MobileAgent.
I metodi esistenti per la creazione di modelli 3D da una singola immagine tipicamente coinvolgono un processo in due fasi: prima si generano immagini multi-vista, e poi si utilizzano queste immagini per la ricostruzione 3D. Tuttavia, l'addestramento separato di queste due fasi porta a un significativo bias nei dati durante la fase di inferenza, influenzando così la qualità dei risultati ricostruiti. Introduciamo un framework unificato per la generazione 3D, denominato Ouroboros3D, che integra la generazione di immagini multi-vista basata su diffusione e la ricostruzione 3D in un processo di diffusione ricorsivo. Nel nostro framework, questi due moduli sono addestrati congiuntamente attraverso un meccanismo di auto-condizionamento, permettendo loro di adattarsi reciprocamente alle rispettive caratteristiche per un'inferenza robusta. Durante il processo di denoising multi-vista, il modello di diffusione multi-vista utilizza le mappe 3D-aware renderizzate dal modulo di ricostruzione al passo temporale precedente come condizioni aggiuntive. Il framework di diffusione ricorsiva con feedback 3D-aware unifica l'intero processo e migliora la coerenza geometrica. Gli esperimenti dimostrano che il nostro framework supera la separazione di queste due fasi e i metodi esistenti che le combinano nella fase di inferenza. Pagina del progetto: https://costwen.github.io/Ouroboros3D/
I Transformer sono rapidamente diventati la scelta preferita per la classificazione audio, superando i metodi basati su CNN. Tuttavia, gli Audio Spectrogram Transformer (AST) presentano una scalabilità quadratica a causa del meccanismo di self-attention. L'eliminazione di questo costo quadratico della self-attention rappresenta una direzione promettente. Recentemente, i modelli a spazio di stato (SSM), come Mamba, hanno dimostrato potenziale in questo ambito per compiti di linguaggio e visione. In questo studio, esploriamo se la dipendenza dalla self-attention sia necessaria per i compiti di classificazione audio. Introducendo Audio Mamba (AuM), il primo modello per la classificazione audio basato esclusivamente su SSM e privo di self-attention, miriamo a rispondere a questa domanda. Valutiamo AuM su vari dataset audio - comprendenti sei benchmark diversi - dove ottiene prestazioni comparabili o superiori rispetto a un consolidato modello AST.
La generazione del layout è la chiave di volta per raggiungere il design grafico automatizzato, richiedendo la disposizione della posizione e delle dimensioni di vari elementi di design multimodali in modo visivamente piacevole e conforme ai vincoli. Gli approcci precedenti sono risultati o inefficienti per applicazioni su larga scala o carenti in flessibilità per soddisfare requisiti di design variabili. La nostra ricerca introduce un framework unificato per la generazione automatizzata di layout grafici, sfruttando il modello di linguaggio multimodale su larga scala (MLLM) per adattarsi a diverse attività di design. Al contrario, il nostro metodo basato sui dati utilizza testo strutturato (formato JSON) e l'ottimizzazione delle istruzioni visive per generare layout sotto specifici vincoli visivi e testuali, incluse specifiche in linguaggio naturale definite dall'utente. Abbiamo condotto esperimenti estesi e raggiunto prestazioni all'avanguardia (SOTA) su benchmark pubblici per la generazione di layout multimodali, dimostrando l'efficacia del nostro metodo. Inoltre, riconoscendo le limitazioni dei dataset esistenti nel catturare la complessità dei design grafici del mondo reale, proponiamo due nuovi dataset per compiti molto più impegnativi (generazione vincolata dall'utente e poster complessi), validando ulteriormente l'utilità del nostro modello in contesti reali. Contrassegnato dalla sua superiore accessibilità e adattabilità, questo approccio automatizza ulteriormente i compiti di design grafico su larga scala. Il codice e i dataset saranno pubblicamente disponibili su https://github.com/posterllava/PosterLLaVA.
I lavori precedenti hanno dimostrato la capacità di sintesi vocale zero-shot utilizzando un modello linguistico generativo su token audio ottenuti tramite un codec neurale. Tuttavia, adattarli a scenari a bassa latenza rimane una sfida. In questo articolo, presentiamo LiveSpeech - un approccio basato su un modello linguistico completamente autoregressivo per la sintesi vocale zero-shot, che consente lo streaming a bassa latenza dell'audio generato. Per consentire la previsione di più token in un singolo passaggio di decodifica, proponiamo (1) l'uso di pesi di perdita adattivi per i codebook che considerano il contributo di ciascun codebook in ogni frame e si concentrano sugli esempi più difficili, e (2) il raggruppamento dei codebook e l'elaborazione parallela dei gruppi. Gli esperimenti dimostrano che i nostri modelli proposti raggiungono risultati competitivi rispetto ai migliori modelli di riferimento in termini di accuratezza del contenuto, somiglianza del parlante, qualità audio e velocità di inferenza, risultando al contempo adatti per applicazioni di streaming a bassa latenza.
I significativi progressi nei modelli di diffusione video hanno portato a sostanziali avanzamenti nel campo della sintesi da testo a video (T2V). Tuttavia, i modelli esistenti di sintesi T2V faticano a generare accuratamente dinamiche di movimento complesse, portando a una riduzione del realismo dei video. Una possibile soluzione è raccogliere una grande quantità di dati e addestrare il modello su di essi, ma ciò sarebbe estremamente costoso. Per alleviare questo problema, in questo articolo, riformuliamo il tipico processo di generazione T2V come una pipeline di generazione basata sulla ricerca. Invece di aumentare le dimensioni dell'addestramento del modello, utilizziamo video esistenti come database di priorità di movimento. Nello specifico, dividiamo il processo di generazione T2V in due passaggi: (i) Per un dato input di prompt, cerchiamo nei dataset esistenti di testo-video per trovare video con etichette di testo che corrispondano strettamente ai movimenti del prompt. Proponiamo un algoritmo di ricerca personalizzato che enfatizza le caratteristiche del movimento degli oggetti. (ii) I video recuperati vengono elaborati e distillati in priorità di movimento per affinare un modello T2V di base pre-addestrato, seguito dalla generazione dei video desiderati utilizzando il prompt di input. Utilizzando le priorità ottenute dai video ricercati, miglioriamo il realismo del movimento dei video generati. Tutte le operazioni possono essere completate su una singola GPU NVIDIA RTX 4090. Validiamo il nostro metodo rispetto ai modelli T2V all'avanguardia su diversi input di prompt. Il codice sarà reso pubblico.
L'apprendimento per rinforzo basato sul feedback umano (RLHF) è stato cruciale per il recente successo dei modelli linguistici di grandi dimensioni (LLM), tuttavia si tratta spesso di un processo complesso e fragile. Nel classico framework RLHF, un modello di ricompensa viene inizialmente addestrato per rappresentare le preferenze umane, che viene poi utilizzato da un algoritmo di apprendimento per rinforzo (RL) online per ottimizzare l'LLM. Un problema rilevante di tali metodi è l'over-ottimizzazione o il "hacking" della ricompensa, in cui le prestazioni misurate dal modello di ricompensa proxy appreso aumentano, ma la qualità effettiva si stabilizza o addirittura peggiora. Algoritmi di Allineamento Diretto (DAA) come l'ottimizzazione diretta delle preferenze sono emersi come alternative alla pipeline classica RLHF, aggirando la fase di modellazione della ricompensa. Tuttavia, sebbene i DAA non utilizzino un modello di ricompensa proxy separato, spesso peggiorano comunque a causa dell'over-ottimizzazione. Sebbene il fenomeno del cosiddetto "reward hacking" non sia ben definito per i DAA, osserviamo comunque tendenze simili: con budget KL più elevati, gli algoritmi DAA mostrano schemi di degrado simili alle loro controparti classiche RLHF. In particolare, scopriamo che i metodi DAA peggiorano non solo su un'ampia gamma di budget KL, ma spesso anche prima del completamento di una singola epoca del dataset. Attraverso un'ampia sperimentazione empirica, questo lavoro formula e formalizza il problema dell'over-ottimizzazione o del "hacking" della ricompensa per i DAA e ne esplora le conseguenze su obiettivi, regimi di addestramento e scale di modelli.
I modelli linguistici su larga scala (LLM) hanno ottenuto un enorme successo in compiti come la comprensione di dialoghi complessi, il ragionamento e la codifica grazie alle loro capacità emergenti. Queste capacità emergenti sono state estese con la multimodalità per includere funzionalità relative a immagini, audio e video. I sistemi di raccomandazione, d'altra parte, sono stati fondamentali per le esigenze di ricerca di informazioni e scoperta di elementi. Recentemente, ci sono stati tentativi di applicare gli LLM per le raccomandazioni. Una difficoltà degli attuali tentativi è che l'LLM sottostante di solito non è addestrato sui dati del sistema di raccomandazione, che contengono principalmente segnali di interazione dell'utente e spesso non sono pubblicamente disponibili. Un'altra difficoltà è che i segnali di interazione dell'utente spesso presentano un pattern diverso rispetto al testo in linguaggio naturale, e attualmente non è chiaro se il setup di addestramento degli LLM possa apprendere conoscenze più complesse dai segnali di interazione rispetto ai metodi tradizionali dei sistemi di raccomandazione. Infine, è difficile addestrare più LLM per diversi casi d'uso e mantenere le capacità linguistiche e di ragionamento originali quando si apprende dai dati del sistema di raccomandazione. Per affrontare queste tre limitazioni, proponiamo un Modello Linguistico-Item (ILM), composto da un codificatore di item per produrre rappresentazioni di item allineate al testo che codificano i segnali di interazione dell'utente, e un LLM congelato che può comprendere tali rappresentazioni di item preservando le conoscenze pre-addestrate. Condividiamo esperimenti estesi che dimostrano sia l'importanza dell'allineamento linguistico sia della conoscenza delle interazioni dell'utente nel codificatore di item.
Presentiamo Xmodel-LM, un modello linguistico compatto ed efficiente da 1,1 miliardi di parametri pre-addestrato su oltre 2 trilioni di token. Addestrato sul nostro dataset auto-costruito (Xdata), che bilancia corpora in cinese e inglese in base all'ottimizzazione per task downstream, Xmodel-LM dimostra prestazioni notevoli nonostante le sue dimensioni ridotte. In particolare, supera i modelli linguistici open-source esistenti di scala simile. I nostri checkpoint del modello e il codice sono accessibili pubblicamente su GitHub all'indirizzo https://github.com/XiaoduoAILab/XmodelLM.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità impressionanti in vari compiti, tuttavia le loro dimensioni parametriche estese ne limitano l'applicabilità in contesti con risorse limitate. La distillazione della conoscenza (KD) offre una soluzione praticabile trasferendo l'esperienza da modelli insegnanti di grandi dimensioni a modelli studenti compatti. Tuttavia, le tecniche tradizionali di KD affrontano sfide specifiche quando applicate agli LLM, tra cui l'accesso limitato agli output degli LLM, significativi divari di capacità tra insegnante e studente, e il problema ereditato della scorretta calibrazione. In questo lavoro, presentiamo PLaD, un nuovo framework di distillazione degli LLM basato sulle preferenze. PLaD sfrutta la discrepanza di capacità tra insegnante e studente per generare coppie di pseudo-preferenze in cui gli output dell'insegnante sono preferiti rispetto a quelli dello studente. Successivamente, PLaD utilizza una funzione di perdita basata sul ranking per ri-calibrare la stima della probabilità di sequenza dello studente, orientando così l'attenzione dello studente verso la comprensione della qualità relativa degli output invece di limitarsi a imitare l'insegnante. PLaD evita la necessità di accedere agli stati interni dell'LLM insegnante, affronta le limitazioni di espressività dello studente e mitiga il problema della scorretta calibrazione dello studente. Attraverso esperimenti estesi su due compiti di generazione di sequenze e con vari LLM, dimostriamo l'efficacia del nostro framework PLaD proposto.