Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo Qwen2.5-1M, una serie di modelli che estendono la lunghezza del contesto a 1 milione di token. Rispetto alla versione precedente da 128K, la serie Qwen2.5-1M ha capacità di lungo contesto significativamente migliorate attraverso pre-training e post-training di lungo contesto. Tecniche chiave come la sintesi di dati lunghi, il pre-training progressivo e il fine-tuning supervisionato a più fasi vengono impiegate per potenziare efficacemente le prestazioni del lungo contesto riducendo i costi di addestramento. Per promuovere l'uso di modelli a lungo contesto tra un pubblico più ampio, presentiamo e rendiamo open-source il nostro framework di inferenza. Questo framework include un metodo di estrapolazione della lunghezza che può espandere le lunghezze del contesto del modello almeno di quattro volte, o anche di più, senza addestramento aggiuntivo. Per ridurre i costi di inferenza, implementiamo un metodo di attenzione sparso insieme all'ottimizzazione di riempimento chunked per scenari di distribuzione e un metodo di raffinamento della sparsetà per migliorare la precisione. Inoltre, dettagliamo le nostre ottimizzazioni nel motore di inferenza, inclusa l'ottimizzazione del kernel, il parallelismo della pipeline e l'ottimizzazione della pianificazione, che migliorano significativamente le prestazioni complessive dell'inferenza. Sfruttando il nostro framework di inferenza, i modelli Qwen2.5-1M ottengono un notevole aumento della velocità di riempimento di 3x a 7x in scenari con 1 milione di token di contesto. Questo framework fornisce una soluzione efficiente e potente per lo sviluppo di applicazioni che richiedono l'elaborazione di lungo contesto utilizzando modelli open-source. La serie Qwen2.5-1M include attualmente i modelli open-source Qwen2.5-7B-Instruct-1M e Qwen2.5-14B-Instruct-1M, nonché il modello Qwen2.5-Turbo accessibile tramite API. Le valutazioni mostrano che i modelli Qwen2.5-1M sono stati notevolmente migliorati nei compiti di lungo contesto senza compromettere le prestazioni nei scenari di breve contesto. In particolare, il modello Qwen2.5-14B-Instruct-1M supera significativamente GPT-4o-mini nei compiti di lungo contesto e supporta contesti otto volte più lunghi.
Introduciamo Baichuan-Omni-1.5, un modello omni-modale che non solo possiede capacità di comprensione omni-modale, ma fornisce anche capacità di generazione audio end-to-end. Per ottenere un'interazione fluida e di alta qualità attraverso le varie modalità senza compromettere le capacità di nessuna modalità, abbiamo dato priorità all'ottimizzazione di tre aspetti chiave. In primo luogo, abbiamo istituito un completo processo di pulizia e sintesi dati per i dati multimodali, ottenendo circa 500 miliardi di dati di alta qualità (testo, audio e visione). In secondo luogo, è stato progettato un audio-tokenizer (Baichuan-Audio-Tokenizer) per catturare informazioni semantiche e acustiche dall'audio, consentendo un'integrazione senza soluzione di continuità e una maggiore compatibilità con MLLM. Infine, abbiamo progettato una strategia di addestramento a più fasi che integra progressivamente l'allineamento multimodale e il fine-tuning multitask, garantendo una sinergia efficace tra tutte le modalità. Baichuan-Omni-1.5 supera i modelli contemporanei (inclusi GPT4o-mini e MiniCPM-o 2.6) in termini di capacità omni-modali complete. In particolare, ottiene risultati paragonabili ai modelli leader come Qwen2-VL-72B su vari benchmark medici multimodali.
Il Reinforcement Learning (RL) promette un quadro per la risoluzione quasi universale dei problemi. In pratica, però, gli algoritmi di RL sono spesso adattati a benchmark specifici, basandosi su iperparametri e scelte algoritmiche attentamente regolati. Recentemente, potenti metodi di RL basati su modelli hanno mostrato risultati generali impressionanti attraverso benchmark, ma a discapito di un aumento della complessità e di tempi di esecuzione lenti, limitandone la più ampia applicabilità. In questo articolo, cerchiamo di trovare un algoritmo unificante di RL profondo senza modello che possa affrontare una vasta classe di domini e impostazioni di problemi. Per raggiungere questo obiettivo, sfruttiamo rappresentazioni basate su modelli che approssimano linearmente la funzione di valore, approfittando degli obiettivi di attività più densi utilizzati dal RL basato su modelli evitando i costi associati alla pianificazione o alle traiettorie simulate. Valutiamo il nostro algoritmo, MR.Q, su una varietà di comuni benchmark di RL con un singolo set di iperparametri e mostriamo una prestazione competitiva rispetto a basi di confronto specifiche del dominio e generali, offrendo un passo concreto verso la costruzione di algoritmi di RL profondo senza modello di uso generale.
Come è noto, i modelli di attenzione ibridi quadratici e subquadratici nelle architetture multi-head hanno superato sia i modelli Transformer che quelli RNN lineari, con questi lavori che si concentrano principalmente sulla riduzione della complessità KV e sull'ottimizzazione dell'efficienza. Per ulteriori ricerche sull'espressività, presentiamo la nostra serie di modelli distillati da Qwen 2.5, basati sull'attenzione nativa pura RWKV-7, che mira a rendere gli RNN più espressivi e dimostra capacità di tracciamento dello stato oltre ai transformer. Lavoriamo con QRWK 32B basato sull'architettura RWKV-6, un altro approccio che riduce l'intero tempo di elaborazione della conoscenza a soli 8 ore utilizzando 16 GPU AMD MI300X, mantenendo le prestazioni di Qwen 2.5. Infatti, il processo di distillazione può utilizzare qualsiasi LLM, non solo Qwen, e consente il trasferimento di conoscenza da LLM più grandi a quelli più piccoli con meno token. Spiegheremo il processo dettagliato e condivideremo le nostre intuizioni sulla costruzione di modelli fondamentali più potenti. Si noti che si tratta di un lavoro in corso che verrà aggiornato continuamente. I checkpoint del modello e il codice sorgente sono disponibili su https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.
I recenti progressi nella generazione del linguaggio parlato sono stati guidati dai dataset di addestramento su larga scala. Tuttavia, i modelli attuali non riescono a catturare la spontaneità e la variabilità intrinseca nel linguaggio umano del mondo reale, a causa della loro dipendenza da dataset di audiolibri limitati a stili di lettura formale. Per colmare questa lacuna, presentiamo Emilia-Pipe, un pipeline di preprocessing open-source per estrarre dati di addestramento di alta qualità da preziosi ma poco esplorati dati in-the-wild che catturano il linguaggio umano spontaneo in contesti reali. Sfruttando Emilia-Pipe, costruiamo Emilia, il primo dataset multilingue per la generazione del linguaggio parlato derivato da dati di linguaggio spontaneo in-the-wild. Questo dataset comprende oltre 101.000 ore di linguaggio parlato in sei lingue: inglese, cinese, tedesco, francese, giapponese e coreano. Inoltre, espandiamo Emilia in Emilia-Large, un dataset che supera le 216.000 ore, diventando il più grande dataset open-source per la generazione del linguaggio parlato disponibile. Estesi esperimenti dimostrano che Emilia supera significativamente i tradizionali dataset di audiolibri nella generazione di linguaggio spontaneo e simile a quello umano, mostrando prestazioni superiori nella cattura di diversi timbri degli speaker e stili di parlato del linguaggio umano del mondo reale. Inoltre, questo lavoro sottolinea l'importanza di aumentare le dimensioni del dataset per far progredire la ricerca sulla generazione del linguaggio parlato e convalida l'efficacia di Emilia sia per la generazione del linguaggio parlato multilingue che crosslingua.
Presentiamo una nuova famiglia di reti ibride di visione mobile, chiamate iFormer, con un focus sull'ottimizzazione della latenza e dell'accuratezza nelle applicazioni mobili. iFormer integra efficacemente la rapida capacità di rappresentazione locale della convoluzione con l'efficiente capacità di modellazione globale dell'autorappresentazione. Le interazioni locali derivano dalla trasformazione di una rete convoluzionale standard, ovvero ConvNeXt, per progettare una rete mobile più leggera. La nostra nuova attenzione di modulazione mobile rimuove le operazioni ad alta intensità di memoria in MHA e utilizza un efficiente meccanismo di modulazione per potenziare la capacità dinamica di rappresentazione globale. Conduciamo esperimenti esaustivi che dimostrano che iFormer supera le reti leggere esistenti su varie attività. In particolare, iFormer raggiunge un'impressionante accuratezza Top-1 dell'80,4\% su ImageNet-1k con una latenza di soli 1,10 ms su un iPhone 13, superando il recentemente proposto MobileNetV4 sotto vincoli di latenza simili. Inoltre, il nostro metodo mostra significativi miglioramenti nelle attività derivate, incluse la rilevazione degli oggetti COCO, la segmentazione delle istanze e la segmentazione semantica ADE20k, mantenendo comunque una bassa latenza sui dispositivi mobili per input ad alta risoluzione in questi scenari.
L'aumento della capacità dei modelli linguistici si è dimostrato costantemente un approccio affidabile per migliorare le prestazioni e sbloccare nuove capacità. La capacità può essere principalmente definita da due dimensioni: il numero di parametri del modello e il calcolo per esempio. Sebbene l'aumento della scala coinvolga tipicamente entrambi, l'interazione precisa tra questi fattori e il loro contributo combinato alla capacità complessiva non è ancora completamente compresa. Esploriamo questa relazione nel contesto dei Mixture-of-Experts (MoE) sparsi, che consentono di aumentare il numero di parametri senza aumentare proporzionalmente le FLOPs per esempio. Indaghiamo come variare il livello di sparsità, cioè la frazione di parametri inattivi, influenzi le prestazioni del modello durante il pretraining e la valutazione downstream a pochi esempi. Riscontriamo che sotto vincoli diversi (ad esempio, dimensione dei parametri e calcolo totale di addestramento), esiste un livello ottimale di sparsità che migliora sia l'efficienza dell'addestramento che le prestazioni del modello. Questi risultati forniscono una migliore comprensione dell'impatto della sparsità nelle leggi di scala per i MoE e integrano i lavori esistenti in questo settore, offrendo spunti per progettare architetture più efficienti.
L'adattamento del calcolo al momento del test è un asse promettente per migliorare le capacità dei LLM. Tuttavia, il calcolo al momento del test può essere scalato in varie modalità e la combinazione efficace di diversi approcci rimane un'area attiva di ricerca. Qui, esploriamo questo problema nel contesto della risoluzione di problemi reali di GitHub dal dataset SWE-bench. Il nostro sistema, chiamato CodeMonkeys, consente ai modelli di modificare iterativamente una base di codice generando e eseguendo congiuntamente uno script di test insieme alla loro modifica provvisoria. Campioniamo molte di queste traiettorie multi-turn per ogni problema per generare una raccolta di modifiche candidate. Questo approccio ci consente di scalare il calcolo al momento del test "seriale" aumentando il numero di iterazioni per traiettoria e il calcolo al momento del test "parallelo" aumentando il numero di traiettorie per problema. Con lo scaling parallelo, possiamo ammortizzare i costi iniziali su più campioni successivi, consentendoci di identificare il contesto della base di codice rilevante utilizzando il semplice metodo di far leggere a un LLM ogni file. Per selezionare tra le modifiche candidate, combiniamo il voto utilizzando test generati dal modello con una traiettoria multi-turn finale dedicata alla selezione. Complessivamente, CodeMonkeys risolve il 57,4% dei problemi da SWE-bench Verified utilizzando un budget di circa 2300 USD. Il nostro metodo di selezione può anche essere utilizzato per combinare candidati da diverse fonti. La selezione su un insieme di modifiche dalle migliori presentazioni verificate di SWE-bench esistenti ottiene un punteggio del 66,2% e supera il miglior membro dell'insieme da solo. Rilasciamo completamente il nostro codice e i dati su https://scalingintelligence.stanford.edu/pubs/codemonkeys.
I modelli di linguaggio visivo (VLM) hanno cambiato radicalmente il panorama dei modelli di visione artificiale in soli pochi anni, aprendo una vasta gamma di nuove applicazioni entusiasmanti, dalla classificazione delle immagini a zero shot, fino alla descrizione delle immagini e alla risposta alle domande visive. A differenza dei puri modelli di visione, offrono un modo intuitivo per accedere ai contenuti visivi attraverso l'input di linguaggio. L'ampia applicabilità di tali modelli ci spinge a chiederci se si allineino anche con la visione umana, in particolare quanto adottino i bias visivi indotti dall'uomo attraverso la fusione multimodale, o se ereditino semplicemente i bias dai puri modelli di visione. Un importante bias visivo è il bias texture vs. forma, o la predominanza delle informazioni locali rispetto a quelle globali. In questo articolo, studiamo questo bias in una vasta gamma di popolari VLM. Interessantemente, scopriamo che i VLM sono spesso più orientati alla forma rispetto ai loro encoder di visione, indicando che i bias visivi sono modulati in qualche misura attraverso il testo nei modelli multimodali. Se il testo influisce effettivamente sui bias visivi, ciò suggerisce che potremmo essere in grado di guidare i bias visivi non solo attraverso l'input visivo ma anche attraverso il linguaggio: un'ipotesi che confermiamo attraverso ampi esperimenti. Ad esempio, siamo in grado di guidare il bias verso la forma da un minimo del 49% fino a un massimo del 72% solo attraverso il prompting. Al momento, il forte bias umano verso la forma (96%) rimane fuori dalla portata di tutti i VLM testati.
I modelli dello spazio di stato (SSM) sono emersi come alternative efficienti ai Transformers per la modellazione sequenziale, ma la loro incapacità di sfruttare le caratteristiche specifiche della modalità limita le loro prestazioni nella preformazione multimodale. Qui proponiamo Mixture-of-Mamba, una nuova architettura SSM che introduce una sparità consapevole della modalità attraverso la parametrizzazione specifica della modalità del blocco Mamba. Basandoci su Mixture-of-Transformers (W. Liang et al. arXiv:2411.04996; 2024), estendiamo i vantaggi della sparità consapevole della modalità agli SSM preservando al contempo la loro efficienza computazionale. Valutiamo Mixture-of-Mamba in tre contesti di preformazione multimodale: Transfusion (token di testo e immagine continua intercalati con perdita di diffusione), Chameleon (token di testo e immagine discreta intercalati) e un framework esteso a tre modalità che incorpora il parlato. Mixture-of-Mamba raggiunge costantemente gli stessi valori di perdita a passi di addestramento precedenti con costi computazionali significativamente ridotti. Nel contesto di Transfusion, Mixture-of-Mamba raggiunge una perdita di immagine equivalente utilizzando solo il 34,76% dei FLOPs di addestramento alla scala di 1,4 miliardi. Nel contesto di Chameleon, Mixture-of-Mamba raggiunge una perdita di immagine simile con solo il 42,50% dei FLOPs alla scala di 1,4 miliardi, e una perdita di testo simile con solo il 65,40% dei FLOPs. Nel contesto a tre modalità, MoM raggiunge una perdita di parlato al 24,80% dei FLOPs alla scala di 1,4 miliardi. Il nostro studio di ablatività evidenzia gli effetti sinergici dello sdoppiamento dei componenti di proiezione, dove lo sdoppiamento congiunto porta a guadagni maggiori rispetto alle modifiche individuali. Questi risultati stabiliscono la sparità consapevole della modalità come principio di progettazione versatile ed efficace, estendendo il suo impatto dai Transformers agli SSM e stabilendo nuovi benchmark nella preformazione multimodale. Il nostro codice è disponibile su https://github.com/Weixin-Liang/Mixture-of-Mamba.
La Guida Senza Classificatore (CFG) è stata una tecnica predefinita in vari modelli generativi visivi, ma richiede inferenza da modelli condizionali e incondizionati durante il campionamento. Proponiamo di costruire modelli visivi liberi dal campionamento guidato. L'algoritmo risultante, Addestramento Senza Guida (GFT), eguaglia le prestazioni di CFG riducendo il campionamento a un singolo modello, dimezzando il costo computazionale. A differenza degli approcci basati sulla distillazione che dipendono da reti CFG preaddestrate, GFT consente l'addestramento diretto da zero. GFT è semplice da implementare. Conserva lo stesso obiettivo di massima verosimiglianza di CFG e differisce principalmente nella parametrizzazione dei modelli condizionali. L'implementazione di GFT richiede solo modifiche minime ai codici esistenti, poiché la maggior parte delle scelte progettuali e degli iperparametri sono ereditati direttamente da CFG. I nostri ampi esperimenti su cinque modelli visivi distinti dimostrano l'efficacia e la versatilità di GFT. Attraverso i domini della diffusione, dell'autoregressione e della modellazione a predizione mascherata, GFT raggiunge costantemente punteggi FID comparabili o addirittura inferiori, con compromessi simili tra diversità e fedeltà rispetto alle basi di CFG, il tutto senza guida. Il codice sarà disponibile su https://github.com/thu-ml/GFT.
Il gioco di ruolo personalizzabile nei grandi modelli linguistici (LLM), noto anche come generalizzazione dei personaggi, sta attirando sempre più attenzione per la sua versatilità e convenienza nello sviluppo e dispiegamento di agenti di dialogo per il gioco di ruolo. Questo studio esplora un approccio di sintesi dei dati su larga scala per dotare i LLM di capacità di generalizzazione dei personaggi. Iniziamo sintetizzando profili di personaggi su larga scala utilizzando le persone da Persona Hub e poi esploriamo due strategie: riscrittura delle risposte e generazione delle risposte, per creare risposte istruttive allineate al personaggio. Per convalidare l'efficacia dei nostri dati di sintonizzazione delle istruzioni sintetiche per la generalizzazione dei personaggi, eseguiamo un raffinamento supervisionato (SFT) utilizzando il modello LLaMA-3 8B. Il nostro modello che ha prestazioni migliori rafforza il modello originale LLaMA-3 8B Instruct e raggiunge prestazioni paragonabili ai modelli GPT-4o nel dialogo di gioco di ruolo. Rilasciamo i nostri personaggi sintetici e i dialoghi di sintonizzazione delle istruzioni per supportare la ricerca pubblica.
Il predominio dei grandi modelli linguistici con solamente decoder ha oscurato le architetture encoder-decoder, nonostante i loro fondamentali vantaggi di efficienza nel processamento di sequenze. Per i piccoli modelli linguistici (SLM) - quelli con 1 miliardo di parametri o meno - la nostra analisi sistematica su piattaforme GPU, CPU e NPU rivela che le architetture encoder-decoder raggiungono una latenza del primo token inferiore del 47% e un throughput 4,7 volte superiore rispetto ai modelli con solamente decoder su dispositivi edge. Questi miglioramenti possono essere attribuiti al processamento iniziale dell'input e alla efficiente separazione delle fasi di comprensione e generazione dei modelli encoder-decoder. Introduciamo un nuovo framework di distillazione della conoscenza che consente ai modelli encoder-decoder di sfruttare le capacità dei grandi modelli insegnanti scalabili con solamente decoder, preservando i loro vantaggi architetturali, ottenendo fino a 6 punti percentuali di miglioramento delle prestazioni medi su diverse attività, con significativi guadagni in attività asimmetriche di sequenze in cui le distribuzioni di input e output possono beneficiare di approcci di elaborazione diversi. Quando combinati con avanzamenti moderni come gli Embedding Posizionali Rotativi (RoPE) e gli encoder di Visione, la nostra indagine sistematica dimostra che le architetture encoder-decoder offrono un percorso più pratico per implementare modelli linguistici capaci in ambienti con risorse limitate. Le nostre scoperte sfidano la tendenza predominante verso la scalabilità con solamente decoder, mostrando che le scelte architetturali diventano sempre più cruciali man mano che i budget dei parametri diminuiscono, in particolare per implementazioni su dispositivi e edge dove l'efficienza computazionale è fondamentale.
Introduciamo l'Apprendimento Realizzabile (FL), un paradigma di apprendimento centrato sul campione in cui i modelli vengono addestrati risolvendo un problema di fattibilità che limita la perdita per ciascun campione di addestramento. In contrasto con il diffuso framework di Minimizzazione del Rischio Empirico (ERM), che ottimizza le prestazioni medie, FL richiede prestazioni soddisfacenti su ciascun singolo punto dati. Poiché qualsiasi modello che soddisfi la soglia di prestazioni prescritta è una soluzione FL valida, la scelta dell'algoritmo di ottimizzazione e le sue dinamiche giocano un ruolo cruciale nel plasmare le proprietà delle soluzioni risultanti. In particolare, studiamo un approccio primale-duale che riassegna dinamicamente l'importanza di ciascun campione durante l'addestramento. Per affrontare la sfida di impostare una soglia significativa nella pratica, introduciamo un rilassamento di FL che incorpora variabili di slack di norma minima. La nostra analisi empirica, che spazia dalla classificazione delle immagini, alla regressione dell'età e all'ottimizzazione delle preferenze nei grandi modelli linguistici, dimostra che i modelli addestrati tramite FL possono apprendere dai dati mostrando un comportamento della coda migliorato rispetto all'ERM, con solo un impatto marginale sulle prestazioni medie.