Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il pre-addestramento efficace di grandi modelli linguistici (LLM) è stato difficile a causa delle immense richieste di risorse e della complessità dei processi tecnici coinvolti. Questo articolo presenta un dettagliato rapporto tecnico su YuLan-Mini, un modello di base altamente capace con 2,42 miliardi di parametri che raggiunge prestazioni di alto livello tra i modelli della stessa scala di parametri. Il nostro approccio al pre-addestramento si concentra sull'aumento dell'efficacia dell'addestramento attraverso tre importanti contributi tecnici: un elaborato flusso di dati che combina la pulizia dei dati con strategie di pianificazione dei dati, un robusto metodo di ottimizzazione per mitigare l'instabilità dell'addestramento e un efficace approccio di raffreddamento che incorpora la selezione mirata dei dati e l'addestramento a lungo contesto. In modo notevole, YuLan-Mini, addestrato su 1,08 trilioni di token, raggiunge prestazioni paragonabili ai modelli leader del settore che richiedono significativamente più dati. Per facilitare la riproducibilità, rilasciamo tutti i dettagli della composizione dei dati per ciascuna fase di addestramento. I dettagli del progetto sono accessibili al seguente link: https://github.com/RUC-GSAI/YuLan-Mini.
In questo lavoro, forniamo un'approfondita indagine sui metodi di compressione del contesto basati sull'essenza per migliorare l'elaborazione di contesti lunghi nei grandi modelli linguistici. Ci concentriamo su due domande chiave: (1) In che misura questi metodi possono sostituire i modelli a attenzione completa? e (2) Quali possibili modelli di fallimento emergono a causa della compressione? Attraverso estesi esperimenti, mostriamo che mentre la compressione basata sull'essenza può raggiungere prestazioni quasi senza perdite in compiti come la generazione potenziata dalla ricerca e la QA di documenti lunghi, affronta sfide in compiti come il richiamo sintetico. Inoltre, identifichiamo tre modelli chiave di fallimento: perso dal confine, perso se sorpresa e perso lungo il percorso. Per mitigare questi problemi, proponiamo due strategie efficaci: autoencoding dettagliato, che migliora la ricostruzione delle informazioni originali del token, e stima dell'importanza del token a livello di segmento, che regola l'ottimizzazione in base alle dipendenze dei token. Il nostro lavoro fornisce preziose intuizioni per la comprensione della compressione del contesto basata sul token di essenza e offre strategie pratiche per migliorare le capacità di compressione.
Con i progressi nei modelli fondamentali e visione-linguaggio, e nelle tecniche efficaci di fine-tuning, è stato sviluppato un gran numero di modelli sia generali che specializzati per una varietà di compiti visivi. Nonostante la flessibilità e l'accessibilità di questi modelli, nessun singolo modello è in grado di gestire tutti i compiti e/o le applicazioni che potrebbero essere immaginate dagli utenti potenziali. Approcci recenti, come la programmazione visuale e i LLM multimodali con strumenti integrati, mirano a affrontare compiti visivi complessi, tramite la sintesi di programmi. Tuttavia, tali approcci trascurano i vincoli degli utenti (ad esempio, prestazioni/esigenze computazionali), producono soluzioni specifiche per campioni di test che sono difficili da implementare e, a volte, richiedono istruzioni a basso livello che potrebbero essere al di là delle capacità di un utente ingenuo. Per affrontare queste limitazioni, presentiamo MMFactory, un framework universale che include componenti di instradamento di modelli e metriche, agendo come un motore di ricerca di soluzioni attraverso vari modelli disponibili. Sulla base di una descrizione del compito e di poche coppie di input-output di esempio e (opzionalmente) vincoli di risorse e/o prestazioni, MMFactory può suggerire un ampio pool di soluzioni programmatiche istanziando e combinando strumenti visio-linguistici dal suo repository di modelli. Oltre a sintetizzare queste soluzioni, MMFactory propone anche metriche e valuta le caratteristiche delle prestazioni/risorse, consentendo agli utenti di scegliere una soluzione che soddisfi i loro vincoli di progettazione unici. Dal punto di vista tecnico, abbiamo anche introdotto un proposizione di soluzione basata su un comitato che sfrutta la conversazione LLM multi-agente per generare soluzioni eseguibili, diverse, universali e robuste per l'utente. I risultati sperimentali mostrano che MMFactory supera i metodi esistenti fornendo soluzioni all'avanguardia adattate alle specifiche del problema dell'utente. La pagina del progetto è disponibile su https://davidhalladay.github.io/mmfactory_demo.
I sistemi di raccomandazione sequenziale (SR) hanno subito un'evoluzione significativa nell'ultimo decennio, passando dal filtraggio collaborativo tradizionale agli approcci di apprendimento profondo e, più recentemente, ai grandi modelli linguistici (LLM). Sebbene l'adozione dei LLM abbia portato a notevoli progressi, questi modelli mancano intrinsecamente di informazioni sul filtraggio collaborativo, basandosi principalmente sui dati di contenuto testuale trascurando altre modalità e quindi non riuscendo a raggiungere prestazioni di raccomandazione ottimali. Per affrontare questa limitazione, proponiamo Molar, un framework di raccomandazione sequenziale multimodale basato su grandi modelli linguistici che integra diverse modalità di contenuto con informazioni ID per catturare segnali collaborativi in modo efficace. Molar utilizza un MLLM per generare rappresentazioni unificate degli elementi da dati sia testuali che non testuali, facilitando una modellazione multimodale completa e arricchendo gli embedding degli elementi. Inoltre, incorpora segnali di filtraggio collaborativo attraverso un meccanismo di post-allineamento, che allinea le rappresentazioni degli utenti da modelli basati sul contenuto e sull'ID, garantendo una personalizzazione precisa e prestazioni robuste. Combinando in modo fluido contenuti multimodali con intuizioni di filtraggio collaborativo, Molar cattura sia gli interessi degli utenti che le semantica contestuale, portando a una maggiore precisione nelle raccomandazioni. Esperimenti estesi confermano che Molar supera significativamente i baselines tradizionali e basati su LLM, evidenziando la sua capacità di utilizzare dati multimodali e segnali collaborativi per compiti di raccomandazione sequenziale. Il codice sorgente è disponibile su https://anonymous.4open.science/r/Molar-8B06/.
Gli avanzamenti recenti nei codificatori automatici video (Video AEs) hanno migliorato significativamente la qualità e l'efficienza della generazione video. In questo articolo, proponiamo un codificatore automatico video innovativo e compatto, VidTwin, che separa i video in due spazi latenti distinti: vettori latenti di Struttura, che catturano il contenuto complessivo e il movimento globale, e vettori latenti di Dinamica, che rappresentano dettagli fini e movimenti rapidi. In particolare, il nostro approccio sfrutta un'architettura Codificatore-Decodificatore, potenziata con due sottomoduli per l'estrazione di questi spazi latenti, rispettivamente. Il primo sottomodulo utilizza un Q-Former per estrarre le tendenze di movimento a bassa frequenza, seguito da blocchi di sottocampionamento per rimuovere dettagli di contenuto ridondanti. Il secondo calcola la media dei vettori latenti lungo la dimensione spaziale per catturare il movimento rapido. Estesi esperimenti dimostrano che VidTwin raggiunge un'elevata percentuale di compressione dello 0,20% con alta qualità di ricostruzione (PSNR di 28,14 sul dataset MCL-JCV), e si comporta in modo efficiente ed efficace nei compiti generativi successivi. Inoltre, il nostro modello dimostra spiegabilità e scalabilità, aprendo la strada per futuri studi sulla rappresentazione latente e generazione video. Il nostro codice è stato reso disponibile su https://github.com/microsoft/VidTok/tree/main/vidtwin.