Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il ragionamento matematico rappresenta una sfida significativa per i modelli linguistici a causa della sua natura complessa e strutturata. In questo articolo, presentiamo DeepSeekMath 7B, che continua il pre-addestramento di DeepSeek-Coder-Base-v1.5 7B con 120 miliardi di token relativi alla matematica provenienti da Common Crawl, insieme a dati di linguaggio naturale e codice. DeepSeekMath 7B ha ottenuto un punteggio impressionante del 51,7% sul benchmark MATH di livello competitivo senza fare affidamento su toolkit esterni e tecniche di voto, avvicinandosi alle prestazioni di Gemini-Ultra e GPT-4. La coerenza interna su 64 campioni di DeepSeekMath 7B raggiunge il 60,9% su MATH. La capacità di ragionamento matematico di DeepSeekMath è attribuita a due fattori chiave: in primo luogo, sfruttiamo il potenziale significativo dei dati web pubblicamente disponibili attraverso una pipeline di selezione dei dati meticolosamente progettata. In secondo luogo, introduciamo l'ottimizzazione delle politiche relative ai gruppi (GRPO), una variante dell'ottimizzazione delle politiche prossimali (PPO), che migliora le capacità di ragionamento matematico ottimizzando contemporaneamente l'uso della memoria di PPO.
I modelli text-to-image offrono un nuovo livello di flessibilità creativa, consentendo agli utenti di guidare il processo di generazione delle immagini attraverso il linguaggio naturale. Tuttavia, utilizzare questi modelli per rappresentare in modo coerente lo stesso soggetto attraverso prompt diversi rimane una sfida. Gli approcci esistenti perfezionano il modello per insegnargli nuove parole che descrivono specifici soggetti forniti dall'utente o aggiungono il condizionamento delle immagini al modello. Questi metodi richiedono un'ottimizzazione lunga e specifica per ogni soggetto o un pre-addestramento su larga scala. Inoltre, faticano ad allineare le immagini generate con i prompt testuali e incontrano difficoltà nel rappresentare più soggetti. Qui presentiamo ConsiStory, un approccio senza addestramento che abilita la generazione coerente di soggetti condividendo le attivazioni interne del modello pre-addestrato. Introduciamo un blocco di attenzione condivisa guidato dal soggetto e un'iniezione di caratteristiche basata sulla corrispondenza per promuovere la coerenza del soggetto tra le immagini. Inoltre, sviluppiamo strategie per incoraggiare la diversità del layout mantenendo la coerenza del soggetto. Confrontiamo ConsiStory con una gamma di baseline e dimostriamo prestazioni all'avanguardia nella coerenza del soggetto e nell'allineamento del testo, senza richiedere un singolo passo di ottimizzazione. Infine, ConsiStory può estendersi naturalmente a scenari con più soggetti e persino abilitare la personalizzazione senza addestramento per oggetti comuni.
Per aiutare la comunità open-source a comprendere meglio i modelli linguistici di grandi dimensioni (LLM) basati su Mixture-of-Experts (MoE), addestriamo e rilasciamo OpenMoE, una serie di LLM MoE decoder-only completamente open-source e riproducibili, che vanno da 650 milioni a 34 miliardi di parametri e addestrati su oltre 1 trilione di token. La nostra indagine conferma che i LLM basati su MoE possono offrire un rapporto costo-efficacia più favorevole rispetto ai LLM densi, evidenziando il potenziale efficacia per lo sviluppo futuro dei LLM. Un altro contributo importante di questo studio è un'analisi approfondita dei meccanismi di routing all'interno dei nostri modelli OpenMoE, che porta a tre risultati significativi: Specializzazione Indipendente dal Contesto, Apprendimento Precoce del Routing e Drop-towards-the-End. Abbiamo scoperto che le decisioni di routing nei modelli MoE sono prevalentemente basate sugli ID dei token, con una rilevanza contestuale minima. Le assegnazioni token-to-expert vengono determinate precocemente nella fase di pre-addestramento e rimangono sostanzialmente invariate. Questo routing imperfetto può portare a un degrado delle prestazioni, specialmente in compiti sequenziali come le conversazioni multi-turn, dove i token che compaiono più avanti in una sequenza hanno maggiori probabilità di essere scartati. Infine, ripensiamo al nostro design sulla base delle osservazioni e delle analisi sopra menzionate. Per facilitare lo sviluppo futuro dei LLM MoE, proponiamo potenziali strategie per mitigare i problemi riscontrati e migliorare ulteriormente i design esistenti dei LLM MoE.
I modelli a spazio di stati (SSM) hanno recentemente dimostrato prestazioni competitive rispetto ai transformer nei benchmark di modellazione del linguaggio su larga scala, raggiungendo al contempo una complessità temporale e di memoria lineare in funzione della lunghezza della sequenza. Mamba, un modello SSM rilasciato di recente, mostra prestazioni impressionanti sia nella modellazione del linguaggio che nelle attività di elaborazione di sequenze lunghe. Parallelamente, i modelli a miscela di esperti (MoE) hanno mostrato prestazioni notevoli riducendo significativamente i costi computazionali e di latenza dell'inferenza, a scapito di un maggiore utilizzo di memoria. In questo articolo, presentiamo BlackMamba, una nuova architettura che combina il modello SSM Mamba con MoE per ottenere i vantaggi di entrambi. Dimostriamo che BlackMamba compete efficacemente sia con Mamba che con i baseline basati su transformer, superandoli in termini di FLOPs di inferenza e addestramento. Abbiamo addestrato completamente e reso open-source modelli BlackMamba da 340M/1.5B e 630M/2.8B su 300B token di un dataset personalizzato. Mostriamo che BlackMamba eredita e combina i vantaggi delle architetture SSM e MoE, unendo la generazione a complessità lineare degli SSM con l'inferenza economica e veloce dei MoE. Rilasciamo open-source tutti i pesi, i checkpoint e il codice di inferenza. Codice di inferenza disponibile su: https://github.com/Zyphra/BlackMamba
L'apprendimento automatico interpretabile è esploso come area di interesse nell'ultimo decennio, stimolato dalla crescita di dataset sempre più grandi e di reti neurali profonde. Contemporaneamente, i modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie in un'ampia gamma di compiti, offrendo l'opportunità di ripensare le possibilità nell'apprendimento automatico interpretabile. In particolare, la capacità di spiegare in linguaggio naturale consente agli LLM di ampliare la scala e la complessità dei modelli che possono essere presentati a un essere umano. Tuttavia, queste nuove capacità sollevano nuove sfide, come spiegazioni allucinate e costi computazionali enormi. In questo position paper, iniziamo esaminando i metodi esistenti per valutare il campo emergente dell'interpretazione degli LLM (sia interpretare gli LLM che utilizzare gli LLM per fornire spiegazioni). Sosteniamo che, nonostante i loro limiti, gli LLM rappresentano un'opportunità per ridefinire l'interpretabilità con un ambito più ambizioso in molte applicazioni, inclusa l'auditing degli stessi LLM. Evidenziamo due priorità di ricerca emergenti per l'interpretazione degli LLM: utilizzare gli LLM per analizzare direttamente nuovi dataset e per generare spiegazioni interattive.
Allineare i modelli linguistici (LM) con feedback umano curato è fondamentale per controllarne i comportamenti nelle applicazioni reali. Diversi recenti metodi di ottimizzazione delle politiche, come DPO e SLiC, rappresentano promettenti alternative al tradizionale approccio di Reinforcement Learning from Human Feedback (RLHF). Nella pratica, il feedback umano spesso si presenta sotto forma di una lista ordinata di più risposte per ammortizzare il costo della lettura del prompt. Anche i modelli di ricompensa o il feedback AI possono classificare più risposte. Manca tuttavia uno studio che si concentri direttamente sull'adattamento a una lista di risposte. In questo lavoro, formuliamo l'allineamento dei LM come un problema di ranking listwise e descriviamo il framework Listwise Preference Optimization (LiPO), in cui la politica può potenzialmente apprendere in modo più efficace da una lista ordinata di risposte plausibili date il prompt. Questa visione stabilisce una connessione esplicita con il Learning-to-Rank (LTR), dove la maggior parte dei lavori esistenti sull'ottimizzazione delle preferenze può essere mappata su obiettivi di ranking esistenti, in particolare quelli pairwise. Seguendo questa connessione, forniamo un'analisi degli obiettivi di ranking che non sono stati ben studiati per l'allineamento dei LM, con DPO e SLiC come casi speciali quando la dimensione della lista è due. In particolare, evidenziamo un metodo specifico, LiPO-{\lambda}, che sfrutta un obiettivo di ranking listwise all'avanguardia e pondera ogni coppia di preferenze in modo più avanzato. Mostriamo che LiPO-{\lambda} può superare DPO e SLiC con un margine significativo in due compiti di allineamento delle preferenze.
I recenti modelli di diffusione testo-video hanno compiuto progressi impressionanti. Nella pratica, gli utenti desiderano spesso la capacità di controllare in modo indipendente il movimento degli oggetti e quello della telecamera per creare video personalizzati. Tuttavia, i metodi attuali non si concentrano sul controllo separato del movimento degli oggetti e della telecamera in modo disaccoppiato, il che limita la controllabilità e la flessibilità dei modelli testo-video. In questo articolo, presentiamo Direct-a-Video, un sistema che consente agli utenti di specificare in modo indipendente i movimenti per uno o più oggetti e/o i movimenti della telecamera, come se stessero dirigendo un video. Proponiamo una strategia semplice ma efficace per il controllo disaccoppiato del movimento degli oggetti e della telecamera. Il movimento degli oggetti è controllato attraverso la modulazione dell'attenzione incrociata spaziale utilizzando i priori intrinseci del modello, senza necessità di ottimizzazione aggiuntiva. Per il movimento della telecamera, introduciamo nuovi strati di attenzione incrociata temporale per interpretare i parametri quantitativi del movimento della telecamera. Utilizziamo inoltre un approccio basato sull'aumento dei dati per addestrare questi strati in modo auto-supervisionato su un dataset di piccole dimensioni, eliminando la necessità di annotazioni esplicite del movimento. Entrambe le componenti operano in modo indipendente, consentendo un controllo individuale o combinato, e possono generalizzare a scenari di dominio aperto. Esperimenti estensivi dimostrano la superiorità e l'efficacia del nostro metodo. Pagina del progetto: https://direct-a-video.github.io/.
Presentiamo InteractiveVideo, un framework incentrato sull'utente per la generazione di video. A differenza degli approcci generativi tradizionali che operano basandosi su immagini o testi forniti dall'utente, il nostro framework è progettato per l'interazione dinamica, consentendo agli utenti di guidare il modello generativo attraverso vari meccanismi intuitivi durante l'intero processo di generazione, come prompt testuali e visivi, pittura, trascinamento, ecc. Proponiamo un meccanismo di Istruzione Multimodale Sinergica, concepito per integrare in modo fluido le istruzioni multimodali dell'utente nei modelli generativi, facilitando così un'interazione cooperativa e reattiva tra gli input dell'utente e il processo generativo. Questo approccio consente un affinamento iterativo e granulare del risultato generativo attraverso istruzioni precise ed efficaci da parte dell'utente. Con InteractiveVideo, gli utenti hanno la flessibilità di personalizzare meticolosamente aspetti chiave di un video. Possono dipingere l'immagine di riferimento, modificare la semantica e regolare i movimenti del video fino a quando i loro requisiti non sono pienamente soddisfatti. Codice, modelli e demo sono disponibili su https://github.com/invictus717/InteractiveVideo.
Il pruning strutturato dei moderni modelli linguistici di grandi dimensioni (LLM) è emerso come un modo per ridurre i loro elevati requisiti computazionali. Il pruning in larghezza riduce le dimensioni delle matrici di peso di proiezione (ad esempio, rimuovendo le teste di attenzione) mantenendo invariato il numero di strati. Il pruning in profondità, al contrario, rimuove interi strati o blocchi, mantenendo inalterate le dimensioni dei pesi rimanenti. La maggior parte della ricerca attuale si concentra esclusivamente sul pruning in larghezza o su una combinazione di pruning in larghezza e profondità, con poche analisi comparative tra le due unità (larghezza vs. profondità) riguardo al loro impatto sull'efficienza inferenziale degli LLM. In questo lavoro, dimostriamo che un semplice approccio di pruning in profondità può competere con i recenti metodi di pruning in larghezza in termini di prestazioni su task zero-shot. Il nostro metodo di pruning migliora la velocità di inferenza, specialmente in condizioni di memoria limitata che richiedono dimensioni di batch ridotte per l'esecuzione degli LLM, dove il pruning in larghezza risulta inefficace. Speriamo che questo lavoro possa contribuire a implementare gli LLM su dispositivi locali e periferici.
Aumentare la capacità dei grandi modelli linguistici (LLM) di comprendere l'audio — inclusi suoni non vocali e aspetti non verbali del parlato — è di fondamentale importanza per applicazioni reali e diversificate degli LLM. In questo articolo, proponiamo Audio Flamingo, un innovativo modello linguistico audio che possiede: 1) forti capacità di comprensione dell'audio, 2) la capacità di adattarsi rapidamente a compiti non visti tramite apprendimento in contesto e recupero, e 3) solide abilità di dialogo multi-turn. Introduciamo una serie di tecniche di addestramento, progettazione architetturale e strategie sui dati per dotare il nostro modello di queste capacità. Valutazioni estensive su vari compiti di comprensione dell'audio confermano l'efficacia del nostro metodo, stabilendo nuovi benchmark all'avanguardia.
Esiste un divario sensoriale tra la Terra abitata dagli esseri umani e i regni digitali in cui vengono creati i moderni agenti di intelligenza artificiale. Per sviluppare agenti AI in grado di percepire, pensare e agire con la stessa flessibilità degli esseri umani in contesti del mondo reale, è fondamentale colmare il divario di realismo tra i mondi digitale e fisico. Come possiamo incarnare gli agenti in un ambiente ricco e diversificato come quello che abitiamo, senza i vincoli imposti dall'hardware reale e dal controllo? A tal fine, presentiamo V-IRL: una piattaforma che consente agli agenti di interagire in modo scalabile con il mondo reale in un ambiente virtuale ma realistico. La nostra piattaforma funge da campo di gioco per lo sviluppo di agenti in grado di svolgere varie attività pratiche e da un vasto banco di prova per misurare i progressi nelle capacità che spaziano dalla percezione, al processo decisionale, all'interazione con dati del mondo reale in tutto il globo.
Alla luce dei recenti progressi nei modelli linguistici multimodali di grandi dimensioni (LLM), sta crescendo l'attenzione verso il loro scaling da dati immagine-testo a video del mondo reale più informativi. Rispetto alle immagini statiche, i video presentano sfide uniche per un pre-training efficace su larga scala a causa della modellazione delle loro dinamiche spazio-temporali. In questo articolo, affrontiamo tali limitazioni nel pre-training video-linguaggio con una decomposizione efficiente dei video che rappresenta ciascun video come fotogrammi chiave e movimenti temporali. Questi vengono poi adattati a un LLM utilizzando tokenizer ben progettati che discretizzano le informazioni visive e temporali in pochi token, consentendo così un pre-training generativo unificato di video, immagini e testo. Durante l'inferenza, i token generati dall'LLM vengono accuratamente ricondotti allo spazio continuo originale dei pixel per creare vari contenuti video. Il nostro framework proposto è in grado sia di comprendere che di generare contenuti di immagini e video, come dimostrato dalle sue prestazioni competitive su 13 benchmark multimodali nella comprensione e generazione di immagini e video. Il nostro codice e i nostri modelli saranno disponibili su https://video-lavit.github.io.
La potenza dei grandi modelli linguistici (LLM) è stata dimostrata attraverso numerose risorse di dati e di calcolo. Tuttavia, l'applicazione dei modelli linguistici su dispositivi mobili sta affrontando una grande sfida in termini di costi computazionali e di memoria, rendendo urgentemente necessari modelli linguistici compatti ad alte prestazioni. Limitati dall'elevata complessità del processo di addestramento, molti dettagli per l'ottimizzazione dei modelli linguistici sono raramente studiati con attenzione. In questo studio, basandoci su un modello linguistico compatto con 1 miliardo di parametri, progettiamo con cura una serie di studi empirici per analizzare l'effetto di ciascun componente. Vengono principalmente discussi tre aspetti, ovvero l'architettura neurale, l'inizializzazione dei parametri e la strategia di ottimizzazione. Diverse formule di progettazione si dimostrano empiricamente particolarmente efficaci per i modelli linguistici compatti, tra cui la compressione del tokenizer, la modifica dell'architettura, l'ereditarietà dei parametri e l'addestramento su più cicli. Successivamente, addestriamo PanGu-pi-1B Pro e PanGu-pi-1.5B Pro su un corpus multilingue di 1.6T, seguendo le formule stabilite. I risultati sperimentali dimostrano che l'ottimizzazione e l'architettura migliorate producono un notevole incremento medio di 8.87 sui set di valutazione di riferimento per PanGu-pi-1B Pro. Inoltre, PanGu-pi-1.5B Pro supera una gamma di modelli SOTA con dimensioni maggiori, validando le sue prestazioni superiori. Il codice sarà presto rilasciato (https://github.com/YuchuanTian/RethinkTinyLM).
Studi recenti hanno dimostrato che i modelli linguistici per il codice su larga scala ottengono significativi miglioramenti nelle prestazioni su task downstream, come la generazione di codice. Tuttavia, la maggior parte dei lavori esistenti sull'apprendimento della rappresentazione del codice addestra modelli con centinaia di milioni di parametri utilizzando corpora di pre-addestramento molto limitati. In questo lavoro, alimentiamo l'apprendimento della rappresentazione del codice con una vasta quantità di dati di codice attraverso uno schema di pre-addestramento in due fasi. Inizialmente addestriamo gli encoder utilizzando una miscela che sfrutta sia la casualità nel masked language modeling sia l'aspetto strutturale dei linguaggi di programmazione. Successivamente, miglioriamo le rappresentazioni attraverso l'apprendimento contrastivo con negativi difficili e positivi difficili costruiti in modo non supervisionato. Abbiamo stabilito un modello encoder pronto all'uso che supera costantemente i modelli esistenti su una vasta gamma di task downstream con ampi margini. Per comprendere i fattori che contribuiscono al successo dell'apprendimento della rappresentazione del codice, conduciamo ablazioni dettagliate e condividiamo le nostre scoperte su: (i) uno schema personalizzato ed efficace di denoising a livello di token per il codice sorgente; (ii) l'importanza dei negativi difficili e dei positivi difficili; (iii) come il proposto apprendimento contrastivo bimodale migliori le prestazioni della ricerca semantica cross-linguale; e (iv) come gli schemi di pre-addestramento influenzino la scala delle prestazioni dei task downstream in relazione alla dimensione del modello.
I modelli di diffusione Text-to-Image (T2I) su larga scala hanno rivoluzionato la generazione di immagini negli ultimi anni. Nonostante possiedano capacità di generazione diversificate e di alta qualità, tradurre queste abilità in un editing fine delle immagini rimane una sfida. In questo articolo, proponiamo DiffEditor per correggere due debolezze nell'editing basato su diffusione esistente: (1) in scenari complessi, i risultati dell'editing spesso mancano di precisione e presentano artefatti inaspettati; (2) la mancanza di flessibilità per armonizzare le operazioni di editing, ad esempio immaginare nuovi contenuti. Nella nostra soluzione, introduciamo prompt visivi nell'editing fine delle immagini, collaborando con il prompt testuale per descrivere meglio il contenuto da modificare. Per aumentare la flessibilità mantenendo la coerenza del contenuto, combiniamo localmente l'equazione differenziale stocastica (SDE) nel campionamento dell'equazione differenziale ordinaria (ODE). Inoltre, incorporiamo una guida al gradiente basata su punteggi regionali e una strategia di "viaggio nel tempo" nel campionamento della diffusione, migliorando ulteriormente la qualità dell'editing. Esperimenti estensivi dimostrano che il nostro metodo può raggiungere in modo efficiente prestazioni all'avanguardia in varie attività di editing fine delle immagini, inclusa la modifica all'interno di una singola immagine (ad esempio, spostamento di oggetti, ridimensionamento e trascinamento di contenuti) e tra immagini (ad esempio, sostituzione dell'aspetto e incollaggio di oggetti). Il nostro codice sorgente è disponibile all'indirizzo https://github.com/MC-E/DragonDiffusion.