Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo SELF-DISCOVER, un framework generale che consente ai modelli linguistici di grandi dimensioni (LLM) di auto-scoprire le strutture di ragionamento intrinseche ai compiti per affrontare problemi di ragionamento complessi che risultano difficili per i metodi di prompting tradizionali. Il cuore del framework è un processo di auto-scoperta in cui gli LLM selezionano più moduli di ragionamento atomici, come il pensiero critico e il ragionamento passo-passo, e li compongono in una struttura di ragionamento esplicita che gli LLM seguono durante la decodifica. SELF-DISCOVER migliora significativamente le prestazioni di GPT-4 e PaLM 2 su benchmark di ragionamento impegnativi come BigBench-Hard, il ragionamento di agenti radicati e MATH, con un miglioramento fino al 32% rispetto al metodo Chain of Thought (CoT). Inoltre, SELF-DISCOVER supera metodi ad alta intensità di inferenza come CoT-Self-Consistency di oltre il 20%, richiedendo però da 10 a 40 volte meno risorse computazionali per l'inferenza. Infine, dimostriamo che le strutture di ragionamento auto-scoperte sono universalmente applicabili tra diverse famiglie di modelli: da PaLM 2-L a GPT-4, e da GPT-4 a Llama2, e condividono somiglianze con i modelli di ragionamento umano.
I modelli linguistici di grandi dimensioni pre-addestrati (LLM) dimostrano capacità eccezionali di elaborazione del linguaggio generale, ma richiedono risorse significative in termini di memoria e calcolo. Come potente tecnologia di compressione, la binarizzazione può ridurre estremamente i pesi del modello a soli 1 bit, abbattendo i costosi requisiti di calcolo e memoria. Tuttavia, le tecniche di quantizzazione esistenti non riescono a mantenere le prestazioni degli LLM con larghezze di bit ultra-ridotte. In risposta a questa sfida, presentiamo BiLLM, un innovativo schema di quantizzazione post-addestramento a 1 bit progettato specificamente per LLM pre-addestrati. Basandosi sulla distribuzione dei pesi degli LLM, BiLLM identifica e seleziona strutturalmente i pesi salienti, minimizzando la perdita di compressione attraverso un'efficace strategia di approssimazione binaria residua. Inoltre, considerando la distribuzione a campana dei pesi non salienti, proponiamo una ricerca ottimale di suddivisione per raggrupparli e binarizzarli con precisione. BiLLM raggiunge per la prima volta un'inferenza ad alta precisione (ad esempio, 8,41 di perplessità su LLaMA2-70B) con pesi di soli 1,08 bit su varie famiglie di LLM e metriche di valutazione, superando significativamente i metodi di quantizzazione SOTA per LLM. Inoltre, BiLLM consente il processo di binarizzazione di un LLM con 7 miliardi di pesi in meno di 0,5 ore su una singola GPU, dimostrando un'efficienza temporale soddisfacente.
I modelli spazio-stato (SSM), come Mamba Gu & Dao (2034), sono stati proposti come alternative alle reti Transformer nel campo del modeling linguistico, incorporando meccanismi di gating, convoluzioni e selezione di token dipendente dall'input per mitigare il costo quadratico dell'attenzione multi-testina. Sebbene gli SSM mostrino prestazioni competitive, le loro capacità di apprendimento in contesto (ICL), una proprietà emergente notevole dei moderni modelli linguistici che consente l'esecuzione di task senza ottimizzazione dei parametri, rimangono meno esplorate rispetto ai Transformer. In questo studio, valutiamo le prestazioni ICL degli SSM, con un focus su Mamba, confrontandoli con i modelli Transformer su vari task. I nostri risultati mostrano che gli SSM performano in modo comparabile ai Transformer nei task ICL di regressione standard, superandoli in task come l'apprendimento della parità sparsa. Tuttavia, gli SSM risultano carenti in task che coinvolgono funzionalità di recupero non standard. Per affrontare queste limitazioni, introduciamo un modello ibrido, \variant, che combina Mamba con blocchi di attenzione, superando i modelli individuali nei task in cui faticano separatamente. Le nostre scoperte suggeriscono che le architetture ibride offrono percorsi promettenti per migliorare l'ICL nei modelli linguistici.
Il potenziamento del preaddestramento contrastivo lingua-immagine (CLIP) è fondamentale per potenziare sia i modelli visivi che quelli multimodali. Presentiamo EVA-CLIP-18B, il più grande e potente modello CLIP open-source fino ad oggi, con 18 miliardi di parametri. Con soli 6 miliardi di campioni di addestramento visti, EVA-CLIP-18B raggiunge un eccezionale 80,7% di accuratezza top-1 zero-shot mediata su 27 benchmark ampiamente riconosciuti per la classificazione di immagini, superando di gran lunga il suo predecessore EVA-CLIP (5 miliardi di parametri) e altri modelli CLIP open-source. In modo notevole, osserviamo un miglioramento costante delle prestazioni con il ridimensionamento della dimensione del modello di EVA-CLIP, nonostante il mantenimento di un dataset di addestramento costante di 2 miliardi di coppie immagine-testo provenienti da LAION-2B e COYO-700M. Questo dataset è disponibile pubblicamente e molto più piccolo rispetto ai dataset interni (ad esempio, DFN-5B, WebLI-10B) utilizzati in altri modelli CLIP all'avanguardia. EVA-CLIP-18B dimostra il potenziale del ridimensionamento visivo da debole a forte in stile EVA. Con i pesi del nostro modello resi pubblicamente disponibili, speriamo di facilitare la ricerca futura sui modelli di base visivi e multimodali.
La generazione da immagine a video (Image-to-Video, I2V) mira a utilizzare il frame iniziale (insieme a un prompt testuale) per creare una sequenza video. Una delle principali sfide nella generazione I2V è mantenere la coerenza visiva lungo l'intero video: i metodi esistenti spesso faticano a preservare l'integrità del soggetto, dello sfondo e dello stile del primo frame, oltre a garantire una progressione fluida e logica nella narrazione video. Per mitigare questi problemi, proponiamo ConsistI2V, un metodo basato su diffusione per migliorare la coerenza visiva nella generazione I2V. Nello specifico, introduciamo (1) un'attenzione spazio-temporale sul primo frame per mantenere la coerenza spaziale e del movimento, e (2) un'inizializzazione del rumore dalla banda a bassa frequenza del primo frame per migliorare la coerenza del layout. Questi due approcci consentono a ConsistI2V di generare video altamente coerenti. Estendiamo inoltre i metodi proposti per dimostrare il loro potenziale nel migliorare la coerenza nella generazione autoregressiva di video lunghi e nel controllo del movimento della telecamera. Per verificare l'efficacia del nostro metodo, proponiamo I2V-Bench, un benchmark di valutazione completo per la generazione I2V. I risultati delle nostre valutazioni automatiche e umane dimostrano la superiorità di ConsistI2V rispetto ai metodi esistenti.
Le leggi di scala forniscono importanti indicazioni che possono guidare la progettazione di grandi modelli linguistici (LLM). Il lavoro esistente si è principalmente concentrato sullo studio delle leggi di scala per la perdita durante il pretraining (a monte). Tuttavia, negli scenari di transfer learning, in cui i LLM vengono prima addestrati su un dataset non supervisionato e poi affinati su un task a valle, spesso ci interessa anche la performance a valle. In questo lavoro, studiamo il comportamento di scala in un contesto di transfer learning, in cui i LLM vengono affinati per task di traduzione automatica. Nello specifico, indaghiamo come la scelta dei dati di pretraining e la loro dimensione influenzino la performance a valle (qualità della traduzione) valutata attraverso due metriche: l'entropia incrociata a valle e il punteggio BLEU. I nostri esperimenti indicano che la dimensione del dataset di affinamento e l'allineamento distributivo tra i dati di pretraining e quelli a valle influenzano significativamente il comportamento di scala. Con un sufficiente allineamento, sia l'entropia incrociata a valle che il punteggio BLEU migliorano monotonamente con più dati di pretraining. In tali casi, dimostriamo che è possibile prevedere con buona accuratezza il punteggio BLEU a valle utilizzando una legge logaritmica. Tuttavia, ci sono anche casi in cui un moderato disallineamento fa sì che il punteggio BLEU fluttui o peggiori con più pretraining, mentre l'entropia incrociata a valle migliora monotonamente. Analizzando queste osservazioni, forniamo nuove intuizioni pratiche per la scelta di dati di pretraining appropriati.
Proponiamo MusicRL, il primo sistema di generazione musicale ottimizzato tramite feedback umano. L'apprezzamento dei modelli di testo-a-musica è particolarmente soggettivo, poiché il concetto di musicalità così come l'intenzione specifica dietro una descrizione dipendono dall'utente (ad esempio, una descrizione come "musica energica per allenamento" può corrispondere a un assolo di chitarra retrò o a un ritmo techno pop). Ciò non solo rende complesso l'addestramento supervisionato di tali modelli, ma richiede anche l'integrazione di un feedback umano continuo nella loro ottimizzazione post-distribuzione. MusicRL è un modello autoregressivo preaddestrato MusicLM (Agostinelli et al., 2023) basato su token audio discreti, ottimizzato con apprendimento per rinforzo per massimizzare ricompense a livello di sequenza. Progettiamo funzioni di ricompensa specifiche per l'aderenza al testo e la qualità audio con l'aiuto di valutatori selezionati, e le utilizziamo per ottimizzare MusicLM in MusicRL-R. Distribuiamo MusicLM agli utenti e raccogliamo un ampio dataset comprendente 300.000 preferenze a coppie. Utilizzando l'Apprendimento per Rinforzo da Feedback Umano (RLHF), addestriamo MusicRL-U, il primo modello testo-a-musica che incorpora feedback umano su larga scala. Le valutazioni umane mostrano che sia MusicRL-R che MusicRL-U sono preferiti rispetto al modello di riferimento. Infine, MusicRL-RU combina i due approcci e risulta essere il modello migliore secondo i valutatori umani. Studi di ablazione gettano luce sugli attributi musicali che influenzano le preferenze umane, indicando che l'aderenza al testo e la qualità ne rappresentano solo una parte. Ciò sottolinea la prevalenza della soggettività nell'apprezzamento musicale e invita a un maggiore coinvolgimento degli ascoltatori umani nell'ottimizzazione dei modelli di generazione musicale.
I recenti progressi nei modelli linguistici di grandi dimensioni hanno suscitato interesse per le loro straordinarie e quasi sovrumane capacità, portando i ricercatori a esplorare metodi per valutare e ottimizzare queste abilità, un ambito noto come superallineamento. In questo contesto, il nostro articolo si addentra nel campo dei modelli di base per la visione, concentrandosi sul concetto di generalizzazione da debole a forte, che prevede l'uso di un modello più debole per supervisionarne uno più forte, con l'obiettivo di migliorare le capacità di quest'ultimo oltre i limiti del primo. Introduciamo una nuova funzione di perdita adattivamente regolabile per la supervisione da debole a forte. I nostri esperimenti completi coprono vari scenari, tra cui apprendimento con pochi esempi, trasferimento di conoscenza, apprendimento con etichette rumorose e impostazioni comuni di distillazione della conoscenza. I risultati sono sorprendenti: il nostro approccio non solo supera i benchmark di prestazioni stabiliti dalla generalizzazione da forte a forte, ma supera anche i risultati ottenuti affinando modelli forti con interi dataset. Questa evidenza convincente sottolinea il significativo potenziale della generalizzazione da debole a forte, dimostrando la sua capacità di elevare sostanzialmente le prestazioni dei modelli di base per la visione. Il codice è disponibile all'indirizzo https://github.com/ggjy/vision_weak_to_strong.
Presentiamo MobileVLM V2, una famiglia di modelli vision-language significativamente migliorati rispetto a MobileVLM, che dimostra come una delicata orchestrazione di un nuovo design architetturale, uno schema di addestramento ottimizzato per i VLMs mobili e una curatela di dataset ricchi e di alta qualità possano migliorare sostanzialmente le prestazioni dei VLMs. Nello specifico, MobileVLM V2 1.7B raggiunge prestazioni migliori o equivalenti su benchmark standard per VLMs rispetto a VLMs molto più grandi su scala 3B. In particolare, il nostro modello da 3B supera una vasta gamma di VLMs su scala 7B+. I nostri modelli saranno rilasciati su https://github.com/Meituan-AutoML/MobileVLM.
CodeCompose è uno strumento di creazione di codice assistito dall'intelligenza artificiale, alimentato da modelli linguistici di grandi dimensioni (LLM), che fornisce suggerimenti in linea a decine di migliaia di sviluppatori presso Meta. In questo articolo, presentiamo come abbiamo scalato il prodotto passando dalla visualizzazione di suggerimenti a una singola riga a suggerimenti multi-riga. Questa evoluzione ci ha richiesto di superare diverse sfide uniche per migliorare l'usabilità di questi suggerimenti per gli sviluppatori. In primo luogo, discutiamo come i suggerimenti multi-riga possano avere un effetto "disorientante", poiché i suggerimenti dell'LLM si spostano continuamente attorno al codice esistente dello sviluppatore, il che altrimenti porterebbe a una riduzione della produttività e della soddisfazione. In secondo luogo, i suggerimenti multi-riga richiedono un tempo significativamente maggiore per essere generati; pertanto, presentiamo diversi investimenti innovativi che abbiamo fatto per ridurre la latenza percepita dagli utenti. Queste ottimizzazioni nell'hosting del modello hanno accelerato la latenza dei suggerimenti multi-riga di 2,5 volte. Infine, conduciamo esperimenti su decine di migliaia di ingegneri per comprendere come i suggerimenti multi-riga influenzino l'esperienza utente e confrontiamo questo con i suggerimenti a una singola riga. I nostri esperimenti rivelano che (i) i suggerimenti multi-riga rappresentano il 42% dei caratteri totali accettati (nonostante rappresentino solo il 16% dei suggerimenti visualizzati) e (ii) i suggerimenti multi-riga hanno quasi raddoppiato la percentuale di battute di tastiera risparmiate per gli utenti, passando dal 9% al 17%. CodeCompose con suggerimenti multi-riga è stato implementato per tutti gli ingegneri di Meta, e meno dell'1% degli ingegneri ha scelto di disattivare i suggerimenti multi-riga.
Per la cattura e l'analisi del movimento facciale, le soluzioni predominanti si basano generalmente su segnali visivi, che non possono proteggere la privacy e sono vulnerabili alle occlusioni. Le unità di misura inerziale (IMU) rappresentano un potenziale rimedio, ma sono principalmente adottate per la cattura del movimento corporeo completo. In questo articolo, proponiamo IMUSIC per colmare questa lacuna, un nuovo approccio per la cattura delle espressioni facciali utilizzando esclusivamente segnali IMU, significativamente distante dalle precedenti soluzioni visive. Il design chiave del nostro IMUSIC si basa su una trilogia. In primo luogo, progettiamo micro-IMU adatte alla cattura facciale, accompagnate da uno schema di posizionamento delle IMU guidato dall'anatomia. Successivamente, contribuiamo con un nuovo dataset IMU-ARKit, che fornisce ricchi segnali accoppiati IMU/visivi per diverse espressioni e performance facciali. Tale unicità multimodale offre un enorme potenziale per future direzioni come l'analisi del comportamento facciale basata su IMU. Inoltre, utilizzando IMU-ARKit, introduciamo un solido approccio di base per prevedere accuratamente i parametri dei blendshape facciali da segnali IMU puri. Nello specifico, adattiamo un modello Transformer diffusion con una strategia di addestramento in due fasi per questo nuovo compito di tracciamento. Il framework IMUSIC ci consente di eseguire una cattura facciale accurata in scenari in cui i metodi visivi falliscono e, allo stesso tempo, salvaguardare la privacy dell'utente. Condividiamo esperimenti estesi sia sulla configurazione delle IMU che sui componenti tecnici per validare l'efficacia del nostro approccio IMUSIC. In particolare, IMUSIC abilita varie potenziali e nuove applicazioni, come la cattura facciale che protegge la privacy, la cattura ibrida contro le occlusioni o il rilevamento di minuscoli movimenti facciali spesso invisibili attraverso segnali visivi. Rilasceremo il nostro dataset e le implementazioni per arricchire ulteriori possibilità di cattura e analisi facciale nella nostra comunità.
I modelli visione-linguaggio (VLMs) hanno dimostrato la loro ampia fattibilità grazie a un addestramento estensivo nell'allineare istruzioni visive a risposte. Tuttavia, questo allineamento conclusivo porta i modelli a ignorare il ragionamento visivo critico, risultando ulteriormente in fallimenti su problemi visivi meticolosi e risposte infedeli. In questo articolo, proponiamo Chain of Manipulations, un meccanismo che consente ai VLMs di risolvere problemi con una serie di manipolazioni, dove ciascuna manipolazione si riferisce a un'operazione sull'input visivo, derivante sia da abilità intrinseche (ad esempio, grounding) acquisite attraverso un addestramento precedente, sia dall'imitazione di comportamenti umani (ad esempio, zoom). Questo meccanismo incoraggia i VLMs a generare risposte fedeli con un ragionamento visivo evidente e permette agli utenti di tracciare le cause degli errori in percorsi interpretabili. Abbiamo quindi addestrato CogCoM, un VLM generale da 17B con un'architettura compatibile basata sulla memoria dotata di questo meccanismo di ragionamento. Gli esperimenti mostrano che il nostro modello raggiunge prestazioni all'avanguardia su 8 benchmark di 3 categorie, e un numero limitato di passi di addestramento con i dati ottiene rapidamente una performance competitiva. Il codice e i dati sono disponibili pubblicamente all'indirizzo https://github.com/THUDM/CogCoM.
Presentiamo EscherNet, un modello di diffusione condizionato a più viste per la sintesi di prospettive. EscherNet apprende rappresentazioni 3D implicite e generative, accoppiate a una codifica posizionale specializzata della telecamera, consentendo un controllo preciso e continuo della trasformazione della telecamera tra un numero arbitrario di viste di riferimento e target. EscherNet offre un'eccezionale generalità, flessibilità e scalabilità nella sintesi di prospettive: può generare simultaneamente più di 100 viste target coerenti su una singola GPU di livello consumer, nonostante sia stato addestrato con un numero fisso di 3 viste di riferimento e 3 viste target. Di conseguenza, EscherNet non solo affronta la sintesi di nuove prospettive in modalità zero-shot, ma unifica naturalmente anche la ricostruzione 3D da singola e multipla immagine, combinando questi compiti diversi in un unico framework coerente. I nostri ampi esperimenti dimostrano che EscherNet raggiunge prestazioni all'avanguardia in molteplici benchmark, anche rispetto a metodi specificamente progettati per ciascun problema individuale. Questa notevole versatilità apre nuove direzioni per la progettazione di architetture neurali scalabili per la visione 3D. Pagina del progetto: https://kxhit.github.io/EscherNet.
Proponiamo il fine-tuning di modelli linguistici di grandi dimensioni per la generazione di materiali stabili. Sebbene non convenzionale, il fine-tuning di modelli linguistici di grandi dimensioni su dati atomistici codificati in testo è semplice da implementare e affidabile, con circa il 90% delle strutture campionate che rispettano i vincoli fisici sulle posizioni degli atomi e sulle cariche. Utilizzando calcoli dell'energia sopra lo scafo sia da potenziali ML appresi che da calcoli DFT di riferimento, dimostriamo che il nostro modello più potente (LLaMA-2 70B con fine-tuning) può generare materiali previsti come metastabili a una frequenza circa doppia (49% vs 28%) rispetto a CDVAE, un modello di diffusione concorrente. Grazie alla flessibilità intrinseca del prompting testuale, i nostri modelli possono essere utilizzati contemporaneamente per la generazione incondizionata di materiali stabili, il riempimento di strutture parziali e la generazione condizionata da testo. Infine, dimostriamo che la capacità dei modelli linguistici di catturare le simmetrie chiave delle strutture cristalline migliora con la scala del modello, suggerendo che i bias dei LLM pre-addestrati sono sorprendentemente adatti ai dati atomistici.
Presentiamo il Diffusion World Model (DWM), un modello di diffusione condizionale in grado di prevedere contemporaneamente stati futuri multistep e ricompense. A differenza dei tradizionali modelli dinamici a un passo, DWM offre previsioni a lungo orizzonte in un singolo passaggio in avanti, eliminando la necessità di query ricorsive. Integriamo DWM nella stima del valore basata su modelli, dove il rendimento a breve termine viene simulato da traiettorie future campionate da DWM. Nel contesto del reinforcement learning offline, DWM può essere visto come una regolarizzazione conservativa del valore attraverso la modellazione generativa. In alternativa, può essere considerato come una fonte di dati che abilita l'apprendimento Q offline con dati sintetici. I nostri esperimenti sul dataset D4RL confermano la robustezza di DWM nella simulazione a lungo orizzonte. In termini di prestazioni assolute, DWM supera significativamente i modelli dinamici a un passo con un guadagno di prestazioni del 44% e raggiunge prestazioni all'avanguardia.