Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il rapido sviluppo dei modelli linguistici e visivi di grandi dimensioni (LLVM) è stato guidato dai progressi nel visual instruction tuning. Recentemente, gli LLVM open-source hanno curato dataset di alta qualità per il visual instruction tuning e hanno utilizzato encoder visivi aggiuntivi o modelli di computer vision multipli al fine di ridurre il divario di prestazioni con i potenti LLVM closed-source. Questi progressi sono attribuiti alle informazioni multifaccettate necessarie per capacità diverse, tra cui la comprensione fondamentale delle immagini, la conoscenza del mondo reale su concetti di senso comune e non oggettuali (ad esempio, grafici, diagrammi, simboli, segni e problemi matematici), e procedure passo-passo per risolvere domande complesse. Attingendo da queste informazioni multifaccettate, presentiamo un nuovo LLVM efficiente, il traversal of rationales basato su Mamba (Meteor), che sfrutta il rationale multifaccettato per migliorare le capacità di comprensione e risposta. Per incorporare rationale lunghi contenenti informazioni abbondanti, utilizziamo l'architettura Mamba, in grado di elaborare dati sequenziali con complessità temporale lineare. Introduciamo un nuovo concetto di traversal of rationale che facilita l'incorporazione efficiente del rationale. Successivamente, il modello linguistico multimodale (MLM) di base viene addestrato per generare risposte con l'aiuto del rationale. Attraverso questi passaggi, Meteor ottiene miglioramenti significativi nelle prestazioni di visione e linguaggio su molteplici benchmark di valutazione che richiedono capacità diverse, senza aumentare le dimensioni del modello o impiegare encoder visivi aggiuntivi e modelli di computer vision.
I modelli multimodali di grandi dimensioni ad alta risoluzione (LMM) affrontano le sfide rappresentate da un eccesso di token visivi e dalla complessità visiva quadratica. Gli attuali LMM ad alta risoluzione gestiscono la complessità quadratica pur continuando a generare un numero eccessivo di token visivi. Tuttavia, la ridondanza nei token visivi è il problema principale, poiché comporta un maggiore carico computazionale. Per mitigare questo problema, proponiamo ConvLLaVA, che utilizza ConvNeXt, un'architettura gerarchica, come codificatore visivo dell'LMM al posto del Vision Transformer (ViT). ConvLLaVA comprime le immagini ad alta risoluzione in caratteristiche visive ricche di informazioni, prevenendo efficacemente la generazione di un eccesso di token visivi. Per potenziare le capacità di ConvLLaVA, proponiamo due ottimizzazioni cruciali. Poiché il ConvNeXt pre-addestrato a bassa risoluzione ha prestazioni inferiori se applicato direttamente ad alta risoluzione, lo aggiorniamo per colmare questo divario. Inoltre, poiché il rapporto di compressione originale di ConvNeXt è insufficiente per input a risoluzioni molto più elevate, addestriamo una fase successiva per comprimere ulteriormente i token visivi, riducendo così la ridondanza. Queste ottimizzazioni consentono a ConvLLaVA di supportare input con risoluzione 1536x1536 generando solo 576 token visivi, in grado di gestire immagini con rapporti d'aspetto arbitrari. I risultati sperimentali dimostrano che il nostro metodo raggiunge prestazioni competitive rispetto ai modelli all'avanguardia sui benchmark principali. La serie di modelli ConvLLaVA è disponibile pubblicamente all'indirizzo https://github.com/alibaba/conv-llava.
Studiamo se i transformer possono imparare a ragionare implicitamente su conoscenza parametrica, un'abilità con cui anche i modelli linguistici più avanzati faticano. Concentrandoci su due tipi di ragionamento rappresentativi, composizione e confronto, riscontriamo costantemente che i transformer possono apprendere il ragionamento implicito, ma solo attraverso il grokking, ovvero un addestramento prolungato ben oltre il sovradattamento. I livelli di generalizzazione variano inoltre tra i tipi di ragionamento: quando affrontano esempi fuori distribuzione, i transformer non riescono a generalizzare sistematicamente per la composizione, ma ci riescono per il confronto. Esploriamo gli interni del modello durante l'addestramento, conducendo esperimenti analitici che rivelano: 1) il meccanismo alla base del grokking, come la formazione del circuito generalizzante e la sua relazione con l'efficienza relativa dei circuiti di memorizzazione e generalizzazione, e 2) la connessione tra sistematicità e configurazione del circuito generalizzante. I nostri risultati guidano la scelta dei dati e del setup di addestramento per favorire meglio il ragionamento implicito e suggeriscono potenziali miglioramenti all'architettura dei transformer, come incentivare la condivisione di conoscenza tra i livelli. Inoltre, dimostriamo che per un compito di ragionamento complesso con un ampio spazio di ricerca, GPT-4-Turbo e Gemini-1.5-Pro, basati su memoria non parametrica, falliscono gravemente indipendentemente dagli stili di prompt o dall'aumento tramite recupero, mentre un transformer completamente grokkato può raggiungere un'accuratezza quasi perfetta, evidenziando la potenza della memoria parametrica per il ragionamento complesso.
Questo rapporto tecnico introduce Aya 23, una famiglia di modelli linguistici multilingue. Aya 23 si basa sul recente rilascio del modello Aya ("Ust"ün et al., 2024), concentrandosi sull'abbinamento di un modello pre-addestrato ad alte prestazioni con la recentemente pubblicata collezione Aya (Singh et al., 2024). Il risultato è un potente modello linguistico di grandi dimensioni che supporta 23 lingue, estendendo le capacità all'avanguardia nella modellazione linguistica a circa metà della popolazione mondiale. Mentre il modello Aya copriva 101 lingue, Aya 23 rappresenta un esperimento tra profondità e ampiezza, esplorando l'impatto dell'allocazione di maggiore capacità a un numero ridotto di lingue incluse durante il pre-addestramento. Aya 23 supera sia i precedenti modelli massicciamente multilingue come Aya 101 per le lingue che copre, sia modelli ampiamente utilizzati come Gemma, Mistral e Mixtral in un'ampia gamma di task discriminativi e generativi. Rilasciamo i pesi open sia per i modelli da 8B che da 35B come parte del nostro impegno continuo per ampliare l'accesso ai progressi multilingue.
I LLM sono computazionalmente costosi da pre-addestrare a causa della loro vasta scala. La crescita del modello emerge come un approccio promettente sfruttando modelli più piccoli per accelerare l'addestramento di quelli più grandi. Tuttavia, la fattibilità di questi metodi di crescita del modello nel pre-addestramento efficiente dei LLM rimane poco esplorata. Questo lavoro identifica tre ostacoli critici: (O1) mancanza di una valutazione completa, (O2) fattibilità non testata per il ridimensionamento e (O3) mancanza di linee guida empiriche. Per affrontare O1, riassumiamo gli approcci esistenti in quattro operatori di crescita atomici e li valutiamo sistematicamente in un contesto standardizzato di pre-addestramento di LLM. I nostri risultati rivelano che un operatore di impilamento in profondità, chiamato G_{stack}, mostra un'accelerazione notevole nell'addestramento, portando a una riduzione della perdita e a un miglioramento delle prestazioni complessive su otto benchmark NLP standard rispetto a baseline solide. Motivati da questi risultati promettenti, conduciamo esperimenti estesi per approfondire G_{stack} per affrontare O2 e O3. Per O2 (scalabilità non testata), il nostro studio mostra che G_{stack} è scalabile e performa costantemente bene, con esperimenti fino a LLM da 7B dopo la crescita e pre-addestramento di LLM con 750B token. Ad esempio, rispetto a un modello da 7B addestrato convenzionalmente utilizzando 300B token, il nostro modello G_{stack} converge alla stessa perdita con 194B token, risultando in un'accelerazione del 54,6%. Affrontiamo ulteriormente O3 (mancanza di linee guida empiriche) formalizzando linee guida per determinare il momento della crescita e il fattore di crescita per G_{stack}, rendendolo pratico nel pre-addestramento generale dei LLM. Forniamo anche discussioni approfondite e studi di ablazione completi su G_{stack}. Il nostro codice e il modello pre-addestrato sono disponibili su https://llm-stacking.github.io/{https://llm-stacking.github.io/}.
Presentiamo AutoCoder, il primo Large Language Model a superare GPT-4 Turbo (aprile 2024) e GPT-4o nel test benchmark Human Eval in termini di pass@1 (90,9% vs. 90,2%). Inoltre, AutoCoder offre un interprete di codice più versatile rispetto a GPT-4 Turbo e GPT-4o. Il suo interprete di codice può installare pacchetti esterni invece di limitarsi ai pacchetti integrati. I dati di addestramento di AutoCoder provengono da un dataset di dialogo multi-turn creato da un sistema che combina interazione tra agenti e verifica tramite esecuzione di codice esterno, un metodo che abbiamo denominato \textsc{AIEV-Instruct} (Instruction Tuning con Interazione tra Agenti e Verifica Esecutiva). Rispetto ai precedenti metodi di generazione di dataset di codice su larga scala, AIEV-Instruct riduce la dipendenza da modelli proprietari di grandi dimensioni e fornisce un dataset di codice validato tramite esecuzione. Il codice e il video dimostrativo sono disponibili su https://github.com/bin123apple/AutoCoder.
Gli attuali schemi di regolazione del tasso di apprendimento che non richiedono la specifica del passo di arresto T dell'ottimizzazione sono ampiamente superati dagli schemi che dipendono da T. Proponiamo un approccio che evita la necessità di questo tempo di arresto rinunciando completamente all'uso di schemi, pur dimostrando prestazioni all'avanguardia rispetto agli schemi in un'ampia gamma di problemi, dai problemi convessi ai problemi di deep learning su larga scala. Il nostro approccio "Schedule-Free" non introduce ulteriori iperparametri rispetto agli ottimizzatori standard con momento. Il nostro metodo è una diretta conseguenza di una nuova teoria che abbiamo sviluppato, la quale unifica la regolazione del tasso di apprendimento e la media delle iterazioni. Un'implementazione open source del nostro metodo è disponibile (https://github.com/facebookresearch/schedule_free).
Presentiamo un innovativo sistema di modellazione 3D generativa, denominato CraftsMan, in grado di generare geometrie 3D ad alta fedeltà con forme altamente variabili, topologie di mesh regolari e superfici dettagliate, e, in particolare, consente di affinare la geometria in modo interattivo. Nonostante i significativi progressi nella generazione 3D, i metodi esistenti continuano a lottare con processi di ottimizzazione lunghi, topologie di mesh irregolari, superfici rumorose e difficoltà nell'accomodare le modifiche dell'utente, ostacolando di conseguenza la loro ampia adozione e implementazione nei software di modellazione 3D. Il nostro lavoro è ispirato dall'artigiano, che solitamente abbozza prima la figura complessiva dell'opera e successivamente elabora i dettagli superficiali. Nello specifico, utilizziamo un modello di diffusione 3D nativo, che opera su uno spazio latente appreso da rappresentazioni 3D basate su insiemi latenti, per generare geometrie grezze con topologia di mesh regolare in pochi secondi. In particolare, questo processo prende in input un prompt testuale o un'immagine di riferimento e sfrutta un potente modello di diffusione multi-vista (MV) per generare multiple viste della geometria grezza, che vengono poi alimentate nel nostro modello di diffusione 3D condizionato MV per generare la geometria 3D, migliorando significativamente robustezza e generalizzabilità. Successivamente, un affinatore di geometria basato sulle normali viene utilizzato per migliorare significativamente i dettagli superficiali. Questo affinamento può essere eseguito automaticamente o in modo interattivo con le modifiche fornite dall'utente. Esperimenti estensivi dimostrano che il nostro metodo raggiunge un'elevata efficacia nella produzione di asset 3D di qualità superiore rispetto ai metodi esistenti. HomePage: https://craftsman3d.github.io/, Codice: https://github.com/wyysf-98/CraftsMan
I modelli del mondo (world models) consentono agli agenti basati su modelli di esplorare, ragionare e pianificare in modo interattivo all'interno di ambienti immaginati per il processo decisionale nel mondo reale. Tuttavia, l'elevata richiesta di interattività pone sfide nello sfruttare i recenti progressi nei modelli generativi di video per sviluppare modelli del mondo su larga scala. Questo lavoro introduce Interactive VideoGPT (iVideoGPT), un framework scalabile basato su trasformatori autoregressivi che integra segnali multimodali—osservazioni visive, azioni e ricompense—in una sequenza di token, facilitando un'esperienza interattiva degli agenti tramite la previsione del token successivo. iVideoGPT presenta una tecnica innovativa di tokenizzazione compressiva che discretizza in modo efficiente osservazioni visive ad alta dimensionalità. Sfruttando la sua architettura scalabile, siamo in grado di pre-addestrare iVideoGPT su milioni di traiettorie di manipolazione umana e robotica, stabilendo una base versatile adattabile per fungere da modelli del mondo interattivi per un'ampia gamma di task downstream. Questi includono la previsione di video condizionata all'azione, la pianificazione visiva e l'apprendimento per rinforzo basato su modelli, dove iVideoGPT raggiunge prestazioni competitive rispetto ai metodi all'avanguardia. Il nostro lavoro avanza lo sviluppo di modelli del mondo generali interattivi, colmando il divario tra i modelli generativi di video e le applicazioni pratiche dell'apprendimento per rinforzo basato su modelli.
Le caratteristiche auto-supervisionate sono il fondamento dei moderni sistemi di apprendimento automatico. Tipicamente, vengono pre-addestrate su raccolte di dati la cui costruzione e cura richiedono un notevole sforzo umano. Questo processo manuale presenta alcune limitazioni simili a quelle riscontrate nell'apprendimento supervisionato, ad esempio, la selezione dei dati tramite crowd-sourcing è costosa e richiede tempo, impedendo di scalare le dimensioni del dataset. In questo lavoro, consideriamo il problema della cura automatica di dataset di alta qualità per il pre-addestramento auto-supervisionato. Proponiamo che tali dataset debbano essere grandi, diversificati e bilanciati, e suggeriamo un approccio basato sul clustering per costruire dataset che soddisfino tutti questi criteri. Il nostro metodo prevede applicazioni successive e gerarchiche di k-means su un ampio e diversificato repository di dati per ottenere cluster che si distribuiscono uniformemente tra i concetti dei dati, seguiti da un passaggio di campionamento gerarchico e bilanciato da questi cluster. Esperimenti estesi su tre diversi domini di dati, tra cui immagini web, immagini satellitari e testo, dimostrano che le caratteristiche addestrate sui nostri dataset curati automaticamente superano quelle addestrate su dati non curati, risultando pari o migliori rispetto a quelle addestrate su dati curati manualmente.
I modelli linguistici (LM) sono stati a lungo utilizzati per migliorare i risultati dei sistemi di riconoscimento vocale automatico (ASR), ma non sono consapevoli degli errori che tali sistemi commettono. I modelli di correzione degli errori sono progettati per correggere gli errori dell'ASR, tuttavia hanno mostrato scarsi miglioramenti rispetto ai tradizionali LM, principalmente a causa della mancanza di dati di addestramento supervisionati. In questo articolo, presentiamo il Denoising LM (DLM), un modello di correzione degli errori su larga scala addestrato con grandi quantità di dati sintetici, che supera significativamente i tentativi precedenti e raggiunge nuove prestazioni all'avanguardia nell'ASR. Utilizziamo sistemi di sintesi vocale (TTS) per generare audio, che viene poi elaborato da un sistema ASR per produrre ipotesi rumorose, che vengono accoppiate con i testi originali per addestrare il DLM. Il DLM include diversi elementi chiave: (i) modello e dati su larga scala; (ii) utilizzo di sistemi TTS multi-speaker; (iii) combinazione di diverse strategie di aumento del rumore; e (iv) nuove tecniche di decodifica. Con un ASR Transformer-CTC, il DLM raggiunge un tasso di errore sulle parole (WER) dell'1,5% su test-clean e del 3,3% su test-other su Librispeech, che, a nostra conoscenza, sono i migliori risultati riportati in uno scenario in cui non vengono utilizzati dati audio esterni e che eguagliano persino i metodi auto-supervisionati che utilizzano dati audio esterni. Inoltre, un singolo DLM è applicabile a diversi ASR e supera di gran lunga le prestazioni del tradizionale rescoring basato su beam-search con LM. Questi risultati indicano che i modelli di correzione degli errori, se adeguatamente studiati, hanno il potenziale per sostituire i tradizionali LM, rappresentando la chiave per un nuovo livello di accuratezza nei sistemi ASR.
I grandi modelli linguistici dimostrano capacità di generalizzazione eccezionali, attribuibili principalmente all'utilizzo di dati provenienti da fonti diversificate. Tuttavia, le pratiche convenzionali per integrare questi dati eterogenei si basano fortemente su schemi euristici, privi di una guida teorica. Questa ricerca affronta tali limitazioni esplorando strategie basate su proxy a basso costo per le miscele di dati, con l'obiettivo di semplificare la cura dei dati per migliorare l'efficienza dell'addestramento. Nello specifico, proponiamo una legge di scala unificata, denominata BiMix, che modella accuratamente i comportamenti di scala bivariati sia della quantità di dati che delle proporzioni di miscelazione. Condividiamo esperimenti sistematici e forniamo evidenze empiriche del potere predittivo e dei principi fondamentali di BiMix. In particolare, i nostri risultati rivelano che miscele di dati guidate dall'entropia e prive di addestramento possono ottenere prestazioni comparabili o addirittura migliori rispetto a metodi più dispendiosi in termini di risorse. Speriamo che le nostre intuizioni quantitative possano illuminare ulteriori ricerche e sviluppi giudiziosi nella modellazione linguistica economicamente vantaggiosa.
La sintesi di nuove viste (NVS) ad alto intervallo dinamico (HDR) mira a creare immagini fotorealistiche da nuovi punti di vista utilizzando tecniche di imaging HDR. Le immagini HDR renderizzate catturano una gamma più ampia di livelli di luminosità, contenendo più dettagli della scena rispetto alle normali immagini a basso intervallo dinamico (LDR). I metodi esistenti per la NVS HDR si basano principalmente su NeRF, ma soffrono di lunghi tempi di addestramento e di una velocità di inferenza lenta. In questo articolo, proponiamo un nuovo framework, High Dynamic Range Gaussian Splatting (HDR-GS), che può renderizzare efficientemente nuove viste HDR e ricostruire immagini LDR con un tempo di esposizione inserito dall'utente. Nello specifico, progettiamo un modello di nuvola di punti Gaussiana a Doppio Intervallo Dinamico (DDR) che utilizza armoniche sferiche per adattare il colore HDR e impiega un tone-mapper basato su MLP per renderizzare il colore LDR. I colori HDR e LDR vengono quindi inseriti in due processi di Rasterizzazione Differenziabile Parallela (PDR) per ricostruire le viste HDR e LDR. Per stabilire la base dati per la ricerca sui metodi basati su splatting Gaussiano 3D nella NVS HDR, ricalibriamo i parametri della fotocamera e calcoliamo le posizioni iniziali per le nuvole di punti Gaussiane. Gli esperimenti dimostrano che il nostro HDR-GS supera il metodo basato su NeRF all'avanguardia di 3,84 e 1,91 dB rispettivamente su NVS LDR e HDR, godendo di una velocità di inferenza 1000 volte maggiore e richiedendo solo il 6,3% del tempo di addestramento.