Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'anno scorso, le architetture multimodali hanno portato una rivoluzione negli approcci e nelle soluzioni basate sull'IA, estendendo le capacità dei grandi modelli linguistici (LLM). Proponiamo un modello OmniFusion basato su un LLM preaddestrato e adattatori per la modalità visiva. Abbiamo valutato e confrontato diversi principi di progettazione architetturale per un migliore accoppiamento di dati testuali e visivi: adattatori MLP e transformer, vari encoder basati su CLIP ViT (SigLIP, InternVIT, ecc.), il loro approccio di fusione, il metodo di codifica delle immagini (codifica dell'intera immagine o a tasselli) e due LLM da 7B (uno proprietario e l'open-source Mistral). Gli esperimenti su 8 benchmark visivo-linguistici mostrano il punteggio più alto per la migliore configurazione di OmniFusion in termini di diversi compiti di VQA rispetto a soluzioni open-source simili a LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Proponiamo inoltre una varietà di situazioni in cui OmniFusion fornisce risposte altamente dettagliate in diversi domini: gestione domestica, visite turistiche, cultura, medicina, riconoscimento di equazioni scritte a mano e scansionate, ecc. Il modello OmniFusion basato su Mistral è una soluzione open-source con pesi, script di addestramento e inferenza disponibili all'indirizzo https://github.com/AIRI-Institute/OmniFusion.
I grandi modelli linguistici basati esclusivamente su decoder (LLM) rappresentano lo stato dell'arte per la maggior parte dei compiti e benchmark odierni nell'ambito dell'elaborazione del linguaggio naturale (NLP). Tuttavia, la comunità sta adottando solo lentamente questi modelli per i compiti di embedding del testo, che richiedono rappresentazioni contestualizzate e ricche. In questo lavoro, introduciamo LLM2Vec, un semplice approccio non supervisionato in grado di trasformare qualsiasi LLM basato esclusivamente su decoder in un forte codificatore di testo. LLM2Vec consiste in tre semplici passaggi: 1) abilitazione dell'attenzione bidirezionale, 2) previsione mascherata del token successivo e 3) apprendimento contrastivo non supervisionato. Dimostriamo l'efficacia di LLM2Vec applicandolo a 3 LLM popolari, con un numero di parametri compreso tra 1,3B e 7B, e valutiamo i modelli trasformati su compiti a livello di parola e sequenza in inglese. Superiamo i modelli basati esclusivamente su encoder con un ampio margine nei compiti a livello di parola e raggiungiamo una nuova prestazione non supervisionata all'avanguardia sul Massive Text Embeddings Benchmark (MTEB). Inoltre, combinando LLM2Vec con l'apprendimento contrastivo supervisionato, otteniamo prestazioni all'avanguardia su MTEB tra i modelli che si addestrano solo su dati pubblicamente disponibili. I nostri solidi risultati empirici e l'analisi estesa dimostrano che gli LLM possono essere trasformati efficacemente in codificatori di testo universali in modo efficiente in termini di parametri, senza la necessità di adattamenti costosi o dati sintetici generati da GPT-4.
Presentiamo Eagle (RWKV-5) e Finch (RWKV-6), modelli di sequenza che migliorano l'architettura RWKV (RWKV-4). I nostri progressi nel design architetturale includono stati a matrice multi-testata e un meccanismo di ricorrenza dinamica che aumentano l'espressività pur mantenendo le caratteristiche di efficienza nell'inferenza tipiche delle RNN. Introduciamo un nuovo corpus multilingue con 1,12 trilioni di token e un tokenizzatore veloce basato su corrispondenza greedy per una migliore multilinguità. Abbiamo addestrato quattro modelli Eagle, con un numero di parametri compreso tra 0,46 e 7,5 miliardi, e due modelli Finch con 1,6 e 3,1 miliardi di parametri, riscontrando che raggiungono prestazioni competitive su un'ampia varietà di benchmark. Rilasciamo tutti i nostri modelli su HuggingFace con licenza Apache 2.0. I modelli sono disponibili su: https://huggingface.co/RWKV Il codice di addestramento su: https://github.com/RWKV/RWKV-LM Il codice di inferenza su: https://github.com/RWKV/ChatRWKV Il codice di addestramento time-parallel su: https://github.com/RWKV/RWKV-infctx-trainer
Il campo dei Large Vision-Language Model (LVLM) ha registrato progressi significativi, ma il suo avanzamento è stato ostacolato dalle difficoltà nel comprendere contenuti visivi di dettaglio a causa della risoluzione limitata. Recenti sforzi hanno mirato a migliorare le capacità di comprensione ad alta risoluzione degli LVLM, che tuttavia rimangono limitate a circa 1500 x 1500 pixel e confinate a un intervallo di risoluzione relativamente ristretto. Questo articolo presenta InternLM-XComposer2-4KHD, un'esplorazione pionieristica per elevare le capacità di risoluzione degli LVLM fino a 4K HD (3840 x 1600) e oltre. Contemporaneamente, considerando che la risoluzione ultra-alta potrebbe non essere necessaria in tutti gli scenari, il modello supporta un'ampia gamma di risoluzioni diverse, da 336 pixel fino allo standard 4K, ampliando significativamente il suo ambito di applicabilità. Nello specifico, questa ricerca avanza il paradigma della divisione in patch introducendo una nuova estensione: risoluzione dinamica con configurazione automatica delle patch. Mantiene le proporzioni delle immagini di addestramento mentre varia automaticamente il numero di patch e configura i layout basandosi su un Vision Transformer (ViT) pre-addestrato (336 x 336), portando a una risoluzione di addestramento dinamica che va da 336 pixel fino allo standard 4K. La nostra ricerca dimostra che aumentare la risoluzione di addestramento fino a 4K HD porta a miglioramenti consistenti delle prestazioni senza raggiungere un limite di potenziale miglioramento. InternLM-XComposer2-4KHD mostra una capacità eccezionale che eguaglia o addirittura supera GPT-4V e Gemini Pro in 10 dei 16 benchmark. La serie di modelli InternLM-XComposer2-4KHD con 7 miliardi di parametri è disponibile pubblicamente all'indirizzo https://github.com/InternLM/InternLM-XComposer.
Il crescente interesse nello sviluppo di Large Language Model (LLM) con fino a trilioni di parametri è stato accompagnato da preoccupazioni riguardo all'efficienza delle risorse e ai costi pratici, soprattutto considerando l'enorme costo degli esperimenti. Questo scenario sottolinea l'importanza di esplorare il potenziale dei Small Language Model (SLM) come alternativa efficiente in termini di risorse. In questo contesto, presentiamo MiniCPM, in particolare le varianti da 1,2 miliardi e 2,4 miliardi di parametri non di embedding, che non solo eccellono nelle rispettive categorie, ma dimostrano anche capacità paragonabili a LLM da 7-13 miliardi di parametri. Pur concentrandoci sugli SLM, il nostro approccio mostra scalabilità sia nelle dimensioni del modello che dei dati per la futura ricerca sugli LLM. Per quanto riguarda la scalabilità del modello, utilizziamo estesi esperimenti in galleria del vento per ottenere una scalabilità stabile e ottimale. Per la scalabilità dei dati, introduciamo un pianificatore del tasso di apprendimento (LRS) Warmup-Stable-Decay (WSD), favorevole alla formazione continua e all'adattamento al dominio. Presentiamo un'analisi approfondida delle dinamiche di formazione interessanti che si sono verificate nel LRS WSD. Con il LRS WSD, siamo ora in grado di studiare in modo efficiente la legge di scalabilità dati-modello senza la necessità di estesi esperimenti di riaddestramento su entrambi gli assi del modello e dei dati, da cui deriviamo un rapporto dati-modello molto più ottimale in termini di calcolo rispetto a quello di Chinchilla Optimal. Inoltre, introduciamo la famiglia MiniCPM, inclusi MiniCPM-DPO, MiniCPM-MoE e MiniCPM-128K, le cui eccellenti prestazioni consolidano ulteriormente le fondamenta di MiniCPM in diverse applicazioni SLM. I modelli MiniCPM sono disponibili pubblicamente all'indirizzo https://github.com/OpenBMB/MiniCPM.
L'instruction tuning è emerso come elemento chiave per allineare i grandi modelli linguistici (LLM) con istruzioni specifiche per i task, mitigando così la discrepanza tra l'obiettivo di previsione del token successivo e gli obiettivi effettivi degli utenti. Per ridurre il costo in termini di tempo e lavoro necessario per raccogliere o annotare dati manualmente, i ricercatori hanno iniziato a esplorare l'uso degli LLM per generare dati sintetici allineati alle istruzioni. I lavori recenti si concentrano sulla generazione di istruzioni diversificate e sull'applicazione degli LLM per aumentare la complessità delle istruzioni, spesso trascurando i casi d'uso downstream. Rimane poco chiaro come adattare dati di alta qualità per stimolare migliori capacità di seguire le istruzioni in diverse distribuzioni di istruzioni target e LLM. A tal fine, introduciamo CodecLM, un framework generale per generare in modo adattivo dati sintetici di alta qualità per l'allineamento degli LLM con diverse distribuzioni di istruzioni downstream e LLM. Ispirandoci ai principi Encode-Decode, utilizziamo gli LLM come codec per guidare il processo di generazione dei dati. Prima codifichiamo le istruzioni di partenza in metadati, ovvero parole chiave concise generate al volo per catturare la distribuzione delle istruzioni target, e poi decodifichiamo i metadati per creare istruzioni personalizzate. Introduciamo anche Self-Rubrics e Contrastive Filtering durante la decodifica per adattare campioni di dati efficienti. Esperimenti estesi su quattro benchmark open-domain per il seguire le istruzioni convalidano l'efficacia di CodecLM rispetto agli approcci state-of-the-art attuali.
In questo articolo, esploriamo l'applicazione dei Large Language Models (LLM) al pre-training musicale. Sebbene l'uso prevalente del MIDI nella modellazione musicale sia ben consolidato, i nostri risultati suggeriscono che i LLM sono intrinsecamente più compatibili con la notazione ABC, che si allinea più strettamente al loro design e ai loro punti di forza, migliorando così le prestazioni del modello nella composizione musicale. Per affrontare le sfide legate alla disallineazione delle misure provenienti da diverse tracce durante la generazione, proponiamo lo sviluppo di una notazione ABC Multi-Traccia Sincronizzata (SMT-ABC Notation), che mira a preservare la coerenza tra più tracce musicali. I nostri contributi includono una serie di modelli in grado di gestire fino a 8192 token, coprendo il 90\% dei dati musicali simbolici nel nostro set di addestramento. Inoltre, esploriamo le implicazioni della Legge di Scalabilità della Musica Simbolica (SMS Law) sulle prestazioni del modello. I risultati indicano una direzione promettente per la ricerca futura nella generazione musicale, offrendo ampie risorse per la ricerca guidata dalla comunità attraverso i nostri contributi open-source.
L'evoluzione della modellazione generativa 3D è stata notevolmente accelerata dall'adozione di modelli di diffusione 2D. Nonostante questi progressi, il processo di ottimizzazione stesso rappresenta un ostacolo critico per l'efficienza. In questo articolo, introduciamo Hash3D, un metodo universale per accelerare la generazione 3D senza addestramento del modello. Il fulcro di Hash3D è l'intuizione che la ridondanza delle mappe di caratteristiche sia prevalente nelle immagini renderizzate da posizioni della camera e passaggi temporali di diffusione vicini. Hashing e riutilizzando efficacemente queste mappe di caratteristiche tra passaggi temporali e angoli di camera adiacenti, Hash3D previene sostanzialmente calcoli ridondanti, accelerando così l'inferenza del modello di diffusione nei compiti di generazione 3D. Raggiungiamo questo obiettivo attraverso un hashing adattivo basato su griglia. Sorprendentemente, questo meccanismo di condivisione delle caratteristiche non solo accelera la generazione, ma migliora anche la fluidità e la coerenza visiva degli oggetti 3D sintetizzati. I nostri esperimenti, che coprono 5 modelli da testo-a-3D e 3 da immagine-a-3D, dimostrano la versatilità di Hash3D nell'accelerare l'ottimizzazione, migliorando l'efficienza da 1,3 a 4 volte. Inoltre, l'integrazione di Hash3D con lo splatting Gaussiano 3D accelera notevolmente la creazione di modelli 3D, riducendo il tempo di elaborazione da testo-a-3D a circa 10 minuti e la conversione da immagine-a-3D a circa 30 secondi. La pagina del progetto è disponibile all'indirizzo https://adamdad.github.io/hash3D/.
Nonostante la diffusa disponibilità di LLM, rimane un divario significativo nelle loro capacità e accessibilità attraverso diverse lingue. Un approccio per affrontare questi problemi è stato quello di prendere un LLM pre-addestrato esistente e continuare ad addestrarlo su nuove lingue. Sebbene lavori precedenti abbiano sperimentato l'adattamento linguistico, molte domande sulle migliori pratiche e metodologie non sono state affrontate. In questo articolo, presentiamo un'indagine completa sull'adattamento degli LLM a nuove lingue. Il nostro studio copre i componenti chiave di questo processo, inclusa l'estensione del vocabolario, l'ottimizzazione diretta delle preferenze e il problema della scarsità di dati per l'allineamento umano nelle lingue a bassa risorsa. Scaliamo questi esperimenti su 9 lingue e 2 dimensioni di parametri (7B e 70B). Confrontiamo i nostri modelli con Llama 2, Aya-101, XGLM, BLOOM e esperti linguistici esistenti, superando tutte le baseline pubblicate in precedenza. Inoltre, tutto il codice di valutazione e i checkpoint vengono resi pubblici per facilitare la ricerca futura.
La generazione da testo a 3D ha ottenuto un successo notevole grazie ai modelli di diffusione su larga scala da testo a immagine. Tuttavia, non esiste un paradigma per scalare questa metodologia a livello urbano. Le scene urbane, caratterizzate da numerosi elementi, relazioni di disposizione intricate e una vasta scala, rappresentano una barriera formidabile per l'interpretabilità delle descrizioni testuali ambigue necessarie per un'ottimizzazione efficace del modello. In questo lavoro, superiamo queste limitazioni introducendo una rappresentazione compositiva del layout 3D nel paradigma da testo a 3D, che funge da prior aggiuntivo. Essa comprende un insieme di primitive semantiche con strutture geometriche semplici e relazioni di disposizione esplicite, integrando le descrizioni testuali e consentendo una generazione guidata. Su questa base, proponiamo due modifiche: (1) Introduciamo la Distillazione del Punteggio Variazionale Guidata dal Layout per affrontare le inadeguatezze nell'ottimizzazione del modello. Essa condiziona il processo di campionamento della distillazione del punteggio con vincoli geometrici e semantici dei layout 3D. (2) Per gestire la natura illimitata delle scene urbane, rappresentiamo la scena 3D con una struttura Scalable Hash Grid, adattandosi gradualmente alla scala crescente delle scene urbane. Esperimenti estensivi confermano la capacità del nostro framework di scalare la generazione da testo a 3D a scene urbane su larga scala che coprono per la prima volta una distanza di guida superiore a 1000m. Presentiamo anche varie dimostrazioni di editing delle scene, mostrando le potenzialità della generazione guidata di scene urbane. Sito web: https://urbanarchitect.github.io.
In questo articolo, affrontiamo i limiti del Controllo Adattivo della Densità (ADC) nel Gaussian Splatting 3D (3DGS), un metodo di rappresentazione di scene che ottiene risultati fotorealistici di alta qualità per la sintesi di nuove viste. L'ADC è stato introdotto per la gestione automatica delle primitive di punti 3D, controllando la densificazione e la potatura, ma presenta alcune limitazioni nella logica di densificazione. Il nostro contributo principale è una formulazione più rigorosa, guidata dall'errore per pixel, per il controllo della densità nel 3DGS, sfruttando una funzione ausiliaria di errore per pixel come criterio per la densificazione. Introduciamo inoltre un meccanismo per controllare il numero totale di primitive generate per scena e correggiamo un bias nella strategia corrente di gestione dell'opacità dell'ADC durante le operazioni di clonazione. Il nostro approccio porta a miglioramenti consistenti della qualità in una varietà di scene di benchmark, senza sacrificare l'efficienza del metodo.
Traendo vantaggio dal rapido sviluppo dei modelli di diffusione 2D, la creazione di contenuti 3D ha compiuto progressi significativi di recente. Una soluzione promettente prevede il fine-tuning di modelli di diffusione 2D pre-addestrati per sfruttare la loro capacità di produrre immagini multi-vista, che vengono poi convertite in modelli 3D accurati tramite metodi come fast-NeRFs o modelli di ricostruzione su larga scala. Tuttavia, poiché persistono incongruenze e la risoluzione generata è limitata, i risultati di generazione di tali metodi mancano ancora di texture intricate e geometrie complesse. Per risolvere questo problema, proponiamo Magic-Boost, un modello di diffusione condizionato multi-vista che affina significativamente i risultati generativi grezzi attraverso un breve periodo di ottimizzazione SDS (circa 15 minuti). Rispetto ai precedenti modelli di diffusione basati su testo o singole immagini, Magic-Boost dimostra una robusta capacità di generare immagini con elevata coerenza a partire da immagini multi-vista pseudo-sintetizzate. Fornisce una guida SDS precisa che si allinea bene con l'identità delle immagini di input, arricchendo i dettagli locali sia nella geometria che nella texture dei risultati generativi iniziali. Esperimenti estensivi dimostrano che Magic-Boost migliora notevolmente gli input grezzi e genera asset 3D di alta qualità con ricchi dettagli geometrici e testurali. (Pagina del progetto: https://magic-research.github.io/magic-boost/)
Gli oggetti manipolati dalla mano (ovvero, i manipolandi) sono particolarmente difficili da ricostruire a partire da immagini o video RGB catturati in contesti reali. Non solo la mano occulta gran parte dell'oggetto, ma spesso l'oggetto è visibile solo in un numero limitato di pixel dell'immagine. Allo stesso tempo, emergono due punti di riferimento forti in questo contesto: (1) le mani 3D stimate aiutano a disambiguare la posizione e la scala dell'oggetto, e (2) l'insieme dei manipolandi è ridotto rispetto a tutti i possibili oggetti. Con queste intuizioni in mente, presentiamo un paradigma scalabile per la ricostruzione di oggetti tenuti in mano che si basa sui recenti progressi nei modelli linguistici/visivi su larga scala e nei dataset di oggetti 3D. Il nostro modello, MCC-Hand-Object (MCC-HO), ricostruisce congiuntamente la geometria della mano e dell'oggetto a partire da una singola immagine RGB e da una mano 3D inferita come input. Successivamente, utilizziamo GPT-4(V) per recuperare un modello 3D dell'oggetto che corrisponda all'oggetto nell'immagine e allineiamo rigidamente il modello alla geometria inferita dalla rete; chiamiamo questo allineamento Ricostruzione Aumentata dal Recupero (Retrieval-Augmented Reconstruction, RAR). Gli esperimenti dimostrano che MCC-HO raggiunge prestazioni all'avanguardia su dataset di laboratorio e Internet, e mostriamo come RAR possa essere utilizzato per ottenere automaticamente etichette 3D per immagini di interazioni mano-oggetto catturate in contesti reali.
Mentre molti hanno dimostrato come i Large Language Model (LLM) possano essere applicati a un'ampia gamma di compiti, le questioni critiche della contaminazione dei dati e della memorizzazione sono spesso trascurate. In questo lavoro, affrontiamo questo problema per i dati tabulari. In particolare, introduciamo una varietà di tecniche per valutare se un modello linguistico ha visto un dataset tabulare durante l'addestramento. Questa indagine rivela che gli LLM hanno memorizzato molti dataset tabulari popolari alla lettera. Successivamente, confrontiamo le prestazioni di apprendimento few-shot degli LLM su dataset visti durante l'addestramento con quelle su dataset pubblicati dopo l'addestramento. Scopriamo che gli LLM performano meglio sui dataset visti durante l'addestramento, indicando che la memorizzazione porta a un overfitting. Allo stesso tempo, gli LLM mostrano prestazioni non banali su dataset nuovi e sono sorprendentemente robusti alle trasformazioni dei dati. Investigiamo poi le capacità di apprendimento statistico in-context degli LLM. Senza fine-tuning, troviamo che queste sono limitate. Ciò suggerisce che gran parte delle prestazioni few-shot su dataset nuovi è dovuta alla conoscenza del mondo dell'LLM. Nel complesso, i nostri risultati evidenziano l'importanza di testare se un LLM ha visto un dataset di valutazione durante il pre-training. Rendiamo disponibili i test di esposizione sviluppati come pacchetto Python tabmemcheck su https://github.com/interpretml/LLM-Tabular-Memorization-Checker.