Articoli di ricerca IA selezionati quotidianamente con traduzioni
Generare risposte naturali e significative per comunicare con input umani multimodali è una capacità fondamentale dei Modelli Linguistico-Visuali di Grande Scala (LVLM). Mentre gli attuali LVLM open-source dimostrano prestazioni promettenti in scenari semplificati come input a singolo turno e singola immagine, risultano carenti in scenari di conversazione del mondo reale, come seguire istruzioni in un contesto storico lungo con multi-turno e multi-immagini. I benchmark esistenti per LVLM si concentrano principalmente su domande a scelta singola o risposte brevi, che non valutano adeguatamente le capacità degli LVLM nelle applicazioni di interazione uomo-IA del mondo reale. Pertanto, introduciamo MMDU, un benchmark completo, e MMDU-45k, un ampio dataset di tuning delle istruzioni, progettati per valutare e migliorare le capacità degli LVLM nelle conversazioni multi-turno e multi-immagini. Utilizziamo un algoritmo di clustering per trovare le immagini e le descrizioni testuali rilevanti da Wikipedia open-source e costruiamo le coppie domanda-risposta con annotatori umani assistiti dal modello GPT-4. MMDU ha un massimo di 18k token di immagine+testo, 20 immagini e 27 turni, che è almeno 5 volte più lungo dei benchmark precedenti e pone sfide agli attuali LVLM. La nostra analisi approfondita di 15 LVLM rappresentativi utilizzando MMDU rivela che gli LVLM open-source sono in ritardo rispetto alle controparti closed-source a causa dei dati limitati di tuning delle istruzioni conversazionali. Dimostriamo che il fine-tuning degli LVLM open-source su MMDU-45k affronta significativamente questo divario, generando conversazioni più lunghe e accurate e migliorando i punteggi su MMDU e benchmark esistenti (MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%). I nostri contributi aprono la strada per colmare il divario tra gli attuali modelli LVLM e le esigenze delle applicazioni del mondo reale. Questo progetto è disponibile all'indirizzo https://github.com/Liuziyu77/MMDU.
Introduciamo DataComp for Language Models (DCLM), un banco di prova per esperimenti controllati su dataset con l'obiettivo di migliorare i modelli linguistici. Come parte di DCLM, forniamo un corpus standardizzato di 240T di token estratti da Common Crawl, ricette efficaci per il pre-addestramento basate sul framework OpenLM e una vasta suite di 53 valutazioni downstream. I partecipanti al benchmark DCLM possono sperimentare strategie di cura dei dati come deduplicazione, filtraggio e miscelazione dei dati su scale di modelli che vanno da 412M a 7B di parametri. Come baseline per DCLM, conduciamo ampi esperimenti e scopriamo che il filtraggio basato su modelli è fondamentale per assemblare un insieme di addestramento di alta qualità. Il dataset risultante, DCLM-Baseline, consente di addestrare un modello linguistico da 7B di parametri da zero fino a un'accuratezza del 64% in 5-shot su MMLU con 2.6T di token di addestramento. Rispetto a MAP-Neo, il precedente stato dell'arte nei modelli linguistici a dati aperti, DCLM-Baseline rappresenta un miglioramento di 6.6 punti percentuali su MMLU pur essendo addestrato con il 40% in meno di risorse computazionali. Il nostro modello baseline è anche paragonabile a Mistral-7B-v0.3 e Llama 3 8B su MMLU (63% e 66%) e performa in modo simile su una media di 53 task di comprensione del linguaggio naturale pur essendo addestrato con 6.6 volte meno risorse computazionali rispetto a Llama 3 8B. I nostri risultati evidenziano l'importanza della progettazione dei dataset per l'addestramento dei modelli linguistici e offrono un punto di partenza per ulteriori ricerche sulla cura dei dati.
L'ottimizzazione diretta delle preferenze (DPO) si è dimostrata un metodo efficace per l'allineamento dei modelli linguistici di grandi dimensioni (LLM). Recenti lavori hanno tentato di applicare la DPO a scenari multimodali, ma hanno riscontrato difficoltà nel raggiungere miglioramenti consistenti. Attraverso un esperimento comparativo, abbiamo identificato il problema della preferenza incondizionata nell'ottimizzazione delle preferenze multimodali, in cui il modello trascura la condizione dell'immagine. Per affrontare questo problema, proponiamo mDPO, un obiettivo DPO multimodale che previene la sovrapprioritizzazione delle preferenze basate solo sul linguaggio ottimizzando anche la preferenza per le immagini. Inoltre, introduciamo un'ancora di ricompensa che forza la ricompensa ad essere positiva per le risposte scelte, evitando così la diminuzione della loro probabilità — un problema intrinseco dell'ottimizzazione relativa delle preferenze. Esperimenti condotti su due LLM multimodali di dimensioni diverse e su tre benchmark ampiamente utilizzati dimostrano che mDPO affronta efficacemente il problema della preferenza incondizionata nell'ottimizzazione delle preferenze multimodali e migliora significativamente le prestazioni del modello, in particolare nella riduzione delle allucinazioni.
I grandi modelli linguistici (LLM) sono in grado di elaborare storie di dialogo estese durante interazioni prolungate con gli utenti senza la necessità di moduli di memoria aggiuntivi; tuttavia, le loro risposte tendono a trascurare o a ricordare in modo errato le informazioni del passato. In questo articolo, riprendiamo in esame la generazione di risposte potenziata dalla memoria nell'era degli LLM. Mentre il lavoro precedente si concentrava sull'eliminazione di memorie obsolete, sosteniamo che tali memorie possono fornire indizi contestuali che aiutano i sistemi di dialogo a comprendere lo sviluppo degli eventi passati e, di conseguenza, a migliorare la generazione delle risposte. Presentiamo Theanine, un framework che potenzia la generazione di risposte degli LLM con linee temporali della memoria — serie di memorie che dimostrano lo sviluppo e la causalità degli eventi passati rilevanti. Insieme a Theanine, introduciamo TeaFarm, una pipeline di risposta alle domande basata su controfattuali che affronta la limitazione di G-Eval nelle conversazioni a lungo termine. Video supplementari dei nostri metodi e il dataset TeaBag per la valutazione di TeaFarm sono disponibili su https://theanine-693b0.web.app/.
Recentemente, gli asset 3D creati tramite ricostruzione e generazione hanno raggiunto la qualità degli asset realizzati manualmente, evidenziando il loro potenziale di sostituzione. Tuttavia, questo potenziale è in gran parte irrealizzato perché questi asset devono sempre essere convertiti in mesh per le applicazioni dell'industria 3D, e le mesh prodotte dai metodi attuali di estrazione delle mesh sono significativamente inferiori alle Mesh Create da Artisti (AMs), ovvero mesh create da artisti umani. Nello specifico, i metodi attuali di estrazione delle mesh si basano su facce dense e ignorano le caratteristiche geometriche, portando a inefficienze, post-elaborazioni complicate e una qualità di rappresentazione inferiore. Per affrontare questi problemi, introduciamo MeshAnything, un modello che tratta l'estrazione delle mesh come un problema di generazione, producendo AMs allineate con forme specificate. Convertendo asset 3D in qualsiasi rappresentazione 3D in AMs, MeshAnything può essere integrato con vari metodi di produzione di asset 3D, migliorando così la loro applicazione nell'industria 3D. L'architettura di MeshAnything comprende un VQ-VAE e un trasformatore decoder-only condizionato dalla forma. Inizialmente apprendiamo un vocabolario di mesh utilizzando il VQ-VAE, poi addestriamo il trasformatore decoder-only condizionato dalla forma su questo vocabolario per la generazione autoregressiva di mesh condizionata dalla forma. I nostri ampi esperimenti dimostrano che il nostro metodo genera AMs con centinaia di volte meno facce, migliorando significativamente l'efficienza di archiviazione, rendering e simulazione, raggiungendo una precisione comparabile ai metodi precedenti.
Nonostante la recente osservazione che i grandi modelli linguistici (LLM) possano memorizzare una quantità sostanziale di conoscenze fattuali, c'è una comprensione limitata dei meccanismi attraverso i quali acquisiscono tali conoscenze durante il pretraining. Questo lavoro colma questa lacuna studiando come gli LLM acquisiscono conoscenze fattuali durante il pretraining. I risultati rivelano diverse importanti intuizioni sulla dinamica di acquisizione delle conoscenze fattuali durante il pretraining. In primo luogo, contrariamente a quanto ci si potrebbe aspettare, osserviamo che il pretraining su una maggiore quantità di dati non mostra un miglioramento significativo nella capacità del modello di acquisire e mantenere conoscenze fattuali. In secondo luogo, esiste una relazione di legge di potenza tra i passi di addestramento e la dimenticanza della memorizzazione e della generalizzazione delle conoscenze fattuali, e gli LLM addestrati con dati duplicati mostrano una dimenticanza più rapida. In terzo luogo, l'addestramento di LLM con dimensioni di batch più grandi può migliorare la robustezza dei modelli alla dimenticanza. Nel complesso, le nostre osservazioni suggeriscono che l'acquisizione di conoscenze fattuali nel pretraining degli LLM avviene aumentando progressivamente la probabilità delle conoscenze fattuali presenti nei dati di pretraining a ogni passo. Tuttavia, questo aumento viene diluito dalla successiva dimenticanza. Sulla base di questa interpretazione, dimostriamo che possiamo fornire spiegazioni plausibili per comportamenti recentemente osservati negli LLM, come le scarse prestazioni degli LLM sulle conoscenze a coda lunga e i benefici della deduplicazione del corpus di pretraining.
I recenti modelli linguistici di grandi dimensioni sono stati potenziati con capacità visive, consentendo loro di comprendere immagini, video e contenuti interconnessi tra visione e linguaggio. Tuttavia, i metodi di apprendimento di questi grandi modelli multimodali trattano tipicamente i video come clip predeterminate, rendendoli meno efficaci ed efficienti nella gestione di input video in streaming. In questo articolo, proponiamo un nuovo framework chiamato Learning-In-Video-Stream (LIVE), che abilita conversazioni temporalmente allineate, a lungo contesto e in tempo reale all'interno di un flusso video continuo. Il nostro framework LIVE comprende approcci completi per realizzare dialoghi in streaming video, includendo: (1) un obiettivo di addestramento progettato per eseguire il modeling linguistico per input in streaming continui, (2) uno schema di generazione dati che converte annotazioni temporali offline in un formato di dialogo in streaming, e (3) una pipeline di inferenza ottimizzata per accelerare le risposte del modello in flussi video reali. Con il nostro framework LIVE, abbiamo costruito il modello VideoLLM-online basato su Llama-2/Llama-3 e dimostrato i suoi significativi vantaggi nell'elaborazione di video in streaming. Ad esempio, in media, il nostro modello può supportare dialoghi in streaming in un clip video di 5 minuti a oltre 10 FPS su una GPU A100. Inoltre, mostra anche prestazioni all'avanguardia su benchmark video pubblici offline, come riconoscimento, descrizione e previsione. Il codice, il modello, i dati e la demo sono disponibili all'indirizzo https://showlab.github.io/videollm-online.
L'implementazione di modelli linguistici di grandi dimensioni (LLM) è spesso ostacolata dagli estesi requisiti di memoria della cache Chiave-Valore (KV), specialmente con l'aumento della lunghezza del contesto. Gli approcci esistenti per ridurre le dimensioni della cache KV implicano il fine-tuning del modello per apprendere una strategia di compressione o l'utilizzo dei punteggi di attenzione per ridurre la lunghezza della sequenza. Analizziamo le distribuzioni di attenzione nei modelli basati su Transformer a solo decodifica e osserviamo che i modelli di allocazione dell'attenzione rimangono consistenti nella maggior parte dei livelli. Sorprendentemente, troviamo una chiara correlazione tra la norma L_2 e i punteggi di attenzione sulle coppie KV memorizzate, dove una bassa norma L_2 di un'embedding chiave solitamente porta a un punteggio di attenzione elevato durante la decodifica. Questa scoperta indica che l'influenza di una coppia KV è potenzialmente determinata dall'embedding chiave stessa prima di essere interrogata. Sulla base di questa osservazione, comprimiamo la cache KV in base alla norma L_2 delle embedding chiave. I nostri risultati sperimentali mostrano che questa semplice strategia può ridurre le dimensioni della cache KV del 50% su compiti di modellazione linguistica e di ricerca dell'ago nel pagliaio e del 90% su compiti di recupero di passkey senza perdere accuratezza.
Percepire e comprendere i suoni non verbali e il parlato non verbale è essenziale per prendere decisioni che ci aiutano a interagire con l'ambiente circostante. In questo articolo, proponiamo GAMA, un nuovo modello Large Audio-Language Model (LALM) generico con capacità avanzate di comprensione audio e ragionamento complesso. Costruiamo GAMA integrando un LLM con molteplici tipi di rappresentazioni audio, inclusi i feature provenienti da un custom Audio Q-Former, un aggregatore multi-strato che aggrega i feature da più livelli di un encoder audio. Ottimizziamo GAMA su un dataset audio-linguistico su larga scala, che lo arricchisce con capacità di comprensione audio. Successivamente, proponiamo CompA-R (Instruction-Tuning per il Ragionamento Audio Complesso), un dataset di instruction-tuning (IT) generato sinteticamente con istruzioni che richiedono al modello di eseguire ragionamenti complessi sull'audio in input. Eseguiamo l'instruction-tuning di GAMA con CompA-R per dotarlo di capacità di ragionamento complesso, aggiungendo ulteriormente un soft prompt come input con evidenze semantiche di alto livello sfruttando i tag degli eventi dell'audio in input. Infine, proponiamo anche CompA-R-test, un dataset di valutazione etichettato manualmente per valutare le capacità dei LALM su domande aperte di risposta all'audio che richiedono ragionamenti complessi. Attraverso valutazioni automatizzate e da parte di esperti umani, dimostriamo che GAMA supera tutti gli altri LALM presenti in letteratura su diverse attività di comprensione audio con margini dell'1%-84%. Inoltre, GAMA ottimizzato con CompA-R si dimostra superiore nelle sue capacità di ragionamento complesso e di seguire le istruzioni.
I grandi modelli linguistici (LLM) basati su trasformatori decoder-only hanno dimostrato capacità di comprensione del testo superiori rispetto ai modelli della serie CLIP e T5. Tuttavia, il paradigma per utilizzare gli attuali LLM avanzati nei modelli di diffusione testo-immagine rimane da esplorare. Abbiamo osservato un fenomeno insolito: l'uso diretto di un grande modello linguistico come codificatore di prompt degrada significativamente la capacità di seguire il prompt nella generazione di immagini. Abbiamo identificato due principali ostacoli dietro questo problema. Uno è il disallineamento tra l'addestramento alla previsione del token successivo negli LLM e il requisito di caratteristiche discriminative del prompt nei modelli di diffusione. L'altro è il bias posizionale intrinseco introdotto dall'architettura decoder-only. Per affrontare questo problema, proponiamo un nuovo framework per sfruttare appieno le capacità degli LLM. Attraverso una guida d'uso attentamente progettata, miglioriamo efficacemente la capacità di rappresentazione del testo per la codifica del prompt ed eliminiamo il suo bias posizionale intrinseco. Questo ci permette di integrare gli LLM all'avanguardia nel modello di generazione testo-immagine in modo flessibile. Inoltre, forniamo anche un modo efficace per fondere più LLM nel nostro framework. Considerando le eccellenti prestazioni e capacità di scalabilità dimostrate dall'architettura del trasformatore, progettiamo ulteriormente un Diffusion Transformer Infuso da LLM (LI-DiT) basato sul framework. Condividiamo ampi esperimenti per validare LI-DiT in termini di dimensione del modello e dei dati. Grazie alle capacità intrinseche degli LLM e alle nostre innovazioni progettuali, le prestazioni di comprensione del prompt di LI-DiT superano facilmente i modelli open-source all'avanguardia, nonché i principali modelli commerciali closed-source, tra cui Stable Diffusion 3, DALL-E 3 e Midjourney V6. Il potente LI-DiT-10B sarà disponibile dopo ulteriori ottimizzazioni e controlli di sicurezza.
I dataset multimodali intervallati che presentano sequenze liberamente intervallate di immagini e testo sono cruciali per l'addestramento di modelli multimodali di grandi dimensioni (LMM) all'avanguardia. Nonostante il rapido progresso degli LMM open-source, persiste una marcata carenza di dataset multimodali intervallati open-source su larga scala e diversificati. In risposta a ciò, presentiamo MINT-1T, il dataset Multimodale INTerleaved open-source più esteso e diversificato fino ad oggi. MINT-1T comprende un trilione di token di testo e tre miliardi di immagini, rappresentando un incremento di 10 volte rispetto ai dataset open-source esistenti. Inoltre, includiamo fonti precedentemente non sfruttate come PDF e articoli di ArXiv. Poiché il ridimensionamento dei dataset multimodali intervallati richiede un notevole sforzo ingegneristico, condividere il processo di curatela dei dati e rilasciare il dataset apporta un grande beneficio alla comunità. I nostri esperimenti dimostrano che gli LMM addestrati su MINT-1T rivaleggiano con le prestazioni dei modelli addestrati sul precedente dataset leader, OBELICS. I nostri dati e il codice saranno rilasciati all'indirizzo https://github.com/mlfoundations/MINT-1T.
Il paradigma esistente di fine-tuning per i modelli linguistici risulta fragile negli scenari di modifica della conoscenza, in cui il modello deve incorporare nuove informazioni senza un ampio riaddestramento. Questa fragilità spesso porta a overfitting, riduzione delle prestazioni e generazione di linguaggio innaturale. Per affrontare questo problema, proponiamo Consistent In-Context Editing (ICE), un approccio innovativo che sfrutta la capacità di apprendimento contestuale del modello per adattarsi a una distribuzione contestuale piuttosto che a un target one-hot. ICE introduce un framework di ottimizzazione semplice che include sia un target che una procedura, migliorando la robustezza e l'efficacia dei metodi di tuning basati su gradienti. Forniamo approfondimenti analitici su ICE in quattro aspetti critici della modifica della conoscenza: accuratezza, località, generalizzazione e qualità linguistica, evidenziandone i vantaggi. I risultati sperimentali su quattro dataset confermano l'efficacia di ICE e ne dimostrano il potenziale per la modifica continua, garantendo che le informazioni aggiornate vengano incorporate preservando l'integrità del modello.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato un'eccellente comprensione delle immagini e dei dati 3D. Tuttavia, entrambe le modalità presentano limiti nel catturare in modo olistico l'aspetto e la geometria degli oggetti. Nel frattempo, i Campi di Radianza Neurale (NeRFs), che codificano le informazioni all'interno dei pesi di un semplice Perceptron Multistrato (MLP), sono emersi come una modalità sempre più diffusa che codifica simultaneamente la geometria e l'aspetto fotorealistico degli oggetti. Questo articolo indaga la fattibilità e l'efficacia dell'integrazione dei NeRF negli MLLM. Abbiamo creato LLaNA, il primo assistente linguistico generico basato su NeRF in grado di eseguire nuove attività come la descrizione di NeRF e il Q&A. È importante notare che il nostro metodo elabora direttamente i pesi dell'MLP del NeRF per estrarre informazioni sugli oggetti rappresentati, senza la necessità di renderizzare immagini o materializzare strutture di dati 3D. Inoltre, abbiamo costruito un dataset di NeRF con annotazioni testuali per varie attività linguistiche basate su NeRF, senza intervento umano. Sulla base di questo dataset, abbiamo sviluppato un benchmark per valutare la capacità di comprensione dei NeRF del nostro metodo. I risultati mostrano che l'elaborazione dei pesi dei NeRF si comporta favorevolmente rispetto all'estrazione di rappresentazioni 2D o 3D dai NeRF.
L'addestramento di modelli linguistico-visivi di grandi dimensioni richiede coppie immagine-testo estese e di alta qualità. Tuttavia, i dataset esistenti ottenuti tramite scraping web sono rumorosi e privi di descrizioni dettagliate delle immagini. Per colmare questa lacuna, introduciamo PixelProse, un dataset completo di oltre 16 milioni di didascalie generate sinteticamente, sfruttando modelli linguistico-visivi all'avanguardia per ottenere descrizioni dettagliate e accurate. Per garantire l'integrità dei dati, analizziamo rigorosamente il nostro dataset alla ricerca di contenuti problematici, tra cui materiale di abuso sessuale su minori (CSAM), informazioni personalmente identificabili (PII) e tossicità. Forniamo inoltre metadati preziosi come la presenza di filigrane e punteggi estetici, utili per un'ulteriore filtrazione del dataset. Speriamo che PixelProse possa rappresentare una risorsa preziosa per la futura ricerca nel campo linguistico-visivo. PixelProse è disponibile all'indirizzo https://huggingface.co/datasets/tomg-group-umd/pixelprose.
L'apprendimento per rinforzo basato sul feedback umano (RLHF) rappresenta una soluzione promettente per allineare i grandi modelli linguistici (LLM) più strettamente ai valori umani. L'ottimizzazione delle preferenze off-policy, in cui i dati sulle preferenze sono ottenuti da altri modelli, è ampiamente adottata grazie alla sua efficienza in termini di costi e scalabilità. Tuttavia, l'ottimizzazione delle preferenze off-policy spesso soffre di un divario distributivo tra la politica utilizzata per la raccolta dei dati e la politica target, portando a un'ottimizzazione subottimale. In questo articolo, proponiamo una nuova strategia per mitigare questo problema simulando l'apprendimento on-policy con dati di preferenza off-policy. Il nostro metodo di Ottimizzazione delle Preferenze Ponderate (WPO) adatta i dati off-policy per assomigliare più da vicino ai dati on-policy, ricalibrando le coppie di preferenze in base alla loro probabilità sotto la politica corrente. Questo metodo non solo affronta il problema del divario distributivo, ma migliora anche il processo di ottimizzazione senza comportare costi aggiuntivi. Validiamo il nostro metodo su benchmark di follow-up delle istruzioni, tra cui Alpaca Eval 2 e MT-bench. WPO non solo supera l'Ottimizzazione Diretta delle Preferenze (DPO) fino al 5,6% su Alpaca Eval 2, ma stabilisce anche un tasso di vittoria controllato per lunghezza notevole del 48,6% contro GPT-4-turbo basato su Llama-3-8B-Instruct, rendendolo il modello 8B più forte nella classifica. Rilasceremo il codice e i modelli su https://github.com/wzhouad/WPO.
I modelli del mondo simulano stati futuri del mondo in risposta a diverse azioni. Facilitano la creazione di contenuti interattivi e forniscono una base per un ragionamento fondato e a lungo termine. Gli attuali modelli di base non soddisfano pienamente le capacità dei modelli del mondo generali: i grandi modelli linguistici (LLM) sono limitati dalla loro dipendenza dalla modalità linguistica e dalla loro comprensione limitata del mondo fisico, mentre i modelli video mancano di un controllo interattivo delle azioni sulle simulazioni del mondo. Questo articolo compie un passo verso la costruzione di un modello del mondo generale introducendo Pandora, un modello ibrido autoregressivo-diffusivo che simula stati del mondo generando video e consente un controllo in tempo reale con azioni in testo libero. Pandora raggiunge la generalità di dominio, la coerenza video e la controllabilità attraverso un preaddestramento su larga scala e una messa a punto basata su istruzioni. Fondamentalmente, Pandora aggira il costo dell'addestramento da zero integrando un LLM preaddestrato (7B) e un modello video preaddestrato, richiedendo solo un'ulteriore messa a punto leggera. Illustriamo ampi output di Pandora in diversi domini (interno/esterno, naturale/urbano, umano/robot, 2D/3D, ecc.). I risultati indicano un grande potenziale per costruire modelli del mondo generali più robusti con un addestramento su scala più ampia.
I recenti progressi nei modelli visione-linguaggio (VLMs) sottolineano la necessità di valutare le preferenze umane nelle interazioni multimodali del mondo reale. Per colmare questa lacuna, abbiamo lanciato WildVision-Arena (WV-Arena), una piattaforma online che raccoglie le preferenze umane per valutare i VLMs. Abbiamo curato WV-Bench selezionando 500 campioni di alta qualità tra 8.000 invii degli utenti su WV-Arena. WV-Bench utilizza GPT-4 come giudice per confrontare ogni VLM con Claude-3-Sonnet, raggiungendo una correlazione di Spearman di 0,94 con l'Elo di WV-Arena. Questo risultato supera significativamente altri benchmark come MMVet, MMMU e MMStar. La nostra analisi completa di 20.000 interazioni del mondo reale rivela importanti intuizioni sui casi di fallimento dei VLMs più performanti. Ad esempio, scopriamo che, sebbene GPT-4V superi molti altri modelli come Reka-Flash, Opus e Yi-VL-Plus in semplici compiti di riconoscimento visivo e ragionamento, incontra ancora difficoltà con indizi contestuali sottili, ragionamento spaziale, immaginazione visiva e conoscenza di dominio specialistico. Inoltre, gli attuali VLMs mostrano problemi di allucinazioni e sicurezza quando vengono intenzionalmente provocati. Stiamo rilasciando i nostri dati di chat e feedback per favorire ulteriori progressi nella ricerca nel campo dei VLMs.
Presentiamo L4GM, il primo Large Reconstruction Model 4D in grado di generare oggetti animati a partire da un video a singola vista — in un unico passaggio in avanti che richiede solo un secondo. La chiave del nostro successo risiede in un nuovo dataset di video multivista contenenti oggetti animati curati e renderizzati da Objaverse. Questo dataset rappresenta 44K oggetti diversi con 110K animazioni renderizzate da 48 punti di vista, risultando in 12M video per un totale di 300M fotogrammi. Manteniamo L4GM semplice per garantire scalabilità e lo costruiamo direttamente su LGM, un Large Reconstruction Model 3D preaddestrato che produce ellissoidi gaussiani 3D da input di immagini multivista. L4GM genera una rappresentazione 3D Gaussian Splatting per fotogramma da frame video campionati a basso fps, per poi aumentare la frequenza di campionamento della rappresentazione a un fps più elevato per ottenere una fluidità temporale. Aggiungiamo strati di self-attention temporale al modello base LGM per aiutarlo a apprendere la coerenza nel tempo e utilizziamo una funzione di perdita di rendering multivista per timestep per addestrare il modello. La rappresentazione viene aumentata a una frequenza di fotogrammi più elevata addestrando un modello di interpolazione che produce rappresentazioni gaussiane 3D intermedie. Dimostriamo che L4GM, addestrato esclusivamente su dati sintetici, generalizza estremamente bene su video reali, producendo risorse 3D animate di alta qualità.
Nel mondo reale, i documenti sono organizzati in formati diversi e con modalità variate. Le pipeline di recupero tradizionali richiedono tecniche di parsing dei documenti personalizzate e moduli di estrazione del contenuto per preparare l'input per l'indicizzazione. Questo processo è tedioso, soggetto a errori e comporta una perdita di informazioni. A tal fine, proponiamo Document Screenshot Embedding (DSE), un nuovo paradigma di recupero che considera gli screenshot dei documenti come un formato di input unificato, il quale non richiede alcun preprocesso di estrazione del contenuto e preserva tutte le informazioni di un documento (ad esempio, testo, immagini e layout). DSE sfrutta un modello vision-language di grandi dimensioni per codificare direttamente gli screenshot dei documenti in rappresentazioni dense per il recupero. Per valutare il nostro metodo, abbiamo prima creato il dataset Wiki-SS, un corpus di 1,3 milioni di screenshot di pagine web di Wikipedia, per rispondere alle domande del dataset Natural Questions. In un contesto di recupero di documenti intensivi di testo, DSE mostra un'efficacia competitiva rispetto ad altri metodi di recupero del testo che si basano sul parsing. Ad esempio, DSE supera BM25 di 17 punti in termini di accuratezza di recupero top-1. Inoltre, in un'attività di recupero di slide con modalità mista, DSE supera significativamente i metodi di recupero del testo OCR di oltre 15 punti in nDCG@10. Questi esperimenti dimostrano che DSE è un paradigma efficace per il recupero di documenti di vario tipo. I checkpoint del modello, il codice e la collezione Wiki-SS saranno rilasciati.
I benchmark per i grandi modelli linguistici multimodali (MLM) ora servono a valutare simultaneamente le capacità generali dei modelli, anziché concentrarsi su una specifica abilità. Di conseguenza, quando uno sviluppatore desidera identificare quali modelli utilizzare per la propria applicazione, si trova sopraffatto dal numero di benchmark e rimane incerto su quali risultati siano più rappresentativi del proprio caso d'uso specifico. Questo articolo introduce Task-Me-Anything, un motore di generazione di benchmark che produce un benchmark su misura per le esigenze dell'utente. Task-Me-Anything mantiene una tassonomia estendibile di risorse visive e può generare programmaticamente un vasto numero di istanze di task. Inoltre, affronta algoritmicamente le query degli utenti riguardanti le prestazioni degli MLM in modo efficiente, rispettando un budget computazionale. Contiene 113K immagini, 10K video, 2K risorse di oggetti 3D, oltre 365 categorie di oggetti, 655 attributi e 335 relazioni. È in grado di generare 750M coppie domanda-risposta basate su immagini/video, focalizzate sulla valutazione delle capacità percettive degli MLM. Task-Me-Anything rivela intuizioni cruciali: gli MLM open-source eccellono nel riconoscimento di oggetti e attributi ma mancano di comprensione spaziale e temporale; ogni modello mostra punti di forza e debolezza unici; i modelli più grandi generalmente performano meglio, sebbene esistano eccezioni; e GPT4o dimostra difficoltà nel riconoscere oggetti in rotazione/movimento e nel distinguere i colori.
Una recente frontiera nella visione artificiale è stata il compito della generazione di video 3D, che consiste nel creare una rappresentazione 3D variabile nel tempo di una scena. Per generare scene 3D dinamiche, i metodi attuali modellano esplicitamente le dinamiche temporali 3D ottimizzando congiuntamente la coerenza sia nel tempo che nelle diverse visualizzazioni della scena. In questo articolo, ci chiediamo se sia necessario imporre esplicitamente la coerenza multivista nel tempo, come fanno gli approcci attuali, o se sia sufficiente che un modello generi rappresentazioni 3D di ogni istante temporale in modo indipendente. Proponiamo quindi un modello, Vid3D, che sfrutta la diffusione di video 2D per generare video 3D, generando prima un "seme" 2D delle dinamiche temporali del video e poi creando indipendentemente una rappresentazione 3D per ogni istante temporale nel video seme. Valutiamo Vid3D rispetto a due metodi all'avanguardia per la generazione di video 3D e scopriamo che Vid3D ottiene risultati comparabili nonostante non modelli esplicitamente le dinamiche temporali 3D. Analizziamo inoltre come la qualità di Vid3D dipenda dal numero di visualizzazioni generate per fotogramma. Sebbene osserviamo un certo degrado con un numero inferiore di visualizzazioni, il calo delle prestazioni rimane minimo. I nostri risultati suggeriscono quindi che la conoscenza temporale 3D potrebbe non essere necessaria per generare scene 3D dinamiche di alta qualità, potenzialmente abilitando algoritmi generativi più semplici per questo compito.
Presentiamo un nuovo dataset multimodale di preferenze per compiti creativi, costituito da oltre 250 milioni di valutazioni umane su più di 2,2 milioni di didascalie, raccolte attraverso dati di valutazione crowdsourcing per il concorso settimanale di didascalie per i fumetti di The New Yorker negli ultimi otto anni. Questo dataset unico supporta lo sviluppo e la valutazione di modelli linguistici multimodali di grandi dimensioni e algoritmi di fine-tuning basati su preferenze per la generazione di didascalie umoristiche. Proponiamo nuovi benchmark per giudicare la qualità delle didascalie generate dai modelli, utilizzando sia GPT-4 che giudizi umani per stabilire strategie di valutazione basate sul ranking. I nostri risultati sperimentali evidenziano i limiti degli attuali metodi di fine-tuning, come RLHF e DPO, quando applicati a compiti creativi. Inoltre, dimostriamo che anche modelli all'avanguardia come GPT-4 e Claude attualmente hanno prestazioni inferiori rispetto ai migliori concorrenti umani nella generazione di didascalie umoristiche. Concludendo questo ampio sforzo di raccolta dati, rilasciamo l'intero dataset di preferenze alla comunità di ricerca, promuovendo ulteriori progressi nella generazione e valutazione dell'umorismo nell'IA.
È ampiamente ritenuto che una rete neurale possa adattarsi a un insieme di addestramento contenente almeno tanti campioni quanti sono i suoi parametri, sostenendo le nozioni di modelli sovraparametrizzati e sottoparametrizzati. Tuttavia, nella pratica, troviamo solo soluzioni accessibili tramite la nostra procedura di addestramento, inclusi l'ottimizzatore e i regolarizzatori, limitando la flessibilità. Inoltre, l'esatta parametrizzazione della classe di funzioni, integrata in un'architettura, modella la sua superficie di perdita e influisce sui minimi che troviamo. In questo lavoro, esaminiamo la capacità delle reti neurali di adattarsi ai dati nella pratica. Le nostre scoperte indicano che: (1) gli ottimizzatori standard trovano minimi in cui il modello può adattarsi solo a insiemi di addestramento con un numero significativamente inferiore di campioni rispetto ai parametri; (2) le reti convoluzionali sono più efficienti in termini di parametri rispetto alle MLP e alle ViT, anche su dati etichettati casualmente; (3) sebbene si pensi che l'addestramento stocastico abbia un effetto regolarizzante, l'SGD trova effettivamente minimi che si adattano a più dati di addestramento rispetto alla discesa del gradiente a batch completo; (4) la differenza nella capacità di adattarsi a campioni etichettati correttamente e in modo errato può essere predittiva della generalizzazione; (5) le funzioni di attivazione ReLU portano a trovare minimi che si adattano a più dati nonostante siano progettate per evitare il problema del gradiente che svanisce o esplode nelle architetture profonde.
La rapida ascesa dei Modelli Linguistici (LM) ha ampliato il loro utilizzo in diverse applicazioni. Tuttavia, a causa di vincoli legati alle dimensioni del modello, ai costi associati o a restrizioni proprietarie, non è sempre possibile utilizzare i modelli linguistici più avanzati (SOTA). Con l'emergere di LM più piccoli e aperti, un numero maggiore di applicazioni può sfruttare le loro capacità, ma la selezione del LM più adatto può risultare complessa. Questo lavoro conduce un'analisi sperimentale approfondita della correttezza semantica degli output di 10 LM più piccoli e aperti, considerando tre aspetti: tipi di task, domini applicativi e tipi di ragionamento, utilizzando diversi stili di prompt. Dimostriamo che i modelli e gli stili di prompt più efficaci variano in base ai requisiti specifici. La nostra analisi fornisce una valutazione comparativa dei LM e degli stili di prompt utilizzando uno schema a tre livelli di aspetti per la loro selezione strategica in base al caso d'uso e ad altri vincoli. Mostriamo inoltre che, se utilizzati in modo appropriato, questi LM possono competere e talvolta superare i SOTA LLM come DeepSeek-v2, GPT-3.5-Turbo e GPT-4o.
La selezione di dati di alta qualità per il pre-addestramento è cruciale nel determinare le prestazioni dei modelli linguistici nei task downstream. Una delle principali sfide risiede nell'identificare questo sottoinsieme ottimale, un problema generalmente considerato intrattabile, che richiede quindi euristiche scalabili ed efficaci. In questo lavoro, proponiamo un metodo di selezione dei dati, CoLoR-Filter (Conditional Loss Reduction Filtering), che sfrutta un approccio ispirato all'empirical Bayes per derivare un criterio di selezione semplice e computazionalmente efficiente basato sui valori di perdita relativi di due modelli ausiliari. Oltre alla logica di modellazione, valutiamo empiricamente CoLoR-Filter su due task di modellazione linguistica: (1) la selezione di dati da C4 per l'adattamento al dominio nella valutazione su Books e (2) la selezione di dati da C4 per una serie di task downstream di risposta a domande a scelta multipla. Dimostriamo un favorevole scaling sia quando selezioniamo i dati in modo più aggressivo, sia utilizzando piccoli modelli ausiliari per selezionare dati per modelli target di grandi dimensioni. Come risultato principale, i dati selezionati con CoLoR-Filter utilizzando una coppia di modelli ausiliari da 150 milioni di parametri possono addestrare un modello target da 1,2 miliardi di parametri per eguagliare le prestazioni di un modello da 1,2 miliardi di parametri addestrato su 25 miliardi di token selezionati casualmente, utilizzando 25 volte meno dati per Books e 11 volte meno dati per i task downstream. Codice: https://github.com/davidbrandfonbrener/color-filter-olmo Dati filtrati: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
I trasformatori basati su attenzione sono diventati l'architettura standard in molti campi del deep learning, principalmente grazie alla loro capacità di modellare dipendenze a lungo raggio e gestire sequenze di input di lunghezza variabile. Tuttavia, il meccanismo di attenzione, con la sua complessità quadratica, rappresenta un significativo collo di bottiglia nell'architettura dei trasformatori. Questo algoritmo è unidirezionale solo nel decoder e converge verso un pattern statico nei modelli decoder-only sovra-parametrizzati. Affronto questo problema sviluppando una funzione generativa come sostituto dell'attenzione o dell'attivazione. Mantiene comunque il carattere auto-regressivo confrontando ogni token con quello precedente. Nel mio ambiente di test con nanoGPT, ciò produce una perdita inferiore pur avendo un modello più piccolo. La perdita diminuisce ulteriormente incorporando un vettore di contesto medio. Questo concetto di sostituzione dell'attenzione è distribuito sotto la licenza GNU AGPL v3 all'indirizzo https://gitlab.com/Bachstelze/causal_generation.
Una miriade di diversi modelli linguistici di grandi dimensioni (LLM) affronta una sfida comune nell'analisi contestuale dei compiti di risposta a domande basate su tabelle. Queste sfide derivano da (1) finestre di contesto limitate per tabelle di grandi dimensioni, (2) discrepanze multifaccettate tra i modelli di tokenizzazione e i confini delle celle, e (3) varie limitazioni legate alla riservatezza dei dati nel processo di utilizzo di modelli esterni come gpt-3.5-turbo. Proponiamo un gioco cooperativo denominato "HiddenTables" come potenziale soluzione a questa sfida. In sostanza, "HiddenTables" viene giocato tra l'LLM generatore di codice "Solver" e l'"Oracle" che valuta la capacità degli agenti LLM di risolvere compiti di Table QA. Questo gioco si basa su schemi di linguaggio naturale e, cosa importante, garantisce la sicurezza dei dati sottostanti. Forniamo esperimenti evidenti su un insieme diversificato di tabelle che dimostrano l'incapacità collettiva degli LLM di generalizzare e performare su query complesse, gestire dipendenze composizionali e allineare il linguaggio naturale a comandi programmatici quando vengono forniti schemi di tabelle concreti. A differenza dei modelli basati su encoder, abbiamo spinto i confini di "HiddenTables" per non essere limitati dal numero di righe, dimostrando quindi un'efficienza migliorata nei token di prompt e completamento. La nostra infrastruttura ha generato un nuovo dataset "PyQTax" che copre 116.711 triplette domanda-tabella-risposta e fornisce ulteriori suddivisioni dettagliate ed etichette per diverse tassonomie di domande. Pertanto, in parallelo con i nostri contributi accademici riguardo alle carenze degli LLM nei compiti di TableQA, "HiddenTables" è una manifestazione tangibile di come gli LLM possano interagire con dataset di grandi dimensioni garantendo la sicurezza dei dati e minimizzando i costi di generazione.
La pittura generativa 3D è tra i principali fattori di aumento della produttività nella gestione e nel riciclo di asset 3D ad alta risoluzione. Da quando i modelli testo-immagine sono diventati accessibili per l'inferenza su hardware consumer, le prestazioni dei metodi di pittura 3D sono migliorate costantemente e attualmente si avvicinano a un plateau. Al centro della maggior parte di questi modelli si trova il processo iterativo di denoising diffusion nello spazio latente, intrinsecamente dispendioso in termini di tempo. Recentemente sono state sviluppate diverse tecniche per accelerare la generazione e ridurre le iterazioni di campionamento di ordini di grandezza. Progettate per l'imaging generativo 2D, queste tecniche non includono indicazioni per estenderle al 3D. In questo articolo, affrontiamo questa lacuna proponendo un adattamento del Latent Consistency Model (LCM) per il compito in questione. Analizziamo i punti di forza e le debolezze del modello proposto e lo valutiamo quantitativamente e qualitativamente. Sulla base dello studio dei campioni del dataset Objaverse, il nostro metodo di pittura 3D ottiene un forte consenso in tutte le valutazioni. Il codice sorgente è disponibile all'indirizzo https://github.com/kongdai123/consistency2.
Sfruttare le preferenze umane per orientare il comportamento dei Large Language Models (LLM) ha dimostrato un notevole successo negli ultimi anni. Tuttavia, la selezione e l'etichettatura dei dati rimangono un collo di bottiglia per questi sistemi, specialmente su larga scala. Pertanto, selezionare i punti più informativi per acquisire feedback umano può ridurre significativamente il costo dell'etichettatura delle preferenze e favorire ulteriormente lo sviluppo degli LLM. L'Active Learning Bayesiano fornisce un framework strutturato per affrontare questa sfida e ha dimostrato un successo notevole in contesti diversi. Tuttavia, i precedenti tentativi di utilizzarlo per il Preference Modeling non hanno soddisfatto tali aspettative. In questo lavoro, identifichiamo che una stima ingenua dell'incertezza epistemica porta all'acquisizione di campioni ridondanti. Affrontiamo questo problema proponendo il Bayesian Active Learner for Preference Modeling (BAL-PM), una nuova politica di acquisizione stocastica che non solo mira a punti di alta incertezza epistemica secondo il modello di preferenza, ma cerca anche di massimizzare l'entropia della distribuzione dei prompt acquisiti nello spazio delle feature generato dall'LLM utilizzato. In particolare, i nostri esperimenti dimostrano che BAL-PM richiede dal 33% al 68% in meno di etichette di preferenza in due popolari dataset di preferenze umane e supera le precedenti politiche di acquisizione stocastica bayesiana.