Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli avanzamenti recenti nei modelli visione-linguaggio hanno migliorato le prestazioni aumentando la lunghezza dei token visivi, rendendoli molto più lunghi dei token di testo e aumentando significativamente i costi computazionali. Tuttavia, osserviamo che i token visivi generati dai popolari encoder di visione, come CLIP e SigLIP, contengono una significativa ridondanza. Per affrontare questo problema, introduciamo VisionZip, un metodo semplice ma efficace che seleziona un insieme di token informativi per l'input al modello linguistico, riducendo la ridondanza dei token visivi e migliorando l'efficienza pur mantenendo le prestazioni del modello. Il VisionZip proposto può essere ampiamente applicato a compiti di comprensione di immagini e video ed è particolarmente adatto per dialoghi a più turni in scenari reali, dove i metodi precedenti tendono a non performare bene. I risultati sperimentali mostrano che VisionZip supera il metodo precedente all'avanguardia di almeno il 5% in termini di guadagni di prestazioni in quasi tutte le configurazioni. Inoltre, il nostro metodo migliora significativamente la velocità di inferenza del modello, riducendo il tempo di precaricamento di 8 volte e consentendo al modello LLaVA-Next 13B di inferire più velocemente rispetto al modello LLaVA-Next 7B ottenendo risultati migliori. Inoltre, analizziamo le cause di questa ridondanza e incoraggiamo la comunità a concentrarsi sull'estrazione di migliori caratteristiche visive piuttosto che semplicemente aumentare la lunghezza dei token. Il nostro codice è disponibile su https://github.com/dvlab-research/VisionZip.
Introduciamo un nuovo metodo di generazione 3D per la creazione versatile e di alta qualità di asset 3D. La pietra angolare è una rappresentazione unificata Strutturata LATente (SLAT) che consente la decodifica in diversi formati di output, come Campi di Radiazione, Gaussiane 3D e mesh. Ciò è ottenuto integrando una griglia 3D scarsamente popolata con caratteristiche visive multiview dense estratte da un potente modello di fondazione visiva, catturando in modo esaustivo informazioni strutturali (geometria) e testuali (aspetto) mantenendo flessibilità durante la decodifica. Utilizziamo trasformatori di flusso rettificati adattati per SLAT come i nostri modelli di generazione 3D e addestriamo modelli con fino a 2 miliardi di parametri su un ampio dataset di asset 3D di 500K oggetti diversi. Il nostro modello genera risultati di alta qualità con condizioni di testo o immagine, superando significativamente i metodi esistenti, inclusi quelli recenti a scale simili. Mostreremo la flessibilità nella selezione del formato di output e le capacità di modifica 3D locali che non erano offerte dai modelli precedenti. Il codice, il modello e i dati saranno resi disponibili.
Le Interfacce Utente Grafiche (GUI) sono cruciali per l'interazione uomo-computer, tuttavia automatizzare le attività delle GUI rimane sfidante a causa della complessità e variabilità degli ambienti visivi. Gli approcci esistenti spesso si basano su rappresentazioni testuali delle GUI, che introducono limitazioni nella generalizzazione, efficienza e scalabilità. In questo articolo, presentiamo Aguvis, un framework unificato basato esclusivamente sulla visione per agenti GUI autonomi che operano su diverse piattaforme. Il nostro approccio sfrutta osservazioni basate sull'immagine, e l'ancoraggio delle istruzioni nel linguaggio naturale agli elementi visivi, e utilizza uno spazio d'azione coerente per garantire la generalizzazione tra piattaforme. Per affrontare le limitazioni dei lavori precedenti, integriamo la pianificazione esplicita e il ragionamento nel modello, potenziando la sua capacità di navigare e interagire autonomamente con complessi ambienti digitali. Costruiamo un dataset su larga scala delle traiettorie degli agenti GUI, incorporando ragionamento e ancoraggio multimodale, e utilizziamo un pipeline di addestramento a due fasi che si concentra prima sull'ancoraggio generale delle GUI, seguito dalla pianificazione e dal ragionamento. Attraverso esperimenti esaustivi, dimostriamo che Aguvis supera i metodi state-of-the-art precedenti sia in scenari offline che online reali, raggiungendo, a nostra conoscenza, il primo agente GUI basato esclusivamente sulla visione in grado di svolgere attività in modo indipendente senza la collaborazione con modelli esterni closed-source. Abbiamo reso open-source tutti i dataset, i modelli e le procedure di addestramento per facilitare la ricerca futura su https://aguvis-project.github.io/.
Presentiamo Florence-VL, una nuova famiglia di grandi modelli di linguaggio multimodali (MLLMs) con rappresentazioni visive arricchite prodotte da Florence-2, un modello di base di visione generativa. A differenza del diffusamente utilizzato transformer di visione in stile CLIP addestrato mediante apprendimento contrastivo, Florence-2 è in grado di catturare diversi livelli e aspetti delle caratteristiche visive, che sono più versatili per essere adattati a diverse attività derivate. Proponiamo un'architettura di fusione di caratteristiche innovativa e una ricetta di addestramento che integra efficacemente le caratteristiche visive di Florence-2 nei MLLMs preaddestrati, come Phi 3.5 e LLama 3. In particolare, proponiamo "fusione di profondità e ampiezza (DBFusion)" per fondere le caratteristiche visive estratte da diverse profondità e sotto molteplici stimoli. Il nostro addestramento del modello è composto da preaddestramento end-to-end dell'intero modello seguito dal raffinamento del livello di proiezione e del LLM, su una ricetta attentamente progettata di diversi dataset open-source che includono didascalie di immagini di alta qualità e coppie di adattamento istruzioni. La nostra analisi quantitativa e la visualizzazione delle caratteristiche visive di Florence-VL mostrano i suoi vantaggi rispetto ai popolari codificatori di visione sull'allineamento visione-linguaggio, dove la profondità e l'ampiezza arricchite svolgono ruoli importanti. Florence-VL ottiene miglioramenti significativi rispetto ai MLLMs all'avanguardia esistenti su vari benchmark multimodali e centrati sulla visione che coprono VQA generale, percezione, allucinazione, OCR, grafico, comprensione intensiva della conoscenza, ecc. Per agevolare la ricerca futura, i nostri modelli e l'intera ricetta di addestramento sono resi open-source. https://github.com/JiuhaiChen/Florence-VL
I modelli di linguaggio visivo (VLM) hanno fatto significativi progressi in termini di accuratezza negli ultimi anni. Tuttavia, la loro efficienza ha ricevuto molta meno attenzione. Questo articolo introduce NVILA, una famiglia di VLM aperti progettati per ottimizzare sia l'efficienza che l'accuratezza. Basandoci su VILA, miglioriamo l'architettura del modello innanzitutto aumentando le risoluzioni spaziali e temporali, e poi comprimendo i token visivi. Questo approccio "scala-quindi-comprimi" consente a NVILA di processare efficientemente immagini ad alta risoluzione e video lunghi. Conduci anche un'indagine sistematica per migliorare l'efficienza di NVILA lungo l'intero ciclo di vita, dalla formazione e messa a punto alla distribuzione. NVILA eguaglia o supera l'accuratezza di molti dei principali VLM aperti e proprietari su una vasta gamma di benchmark di immagini e video. Allo stesso tempo, riduce i costi di formazione del 4,5X, l'utilizzo della memoria per la messa a punto del 3,4X, la latenza di pre-riempimento del 1,6-2,2X e la latenza di decodifica del 1,2-2,8X. Presto renderemo disponibili il nostro codice e i modelli per facilitare la riproducibilità.
Data la crescente utilizzazione dei dati sintetici nel post-training dei modelli linguistici (LM), la capacità di un LM di generare dati di alta qualità è diventata quasi altrettanto cruciale quanto la sua capacità di risolvere direttamente i problemi. Mentre lavori precedenti si sono concentrati nello sviluppare metodi efficaci di generazione dei dati, mancano di una comparazione sistematica dei diversi LM come generatori di dati in un contesto unificato. Per affrontare questa lacuna, proponiamo AgoraBench, un benchmark che fornisce impostazioni e metriche standardizzate per valutare le capacità di generazione dei dati dei LM. Attraverso la sintesi di 1,26 milioni di istanze di addestramento utilizzando 6 LM e l'addestramento di 99 modelli studente, scopriamo informazioni chiave sulle capacità di generazione dei dati dei LM. In primo luogo, osserviamo che i LM mostrano punti di forza distinti. Ad esempio, GPT-4o eccelle nella generazione di nuovi problemi, mentre Claude-3.5-Sonnet si comporta meglio nell'arricchire quelli esistenti. Inoltre, la nostra analisi rivela che la capacità di generazione dei dati di un LM non correla necessariamente con la sua capacità di risolvere problemi. Invece, diverse caratteristiche intrinseche della qualità dei dati, tra cui la qualità della risposta, la perplessità e la difficoltà delle istruzioni, servono collettivamente come indicatori migliori. Infine, dimostriamo che le scelte strategiche nel formato di output e la selezione attenta del modello, tenendo conto dei costi, influenzano significativamente l'efficacia della generazione dei dati.
Il rilevamento automatico e la prevenzione delle anomalie di tipo open-set sono cruciali nei sistemi robotici a ciclo chiuso. Gli studi recenti spesso faticano a identificare contemporaneamente in modo reattivo le anomalie inaspettate dopo che si sono verificate e a prevenire in modo proattivo quelle prevedibili. A questo scopo, proponiamo Code-as-Monitor (CaM), un nuovo paradigma che sfrutta il modello visione-linguaggio (VLM) per il rilevamento delle anomalie reattive e proattive di tipo open-set. Il cuore del nostro metodo consiste nel formulare entrambi i compiti come un insieme unificato di problemi di soddisfazione di vincoli spazio-temporali e utilizzare il codice generato da VLM per valutarli per il monitoraggio in tempo reale. Per migliorare l'accuratezza e l'efficienza del monitoraggio, introduciamo ulteriormente elementi di vincolo che astraggono entità correlate ai vincoli o le loro parti in elementi geometrici compatti. Questo approccio offre maggiore generalità, semplifica il tracciamento e facilita la programmazione visiva consapevole dei vincoli sfruttando questi elementi come suggerimenti visivi. Gli esperimenti mostrano che CaM raggiunge un tasso di successo più alto del 28,7% e riduce il tempo di esecuzione del 31,8% in presenza di disturbi gravi rispetto alle baselines su tre simulatori e un contesto del mondo reale. Inoltre, CaM può essere integrato con politiche di controllo ad anello aperto per formare sistemi a ciclo chiuso, consentendo compiti a lungo termine in scenari affollati con ambienti dinamici.
I modelli di diffusione eccellono nella generazione di immagini di alta qualità. Tuttavia, i modelli di diffusione attuali faticano a produrre immagini affidabili senza l'ausilio di metodi guida, come la guida senza classificatore (CFG). I metodi guida sono veramente necessari? Osservando che il rumore ottenuto tramite inversione di diffusione può ricostruire immagini di alta qualità senza guida, ci concentriamo sul rumore iniziale del processo di denoising. Mappando il rumore gaussiano in 'rumore senza guida', scopriamo che piccoli componenti a bassa magnitudine e bassa frequenza migliorano significativamente il processo di denoising, eliminando la necessità di guida e migliorando quindi sia il throughput inferenziale che la memoria. Approfondendo questo aspetto, proponiamo \ours, un nuovo metodo che sostituisce i metodi guida con un singolo perfezionamento del rumore iniziale. Questo rumore perfezionato consente la generazione di immagini di alta qualità senza guida, all'interno dello stesso processo di diffusione. Il nostro modello di raffinamento del rumore sfrutta un apprendimento efficiente dello spazio del rumore, raggiungendo una rapida convergenza e ottime prestazioni con soli 50.000 coppie testo-immagine. Confermiamo la sua efficacia attraverso diversi indicatori e analizziamo come il rumore raffinato possa eliminare la necessità di guida. Consultare la nostra pagina del progetto: https://cvlab-kaist.github.io/NoiseRefine/.
I metodi esistenti di generazione di immagini multi-view spesso apportano modifiche invasive ai modelli pre-addestrati di testo-immagine (T2I) e richiedono un completo riaddestramento, comportando (1) elevati costi computazionali, specialmente con modelli di base di grandi dimensioni e immagini ad alta risoluzione, e (2) degrado nella qualità dell'immagine a causa di difficoltà di ottimizzazione e scarsità di dati 3D di alta qualità. In questo articolo, proponiamo la prima soluzione basata su adattatori per la generazione di immagini multi-view e presentiamo MV-Adapter, un adattatore versatile plug-and-play che potenzia i modelli T2I e le loro derivate senza alterare la struttura di rete originale o lo spazio delle caratteristiche. Aggiornando un minor numero di parametri, MV-Adapter consente un addestramento efficiente e preserva le conoscenze pregresse incorporate nei modelli pre-addestrati, riducendo i rischi di overfitting. Per modellare efficientemente le conoscenze geometriche 3D all'interno dell'adattatore, introduciamo design innovativi che includono strati di auto-attenzione duplicati e un'architettura di attenzione parallela, consentendo all'adattatore di ereditare i potenti priors dei modelli pre-addestrati per modellare le nuove conoscenze 3D. Inoltre, presentiamo un codificatore di condizioni unificato che integra senza soluzione di continuità i parametri della fotocamera e le informazioni geometriche, facilitando applicazioni come la generazione 3D basata su testo e immagine e la texturizzazione. MV-Adapter raggiunge la generazione multi-view a risoluzione 768 su Stable Diffusion XL (SDXL) e dimostra adattabilità e versatilità. Può inoltre essere esteso alla generazione di visualizzazioni arbitrarie, consentendo applicazioni più ampie. Dimostriamo che MV-Adapter stabilisce un nuovo standard di qualità per la generazione di immagini multi-view e apre nuove possibilità grazie alla sua efficienza, adattabilità e versatilità.
I recenti progressi nella generazione di immagini incentrate sull'abbigliamento da testo e prompt di immagine basati su modelli di diffusione sono impressionanti. Tuttavia, i metodi esistenti mancano di supporto per varie combinazioni di abiti e faticano a preservare i dettagli dell'abbigliamento pur mantenendo la fedeltà ai prompt di testo, limitando le loro prestazioni in scenari diversi. In questo articolo, ci concentriamo su un nuovo compito, ovvero l'Abbigliamento Virtuale Multi-Abito, e proponiamo un nuovo metodo chiamato AnyDressing per personalizzare personaggi condizionati da qualsiasi combinazione di abiti e qualsiasi prompt di testo personalizzato. AnyDressing è composto da due reti principali chiamate GarmentsNet e DressingNet, che sono rispettivamente dedicate all'estrazione dettagliata delle caratteristiche dell'abbigliamento e alla generazione di immagini personalizzate. In particolare, proponiamo un modulo efficiente e scalabile chiamato Estrattore di Caratteristiche Specifiche dell'Abito in GarmentsNet per codificare individualmente le texture dell'abbigliamento in parallelo. Questo design previene la confusione dell'abbigliamento garantendo al contempo l'efficienza della rete. Nel frattempo, progettiamo un meccanismo di Attivazione dell'Abbigliamento adattivo e una nuova strategia di Apprendimento della Localizzazione dell'Abito a Livello di Istanza in DressingNet per iniettare accuratamente le caratteristiche multi-abito nelle rispettive regioni. Questo approccio integra efficientemente le indicazioni di texture multi-abito nelle immagini generate e migliora ulteriormente la coerenza tra testo e immagine. Inoltre, introduciamo una strategia di Apprendimento della Texture Potenziata dall'Abito per migliorare i dettagli della texture a grana fine degli abiti. Grazie al nostro design ben strutturato, AnyDressing può fungere da modulo aggiuntivo per integrarsi facilmente con eventuali estensioni di controllo della comunità per modelli di diffusione, migliorando la diversità e la controllabilità delle immagini sintetizzate. Estesi esperimenti dimostrano che AnyDressing raggiunge risultati all'avanguardia.
L'orientamento avversario basato su testo utilizzando un prompt negativo è emerso come un approccio ampiamente adottato per spingere le caratteristiche dell'output lontano dai concetti indesiderati. Sebbene utile, eseguire un orientamento avversario utilizzando solo il testo può essere insufficiente per catturare concetti visivi complessi e evitare elementi visivi indesiderati come personaggi protetti da copyright. In questo articolo, esploriamo per la prima volta un'alternativa in questa direzione eseguendo un orientamento avversario direttamente utilizzando le caratteristiche visive di un'immagine di riferimento o di altre immagini in un batch. In particolare, presentiamo il merging di token negativi (NegToMe), un approccio semplice ma efficace che esegue un orientamento avversario spingendo selettivamente lontano le caratteristiche semantiche corrispondenti (tra riferimento e generazione dell'output) durante il processo di diffusione inversa. Quando utilizzato rispetto ad altre immagini nello stesso batch, osserviamo che NegToMe aumenta significativamente la diversità dell'output (razza, genere, visiva) senza sacrificare la qualità dell'immagine di output. Allo stesso modo, quando utilizzato rispetto a un asset protetto da copyright di riferimento, NegToMe aiuta a ridurre la similarità visiva con i contenuti protetti da copyright del 34,57%. NegToMe è semplice da implementare utilizzando solo poche righe di codice, utilizza solo tempi di inferenza marginalmente più alti (<4%) e si generalizza a diverse architetture di diffusione come Flux, che non supportano nativamente l'uso di un prompt negativo separato. Il codice è disponibile su https://negtome.github.io
I pregiudizi culturali nei dataset multilingue pongono significativi sfide per la loro efficacia come benchmark globali. Questi pregiudizi derivano non solo dalla lingua, ma anche dalla conoscenza culturale necessaria per interpretare le domande, riducendo l'utilità pratica dei dataset tradotti come MMLU. Inoltre, la traduzione spesso introduce artefatti che possono distorto il significato o la chiarezza delle domande nella lingua di destinazione. Una pratica comune nella valutazione multilingue è fare affidamento su set di valutazione tradotti automaticamente, ma semplicemente tradurre un dataset non è sufficiente per affrontare queste sfide. In questo lavoro, tracciamo l'impatto di entrambe queste questioni sulle valutazioni multilingue e sulle prestazioni dei modelli risultanti. La nostra valutazione su larga scala dei modelli aperti e proprietari all'avanguardia illustra che il progresso su MMLU dipende pesantemente dallo studio di concetti occidentali, con il 28% di tutte le domande che richiedono conoscenze culturalmente sensibili. Inoltre, per le domande che richiedono conoscenze geografiche, un sorprendente 84,9% si concentra su regioni nordamericane o europee. Le classifiche delle valutazioni dei modelli cambiano a seconda che vengano valutate sull'intera porzione o sul sottoinsieme di domande annotate come culturalmente sensibili, mostrando la distorsione delle classifiche dei modelli quando si fa affidamento ciecamente su MMLU tradotti. Rilasciamo Global-MMLU, un MMLU migliorato con copertura di valutazione in 42 lingue -- con una qualità complessiva migliorata coinvolgendo annotatori professionali e della comunità compensati per verificare la qualità della traduzione e valutare rigorosamente i pregiudizi culturali presenti nel dataset originale. Questo completo set Global-MMLU include anche sottoinsiemi designati etichettati come culturalmente sensibili e culturalmente agnostici per consentire una valutazione più olistica e completa.
I Large Language Models (LLM) sono emersi come un traguardo nell'intelligenza artificiale, e le loro prestazioni possono migliorare all'aumentare delle dimensioni del modello. Tuttavia, questa scalabilità porta grandi sfide all'efficienza di addestramento e inferenza, specialmente per il dispiegamento di LLM in ambienti con risorse limitate, e la tendenza alla scalabilità sta diventando sempre più insostenibile. Questo articolo introduce il concetto di "densità di capacità" come nuova metrica per valutare la qualità dei LLM su diverse scale e descrive la tendenza dei LLM in termini di efficacia ed efficienza. Per calcolare la densità di capacità di un determinato LLM target, introduciamo innanzitutto un insieme di modelli di riferimento e sviluppiamo una legge di scalabilità per prevedere le prestazioni a valle di questi modelli di riferimento in base alle dimensioni dei parametri. Definiamo quindi la dimensione effettiva dei parametri del LLM target come la dimensione dei parametri richiesta da un modello di riferimento per ottenere prestazioni equivalenti e formalizziamo la densità di capacità come il rapporto tra la dimensione effettiva dei parametri e la dimensione effettiva dei parametri del LLM target. La densità di capacità fornisce un quadro unificato per valutare sia l'efficacia che l'efficienza del modello. La nostra ulteriore analisi dei recenti LLM di base open-source rivela una legge empirica (la legge del densing) secondo cui la densità di capacità dei LLM cresce in modo esponenziale nel tempo. Più specificamente, utilizzando alcuni benchmark ampiamente utilizzati per la valutazione, la densità di capacità dei LLM raddoppia approssimativamente ogni tre mesi. La legge fornisce nuove prospettive per guidare lo sviluppo futuro dei LLM, sottolineando l'importanza del miglioramento della densità di capacità per ottenere risultati ottimali con un minimo dispendio computazionale.
Presentiamo Infinity, un Modello AutoRegressivo Visivo a Livello Bit in grado di generare immagini ad alta risoluzione e fotorealistiche seguendo istruzioni linguistiche. Infinity ridefinisce il modello auto-regressivo visivo in un framework di previsione di token a livello bit con un tokenizzatore e classificatore a vocabolario infinito e un meccanismo di auto-correzione a livello bit, migliorando notevolmente la capacità generativa e i dettagli. Scalando teoricamente la dimensione del vocabolario del tokenizzatore all'infinito e contemporaneamente scalando la dimensione del trasformatore, il nostro metodo libera significativamente potenti capacità di scalabilità rispetto al VAR standard. Infinity stabilisce un nuovo record per i modelli testo-immagine auto-regressivi, superando modelli di diffusione di alto livello come SD3-Medium e SDXL. In particolare, Infinity supera SD3-Medium migliorando il punteggio del benchmark GenEval da 0,62 a 0,73 e il punteggio del benchmark ImageReward da 0,87 a 0,96, raggiungendo un tasso di vittoria del 66%. Senza ottimizzazioni aggiuntive, Infinity genera un'immagine di alta qualità di 1024x1024 in 0,8 secondi, diventando 2,6 volte più veloce di SD3-Medium e confermandosi come il modello testo-immagine più veloce. I modelli e i codici saranno rilasciati per promuovere ulteriori esplorazioni di Infinity per la generazione visiva e la modellazione del tokenizzatore unificato.
Presentiamo HumanEdit, un dataset di alta qualità ricompensato dagli umani progettato specificamente per la modifica delle immagini guidata dalle istruzioni, consentendo manipolazioni precise e diverse attraverso istruzioni linguistiche in forma aperta. I dataset di modifica su larga scala precedenti spesso incorporano un feedback umano minimo, portando a sfide nell'allineare i dataset con le preferenze umane. HumanEdit colma questa lacuna impiegando annotatori umani per costruire coppie di dati e amministratori per fornire feedback. Con una cura meticolosa, HumanEdit comprende 5.751 immagini e richiede più di 2.500 ore di sforzo umano attraverso quattro fasi, garantendo sia precisione che affidabilità per una vasta gamma di compiti di modifica delle immagini. Il dataset include sei tipi distinti di istruzioni di modifica: Azione, Aggiungi, Conteggio, Relazione, Rimuovi e Sostituisci, che abbracciano un ampio spettro di scenari reali. Tutte le immagini nel dataset sono accompagnate da maschere e, per un sottoinsieme dei dati, ci assicuriamo che le istruzioni siano sufficientemente dettagliate per supportare la modifica senza maschera. Inoltre, HumanEdit offre una diversità completa e contenuti ad alta risoluzione di 1024 per 1024 provenienti da vari domini, stabilendo un nuovo versatile punto di riferimento per i dataset di modifica delle immagini guidate dalle istruzioni. Con l'obiettivo di far progredire la ricerca futura e stabilire benchmark di valutazione nel campo della modifica delle immagini, rilasciamo HumanEdit su https://huggingface.co/datasets/BryanW/HumanEdit.
Comprendere i calcoli interni dei grandi modelli linguistici (LLM) è cruciale per allinearli ai valori umani e prevenire comportamenti indesiderati come la generazione di contenuti tossici. Tuttavia, l'interpretabilità meccanicistica è ostacolata dalla polisemanticità - dove singoli neuroni rispondono a concetti multipli e non correlati. Mentre gli Autoencoder Sparsi (SAE) hanno cercato di separare queste caratteristiche attraverso l'apprendimento di dizionari sparsi, hanno compromesso le prestazioni dei LLM a causa della dipendenza dalla perdita di ricostruzione post-hoc. Per affrontare questo problema, presentiamo l'architettura Mixture of Monosemantic Experts for Transformers (Monet), che incorpora direttamente l'apprendimento di dizionari sparsi nella preformazione end-to-end Mixture-of-Experts. Il nostro nuovo metodo di decomposizione degli esperti consente di scalare il numero di esperti a 262.144 per layer, mentre i parametri totali scalano proporzionalmente alla radice quadrata del numero di esperti. Le nostre analisi dimostrano l'esclusività reciproca della conoscenza tra gli esperti e mostrano la conoscenza parametrica racchiusa all'interno di singoli esperti. Inoltre, Monet consente la manipolazione della conoscenza su domini, lingue e mitigazione della tossicità senza degradare le prestazioni generali. La nostra ricerca di LLM trasparenti evidenzia il potenziale dello scalare il numero di esperti per migliorare l'interpretabilità meccanicistica e ridurre direttamente la conoscenza interna per regolare fondamentalmente il comportamento del modello. Il codice sorgente e i checkpoint preaddestrati sono disponibili su https://github.com/dmis-lab/Monet.
I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) sono diventati sempre più importanti a causa delle loro prestazioni all'avanguardia e della capacità di integrare molteplici modalità di dati, come testo, immagini e audio, per svolgere compiti complessi con elevata precisione. Questo articolo presenta un'esaustiva panoramica sui modelli linguistici multimodali di grandi dimensioni personalizzati, concentrandosi sulla loro architettura, metodi di addestramento e applicazioni. Proponiamo una tassonomia intuitiva per classificare le tecniche utilizzate per personalizzare i MLLM per singoli utenti e ne discutiamo di conseguenza. Inoltre, esaminiamo come tali tecniche possano essere combinate o adattate quando appropriato, evidenziandone i vantaggi e le ragioni sottostanti. Forniamo anche un breve riassunto dei compiti di personalizzazione indagati nella ricerca esistente, insieme alle metriche di valutazione comunemente utilizzate. Inoltre, riassumiamo i set di dati utili per il benchmarking dei MLLM personalizzati. Infine, delineiamo le sfide aperte critiche. Questa panoramica mira a essere una risorsa preziosa per ricercatori e professionisti che desiderano comprendere e far progredire lo sviluppo dei modelli linguistici multimodali di grandi dimensioni personalizzati.
Introduciamo OmniFlow, un nuovo modello generativo progettato per compiti di generazione any-to-any come testo-immagine, testo-audio e sintesi audio-immagine. OmniFlow avanza il framework di flusso rettificato (RF) utilizzato nei modelli testo-immagine per gestire la distribuzione congiunta di più modalità. Supera i modelli any-to-any precedenti in una vasta gamma di compiti, come la sintesi testo-immagine e testo-audio. Il nostro lavoro offre tre contributi chiave: Primo, estendiamo RF a un contesto multi-modale e introduciamo un meccanismo di guida innovativo, consentendo agli utenti di controllare flessibilmente l'allineamento tra diverse modalità nei risultati generati. Secondo, proponiamo un'architettura innovativa che estende l'architettura MMDiT testo-immagine di Stable Diffusion 3 e consente la generazione di audio e testo. I moduli estesi possono essere efficientemente preaddestrati singolarmente e uniti con il MMDiT testo-immagine base per il raffinamento finale. Infine, conduciamo uno studio esaustivo sulle scelte progettuali dei trasformatori di flusso rettificato per la generazione di audio e testo su larga scala, fornendo preziose intuizioni per ottimizzare le prestazioni tra diverse modalità. Il codice sarà disponibile su https://github.com/jacklishufan/OmniFlows.
Il calcio, uno sport celebrato a livello globale, ha attirato un vasto interesse da parte dei tifosi di tutto il mondo. Questo articolo si propone di sviluppare un completo framework multimodale per la comprensione dei video di calcio. In particolare, apportiamo i seguenti contributi in questo articolo: (i) presentiamo SoccerReplay-1988, il più grande dataset multimodale di calcio ad oggi, che include video e dettagliate annotazioni di 1.988 partite complete, con un processo di annotazione automatizzato; (ii) introduciamo il primo modello fondamentale di visual-language nel dominio del calcio, MatchVision, che sfrutta informazioni spazio-temporali nei video di calcio e eccelle in vari compiti successivi; (iii) conduciamo estesi esperimenti e studi di ablation sulla classificazione degli eventi, generazione di commenti e riconoscimento di falli da diverse prospettive. MatchVision dimostra prestazioni all'avanguardia su tutti questi fronti, superando notevolmente i modelli esistenti, evidenziando la superiorità dei nostri dati e del nostro modello proposti. Crediamo che questo lavoro possa offrire un paradigma standard per la ricerca sulla comprensione degli sport.
I Modelli Visione-Linguaggio addestrati in maniera contrastiva (VLM) come CLIP sono diventati l'approccio predefinito per l'apprendimento delle rappresentazioni visione-linguaggio discriminative. Tuttavia, questi modelli hanno una limitata comprensione del linguaggio, mostrando spesso un comportamento "bag of words". Allo stesso tempo, i Grandi Modelli Visione-Linguaggio (LVLM), che combinano encoder di visione con LLM, hanno dimostrato di essere capaci di un ragionamento dettagliato visione-linguaggio, ma la loro natura autoregressiva li rende meno adatti per compiti discriminativi. In questo lavoro, proponiamo di combinare "il meglio di entrambi i mondi": un nuovo approccio di addestramento per il fine-tuning discriminativo dei LVLM che porta a forti capacità discriminative e compositive. Fondamentalmente, il nostro approccio converte un LVLM generativo in uno discriminativo, sbloccando la sua capacità di potente discriminazione immagine-testo combinata con una comprensione linguistica migliorata. I nostri contributi includono: (1) Un framework di addestramento/ottimizzazione attentamente progettato che utilizza coppie immagine-testo di lunghezza e granularità variabili per addestrare il modello con perdite di previsione contrastiva e di token successivo. Ciò è accompagnato da studi di ablation che giustificano la necessità dei componenti del nostro framework. (2) Un metodo di adattamento efficiente dei parametri che utilizza una combinazione di soft prompting e adattatori LoRA. (3) Miglioramenti significativi rispetto ai modelli simili a CLIP di ultima generazione delle stesse dimensioni, compresi benchmark standard di recupero immagine-testo e guadagni notevoli in termini di composizionalità.
I Large Language Models (LLM) hanno ottenuto progressi notevoli negli ultimi anni; tuttavia, la loro eccellente performance è ancora in gran parte limitata alle principali lingue del mondo, principalmente l'inglese. Molti LLM continuano ad affrontare sfide con compiti multilingue, specialmente quando si tratta di lingue a risorse limitate. Per affrontare questo problema, abbiamo introdotto Marco-LLM: Addestramento massivo multilingue per il potenziamento cross-linguistico di LLM. Abbiamo raccolto una quantità sostanziale di dati multilingue per diverse lingue a risorse limitate e condotto un ampio pre-addestramento continuo utilizzando i modelli Qwen2. Questo sforzo ha portato alla creazione di un LLM multilingue chiamato Marco-LLM. Attraverso valutazioni esaustive su vari benchmark multilingue, tra cui MMMLU, AGIEval, Belebele, Flores-200, XCOPA e molti altri, Marco-LLM ha dimostrato miglioramenti sostanziali rispetto agli LLM all'avanguardia. Inoltre, Marco-LLM ha ottenuto miglioramenti significativi nei compiti di traduzione automatica da qualsiasi lingua a qualsiasi lingua, dimostrando l'efficacia del nostro LLM multilingue. Marco-LLM è un LLM multilingue pionieristico progettato non solo per ottenere risultati eccezionali nei compiti multilingue, comprese le lingue a risorse limitate, ma anche per mantenere una forte performance in inglese e nelle altre principali lingue, riducendo il divario di performance tra le capacità linguistiche ad alta e bassa risorsa. Attraverso il collegamento tra le lingue, questo sforzo dimostra il nostro impegno nel garantire che i LLM funzionino correttamente attraverso diverse lingue.
I recenti progressi nei modelli di diffusione video hanno sbloccato un nuovo potenziale per la generazione realistica di video parlanti guidati dall'audio. Tuttavia, raggiungere una sincronizzazione audio-labiale senza soluzione di continuità, mantenere una consistenza dell'identità a lungo termine e produrre espressioni naturali e allineate all'audio nei video parlanti generati rimangono sfide significative. Per affrontare tali sfide, proponiamo Memory-guided EMOtion-aware diffusion (MEMO), un approccio di animazione di ritratti guidato dall'audio end-to-end per generare video parlanti consistenti nell'identità ed espressivi. Il nostro approccio si basa su due moduli chiave: (1) un modulo temporale guidato dalla memoria, che migliora la consistenza dell'identità a lungo termine e la fluidità del movimento sviluppando stati di memoria per memorizzare informazioni da un contesto passato più lungo per guidare la modellazione temporale tramite attenzione lineare; e (2) un modulo audio consapevole delle emozioni, che sostituisce l'attenzione incrociata tradizionale con un'attenzione multimodale per migliorare l'interazione audio-video, rilevando emozioni dall'audio per perfezionare le espressioni facciali tramite norma di layer adattiva alle emozioni. Estesi risultati quantitativi e qualitativi dimostrano che MEMO genera video parlanti più realistici attraverso diversi tipi di immagini e audio, superando i metodi all'avanguardia in termini di qualità complessiva, sincronizzazione audio-labiale, consistenza dell'identità e allineamento espressione-emozione.
In questo articolo, proponiamo ZipAR, un framework di decodifica parallela plug-and-play senza addestramento per accelerare la generazione visuale auto-regressiva (AR). La motivazione deriva dall'osservazione che le immagini mostrano strutture locali e regioni spazialmente distanti tendono ad avere interdipendenze minime. Dato un insieme parzialmente decodificato di token visivi, oltre allo schema originale di previsione del prossimo token nella dimensione delle righe, i token corrispondenti alle regioni spazialmente adiacenti nella dimensione delle colonne possono essere decodificati in parallelo, consentendo il paradigma della "previsione del prossimo insieme". Decodificando più token contemporaneamente in un singolo passaggio in avanti, il numero di passaggi in avanti necessari per generare un'immagine viene significativamente ridotto, portando a un notevole miglioramento dell'efficienza di generazione. Gli esperimenti dimostrano che ZipAR può ridurre il numero di passaggi in avanti del modello fino al 91% sul modello Emu3-Gen senza richiedere alcun ulteriore addestramento.
I modelli linguistici attuali di grandi dimensioni si basano principalmente su trasformatori con struttura di sola decodifica, che presentano grandi capacità di apprendimento contestuale (ICL). Si ritiene generalmente che la base importante della sua capacità di ICL sia il meccanismo delle testine di induzione, che richiede almeno due livelli di attenzione. Al fine di implementare in modo più efficiente la capacità di induzione del modello, abbiamo riesaminato il meccanismo delle testine di induzione e proposto un'attenzione a spostamento KV. Abbiamo dimostrato teoricamente che l'attenzione a spostamento KV riduce i requisiti del modello per la profondità e la larghezza del meccanismo delle testine di induzione. I nostri risultati sperimentali dimostrano che l'attenzione a spostamento KV è vantaggiosa per l'apprendimento delle testine di induzione e la modellazione del linguaggio, portando a migliori prestazioni o convergenza più rapida dai modelli giocattolo ai modelli di pre-addestramento con più di 10 miliardi di parametri.
Proponiamo 4Real-Video, un nuovo framework per la generazione di video 4D, organizzato come una griglia di frame video con assi temporali e di punto di vista. In questa griglia, ogni riga contiene frame che condividono lo stesso istante temporale, mentre ogni colonna contiene frame dello stesso punto di vista. Proponiamo una nuova architettura a due flussi. Un flusso esegue aggiornamenti del punto di vista sulle colonne, mentre l'altro flusso esegue aggiornamenti temporali sulle righe. Dopo ciascuno strato di trasformatore di diffusione, uno strato di sincronizzazione scambia informazioni tra i due flussi di token. Proponiamo due implementazioni dello strato di sincronizzazione, utilizzando la sincronizzazione rigida o morbida. Questa architettura feedforward migliora i lavori precedenti in tre modi: maggiore velocità di inferenza, qualità visiva migliorata (misurata da FVD, CLIP e VideoScore) e migliorata coerenza temporale e di punto di vista (misurata da VideoScore e Dust3R-Confidence).
Nonostante le prestazioni straordinarie dei modelli di linguaggio multimodali di grandi dimensioni (MLLMs) su diverse attività, i notevoli costi di addestramento e inferenza ne ostacolano l'avanzamento. La maggior parte della computazione deriva dall'enorme volume di token visivi elaborati dal decoder del trasformatore. In questo articolo, proponiamo di costruire MLLMs efficienti sfruttando il meccanismo Mixture-of-Depths (MoD), in cui ciascuno strato del decoder del trasformatore seleziona i token visivi essenziali da elaborare, evitando quelli ridondanti. Tuttavia, integrare MoD nei MLLMs è complesso. Per affrontare le sfide legate alla stabilità dell'addestramento e dell'inferenza, nonché alla limitata quantità di dati di addestramento, adattiamo il modulo MoD con due nuovi design: normalizzazione dei pesi con gate tangente (TanhNorm) e ripesatura simmetrica dei token (STRing). Inoltre, osserviamo che i token visivi mostrano una maggiore ridondanza nei livelli più profondi e progettiamo quindi una strategia di decadimento progressivo del rapporto (PRD), che riduce gradualmente il rapporto di ritenzione dei token strato per strato, utilizzando un programma cosinusoidale spostato. Questo design cruciale libera appieno il potenziale di MoD, migliorando significativamente l'efficienza e le prestazioni dei nostri modelli. Per convalidare l'efficacia del nostro approccio, conduciamo ampi esperimenti con due modelli di base su 14 benchmark. Il nostro modello, p-MoD, eguaglia o addirittura supera le prestazioni dei modelli di base, con soli il 55,6% dei TFLOPs e il 53,8% della memoria cache KV durante l'inferenza, e il 77,7% delle ore di GPU durante l'addestramento.
Nonostante i significativi progressi nei modelli visione-linguaggio (VLM), mancano approcci efficaci per migliorare la qualità delle risposte attraverso la scalabilità del calcolo al momento dell'inferenza. Questa capacità è nota come passo fondamentale verso i modelli auto-miglioranti negli studi recenti sui grandi modelli linguistici. In questo articolo, presentiamo il Modello di Valore della Visione (VisVM) che può guidare la ricerca al momento dell'inferenza dei VLM per generare risposte con una migliore comprensione visiva. In particolare, VisVM non valuta solo la qualità della frase generata nel passo di ricerca attuale, ma prevede anche la qualità delle frasi successive che potrebbero derivare dal passo attuale, fornendo quindi un valore a lungo termine. In questo modo, VisVM indirizza i VLM lontano dalla generazione di frasi inclini all'allucinazione o con dettagli insufficienti, producendo così risposte di maggiore qualità. I risultati sperimentali dimostrano che la ricerca guidata da VisVM migliora significativamente la capacità dei VLM di generare didascalie descrittive con dettagli visivi più ricchi e meno allucinazioni, rispetto alla decodifica avida e ai metodi di ricerca con altri segnali di ricompensa visiva. Inoltre, scopriamo che l'auto-addestramento del modello con le didascalie guidate da VisVM migliora le prestazioni dei VLM su una vasta gamma di benchmark multimodali, indicando il potenziale per lo sviluppo di VLM auto-miglioranti. Il nostro modello di valore e il codice sono disponibili su https://github.com/si0wang/VisVM.
La segmentazione delle immagini mediche ha recentemente dimostrato un notevole progresso con le reti neurali profonde, tuttavia le modalità eterogenee e la scarsità di annotazioni delle maschere limitano lo sviluppo dei modelli di segmentazione su modalità non annotate. Questo articolo investiga un nuovo paradigma per sfruttare i modelli generativi nelle applicazioni mediche: sintetizzare in modo controllabile dati per modalità non annotate, senza richiedere coppie di dati registrati. In particolare, apportiamo i seguenti contributi in questo articolo: (i) raccogliamo e curiamo un dataset di immagini-testo radiologiche su larga scala, MedGen-1M, che comprende etichette di modalità, attributi, informazioni sulla regione e sull'organo, insieme a un sottoinsieme di annotazioni delle maschere degli organi, per supportare la ricerca nella generazione controllabile di immagini mediche; (ii) proponiamo un motore di dati basato sulla diffusione, denominato MRGen, che consente la generazione condizionata da prompt di testo e maschere, sintetizzando immagini RM per diverse modalità prive di annotazioni delle maschere, per addestrare modelli di segmentazione su modalità non annotate; (iii) conduciamo ampi esperimenti su varie modalità, illustrando che il nostro motore di dati può sintetizzare efficacemente campioni di addestramento ed estendere la segmentazione RM verso modalità non annotate.
L'estrazione delle tabelle dalle immagini dei documenti è un problema complesso nell'ambito dell'IA, e i dati etichettati per molti domini di contenuto sono difficili da reperire. I dataset esistenti sull'estrazione delle tabelle si concentrano spesso su tabelle scientifiche a causa della vasta quantità di articoli accademici facilmente disponibili, insieme al loro codice sorgente. Tuttavia, esistono significative differenze di layout e tipografiche tra le tabelle presenti nei settori scientifico, finanziario e in altri settori. I dataset attuali spesso non contengono le parole e le loro posizioni all'interno delle tabelle, affidandosi invece a un OCR non affidabile per estrarre queste caratteristiche per addestrare i moderni modelli di machine learning su compiti di elaborazione del linguaggio naturale. Pertanto, c'è bisogno di un metodo più generale per ottenere dati etichettati. Presentiamo SynFinTabs, un dataset ampio e etichettato di tabelle finanziarie sintetiche. Speriamo che il nostro metodo di generazione di queste tabelle sintetiche sia trasferibile ad altri settori. Per dimostrare l'efficacia del nostro dataset nell'addestrare modelli ad estrarre informazioni dalle immagini delle tabelle, creiamo FinTabQA, un grande modello linguistico di layout addestrato su un compito di domanda-risposta estrattiva. Testiamo il nostro modello utilizzando tabelle finanziarie reali e lo confrontiamo con un modello generativo all'avanguardia e discutiamo i risultati. Mettiamo a disposizione pubblica il dataset, il modello e il codice di generazione del dataset.
Piattaforme aperte guidate dalla comunità come Chatbot Arena, che raccolgono dati sulle preferenze degli utenti dai visitatori del sito, hanno acquisito una reputazione come uno dei benchmark pubblicamente disponibili più affidabili per le prestazioni dei LLM. Anche se ormai standard, è complicato implementare guide efficaci per raccogliere annotazioni di alta qualità da parte degli esseri umani. In questo articolo, dimostriamo che tre fonti di cattive annotazioni, sia malintenzionate che non, possono corrompere l'affidabilità delle classifiche della classifica aperta. In particolare, mostriamo che solo il 10\% dei voti di scarsa qualità da parte di annotatori apatici (visitatori del sito non adeguatamente incentivati a dare voti corretti) o avversari (attori malintenzionati che cercano di gonfiare la classifica di un modello target) possono cambiare la posizione dei modelli fino a 5 posti nella classifica. Infine, discutiamo le sfide aperte nel garantire annotazioni umane di alta qualità.
Sviluppiamo leggi di scalabilità delle attività e modelli di scale per prevedere le prestazioni individuali delle modelli linguistici preaddestrati (LMs) nell'ambiente di sovraaddestramento. Le leggi di potenza standard per la perdita di modellazione del linguaggio non possono modellare con precisione le prestazioni delle attività. Pertanto, sfruttiamo un approccio predittivo a due fasi: prima utilizziamo il modello e la dimensione dei dati per prevedere una perdita specifica dell'attività, e poi utilizziamo questa perdita dell'attività per prevedere le prestazioni dell'attività. Addestriamo un insieme di modelli "scale" su piccola scala, raccogliamo punti dati per adattare le funzioni parametriche dei due passaggi predittivi e facciamo previsioni per due modelli target: un modello 7B addestrato a 4T token e un modello 13B addestrato a 5T token. Addestrare i modelli scale costa solo l'1% del calcolo utilizzato per i modelli target. Su quattro attività a scelta multipla scritte in formato di classificazione graduata, possiamo prevedere l'accuratezza di entrambi i modelli target entro 2 punti di errore assoluto. Abbiamo un errore di previsione più elevato su altre quattro attività (errore assoluto medio 6.9) e scopriamo che spesso si tratta di attività con una maggiore varianza nelle metriche dell'attività. Troviamo anche che utilizzare meno calcolo per addestrare meno modelli scale tende a deteriorare le previsioni. Infine, dimostriamo empiricamente che le nostre scelte progettuali e l'approccio a due fasi portano a prestazioni superiori nell'istituzione di leggi di scalabilità.