Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il campo dei modelli visione-linguaggio (VLMs), che prendono immagini e testi come input e restituiscono testi in output, è in rapida evoluzione e non ha ancora raggiunto un consenso su diversi aspetti chiave della pipeline di sviluppo, inclusi dati, architettura e metodi di addestramento. Questo articolo può essere considerato un tutorial per la costruzione di un VLM. Iniziamo fornendo una panoramica completa degli approcci più avanzati attualmente disponibili, evidenziando i punti di forza e le debolezze di ciascuno, affrontando le principali sfide del campo e suggerendo direzioni di ricerca promettenti per aree ancora poco esplorate. Successivamente, illustriamo i passaggi pratici per costruire Idefics3-8B, un potente VLM che supera significativamente il suo predecessore Idefics2-8B, pur essendo addestrato in modo efficiente, esclusivamente su dataset aperti e utilizzando una pipeline semplice. Questi passaggi includono la creazione di Docmatix, un dataset progettato per migliorare le capacità di comprensione dei documenti, che è 240 volte più grande rispetto ai dataset precedentemente disponibili. Rilasciamo il modello insieme ai dataset creati per il suo addestramento.
La valutazione completa dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) ha recentemente attirato un'attenzione diffusa nella comunità di ricerca. Tuttavia, osserviamo che i benchmark esistenti presentano diverse barriere comuni che rendono difficile misurare le sfide significative che i modelli affrontano nel mondo reale, tra cui: 1) una scala di dati ridotta porta a una grande varianza nelle prestazioni; 2) la dipendenza da annotazioni basate su modelli risulta in una qualità dei dati limitata; 3) una difficoltà dei compiti insufficiente, causata in particolare dalla risoluzione limitata delle immagini. Per affrontare questi problemi, introduciamo MME-RealWorld. Nello specifico, raccogliamo più di 300K immagini da dataset pubblici e da Internet, filtrando 13.366 immagini di alta qualità per l'annotazione. Questo coinvolge gli sforzi di 25 annotatori professionisti e 7 esperti in MLLMs, contribuendo a 29.429 coppie domanda-risposta che coprono 43 sottocompiti in 5 scenari del mondo reale, estremamente impegnativi anche per gli esseri umani. Per quanto ne sappiamo, MME-RealWorld è il benchmark annotato manualmente più grande fino ad oggi, caratterizzato dalla risoluzione più alta e da un focus mirato sulle applicazioni del mondo reale. Conduciamo inoltre una valutazione approfondita che coinvolge 28 MLLMs di rilievo, come GPT-4o, Gemini 1.5 Pro e Claude 3.5 Sonnet. I nostri risultati mostrano che anche i modelli più avanzati faticano con i nostri benchmark, dove nessuno di essi raggiunge il 60% di accuratezza. Le sfide di percepire immagini ad alta risoluzione e comprendere scenari complessi del mondo reale rimangono questioni urgenti da affrontare. I dati e il codice di valutazione sono rilasciati su https://mme-realworld.github.io/.
La generazione di scene immersive 3D è un compito impegnativo ma cruciale nel campo della visione artificiale e della grafica. Una scena virtuale 3D ideale dovrebbe 1) mostrare una coerenza visiva omnidirezionale e 2) consentire un'esplorazione libera all'interno di gerarchie di scene complesse. I metodi esistenti si basano sull'espansione progressiva della scena tramite inpainting o utilizzano rappresentazioni panoramiche per descrivere ambienti con un ampio campo visivo (FOV). Tuttavia, le scene generate soffrono di deriva semantica durante l'espansione e non sono in grado di gestire le occlusioni tra le gerarchie delle scene. Per affrontare queste sfide, introduciamo LayerPano3D, un nuovo framework per la generazione di scene panoramiche 3D esplorabili e a vista completa a partire da un singolo prompt testuale. La nostra intuizione chiave è quella di scomporre un panorama 2D di riferimento in più livelli a diverse profondità, dove ciascun livello rivela lo spazio non visibile dalle viste di riferimento tramite un prior di diffusione. LayerPano3D include diverse soluzioni progettuali: 1) introduciamo una pipeline innovativa per la sintesi di viste ancorate guidata da testo, finalizzata alla generazione di panorami di alta qualità e coerenti. 2) Proponiamo il Panorama 3D Stratificato come rappresentazione sottostante per gestire gerarchie di scene complesse e lo eleviamo a Gaussiane 3D per splattare scene omnidirezionali dettagliate a 360 gradi con percorsi di visualizzazione senza vincoli. Esperimenti estensivi dimostrano che il nostro framework genera scene panoramiche 3D all'avanguardia sia in termini di coerenza visiva completa che di esperienza esplorativa immersiva. Crediamo che LayerPano3D abbia il potenziale per avanzare la creazione di scene panoramiche 3D con numerose applicazioni.
La complessità computazionale quadratica nel meccanismo di self-attention delle architetture transformer più diffuse presenta sfide significative per l'addestramento e l'inferenza, in particolare in termini di efficienza e requisiti di memoria. Per affrontare queste sfide, questo articolo introduce un nuovo metodo di calcolo veloce per il calcolo del gradiente nei modelli transformer multi-strato. Il nostro approccio consente il calcolo dei gradienti per l'intero modello transformer multi-strato in un tempo quasi lineare n^{1+o(1)}, dove n è la lunghezza della sequenza di input. Questa svolta riduce significativamente il collo di bottiglia computazionale associato alla tradizionale complessità temporale quadratica. La nostra teoria è valida per qualsiasi funzione di perdita e mantiene un errore di approssimazione limitato in tutto il modello. Inoltre, la nostra analisi rimane valida quando il modello transformer multi-strato include molti sottomoduli pratici, come la connessione residua, la maschera causale e l'attenzione multi-testina. Migliorando l'efficienza del calcolo del gradiente nei modelli linguistici di grandi dimensioni, speriamo che il nostro lavoro possa facilitare un addestramento e un dispiegamento più efficaci dei modelli linguistici a contesto lungo, basandosi sui nostri risultati teorici.
Recentemente, una vasta gamma di algoritmi di addestramento efficienti in termini di memoria per LLM ha guadagnato una notevole popolarità. Questi metodi sfruttano la struttura a basso rango dei gradienti per proiettare gli stati dell'ottimizzatore in un sottospazio utilizzando una matrice di proiezione ottenuta tramite decomposizione ai valori singolari (SVD). Tuttavia, la convergenza di questi algoritmi dipende fortemente dalle regole di aggiornamento della loro matrice di proiezione. In questo lavoro, forniamo la prima garanzia di convergenza per regole di aggiornamento arbitrarie della matrice di proiezione. Questa garanzia è generalmente applicabile agli ottimizzatori che possono essere analizzati con Hamiltonian Descent, inclusi i più comuni, come LION e Adam. Ispirati dalla nostra comprensione teorica, proponiamo Online Subspace Descent, una nuova famiglia di ottimizzatori di discesa in sottospazio senza SVD. Invece di aggiornare la matrice di proiezione con autovettori, Online Subspace Descent aggiorna la matrice di proiezione con PCA online. Online Subspace Descent è flessibile e introduce solo un sovraccarico minimo durante l'addestramento. Dimostriamo che, per il compito di pre-addestramento di modelli LLaMA che vanno da 60M a 7B di parametri sul dataset C4, Online Subspace Descent raggiunge una perplexity inferiore e una migliore performance nei task downstream rispetto ai metodi di addestramento a basso rango all'avanguardia in diverse configurazioni, riducendo il divario con i baseline a rango pieno.
La sintesi di movimenti 3D guidata dal parlato mira a creare animazioni realistiche basate sul discorso umano, con potenziali applicazioni nella realtà virtuale, nei giochi e nella produzione cinematografica. Gli approcci esistenti si basano esclusivamente sull'audio del parlato per la generazione del movimento, portando a risultati di sintesi imprecisi e poco flessibili. Per mitigare questo problema, introduciamo un nuovo metodo di sintesi del movimento umano 3D guidato da testo, denominato T3M. A differenza degli approcci tradizionali, T3M consente un controllo preciso sulla sintesi del movimento tramite input testuale, migliorando il grado di diversità e personalizzazione da parte dell'utente. I risultati degli esperimenti dimostrano che T3M può superare notevolmente i metodi all'avanguardia sia nelle metriche quantitative che nelle valutazioni qualitative. Abbiamo reso pubblico il nostro codice all'indirizzo https://github.com/Gloria2tt/T3M.git{https://github.com/Gloria2tt/T3M.git}.
La generazione personalizzata di video mira a produrre video di alta qualità guidati da prompt testuali e immagini di riferimento del soggetto. Tuttavia, poiché viene addestrata solo su immagini statiche, il processo di fine-tuning dell'apprendimento del soggetto compromette le capacità dei modelli di diffusione video (VDM) di combinare concetti e generare movimenti. Per ripristinare queste capacità, alcuni metodi utilizzano video aggiuntivi simili al prompt per eseguire il fine-tuning o guidare il modello. Ciò richiede frequenti cambiamenti dei video guida e persino un ri-ottimizzazione del modello quando si generano movimenti diversi, il che risulta molto scomodo per gli utenti. In questo articolo, proponiamo CustomCrafter, un nuovo framework che preserva le capacità di generazione del movimento e di combinazione concettuale del modello senza la necessità di video aggiuntivi e di un fine-tuning di recupero. Per preservare la capacità di combinazione concettuale, progettiamo un modulo plug-and-play per aggiornare pochi parametri nei VDM, migliorando la capacità del modello di catturare i dettagli dell'aspetto e la capacità di combinare concetti per nuovi soggetti. Per la generazione del movimento, abbiamo osservato che i VDM tendono a ripristinare il movimento del video nella fase iniziale del denoising, mentre si concentrano sul recupero dei dettagli del soggetto nella fase successiva. Pertanto, proponiamo una Strategia Dinamica di Campionamento Video Ponderato. Sfruttando la pluggabilità dei nostri moduli di apprendimento del soggetto, riduciamo l'impatto di questo modulo sulla generazione del movimento nella fase iniziale del denoising, preservando la capacità dei VDM di generare movimento. Nella fase successiva del denoising, ripristiniamo questo modulo per riparare i dettagli dell'aspetto del soggetto specificato, garantendo così la fedeltà dell'aspetto del soggetto. I risultati sperimentali dimostrano che il nostro metodo offre un miglioramento significativo rispetto ai metodi precedenti.
I modelli visione-linguaggio ad alta risoluzione (VLMs) sono ampiamente utilizzati in compiti multimodali per migliorare l'accuratezza preservando le informazioni dettagliate delle immagini. Tuttavia, questi modelli spesso generano un eccesso di token visivi a causa della codifica di più partizioni dell'immagine di input. Elaborare questo eccesso di token visivi è computazionalmente impegnativo, specialmente in ambienti con risorse limitate e GPU di fascia consumer. Per supportare immagini ad alta risoluzione rispettando i vincoli di risorse, proponiamo High-Resolution Early Dropping (HiRED), uno schema di eliminazione dei token che opera con un budget fisso di token prima della fase del Large Language Model (LLM). HiRED può essere integrato con i VLMs ad alta risoluzione esistenti in modalità plug-and-play, poiché non richiede ulteriore addestramento pur mantenendo un'accuratezza superiore. Utilizziamo strategicamente l'attenzione dell'encoder visivo negli strati iniziali per valutare il contenuto visivo di ciascuna partizione dell'immagine e allocare il budget di token di conseguenza. Quindi, utilizzando l'attenzione nello strato finale, selezioniamo i token visivi più importanti da ciascuna partizione nel budget allocato, eliminando il resto. Empiricamente, applicando HiRED a LLaVA-Next-7B su GPU NVIDIA TESLA P40 con un budget del 20% di token, si ottiene un aumento del throughput di generazione dei token di 4,7 volte, una riduzione della latenza di generazione del primo token di 15 secondi e un risparmio di 2,3 GB di memoria GPU per una singola inferenza.
Il Federated Learning (FL) offre un approccio promettente per l'apprendimento automatico collaborativo su dispositivi distribuiti. Tuttavia, la sua adozione è ostacolata dalla complessità nella costruzione di architetture di comunicazione affidabili e dalla necessità di competenze sia nell'apprendimento automatico che nella programmazione di rete. Questo articolo presenta una soluzione completa che semplifica l'orchestrazione delle attività di FL integrando l'automazione basata su intenti. Sviluppiamo un'applicazione web user-friendly che supporta l'algoritmo di federated averaging (FedAvg), consentendo agli utenti di configurare i parametri attraverso un'interfaccia intuitiva. La soluzione backend gestisce in modo efficiente la comunicazione tra il server dei parametri e i nodi edge. Implementiamo inoltre algoritmi di compressione del modello e di scheduling per ottimizzare le prestazioni del FL. Inoltre, esploriamo l'automazione basata su intenti nel FL utilizzando un Language Model (LLM) fine-tuned addestrato su un dataset personalizzato, permettendo agli utenti di condurre attività di FL utilizzando prompt di alto livello. Osserviamo che la soluzione automatizzata basata su LLM raggiunge un'accuratezza di test comparabile a quella della soluzione web standard, riducendo i byte trasferiti fino al 64% e il tempo di CPU fino al 46% per le attività di FL. Inoltre, sfruttiamo la ricerca di architetture neurali (NAS) e l'ottimizzazione degli iperparametri (HPO) utilizzando LLM per migliorare le prestazioni. Osserviamo che, utilizzando questo approccio, l'accuratezza di test può essere migliorata del 10-20% per le attività di FL svolte.
Il 3D Gaussian Splatting (3DGS) ottiene rendering veloci e di alta qualità utilizzando numerosi piccoli Gaussiani, il che comporta un consumo significativo di memoria. Questa dipendenza da un gran numero di Gaussiani limita l'applicazione di modelli basati su 3DGS su dispositivi a basso costo a causa dei vincoli di memoria. Tuttavia, ridurre semplicemente il numero di Gaussiani per adattarsi a dispositivi con capacità di memoria inferiore porta a una qualità inferiore rispetto a quella ottenibile su hardware di fascia alta. Per affrontare questa mancanza di scalabilità, proponiamo di integrare un Livello di Dettaglio Flessibile (FLoD) nel 3DGS, consentendo a una scena di essere renderizzata a diversi livelli di dettaglio in base alle capacità dell'hardware. Mentre gli attuali 3DGS con LoD si concentrano sulla ricostruzione dettagliata, il nostro metodo fornisce ricostruzioni utilizzando un numero ridotto di Gaussiani per ridurre i requisiti di memoria e un numero maggiore di Gaussiani per ottenere un dettaglio maggiore. Gli esperimenti dimostrano le nostre varie opzioni di rendering con compromessi tra qualità del rendering e utilizzo della memoria, consentendo così il rendering in tempo reale con diversi vincoli di memoria. Inoltre, mostriamo che il nostro metodo si generalizza a diversi framework 3DGS, indicando il suo potenziale per l'integrazione in futuri sviluppi all'avanguardia. Pagina del progetto: https://3dgs-flod.github.io/flod.github.io/
Con i progressi nei Modelli Linguistici di Grande Dimensione (LLM), un caso d'uso significativo che è emerso è l'interrogazione di database in linguaggio naturale, traducendo le domande degli utenti in query eseguibili, il che ha visto un notevole miglioramento. Tuttavia, i dataset del mondo reale presentano spesso una vasta gamma di attributi e valori complessi, complicando il compito degli LLM di identificare con precisione colonne o valori rilevanti dalle query in linguaggio naturale. I metodi tradizionali non riescono a comunicare appieno la dimensione e la complessità dei dataset agli LLM. Per affrontare queste sfide, proponiamo un nuovo framework che sfrutta la Ricerca Full-Text (FTS) sulla tabella di input. Questo approccio non solo consente una rilevazione precisa di valori e colonne specifici, ma riduce anche lo spazio di ricerca per i modelli linguistici, migliorando così l'accuratezza delle query. Inoltre, supporta una funzionalità personalizzata di auto-completamento che suggerisce query basate sui dati presenti nella tabella. Questa integrazione affina significativamente l'interazione tra l'utente e i dataset complessi, offrendo una soluzione sofisticata ai limiti delle attuali capacità di interrogazione delle tabelle. Questo lavoro è accompagnato da un'applicazione per le piattaforme Mac e Windows, che i lettori possono provare direttamente sui propri dati.
La generazione condizionata di immagini facilita l'editing senza soluzione di continuità e la creazione di immagini fotorealistiche. Tuttavia, il condizionamento su immagini rumorose o fuori distribuzione (Out-of-Distribution, OoD) presenta sfide significative, in particolare nel bilanciare la fedeltà all'input e il realismo dell'output. Introduciamo Confident Ordinary Differential Editing (CODE), un approccio innovativo per la sintesi di immagini che gestisce efficacemente le immagini guida OoD. Utilizzando un modello di diffusione come prior generativo, CODE migliora le immagini attraverso aggiornamenti basati sul punteggio lungo la traiettoria dell'Equazione Differenziale Ordinaria (ODE) del flusso di probabilità. Questo metodo non richiede addestramento specifico per il compito, nessun modulo artigianale e nessuna ipotesi riguardo alle corruzioni che affliggono l'immagine condizionante. Il nostro metodo è compatibile con qualsiasi modello di diffusione. Posizionato all'intersezione tra la generazione condizionata di immagini e il restauro cieco di immagini, CODE opera in modo completamente cieco, basandosi esclusivamente su un modello generativo pre-addestrato. Il nostro metodo introduce un approccio alternativo al restauro cieco: invece di mirare a una specifica immagine di riferimento basandosi su ipotesi riguardo alla corruzione sottostante, CODE punta ad aumentare la probabilità dell'immagine di input mantenendo la fedeltà. Ciò si traduce nell'immagine più probabile all'interno della distribuzione attorno all'input. I nostri contributi sono duplici. In primo luogo, CODE introduce un metodo di editing innovativo basato su ODE, offrendo un controllo, un realismo e una fedeltà migliorati rispetto alla controparte basata su SDE. In secondo luogo, introduciamo un metodo di clipping basato su intervalli di confidenza, che migliora l'efficacia di CODE consentendogli di ignorare determinati pixel o informazioni, migliorando così il processo di restauro in modo cieco. I risultati sperimentali dimostrano l'efficacia di CODE rispetto ai metodi esistenti, in particolare negli scenari che coinvolgono degradazioni severe o input OoD.