Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici (LLM) sono centrali nel moderno elaborazione del linguaggio naturale, offrendo prestazioni eccezionali in vari compiti. Tuttavia, i loro intensivi requisiti computazionali e di memoria presentano sfide, specialmente per dispositivi con capacità DRAM limitata. Questo articolo affronta la sfida di eseguire in modo efficiente LLM che superano la capacità DRAM disponibile, memorizzando i parametri del modello su memoria flash e portandoli su richiesta nella DRAM. Il nostro metodo prevede la costruzione di un modello di costo di inferenza che si armonizza con il comportamento della memoria flash, guidandoci a ottimizzare in due aree critiche: ridurre il volume di dati trasferiti dalla flash e leggere i dati in blocchi più grandi e contigui. All'interno di questo framework informato dalla memoria flash, introduciamo due tecniche principali. Innanzitutto, il "windowing" riduce strategicamente il trasferimento dei dati riutilizzando i neuroni precedentemente attivati, e in secondo luogo, il "row-column bundling", adattato ai punti di forza dell'accesso sequenziale ai dati della memoria flash, aumenta la dimensione dei blocchi di dati letti dalla memoria flash. Questi metodi consentono collettivamente di eseguire modelli fino al doppio della dimensione della DRAM disponibile, con un aumento della velocità di inferenza di 4-5x e 20-25x rispetto agli approcci di caricamento naive su CPU e GPU, rispettivamente. La nostra integrazione della consapevolezza della sparsità, del caricamento adattivo al contesto e di un design orientato all'hardware apre la strada a un'inferenza efficace di LLM su dispositivi con memoria limitata.
Le Scalable Vector Graphics (SVG) sono diventate fondamentali nelle moderne applicazioni di rendering di immagini grazie alla loro scalabilità infinita in termini di risoluzione, versatilità d'uso e capacità di modifica. Le SVG sono particolarmente popolari nei campi dello sviluppo web e del design grafico. Gli approcci esistenti per la modellazione di SVG utilizzando il deep learning spesso incontrano difficoltà nella generazione di SVG complesse e sono limitati a quelle più semplici, che richiedono un'elaborazione e una semplificazione estese. Questo articolo introduce StarVector, un modello di generazione di SVG multimodale che integra efficacemente i Large Language Models per la generazione di codice (CodeLLMs) e i modelli visivi. Il nostro approccio utilizza un encoder di immagini CLIP per estrarre rappresentazioni visive da immagini basate su pixel, che vengono poi trasformate in token visivi tramite un modulo adattatore. Questi token visivi vengono anteposti agli embedding dei token SVG, e la sequenza viene modellata dal modello StarCoder utilizzando la previsione del token successivo, imparando efficacemente ad allineare i token visivi e quelli di codice. Ciò consente a StarVector di generare SVG senza restrizioni che rappresentano accuratamente le immagini pixel. Per valutare le prestazioni di StarVector, presentiamo SVG-Bench, un benchmark completo per valutare i metodi SVG su più dataset e metriche rilevanti. All'interno di questo benchmark, introduciamo nuovi dataset, tra cui SVG-Stack, un dataset su larga scala di esempi di SVG del mondo reale, e lo utilizziamo per pre-addestrare StarVector come un grande modello di base per le SVG. I nostri risultati dimostrano miglioramenti significativi nella qualità visiva e nella gestione della complessità rispetto ai metodi attuali, segnando un progresso notevole nella tecnologia di generazione di SVG. Codice e modelli: https://github.com/joanrod/star-vector
La ricostruzione della struttura 3D e della camera a partire da punti di riferimento 2D è alla base dell'intera disciplina della visione artificiale. I metodi tradizionali si sono limitati a oggetti rigidi specifici, come quelli nei problemi Perspective-n-Point (PnP), ma il deep learning ha ampliato la nostra capacità di ricostruire un'ampia gamma di classi di oggetti (ad esempio C3PDO e PAUL) con resilienza al rumore, alle occlusioni e alle distorsioni prospettiche. Tutte queste tecniche, tuttavia, sono state limitate dalla necessità fondamentale di stabilire corrispondenze nei dati di addestramento 3D, riducendo significativamente la loro utilità in applicazioni in cui si dispone di un'abbondanza di dati 3D "in corrispondenza". Il nostro approccio sfrutta l'equivarianza alle permutazioni intrinseca dei transformer per gestire un numero variabile di punti per ogni istanza di dati 3D, resistere alle occlusioni e generalizzare a categorie non viste. Dimostriamo prestazioni all'avanguardia nei benchmark di ricostruzione 2D-3D. Poiché il nostro approccio può essere addestrato su una così vasta classe di strutture, lo definiamo semplicemente come un Modello Fondamentale di Ricostruzione 3D (3D-LFM) — il primo nel suo genere.
La capacità dei grandi modelli linguistici (LLM) di elaborare input visivi ha dato origine a sistemi visivi generici, unificando vari compiti di visione e linguaggio (VL) attraverso l'instruction tuning. Tuttavia, a causa dell'enorme diversità nei formati di input-output nel dominio visivo, i modelli generici esistenti non riescono a integrare con successo la segmentazione e gli input multi-immagine con compiti di livello grossolano in un unico framework. In questo lavoro, introduciamo VistaLLM, un potente sistema visivo che affronta compiti VL sia di livello grossolano che fine su immagini singole e multiple utilizzando un framework unificato. VistaLLM utilizza un tokenizer di immagini guidato da istruzioni che filtra gli embedding globali utilizzando le descrizioni dei compiti per estrarre caratteristiche compresse e raffinate da numerose immagini. Inoltre, VistaLLM impiega una tecnica di campionamento adattivo basata sul gradiente per rappresentare le maschere di segmentazione binaria come sequenze, migliorando significativamente rispetto al campionamento uniforme precedentemente utilizzato. Per rafforzare le capacità desiderate di VistaLLM, abbiamo curato CoinIt, un dataset completo di instruction tuning da livello grossolano a fine con 6,8 milioni di campioni. Abbiamo anche affrontato la mancanza di dataset di grounding multi-immagine introducendo un nuovo compito, AttCoSeg (Attribute-level Co-Segmentation), che potenzia la capacità di ragionamento e grounding del modello su più immagini di input. Esperimenti estesi su un'ampia gamma di compiti V e VL dimostrano l'efficacia di VistaLLM, raggiungendo prestazioni costantemente all'avanguardia rispetto a baseline solide in tutti i compiti downstream. La nostra pagina del progetto è disponibile all'indirizzo https://shramanpramanick.github.io/VistaLLM/.
Presentiamo HAAR, un nuovo modello generativo basato su ciocche per acconciature umane 3D. Nello specifico, basandosi su input testuali, HAAR produce acconciature 3D che possono essere utilizzate come asset di livello produttivo nei moderni motori di computer grafica. Gli attuali modelli generativi basati sull'intelligenza artificiale sfruttano potenti prior 2D per ricostruire contenuti 3D sotto forma di nuvole di punti, mesh o funzioni volumetriche. Tuttavia, utilizzando i prior 2D, sono intrinsecamente limitati a ricostruire solo le parti visibili. Le strutture capillari altamente occluse non possono essere ricostruite con questi metodi, che modellano solo il "guscio esterno", non pronto per essere utilizzato in pipeline di rendering o simulazione basate sulla fisica. Al contrario, proponiamo un primo metodo generativo guidato da testo che utilizza ciocche di capelli 3D come rappresentazione sottostante. Sfruttando sistemi di risposta a domande visive (VQA) 2D, annotiamo automaticamente modelli di capelli sintetici generati da un piccolo insieme di acconciature create da artisti. Questo ci permette di addestrare un modello di diffusione latente che opera in uno spazio UV comune per le acconciature. In studi qualitativi e quantitativi, dimostriamo le capacità del modello proposto e lo confrontiamo con gli approcci esistenti per la generazione di acconciature.
La percezione amodale, la capacità di comprendere le strutture complete degli oggetti a partire da una visibilità parziale, è un'abilità fondamentale, persino per i neonati. La sua importanza si estende ad applicazioni come la guida autonoma, dove una chiara comprensione degli oggetti fortemente occlusi è essenziale. Tuttavia, gli algoritmi moderni di rilevamento e tracciamento spesso trascurano questa capacità critica, forse a causa della prevalenza di annotazioni modali nella maggior parte dei dataset. Per affrontare la scarsità di dati amodali, introduciamo il benchmark TAO-Amodal, che presenta 880 categorie diverse in migliaia di sequenze video. Il nostro dataset include bounding box amodali e modali per oggetti visibili e occlusi, compresi oggetti parzialmente fuori dall'inquadratura. Per migliorare il tracciamento amodale con la permanenza degli oggetti, sfruttiamo un modulo plug-in leggero, l'amodal expander, per trasformare i tracker modali standard in tracker amodali attraverso il fine-tuning su poche centinaia di sequenze video con aumento dei dati. Otteniamo un miglioramento del 3,3% e dell'1,6% nel rilevamento e nel tracciamento degli oggetti occlusi su TAO-Amodal. Quando valutato sulle persone, il nostro metodo produce miglioramenti significativi di 2x rispetto ai baseline modali all'avanguardia.
Il Neural Radiance Field (NeRF) è emerso come una tecnica all'avanguardia per la sintesi di nuove viste, grazie alla sua impressionante capacità di ricostruzione e rendering fotorealistico. Tuttavia, ottenere un rendering NeRF in tempo reale in scene di grandi dimensioni ha presentato sfide, portando spesso all'adozione di rappresentazioni complesse di mesh precalcolate con un numero elevato di triangoli o a un costoso ray marching in rappresentazioni precalcolate. Noi mettiamo in discussione queste convenzioni, osservando che una geometria di alta qualità, rappresentata da mesh con un numero sostanziale di triangoli, non è necessaria per ottenere una qualità di rendering fotorealistica. Di conseguenza, proponiamo MixRT, una nuova rappresentazione NeRF che include una mesh di bassa qualità, una mappa di spostamento dipendente dalla vista e un modello NeRF compresso. Questo design sfrutta efficacemente le capacità dell'hardware grafico esistente, consentendo così il rendering NeRF in tempo reale su dispositivi edge. Sfruttando un framework di rendering altamente ottimizzato basato su WebGL, il nostro MixRT proposto raggiunge velocità di rendering in tempo reale su dispositivi edge (oltre 30 FPS a una risoluzione di 1280 x 720 su un MacBook M1 Pro), una migliore qualità di rendering (0,2 PSNR in più nelle scene indoor dei dataset Unbounded-360) e una dimensione di archiviazione inferiore (meno dell'80% rispetto ai metodi all'avanguardia).
Le tecniche di super-risoluzione (SR) sono state recentemente proposte per aumentare la risoluzione degli output dei campi di radianza neurale (NeRF) e generare immagini di alta qualità con velocità di inferenza migliorate. Tuttavia, i metodi esistenti NeRF+SR aumentano il sovraccarico di addestramento utilizzando funzionalità di input aggiuntive, funzioni di perdita e/o procedure di addestramento costose come la distillazione della conoscenza. In questo articolo, miriamo a sfruttare la SR per ottenere guadagni di efficienza senza costosi addestramenti o modifiche architetturali. Nello specifico, costruiamo una semplice pipeline NeRF+SR che combina direttamente moduli esistenti e proponiamo una tecnica di aumento leggera, il campionamento casuale di patch, per l'addestramento. Rispetto ai metodi NeRF+SR esistenti, la nostra pipeline riduce il sovraccarico computazionale della SR e può essere addestrata fino a 23 volte più velocemente, rendendola fattibile su dispositivi consumer come l'Apple MacBook. Gli esperimenti dimostrano che la nostra pipeline può aumentare la risoluzione degli output NeRF di 2-4 volte mantenendo un'alta qualità, aumentando le velocità di inferenza fino a 18 volte su una GPU NVIDIA V100 e 12,8 volte su un chip M1 Pro. Concludiamo che la SR può essere una tecnica semplice ma efficace per migliorare l'efficienza dei modelli NeRF per dispositivi consumer.
In questo articolo, presentiamo un innovativo approccio a due stadi che sfrutta appieno le informazioni fornite dall'immagine di riferimento per stabilire una conoscenza a priori personalizzata per la generazione da immagine a 3D. Mentre i metodi precedenti si basano principalmente su un modello di diffusione generale, che fatica a produrre risultati coerenti con l'immagine di riferimento, noi proponiamo un modello di diffusione specifico per il soggetto e multimodale. Questo modello non solo aiuta l'ottimizzazione di NeRF considerando la modalità di ombreggiatura per migliorare la geometria, ma anche migliora la texture partendo dai risultati grezzi per ottenere un affinamento superiore. Entrambi gli aspetti contribuiscono ad allineare fedelmente il contenuto 3D con il soggetto. Esperimenti estensivi dimostrano la superiorità del nostro metodo, Customize-It-3D, che supera i lavori precedenti con un margine significativo. Produce ricostruzioni fedeli a 360 gradi con una qualità visiva impressionante, rendendolo adatto a varie applicazioni, inclusa la creazione da testo a 3D.
Questo articolo introduce un approccio innovativo per il topic modeling che utilizza codebook latenti derivati da un Autoencoder Variazionale Quantizzato Vettoriale (VQ-VAE), incapsulando in modo discreto le ricche informazioni degli embedding pre-addestrati, come quelli di un modello linguistico pre-addestrato. Partendo da una nuova interpretazione dei codebook latenti e degli embedding come bag-of-words concettuali, proponiamo un nuovo modello generativo di topic chiamato Topic-VQ-VAE (TVQ-VAE), che genera inversamente i documenti originali associati ai rispettivi codebook latenti. Il TVQ-VAE è in grado di visualizzare i topic attraverso varie distribuzioni generative, inclusa la tradizionale distribuzione BoW e la generazione autoregressiva di immagini. I nostri risultati sperimentali sull'analisi dei documenti e sulla generazione di immagini dimostrano che il TVQ-VAE cattura efficacemente il contesto dei topic, rivelando le strutture sottostanti del dataset e supportando forme flessibili di generazione di documenti. L'implementazione ufficiale del TVQ-VAE proposto è disponibile all'indirizzo https://github.com/clovaai/TVQ-VAE.
I modelli di diffusione guidati da testo hanno guadagnato sempre più popolarità per varie attività di editing di immagini, tra cui inpainting, stilizzazione e sostituzione di oggetti. Tuttavia, rimane ancora un problema di ricerca aperto adottare questo paradigma linguaggio-visione per attività di elaborazione delle immagini più dettagliate, come la riduzione del rumore, la super-risoluzione, la deblurring e la rimozione degli artefatti di compressione. In questo articolo, sviluppiamo TIP, un framework di elaborazione delle immagini guidato da testo che sfrutta il linguaggio naturale come interfaccia user-friendly per controllare il processo di restauro delle immagini. Consideriamo la capacità delle informazioni testuali in due dimensioni. In primo luogo, utilizziamo prompt relativi al contenuto per migliorare l'allineamento semantico, allevando efficacemente l'ambiguità di identità nei risultati di restauro. In secondo luogo, il nostro approccio è il primo framework che supporta istruzioni dettagliate attraverso la specificazione quantitativa basata sul linguaggio della forza di restauro, senza la necessità di un design esplicito specifico per il compito. Inoltre, introduciamo un nuovo meccanismo di fusione che potenzia l'architettura esistente di ControlNet imparando a riscalare il prior generativo, ottenendo così una migliore fedeltà di restauro. I nostri esperimenti estensivi dimostrano la superiore performance di restauro di TIP rispetto allo stato dell'arte, offrendo al contempo la flessibilità del controllo basato su testo sugli effetti di restauro.
I video sono una fonte di dati altamente ridondante e spesso è sufficiente identificare pochi momenti chiave per risolvere un determinato compito. In questo articolo, presentiamo un modulo di ricampionamento video condizionato al testo (TCR) che utilizza un encoder visivo pre-addestrato e congelato e un modello linguistico di grandi dimensioni (LLM) per elaborare sequenze video lunghe per un compito specifico. TCR localizza le caratteristiche visive rilevanti dal video in base a una condizione testuale e le fornisce a un LLM per generare una risposta testuale. Grazie al suo design leggero e all'uso dell'attenzione incrociata, TCR può elaborare più di 100 fotogrammi alla volta, consentendo al modello di utilizzare segmenti video molto più lunghi rispetto ai lavori precedenti. Facciamo i seguenti contributi: (i) progettiamo un'architettura di campionamento basata su transformer in grado di elaborare video lunghi condizionati a un compito, insieme a un metodo di addestramento che le consente di collegare modelli visivi e linguistici pre-addestrati; (ii) validiamo empiricamente la sua efficacia su una vasta gamma di compiti di valutazione, e stabiliamo un nuovo stato dell'arte su NextQA, EgoSchema e la sfida EGO4D-LTA; e (iii) identifichiamo i compiti che richiedono contesti video più lunghi e che possono quindi essere utilizzati efficacemente per ulteriori valutazioni di modelli video a lungo raggio.