Articoli di ricerca IA selezionati quotidianamente con traduzioni
Proponiamo il primo Large Reconstruction Model (LRM) in grado di prevedere il modello 3D di un oggetto a partire da una singola immagine in soli 5 secondi. A differenza di molti metodi precedenti, che vengono addestrati su dataset di piccole dimensioni come ShapeNet in modo specifico per categoria, LRM adotta un'architettura altamente scalabile basata su transformer con 500 milioni di parametri apprendibili per prevedere direttamente un campo di radianza neurale (NeRF) dall'immagine di input. Addestriamo il nostro modello in modo end-to-end su dati multiview di grandi dimensioni contenenti circa 1 milione di oggetti, inclusi rendering sintetici da Objaverse e acquisizioni reali da MVImgNet. Questa combinazione di un modello ad alta capacità e dati di addestramento su larga scala consente al nostro modello di essere altamente generalizzabile e di produrre ricostruzioni 3D di alta qualità da vari input di test, tra cui acquisizioni reali in contesti non controllati e immagini provenienti da modelli generativi. Demo video e mesh 3D interattive sono disponibili su questo sito: https://yiconghong.me/LRM/.
Nonostante i Modelli Linguistici Multimodali di Grande Dimensione (MM-LLMs) abbiano compiuto progressi entusiasmanti di recente, continuano a incontrare difficoltà nel modellare in modo efficiente le interazioni tra input multimodali e nella generazione di contenuti in modalità non testuali. In questo lavoro, proponiamo TEAL (Tokenize and Embed ALl), un approccio che tratta l'input di qualsiasi modalità come una sequenza di token e apprende uno spazio di embedding condiviso per tutte le modalità. Nello specifico, per l'input di qualsiasi modalità, TEAL lo discretizza prima in una sequenza di token utilizzando un tokenizer preesistente e poi incorpora la sequenza di token in uno spazio di embedding condiviso attraverso una matrice di embedding apprendibile. Gli MM-LLMs devono semplicemente prevedere i token multimodali in modo autoregressivo, come fanno i modelli linguistici testuali. Infine, viene applicato il corrispondente de-tokenizer per generare l'output in ciascuna modalità basandosi sulla sequenza di token prevista. Grazie allo spazio di embedding condiviso, TEAL consente ai modelli linguistici congelati di eseguire sia compiti di comprensione che di generazione che coinvolgono modalità non testuali, come immagini e audio. In questo modo, il modello linguistico testuale può fungere semplicemente da interfaccia, mantenendo le sue elevate prestazioni nella comprensione e generazione testuale. Gli esperimenti dimostrano che TEAL ottiene miglioramenti significativi nella comprensione multimodale e implementa uno schema semplice per la generazione multimodale.
Il sorprendente miglioramento qualitativo dei recenti modelli di generazione di immagini da testo ha portato a una diffusa attenzione e adozione. Tuttavia, manca una comprensione quantitativa completa delle loro capacità e dei rischi. Per colmare questa lacuna, introduciamo un nuovo benchmark, Holistic Evaluation of Text-to-Image Models (HEIM). Mentre le valutazioni precedenti si concentravano principalmente sull'allineamento testo-immagine e sulla qualità dell'immagine, noi identifichiamo 12 aspetti, tra cui allineamento testo-immagine, qualità dell'immagine, estetica, originalità, ragionamento, conoscenza, bias, tossicità, equità, robustezza, multilingualismo ed efficienza. Abbiamo curato 62 scenari che coprono questi aspetti e valutato 26 modelli all'avanguardia di generazione di immagini da testo su questo benchmark. I nostri risultati rivelano che nessun singolo modello eccelle in tutti gli aspetti, con diversi modelli che dimostrano punti di forza differenti. Rilasciamo le immagini generate e i risultati delle valutazioni umane per una completa trasparenza all'indirizzo https://crfm.stanford.edu/heim/v1.1.0 e il codice all'indirizzo https://github.com/stanford-crfm/helm, integrato con la codebase di HELM.
Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) ha notevolmente avanzato il campo della comprensione multimodale, portando all'emergere di grandi modelli multimodali (LMM). Per migliorare il livello di comprensione visiva, studi recenti hanno dotato gli LMM di capacità di comprensione a livello di regione, rappresentando le coordinate dei bounding box degli oggetti come una serie di sequenze testuali (pixel2seq). In questo articolo, introduciamo un nuovo paradigma per la modellazione della posizione degli oggetti chiamato metodo pixel2emb, in cui chiediamo all'LMM di produrre gli embedding di posizione, che vengono poi decodificati da diversi decoder. Questo paradigma consente l'uso di diversi formati di posizione (come bounding box e maschere) nelle conversazioni multimodali. Inoltre, questo tipo di modellazione della posizione basata su embedding permette di sfruttare le pratiche esistenti nei compiti di localizzazione, come il rilevamento e la segmentazione. In scenari con risorse limitate, il nostro pixel2emb dimostra prestazioni superiori rispetto agli approcci all'avanguardia (SOTA) esistenti sia nei compiti di input che di output della posizione, in un confronto equo. Sfruttando il metodo pixel2emb proposto, addestriamo un LMM denominato NExT-Chat e dimostriamo la sua capacità di gestire più compiti come il grounding visivo, la descrizione di regioni e il ragionamento basato su grounding.
Presentiamo 3DiffTection, un metodo all'avanguardia per il rilevamento di oggetti 3D da immagini singole, che sfrutta le caratteristiche di un modello di diffusione consapevole del 3D. L'annotazione di dati su larga scala per il rilevamento 3D è dispendiosa in termini di risorse e tempo. Recentemente, i modelli di diffusione di immagini pre-addestrati su larga scala sono diventati prominenti come estrattori di caratteristiche efficaci per compiti di percezione 2D. Tuttavia, queste caratteristiche sono inizialmente addestrate su dati accoppiati di testo e immagine, che non sono ottimizzati per compiti 3D, e spesso mostrano un divario di dominio quando applicati ai dati target. Il nostro approccio colma questi divari attraverso due strategie di ottimizzazione specializzate: geometrica e semantica. Per l'ottimizzazione geometrica, perfezioniamo un modello di diffusione per eseguire la sintesi di nuove viste condizionata da una singola immagine, introducendo un nuovo operatore di deformazione epipolare. Questo compito soddisfa due criteri essenziali: la necessità di consapevolezza 3D e la dipendenza esclusiva da dati di immagini posate, che sono facilmente disponibili (ad esempio, da video) e non richiedono annotazioni manuali. Per il perfezionamento semantico, addestriamo ulteriormente il modello sui dati target con supervisione di rilevamento. Entrambe le fasi di ottimizzazione impiegano ControlNet per preservare l'integrità delle capacità originali delle caratteristiche. Nel passaggio finale, sfruttiamo queste capacità potenziate per condurre un insieme di previsioni al momento del test attraverso molteplici punti di vista virtuali. Attraverso la nostra metodologia, otteniamo caratteristiche consapevoli del 3D che sono adattate per il rilevamento 3D e eccellono nell'identificare corrispondenze di punti tra viste diverse. Di conseguenza, il nostro modello emerge come un potente rilevatore 3D, superando sostanzialmente i precedenti benchmark, ad esempio Cube-RCNN, un precedente nel rilevamento 3D da vista singola, del 9,43% in AP3D sul dataset Omni3D-ARkitscene. Inoltre, 3DiffTection dimostra una robusta efficienza dei dati e una generalizzazione ai dati cross-dominio.
Recenti lavori hanno dimostrato che i Large Language Model (LLM) potrebbero potenziare i tradizionali modelli neuro-simbolici attraverso capacità di programmazione per tradurre il linguaggio in descrizioni di moduli, ottenendo così risultati robusti nel ragionamento visivo mantenendo al contempo trasparenza ed efficienza del modello. Tuttavia, questi modelli generano solitamente in modo esaustivo l'intero frammento di codice per ogni nuova istanza di un task, il che è estremamente inefficiente. Proponiamo un approccio di ragionamento visivo neuro-simbolico generativo basato sulla crescita e sul riutilizzo dei moduli. Nello specifico, il nostro modello è composto da tre fasi distinte: inizializzazione del modulo, generazione del modulo ed esecuzione del modulo. In primo luogo, dato un task di visione e linguaggio, utilizziamo gli LLM per valutare se è possibile riutilizzare e far crescere moduli esistenti per gestire questo nuovo task. In caso contrario, inizializziamo un nuovo modulo richiesto dal task e specifichiamo gli input e gli output di questo nuovo modulo. Successivamente, il nuovo modulo viene creato interrogando gli LLM per generare frammenti di codice corrispondenti che soddisfino i requisiti. Per valutare meglio le capacità del nuovo modulo, trattiamo esempi di training few-shot come casi di test per verificare se il nuovo modulo riesce a superarli. In caso affermativo, il nuovo modulo viene aggiunto alla libreria dei moduli per un futuro riutilizzo. Infine, valutiamo le prestazioni del nostro modello sul set di test eseguendo i programmi analizzati con i nuovi moduli visivi per ottenere i risultati. Riteniamo che il modello proposto presenti diversi vantaggi. In primo luogo, ottiene prestazioni competitive su task standard come il visual question answering e la comprensione delle espressioni referenziali; in secondo luogo, i moduli appresi da un task possono essere trasferiti senza soluzione di continuità a nuovi task; infine, ma non meno importante, è in grado di adattarsi a nuovi task di ragionamento visivo osservando pochi esempi di training e riutilizzando i moduli.