Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo lavoro presenta Depth Anything V2. Senza ricercare tecniche elaborate, miriamo a rivelare scoperte cruciali per aprire la strada verso la costruzione di un potente modello di stima della profondità monoculare. In particolare, rispetto alla V1, questa versione produce previsioni di profondità molto più dettagliate e robuste attraverso tre pratiche chiave: 1) sostituzione di tutte le immagini reali etichettate con immagini sintetiche, 2) aumento della capacità del nostro modello insegnante, e 3) insegnamento dei modelli studente tramite il ponte di immagini reali pseudo-etichettate su larga scala. Rispetto ai modelli più recenti basati su Stable Diffusion, i nostri modelli sono significativamente più efficienti (più di 10 volte più veloci) e più precisi. Offriamo modelli di diverse dimensioni (che vanno da 25M a 1.3B parametri) per supportare scenari estesi. Grazie alla loro forte capacità di generalizzazione, li ottimizziamo con etichette di profondità metrica per ottenere i nostri modelli di profondità metrica. Oltre ai nostri modelli, considerando la limitata diversità e il frequente rumore negli attuali set di test, costruiamo un benchmark di valutazione versatile con annotazioni precise e scene diversificate per facilitare la ricerca futura.
Questo lavoro non introduce un nuovo metodo. Piuttosto, presentiamo una scoperta interessante che mette in discussione la necessità del bias induttivo -- la località nelle moderne architetture di visione artificiale. Nello specifico, abbiamo scoperto che i Transformer standard possono operare trattando direttamente ogni singolo pixel come un token e ottenere risultati altamente performanti. Questo è sostanzialmente diverso dal design popolare nel Vision Transformer, che mantiene il bias induttivo derivato dalle ConvNet verso i vicinati locali (ad esempio, trattando ogni patch 16x16 come un token). Dimostriamo principalmente l'efficacia dei pixel-come-token in tre compiti ben studiati nella visione artificiale: apprendimento supervisionato per la classificazione di oggetti, apprendimento auto-supervisionato tramite auto-codifica mascherata e generazione di immagini con modelli di diffusione. Sebbene operare direttamente sui singoli pixel sia meno pratico dal punto di vista computazionale, riteniamo che la comunità debba essere consapevole di questa sorprendente conoscenza quando si progetta la prossima generazione di architetture neurali per la visione artificiale.
I Transformer hanno rivoluzionato l'apprendimento automatico con la loro architettura semplice ma efficace. Il pre-addestramento dei Transformer su enormi dataset testuali provenienti da Internet ha portato a una generalizzazione senza pari per i compiti di comprensione del linguaggio naturale (NLU). Tuttavia, tali modelli linguistici rimangono fragili quando vengono incaricati di forme algoritmiche di ragionamento, dove i calcoli devono essere precisi e robusti. Per affrontare questa limitazione, proponiamo un approccio innovativo che combina la comprensione del linguaggio del Transformer con la robustezza dei risolutori neurali algoritmici (NAR) basati su reti neurali a grafo (GNN). Tali NAR si sono dimostrati efficaci come risolutori generici per compiti algoritmici, quando specificati in forma di grafo. Per rendere i loro embedding accessibili a un Transformer, proponiamo un'architettura ibrida con una procedura di addestramento in due fasi, che consente ai token nel modello linguistico di eseguire cross-attention sugli embedding dei nodi provenienti dal NAR. Valutiamo il nostro modello TransNAR risultante su CLRS-Text, la versione testuale del benchmark CLRS-30, e dimostriamo miglioramenti significativi rispetto ai modelli basati esclusivamente su Transformer per il ragionamento algoritmico, sia all'interno che al di fuori della distribuzione.
I modelli di politiche su larga scala pre-addestrati su una combinazione di dati visione-linguaggio su scala Internet e dimostrazioni robotiche diversificate hanno il potenziale di cambiare il modo in cui insegniamo nuove abilità ai robot: invece di addestrare nuovi comportamenti da zero, possiamo ottimizzare tali modelli visione-linguaggio-azione (VLA) per ottenere politiche robuste e generalizzabili per il controllo visuomotorio. Tuttavia, l'adozione diffusa dei VLA nella robotica è stata impegnativa a causa di due fattori principali: 1) i VLA esistenti sono in gran parte chiusi e inaccessibili al pubblico, e 2) i lavori precedenti non hanno esplorato metodi per ottimizzare in modo efficiente i VLA per nuovi compiti, un componente chiave per l'adozione. Affrontando queste sfide, introduciamo OpenVLA, un VLA open-source da 7 miliardi di parametri addestrato su una raccolta diversificata di 970.000 dimostrazioni robotiche del mondo reale. OpenVLA si basa su un modello linguistico Llama 2 combinato con un encoder visivo che fonde caratteristiche pre-addestrate da DINOv2 e SigLIP. Grazie alla maggiore diversità dei dati e ai nuovi componenti del modello, OpenVLA dimostra risultati solidi per la manipolazione generalista, superando modelli chiusi come RT-2-X (55B) del 16,5% nel tasso di successo assoluto dei compiti su 29 attività e molteplici incarnazioni robotiche, con 7 volte meno parametri. Mostriamo inoltre che possiamo ottimizzare efficacemente OpenVLA per nuovi contesti, con risultati di generalizzazione particolarmente forti in ambienti multi-task che coinvolgono più oggetti e capacità avanzate di ancoraggio linguistico, superando metodi di apprendimento per imitazione da zero come Diffusion Policy del 20,4%. Esploriamo anche l'efficienza computazionale; come contributo separato, dimostriamo che OpenVLA può essere ottimizzato su GPU consumer tramite moderni metodi di adattamento a basso rango e servito in modo efficiente tramite quantizzazione senza compromettere il tasso di successo a valle. Infine, rilasciamo checkpoint del modello, notebook per l'ottimizzazione e il nostro codice PyTorch con supporto integrato per l'addestramento di VLA su larga scala sui dataset Open X-Embodiment.
Modellare efficientemente sequenze con una lunghezza di contesto infinita è stato un problema di lunga data. I lavori precedenti soffrono o della complessità computazionale quadratica o della limitata capacità di estrapolazione nella generalizzazione della lunghezza. In questo lavoro, presentiamo Samba, una semplice architettura ibrida che combina a livello di strato Mamba, un modello di spazio degli stati (SSM) selettivo, con l'attenzione a finestra scorrevole (SWA). Samba comprime selettivamente una sequenza data in stati nascosti ricorrenti, mantenendo comunque la capacità di richiamare con precisione i ricordi attraverso il meccanismo di attenzione. Scaliamo Samba fino a 3,8 miliardi di parametri con 3,2 trilioni di token di addestramento e dimostriamo che Samba supera sostanzialmente i modelli all'avanguardia basati su attenzione pura o SSM su un'ampia gamma di benchmark. Quando addestrato su sequenze di lunghezza 4K, Samba può essere efficientemente estrapolato a una lunghezza di contesto di 256K con un richiamo perfetto della memoria e mostra miglioramenti nella previsione dei token fino a una lunghezza di contesto di 1M. Come modello di sequenza a tempo lineare, Samba beneficia di un throughput 3,73 volte superiore rispetto ai Transformer con attenzione a query raggruppate quando elabora prompt utente di lunghezza 128K, e di un'accelerazione di 3,64 volte quando genera 64K token con streaming illimitato. Un'implementazione campione di Samba è disponibile pubblicamente su https://github.com/microsoft/Samba.
Questo articolo presenta innovativi miglioramenti ai modelli di diffusione attraverso l'integrazione di una nuova rete multi-risoluzione e di una normalizzazione a strati dipendente dal tempo. I modelli di diffusione hanno guadagnato importanza per la loro efficacia nella generazione di immagini ad alta fedeltà. Mentre gli approcci convenzionali si basano su architetture convoluzionali U-Net, i recenti design basati su Transformer hanno dimostrato prestazioni e scalabilità superiori. Tuttavia, le architetture Transformer, che tokenizzano i dati di input (tramite "patchificazione"), affrontano un compromesso tra fedeltà visiva e complessità computazionale a causa della natura quadratica delle operazioni di self-attention rispetto alla lunghezza dei token. Sebbene dimensioni di patch più grandi consentano un'efficiente computazione dell'attenzione, esse faticano a catturare dettagli visivi fini, portando a distorsioni delle immagini. Per affrontare questa sfida, proponiamo di potenziare il modello di diffusione con la rete Multi-Risoluzione (DiMR), un framework che affina le caratteristiche attraverso più risoluzioni, migliorando progressivamente i dettagli da una risoluzione bassa a una alta. Inoltre, introduciamo la Normalizzazione a Strati Dipendente dal Tempo (TD-LN), un approccio efficiente in termini di parametri che incorpora parametri dipendenti dal tempo nella normalizzazione a strati per iniettare informazioni temporali e ottenere prestazioni superiori. L'efficacia del nostro metodo è dimostrata sul benchmark di generazione condizionata alla classe di ImageNet, dove le varianti DiMR-XL superano i precedenti modelli di diffusione, stabilendo nuovi punteggi FID state-of-the-art di 1.70 su ImageNet 256 x 256 e 2.89 su ImageNet 512 x 512. Pagina del progetto: https://qihao067.github.io/projects/DiMR
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità di ragionamento notevoli, ma rimangono suscettibili a errori, in particolare nei compiti di ragionamento temporale che coinvolgono logica temporale complessa. La ricerca esistente ha esplorato le prestazioni degli LLM nel ragionamento temporale utilizzando diversi dataset e benchmark. Tuttavia, questi studi spesso si basano su dati del mondo reale che gli LLM potrebbero aver incontrato durante la pre-addestramento o impiegano tecniche di anonimizzazione che possono introdurre inconsapevolmente incongruenze fattuali. In questo lavoro, affrontiamo queste limitazioni introducendo nuovi dataset sintetici progettati specificamente per valutare le capacità di ragionamento temporale degli LLM in vari scenari. La diversità dei tipi di domande in questi dataset consente un'indagine sistematica sull'impatto della struttura del problema, della dimensione, del tipo di domanda, dell'ordine dei fatti e di altri fattori sulle prestazioni degli LLM. I nostri risultati forniscono preziose intuizioni sui punti di forza e di debolezza degli attuali LLM nei compiti di ragionamento temporale. Per promuovere ulteriori ricerche in questo ambito, stiamo rendendo open-source i dataset e il framework di valutazione utilizzati nei nostri esperimenti: https://huggingface.co/datasets/baharef/ToT.
I Diffusion Transformers (DiT) eccellono nella generazione di immagini e video, ma affrontano sfide computazionali a causa della complessità quadratica del self-attention. Proponiamo DiTFastAttn, un innovativo metodo di compressione post-addestramento per alleviare il collo di bottiglia computazionale dei DiT. Identifichiamo tre ridondanze chiave nel calcolo dell'attenzione durante l'inferenza dei DiT: 1. ridondanza spaziale, dove molti head di attenzione si concentrano su informazioni locali; 2. ridondanza temporale, con un'elevata somiglianza tra gli output di attenzione di passi vicini; 3. ridondanza condizionale, dove le inferenze condizionate e non condizionate mostrano una significativa somiglianza. Per affrontare queste ridondanze, proponiamo tre tecniche: 1. Window Attention con Residual Caching per ridurre la ridondanza spaziale; 2. Riduzione della Somiglianza Temporale per sfruttare la somiglianza tra i passi; 3. Eliminazione della Ridondanza Condizionale per saltare calcoli ridondanti durante la generazione condizionata. Per dimostrare l'efficacia di DiTFastAttn, lo applichiamo a DiT, PixArt-Sigma per compiti di generazione di immagini e OpenSora per compiti di generazione di video. I risultati di valutazione mostrano che, per la generazione di immagini, il nostro metodo riduce fino all'88\% delle FLOP e raggiunge un accelerazione fino a 1.6x nella generazione ad alta risoluzione.
Gli esseri umani disegnano per facilitare il ragionamento: tracciamo linee ausiliarie quando risolviamo problemi di geometria; segniamo e cerchiamo elementi quando ragioniamo su mappe; utilizziamo schizzi per amplificare le nostre idee e alleviare la nostra memoria di lavoro a capacità limitata. Tuttavia, tali azioni sono assenti negli attuali modelli linguistici multimodali (LM). I paradigmi attuali di catena del pensiero e uso di strumenti utilizzano solo il testo come passaggi intermedi di ragionamento. In questo lavoro, introduciamo Sketchpad, un framework che fornisce ai LM multimodali una lavagna visiva e strumenti per disegnare su di essa. Il LM pianifica e ragiona in base agli artefatti visivi che ha disegnato. A differenza dei lavori precedenti, che utilizzano modelli testo-immagine per consentire ai LM di disegnare, Sketchpad permette ai LM di disegnare con linee, riquadri, segni, ecc., avvicinandosi maggiormente allo schizzo umano e facilitando meglio il ragionamento. Sketchpad può anche utilizzare modelli di visione specializzati durante il processo di disegno (ad esempio, disegnare riquadri di delimitazione con modelli di rilevamento di oggetti, disegnare maschere con modelli di segmentazione), per migliorare ulteriormente la percezione visiva e il ragionamento. Sperimentiamo su un'ampia gamma di compiti matematici (inclusi geometria, funzioni, grafici e scacchi) e compiti complessi di ragionamento visivo. Sketchpad migliora sostanzialmente le prestazioni su tutti i compiti rispetto a modelli di base forti senza disegno, ottenendo un guadagno medio del 12,7% sui compiti matematici e dell'8,6% sui compiti visivi. GPT-4o con Sketchpad stabilisce un nuovo stato dell'arte su tutti i compiti, inclusi V*Bench (80,3%), ragionamento spaziale BLINK (83,9%) e corrispondenza visiva (80,8%). Tutti i codici e i dati sono disponibili su https://visualsketchpad.github.io/.
Investighiamo lo spazio dei pesi generato da una vasta collezione di modelli di diffusione personalizzati. Popoliamo questo spazio creando un dataset di oltre 60.000 modelli, ciascuno dei quali è un modello di base fine-tuned per inserire l'identità visiva di una persona diversa. Modelliamo la varietà sottostante di questi pesi come un sottospazio, che chiamiamo weights2weights. Dimostriamo tre applicazioni immediate di questo spazio: campionamento, modifica e inversione. Innanzitutto, poiché ogni punto nello spazio corrisponde a un'identità, campionare un insieme di pesi da esso produce un modello che codifica una nuova identità. Successivamente, troviamo direzioni lineari in questo spazio corrispondenti a modifiche semantiche dell'identità (ad esempio, aggiungere una barba). Queste modifiche persistono nell'aspetto attraverso i campioni generati. Infine, mostriamo che invertire una singola immagine in questo spazio ricostruisce un'identità realistica, anche se l'immagine di input è fuori distribuzione (ad esempio, un dipinto). I nostri risultati indicano che lo spazio dei pesi dei modelli di diffusione fine-tuned si comporta come uno spazio latente interpretabile delle identità.
Dataset di preferenze di alta qualità sono essenziali per addestrare modelli di ricompensa che possano guidare efficacemente i grandi modelli linguistici (LLM) nella generazione di risposte di alta qualità allineate con le preferenze umane. Man mano che i LLM diventano più potenti e meglio allineati, i dataset di preferenze con licenza permissiva, come Open Assistant, HH-RLHF e HelpSteer, devono essere aggiornati per rimanere efficaci per la modellazione delle ricompense. I metodi che distillano dati di preferenza da LLM proprietari come GPT-4 hanno restrizioni sull'uso commerciale imposte dai fornitori dei modelli. Per migliorare sia la qualità delle risposte generate che l'etichettatura degli attributi, abbiamo rilasciato HelpSteer2, un dataset di preferenze con licenza permissiva (CC-BY-4.0). Utilizzando un potente modello base interno addestrato su HelpSteer2, siamo stati in grado di raggiungere il punteggio SOTA (92,0%) sul dataset principale di Reward-Bench, superando i modelli aperti e proprietari attualmente elencati, al 12 giugno 2024. È importante notare che HelpSteer2 è composto da solo diecimila coppie di risposte, un ordine di grandezza inferiore rispetto ai dataset di preferenze esistenti (ad esempio, HH-RLHF), il che lo rende altamente efficiente per l'addestramento di modelli di ricompensa. I nostri esperimenti estesi dimostrano che i modelli di ricompensa addestrati con HelpSteer2 sono efficaci nell'allineare i LLM. In particolare, proponiamo SteerLM 2.0, un approccio di allineamento dei modelli che può utilizzare efficacemente il ricco punteggio multi-attributo previsto dai nostri modelli di ricompensa. HelpSteer2 è disponibile su https://huggingface.co/datasets/nvidia/HelpSteer2 e il codice è disponibile su https://github.com/NVIDIA/NeMo-Aligner
Presentiamo MuirBench, un benchmark completo che si concentra sulle capacità robuste di comprensione multi-immagine dei modelli linguistici multimodali (LLM). MuirBench è composto da 12 task diversi di comprensione multi-immagine (ad esempio, comprensione della scena, ordinamento) che coinvolgono 10 categorie di relazioni tra immagini multiple (ad esempio, relazioni multiview, temporali). Con 11.264 immagini e 2.600 domande a scelta multipla, MuirBench è stato creato in modo accoppiato, dove ogni istanza standard è abbinata a una variante non risolvibile con differenze semantiche minime, al fine di garantire una valutazione affidabile. Valutato su 20 recenti LLM multimodali, i nostri risultati rivelano che anche i modelli con le migliori prestazioni come GPT-4o e Gemini Pro trovano difficile risolvere MuirBench, raggiungendo rispettivamente il 68,0% e il 49,3% di accuratezza. I LLM multimodali open-source addestrati su singole immagini difficilmente riescono a generalizzare alle domande multi-immagine, rimanendo al di sotto del 33,3% di accuratezza. Questi risultati sottolineano l'importanza di MuirBench nell'incoraggiare la comunità a sviluppare LLM multimodali in grado di andare oltre una singola immagine, suggerendo potenziali percorsi per miglioramenti futuri.
I Modelli Linguistici Multimodali di Grande Scala (mLLM) vengono addestrati su una vasta quantità di dati testo-immagine. Mentre la maggior parte degli mLLM viene addestrata solo su dati simili a didascalie, Alayrac et al. [2022] hanno dimostrato che un addestramento aggiuntivo su sequenze intercalate di testo e immagini può portare all'emergere di capacità di apprendimento in contesto. Tuttavia, il dataset da loro utilizzato, M3W, non è pubblico ed è disponibile solo in inglese. Ci sono stati tentativi di riprodurre i loro risultati, ma i dataset rilasciati sono esclusivamente in inglese. Al contrario, gli attuali dataset multilingue e multimodali sono composti solo da dati simili a didascalie, sono di scala media o completamente privati. Ciò limita la ricerca sugli mLLM per le altre 7.000 lingue parlate nel mondo. Introduciamo quindi mOSCAR, che a nostra conoscenza è il primo corpus documentale multilingue e multimodale di grande scala estratto dal web. Copre 163 lingue, 315 milioni di documenti, 214 miliardi di token e 1,2 miliardi di immagini. Abbiamo condotto con attenzione una serie di passaggi di filtraggio e valutazione per garantire che mOSCAR sia sufficientemente sicuro, diversificato e di buona qualità. Inoltre, abbiamo addestrato due tipi di modello multilingue per dimostrare i vantaggi di mOSCAR: (1) un modello addestrato su un sottoinsieme di mOSCAR e dati di didascalie e (2) un modello addestrato solo su dati di didascalie. Il modello addestrato ulteriormente su mOSCAR mostra un forte miglioramento nelle prestazioni di apprendimento few-shot su vari compiti e benchmark multilingue di testo-immagine, confermando i risultati precedenti ottenuti con mLLM esclusivamente in inglese.
L'Informatica (CS) rappresenta una testimonianza delle complessità dell'intelligenza umana, contribuendo in modo significativo allo sviluppo dell'intelligenza artificiale e della società moderna. Tuttavia, l'attuale comunità dei grandi modelli linguistici (LLMs) si concentra eccessivamente su benchmark per analizzare competenze specifiche di base (ad esempio, matematica e generazione di codice), trascurando una valutazione completa del campo dell'informatica. Per colmare questa lacuna, introduciamo CS-Bench, il primo benchmark bilingue (cinese-inglese) dedicato a valutare le prestazioni degli LLMs in informatica. CS-Bench comprende circa 5K campioni di test accuratamente curati, che coprono 26 sottocampi in 4 aree chiave dell'informatica, abbracciando varie forme di compiti e divisioni di conoscenza e ragionamento. Utilizzando CS-Bench, conduciamo una valutazione completa di oltre 30 LLMs mainstream, rivelando la relazione tra le prestazioni in CS e le dimensioni dei modelli. Analizziamo inoltre quantitativamente le ragioni degli insuccessi negli LLMs esistenti e evidenziamo le direzioni per miglioramenti, inclusi l'integrazione di conoscenze e il ragionamento specifico per l'informatica. Ulteriori esperimenti sulle capacità incrociate mostrano un'elevata correlazione tra le capacità degli LLMs in informatica e le loro abilità in matematica e codifica. Inoltre, LLMs esperti specializzati in matematica e codifica dimostrano anche forti prestazioni in diversi sottocampi dell'informatica. Guardando al futuro, immaginiamo che CS-Bench possa servire come pietra angolare per le applicazioni degli LLMs nel campo dell'informatica e aprire nuove strade nella valutazione delle diverse capacità di ragionamento degli LLMs. I dati di CS-Bench e il codice di valutazione sono disponibili su https://github.com/csbench/csbench.
I modelli di base multimodali e multitask attuali come 4M o UnifiedIO mostrano risultati promettenti, ma nella pratica le loro capacità pronte all'uso di accettare input diversificati e svolgere compiti vari sono limitate dal numero (di solito piuttosto ridotto) di modalità e task su cui vengono addestrati. In questo articolo, espandiamo le capacità di questi modelli addestrando un singolo modello su decine di modalità altamente diversificate e realizzando un co-addestramento su dataset multimodali su larga scala e corpora testuali. Ciò include l'addestramento su diverse modalità semantiche e geometriche, mappe di feature provenienti da modelli all'avanguardia recenti come DINOv2 e ImageBind, etichette pseudo-derivate da modelli specializzati come SAM e 4DHumans, e una gamma di nuove modalità che consentono modi innovativi di interagire con il modello e guidare la generazione, ad esempio metadati di immagini o palette di colori. Un passaggio cruciale in questo processo è l'applicazione della tokenizzazione discreta su varie modalità, siano esse simili a immagini, mappe di feature di reti neurali, vettori, dati strutturati come segmentazione di istanze o pose umane, o dati che possono essere rappresentati come testo. Attraverso questo approccio, ampliamo le capacità pronte all'uso dei modelli multimodali e dimostriamo in particolare la possibilità di addestrare un singolo modello per risolvere almeno 3 volte più task/modalità rispetto a quelli esistenti, mantenendo invariata la performance. Ciò consente capacità di generazione multimodale più granulari e controllabili e ci permette di studiare la distillazione di modelli addestrati su dati e obiettivi diversificati in un modello unificato. Abbiamo scalato con successo l'addestramento a un modello da tre miliardi di parametri utilizzando decine di modalità e diversi dataset. I modelli risultanti e il codice di addestramento sono open source su 4m.epfl.ch.
I recenti progressi nella generazione di immagini hanno reso possibile la creazione di immagini di alta qualità a partire da condizioni testuali. Tuttavia, quando si affrontano condizioni multi-modali, come il testo combinato con aspetti di riferimento, i metodi esistenti faticano a bilanciare efficacemente le diverse condizioni, mostrando tipicamente una preferenza per una modalità rispetto alle altre. Per affrontare questa sfida, introduciamo EMMA, un nuovo modello di generazione di immagini che accetta prompt multi-modali, basato sul modello di diffusione testo-immagine (T2I) all'avanguardia, ELLA. EMMA incorpora in modo fluido modalità aggiuntive insieme al testo per guidare la generazione di immagini attraverso un innovativo design del Connettore di Funzionalità Multi-modale, che integra efficacemente le informazioni testuali e quelle delle modalità supplementari utilizzando un meccanismo di attenzione speciale. Congelando tutti i parametri nel modello di diffusione T2I originale e regolando solo alcuni strati aggiuntivi, riveliamo un interessante risultato: il modello di diffusione T2I pre-addestrato può segretamente accettare prompt multi-modali. Questa interessante proprietà facilita l'adattamento a diversi framework esistenti, rendendo EMMA uno strumento flessibile ed efficace per produrre immagini e persino video personalizzati e contestualmente consapevoli. Inoltre, introduciamo una strategia per assemblare moduli EMMA appresi per produrre immagini condizionate da più modalità contemporaneamente, eliminando la necessità di ulteriori addestramenti con prompt multi-modali misti. Esperimenti estesi dimostrano l'efficacia di EMMA nel mantenere alta fedeltà e dettaglio nelle immagini generate, evidenziando il suo potenziale come soluzione robusta per avanzati compiti di generazione di immagini condizionate multi-modali.
Proponiamo di sviluppare un'intelligenza omni-modale, in grado di comprendere qualsiasi modalità e apprendere rappresentazioni universali. Nello specifico, introduciamo un paradigma di pre-addestramento scalabile, denominato Multimodal Context (MiCo), che consente di aumentare il numero di modalità, la quantità di dati e i parametri del modello durante il processo di pre-addestramento. Grazie a MiCo, i modelli pre-addestrati dimostrano significative capacità emergenti nell'apprendimento multimodale, valutate attraverso i seguenti compiti: i) benchmark di percezione a singola modalità per 10 diverse modalità, ii) 25 task di comprensione cross-modale tra cui retrieval, question-answering e captioning, e iii) 18 benchmark per modelli linguistici multimodali di grandi dimensioni. I nostri modelli stabiliscono 37 nuovi record per le prestazioni state-of-the-art. Speriamo che la nostra ricerca possa contribuire allo sviluppo dell'intelligenza omni-modale. Codice e modelli sono disponibili su https://github.com/invictus717/MiCo.
Uno dei metodi predominanti per addestrare modelli del mondo è la previsione autoregressiva nello spazio di output dell'elemento successivo di una sequenza. Nel Natural Language Processing (NLP), ciò si traduce in Large Language Models (LLM) che prevedono il token successivo; in Computer Vision (CV), ciò assume la forma di modelli autoregressivi che prevedono il frame/token/pixel successivo. Tuttavia, questo approccio differisce dalla cognizione umana sotto diversi aspetti. Innanzitutto, le previsioni umane sul futuro influenzano attivamente i processi cognitivi interni. In secondo luogo, gli esseri umani valutano naturalmente la plausibilità delle previsioni riguardanti stati futuri. Basandosi su questa capacità e, in terzo luogo, valutando quando le previsioni sono sufficienti, gli esseri umani allocano una quantità dinamica di tempo per fare una previsione. Questo processo adattivo è analogo al pensiero di Sistema 2 in psicologia. Tutte queste capacità sono fondamentali per il successo degli esseri umani nel ragionamento e nella pianificazione di alto livello. Pertanto, per affrontare le limitazioni dei tradizionali modelli autoregressivi che mancano di queste capacità simili a quelle umane, introduciamo i Modelli del Mondo Basati sull'Energia (EBWM). L'EBWM prevede l'addestramento di un Modello Basato sull'Energia (EBM) per prevedere la compatibilità di un determinato contesto e di uno stato futuro previsto. In questo modo, l'EBWM consente ai modelli di raggiungere tutti e tre gli aspetti della cognizione umana descritti. Inoltre, abbiamo sviluppato una variante del tradizionale trasformatore autoregressivo adattata per i modelli basati sull'energia, denominata Trasformatore Basato sull'Energia (EBT). I nostri risultati dimostrano che l'EBWM scala meglio con i dati e le ore di GPU rispetto ai tradizionali trasformatori autoregressivi in CV e che l'EBWM offre promettenti risultati iniziali di scalabilità in NLP. Di conseguenza, questo approccio offre un percorso entusiasmante verso l'addestramento di futuri modelli capaci di pensiero di Sistema 2 e di ricerca intelligente attraverso spazi di stati.
Nonostante i progressi nei Large Language Models (LLM), esemplificati da modelli come GPT-4 e Claude, i LLM di scala ridotta come Llama e Mistral spesso incontrano difficoltà nel generare dialoghi approfonditi e coerenti. Questo articolo presenta un innovativo modello a due fasi Coarse-to-Fine Actor per affrontare le limitazioni intrinseche nelle capacità conversazionali e analitiche dei LLM di piccole dimensioni. Il nostro approccio inizia con il Coarse Actor basato su policy, che utilizza una tecnica da noi denominata "Massimizzazione Continua". Il Coarse Actor stabilisce un pool arricchito di conoscenze, abile nell'allinearsi agli stili di preferenza umana nell'analisi e nel ragionamento. Attraverso il processo RLHF, impiega la Massimizzazione Continua, una strategia che estende dinamicamente e in modo adattivo il limite di lunghezza dell'output, consentendo la generazione di contenuti più dettagliati e analitici. Successivamente, il Fine Actor affina questo contenuto analitico, affrontando il problema della generazione di informazioni eccessivamente ridondanti da parte del Coarse Actor. Introduciamo un approccio chiamato "Fusione del Residuo di Conoscenza", che perfeziona il contenuto del Coarse Actor e lo fonde con un modello di istruzione esistente per migliorare la qualità, la correttezza e ridurre le ridondanze. Abbiamo applicato la nostra metodologia al popolare modello Mistral, creando Mistral-C2F, che ha dimostrato prestazioni eccezionali in 11 task linguistici generali e nel task di dialogo MT-Bench, superando modelli di scala simile e persino modelli più grandi con 13B e 30B parametri. Il nostro modello ha migliorato significativamente le capacità di ragionamento conversazionale e analitico.
Presentiamo un nuovo compito e benchmark per valutare la capacità dei modelli di generazione da testo a immagine (T2I) di produrre immagini che rispettino il buon senso nella vita reale, che chiamiamo Commonsense-T2I. Dati due prompt testuali avversari contenenti un insieme identico di parole d'azione con lievi differenze, come "una lampadina senza elettricità" rispetto a "una lampadina con elettricità", valutiamo se i modelli T2I sono in grado di condurre un ragionamento visivo basato sul buon senso, ad esempio producendo immagini che corrispondano a "la lampadina è spenta" rispetto a "la lampadina è accesa". Commonsense-T2I presenta una sfida avversaria, fornendo prompt testuali in coppia insieme ai risultati attesi. Il dataset è stato accuratamente curato manualmente da esperti e annotato con etichette dettagliate, come il tipo di buon senso e la probabilità dei risultati attesi, per aiutare nell'analisi del comportamento del modello. Abbiamo valutato una varietà di modelli T2I all'avanguardia (sota) e, sorprendentemente, abbiamo scoperto che c'è ancora un ampio divario tra la sintesi di immagini e le foto della vita reale: anche il modello DALL-E 3 ha raggiunto solo il 48,92% su Commonsense-T2I, e il modello Stable Diffusion XL ha raggiunto solo un'accuratezza del 24,92%. I nostri esperimenti dimostrano che i prompt arricchiti con GPT non possono risolvere questa sfida, e includiamo un'analisi dettagliata sulle possibili ragioni di tale carenza. Miriamo a far sì che Commonsense-T2I serva come un benchmark di valutazione di alta qualità per il controllo del buon senso nei modelli T2I, promuovendo progressi nella generazione di immagini realistiche.
La generazione di video presenta sfide uniche che vanno oltre quelle della generazione di immagini. La dimensione temporale introduce ampie variazioni possibili tra i fotogrammi, rispetto alle quali coerenza e continuità possono essere violate. In questo studio, andiamo oltre la valutazione di azioni semplici e sosteniamo che i video generati dovrebbero incorporare l'emergere di nuovi concetti e le loro transizioni relazionali, come avviene nei video del mondo reale con il passare del tempo. Per valutare la Composizionalità Temporale dei modelli di generazione video, proponiamo TC-Bench, un benchmark composto da prompt testuali accuratamente elaborati, video di riferimento corrispondenti e metriche di valutazione robuste. I prompt articolano gli stati iniziali e finali delle scene, riducendo efficacemente le ambiguità nello sviluppo dei fotogrammi e semplificando la valutazione del completamento delle transizioni. Inoltre, raccogliendo video del mondo reale allineati ai prompt, estendiamo l'applicabilità di TC-Bench dai modelli condizionati al testo a quelli condizionati all'immagine, che possono eseguire interpolazione generativa di fotogrammi. Sviluppiamo anche nuove metriche per misurare la completezza delle transizioni dei componenti nei video generati, che dimostrano correlazioni significativamente più elevate con i giudizi umani rispetto alle metriche esistenti. I nostri risultati sperimentali completi rivelano che la maggior parte dei generatori di video raggiunge meno del 20% dei cambiamenti composizionali, evidenziando un enorme spazio per miglioramenti futuri. La nostra analisi indica che i modelli attuali di generazione video faticano a interpretare le descrizioni dei cambiamenti composizionali e a sintetizzare vari componenti attraverso diversi passaggi temporali.
Questo lavoro riguarda la stima del tasso di allucinazione nell'apprendimento in contesto (In-Context Learning, ICL) con modelli generativi di intelligenza artificiale. Nell'ICL, un modello generativo condizionale (Conditional Generative Model, CGM) viene stimolato con un dataset e invitato a fare una previsione basata su tale dataset. L'interpretazione bayesiana dell'ICL presuppone che il CGM stia calcolando una distribuzione predittiva a posteriori su un modello bayesiano sconosciuto di un parametro latente e dei dati. Con questa prospettiva, definiamo un'allucinazione come una previsione generata che ha una bassa probabilità sotto il vero parametro latente. Sviluppiamo un nuovo metodo che prende un problema di ICL -- ovvero un CGM, un dataset e una domanda di previsione -- e stima la probabilità che un CGM generi un'allucinazione. Il nostro metodo richiede solo la generazione di query e risposte dal modello e la valutazione della probabilità logaritmica delle sue risposte. Valutiamo empiricamente il nostro metodo su compiti di ICL sintetici di regressione e di linguaggio naturale utilizzando modelli linguistici di grandi dimensioni.
La strategia predefinita per l'addestramento di modelli di ricostruzione su larga scala (LRM) a vista singola segue l'approccio supervisionato completo, utilizzando dataset su larga scala di asset 3D sintetici o acquisizioni multi-vista. Sebbene queste risorse semplifichino il processo di addestramento, sono difficili da scalare oltre i dataset esistenti e non sono necessariamente rappresentative della distribuzione reale delle forme degli oggetti. Per affrontare queste limitazioni, in questo articolo introduciamo Real3D, il primo sistema LRM che può essere addestrato utilizzando immagini reali a vista singola. Real3D introduce un nuovo framework di auto-addestramento che può trarre vantaggio sia dai dati sintetici esistenti che da immagini reali a vista singola e diversificate. Proponiamo due funzioni di perdita non supervisionate che ci consentono di supervisionare gli LRM a livello di pixel e semantico, anche per esempi di addestramento senza verità di base 3D o nuove viste. Per migliorare ulteriormente le prestazioni e scalare i dati delle immagini, sviluppiamo un approccio automatico di curatela dei dati per raccogliere esempi di alta qualità da immagini in-the-wild. I nostri esperimenti dimostrano che Real3D supera costantemente il lavoro precedente in quattro contesti di valutazione diversi che includono dati reali e sintetici, nonché forme sia in dominio che fuori dominio. Codice e modello possono essere trovati qui: https://hwjiang1510.github.io/Real3D/
L'inferenza auto-regressiva dei transformer trae grande beneficio dalla memorizzazione delle chiavi-valori (KV), ma può portare a significativi colli di bottiglia nella memoria man mano che le dimensioni del modello, la dimensione del batch e la lunghezza delle sequenze crescono su larga scala. Introduciamo la condivisione multi-strato delle chiavi-valori (MLKV), un approccio innovativo che estende la condivisione delle KV attraverso i livelli del transformer per ridurre ulteriormente l'uso della memoria rispetto a quanto possibile con l'attenzione multi-query (MQA) e l'attenzione a query raggruppate (GQA). Le valutazioni su vari benchmark NLP e metriche di inferenza utilizzando varianti riaddestrate di Pythia-160M dimostrano che MLKV riduce significativamente l'uso della memoria con una minima perdita di prestazioni, riducendo la dimensione della cache KV fino a un fattore di 6x rispetto a MQA. Questi risultati evidenziano il potenziale di MLKV per un'implementazione efficiente dei modelli transformer su larga scala. Forniamo il codice all'indirizzo https://github.com/zaydzuhri/pythia-mlkv.
La compressione di immagini a bitrate ultra-basso è un argomento impegnativo e di grande interesse. Con lo sviluppo dei Large Multimodal Models (LMM), è emerso un paradigma di Cross Modality Compression (CMC) di tipo Immagine-Testo-Immagine. Rispetto ai codec tradizionali, questa compressione a livello semantico può ridurre le dimensioni dei dati immagine allo 0,1% o anche meno, aprendo potenziali applicazioni significative. Tuttavia, il CMC presenta alcuni difetti in termini di coerenza con l'immagine originale e qualità percettiva. Per affrontare questo problema, introduciamo CMC-Bench, un benchmark che valuta le prestazioni collaborative dei modelli Image-to-Text (I2T) e Text-to-Image (T2I) nella compressione delle immagini. Questo benchmark copre rispettivamente 18.000 e 40.000 immagini per verificare 6 modelli I2T e 12 T2I mainstream, includendo 160.000 punteggi di preferenza soggettiva annotati da esperti umani. A bitrate ultra-bassi, questo articolo dimostra che la combinazione di alcuni modelli I2T e T2I ha superato i codec di segnali visivi più avanzati; allo stesso tempo, evidenzia le aree in cui gli LMM possono essere ulteriormente ottimizzati per il compito di compressione. Incoraggiamo gli sviluppatori di LMM a partecipare a questo test per promuovere l'evoluzione dei protocolli di codec per segnali visivi.
Il Visual Question Answering (VQA) è un compito importante nell'ambito dell'IA multimodale e viene spesso utilizzato per testare la capacità dei modelli visione-linguaggio di comprendere e ragionare sulle conoscenze presenti sia nei dati visivi che testuali. Tuttavia, la maggior parte degli attuali modelli VQA utilizza dataset principalmente focalizzati sull'inglese e su poche altre lingue principali, con immagini tipicamente centrate sulla cultura occidentale. Sebbene recenti sforzi abbiano cercato di aumentare il numero di lingue coperte nei dataset VQA, questi mancano ancora di diversità per le lingue a bassa risorsa. Ancora più importante, sebbene questi dataset spesso estendano la loro gamma linguistica tramite traduzione o altri approcci, di solito mantengono le stesse immagini, risultando in una rappresentazione culturale limitata. Per affrontare queste limitazioni, abbiamo costruito CVQA, un nuovo benchmark di Visual Question Answering multilingue e culturalmente diversificato, progettato per coprire un ricco insieme di lingue e culture, coinvolgendo parlanti nativi ed esperti culturali nel processo di raccolta dati. Di conseguenza, CVQA include immagini e domande guidate culturalmente provenienti da 28 paesi su quattro continenti, coprendo 26 lingue con 11 sistemi di scrittura, fornendo un totale di 9k domande. Abbiamo quindi valutato diversi Modelli Linguistici Multimodali di Grande Scala (MLLMs) su CVQA, dimostrando che il dataset rappresenta una sfida per gli attuali modelli all'avanguardia. Questo benchmark può servire come suite di valutazione per analizzare la capacità culturale e i pregiudizi dei modelli multimodali e, si spera, incoraggiare ulteriori sforzi di ricerca verso l'aumento della consapevolezza culturale e della diversità linguistica in questo campo.
Il rapido progresso dei Modelli Linguistici di Grande Dimensione (LLM) richiede benchmark robusti e impegnativi. Le classifiche come Chatbot Arena valutano gli LLM in base a quanto bene le loro risposte si allineano alle preferenze umane. Tuttavia, molti compiti, come quelli legati all'intelligenza emotiva, alla scrittura creativa o alla persuasività, sono altamente soggettivi e spesso mancano di un accordo maggioritario tra gli esseri umani. I giudici possono avere disaccordi inconciliabili su ciò che costituisce una risposta migliore. Per affrontare la sfida di classificare gli LLM su compiti altamente soggettivi, proponiamo un nuovo framework di benchmarking, il Consiglio dei Modelli Linguistici (LMC). L'LMC opera attraverso un processo democratico per: 1) formulare un set di test attraverso una partecipazione equa, 2) somministrare il test tra i membri del consiglio e 3) valutare le risposte come una giuria collettiva. Implementiamo un consiglio di 20 LLM più recenti su un compito aperto di intelligenza emotiva: rispondere a dilemmi interpersonali. I nostri risultati mostrano che l'LMC produce classifiche che sono più separabili, robuste e meno distorte rispetto a quelle di qualsiasi singolo giudice LLM, ed è più coerente con una classifica stabilita da esseri umani rispetto ad altri benchmark.
In termini colloquiali, i modelli di generazione di immagini basati su processi di diffusione sono spesso descritti come soggetti a "allucinazioni", ovvero campioni che non potrebbero mai verificarsi nei dati di addestramento. Ma da dove provengono queste allucinazioni? In questo articolo, studiamo una particolare modalità di fallimento nei modelli di diffusione, che definiamo interpolazione di modi. Nello specifico, scopriamo che i modelli di diffusione "interpolano" in modo fluido tra modi di dati vicini nel set di addestramento, generando campioni che si trovano completamente al di fuori del supporto della distribuzione di addestramento originale; questo fenomeno porta i modelli di diffusione a generare artefatti che non sono mai esistiti nei dati reali (cioè, allucinazioni). Studiamo sistematicamente le ragioni e le manifestazioni di questo fenomeno. Attraverso esperimenti su Gaussiane 1D e 2D, mostriamo come un paesaggio di perdita discontinuo nel decodificatore del modello di diffusione porti a una regione in cui qualsiasi approssimazione fluida causerà tali allucinazioni. Attraverso esperimenti su dataset artificiali con varie forme, mostriamo come l'allucinazione porti alla generazione di combinazioni di forme che non sono mai esistite. Infine, dimostriamo che i modelli di diffusione in realtà sanno quando escono dal supporto e allucinano. Questo è catturato dall'elevata varianza nella traiettoria del campione generato verso le ultime fasi del processo di campionamento inverso. Utilizzando una semplice metrica per catturare questa varianza, possiamo rimuovere oltre il 95% delle allucinazioni al momento della generazione, mantenendo il 96% dei campioni all'interno del supporto. Concludiamo la nostra esplorazione mostrando le implicazioni di tali allucinazioni (e della loro rimozione) sul collasso (e sulla stabilizzazione) dell'addestramento ricorsivo su dati sintetici, con esperimenti sul dataset MNIST e su Gaussiane 2D. Rilasciamo il nostro codice su https://github.com/locuslab/diffusion-model-hallucination.
Nella generazione di immagini da testo guidata da soggetti, i lavori recenti hanno ottenuto prestazioni superiori addestrando il modello su dataset sintetici contenenti numerose coppie di immagini. Addestrati su questi dataset, i modelli generativi possono produrre immagini allineate al testo per un soggetto specifico a partire da immagini di test arbitrarie in modalità zero-shot. Questi modelli superano persino i metodi che richiedono un ulteriore fine-tuning sulle immagini di test. Tuttavia, il costo di creazione di tali dataset è proibitivo per la maggior parte dei ricercatori. Per generare una singola coppia di addestramento, i metodi attuali eseguono il fine-tuning di un modello pre-addestrato di generazione di immagini da testo sull'immagine del soggetto per catturare dettagli fini, quindi utilizzano il modello fine-tuned per creare immagini dello stesso soggetto basate su prompt testuali creativi. Di conseguenza, la costruzione di un dataset su larga scala con milioni di soggetti può richiedere centinaia di migliaia di ore di GPU. Per affrontare questo problema, proponiamo Toffee, un metodo efficiente per costruire dataset per l'editing e la generazione guidata da soggetti. Nello specifico, la nostra costruzione del dataset non richiede alcun fine-tuning a livello di soggetto. Dopo il pre-addestramento di due modelli generativi, siamo in grado di generare un numero infinito di campioni di alta qualità. Abbiamo costruito il primo dataset su larga scala per l'editing e la generazione di immagini guidata da soggetti, che contiene 5 milioni di coppie di immagini, prompt testuali e maschere. Il nostro dataset è 5 volte più grande del precedente dataset più ampio, eppure il nostro costo è inferiore di decine di migliaia di ore di GPU. Per testare il dataset proposto, proponiamo anche un modello in grado sia di editing che di generazione di immagini guidata da soggetti. Addestrando semplicemente il modello sul nostro dataset proposto, si ottengono risultati competitivi, dimostrando l'efficacia del framework proposto per la costruzione del dataset.
Presentiamo LRM-Zero, un Large Reconstruction Model (LRM) addestrato interamente su dati 3D sintetizzati, che raggiunge una ricostruzione 3D di alta qualità a partire da poche viste. Il cuore di LRM-Zero è il nostro dataset 3D procedurale, Zeroverse, generato automaticamente a partire da forme primitive semplici con texture casuali e aumentazioni (ad esempio, campi di altezza, differenze booleane e wireframe). A differenza dei precedenti dataset 3D (ad esempio, Objaverse), spesso acquisiti o creati manualmente per approssimare dati 3D reali, Zeroverse ignora completamente la semantica globale realistica ma è ricco di dettagli geometrici e texture complessi che sono localmente simili o addirittura più intricati rispetto agli oggetti reali. Dimostriamo che il nostro LRM-Zero, addestrato con il nostro Zeroverse completamente sintetizzato, può raggiungere un’elevata qualità visiva nella ricostruzione di oggetti del mondo reale, competitiva rispetto ai modelli addestrati su Objaverse. Analizziamo inoltre diverse scelte progettuali critiche di Zeroverse che contribuiscono alle capacità e alla stabilità dell’addestramento di LRM-Zero. Il nostro lavoro dimostra che la ricostruzione 3D, uno dei compiti fondamentali nella visione 3D, può potenzialmente essere affrontata senza la semantica degli oggetti del mondo reale. Il codice di sintesi procedurale di Zeroverse e la visualizzazione interattiva sono disponibili all’indirizzo: https://desaixie.github.io/lrm-zero/.