Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo lavoro, presentiamo OmniGen, un nuovo modello di diffusione per la generazione unificata di immagini. A differenza dei popolari modelli di diffusione (ad esempio, Diffusione Stabile), OmniGen non richiede più moduli aggiuntivi come ControlNet o IP-Adapter per elaborare diverse condizioni di controllo. OmniGen è caratterizzato dalle seguenti caratteristiche: 1) Unificazione: OmniGen non solo dimostra capacità di generazione testo-immagine, ma supporta intrinsecamente anche altre attività successive, come modifica delle immagini, generazione guidata dal soggetto e generazione condizionata visivamente. Inoltre, OmniGen può gestire compiti classici di visione artificiale trasformandoli in compiti di generazione di immagini, come rilevamento dei contorni e riconoscimento della postura umana. 2) Semplicità: L'architettura di OmniGen è altamente semplificata, eliminando la necessità di codificatori di testo aggiuntivi. Inoltre, è più user-friendly rispetto ai modelli di diffusione esistenti, consentendo di completare compiti complessi attraverso istruzioni senza la necessità di passaggi di pre-elaborazione aggiuntivi (ad esempio, stima della postura umana), semplificando significativamente il flusso di lavoro della generazione di immagini. 3) Trasferimento di Conoscenza: Attraverso l'apprendimento in un formato unificato, OmniGen trasferisce efficacemente la conoscenza tra diversi compiti, gestisce compiti e domini non visti ed esibisce capacità innovative. Esploriamo anche le capacità di ragionamento del modello e le potenziali applicazioni del meccanismo di concatenazione del pensiero. Questo lavoro rappresenta il primo tentativo di un modello di generazione di immagini ad uso generale e rimangono diverse questioni irrisolte. Metteremo a disposizione le risorse correlate in open source su https://github.com/VectorSpaceLab/OmniGen per favorire i progressi in questo campo.
Presentiamo NVLM 1.0, una famiglia di modelli di linguaggio di grandi dimensioni (LLM) multimodali di classe di frontiera che raggiungono risultati all'avanguardia su compiti visione-linguaggio, competendo con i principali modelli proprietari (ad esempio, GPT-4o) e modelli in open-access (ad esempio, Llama 3-V 405B e InternVL 2). In modo notevole, NVLM 1.0 mostra un'ulteriore miglioramento delle prestazioni basate solo sul testo rispetto alla sua struttura di base LLM dopo l'addestramento multimodale. Per quanto riguarda il design del modello, effettuiamo un confronto esaustivo tra LLM multimodali basati solo sul decoder (ad esempio, LLaVA) e modelli basati sull'attenzione incrociata (ad esempio, Flamingo). Sulla base dei punti di forza e delle debolezze di entrambi gli approcci, proponiamo un'architettura innovativa che potenzia sia l'efficienza dell'addestramento che le capacità di ragionamento multimodale. Inoltre, introduciamo un design di marcatura a piastrella 1-D per immagini dinamiche ad alta risoluzione basate su piastrelle, che aumenta significativamente le prestazioni su compiti di ragionamento multimodale e correlati all'OCR. Riguardo ai dati di addestramento, curiamo attentamente e forniamo informazioni dettagliate sui nostri set di dati di preaddestramento multimodali e di sintonizzazione fine supervisionata. Le nostre scoperte indicano che la qualità del dataset e la diversità dei compiti sono più importanti della scala, anche durante la fase di preaddestramento, in tutte le architetture. In particolare, sviluppiamo multimodalità di qualità professionale per i modelli NVLM-1.0, consentendo loro di eccellere nei compiti visione-linguaggio mantenendo e persino migliorando le prestazioni basate solo sul testo rispetto alle loro strutture di base LLM. Per raggiungere questo obiettivo, creiamo e integriamo un dataset basato solo sul testo di alta qualità nell'addestramento multimodale, insieme a una quantità sostanziale di dati di matematica e ragionamento multimodale, portando a capacità migliorate di matematica e codifica attraverso le modalità. Per far progredire la ricerca nel settore, rilasceremo i pesi del modello e renderemo open-source il codice per la comunità: https://nvlm-project.github.io/.
Lavori recenti hanno dimostrato che i grandi modelli di diffusione possono essere riutilizzati come stimatori di profondità monoculare altamente precisi, trattando la stima della profondità come un compito di generazione di immagini condizionato all'immagine. Sebbene il modello proposto abbia ottenuto risultati all'avanguardia, elevate richieste computazionali dovute all'inferenza a più passaggi ne hanno limitato l'uso in molteplici scenari. In questo articolo, dimostriamo che l'inefficienza percepita è stata causata da un difetto nel pipeline di inferenza che finora era passato inosservato. Il modello corretto si comporta in modo comparabile alla migliore configurazione precedentemente segnalata, pur essendo più di 200 volte più veloce. Per ottimizzare le prestazioni per compiti successivi, eseguiamo un raffinamento fine-tuning end-to-end in cima al modello a singolo passaggio con perdite specifiche del compito e otteniamo un modello deterministico che supera tutti gli altri modelli di stima della profondità e delle normali basati sulla diffusione su comuni benchmark zero-shot. Sorprendentemente, scopriamo che questo protocollo di fine-tuning funziona anche direttamente su Stable Diffusion e raggiunge prestazioni comparabili ai modelli attuali all'avanguardia di stima della profondità e delle normali basati sulla diffusione, mettendo in discussione alcune delle conclusioni tratte dai lavori precedenti.
Nella modellazione 3D, i designer spesso utilizzano un modello 3D esistente come riferimento per creare nuovi modelli. Questa pratica ha ispirato lo sviluppo di Phidias, un nuovo modello generativo che utilizza la diffusione per la generazione 3D potenziata dal riferimento. Dato un'immagine, il nostro metodo sfrutta un modello 3D di riferimento recuperato o fornito dall'utente per guidare il processo di generazione, migliorando così la qualità della generazione, la capacità di generalizzazione e la controllabilità. Il nostro modello integra tre componenti chiave: 1) meta-ControlNet che modula dinamicamente la forza di condizionamento, 2) instradamento dinamico del riferimento che mitiga lo sbilanciamento tra l'immagine di input e il riferimento 3D, e 3) potenziamenti di auto-riferimento che consentono la formazione auto-supervisionata con un curriculum progressivo. Complessivamente, questi design portano a un chiaro miglioramento rispetto ai metodi esistenti. Phidias stabilisce un quadro unificato per la generazione 3D utilizzando testo, immagini e condizioni 3D con applicazioni versatili.
I modelli linguistici (LM) ottimizzati tramite istruzioni sono in grado di rispondere a comandi imperativi, offrendo un'interfaccia utente più naturale rispetto alle controparti di base. In questo lavoro, presentiamo Promptriever, il primo modello di recupero in grado di essere sollecitato come un LM. Per addestrare Promptriever, curiamo e rilasciamo un nuovo set di addestramento delle istanze a livello di istruzione da MS MARCO, che copre quasi 500k istanze. Promptriever non solo ottiene ottime prestazioni in compiti standard di recupero, ma segue anche le istruzioni. Osserviamo: (1) grandi miglioramenti (raggiungendo lo stato dell'arte) nel seguire istruzioni dettagliate sulla rilevanza (+14.3 p-MRR / +3.1 nDCG su FollowIR), (2) una significativa maggiore robustezza nelle scelte lessicali/formulazioni nella query+istruzione (+12.9 Robustness@10 su InstructIR), e (3) la capacità di eseguire la ricerca iperparametrica tramite sollecitazioni per migliorare in modo affidabile le prestazioni di recupero (+1.4 aumento medio su BEIR). Promptriever dimostra che i modelli di recupero possono essere controllati con sollecitazioni su base per-query, aprendo la strada per futuri lavori che allineano le tecniche di sollecitazione LM con il recupero delle informazioni.
I modelli di diffusione latente hanno mostrato risultati promettenti nei compiti di generazione testo-audio (T2A), tuttavia i modelli precedenti hanno incontrato difficoltà nella qualità della generazione, nel costo computazionale, nel campionamento della diffusione e nella preparazione dei dati. In questo articolo, presentiamo EzAudio, un modello di diffusione T2A basato su trasformatori, per affrontare queste sfide. Il nostro approccio include diverse innovazioni chiave: (1) Costruiamo il modello T2A nello spazio latente di un Variational Autoencoder (VAE) a forma d'onda 1D, evitando le complessità legate alla gestione delle rappresentazioni spettrogramma 2D e all'uso di un vocoder neurale aggiuntivo. (2) Progettiamo un'architettura di trasformatori di diffusione ottimizzata appositamente progettata per le rappresentazioni latenti audio e la modellizzazione della diffusione, che migliora la velocità di convergenza, la stabilità dell'addestramento e l'utilizzo della memoria, rendendo il processo di addestramento più semplice ed efficiente. (3) Per affrontare la scarsità di dati, adottiamo una strategia di addestramento efficiente che sfrutta dati non etichettati per apprendere le dipendenze acustiche, dati di didascalie audio annotati da modelli audio-linguistici per l'apprendimento dell'allineamento testo-audio e dati etichettati dall'uomo per il raffinamento. (4) Introduciamo un metodo di ridimensionamento della guida senza classificatore (CFG) che semplifica EzAudio ottenendo un forte allineamento della richiesta preservando al contempo un'ottima qualità audio quando si utilizzano punteggi CFG più elevati, eliminando la necessità di lottare per trovare il punteggio CFG ottimale per bilanciare questo compromesso. EzAudio supera i modelli open-source esistenti sia nei metrici oggettivi che nelle valutazioni soggettive, offrendo esperienze di ascolto realistiche pur mantenendo una struttura del modello snella, costi di addestramento ridotti e un processo di addestramento facile da seguire. Il codice, i dati e i modelli pre-addestrati sono rilasciati su: https://haidog-yaqub.github.io/EzAudio-Page/.
Lavori di ricerca precedenti hanno valutato LLM quantizzati utilizzando metriche limitate come perplessità o alcuni compiti di base di conoscenza e vecchi set di dati. Inoltre, modelli di grandi dimensioni recenti come Llama 3.1 con fino a 405 miliardi non sono stati esaminati approfonditamente. Questo articolo valuta le prestazioni di LLM ottimizzati per istruzioni attraverso vari metodi di quantizzazione (GPTQ, AWQ, SmoothQuant e FP8) su modelli che vanno da 7 miliardi a 405 miliardi. Utilizzando 13 benchmark, valutiamo le prestazioni su sei tipi di compiti: Q\&A di buon senso, comprensione della conoscenza e del linguaggio, seguire le istruzioni, rilevare l'allucinazione, matematica e dialogo. Le nostre principali scoperte rivelano che (1) quantizzare un LLM più grande ad una dimensione simile a un LLM FP16 più piccolo generalmente funziona meglio su maggior parte dei benchmark, tranne che per il rilevamento dell'allucinazione e il seguire le istruzioni; (2) le prestazioni variano significativamente con diversi metodi di quantizzazione, dimensione del modello e larghezza di bit, con i metodi basati solo sui pesi spesso che producono risultati migliori nei modelli più grandi; (3) la difficoltà del compito non influisce significativamente sulla degradazione dell'accuratezza dovuta alla quantizzazione; e (4) il metodo di valutazione MT-Bench ha un potere discriminatorio limitato tra i LLM recenti ad alte prestazioni.
I modelli di diffusione video hanno dimostrato un grande potenziale nella generazione di video di alta qualità, rendendoli un focus sempre più popolare. Tuttavia, la loro natura iterativa porta a notevoli costi computazionali e temporali. Sebbene siano stati fatti sforzi per accelerare la diffusione video riducendo i passaggi di inferenza (attraverso tecniche come la distillazione della coerenza) e l'addestramento GAN (questi approcci spesso non raggiungono prestazioni stabili o di addestramento). In questo lavoro, introduciamo un framework di addestramento a due fasi che combina efficacemente la distillazione della coerenza con l'addestramento GAN per affrontare queste sfide. Inoltre, proponiamo un nuovo design di discriminatore video, che elimina la necessità di decodificare i latenti video e migliora le prestazioni finali. Il nostro modello è in grado di produrre video di alta qualità in un solo passaggio, con la flessibilità di eseguire un perfezionamento a più passaggi per ulteriori miglioramenti delle prestazioni. La nostra valutazione quantitativa sul benchmark OpenWebVid-1M mostra che il nostro modello supera significativamente i metodi esistenti. In particolare, le nostre prestazioni a 1 passaggio (FVD 171.15) superano le prestazioni a 8 passaggi del metodo basato sulla distillazione della coerenza, AnimateLCM (FVD 184.79), e si avvicinano alle prestazioni a 25 passaggi dell'avanzato Stable Video Diffusion (FVD 156.94).
La modellazione basata sugli agenti (ABM) mira a comprendere il comportamento dei sistemi complessi simulando una collezione di agenti che agiscono e interagiscono all'interno di un ambiente. La loro utilità pratica richiede la cattura di dinamiche ambientali realistiche e di comportamenti adattivi degli agenti, mentre si simulano efficientemente popolazioni di dimensioni milionarie. Gli sviluppi recenti nei grandi modelli linguistici (LLM) presentano un'opportunità per potenziare gli ABM utilizzando i LLM come agenti con ulteriore potenziale per catturare comportamenti adattivi. Tuttavia, l'infattibilità computazionale nell'uso dei LLM per popolazioni numerose ha ostacolato la loro adozione diffusa. In questo articolo, presentiamo AgentTorch - un framework che scala gli ABM a milioni di agenti catturando comportamenti ad alta risoluzione degli agenti utilizzando i LLM. Valutiamo l'utilità dei LLM come agenti ABM, esplorando il compromesso tra scala di simulazione e agenzia individuale. Utilizzando la pandemia di COVID-19 come caso di studio, dimostriamo come AgentTorch possa simulare 8,4 milioni di agenti rappresentanti la città di New York, catturando l'impatto dell'isolamento e del comportamento lavorativo sulla salute e sui risultati economici. Confrontiamo le prestazioni di diverse architetture di agenti basate su euristiche e LLM nella previsione delle ondate di malattia e dei tassi di disoccupazione. Inoltre, mostriamo le capacità di AgentTorch per analisi retrospettive, controfattuali e prospettiche, evidenziando come il comportamento adattivo degli agenti possa contribuire a superare i limiti dei dati storici nella progettazione delle politiche. AgentTorch è un progetto open-source attivamente utilizzato per la formulazione delle politiche e la scoperta scientifica in tutto il mondo. Il framework è disponibile qui: github.com/AgentTorch/AgentTorch.
Ci concentriamo sull'agile, continuo e adattabile al terreno salto dei robot quadrupedi in terreni discontinui come scale e pietre gradinate. A differenza del salto a singolo gradino, il salto continuo richiede l'esecuzione accurata di movimenti altamente dinamici su lunghe distanze, il che è sfidante per gli approcci esistenti. Per portare a termine questo compito, progettiamo un framework gerarchico di apprendimento e controllo, che comprende un predittore di heightmap appreso per una percezione robusta del terreno, una politica di movimento a livello di centroide basata sull'apprendimento per una pianificazione versatile e adattabile al terreno, e un controllore di gamba basato su modello a basso livello per un tracciamento preciso del movimento. Inoltre, riduciamo al minimo il divario sim-to-real modellando accuratamente le caratteristiche hardware. Il nostro framework consente a un robot Unitree Go1 di eseguire salti agili e continui su scale delle dimensioni umane e su pietre gradinate sparse, per la prima volta a quanto ne sappiamo. In particolare, il robot può superare due gradini di scale in ogni salto e completare una scalinata di 3,5m di lunghezza, 2,8m di altezza e 14 gradini in 4,5 secondi. Inoltre, la stessa politica supera le baselines in vari altri compiti di parkour, come saltare su discontinuità singole orizzontali o verticali. I video degli esperimenti sono disponibili su https://yxyang.github.io/jumping\_cod/.
La digitalizzazione di scene statiche in 3D e eventi dinamici in 4D da immagini multi-vista è da tempo una sfida nella visione artificiale e nella grafica. Di recente, lo Splatting Gaussiano in 3D (3DGS) è emerso come un metodo di ricostruzione pratico e scalabile, guadagnando popolarità grazie alla sua impressionante qualità di ricostruzione, alle capacità di rendering in tempo reale e alla compatibilità con strumenti di visualizzazione ampiamente utilizzati. Tuttavia, il metodo richiede un numero sostanziale di viste in ingresso per ottenere una ricostruzione di scena di alta qualità, introducendo un significativo collo di bottiglia pratico. Questa sfida è particolarmente severa nella cattura di scene dinamiche, dove l'impiego di un ampio array di telecamere può essere proibitivamente costoso. In questo lavoro, identifichiamo la mancanza di autocorrelazione spaziale delle caratteristiche di splat come uno dei fattori che contribuiscono alle prestazioni non ottimali della tecnica 3DGS in contesti di ricostruzione sparsi. Per affrontare il problema, proponiamo una strategia di ottimizzazione che regolarizza efficacemente le caratteristiche di splat modellandole come gli output di un campo neurale implicito corrispondente. Ciò si traduce in un miglioramento costante della qualità della ricostruzione in vari scenari. Il nostro approccio gestisce efficacemente casi statici e dinamici, come dimostrato da test approfonditi su diverse configurazioni e complessità delle scene.
Gli LLM sono una parte integrante dei sistemi di generazione potenziati dalla ricerca (RAG). Mentre molti studi si concentrano sull'valutazione della qualità dei sistemi RAG end-to-end, c'è una mancanza di ricerca sull'comprensione dell'appropriatezza di un LLM per il compito RAG. Pertanto, introduciamo una nuova metrica, Trust-Score, che fornisce una valutazione olistica dell'affidabilità degli LLM in un contesto RAG. Dimostriamo che vari metodi di sollecitazione, come l'apprendimento in contesto, non riescono ad adattare gli LLM in modo efficace al compito RAG. Pertanto, proponiamo Trust-Align, un framework per allineare LLM per un Trust-Score più elevato. LLaMA-3-8b, allineato con il nostro metodo, supera significativamente gli LLM open-source di dimensioni comparabili su ASQA (fino al 10,7), QAMPARI (fino al 29,2) e ELI5 (fino al 14,9). Rilasciamo il nostro codice su: https://github.com/declare-lab/trust-align.
Comprendere le emozioni è fondamentale per l'interazione umana e l'esperienza. Gli esseri umani inferiscono facilmente le emozioni da situazioni o espressioni facciali, situazioni dalle emozioni e svolgono una varietà di altre cognizioni affettive. Quanto è abile l'IA moderna in queste inferenze? Introduciamo un framework di valutazione per testare la cognizione affettiva nei modelli fondamentali. Partendo dalla teoria psicologica, generiamo 1.280 scenari diversi che esplorano le relazioni tra valutazioni, emozioni, espressioni e risultati. Valutiamo le capacità dei modelli fondamentali (GPT-4, Claude-3, Gemini-1.5-Pro) e degli esseri umani (N = 567) in condizioni attentamente selezionate. I nostri risultati mostrano che i modelli fondamentali tendono ad essere d'accordo con le intuizioni umane, eguagliando o superando l'accordo tra partecipanti. In alcune condizioni, i modelli sono "sovrannaturali" - predicono meglio i giudizi umani modali rispetto alla media umana. Tutti i modelli traggono beneficio dal ragionamento a catena di pensiero. Ciò suggerisce che i modelli fondamentali hanno acquisito una comprensione umano-simile delle emozioni e del loro influsso sulle convinzioni e sul comportamento.
La Rappresentazione Neurale Implicita (INR), sfruttando una rete neurale per trasformare l'input delle coordinate in attributi corrispondenti, ha recentemente guidato significativi progressi in diversi domini legati alla visione. Tuttavia, le prestazioni dell'INR sono fortemente influenzate dalla scelta della funzione di attivazione non lineare utilizzata nella sua architettura multistrato del perceptron (MLP). Sono state esaminate varie non linearità; tuttavia, gli attuali INR presentano limitazioni nel catturare componenti ad alta frequenza, tipi di segnale diversi e nel gestire problemi inversi. Abbiamo identificato che questi problemi possono essere notevolmente alleviati introducendo un cambio di paradigma negli INR. Abbiamo scoperto che un'architettura con attivazioni apprendibili nei livelli iniziali può rappresentare dettagli fini nei segnali sottostanti. In particolare, proponiamo SL^{2}A-INR, una rete ibrida per INR con una funzione di attivazione apprendibile a singolo strato, che favorisce l'efficacia dei tradizionali MLP basati su ReLU. Il nostro metodo si comporta in modo superiore in diverse attività, inclusa la rappresentazione delle immagini, le ricostruzioni di forme 3D, l'inpainting, la super-risoluzione di immagini singole, la ricostruzione CT e la sintesi di nuove visualizzazioni. Attraverso esperimenti esaustivi, SL^{2}A-INR stabilisce nuovi benchmark in termini di accuratezza, qualità e velocità di convergenza per l'INR.
L'esplosione recente dei sistemi generativi di AI-Music ha sollevato numerose preoccupazioni riguardo ai diritti d'autore dei dati, al rilascio di licenze musicali da parte dei musicisti e al conflitto tra l'AI open-source e le grandi aziende di prestigio. Tali questioni mettono in evidenza la necessità di dati musicali pubblicamente disponibili e privi di copyright, di cui c'è una grande carenza, in particolare per i dati musicali simbolici. Per affrontare questo problema, presentiamo PDMX: un dataset open-source su larga scala di oltre 250.000 partiture MusicXML di pubblico dominio raccolte dal forum di condivisione di partiture MuseScore, che lo rende il dataset di dati musicali simbolici privi di copyright più grande attualmente disponibile a nostra conoscenza. PDMX include inoltre una vasta gamma di metadati relativi a tag e interazioni degli utenti, che ci consentono di analizzare efficientemente il dataset e filtrare le partiture generate dagli utenti di alta qualità. Grazie ai metadati aggiuntivi forniti dal nostro processo di raccolta dati, conduciamo esperimenti di generazione musicale multitraccia valutando come diversi sottoinsiemi rappresentativi di PDMX portino a comportamenti diversi nei modelli successivi e come le statistiche di valutazione degli utenti possano essere utilizzate come misura efficace della qualità dei dati. Esempi sono disponibili su https://pnlong.github.io/PDMX.demo/.
Le rappresentazioni neurali implicite (INR) utilizzano reti neurali per fornire rappresentazioni continue e indipendenti dalla risoluzione di segnali complessi con un numero ridotto di parametri. Tuttavia, i modelli INR esistenti spesso non riescono a catturare importanti componenti di frequenza specifiche per ciascun compito. Per affrontare questo problema, in questo articolo proponiamo una rete Fourier Kolmogorov Arnold (FKAN) per le INR. Il FKAN proposto utilizza funzioni di attivazione apprendibili modellate come serie di Fourier nel primo strato per controllare ed apprendere efficacemente le componenti di frequenza specifiche del compito. Inoltre, le funzioni di attivazione con coefficienti di Fourier apprendibili migliorano la capacità della rete di catturare modelli complessi e dettagli, il che è vantaggioso per dati ad alta risoluzione e ad alta dimensionalità. I risultati sperimentali mostrano che il nostro modello FKAN proposto supera tre schemi di base all'avanguardia e migliora il rapporto segnale-rumore di picco (PSNR) e l'indice di similarità strutturale (SSIM) per il compito di rappresentazione delle immagini e l'intersezione sopra l'unione (IoU) per il compito di rappresentazione del volume di occupazione 3D, rispettivamente.