Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'IA generativa ha compiuto rapidi progressi negli ultimi anni, raggiungendo capacità senza precedenti nella comprensione multimodale e nella generazione di codice. Ciò può abilitare un nuovo paradigma nello sviluppo front-end, in cui i modelli linguistici multimodali (LLM) potrebbero convertire direttamente i progetti visivi in implementazioni di codice. In questo lavoro, formalizziamo questo compito come Design2Code e conduciamo un benchmarking completo. Nello specifico, abbiamo curato manualmente un benchmark di 484 pagine web reali e diversificate come casi di test e sviluppato una serie di metriche di valutazione automatica per valutare quanto bene gli attuali LLM multimodali possano generare implementazioni di codice che si traducono direttamente nelle pagine web di riferimento fornite, utilizzando screenshot come input. Abbiamo inoltre integrato le metriche automatiche con valutazioni umane approfondite. Abbiamo sviluppato una suite di metodi di prompting multimodale e dimostrato la loro efficacia su GPT-4V e Gemini Pro Vision. Abbiamo ulteriormente ottimizzato un modello open-source Design2Code-18B che eguaglia le prestazioni di Gemini Pro Vision. Sia la valutazione umana che le metriche automatiche mostrano che GPT-4V si comporta meglio in questo compito rispetto ad altri modelli. Inoltre, gli annotatori ritengono che le pagine web generate da GPT-4V possano sostituire le pagine web di riferimento originali nel 49% dei casi in termini di aspetto visivo e contenuto; e, forse sorprendentemente, nel 64% dei casi le pagine web generate da GPT-4V sono considerate migliori rispetto alle pagine web di riferimento originali. Le nostre metriche dettagliate indicano che i modelli open-source sono principalmente in ritardo nel ricordare gli elementi visivi dalle pagine web di input e nel generare layout corretti, mentre aspetti come il contenuto testuale e la colorazione possono essere drasticamente migliorati con un'adeguata ottimizzazione.
I modelli di diffusione generano dati dal rumore invertendo i percorsi in avanti dei dati verso il rumore e si sono affermati come una potente tecnica di modellazione generativa per dati percettivi ad alta dimensionalità, come immagini e video. Il flusso rettificato è una recente formulazione di modello generativo che collega dati e rumore in una linea retta. Nonostante le sue migliori proprietà teoriche e la semplicità concettuale, non è ancora stato definitivamente stabilito come pratica standard. In questo lavoro, miglioriamo le tecniche esistenti di campionamento del rumore per l'addestramento di modelli di flusso rettificato, orientandole verso scale percettivamente rilevanti. Attraverso uno studio su larga scala, dimostriamo la performance superiore di questo approccio rispetto alle formulazioni di diffusione consolidate per la sintesi di immagini ad alta risoluzione da testo. Inoltre, presentiamo una nuova architettura basata su transformer per la generazione di immagini da testo che utilizza pesi separati per le due modalità e consente un flusso bidirezionale di informazioni tra i token di immagine e testo, migliorando la comprensione del testo, la tipografia e le valutazioni di preferenza umana. Dimostriamo che questa architettura segue tendenze di scalabilità prevedibili e correla una minore perdita di validazione a una migliore sintesi di immagini da testo, misurata attraverso varie metriche e valutazioni umane. I nostri modelli più grandi superano i modelli all'avanguardia, e renderemo pubblicamente disponibili i nostri dati sperimentali, il codice e i pesi dei modelli.
Il virtual try-on basato su immagini (VTON), che mira a generare un'immagine di una persona target che indossa un capo d'abbigliamento in negozio, è un compito di sintesi di immagini impegnativo che richiede non solo un'elevata fedeltà della persona vestita, ma anche la piena conservazione dei dettagli del capo. Per affrontare questo problema, proponiamo Outfitting over Try-on Diffusion (OOTDiffusion), sfruttando la potenza dei modelli di diffusione latente pre-addestrati e progettando una nuova architettura di rete per un virtual try-on realistico e controllabile. Senza un processo esplicito di deformazione, proponiamo un outfitting UNet per apprendere le caratteristiche dei dettagli del capo e combinarle con il corpo umano target tramite la nostra proposta di fusione di outfitting nel processo di denoising dei modelli di diffusione. Per migliorare ulteriormente la controllabilità del nostro outfitting UNet, introduciamo l'outfitting dropout nel processo di addestramento, che ci consente di regolare l'intensità delle caratteristiche del capo attraverso la guida senza classificatore. I nostri esperimenti completi sui dataset VITON-HD e Dress Code dimostrano che OOTDiffusion genera in modo efficiente immagini di alta qualità di persone vestite per immagini arbitrarie di esseri umani e capi d'abbigliamento, superando altri metodi VTON sia in termini di fedeltà che di controllabilità, indicando un impressionante progresso nel virtual try-on. Il nostro codice sorgente è disponibile all'indirizzo https://github.com/levihsu/OOTDiffusion.
Lo sviluppo di modelli multimodali ha rappresentato un passo significativo in avanti nella comprensione dei video da parte delle macchine. Questi modelli hanno dimostrato potenziale nell'analisi di brevi clip video. Tuttavia, quando si tratta di formati più lunghi come i film, spesso non riescono a fornire risultati soddisfacenti. Gli ostacoli principali sono la mancanza di dati video di alta qualità e diversificati, nonché il lavoro intensivo richiesto per raccogliere o annotare tali dati. Di fronte a queste sfide, proponiamo MovieLLM, un nuovo framework progettato per creare dati sintetici di alta qualità per video lunghi. Questo framework sfrutta la potenza di GPT-4 e di modelli text-to-image per generare script dettagliati e immagini corrispondenti. Il nostro approccio si distingue per la sua flessibilità e scalabilità, rendendolo un'alternativa superiore ai tradizionali metodi di raccolta dati. I nostri esperimenti estensivi convalidano che i dati prodotti da MovieLLM migliorano significativamente le prestazioni dei modelli multimodali nella comprensione di narrazioni video complesse, superando le limitazioni dei dataset esistenti riguardo alla scarsità e al bias.
Recentemente, la generazione di video ha raggiunto uno sviluppo rapido e significativo basandosi su tecniche avanzate di generazione da testo a immagine. In questo lavoro, proponiamo un framework ad alta fedeltà per la generazione da immagine a video, denominato AtomoVideo. Basandoci sull'iniezione di immagini a multi-granularità, otteniamo una maggiore fedeltà del video generato rispetto all'immagine fornita. Inoltre, grazie a dataset di alta qualità e strategie di addestramento, raggiungiamo una maggiore intensità del movimento mantenendo una superiore coerenza e stabilità temporale. La nostra architettura si estende in modo flessibile al compito di previsione dei frame video, consentendo la previsione di sequenze lunghe attraverso la generazione iterativa. Inoltre, grazie al design dell'addestramento degli adattatori, il nostro approccio può essere ben combinato con modelli personalizzati esistenti e moduli controllabili. Attraverso valutazioni quantitative e qualitative, AtomoVideo ottiene risultati superiori rispetto ai metodi più diffusi. Ulteriori esempi possono essere trovati sul nostro sito web del progetto: https://atomo-video.github.io/.
I modelli linguistici di grandi dimensioni (LLM) affrontano una sfida impegnativa a causa degli eccessivi requisiti computazionali e di memoria dell'architettura Transformer comunemente utilizzata. Sebbene i modelli a spazio di stato (SSM) rappresentino un nuovo tipo di architettura di rete di base che offre una complessità computazionale inferiore, le loro prestazioni non hanno ancora pienamente eguagliato quelle dei Transformer. Questo articolo introduce DenseSSM, un approccio innovativo per migliorare il flusso di informazioni nascoste tra i livelli negli SSM. Integrando selettivamente gli stati nascosti dei livelli superficiali in quelli più profondi, DenseSSM conserva informazioni dettagliate cruciali per l'output finale. Le connessioni dense potenziate di DenseSSM mantengono comunque la parallelizzabilità durante l'addestramento e l'efficienza nell'inferenza. Il metodo proposto può essere ampiamente applicabile a vari tipi di SSM come RetNet e Mamba. Con dimensioni del modello simili, DenseSSM ottiene miglioramenti significativi, come dimostrato da DenseRetNet che supera il RetNet originale con un miglioramento dell'accuratezza fino al 5% su benchmark pubblici.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno registrato significativi progressi di recente. Tuttavia, permangono sfide nel riconoscimento accurato e nella comprensione di dettagli complessi all'interno di immagini ad alta risoluzione. Nonostante sia fondamentale per lo sviluppo di MLLMs robusti, quest'area rimane ancora poco esplorata. Per affrontare questa sfida, il nostro lavoro introduce InfiMM-HD, una nuova architettura progettata specificamente per elaborare immagini a diverse risoluzioni con un basso overhead computazionale. Questa innovazione facilita l'estensione delle capacità degli MLLMs a risoluzioni più elevate. InfiMM-HD incorpora un modulo di cross-attention e finestre visive per ridurre i costi computazionali. Integrando questo design architetturale con una pipeline di addestramento in quattro fasi, il nostro modello raggiunge una migliore percezione visiva in modo efficiente e conveniente. Uno studio empirico sottolinea la robustezza e l'efficacia di InfiMM-HD, aprendo nuove strade per l'esplorazione in aree correlate. Codici e modelli sono disponibili su https://huggingface.co/Infi-MM/infimm-hd.
I recenti progressi nei modelli di testo-immagine (ad esempio, Stable Diffusion) e nelle corrispondenti tecnologie personalizzate (ad esempio, DreamBooth e LoRA) consentono agli individui di generare immagini di alta qualità e di grande immaginazione. Tuttavia, questi modelli spesso presentano limitazioni quando si tratta di generare immagini con risoluzioni al di fuori del loro dominio di addestramento. Per superare questa limitazione, presentiamo il Resolution Adapter (ResAdapter), un adattatore coerente con il dominio progettato per i modelli di diffusione, in grado di generare immagini con risoluzioni e rapporti d'aspetto illimitati. A differenza di altri metodi di generazione multi-risoluzione che elaborano immagini con risoluzioni statiche attraverso complesse operazioni di post-processo, ResAdapter genera direttamente immagini con risoluzioni dinamiche. In particolare, dopo aver appreso una profonda comprensione dei puri prior di risoluzione, ResAdapter, addestrato su un dataset generale, genera immagini senza vincoli di risoluzione utilizzando modelli di diffusione personalizzati, preservando il loro dominio stilistico originale. Esperimenti completi dimostrano che ResAdapter, con soli 0.5M di parametri, può elaborare immagini con risoluzioni flessibili per modelli di diffusione arbitrari. Ulteriori esperimenti estesi dimostrano che ResAdapter è compatibile con altri moduli (ad esempio, ControlNet, IP-Adapter e LCM-LoRA) per la generazione di immagini in un'ampia gamma di risoluzioni, e può essere integrato in altri modelli multi-risoluzione (ad esempio, ElasticDiffusion) per generare in modo efficiente immagini a risoluzione più elevata. Il link del progetto è https://res-adapter.github.io.
Questo rapporto tecnico introduce TripoSR, un modello di ricostruzione 3D che sfrutta l'architettura transformer per una generazione 3D rapida in feed-forward, producendo mesh 3D da una singola immagine in meno di 0,5 secondi. Basandosi sull'architettura di rete LRM, TripoSR integra miglioramenti significativi nell'elaborazione dei dati, nel design del modello e nelle tecniche di addestramento. Le valutazioni su dataset pubblici dimostrano che TripoSR offre prestazioni superiori, sia quantitativamente che qualitativamente, rispetto ad altre alternative open-source. Rilasciato sotto licenza MIT, TripoSR è progettato per fornire a ricercatori, sviluppatori e creativi gli ultimi progressi nell'ambito dell'IA generativa 3D.
La generazione di asset 3D sta attirando un'enorme attenzione, ispirata dal recente successo della creazione di contenuti 2D guidati da testo. I metodi esistenti di testo-a-3D utilizzano modelli di diffusione testo-immagine preaddestrati in un problema di ottimizzazione o li perfezionano su dati sintetici, il che spesso si traduce in oggetti 3D non fotorealistici e privi di sfondi. In questo articolo, presentiamo un metodo che sfrutta i modelli testo-immagine preaddestrati come prior e apprende a generare immagini multi-vista in un singolo processo di denoising a partire da dati del mondo reale. Nello specifico, proponiamo di integrare il rendering volumetrico 3D e i livelli di attenzione cross-frame in ogni blocco della rete U-Net esistente del modello testo-immagine. Inoltre, progettiamo una generazione autoregressiva che rende immagini più coerenti in 3D da qualsiasi punto di vista. Addestriamo il nostro modello su dataset del mondo reale di oggetti e dimostriamo la sua capacità di generare istanze con una varietà di forme e texture di alta qualità in ambientazioni autentiche. Rispetto ai metodi esistenti, i risultati generati dal nostro metodo sono coerenti e presentano una qualità visiva superiore (-30% FID, -37% KID).
I compiti di generazione da immagine a video (Image-to-Video, I2V) incontrano sempre difficoltà nel mantenere un'elevata fedeltà nei domini aperti. Le tecniche tradizionali di animazione delle immagini si concentrano principalmente su domini specifici come volti o pose umane, rendendole difficili da generalizzare ai domini aperti. Diversi recenti framework I2V basati su modelli di diffusione possono generare contenuti dinamici per immagini di dominio aperto, ma non riescono a mantenere la fedeltà. Abbiamo riscontrato che due fattori principali della bassa fedeltà sono la perdita di dettagli dell'immagine e i bias nella predizione del rumore durante il processo di denoising. A tal fine, proponiamo un metodo efficace che può essere applicato ai principali modelli di diffusione video. Questo metodo raggiunge un'elevata fedeltà basandosi sull'integrazione di informazioni più precise sull'immagine e sulla correzione del rumore. Nello specifico, data un'immagine specificata, il nostro metodo aggiunge prima rumore al latente dell'immagine di input per preservare più dettagli, quindi denoise il latente rumoroso con una correzione appropriata per attenuare i bias nella predizione del rumore. Il nostro metodo è privo di sintonizzazione e plug-and-play. I risultati sperimentali dimostrano l'efficacia del nostro approccio nel migliorare la fedeltà dei video generati. Per ulteriori risultati di generazione da immagine a video, si prega di consultare il sito web del progetto: https://noise-rectification.github.io.
Il linguaggio offre un modo per scomporre concetti complessi in parti digeribili. Recenti lavori nell'apprendimento per imitazione dei robot utilizzano politiche condizionate dal linguaggio che prevedono azioni date osservazioni visive e il compito di alto livello specificato nel linguaggio. Questi metodi sfruttano la struttura del linguaggio naturale per condividere dati tra compiti semanticamente simili (ad esempio, "prendi la lattina di coca" e "prendi una mela") in dataset multi-compito. Tuttavia, man mano che i compiti diventano semanticamente più diversificati (ad esempio, "prendi la lattina di coca" e "versa la tazza"), diventa più difficile condividere dati tra compiti, quindi imparare a mappare compiti di alto livello ad azioni richiede molti più dati dimostrativi. Per colmare il divario tra compiti e azioni, la nostra intuizione è insegnare al robot il linguaggio delle azioni, descrivendo movimenti di basso livello con frasi più dettagliate come "muovi il braccio in avanti". Prevedere questi movimenti linguistici come passaggio intermedio tra compiti e azioni costringe la politica ad apprendere la struttura condivisa dei movimenti di basso livello tra compiti apparentemente disparati. Inoltre, una politica condizionata sui movimenti linguistici può essere facilmente corretta durante l'esecuzione attraverso movimenti linguistici specificati dall'uomo. Ciò consente un nuovo paradigma per politiche flessibili che possono apprendere dall'intervento umano nel linguaggio. Il nostro metodo RT-H costruisce una gerarchia di azioni utilizzando movimenti linguistici: prima impara a prevedere i movimenti linguistici e, condizionato su questi e sul compito di alto livello, prevede le azioni, utilizzando il contesto visivo in tutte le fasi. Mostriamo che RT-H sfrutta questa gerarchia linguaggio-azione per apprendere politiche più robuste e flessibili sfruttando efficacemente dataset multi-compito. Dimostriamo che queste politiche non solo consentono di rispondere agli interventi linguistici, ma possono anche apprendere da tali interventi e superare i metodi che apprendono da interventi teleoperati. Il nostro sito web e i video si trovano su https://rt-hierarchy.github.io.
La manipolazione di oggetti con due mani multi-dita è stata una sfida di lunga data nella robotica, attribuita alla natura ricca di contatti di molte attività di manipolazione e alla complessità intrinseca nel coordinare un sistema bimanuale ad alta dimensionalità. In questo lavoro, consideriamo il problema di svitare tappi di vari oggetti simili a bottiglie con due mani, e dimostriamo che le politiche addestrate in simulazione utilizzando l'apprendimento per rinforzo profondo possono essere trasferite efficacemente nel mondo reale. Con nuove intuizioni ingegneristiche sulla modellazione fisica, la percezione in tempo reale e la progettazione delle ricompense, la politica dimostra capacità di generalizzazione su un insieme diversificato di oggetti non visti, mostrando comportamenti dinamici e destri. I nostri risultati rappresentano una prova convincente che l'apprendimento per rinforzo profondo combinato con il trasferimento da simulazione a realtà rimane un approccio promettente per affrontare problemi di manipolazione di complessità senza precedenti.
La costruzione di video a visualizzazione libera (Free-Viewpoint Videos, FVVs) fotorealistici di scene dinamiche a partire da video multi-vista rimane un'impresa impegnativa. Nonostante i notevoli progressi raggiunti dalle attuali tecniche di rendering neurale, questi metodi richiedono generalmente sequenze video complete per l'addestramento offline e non sono in grado di eseguire il rendering in tempo reale. Per affrontare queste limitazioni, introduciamo 3DGStream, un metodo progettato per lo streaming efficiente di FVV di scene dinamiche del mondo reale. Il nostro metodo raggiunge una ricostruzione rapida frame-by-frame in meno di 12 secondi e un rendering in tempo reale a 200 FPS. Nello specifico, utilizziamo Gaussiane 3D (3DGs) per rappresentare la scena. Invece dell'approccio ingenuo di ottimizzare direttamente le 3DGs per ogni frame, impieghiamo una cache neurale di trasformazione (Neural Transformation Cache, NTC) compatta per modellare le traslazioni e le rotazioni delle 3DGs, riducendo significativamente il tempo di addestramento e lo spazio di archiviazione richiesto per ogni frame FVV. Inoltre, proponiamo una strategia adattiva di aggiunta delle 3DGs per gestire gli oggetti emergenti nelle scene dinamiche. Gli esperimenti dimostrano che 3DGStream raggiunge prestazioni competitive in termini di velocità di rendering, qualità dell'immagine, tempo di addestramento e archiviazione del modello rispetto ai metodi all'avanguardia.