Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli di diffusione rappresentano l'approccio de facto per la generazione di immagini e video di alta qualità, ma l'apprendimento di modelli ad alta dimensionalità rimane un compito impegnativo a causa delle sfide computazionali e di ottimizzazione. I metodi esistenti spesso ricorrono all'addestramento di modelli a cascata nello spazio dei pixel o all'uso di uno spazio latente sottocampionato di un autoencoder addestrato separatamente. In questo articolo, introduciamo i Matryoshka Diffusion Models (MDM), un framework end-to-end per la sintesi di immagini e video ad alta risoluzione. Proponiamo un processo di diffusione che denoizza gli input a più risoluzioni in modo congiunto e utilizza un'architettura NestedUNet in cui le caratteristiche e i parametri per input su piccola scala sono annidati all'interno di quelli su larga scala. Inoltre, MDM consente un piano di addestramento progressivo da risoluzioni inferiori a superiori, il che porta a significativi miglioramenti nell'ottimizzazione per la generazione ad alta risoluzione. Dimostriamo l'efficacia del nostro approccio su vari benchmark, inclusa la generazione di immagini condizionate per classe, la generazione di immagini ad alta risoluzione da testo e applicazioni di testo-video. In modo notevole, possiamo addestrare un singolo modello nello spazio dei pixel a risoluzioni fino a 1024x1024 pixel, dimostrando una forte generalizzazione zero-shot utilizzando il dataset CC12M, che contiene solo 12 milioni di immagini.
I grandi modelli linguistici (LLM), dopo essere stati allineati con modelli visivi e integrati in modelli visione-linguaggio (VLM), possono portare a notevoli miglioramenti nelle attività di ragionamento sulle immagini. Questo è stato dimostrato dai recenti modelli rilasciati come GPT-4V(ison) e LLaVA-1.5. Tuttavia, il forte prior linguistico presente in questi VLM all'avanguardia può essere un'arma a doppio taglio: potrebbero ignorare il contesto dell'immagine e basarsi esclusivamente sul prior linguistico (anche se contraddittorio) per il ragionamento. Al contrario, i moduli visivi nei VLM sono più deboli rispetto agli LLM e possono portare a rappresentazioni visive fuorvianti, che vengono poi tradotte in errori sicuri dagli LLM. Per studiare questi due tipi di errori nei VLM, ovvero l'allucinazione linguistica e l'illusione visiva, abbiamo creato HallusionBench, un benchmark di ragionamento contestuale sulle immagini che risulta ancora impegnativo persino per GPT-4V e LLaVA-1.5. Forniamo un'analisi dettagliata degli esempi in HallusionBench, che offre nuove intuizioni sulle illusioni o allucinazioni dei VLM e su come migliorarli in futuro. Il benchmark e il codice saranno rilasciati su https://github.com/tianyi-lab/HallusionBench.
Presentiamo DEsignBench, un benchmark di generazione testo-immagine (T2I) specificamente progettato per scenari di design visivo. Modelli T2I recenti come DALL-E 3 e altri hanno dimostrato capacità straordinarie nel generare immagini fotorealistiche che si allineano strettamente agli input testuali. Sebbene il fascino di creare immagini visivamente accattivanti sia innegabile, la nostra attenzione va oltre il semplice piacere estetico. Miriamo a esplorare il potenziale di utilizzo di questi potenti modelli in contesti di design autentici. In questa direzione, abbiamo sviluppato DEsignBench, che incorpora campioni di test progettati per valutare i modelli T2I sia sulla "capacità tecnica di design" che sullo "scenario applicativo di design". Ciascuna di queste due dimensioni è supportata da un insieme diversificato di categorie di design specifiche. Esploriamo DALL-E 3 insieme ad altri modelli T2I leader su DEsignBench, ottenendo una galleria visiva completa per confronti affiancati. Per il benchmarking di DEsignBench, eseguiamo valutazioni umane sulle immagini generate nella galleria di DEsignBench, rispetto ai criteri di allineamento testo-immagine, estetica visiva e creatività di design. La nostra valutazione considera anche altre capacità di design specializzate, tra cui rendering del testo, composizione del layout, armonia cromatica, design 3D e stile del mezzo. Oltre alle valutazioni umane, introduciamo il primo valutatore automatico per la generazione di immagini basato su GPT-4V. Questo valutatore fornisce punteggi che si allineano bene ai giudizi umani, pur essendo facilmente replicabile e conveniente in termini di costi. Una versione ad alta risoluzione è disponibile all'indirizzo https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
Con la disponibilità di grandi dataset video e i progressi nei modelli di diffusione, la generazione di video guidata da testo ha compiuto significativi passi avanti. Tuttavia, i modelli esistenti per la generazione di video sono tipicamente addestrati su un numero limitato di fotogrammi, il che si traduce nell'incapacità di generare video lunghi ad alta fedeltà durante l'inferenza. Inoltre, questi modelli supportano solo condizioni di testo singolo, mentre scenari reali spesso richiedono condizioni di testo multiplo man mano che il contenuto del video cambia nel tempo. Per affrontare queste sfide, questo studio esplora il potenziale di estendere la capacità guidata da testo per generare video più lunghi condizionati da più testi. 1) Inizialmente analizziamo l'impatto del rumore iniziale nei modelli di diffusione video. Basandoci sull'osservazione del rumore, proponiamo FreeNoise, un paradigma senza necessità di tuning e ad alta efficienza temporale per migliorare le capacità generative dei modelli di diffusione video pre-addestrati, preservando la coerenza del contenuto. Nello specifico, invece di inizializzare il rumore per tutti i fotogrammi, riprogrammiamo una sequenza di rumori per una correlazione a lungo raggio e applichiamo un'attenzione temporale su di essi mediante una funzione basata su finestre. 2) Inoltre, progettiamo un nuovo metodo di iniezione del movimento per supportare la generazione di video condizionati da più prompt testuali. Esperimenti estesi convalidano la superiorità del nostro paradigma nell'estendere le capacità generative dei modelli di diffusione video. È degno di nota che, rispetto al metodo precedente con le migliori prestazioni che comportava un costo temporale aggiuntivo del 255%, il nostro metodo comporta solo un costo temporale trascurabile di circa il 17%. I campioni video generati sono disponibili sul nostro sito web: http://haonanqiu.com/projects/FreeNoise.html.
Il recente successo dei modelli linguistici di grandi dimensioni (LLM) per domini generali ha significativamente cambiato il paradigma dell'elaborazione del linguaggio naturale verso un modello di fondazione unificato tra domini e applicazioni. In questo articolo, ci concentriamo sulla valutazione delle prestazioni di GPT-4, il LLM più capace finora, nelle applicazioni basate su testo per i referti radiologici, confrontandolo con i modelli specifici per la radiologia all'avanguardia (SOTA). Esplorando varie strategie di prompting, abbiamo valutato GPT-4 su una gamma diversificata di comuni compiti radiologici e abbiamo scoperto che GPT-4 supera o è alla pari con i modelli SOTA attuali per la radiologia. Con il prompting zero-shot, GPT-4 ottiene già miglioramenti sostanziali (circa il 10% di miglioramento assoluto) rispetto ai modelli radiologici nella classificazione della similarità temporale delle frasi (accuratezza) e nell'inferenza del linguaggio naturale (F_1). Per i compiti che richiedono l'apprendimento di uno stile o schema specifico del dataset (ad esempio, la sintesi dei reperti), GPT-4 migliora con il prompting basato su esempi e raggiunge il livello SOTA supervisionato. La nostra ampia analisi degli errori con un radiologo certificato mostra che GPT-4 possiede un livello sufficiente di conoscenza radiologica, con errori occasionali solo in contesti complessi che richiedono una conoscenza di dominio sfumata. Per la sintesi dei reperti, gli output di GPT-4 sono risultati complessivamente comparabili con le impressioni scritte manualmente esistenti.
Presentiamo Habitat 3.0: una piattaforma di simulazione per lo studio di compiti collaborativi uomo-robot in ambienti domestici. Habitat 3.0 offre contributi in tre dimensioni: (1) Simulazione accurata di umanoidi: affrontando le sfide nella modellazione di corpi deformabili complessi e nella diversità di aspetto e movimento, garantendo al contempo un'elevata velocità di simulazione. (2) Infrastruttura con umano nel ciclo: consentendo l'interazione in tempo reale di esseri umani con robot simulati tramite mouse/tastiera o un'interfaccia VR, facilitando la valutazione delle politiche dei robot con input umano. (3) Compiti collaborativi: studiando due compiti collaborativi, Navigazione Sociale e Riarrangiamento Sociale. La Navigazione Sociale indaga la capacità di un robot di individuare e seguire avatar umanoidi in ambienti non visti, mentre il Riarrangiamento Sociale affronta la collaborazione tra un umanoide e un robot durante il riarrangiamento di una scena. Questi contributi ci permettono di studiare in profondità baseline apprese end-to-end ed euristiche per la collaborazione uomo-robot, nonché di valutarle con esseri umani nel ciclo. I nostri esperimenti dimostrano che le politiche dei robot apprese portano a un completamento efficiente dei compiti quando si collabora con agenti umanoidi non visti e partner umani che potrebbero esibire comportamenti che il robot non ha mai visto prima. Inoltre, osserviamo comportamenti emergenti durante l'esecuzione di compiti collaborativi, come il robot che cede spazio quando ostruisce un agente umanoide, consentendo così il completamento efficace del compito da parte dell'agente umanoide. Inoltre, i nostri esperimenti utilizzando lo strumento con umano nel ciclo dimostrano che la nostra valutazione automatizzata con umanoidi può fornire un'indicazione dell'ordine relativo di diverse politiche quando valutate con collaboratori umani reali. Habitat 3.0 sblocca nuove interessanti funzionalità nei simulatori per l'AI Incarnata, e speriamo che apra la strada a una nuova frontiera di capacità di interazione uomo-AI incarnata.
I modelli linguistici di grandi dimensioni (LLM) sono frequentemente utilizzati per compiti di generazione e valutazione del linguaggio multifaccettati che implicano il soddisfacimento di vincoli complessi dell'utente o la considerazione di molteplici aspetti e criteri. Tuttavia, le loro prestazioni possono risultare insufficienti a causa della mancanza di coerenza del modello e dell'incapacità di pianificare e scomporre il problema. Proponiamo Branch-Solve-Merge (BSM), un programma per LLM (Schlag et al., 2023) progettato per affrontare tali compiti linguistici complessi. Esso è composto da moduli di branch, solve e merge parametrizzati con prompt specifici per il LLM di base. Questi tre moduli pianificano una scomposizione del compito in più sotto-compiti paralleli, li risolvono in modo indipendente e fondono le soluzioni dei sotto-compiti. Applichiamo il nostro metodo ai compiti di valutazione delle risposte degli LLM e di generazione di testo vincolato, valutandone l'efficacia con più LLM, tra cui Vicuna, LLaMA-2-chat e GPT-4. BSM migliora la correttezza e la coerenza della valutazione per ciascun LLM, aumentando l'accordo umano-LLM fino al 26%, riducendo i bias di lunghezza e posizione reciproca fino al 50% e permettendo a LLaMA-2-chat di eguagliare o superare GPT-4 nella maggior parte dei domini. Nel compito di generazione di storie vincolate, BSM migliora la coerenza delle storie aumentando anche la soddisfazione dei vincoli del 12%.
I modelli di diffusione Text-to-Image come Stable-Diffusion e Imagen hanno raggiunto una qualità fotorealistica senza precedenti, ottenendo punteggi FID all'avanguardia su MS-COCO e altri benchmark di generazione. Data una descrizione testuale, la generazione di immagini richiede una conoscenza dettagliata di attributi come la struttura degli oggetti, lo stile e il punto di vista, tra gli altri. Dove risiede questa informazione nei modelli generativi text-to-image? Nel nostro articolo, affrontiamo questa domanda e cerchiamo di comprendere come la conoscenza corrispondente a distinti attributi visivi sia memorizzata nei modelli di diffusione text-to-image su larga scala. Adattiamo l'Analisi di Mediazione Causale per i modelli text-to-image e tracciamo la conoscenza riguardante distinti attributi visivi verso vari componenti (causali) nel (i) UNet e (ii) nel text-encoder del modello di diffusione. In particolare, dimostriamo che, a differenza dei modelli generativi di linguaggio su larga scala, la conoscenza su diversi attributi non è localizzata in componenti isolati, ma è invece distribuita tra un insieme di componenti nel UNet condizionale. Questi insiemi di componenti sono spesso distinti per diversi attributi visivi. Sorprendentemente, scopriamo che il text-encoder CLIP nei modelli text-to-image pubblici come Stable-Diffusion contiene solo uno stato causale per diversi attributi visivi, e questo è il primo livello di self-attention corrispondente all'ultimo token del soggetto dell'attributo nella descrizione. Ciò è in netto contrasto con gli stati causali in altri modelli linguistici, che sono spesso i livelli MLP intermedi. Sulla base di questa osservazione di un solo stato causale nel text-encoder, introduciamo un metodo veloce e senza dati per la modifica del modello, Diff-QuickFix, che può modificare efficacemente i concetti nei modelli text-to-image. DiffQuickFix può modificare (ablare) concetti in meno di un secondo con un aggiornamento in forma chiusa, fornendo un significativo miglioramento di 1000x in velocità e prestazioni di modifica comparabili ai metodi di modifica basati su fine-tuning esistenti.
Presentiamo TexFusion (Texture Diffusion), un nuovo metodo per sintetizzare texture per geometrie 3D date, utilizzando modelli di diffusione di immagini su larga scala guidati da testo. A differenza dei lavori recenti che sfruttano modelli di diffusione testo-immagine 2D per distillare oggetti 3D attraverso un processo di ottimizzazione lento e fragile, TexFusion introduce una nuova tecnica di generazione 3D-consistente specificamente progettata per la sintesi di texture che impiega il campionamento regolare del modello di diffusione su diverse viste renderizzate in 2D. Nello specifico, sfruttiamo modelli di diffusione latente, applichiamo il denoiser del modello di diffusione su un insieme di render 2D dell'oggetto 3D e aggregiamo le diverse previsioni di denoising su una mappa di texture latente condivisa. Le texture RGB finali vengono prodotte ottimizzando un campo di colore neurale intermedio sulle decodifiche dei render 2D della texture latente. Validiamo approfonditamente TexFusion e dimostriamo che possiamo generare in modo efficiente texture diverse, di alta qualità e globalmente coerenti. Raggiungiamo prestazioni all'avanguardia nella sintesi di texture guidata da testo utilizzando solo modelli di diffusione di immagini, evitando le insidie dei precedenti metodi basati su distillazione. Il condizionamento testuale offre un controllo dettagliato e non ci affidiamo a nessuna texture 3D di riferimento per l'addestramento. Ciò rende il nostro metodo versatile e applicabile a un'ampia gamma di geometrie e tipi di texture. Speriamo che TexFusion possa avanzare la texturizzazione basata su IA di asset 3D per applicazioni nella realtà virtuale, nel design di giochi, nella simulazione e altro ancora.
Utilizzando l'apprendimento in contesto (ICL) per la generazione di dati, tecniche come Self-Instruct (Wang et al., 2023) o il successivo Alpaca (Taori et al., 2023) possono addestrare agenti conversazionali robusti con solo una piccola quantità di supervisione umana. Una limitazione di questi approcci è che si basano su modelli linguistici molto grandi (circa 175 miliardi di parametri) che sono anche proprietari e non pubblici. Qui esploriamo l'applicazione di tali tecniche a modelli linguistici molto più piccoli (circa 10-40 miliardi di parametri) e con licenze permissive. Troviamo che l'approccio Self-Instruct sia meno efficace a queste dimensioni e proponiamo nuovi metodi ICL che si basano su due idee principali: (a) Categorizzazione e semplificazione dei template ICL per rendere più facile l'apprendimento dei prompt per il modello linguistico (LM), e (b) Ensembling su più output del LM per aiutare a selezionare esempi sintetici di alta qualità. Il nostro algoritmo sfrutta i 175 task seed di Self-Instit e impiega pipeline separate per istruzioni che richiedono un input e istruzioni che non lo richiedono. Le indagini empiriche con diversi LM mostrano che: (1) Il nostro metodo proposto produce dati di tuning delle istruzioni di qualità superiore rispetto a Self-Instruct, (2) Migliora le prestazioni sia dei LM vanilla che di quelli con tuning delle istruzioni con margini significativi, e (3) I LM più piccoli con tuning delle istruzioni generano output più utili rispetto alle loro controparti più grandi non ottimizzate. Il nostro codice è disponibile all'indirizzo https://github.com/IBM/ensemble-instruct.
Il feedback umano può prevenire espressioni apertamente dannose nei modelli conversazionali, ma potrebbe non mitigare automaticamente comportamenti problematici più sottili, come il desiderio dichiarato di autoconservazione o potere. L'Intelligenza Artificiale Costituzionale offre un'alternativa, sostituendo il feedback umano con quello di modelli di IA condizionati solo su una lista di principi scritti. Troviamo che questo approccio previene efficacemente l'espressione di tali comportamenti. Il successo di principi semplici ci spinge a chiedere: i modelli possono apprendere comportamenti etici generali da un unico principio scritto? Per testarlo, conduciamo esperimenti utilizzando un principio approssimativamente formulato come "fai ciò che è meglio per l'umanità". Scopriamo che i più grandi modelli di dialogo possono generalizzare da questa breve costituzione, risultando in assistenti innocui senza alcun interesse dichiarato in motivazioni specifiche come il potere. Un principio generale potrebbe quindi evitare parzialmente la necessità di una lunga lista di costituzioni mirate a comportamenti potenzialmente dannosi. Tuttavia, costituzioni più dettagliate migliorano ancora il controllo fine su specifici tipi di danni. Ciò suggerisce che sia i principi generali che quelli specifici hanno valore per guidare l'IA in modo sicuro.
Con l'evoluzione dei Large Language Model (LLM), possiamo risolvere compiti NLP sempre più complessi in vari domini, inclusi i fogli di calcolo. Questo lavoro indaga se i LLM possono generare codice (Excel OfficeScripts, un'API TypeScript per eseguire numerose attività in Excel) che risolve compiti specifici di Excel forniti tramite istruzioni in linguaggio naturale dell'utente. A tal fine, introduciamo un nuovo benchmark su larga scala, InstructExcel, creato sfruttando la funzionalità 'Automate' di Excel per generare automaticamente OfficeScripts dalle azioni degli utenti. Il nostro benchmark include oltre 10.000 campioni che coprono più di 170 operazioni di Excel su 2.000 fogli di calcolo Excel pubblicamente disponibili. Esperimenti in vari contesti zero-shot e few-shot dimostrano che InstructExcel è un benchmark impegnativo per modelli all'avanguardia come GPT-4. Osserviamo che (1) l'uso di GPT-4 rispetto a GPT-3.5, (2) la fornitura di più esempi in-context e (3) il prompting dinamico possono contribuire a migliorare le prestazioni su questo benchmark.