Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo SDXL, un modello di diffusione latente per la sintesi di immagini da testo. Rispetto alle versioni precedenti di Stable Diffusion, SDXL sfrutta un backbone UNet tre volte più grande: l'aumento dei parametri del modello è principalmente dovuto a un maggior numero di blocchi di attenzione e a un contesto di cross-attention più ampio, poiché SDXL utilizza un secondo encoder di testo. Abbiamo progettato molteplici schemi di condizionamento innovativi e addestrato SDXL su più rapporti d'aspetto. Introduciamo inoltre un modello di raffinamento utilizzato per migliorare la fedeltà visiva dei campioni generati da SDXL mediante una tecnica post-hoc di immagine-a-immagine. Dimostriamo che SDXL mostra un miglioramento drastico delle prestazioni rispetto alle versioni precedenti di Stable Diffusion e raggiunge risultati competitivi con quelli dei generatori di immagini all'avanguardia a scatola chiusa. Nel rispetto dello spirito di promuovere la ricerca aperta e favorire la trasparenza nell'addestramento e nella valutazione di modelli di grandi dimensioni, forniamo accesso al codice e ai pesi del modello all'indirizzo https://github.com/Stability-AI/generative-models.
Il ridimensionamento della lunghezza delle sequenze è diventato una necessità critica nell'era dei grandi modelli linguistici. Tuttavia, i metodi esistenti lottano con la complessità computazionale o l'espressività del modello, limitando così la lunghezza massima delle sequenze. In questo lavoro, introduciamo LongNet, una variante del Transformer in grado di scalare la lunghezza delle sequenze fino a oltre 1 miliardo di token, senza sacrificare le prestazioni su sequenze più brevi. Nello specifico, proponiamo l'attenzione dilatata, che espande il campo di attenzione in modo esponenziale con l'aumentare della distanza. LongNet offre significativi vantaggi: 1) ha una complessità computazionale lineare e una dipendenza logaritmica tra i token; 2) può essere utilizzato come trainer distribuito per sequenze estremamente lunghe; 3) la sua attenzione dilatata è un sostituto diretto dell'attenzione standard, che può essere integrato senza soluzione di continuità con le ottimizzazioni esistenti basate su Transformer. I risultati degli esperimenti dimostrano che LongNet offre prestazioni solide sia nella modellazione di sequenze lunghe che in compiti linguistici generali. Il nostro lavoro apre nuove possibilità per la modellazione di sequenze molto lunghe, ad esempio trattando un intero corpus o persino l'intero Internet come una sequenza.
Nonostante la capacità dei modelli esistenti su larga scala di generazione di immagini da testo (T2I) di produrre immagini di alta qualità a partire da descrizioni testuali dettagliate, spesso mancano della capacità di modificare con precisione le immagini generate o reali. In questo articolo, proponiamo un nuovo metodo di editing delle immagini, DragonDiffusion, che consente una manipolazione di tipo Drag sui modelli di diffusione. Nello specifico, costruiamo una guida basata su classificatori sfruttando la forte corrispondenza delle caratteristiche intermedie nel modello di diffusione. Questo approccio può trasformare i segnali di editing in gradienti attraverso una perdita di corrispondenza delle caratteristiche, modificando così la rappresentazione intermedia del modello di diffusione. Basandoci su questa strategia di guida, abbiamo anche sviluppato una guida multi-scala per considerare sia l'allineamento semantico che quello geometrico. Inoltre, è stato aggiunto un meccanismo di self-attention cross-branch per mantenere la coerenza tra l'immagine originale e il risultato dell'editing. Il nostro metodo, grazie a un design efficiente, consente diverse modalità di editing per immagini generate o reali, come lo spostamento di oggetti, il ridimensionamento di oggetti, la sostituzione dell'aspetto degli oggetti e il trascinamento di contenuti. È importante notare che tutti i segnali di editing e di conservazione del contenuto provengono dall'immagine stessa, e il modello non richiede fine-tuning o moduli aggiuntivi. Il nostro codice sorgente sarà disponibile all'indirizzo https://github.com/MC-E/DragonDiffusion.
Recentemente, il rilascio di INSTRUCTEVAL ha fornito preziose informazioni sulle prestazioni dei grandi modelli linguistici (LLMs) che utilizzano architetture encoder-decoder o decoder-only. Curiosamente, nonostante siano stati introdotti quattro anni fa, i LLMs basati su T5, come FLAN-T5, continuano a superare i più recenti LLMs basati su decoder, come LLAMA e VICUNA, in compiti che richiedono abilità di problem-solving generale. Questa discrepanza nelle prestazioni può essere attribuita a tre fattori chiave: (1) Dati di pre-training, (2) Architettura di base, e (3) Dataset di istruzioni. In questo rapporto tecnico, il nostro obiettivo principale è indagare l'impatto del terzo fattore sfruttando VICUNA, un grande modello linguistico basato su LLAMA, che è stato sottoposto a fine-tuning su conversazioni di ChatGPT. Per raggiungere questo obiettivo, abbiamo sottoposto VICUNA a fine-tuning utilizzando una raccolta personalizzata di dataset di istruzioni chiamata FLANMINI. Questa raccolta include un sottoinsieme del vasto dataset di istruzioni noto come FLAN, oltre a vari dataset relativi al codice e dataset conversazionali derivati da ChatGPT/GPT-4. Questo dataset comprende un gran numero di compiti che richiedono abilità di problem-solving. I nostri risultati sperimentali indicano fortemente che le capacità di problem-solving potenziate del nostro modello, FLACUNA, sono ottenute attraverso il fine-tuning di VICUNA sul dataset FLAN, portando a miglioramenti significativi su numerosi benchmark in INSTRUCTEVAL. FLACUNA è disponibile pubblicamente all'indirizzo https://huggingface.co/declare-lab/flacuna-13b-v1.0.
I grandi modelli linguistici addestrati per la sicurezza e l'innocuità rimangono suscettibili a un uso improprio di tipo avversario, come dimostrato dalla diffusione di attacchi di "jailbreak" sulle prime versioni di ChatGPT che inducono comportamenti indesiderati. Andando oltre il semplice riconoscimento del problema, indaghiamo perché tali attacchi hanno successo e come possono essere creati. Formuliamo due ipotesi sui modi di fallimento dell'addestramento alla sicurezza: obiettivi in conflitto e generalizzazione non allineata. Gli obiettivi in conflitto emergono quando le capacità di un modello e i suoi obiettivi di sicurezza sono in contrasto, mentre la generalizzazione non allineata si verifica quando l'addestramento alla sicurezza non riesce a generalizzare a un dominio per cui esistono capacità. Utilizziamo questi modi di fallimento per guidare la progettazione di jailbreak e poi valutiamo modelli all'avanguardia, tra cui GPT-4 di OpenAI e Claude v1.3 di Anthropic, contro attacchi sia esistenti che di nuova concezione. Troviamo che le vulnerabilità persistono nonostante gli sforzi estesi di red-teaming e addestramento alla sicurezza dietro questi modelli. In particolare, i nuovi attacchi che sfruttano i nostri modi di fallimento hanno successo su ogni prompt in una raccolta di richieste non sicure provenienti dai set di valutazione di red-teaming dei modelli e superano i jailbreak ad hoc esistenti. La nostra analisi sottolinea la necessità di una parità tra sicurezza e capacità – ovvero che i meccanismi di sicurezza dovrebbero essere sofisticati quanto il modello sottostante – e si oppone all'idea che il semplice aumento di scala possa risolvere questi modi di fallimento della sicurezza.
La comprensione dei documenti si riferisce all'estrazione, analisi e comprensione automatica delle informazioni da vari tipi di documenti digitali, come una pagina web. Gli attuali Modelli Linguistici Multimodali di Grande Scala (MLLMs), tra cui mPLUG-Owl, hanno dimostrato promettenti capacità zero-shot nel riconoscimento superficiale del testo senza OCR, indicando il loro potenziale per la comprensione dei documenti senza OCR. Tuttavia, senza un addestramento specifico nel dominio, questi modelli tendono a ignorare caratteristiche OCR dettagliate, come tabelle complesse o grandi blocchi di testo, essenziali per la comprensione dei documenti senza OCR. In questo articolo, proponiamo mPLUG-DocOwl basato su mPLUG-Owl per la comprensione dei documenti senza OCR. Nello specifico, costruiamo prima un dataset di regolazione delle istruzioni che include una vasta gamma di compiti di comprensione visivo-testuale. Poi, rafforziamo la capacità di comprensione dei documenti senza OCR addestrando congiuntamente il modello su dataset di solo linguaggio, visione e linguaggio generale, e regolazione delle istruzioni sui documenti con la nostra strategia unificata di regolazione delle istruzioni. Abbiamo anche creato un set di valutazione per la comprensione delle istruzioni sui documenti senza OCR, chiamato LLMDoc, per confrontare meglio le capacità dei modelli nel rispetto delle istruzioni e nella comprensione dei documenti. I risultati sperimentali mostrano che il nostro modello supera i modelli multimodali esistenti, dimostrando una forte capacità di comprensione dei documenti. Inoltre, senza un fine-tuning specifico, mPLUG-DocOwl si generalizza bene su vari compiti downstream. Il nostro codice, modelli, dati di addestramento e set di valutazione sono disponibili su https://github.com/X-PLUG/mPLUG-DocOwl.
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) come GPT4 hanno dimostrato eccezionali capacità multimodali nel seguire istruzioni aperte fornite con immagini. Tuttavia, le prestazioni di questi modelli dipendono fortemente da scelte progettuali come le strutture di rete, i dati di addestramento e le strategie di training, e queste scelte non sono state ampiamente discusse in letteratura, rendendo difficile quantificare i progressi in questo campo. Per affrontare questo problema, questo articolo presenta uno studio sistematico e completo, sia quantitativo che qualitativo, sull'addestramento di tali modelli. Implementiamo oltre 20 varianti con impostazioni controllate. Nello specifico, per le strutture di rete, confrontiamo diversi backbone di LLM e design di modelli. Per i dati di addestramento, investigiamo l'impatto dei dati e delle strategie di campionamento. Per le istruzioni, esploriamo l'influenza di prompt diversificati sulla capacità dei modelli addestrati di seguire le istruzioni. Per i benchmark, contribuiamo con il primo, a nostra conoscenza, set di valutazione completo che include sia compiti su immagini che su video, realizzato attraverso il crowd-sourcing. Sulla base delle nostre scoperte, presentiamo Lynx, che esegue la comprensione multimodale più accurata mantenendo la migliore capacità di generazione multimodale rispetto ai modelli open-source esistenti in stile GPT4.
I Large Language Model (LLM) hanno dimostrato impressionanti capacità di pianificazione in compiti embodied a singolo agente in vari domini. Tuttavia, la loro capacità di pianificazione e comunicazione nella cooperazione multi-agente rimane poco chiara, nonostante queste siano abilità cruciali per agenti embodied intelligenti. In questo articolo, presentiamo un nuovo framework che utilizza LLM per la cooperazione multi-agente e lo testa in vari ambienti embodied. Il nostro framework consente agli agenti embodied di pianificare, comunicare e cooperare con altri agenti embodied o con esseri umani per portare a termine compiti a lungo termine in modo efficiente. Dimostriamo che LLM recenti, come GPT-4, possono superare metodi di pianificazione robusti e mostrare una comunicazione efficace emergente utilizzando il nostro framework senza necessità di fine-tuning o prompt few-shot. Scopriamo inoltre che gli agenti basati su LLM che comunicano in linguaggio naturale possono guadagnare maggiore fiducia e cooperare più efficacemente con gli esseri umani. La nostra ricerca sottolinea il potenziale dei LLM per l'AI embodied e getta le basi per future ricerche sulla cooperazione multi-agente. I video sono disponibili sul sito del progetto https://vis-www.cs.umass.edu/Co-LLM-Agents/.
I grandi modelli linguistici (LLM) dimostrano un'ampia gamma di capacità promettenti — dalla pianificazione passo-passo al ragionamento basato sul senso comune — che potrebbero rivelarsi utili per i robot, ma rimangono inclini a produrre previsioni con sicurezza anche quando queste sono errate. In questo lavoro, presentiamo KnowNo, un framework per misurare e allineare l'incertezza dei pianificatori basati su LLM in modo che sappiano quando non sanno e chiedano aiuto quando necessario. KnowNo si basa sulla teoria della previsione conforme per fornire garanzie statistiche sul completamento dei compiti, minimizzando l'intervento umano in contesti di pianificazione complessi e multi-step. Esperimenti condotti su una varietà di configurazioni robotiche simulate e reali, che coinvolgono compiti con diverse modalità di ambiguità (ad esempio, da incertezze spaziali a numeriche, da preferenze umane a schemi di Winograd), mostrano che KnowNo supera favorevolmente i moderni approcci di riferimento (che possono includere ensemble o un'estesa ottimizzazione dei prompt) in termini di miglioramento dell'efficienza e dell'autonomia, fornendo al contempo garanzie formali. KnowNo può essere utilizzato con LLM senza necessità di fine-tuning del modello e suggerisce un approccio leggero e promettente per modellare l'incertezza, che può integrarsi e scalare con le crescenti capacità dei modelli di base. Sito web: https://robot-help.github.io
I recenti Diffusion Transformer (ad esempio, DiT) hanno dimostrato la loro potente efficacia nella generazione di immagini 2D di alta qualità. Tuttavia, rimane ancora da determinare se l'architettura Transformer performi altrettanto bene nella generazione di forme 3D, poiché i precedenti metodi di diffusione 3D hanno principalmente adottato l'architettura U-Net. Per colmare questa lacuna, proponiamo un nuovo Diffusion Transformer per la generazione di forme 3D, denominato DiT-3D, che può operare direttamente il processo di denoising su nuvole di punti voxelizzate utilizzando semplici Transformer. Rispetto agli approcci U-Net esistenti, il nostro DiT-3D è più scalabile in termini di dimensione del modello e produce generazioni di qualità molto superiore. Nello specifico, il DiT-3D adotta la filosofia di progettazione del DiT ma la modifica incorporando embedding posizionali e di patch 3D per aggregare in modo adattivo l'input da nuvole di punti voxelizzate. Per ridurre il costo computazionale dell'attenzione auto-attenzionale nella generazione di forme 3D, incorporiamo l'attenzione a finestra 3D nei blocchi Transformer, poiché l'aumentata lunghezza dei token 3D risultante dalla dimensione aggiuntiva dei voxel può portare a un'elevata computazione. Infine, vengono utilizzati strati lineari e di devoxelizzazione per prevedere le nuvole di punti denoised. Inoltre, la nostra architettura transformer supporta un efficiente fine-tuning da 2D a 3D, dove il checkpoint pre-addestrato DiT-2D su ImageNet può migliorare significativamente il DiT-3D su ShapeNet. I risultati sperimentali sul dataset ShapeNet dimostrano che il proposto DiT-3D raggiunge prestazioni all'avanguardia nella generazione di nuvole di punti 3D ad alta fedeltà e diversità. In particolare, il nostro DiT-3D riduce l'accuratezza del 1-Nearest Neighbor del metodo all'avanguardia di 4.59 e aumenta la metrica di Copertura di 3.51 quando valutato sulla Distanza di Chamfer.
Gli avatar sono fondamentali per creare esperienze interattive e immersive nei mondi virtuali. Una delle sfide nell'animare questi personaggi per imitare i movimenti di un utente è che i prodotti commerciali AR/VR sono composti solo da un visore e dei controller, fornendo dati sensoriali molto limitati sulla postura dell'utente. Un'altra sfida è che un avatar potrebbe avere una struttura scheletrica diversa da quella umana e la mappatura tra le due non è chiara. In questo lavoro affrontiamo entrambe queste sfide. Introduciamo un metodo per riorientare i movimenti in tempo reale da dati sensoriali umani sparsi a personaggi di varie morfologie. Il nostro metodo utilizza l'apprendimento per rinforzo per addestrare una politica che controlla i personaggi in un simulatore fisico. Richiediamo solo dati di motion capture umani per l'addestramento, senza fare affidamento su animazioni generate da artisti per ogni avatar. Ciò ci consente di utilizzare grandi dataset di motion capture per addestrare politiche generali in grado di seguire utenti non visti da dati reali e sparsi in tempo reale. Dimostriamo la fattibilità del nostro approccio su tre personaggi con diverse strutture scheletriche: un dinosauro, una creatura simile a un topo e un umano. Mostriamo che le pose degli avatar spesso corrispondono sorprendentemente bene a quelle dell'utente, nonostante non siano disponibili informazioni sensoriali sulla parte inferiore del corpo. Discutiamo e analizziamo i componenti importanti del nostro framework, in particolare il passaggio di riorientamento cinematico, la ricompensa per l'imitazione, il contatto e l'azione, nonché le nostre osservazioni asimmetriche attore-critico. Esploriamo ulteriormente la robustezza del nostro metodo in una varietà di contesti, tra cui movimenti di squilibrio, danza e sport.
I token di input per i Vision Transformer trasportano poco significato semantico, poiché sono definiti come patch regolari di dimensioni uguali dell'immagine di input, indipendentemente dal suo contenuto. Tuttavia, elaborare aree uniformi di sfondo di un'immagine non dovrebbe richiedere la stessa quantità di calcolo rispetto ad aree dense e disordinate. Per affrontare questo problema, proponiamo uno schema di tokenizzazione dinamica a scala mista per ViT, denominato MSViT. Il nostro metodo introduce un meccanismo di gating condizionale che seleziona la scala ottimale dei token per ogni regione dell'immagine, in modo che il numero di token sia determinato dinamicamente per ogni input. Il modulo di gating proposto è leggero, indipendente dalla scelta del backbone del transformer, e viene addestrato in poche epoche (ad esempio, 20 epoche su ImageNet) con un sovraccarico di addestramento minimo. Inoltre, per migliorare il comportamento condizionale del gate durante l'addestramento, introduciamo una nuova generalizzazione della funzione di loss di batch-shaping. Dimostriamo che il nostro modulo di gating è in grado di apprendere semantiche significative nonostante operi localmente a livello di patch grossolane. Validiamo MSViT sui task di classificazione e segmentazione, dove porta a un miglior compromesso tra accuratezza e complessità.
Questo studio esamina le prestazioni dei modelli linguistici di grandi dimensioni (LLM) open-source nei compiti di annotazione del testo e le confronta con modelli proprietari come ChatGPT e servizi basati su esseri umani come MTurk. Mentre ricerche precedenti hanno dimostrato l'elevata performance di ChatGPT in numerosi compiti di elaborazione del linguaggio naturale (NLP), i LLM open-source come HugginChat e FLAN stanno attirando l'attenzione per la loro convenienza, trasparenza, riproducibilità e superiore protezione dei dati. Valutiamo questi modelli utilizzando approcci sia zero-shot che few-shot e diversi parametri di temperatura in una gamma di compiti di annotazione del testo. I nostri risultati mostrano che, sebbene ChatGPT raggiunga le migliori prestazioni nella maggior parte dei compiti, i LLM open-source non solo superano MTurk, ma dimostrano anche un potenziale competitivo rispetto a ChatGPT in compiti specifici.
La musica è utilizzata per trasmettere emozioni, e quindi la generazione di musica emotiva è importante nella generazione automatica di musica. I precedenti lavori sulla generazione di musica emotiva utilizzano direttamente etichette di emozioni annotate come segnali di controllo, il che soffre di un bias soggettivo: persone diverse possono annotare emozioni diverse sulla stessa musica, e una stessa persona può provare emozioni diverse in situazioni differenti. Pertanto, mappare direttamente le etichette di emozioni alle sequenze musicali in modo end-to-end confonderebbe il processo di apprendimento e ostacolerebbe il modello nel generare musica con emozioni generali. In questo articolo, proponiamo EmoGen, un sistema di generazione di musica emotiva che sfrutta un insieme di attributi musicali legati alle emozioni come ponte tra emozione e musica, e divide la generazione in due fasi: mappatura da emozione ad attributo con clustering supervisionato, e generazione da attributo a musica con apprendimento auto-supervisionato. Entrambe le fasi sono vantaggiose: nella prima fase, i valori degli attributi intorno al centro del clustering rappresentano le emozioni generali di questi campioni, il che aiuta a eliminare gli impatti del bias soggettivo delle etichette di emozione; nella seconda fase, la generazione è completamente disaccoppiata dalle etichette di emozione e quindi libera dal bias soggettivo. Valutazioni sia soggettive che oggettive mostrano che EmoGen supera i metodi precedenti rispettivamente in termini di accuratezza nel controllo delle emozioni e qualità della musica, dimostrando la nostra superiorità nella generazione di musica emotiva. Campioni musicali generati da EmoGen sono disponibili al seguente link: https://ai-muzic.github.io/emogen/, e il codice è disponibile al seguente link: https://github.com/microsoft/muzic/.
Dotare gli agenti incarnati di buon senso è fondamentale affinché i robot possano completare con successo istruzioni umane complesse in ambienti generici. I recenti modelli linguistici di grandi dimensioni (LLM) possono incorporare una ricca conoscenza semantica per gli agenti nella generazione di piani per compiti complessi, ma mancano di informazioni sul mondo reale e spesso producono sequenze di azioni non fattibili. In questo articolo, proponiamo un Agente per la Pianificazione di Compiti (TaPA) in compiti incarnati per una pianificazione vincolata alla scena fisica, in cui l'agente genera piani eseguibili in base agli oggetti presenti nella scena, allineando gli LLM con i modelli di percezione visiva. Nello specifico, costruiamo prima un dataset multimodale contenente triplette di scene indoor, istruzioni e piani d'azione, fornendo prompt progettati e un elenco di oggetti presenti nella scena a GPT-3.5 per generare un gran numero di istruzioni e azioni pianificate corrispondenti. I dati generati vengono utilizzati per l'ottimizzazione della pianificazione vincolata di LLM pre-addestrati. Durante l'inferenza, individuiamo gli oggetti nella scena estendendo i rilevatori di oggetti a vocabolario aperto a immagini RGB multi-vista raccolte in diverse posizioni raggiungibili. I risultati sperimentali mostrano che i piani generati dal nostro framework TaPA raggiungono un tasso di successo significativamente più alto rispetto a LLaVA e GPT-3.5, dimostrando la praticabilità della pianificazione di compiti incarnati in ambienti generali e complessi.
Questo articolo introduce l'Elastic Decision Transformer (EDT), un significativo progresso rispetto all'esistente Decision Transformer (DT) e alle sue varianti. Sebbene il DT pretenda di generare una traiettoria ottimale, evidenze empiriche suggeriscono che incontri difficoltà nel processo di "trajectory stitching", che consiste nella generazione di una traiettoria ottimale o quasi ottimale a partire dalle parti migliori di un insieme di traiettorie sub-ottimali. Il proposto EDT si distingue facilitando il trajectory stitching durante l'inferenza delle azioni al momento del test, ottenuto regolando la lunghezza della cronologia mantenuta nel DT. Inoltre, l'EDT ottimizza la traiettoria conservando una cronologia più lunga quando la traiettoria precedente è ottimale e una più breve quando è sub-ottimale, consentendogli di "cucire" con una traiettoria più ottimale. Esperimenti estesi dimostrano la capacità dell'EDT di colmare il divario prestazionale tra gli approcci basati su DT e quelli basati su Q Learning. In particolare, l'EDT supera i metodi basati su Q Learning in un regime multi-task sul benchmark di locomozione D4RL e sui giochi Atari. I video sono disponibili al seguente link: https://kristery.github.io/edt/