Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo lavoro introduce Weaver, la nostra prima famiglia di modelli linguistici di grandi dimensioni (LLM) dedicati alla creazione di contenuti. Weaver è pre-addestrato su un corpus selezionato con cura che si concentra sul miglioramento delle capacità di scrittura dei modelli linguistici di grandi dimensioni. Successivamente, ottimizziamo Weaver per scopi di scrittura creativa e professionale e lo allineiamo alle preferenze degli scrittori professionisti utilizzando una serie di metodi innovativi per la sintesi dei dati di istruzione e l'allineamento degli LLM, rendendolo in grado di produrre testi più simili a quelli umani e di seguire istruzioni più diversificate per la creazione di contenuti. La famiglia Weaver comprende modelli di dimensioni Weaver Mini (1,8B), Weaver Base (6B), Weaver Pro (14B) e Weaver Ultra (34B), adatti a diverse applicazioni e che possono essere distribuiti dinamicamente da un agente di routing in base alla complessità della query per bilanciare la qualità della risposta e il costo computazionale. La valutazione su un benchmark accuratamente curato per valutare le capacità di scrittura degli LLM mostra che i modelli Weaver di tutte le dimensioni superano gli LLM generalisti di dimensioni diverse volte superiori. In particolare, il nostro modello più capace, Weaver Ultra, supera GPT-4, un LLM generalista all'avanguardia, in vari scenari di scrittura, dimostrando il vantaggio di addestrare LLM specializzati per scopi di scrittura. Inoltre, Weaver supporta nativamente la generazione aumentata dal recupero di informazioni (RAG) e la chiamata di funzioni (uso di strumenti). Presentiamo vari casi d'uso di queste capacità per migliorare i sistemi di scrittura assistita dall'IA, inclusa l'integrazione di basi di conoscenza esterne, strumenti o API, e la fornitura di assistenza personalizzata per la scrittura. Inoltre, discutiamo e riassumiamo una guida e le migliori pratiche per il pre-addestramento e l'ottimizzazione di LLM specifici per dominio.
La serie di rilevatori You Only Look Once (YOLO) si è affermata come strumento efficiente e pratico. Tuttavia, la loro dipendenza da categorie di oggetti predefinite e addestrate ne limita l'applicabilità in scenari aperti. Per affrontare questa limitazione, introduciamo YOLO-World, un approccio innovativo che potenzia YOLO con capacità di rilevamento a vocabolario aperto attraverso la modellazione visione-linguaggio e il pre-addestramento su dataset su larga scala. Nello specifico, proponiamo una nuova Rete di Aggregazione Percorsi Visione-Linguaggio Ri-parametrizzabile (RepVL-PAN) e una funzione di perdita contrastiva regione-testo per facilitare l'interazione tra informazioni visive e linguistiche. Il nostro metodo eccelle nel rilevare un'ampia gamma di oggetti in modalità zero-shot con alta efficienza. Sul complesso dataset LVIS, YOLO-World raggiunge 35.4 AP con 52.0 FPS su V100, superando molti metodi all'avanguardia in termini di accuratezza e velocità. Inoltre, la versione fine-tuned di YOLO-World ottiene prestazioni notevoli in diverse attività downstream, tra cui il rilevamento di oggetti e la segmentazione di istanze a vocabolario aperto.
Presentiamo BlockFusion, un modello basato sulla diffusione che genera scene 3D come blocchi unitari e incorpora in modo fluido nuovi blocchi per estendere la scena. BlockFusion viene addestrato utilizzando dataset di blocchi 3D che vengono ritagliati casualmente da mesh complete di scene 3D. Attraverso un adattamento per blocco, tutti i blocchi di addestramento vengono convertiti in campi neurali ibridi: con un tri-piano contenente le caratteristiche geometriche, seguito da un Multi-layer Perceptron (MLP) per decodificare i valori di distanza con segno. Un autoencoder variazionale viene impiegato per comprimere i tri-piani nello spazio latente dei tri-piani, su cui viene eseguito il processo di diffusione del rumore. La diffusione applicata alle rappresentazioni latenti consente la generazione di scene 3D di alta qualità e diversificate. Per espandere una scena durante la generazione, è sufficiente aggiungere blocchi vuoti che si sovrappongono alla scena corrente ed estrapolare i tri-piani latenti esistenti per popolare i nuovi blocchi. L'estrapolazione viene eseguita condizionando il processo di generazione con i campioni di caratteristiche provenienti dai tri-piani sovrapposti durante le iterazioni di rimozione del rumore. L'estrapolazione del tri-piano latente produce transizioni semanticamente e geometricamente significative che si fondono armoniosamente con la scena esistente. Un meccanismo di condizionamento del layout 2D viene utilizzato per controllare il posizionamento e la disposizione degli elementi della scena. I risultati sperimentali indicano che BlockFusion è in grado di generare scene 3D grandi, diversificate, geometricamente coerenti e illimitate con forme di qualità senza precedenti sia in scenari interni che esterni.
Per sfruttare i modelli linguistici di grandi dimensioni (LLM) nella sintesi visiva, i metodi tradizionali convertono le informazioni delle immagini raster in token discreti su griglia attraverso moduli visivi specializzati, compromettendo però la capacità del modello di catturare la vera rappresentazione semantica delle scene visive. Questo articolo propone che una rappresentazione alternativa delle immagini, la grafica vettoriale, possa superare efficacemente questa limitazione, consentendo una segmentazione più naturale e semanticamente coerente delle informazioni visive. Introduciamo quindi StrokeNUWA, un lavoro pionieristico che esplora una migliore rappresentazione visiva, i "token di tratto" (stroke tokens), basata sulla grafica vettoriale, che è intrinsecamente ricca di semantica visiva, naturalmente compatibile con gli LLM e altamente compressa. Dotato di token di tratto, StrokeNUWA supera significativamente i metodi tradizionali basati su LLM e su ottimizzazione in varie metriche nel compito di generazione di grafica vettoriale. Inoltre, StrokeNUWA raggiunge un'accelerazione fino a 94x nell'inferenza rispetto ai metodi precedenti, con un eccezionale rapporto di compressione del codice SVG del 6,9%.
Nel campo in rapida evoluzione dei modelli generativi di sintesi vocale, c'è un urgente bisogno di garantire l'autenticità dell'audio contro i rischi del clonaggio vocale. Presentiamo AudioSeal, la prima tecnica di watermarking audio progettata specificamente per il rilevamento localizzato di discorsi generati dall'IA. AudioSeal utilizza un'architettura generatore/rilevatore addestrata congiuntamente con una funzione di perdita di localizzazione per consentire il rilevamento localizzato del watermark fino al livello del campione, e una nuova funzione di perdita percettiva ispirata al mascheramento uditivo, che permette ad AudioSeal di ottenere una migliore impercettibilità. AudioSeal raggiunge prestazioni all'avanguardia in termini di robustezza alle manipolazioni audio reali e di impercettibilità, basate su metriche di valutazione automatiche e umane. Inoltre, AudioSeal è progettato con un rilevatore veloce a passaggio singolo, che supera significativamente i modelli esistenti in velocità - raggiungendo un rilevamento fino a due ordini di grandezza più veloce, rendendolo ideale per applicazioni su larga scala e in tempo reale.
Presentiamo H2O-Danube-1.8B, un modello linguistico da 1,8 miliardi di parametri addestrato su 1 trilione di token seguendo i principi fondamentali di LLama 2 e Mistral. Utilizziamo e perfezioniamo varie tecniche per il pre-addestramento di modelli linguistici di grandi dimensioni. Sebbene il nostro modello sia stato addestrato su un numero significativamente inferiore di token totali rispetto ai modelli di riferimento di dimensioni simili, mostra metriche altamente competitive in una moltitudine di benchmark. Inoltre, rilasciamo un modello di chat addestrato con fine-tuning supervisionato seguito da ottimizzazione diretta delle preferenze. Rendiamo H2O-Danube-1.8B disponibile pubblicamente con licenza Apache 2.0, contribuendo ulteriormente a democratizzare i modelli linguistici di grandi dimensioni per un pubblico più ampio in modo economicamente accessibile.
In questo rapporto, esploriamo il potenziale della diffusione di testo per sostituire il decoding autoregressivo (AR) nell'addestramento e nel deployment di grandi modelli linguistici (LLM). Siamo particolarmente interessati a verificare se i modelli AR preaddestrati possano essere trasformati in modelli di diffusione di testo attraverso una procedura di adattamento leggera che chiamiamo "AR2Diff". Iniziamo stabilendo una configurazione di base solida per l'addestramento di modelli di diffusione di testo. Confrontando diverse architetture e obiettivi di preaddestramento, scopriamo che addestrare un modello decoder-only con un obiettivo di linguaggio a prefisso (prefix LM) è il migliore o quasi il migliore in diverse attività. Basandoci su questa scoperta, testiamo varie configurazioni di transfer learning per i modelli di diffusione di testo. Nella traduzione automatica, osserviamo che la diffusione di testo ha prestazioni inferiori rispetto all'approccio AR standard. Tuttavia, nella sintesi di codice e nelle domande a risposta estrattiva (extractive QA), i modelli di diffusione addestrati da zero superano i modelli AR in molti casi. Osserviamo anche miglioramenti qualitativi derivanti da AR2Diff, ovvero l'adattamento di modelli AR per utilizzare il decoding a diffusione. Questi risultati sono promettenti, considerando che la diffusione di testo è relativamente poco esplorata e può essere significativamente più veloce del decoding AR per la generazione di testi lunghi.
Nonostante siano stati dedicati sforzi significativi all'allineamento dei grandi modelli linguistici (LLM), i rapporti di red-teaming suggeriscono che questi LLM attentamente allineati potrebbero comunque essere "jailbroken" tramite prompt avversari, tuning o decodifica. Esaminando la vulnerabilità al jailbreaking degli LLM allineati, osserviamo che le distribuzioni di decodifica dei modelli jailbroken e allineati differiscono solo nelle generazioni iniziali. Questa osservazione ci motiva a proporre l'attacco di jailbreaking weak-to-strong, in cui gli avversari possono utilizzare LLM più piccoli e non sicuri/allineati (ad esempio, 7B) per guidare il jailbreaking contro LLM allineati significativamente più grandi (ad esempio, 70B). Per eseguire il jailbreaking, è sufficiente decodificare ulteriormente due LLM più piccoli una sola volta, il che comporta un calcolo e una latenza minimi rispetto alla decodifica degli LLM più grandi. L'efficacia di questo attacco è dimostrata attraverso esperimenti condotti su cinque modelli di tre diverse organizzazioni. Il nostro studio rivela un modo precedentemente non notato ma efficiente di eseguire il jailbreaking, esponendo un urgente problema di sicurezza che deve essere considerato durante l'allineamento degli LLM. Come tentativo iniziale, proponiamo una strategia di difesa per proteggersi da tali attacchi, ma la creazione di difese più avanzate rimane una sfida. Il codice per replicare il metodo è disponibile all'indirizzo https://github.com/XuandongZhao/weak-to-strong.
Il ripristino delle immagini è un problema fondamentale che consiste nel recuperare un'immagine pulita di alta qualità dalla sua osservazione degradata. I modelli All-In-One per il ripristino delle immagini possono ripristinare efficacemente le immagini da vari tipi e livelli di degrado utilizzando informazioni specifiche sul degrado come prompt per guidare il modello di ripristino. In questo lavoro, presentiamo il primo approccio che utilizza istruzioni scritte da esseri umani per guidare il modello di ripristino delle immagini. Dati prompt in linguaggio naturale, il nostro modello è in grado di recuperare immagini di alta qualità dalle loro controparti degradate, considerando più tipi di degrado. Il nostro metodo, InstructIR, ottiene risultati all'avanguardia in diverse attività di ripristino, tra cui la riduzione del rumore, la rimozione della pioggia, la correzione della sfocatura, la rimozione della foschia e il miglioramento delle immagini (in condizioni di scarsa illuminazione). InstructIR migliora di +1dB rispetto ai precedenti metodi di ripristino All-In-One. Inoltre, il nostro dataset e i nostri risultati rappresentano un nuovo punto di riferimento per la ricerca sul ripristino e il miglioramento delle immagini guidati da testo. Il nostro codice, i dataset e i modelli sono disponibili all'indirizzo: https://github.com/mv-lab/InstructIR
Studi recenti hanno sostenuto l'uso di modelli di base completamente aperti per promuovere la trasparenza e la scienza aperta. Come primo passo, il modello di riconoscimento vocale Open Whisper-style Speech Model (OWSM) ha riprodotto il Whisper di OpenAI utilizzando dati pubblicamente disponibili e toolkit open-source. Con l'obiettivo di replicare Whisper, i precedenti modelli OWSM v1 fino a v3 si basavano ancora su Transformer, il che potrebbe portare a prestazioni inferiori rispetto ad altri encoder vocali all'avanguardia. In questo lavoro, miriamo a migliorare le prestazioni e l'efficienza di OWSM senza dati di addestramento aggiuntivi. Presentiamo i modelli OWSM v3.1 basati su E-Branchformer in due dimensioni, ovvero 100M e 1B. Il modello da 1B è il più grande modello vocale basato su E-Branchformer reso pubblicamente disponibile. Supera il precedente OWSM v3 nella maggior parte dei benchmark di valutazione, dimostrando al contempo una velocità di inferenza fino al 25% più rapida. Rilasciamo pubblicamente gli script di preparazione dei dati, i modelli pre-addestrati e i log di addestramento.
La manipolazione delle immagini attuale si concentra principalmente su manipolazioni statiche, come la sostituzione di regioni specifiche all'interno di un'immagine o l'alterazione del suo stile complessivo. In questo articolo, introduciamo un'innovativa attività di manipolazione dinamica: il riposizionamento del soggetto. Questa attività consiste nel trasferire un soggetto specificato dall'utente a una posizione desiderata, preservando la fedeltà dell'immagine. La nostra ricerca rivela che le sotto-attività fondamentali del riposizionamento del soggetto, che includono il riempimento del vuoto lasciato dal soggetto riposizionato, la ricostruzione delle porzioni oscurate del soggetto e l'integrazione del soggetto per renderlo coerente con le aree circostanti, possono essere efficacemente riformulate come un'unica attività di inpainting guidata da prompt. Di conseguenza, possiamo utilizzare un singolo modello generativo di diffusione per affrontare queste sotto-attività utilizzando vari prompt di attività appresi attraverso la nostra tecnica proposta di inversione delle attività. Inoltre, integriamo tecniche di pre-elaborazione e post-elaborazione per migliorare ulteriormente la qualità del riposizionamento del soggetto. Questi elementi insieme formano il nostro framework SEgment-gEnerate-and-bLEnd (SEELE). Per valutare l'efficacia di SEELE nel riposizionamento del soggetto, abbiamo assemblato un dataset di riposizionamento del soggetto nel mondo reale chiamato ReS. I nostri risultati su ReS dimostrano la qualità della generazione delle immagini riposizionate.
Sebbene i modelli linguistici di grandi dimensioni (LLM) siano sempre più utilizzati per la sintesi di programmi, mancano della visione globale necessaria per sviluppare astrazioni utili; generalmente prevedono i programmi uno alla volta, spesso ripetendo la stessa funzionalità. Generare codice ridondante da zero è sia inefficiente che soggetto a errori. Per affrontare questo problema, proponiamo Refactoring for Generalizable Abstraction Learning (ReGAL), un metodo senza gradienti per apprendere una libreria di funzioni riutilizzabili tramite la rifattorizzazione del codice, ovvero la ristrutturazione del codice senza modificarne l'output di esecuzione. ReGAL apprende da un piccolo insieme di programmi esistenti, verificando e affinando iterativamente le sue astrazioni tramite l'esecuzione. Scopriamo che le librerie di funzioni condivise individuate da ReGAL rendono i programmi più facili da prevedere in diversi domini. Su tre dataset (generazione di grafiche LOGO, ragionamento su date e TextCraft, un gioco testuale basato su Minecraft), sia gli LLM open-source che quelli proprietari migliorano in accuratezza quando prevedono programmi con funzioni ReGAL. Per CodeLlama-13B, ReGAL comporta aumenti assoluti di accuratezza dell'11,5% sulle grafiche, del 26,1% sulla comprensione delle date e dell'8,1% su TextCraft, superando GPT-3.5 in due dei tre domini. La nostra analisi rivela che le astrazioni di ReGAL incapsulano sottoprogrammi utilizzati frequentemente nonché le dinamiche dell'ambiente.
Gli attuali modelli di visione e linguaggio su larga scala (VLMs) spesso incontrano sfide come capacità insufficienti di un singolo componente visivo e token visivi eccessivamente lunghi. Questi problemi possono limitare l'efficacia del modello nell'interpretare accuratamente informazioni visive complesse e contestuali eccessivamente estese. Affrontare queste sfide è cruciale per migliorare le prestazioni e l'applicabilità dei VLMs. Questo articolo propone l'uso della tecnica degli ensemble di esperti per sinergizzare le capacità dei singoli encoder visivi, inclusi quelli specializzati nell'abbinamento immagine-testo, OCR, segmentazione delle immagini, ecc. Questa tecnica introduce una rete di fusione per unificare l'elaborazione degli output provenienti da diversi esperti visivi, colmando il divario tra gli encoder di immagini e i modelli linguistici pre-addestrati (LLMs). Inoltre, esploriamo diversi schemi di codifica posizionale per alleviare lo spreco di codifica posizionale causato da sequenze di caratteristiche visive troppo lunghe, affrontando efficacemente il problema dell'overflow posizionale e delle limitazioni di lunghezza. Ad esempio, nella nostra implementazione, questa tecnica riduce significativamente l'occupazione posizionale in modelli come SAM, da un sostanziale 4096 a un più efficiente e gestibile 64 o addirittura fino a 1. I risultati sperimentali dimostrano che i VLMs con più esperti mostrano prestazioni costantemente superiori rispetto agli encoder visivi isolati e segnano un significativo incremento delle prestazioni man mano che vengono integrati più esperti. Abbiamo reso open-source il codice di addestramento utilizzato in questo rapporto. Tutte queste risorse possono essere trovate sul sito web del nostro progetto.
I modelli linguistici di grandi dimensioni fanno sempre più affidamento su tecniche distribuite per il loro addestramento e inferenza. Queste tecniche richiedono comunicazione tra dispositivi, il che può ridurre l'efficienza di scalabilità all'aumentare del numero di dispositivi. Sebbene alcune tecniche distribuite possano sovrapporsi e, quindi, nascondere questa comunicazione con calcoli indipendenti, tecniche come il Parallelismo Tensoriale (TP) serializzano intrinsecamente la comunicazione con l'esecuzione del modello. Un approccio per nascondere questa comunicazione serializzata è intervallarla in modo fine con l'operazione produttrice (dei dati comunicati). Tuttavia, questo intervallamento fine tra comunicazione e calcolo in software può essere difficile. Inoltre, come in qualsiasi esecuzione concorrente, richiede che le risorse di calcolo e memoria siano condivise tra calcolo e comunicazione, causando contesa delle risorse che riduce l'efficacia della sovrapposizione. Per superare queste sfide, proponiamo T3, che applica una co-progettazione hardware-software per sovrapporre in modo trasparente la comunicazione serializzata minimizzando la contesa delle risorse con il calcolo. T3 fonde in modo trasparente le operazioni produttrici con la successiva comunicazione attraverso una semplice configurazione dello spazio di indirizzi di output del produttore e richiede modifiche software minime. A livello hardware, T3 aggiunge un meccanismo leggero di tracciamento e attivazione per orchestrare il calcolo e la comunicazione del produttore. Utilizza inoltre memorie potenziate per il calcolo associato alla comunicazione. Di conseguenza, T3 riduce la contesa delle risorse e sovrappone in modo efficiente la comunicazione serializzata con il calcolo. Per importanti modelli Transformer come T-NLG, T3 accelera i sottostrati pesanti di comunicazione del 30% in media geometrica (massimo 47%) e riduce il movimento dei dati del 22% in media geometrica (massimo 36%). Inoltre, i vantaggi di T3 persistono man mano che i modelli si ridimensionano: media geometrica del 29% per i sottostrati in modelli con 500 miliardi di parametri simulati, PALM e MT-NLG.