Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli probabilistici di diffusione con denoising (DDPM) hanno dimostrato prestazioni promettenti per la sintesi vocale. Tuttavia, è necessario un numero elevato di passi iterativi per ottenere una qualità campionaria elevata, il che limita la velocità di inferenza. Mantenere la qualità del campione aumentando la velocità di campionamento è diventato un compito impegnativo. In questo articolo, proponiamo un metodo di sintesi vocale basato su un "Co"nsistency "Mo"del, denominato CoMoSpeech, che realizza la sintesi vocale attraverso un singolo passo di campionamento di diffusione, ottenendo al contempo un'elevata qualità audio. Il vincolo di consistenza viene applicato per distillare un modello di consistenza da un modello insegnante basato su diffusione ben progettato, che alla fine produce prestazioni superiori nel CoMoSpeech distillato. I nostri esperimenti dimostrano che, generando registrazioni audio con un singolo passo di campionamento, il CoMoSpeech raggiunge una velocità di inferenza più di 150 volte superiore al tempo reale su una singola GPU NVIDIA A100, paragonabile a FastSpeech2, rendendo la sintesi vocale basata su campionamento di diffusione veramente pratica. Nel frattempo, valutazioni oggettive e soggettive sulla sintesi vocale da testo e sulla sintesi della voce cantata mostrano che i modelli insegnanti proposti producono la migliore qualità audio, e il CoMoSpeech basato su campionamento in un singolo passo raggiunge la migliore velocità di inferenza con una qualità audio migliore o comparabile rispetto ad altri modelli di diffusione multi-passo convenzionali. Campioni audio sono disponibili all'indirizzo https://comospeech.github.io/.
Presentiamo i Region-aware Open-vocabulary Vision Transformers (RO-ViT) – una ricetta di pre-addestramento contrastivo immagine-testo per colmare il divario tra il pre-addestramento a livello di immagine e la rilevazione open-vocabulary di oggetti. Nella fase di pre-addestramento, proponiamo di ritagliare e ridimensionare casualmente le regioni degli embedding posizionali invece di utilizzare gli embedding posizionali dell'intera immagine. Questo si adatta meglio all'uso degli embedding posizionali a livello di regione nella fase di fine-tuning della rilevazione. Inoltre, sostituiamo la comune perdita di entropia incrociata softmax nell'apprendimento contrastivo con la perdita focale per apprendere meglio gli esempi informativi ma difficili. Infine, sfruttiamo i recenti progressi nelle proposte di nuovi oggetti per migliorare il fine-tuning della rilevazione open-vocabulary. Valutiamo il nostro modello completo sui benchmark di rilevazione open-vocabulary LVIS e COCO e sul trasferimento zero-shot. RO-ViT raggiunge uno stato dell'arte di 32.1 AP_r su LVIS, superando il miglior approccio esistente di +5.8 punti, oltre a una rilevazione di trasferimento zero-shot competitiva. Sorprendentemente, RO-ViT migliora anche la rappresentazione a livello di immagine e raggiunge lo stato dell'arte su 9 su 12 metriche sui benchmark di recupero immagine-testo COCO e Flickr, superando approcci competitivi con modelli più grandi.
I modelli linguistici generici in grado di risolvere vari compiti nel dominio del linguaggio sono emersi grazie alla pipeline di pre-addestramento e ottimizzazione su istruzioni. Tuttavia, costruire modelli visione-linguaggio generici è impegnativo a causa della maggiore discrepanza nei compiti introdotta dall'input visivo aggiuntivo. Sebbene il pre-addestramento visione-linguaggio sia stato ampiamente studiato, l'ottimizzazione su istruzioni visione-linguaggio rimane relativamente meno esplorata. In questo articolo, conduciamo uno studio sistematico e completo sull'ottimizzazione su istruzioni visione-linguaggio basata sui modelli pre-addestrati BLIP-2. Raccogliamo una vasta gamma di 26 dataset pubblicamente disponibili, li trasformiamo in formato di ottimizzazione su istruzioni e li categorizziamo in due cluster per l'ottimizzazione su istruzioni mantenute e la valutazione zero-shot su dati non visti. Inoltre, introduciamo l'estrazione di caratteristiche visive consapevole delle istruzioni, un metodo cruciale che consente al modello di estrarre caratteristiche informative adattate all'istruzione data. I modelli InstructBLIP risultanti raggiungono prestazioni zero-shot all'avanguardia su tutti i 13 dataset non visti, superando sostanzialmente BLIP-2 e il più grande Flamingo. I nostri modelli ottengono anche prestazioni all'avanguardia quando ottimizzati su singoli compiti downstream (ad esempio, 90,7% di accuratezza su ScienceQA IMG). Inoltre, dimostriamo qualitativamente i vantaggi di InstructBLIP rispetto ai modelli multimodali concorrenti. Tutti i modelli InstructBLIP sono stati resi open-source su https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
Presentiamo un approccio innovativo per sfruttare la conoscenza pregressa racchiusa nei modelli di diffusione testo-immagine pre-addestrati per la super-risoluzione (SR) cieca. Nello specifico, utilizzando il nostro encoder sensibile al tempo, possiamo ottenere risultati di restauro promettenti senza alterare il modello di sintesi pre-addestrato, preservando così il prior generativo e minimizzando i costi di addestramento. Per rimediare alla perdita di fedeltà causata dall'intrinseca stocasticità dei modelli di diffusione, introduciamo un modulo di wrapping delle feature controllabile che consente agli utenti di bilanciare qualità e fedeltà semplicemente regolando un valore scalare durante il processo di inferenza. Inoltre, sviluppiamo una strategia di campionamento ad aggregazione progressiva per superare i vincoli di dimensione fissa dei modelli di diffusione pre-addestrati, consentendo l'adattamento a risoluzioni di qualsiasi dimensione. Una valutazione completa del nostro metodo utilizzando benchmark sia sintetici che del mondo reale ne dimostra la superiorità rispetto agli approcci attuali all'avanguardia.
I vision transformer hanno dimostrato un grande successo grazie alle loro elevate capacità di modellazione. Tuttavia, le loro prestazioni eccezionali sono accompagnate da costi computazionali elevati, il che li rende inadatti per applicazioni in tempo reale. In questo articolo, proponiamo una famiglia di vision transformer ad alta velocità denominata EfficientViT. Abbiamo osservato che la velocità dei modelli transformer esistenti è comunemente limitata da operazioni inefficienti in termini di memoria, in particolare il ridimensionamento dei tensori e le funzioni elemento per elemento nell'MHSA. Pertanto, abbiamo progettato un nuovo blocco costitutivo con una disposizione a sandwich, ovvero utilizzando un singolo MHSA vincolato dalla memoria tra efficienti strati FFN, che migliora l'efficienza della memoria mentre potenzia la comunicazione tra i canali. Inoltre, abbiamo scoperto che le mappe di attenzione condividono un'elevata somiglianza tra le teste, portando a una ridondanza computazionale. Per affrontare questo problema, presentiamo un modulo di attenzione a gruppi in cascata che alimenta le teste di attenzione con diverse suddivisioni della feature completa, il quale non solo riduce i costi computazionali ma migliora anche la diversità dell'attenzione. Esperimenti completi dimostrano che EfficientViT supera i modelli efficienti esistenti, trovando un buon compromesso tra velocità e accuratezza. Ad esempio, il nostro EfficientViT-M5 supera MobileNetV3-Large dell'1,9% in accuratezza, ottenendo un throughput più alto del 40,4% e del 45,2% rispettivamente su GPU Nvidia V100 e CPU Intel Xeon. Rispetto al recente modello efficiente MobileViT-XXS, EfficientViT-M2 raggiunge un'accuratezza superiore dell'1,8%, mentre è 5,8x/3,7x più veloce su GPU/CPU e 7,4x più veloce quando convertito in formato ONNX. Codice e modelli sono disponibili su https://github.com/microsoft/Cream/tree/main/EfficientViT.
CLIP, il primo modello di base che connette immagini e testo, ha abilitato numerose recenti scoperte nel campo della visione artificiale. Tuttavia, i costi associati al suo addestramento sono proibitivamente elevati, rappresentando una barriera significativa alla sua esplorazione diffusa. In questo articolo, presentiamo una scoperta sorprendente: esiste una legge di scala inversa per l'addestramento di CLIP, per cui più grandi sono gli encoder di immagini/testo utilizzati, più breve può essere la lunghezza della sequenza di token di immagini/testo applicata durante l'addestramento. Inoltre, dimostriamo che la strategia per ridurre la lunghezza dei token di immagini/testo gioca un ruolo cruciale nel determinare la qualità di questa legge di scala. Grazie a questa scoperta, siamo riusciti ad addestrare con successo CLIP utilizzando anche risorse accademiche. Ad esempio, su un server con otto GPU A100, i nostri modelli CLIP raggiungono accuratezze zero-shot top-1 su ImageNet del 63,2% in circa 2 giorni, del 67,8% in circa 3 giorni e del 69,3% in circa 4 giorni. Riducendo la barriera computazionale associata a CLIP, speriamo di ispirare ulteriori ricerche in questo campo, in particolare da parte del mondo accademico. Il nostro codice è disponibile all'indirizzo https://github.com/UCSC-VLAA/CLIPA.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni sorprendentemente buone nella traduzione automatica neurale multilingue (MNMT) anche quando addestrati senza dati paralleli. Tuttavia, nonostante l'enorme quantità di dati di addestramento, continuano a incontrare difficoltà nella traduzione di parole rare, in particolare per le lingue con risorse limitate. Ancora peggio, è solitamente irrealistico recuperare dimostrazioni rilevanti per l'apprendimento in contesto con lingue a bassa risorsa sugli LLM, il che limita l'uso pratico degli LLM per la traduzione. Come possiamo mitigare questo problema? A tal fine, presentiamo un metodo innovativo, CoD, che potenzia gli LLM con conoscenze pregresse utilizzando catene di dizionari multilingue per un sottoinsieme di parole di input per stimolare le capacità di traduzione degli LLM. Esperimenti estensivi indicano che potenziare ChatGPT con CoD produce miglioramenti significativi fino a 13 punti ChrF++ per la MNMT (da 3.08 a 42.63 per la traduzione dall'inglese al serbo scritto in alfabeto cirillico) sul set completo di sviluppo FLORES-200. Dimostriamo inoltre l'importanza di concatenare i dizionari multilingue, nonché la superiorità di CoD rispetto alle dimostrazioni few-shot per le lingue a bassa risorsa.
La capacità di giudicare se una didascalia descrive correttamente un'immagine è un aspetto cruciale della comprensione visivo-linguistica. Tuttavia, i modelli all'avanguardia spesso interpretano erroneamente la correttezza dei dettagli più fini, portando a errori negli output, come l'allucinazione di oggetti nelle didascalie generate o un ragionamento compositivo scadente. In questo lavoro, esploriamo la Fiducia a Livello di Token, o TLC, come un metodo semplice ma sorprendentemente efficace per valutare la correttezza delle didascalie. Nello specifico, ottimizziamo un modello visivo-linguistico per la generazione di didascalie, forniamo al modello un'immagine e una didascalia proposta, e aggregiamo le fiducie algebriche o apprese a livello di token su parole o sequenze per stimare la coerenza tra immagine e didascalia. Rispetto ai punteggi a livello di sequenza dei modelli pre-addestrati, la TLC con misure di fiducia algebriche ottiene un miglioramento relativo del 10% nell'accuratezza nella comprensione dei verbi in SVO-Probes e supera i precedenti risultati all'avanguardia nei punteggi di immagine e gruppo per il ragionamento compositivo in Winoground, rispettivamente del 37% e del 9%. Quando sono disponibili dati di addestramento, un estimatore di fiducia appreso fornisce ulteriori miglioramenti delle prestazioni, riducendo i tassi di allucinazione di oggetti in MS COCO Captions del 30% rispetto al modello originale e stabilendo un nuovo stato dell'arte.
Presentiamo un controller umanoide basato sulla fisica che raggiunge un'elevata fedeltà nell'imitazione del movimento e un comportamento tollerante ai guasti in presenza di input rumorosi (ad esempio, stime di posa da video o generate da linguaggio) e cadute impreviste. Il nostro controller è in grado di scalare fino all'apprendimento di diecimila clip di movimento senza utilizzare forze stabilizzanti esterne e impara a riprendersi naturalmente da stati di fallimento. Dato un movimento di riferimento, il nostro controller può controllare in modo perpetuo avatar simulati senza richiedere reset. Alla base, proponiamo la politica di controllo moltiplicativa progressiva (PMCP), che assegna dinamicamente nuova capacità di rete per apprendere sequenze di movimento sempre più complesse. PMCP consente una scalabilità efficiente per l'apprendimento da database di movimento su larga scala e l'aggiunta di nuovi compiti, come il recupero da stati di fallimento, senza dimenticanza catastrofica. Dimostriamo l'efficacia del nostro controller utilizzandolo per imitare pose rumorose da stimatori di posa basati su video e generatori di movimento basati su linguaggio in un caso d'uso live e in tempo reale di avatar multi-persona.
I grandi modelli linguistici (LLM) dimostrano una notevole capacità multilingue, ma le loro prestazioni variano sostanzialmente tra le diverse lingue. In questo lavoro, introduciamo un metodo semplice ma efficace, chiamato cross-lingual-thought prompting (XLT), per migliorare sistematicamente la capacità multilingue degli LLM. Nello specifico, XLT è un prompt generico che stimola le capacità di ragionamento cross-linguale e logico per migliorare le prestazioni dei compiti in diverse lingue. Abbiamo condotto valutazioni complete su 7 benchmark tipici relativi a compiti di ragionamento, comprensione e generazione, coprendo sia lingue ad alta risorsa che a bassa risorsa. I risultati sperimentali mostrano che XLT non solo migliora notevolmente le prestazioni di vari compiti multilingue, ma riduce anche significativamente il divario tra la prestazione media e la migliore prestazione di ciascun compito in lingue diverse. In particolare, XLT apporta un miglioramento medio di oltre 10 punti nei compiti di ragionamento aritmetico e di risposta a domande a dominio aperto.
L'apprendimento continuo (Lifelong Learning, LL) è un'abilità cruciale per i modelli di NLP per apprendere nuovi compiti in modo continuativo. Gli approcci basati sull'architettura si sono dimostrati implementazioni efficaci per i modelli di LL. Tuttavia, estendere i precedenti approcci a scenari di LL incrementale per dominio non è banale, poiché richiedono l'accesso alle identità dei compiti durante la fase di test o non sono in grado di gestire campioni provenienti da compiti non visti. In questo articolo, proponiamo Diana: un modello di apprendimento continuo basato su un'architettura dinamica che cerca di apprendere una sequenza di compiti utilizzando un modello linguistico potenziato da prompt. In Diana vengono utilizzati quattro tipi di prompt organizzati gerarchicamente per catturare conoscenze a diverse granularità. Nello specifico, dedichiamo prompt a livello di compito per catturare conoscenze specifiche del compito, al fine di mantenere alte prestazioni di LL, e manteniamo prompt a livello di istanza per apprendere conoscenze condivise tra i campioni di input, migliorando così le prestazioni di generalizzazione del modello. Inoltre, dedichiamo prompt separati per modellare esplicitamente compiti non visti e introduciamo un insieme di vettori chiave per facilitare la condivisione di conoscenze tra i compiti. Esperimenti estensivi dimostrano che Diana supera i modelli di LL all'avanguardia, specialmente nella gestione di compiti non visti. Rilasciamo il codice e i dati all'indirizzo https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità eccezionali nel generalizzare nuovi compiti in modalità zero-shot o few-shot. Tuttavia, la misura in cui gli LLM possono comprendere le preferenze degli utenti in base al loro comportamento precedente rimane una questione di ricerca emergente e ancora poco chiara. Tradizionalmente, il filtraggio collaborativo (CF) è stato il metodo più efficace per questi compiti, basandosi principalmente sul volume esteso di dati di valutazione. Al contrario, gli LLM richiedono generalmente una quantità di dati considerevolmente inferiore, pur mantenendo una conoscenza approfondita del mondo su ciascun elemento, come film o prodotti. In questo articolo, conduciamo un esame approfondito sia del CF che degli LLM all'interno del classico compito di previsione delle valutazioni degli utenti, che consiste nel prevedere la valutazione di un utente per un elemento candidato in base alle sue valutazioni passate. Investigiamo vari LLM di dimensioni diverse, che vanno da 250 milioni a 540 miliardi di parametri, e valutiamo le loro prestazioni in scenari zero-shot, few-shot e di fine-tuning. Eseguiamo un'analisi completa per confrontare gli LLM con metodi CF robusti e scopriamo che gli LLM in modalità zero-shot rimangono indietro rispetto ai modelli di raccomandazione tradizionali che hanno accesso ai dati di interazione degli utenti, evidenziando l'importanza dei dati di interazione degli utenti. Tuttavia, attraverso il fine-tuning, gli LLM raggiungono prestazioni comparabili o addirittura migliori con solo una piccola frazione dei dati di addestramento, dimostrando il loro potenziale attraverso l'efficienza dei dati.
Gli embedding di testo sono caratteristiche utili per diverse applicazioni NLP, come la similarità di frasi, il clustering di testi e la ricerca semantica. In questo articolo, presentiamo un adattamento a basso rango con un obiettivo contrastivo su un modello Siamese-BLOOM a 8 bit, un modello linguistico multilingue di grandi dimensioni ottimizzato per produrre embedding di parole semanticamente significativi. L'innovazione è triplice. In primo luogo, convertiamo i pesi di BLOOM in valori a 8 bit. In secondo luogo, ottimizziamo BLOOM con un adattatore scalabile (LoRA) e un ottimizzatore Adam a 8 bit per la classificazione della similarità di frasi. In terzo luogo, applichiamo un'architettura Siamese al modello BLOOM con un obiettivo contrastivo per mitigare la scarsità di dati etichettati multilingue. I risultati degli esperimenti mostrano che la qualità degli embedding appresi da LACoS-BLOOM è proporzionale al numero di parametri del modello e alla quantità di dati di addestramento non etichettati. Grazie al design efficiente in termini di parametri per il fine-tuning, siamo in grado di eseguire BLOOM con 7,1 miliardi di parametri end-to-end su una singola macchina GPU con 32 GB di memoria. Rispetto alla soluzione precedente Sentence-BERT, otteniamo un miglioramento significativo sia nei task STS in inglese che in quelli multilingue.
I grandi modelli linguistici come ChatGPT hanno recentemente dimostrato capacità impressionanti nella comprensione e generazione del linguaggio naturale, abilitando varie applicazioni tra cui traduzione, scrittura di saggi e conversazioni informali. Tuttavia, esiste il timore che possano essere utilizzati in modo improprio per scopi malevoli, come frodi o attacchi di denial-of-service. Pertanto, è cruciale sviluppare metodi per rilevare se la parte coinvolta in una conversazione sia un bot o un essere umano. In questo articolo, proponiamo un framework denominato FLAIR, Finding Large language model Authenticity via a single Inquiry and Response, per rilevare i bot conversazionali in modo online. Nello specifico, ci concentriamo su uno scenario a singola domanda che possa differenziare efficacemente gli utenti umani dai bot. Le domande sono divise in due categorie: quelle facili per gli esseri umani ma difficili per i bot (ad esempio, conteggio, sostituzione, posizionamento, filtraggio del rumore e ASCII art), e quelle facili per i bot ma difficili per gli esseri umani (ad esempio, memorizzazione e calcolo). Il nostro approccio mostra diversi punti di forza di queste domande nella loro efficacia, fornendo un nuovo modo per i fornitori di servizi online di proteggersi da attività nefaste e garantire di servire utenti reali. Abbiamo reso disponibile il nostro dataset su https://github.com/hongwang600/FLAIR e accogliamo con favore i contributi della comunità per arricchire tali dataset di rilevamento.
Generare musica di alta qualità che si integri con il contenuto visivo di un video è un compito impegnativo. La maggior parte dei sistemi esistenti per la generazione di musica condizionata visivamente produce dati musicali simbolici, come file MIDI, anziché waveform audio grezzi. Data la limitata disponibilità di dati musicali simbolici, tali metodi possono generare musica solo per pochi strumenti o per specifici tipi di input visivo. In questo articolo, proponiamo un approccio innovativo chiamato V2Meow, in grado di generare audio musicale di alta qualità che si allinea bene con la semantica visiva di un'ampia gamma di tipi di input video. Nello specifico, il sistema di generazione musicale proposto è un modello autoregressivo a più stadi, addestrato con un numero di O(100K) clip audio musicali accoppiate a frame video, estratte da video musicali reali, senza l'uso di dati musicali simbolici paralleli. V2Meow è in grado di sintetizzare waveform audio musicali ad alta fedeltà condizionati esclusivamente da feature visive pre-addestrate estratte da un qualsiasi clip video silenzioso, e consente anche un controllo di alto livello sullo stile musicale degli esempi generati, supportando prompt testuali oltre al condizionamento sui frame video. Attraverso valutazioni sia qualitative che quantitative, dimostriamo che il nostro modello supera diversi sistemi esistenti di generazione musicale in termini di corrispondenza visivo-audio e qualità dell'audio.