Articoli di ricerca IA selezionati quotidianamente con traduzioni
Negli ultimi anni, i modelli di diffusione testo-immagine di grandi dimensioni hanno dimostrato una straordinaria capacità generativa, producendo immagini ad alta fedeltà. Tuttavia, generare immagini desiderate utilizzando solo prompt testuali è spesso complesso e richiede un'ingegneria dei prompt sofisticata. Un'alternativa al prompt testuale è il prompt visivo, come si suol dire: "un'immagine vale più di mille parole". Sebbene i metodi esistenti di fine-tuning diretto da modelli pre-addestrati siano efficaci, richiedono risorse computazionali significative e non sono compatibili con altri modelli di base, prompt testuali e controlli strutturali. In questo articolo, presentiamo IP-Adapter, un adattatore efficace e leggero per abilitare la capacità di prompt visivo nei modelli di diffusione testo-immagine pre-addestrati. Il design chiave del nostro IP-Adapter è un meccanismo di cross-attention disaccoppiato che separa i livelli di cross-attention per le caratteristiche testuali e quelle visive. Nonostante la semplicità del nostro metodo, un IP-Adapter con soli 22M di parametri può raggiungere prestazioni comparabili o addirittura superiori a un modello di prompt visivo completamente fine-tuned. Poiché congeliamo il modello di diffusione pre-addestrato, il nostro IP-Adapter può essere generalizzato non solo ad altri modelli personalizzati fine-tuned dallo stesso modello di base, ma anche alla generazione controllata utilizzando strumenti esistenti. Grazie alla strategia di cross-attention disaccoppiata, il prompt visivo può funzionare efficacemente insieme al prompt testuale per ottenere una generazione di immagini multimodale. La pagina del progetto è disponibile all'indirizzo https://ip-adapter.github.io.
Il fine-tuning di grandi modelli linguistici (LLM) su istruzioni porta a significativi miglioramenti delle prestazioni nei compiti di elaborazione del linguaggio naturale. Applichiamo l'instruction tuning utilizzando codice, sfruttando la struttura naturale dei commit Git, che abbinano modifiche al codice a istruzioni umane. Compiliamo CommitPack: 4 terabyte di commit Git in 350 linguaggi di programmazione. Confrontiamo CommitPack con altre istruzioni di codice naturali e sintetiche (xP3x, Self-Instruct, OASST) sul modello StarCoder da 16B parametri, e raggiungiamo prestazioni all'avanguardia tra i modelli non addestrati sugli output di OpenAI, sul benchmark HumanEval Python (46,2% pass@1). Introduciamo inoltre HumanEvalPack, espandendo il benchmark HumanEval a un totale di 3 compiti di codifica (Riparazione del Codice, Spiegazione del Codice, Sintesi del Codice) in 6 linguaggi (Python, JavaScript, Java, Go, C++, Rust). I nostri modelli, OctoCoder e OctoGeeX, raggiungono le migliori prestazioni su HumanEvalPack tra tutti i modelli permissivi, dimostrando i vantaggi di CommitPack nel generalizzare a un insieme più ampio di linguaggi e compiti di codifica naturali. Codice, modelli e dati sono liberamente disponibili all'indirizzo https://github.com/bigcode-project/octopack.
I recenti progressi nei modelli generativi di sintesi vocale basati su prompt audio-testo hanno permesso innovazioni straordinarie come la sintesi vocale zero-shot di alta qualità. Tuttavia, i modelli esistenti presentano ancora limitazioni nella gestione di diverse attività di generazione vocale audio-testo che coinvolgono la trasformazione del parlato in ingresso e l'elaborazione di audio catturato in condizioni acustiche avverse. Questo articolo introduce SpeechX, un modello versatile di generazione vocale in grado di eseguire sintesi vocale zero-shot e varie attività di trasformazione del parlato, gestendo sia segnali puliti che rumorosi. SpeechX combina la modellazione linguistica di codec neurali con l'apprendimento multi-task utilizzando prompt dipendenti dal compito, consentendo una modellazione unificata ed estensibile e fornendo un modo coerente per sfruttare l'input testuale nelle attività di miglioramento e trasformazione del parlato. I risultati sperimentali dimostrano l'efficacia di SpeechX in varie attività, tra cui sintesi vocale zero-shot, soppressione del rumore, estrazione del parlato target, rimozione del parlato e modifica del parlato con o senza rumore di fondo, raggiungendo prestazioni comparabili o superiori rispetto a modelli specializzati in diverse attività. Vedi https://aka.ms/speechx per campioni dimostrativi.
Presentiamo Platypus, una famiglia di Large Language Models (LLM) ottimizzati e fusi che raggiunge le migliori prestazioni e attualmente si colloca al primo posto nella Open LLM Leaderboard di HuggingFace alla data di rilascio di questo lavoro. In questo articolo descriviamo (1) il nostro dataset curato Open-Platypus, che è un sottoinsieme di altri dataset aperti e che rendiamo pubblico, (2) il nostro processo di ottimizzazione e fusione di moduli LoRA per preservare il forte precedente dei LLM pre-addestrati, portando alla luce conoscenze specifiche di dominio, (3) i nostri sforzi nel verificare perdite di dati di test e contaminazioni nei dati di addestramento, che possono informare future ricerche. In particolare, la famiglia Platypus raggiunge prestazioni eccellenti nelle metriche quantitative dei LLM su diverse dimensioni dei modelli, dominando la classifica globale Open LLM utilizzando solo una frazione dei dati di ottimizzazione e del calcolo complessivo richiesti per altri LLM ottimizzati all'avanguardia. Nello specifico, un modello Platypus da 13B può essere addestrato su una singola GPU A100 utilizzando 25k domande in 5 ore. Questo è una testimonianza della qualità del nostro dataset Open-Platypus e apre opportunità per ulteriori miglioramenti nel campo. Pagina del progetto: https://platypus-llm.github.io
Recenti evidenze empiriche indicano che l'apprendimento in-context basato su trasformatori ottiene risultati migliori quando si utilizza un modello linguistico con prefisso (prefixLM), in cui tutti i campioni in-context possono prestare attenzione reciproca, rispetto ai modelli linguistici causali (causalLM), che utilizzano un'attenzione auto-regressiva che impedisce ai campioni in-context di prestare attenzione ai campioni futuri. Sebbene questo risultato sia intuitivo, non è compreso da una prospettiva teorica. In questo articolo adottiamo un approccio teorico e analizziamo il comportamento di convergenza di prefixLM e causalLM sotto una specifica costruzione dei parametri. La nostra analisi mostra che entrambi i tipi di LM convergono ai loro punti stazionari con un tasso lineare, ma mentre prefixLM converge alla soluzione ottimale della regressione lineare, la dinamica di convergenza di causalLM segue quella di un algoritmo di discesa del gradiente online, che non è garantito essere ottimale anche quando il numero di campioni cresce infinitamente. Integriamo le nostre affermazioni teoriche con esperimenti empirici su compiti sintetici e reali, utilizzando vari tipi di trasformatori. I nostri esperimenti verificano che causalLM ottiene sistematicamente risultati inferiori rispetto a prefixLM in tutte le configurazioni.
Il ripristino cieco del volto mira a recuperare immagini facciali di alta qualità da quelle con degradazioni sconosciute. Gli algoritmi attuali introducono principalmente dei priori per integrare dettagli di alta qualità e ottenere progressi significativi. Tuttavia, la maggior parte di questi algoritmi ignora le abbondanti informazioni contestuali presenti nel volto e la loro interazione con i priori, portando a prestazioni sub-ottimali. Inoltre, prestano meno attenzione al divario tra scenari sintetici e reali, limitando la robustezza e la generalizzazione per applicazioni nel mondo reale. In questo lavoro, proponiamo RestoreFormer++, che da un lato introduce meccanismi di attenzione completamente spaziale per modellare le informazioni contestuali e la loro interazione con i priori, e dall'altro esplora un modello di degradazione esteso per aiutare a generare immagini facciali degradate più realistiche, alleviando il divario tra sintetico e reale. Rispetto agli algoritmi attuali, RestoreFormer++ presenta diversi vantaggi cruciali. Innanzitutto, invece di utilizzare un meccanismo di auto-attenzione multi-testina come il tradizionale visual transformer, introduciamo un'attenzione incrociata multi-testina su caratteristiche multi-scala per esplorare appieno le interazioni spaziali tra informazioni corrotte e priori di alta qualità. In questo modo, RestoreFormer++ può ripristinare immagini facciali con maggiore realismo e fedeltà. In secondo luogo, a differenza del dizionario orientato al riconoscimento, apprendiamo un dizionario orientato alla ricostruzione come priori, che contiene dettagli facciali di alta qualità più diversificati e si adatta meglio all'obiettivo di ripristino. Terzo, introduciamo un modello di degradazione esteso che include scenari degradati più realistici per la sintesi dei dati di addestramento, contribuendo così a migliorare la robustezza e la generalizzazione del nostro modello RestoreFormer++. Esperimenti estesi dimostrano che RestoreFormer++ supera gli algoritmi all'avanguardia sia su dataset sintetici che reali.
Con una solida comprensione del dominio target derivata dal linguaggio naturale, otteniamo risultati promettenti nella traduzione attraverso ampi divari di dominio e nel riportare scheletri alla vita. In questo lavoro, utilizziamo modelli di diffusione latente guidati da testo per la traduzione zero-shot da immagine a immagine (I2I) attraverso ampi divari di dominio (longI2I), dove è necessario generare grandi quantità di nuove caratteristiche visive e nuova geometria per entrare nel dominio target. La capacità di eseguire traduzioni attraverso ampi divari di dominio ha una vasta gamma di applicazioni nel mondo reale, tra cui criminologia, astrologia, conservazione ambientale e paleontologia. In questo lavoro, introduciamo un nuovo task chiamato Skull2Animal per la traduzione tra teschi e animali viventi. Su questo task, scopriamo che le Generative Adversarial Networks (GAN) non guidate non sono in grado di tradurre attraverso ampi divari di dominio. Invece di questi tradizionali metodi I2I, esploriamo l'uso di modelli di diffusione guidata e di editing delle immagini e forniamo un nuovo modello di riferimento, Revive-2I, capace di eseguire I2I zero-shot tramite modelli di diffusione latente guidati da prompt testuali. Scopriamo che la guida è necessaria per longI2I perché, per colmare il grande divario di dominio, è necessaria una conoscenza preliminare del dominio target. Inoltre, scopriamo che il prompting fornisce le informazioni migliori e più scalabili sul dominio target, poiché i modelli di diffusione guidati da classificatore richiedono un riaddestramento per casi d'uso specifici e mancano di vincoli più forti sul dominio target a causa della vasta gamma di immagini su cui sono addestrati.
Presentiamo VisIT-Bench (Visual InsTruction Benchmark), un benchmark per la valutazione di modelli visione-linguaggio sintonizzati su istruzioni, destinati a un uso nel mondo reale. Il nostro punto di partenza è la creazione di 70 "famiglie di istruzioni" che riteniamo i modelli visione-linguaggio sintonizzati su istruzioni dovrebbero essere in grado di affrontare. Andando oltre valutazioni come VQAv2 e COCO, i compiti spaziano dal riconoscimento di base al gioco e alla generazione creativa. Dopo la selezione, il nostro dataset comprende 592 query di test, ciascuna con una descrizione condizionata all'istruzione scritta da un essere umano. Queste descrizioni evidenziano fattori specifici dell'istruzione; ad esempio, per un'istruzione che chiede l'accessibilità di un negozio per utenti in sedia a rotelle, la descrizione condizionata all'istruzione descrive rampe/potenziali ostacoli. Queste descrizioni consentono 1) la raccolta di output di riferimento verificati da esseri umani per ogni istanza; e 2) la valutazione automatica di generazioni multimodali candidate utilizzando un LLM basato solo su testo, allineandosi al giudizio umano. Quantifichiamo i gap di qualità tra i modelli e i riferimenti utilizzando sia valutazioni umane che automatiche; ad esempio, il modello che segue le istruzioni con le migliori prestazioni vince contro il riferimento GPT-4 solo nel 27% dei confronti. VisIT-Bench è dinamico e aperto alla partecipazione: i professionisti possono semplicemente inviare la risposta del loro modello sul sito web del progetto; dati, codice e classifica sono disponibili su visit-bench.github.io.
La valutazione automatica della traduzione automatica (MT) è uno strumento cruciale che guida lo sviluppo iterativo rapido dei sistemi di MT. Sebbene siano stati compiuti notevoli progressi nella stima di un singolo punteggio scalare di qualità, le metriche attuali mancano dell'informatività di schemi più dettagliati che annotano errori individuali, come le Metriche di Qualità Multidimensionali (MQM). In questo articolo, contribuiamo a colmare questa lacuna proponendo AutoMQM, una tecnica di prompting che sfrutta le capacità di ragionamento e apprendimento in contesto dei modelli linguistici di grandi dimensioni (LLM) e chiede loro di identificare e categorizzare gli errori nelle traduzioni. Iniziamo valutando i recenti LLM, come PaLM e PaLM-2, attraverso un semplice prompting per la previsione dei punteggi, e studiamo l'impatto dei dati etichettati attraverso l'apprendimento in contesto e il fine-tuning. Successivamente, valutiamo AutoMQM con i modelli PaLM-2 e scopriamo che migliora le prestazioni rispetto al semplice prompting per i punteggi (con guadagni particolarmente significativi per i modelli più grandi) fornendo al contempo interpretabilità attraverso segmenti di errore che si allineano con le annotazioni umane.