Articoli di ricerca IA selezionati quotidianamente con traduzioni
Con l'aumento delle dimensioni dei modelli pre-addestrati per il riconoscimento vocale, l'esecuzione di questi grandi modelli in ambienti con bassa latenza o risorse limitate diventa impegnativa. In questo lavoro, sfruttiamo il pseudo-labelling per assemblare un dataset open-source su larga scala, che utilizziamo per distillare il modello Whisper in una variante più piccola, chiamata Distil-Whisper. Utilizzando una semplice euristica basata sul tasso di errore sulle parole (WER), selezioniamo solo le pseudo-etichette di qualità più elevata per l'addestramento. Il modello distillato è 5,8 volte più veloce con il 51% in meno di parametri, pur mantenendo una performance entro l'1% di WER su dati di test fuori distribuzione in un contesto di trasferimento zero-shot. Distil-Whisper conserva la robustezza del modello Whisper rispetto a condizioni acustiche difficili, risultando meno incline a errori di allucinazione su audio di lunga durata. Distil-Whisper è progettato per essere accoppiato con Whisper per il decoding speculativo, ottenendo un incremento di velocità di 2 volte garantendo matematicamente gli stessi output del modello originale. Per favorire ulteriori ricerche in questo ambito, rendiamo pubblicamente accessibili il codice di addestramento, il codice di inferenza e i modelli.
LLaVA-Interactive è un prototipo di ricerca per l'interazione multimodale uomo-IA. Il sistema è in grado di condurre dialoghi a più turni con utenti umani, accettando input multimodali e generando risposte multimodali. In modo significativo, LLaVA-Interactive va oltre il prompt linguistico, abilitando il prompt visivo per allineare le intenzioni umane durante l'interazione. Lo sviluppo di LLaVA-Interactive è estremamente efficiente in termini di costi, poiché il sistema combina tre competenze multimodali di modelli IA preesistenti senza ulteriori addestramenti: il chat visivo di LLaVA, la segmentazione delle immagini di SEEM, nonché la generazione e modifica di immagini di GLIGEN. Viene presentato un insieme diversificato di scenari applicativi per dimostrare le potenzialità di LLaVA-Interactive e per ispirare future ricerche sui sistemi interattivi multimodali.
Dimostriamo come la generazione condizionale da modelli di diffusione possa essere utilizzata per affrontare una varietà di compiti realistici nella produzione di musica in audio stereo a 44.1kHz con guida al momento del campionamento. Gli scenari che consideriamo includono la continuazione, l'inpainting e la rigenerazione di audio musicale, la creazione di transizioni fluide tra due brani musicali diversi e il trasferimento di caratteristiche stilistiche desiderate a clip audio esistenti. Raggiungiamo questo obiettivo applicando la guida al momento del campionamento in un semplice framework che supporta sia perdite di ricostruzione che di classificazione, o qualsiasi combinazione delle due. Questo approccio garantisce che l'audio generato possa corrispondere al contesto circostante o conformarsi a una distribuzione di classe o rappresentazione latente specificata rispetto a qualsiasi classificatore pre-addestrato o modello di embedding adatto.
Dimostriamo che il testo rappresenta un'interfaccia cross-modale robusta. Invece di affidarsi a embedding profondi per connettere immagini e linguaggio come rappresentazione dell'interfaccia, il nostro approccio rappresenta un'immagine come testo, da cui traiamo l'interpretabilità e la flessibilità intrinseche del linguaggio naturale. Utilizziamo un autoencoder che impiega un modello di diffusione testo-immagine pre-addestrato per la decodifica. L'encoder viene addestrato a trasformare un'immagine in ingresso in testo, che viene poi inserito nel decoder di diffusione testo-immagine fisso per ricostruire l'input originale — un processo che definiamo De-Diffusion. Gli esperimenti validano sia la precisione che la completezza del testo generato da De-Diffusion nel rappresentare immagini, rendendolo immediatamente utilizzabile da strumenti testo-immagine pronti all'uso e da LLM per una varietà di task multimodali. Ad esempio, un singolo modello De-Diffusion può generalizzare per fornire prompt trasferibili a diversi strumenti testo-immagine e raggiunge inoltre un nuovo stato dell'arte su task visione-linguaggio aperti, semplicemente fornendo esempi few-shot a grandi modelli linguistici.
La recente ondata di intelligenza artificiale generativa ha suscitato un'attenzione globale senza precedenti, con entusiasmo e preoccupazione per potenziali livelli sovrumani di intelligenza artificiale: i modelli ora impiegano solo pochi secondi per produrre risultati che sfiderebbero o supererebbero le capacità persino di esperti umani. Allo stesso tempo, i modelli mostrano ancora errori di base nella comprensione che non ci si aspetterebbe nemmeno da esseri umani non esperti. Questo ci presenta un apparente paradosso: come conciliare capacità apparentemente sovrumane con la persistenza di errori che pochi esseri umani commetterebbero? In questo lavoro, ipotizziamo che questa tensione rifletta una divergenza nella configurazione dell'intelligenza nei modelli generativi odierni rispetto all'intelligenza umana. Nello specifico, proponiamo e testiamo l'ipotesi del Paradosso dell'IA Generativa: i modelli generativi, essendo stati addestrati direttamente a riprodurre output simili a quelli di esperti, acquisiscono capacità generative che non dipendono – e possono quindi superare – la loro capacità di comprendere quegli stessi tipi di output. Questo contrasta con gli esseri umani, per i quali una comprensione di base quasi sempre precede la capacità di generare output di livello esperto. Testiamo questa ipotesi attraverso esperimenti controllati che analizzano la generazione rispetto alla comprensione nei modelli generativi, sia nel linguaggio che nelle immagini. I nostri risultati mostrano che, sebbene i modelli possano superare gli esseri umani nella generazione, sono costantemente inferiori alle capacità umane nelle misure di comprensione, oltre a una correlazione più debole tra le prestazioni di generazione e comprensione, e una maggiore fragilità agli input avversari. Le nostre scoperte supportano l'ipotesi che la capacità generativa dei modelli potrebbe non dipendere dalla capacità di comprensione, e invitano alla cautela nell'interpretare l'intelligenza artificiale per analogia con l'intelligenza umana.
I grandi modelli linguistici hanno dimostrato buone prestazioni nella generazione di codice per soddisfare i requisiti umani. Tuttavia, i requisiti umani espressi in linguaggio naturale possono essere vaghi, incompleti e ambigui, portando i grandi modelli linguistici a fraintendere i requisiti umani e a commettere errori. Peggio ancora, è difficile per un utente umano affinare il requisito. Per aiutare gli utenti umani a perfezionare i loro requisiti e migliorare le prestazioni di generazione del codice dei grandi modelli linguistici, proponiamo ChatCoder: un metodo per affinare i requisiti attraverso il dialogo con i grandi modelli linguistici. Progettiamo uno schema di chat in cui i grandi modelli linguistici guideranno gli utenti umani a perfezionare l'espressione dei loro requisiti, rendendola più precisa, non ambigua e completa rispetto a prima. Gli esperimenti dimostrano che ChatCoder ha migliorato in modo significativo le prestazioni dei grandi modelli linguistici esistenti. Inoltre, ChatCoder presenta vantaggi rispetto ai metodi basati sull'affinamento e ai grandi modelli linguistici ottimizzati tramite risposte umane.
I modelli linguistici basati su pixel elaborano il testo renderizzato come immagini, il che consente loro di gestire qualsiasi scrittura, rendendoli un approccio promettente per la modellazione linguistica a vocabolario aperto. Tuttavia, gli approcci recenti utilizzano renderizzatori di testo che producono un ampio insieme di patch di input quasi equivalenti, il che può rivelarsi subottimale per i task downstream a causa della ridondanza nelle rappresentazioni di input. In questo articolo, esploriamo quattro approcci per il rendering del testo nel modello PIXEL (Rust et al., 2023) e scopriamo che un semplice rendering basato su bigrammi di caratteri migliora le prestazioni sui task a livello di frase senza compromettere le prestazioni sui task a livello di token o multilingue. Questa nuova strategia di rendering rende inoltre possibile addestrare un modello più compatto con soli 22 milioni di parametri che performa in modo equivalente al modello originale da 86 milioni di parametri. Le nostre analisi mostrano che il rendering basato su bigrammi di caratteri porta a un modello costantemente migliore, ma con uno spazio di embedding delle patch anisotropo, guidato da un bias nella frequenza delle patch, evidenziando le connessioni tra i modelli linguistici basati su patch di immagini e quelli basati su tokenizzazione.
I modelli visione-linguaggio (VLMs) vengono addestrati su grandi quantità di dati raccolti dagli esseri umani, imitando la nostra comprensione del mondo. Tuttavia, come noto con il termine "illusioni visive", la percezione umana della realtà non è sempre fedele al mondo fisico. Ciò solleva una domanda cruciale: i VLMs sperimentano lo stesso tipo di illusioni degli esseri umani, oppure apprendono in modo fedele a rappresentare la realtà? Per indagare questa questione, abbiamo costruito un dataset contenente cinque tipi di illusioni visive e formulato quattro task per esaminare le illusioni visive nei VLMs più avanzati. I nostri risultati hanno dimostrato che, sebbene l'allineamento complessivo sia basso, i modelli più grandi si avvicinano di più alla percezione umana e sono più suscettibili alle illusioni visive. Il nostro dataset e le scoperte iniziali promuoveranno una migliore comprensione delle illusioni visive negli esseri umani e nelle macchine, fornendo una base per futuri modelli computazionali che possano allineare meglio umani e macchine nel percepire e comunicare riguardo al mondo visivo condiviso. Il codice e i dati sono disponibili all'indirizzo https://github.com/vl-illusion/dataset.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni impressionanti in vari task downstream. Durante l'addestramento di questi modelli, si sta osservando una crescente tendenza a elaborare più token su scale di addestramento più ampie, ma con dimensioni del modello relativamente più ridotte. L'ottimizzatore Zero Redundancy (ZeRO), sebbene efficace negli ambienti di addestramento convenzionali, incontra difficoltà di scalabilità quando si confronta con questo paradigma emergente. A tal fine, proponiamo un nuovo framework di addestramento per LLM chiamato AMSP, che adotta una partizione granulare degli stati del modello, comprendendo parametri (P), gradienti (G) e stati dell'ottimizzatore (OS). Nello specifico, AMSP (1) costruisce uno spazio di partizione unificato, consentendo strategie di partizione indipendenti per P, G e OS; (2) incorpora un partizionatore consapevole della scala per cercare autonomamente le strategie di partizione ottimali; (3) progetta un ottimizzatore di comunicazione dedicato per garantire una gestione efficace delle discrepanze di posizionamento dei dati derivanti da diverse strategie di partizione. Le nostre valutazioni mostrano che AMSP raggiunge un'efficienza di scalabilità fino al 90,3% su 1024 GPU.