Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici (LLM), esemplificati da ChatGPT, hanno attirato notevole attenzione per le loro eccellenti capacità di elaborazione del linguaggio naturale. Tuttavia, questi LLM presentano molteplici sfide, in particolare nel campo dell'affidabilità. Pertanto, garantire l'affidabilità degli LLM emerge come un tema di grande importanza. Questo articolo introduce TrustLLM, uno studio completo sull'affidabilità negli LLM, che include principi per diverse dimensioni dell'affidabilità, un benchmark consolidato, la valutazione e l'analisi dell'affidabilità per i principali LLM, e una discussione sulle sfide aperte e le direzioni future. Nello specifico, proponiamo innanzitutto un insieme di principi per LLM affidabili che coprono otto diverse dimensioni. Sulla base di questi principi, stabiliamo ulteriormente un benchmark che abbraccia sei dimensioni, tra cui veridicità, sicurezza, equità, robustezza, privacy ed etica delle macchine. Presentiamo poi uno studio che valuta 16 principali LLM in TrustLLM, utilizzando oltre 30 dataset. I nostri risultati mostrano innanzitutto che, in generale, l'affidabilità e l'utilità (ovvero l'efficacia funzionale) sono positivamente correlate. In secondo luogo, le nostre osservazioni rivelano che gli LLM proprietari generalmente superano la maggior parte delle controparti open-source in termini di affidabilità, sollevando preoccupazioni sui potenziali rischi degli LLM open-source ampiamente accessibili. Tuttavia, alcuni LLM open-source si avvicinano molto a quelli proprietari. In terzo luogo, è importante notare che alcuni LLM potrebbero essere eccessivamente calibrati per mostrare affidabilità, al punto da compromettere la loro utilità trattando erroneamente prompt benigni come dannosi e, di conseguenza, non rispondendo. Infine, sottolineiamo l'importanza di garantire la trasparenza non solo nei modelli stessi, ma anche nelle tecnologie che sostengono l'affidabilità. Conoscere le specifiche tecnologie affidabili impiegate è cruciale per analizzarne l'efficacia.
Questo rapporto tecnico introduce PIXART-{\delta}, un framework di sintesi da testo a immagine che integra il Latent Consistency Model (LCM) e ControlNet nel modello avanzato PIXART-{\alpha}. PIXART-{\alpha} è riconosciuto per la sua capacità di generare immagini di alta qualità con risoluzione di 1024px attraverso un processo di addestramento notevolmente efficiente. L'integrazione di LCM in PIXART-{\delta} accelera significativamente la velocità di inferenza, consentendo la produzione di immagini di alta qualità in soli 2-4 passi. In particolare, PIXART-{\delta} raggiunge un traguardo di 0,5 secondi per generare immagini di 1024x1024 pixel, segnando un miglioramento di 7 volte rispetto a PIXART-{\alpha}. Inoltre, PIXART-{\delta} è progettato per essere addestrabile in modo efficiente su GPU V100 da 32GB in un solo giorno. Con la sua capacità di inferenza a 8 bit (von Platen et al., 2023), PIXART-{\delta} può sintetizzare immagini di 1024px entro i limiti di memoria GPU di 8GB, migliorando notevolmente la sua usabilità e accessibilità. Inoltre, l'incorporazione di un modulo simile a ControlNet consente un controllo fine sui modelli di diffusione da testo a immagine. Introduciamo una nuova architettura ControlNet-Transformer, specificamente progettata per i Transformer, che raggiunge una controllabilità esplicita insieme a una generazione di immagini di alta qualità. Come modello open-source all'avanguardia per la generazione di immagini, PIXART-{\delta} offre una valida alternativa alla famiglia di modelli Stable Diffusion, contribuendo in modo significativo alla sintesi da testo a immagine.
I Transformer sono considerati concettualmente diversi rispetto alla precedente generazione di modelli NLP all'avanguardia - le reti neurali ricorrenti (RNN). In questo lavoro, dimostriamo che i Transformer con solo decoder possono in realtà essere concettualizzati come RNN multi-stato infinite - una variante di RNN con dimensione illimitata dello stato nascosto. Mostriamo inoltre che i Transformer pre-addestrati possono essere convertiti in RNN multi-stato finite fissando la dimensione del loro stato nascosto. Osserviamo che diverse tecniche esistenti di compressione della cache dei Transformer possono essere inquadrate come tali politiche di conversione, e introduciamo una nuova politica, TOVA, che è più semplice rispetto a queste politiche. I nostri esperimenti con diversi task a lungo raggio indicano che TOVA supera tutte le altre politiche di riferimento, pur essendo quasi alla pari con il modello completo (infinito), e utilizzando in alcuni casi solo 1/8 della dimensione originale della cache. I nostri risultati indicano che i modelli linguistici con decoder Transformer spesso si comportano nella pratica come RNN. Essi delineano inoltre la possibilità di mitigare uno dei loro più dolorosi colli di bottiglia computazionali - la dimensione della loro memoria cache. Rilasciamo pubblicamente il nostro codice all'indirizzo https://github.com/schwartz-lab-NLP/TOVA.
Gli esseri umani sono capaci di comportamenti strategicamente ingannevoli: agiscono in modo utile nella maggior parte delle situazioni, ma poi si comportano in modo molto diverso per perseguire obiettivi alternativi quando ne hanno l'opportunità. Se un sistema di IA apprendesse una simile strategia ingannevole, saremmo in grado di rilevarla e rimuoverla utilizzando le attuali tecniche all'avanguardia per l'addestramento sicuro? Per studiare questa questione, costruiamo esempi dimostrativi di comportamento ingannevole nei grandi modelli linguistici (LLM). Ad esempio, addestriamo modelli che scrivono codice sicuro quando il prompt indica che l'anno è il 2023, ma inseriscono codice sfruttabile quando l'anno indicato è il 2024. Scopriamo che tale comportamento "backdoored" può essere reso persistente, in modo che non venga rimosso dalle tecniche standard di addestramento sicuro, tra cui il fine-tuning supervisionato, l'apprendimento per rinforzo e l'addestramento avversario (stimolando comportamenti non sicuri e poi addestrando per rimuoverli). Il comportamento backdoored è più persistente nei modelli più grandi e nei modelli addestrati a produrre ragionamenti a catena (chain-of-thought) sull'ingannare il processo di addestramento, con la persistenza che rimane anche quando il ragionamento a catena viene distillato. Inoltre, piuttosto che rimuovere i backdoor, scopriamo che l'addestramento avversario può insegnare ai modelli a riconoscere meglio i loro trigger di backdoor, nascondendo efficacemente il comportamento non sicuro. I nostri risultati suggeriscono che, una volta che un modello manifesta un comportamento ingannevole, le tecniche standard potrebbero fallire nel rimuovere tale inganno e creare una falsa impressione di sicurezza.
Presentiamo InseRF, un metodo innovativo per l'inserimento generativo di oggetti nelle ricostruzioni NeRF di scene 3D. Basandosi su una descrizione testuale fornita dall'utente e su un riquadro di delimitazione 2D in un punto di vista di riferimento, InseRF genera nuovi oggetti nelle scene 3D. Recentemente, i metodi per la modifica di scene 3D sono stati profondamente trasformati grazie all'uso di forti prior dei modelli di diffusione testo-immagine nella modellazione generativa 3D. I metodi esistenti sono principalmente efficaci nella modifica di scene 3D attraverso cambiamenti di stile e aspetto o nella rimozione di oggetti esistenti. La generazione di nuovi oggetti, tuttavia, rimane una sfida per tali metodi, che affrontiamo in questo studio. Nello specifico, proponiamo di ancorare l'inserimento 3D di oggetti a un inserimento 2D in una vista di riferimento della scena. La modifica 2D viene poi estesa al 3D utilizzando un metodo di ricostruzione di oggetti a vista singola. L'oggetto ricostruito viene quindi inserito nella scena, guidato dai prior dei metodi di stima della profondità monoculare. Valutiamo il nostro metodo su varie scene 3D e forniamo un'analisi approfondita dei componenti proposti. I nostri esperimenti con l'inserimento generativo di oggetti in diverse scene 3D indicano l'efficacia del nostro metodo rispetto a quelli esistenti. InseRF è in grado di eseguire un inserimento di oggetti controllabile e coerente in 3D senza richiedere informazioni 3D esplicite come input. Visita la nostra pagina del progetto all'indirizzo https://mohamad-shahbazi.github.io/inserf.
I modelli fotorealistici esistenti per mani rilucenti richiedono osservazioni specifiche per identità in diverse visualizzazioni, pose e illuminazioni, e affrontano sfide nel generalizzare a illuminazioni naturali e nuove identità. Per colmare questa lacuna, presentiamo URHand, il primo modello universale per mani rilucenti che generalizza attraverso punti di vista, pose, illuminazioni e identità. Il nostro modello consente una personalizzazione con pochi scatti utilizzando immagini catturate con un telefono cellulare, ed è pronto per essere renderizzato fotorealisticamente sotto nuove illuminazioni. Per semplificare il processo di personalizzazione mantenendo il fotorealismo, costruiamo un potente precedente universale rilucente basato sul rilucimento neurale da immagini multi-vista di mani catturate in uno stadio luminoso con centinaia di identità. La sfida principale è scalare l'addestramento cross-identità mantenendo la fedeltà personalizzata e i dettagli nitidi senza compromettere la generalizzazione sotto illuminazioni naturali. A tal fine, proponiamo un modello di illuminazione lineare spazialmente variabile come renderer neurale che prende come caratteristica di input l'ombreggiatura ispirata alla fisica. Rimuovendo le attivazioni non lineari e il bias, il nostro modello di illuminazione specificamente progettato mantiene esplicitamente la linearità del trasporto della luce. Ciò consente un addestramento in una singola fase da dati di stadio luminoso mentre generalizza al rendering in tempo reale sotto illuminazioni continue arbitrarie attraverso diverse identità. Inoltre, introduciamo l'apprendimento congiunto di un modello fisicamente basato e del nostro modello di rilucimento neurale, che migliora ulteriormente la fedeltà e la generalizzazione. Esperimenti estensivi mostrano che il nostro approccio raggiunge prestazioni superiori rispetto ai metodi esistenti in termini di qualità e generalizzabilità. Dimostriamo anche una rapida personalizzazione di URHand da una breve scansione telefonica di un'identità non vista.
La Catena di Pensiero (Chain of Thought, CoT) è significativa nel migliorare le capacità di ragionamento dei grandi modelli linguistici (Large Language Models, LLMs). Tuttavia, la correlazione tra l'efficacia della CoT e la lunghezza dei passaggi di ragionamento nei prompt rimane in gran parte sconosciuta. Per fare luce su questo, abbiamo condotto diversi esperimenti empirici per esplorare tali relazioni. Nello specifico, abbiamo progettato esperimenti che espandono e comprimono i passaggi di ragionamento razionale all'interno delle dimostrazioni di CoT, mantenendo costanti tutti gli altri fattori. Abbiamo ottenuto i seguenti risultati chiave. Innanzitutto, i risultati indicano che allungare i passaggi di ragionamento nei prompt, anche senza aggiungere nuove informazioni, migliora considerevolmente le capacità di ragionamento degli LLMs su più dataset. Al contrario, abbreviare i passaggi di ragionamento, pur preservando le informazioni chiave, riduce significativamente le capacità di ragionamento dei modelli. Questa scoperta evidenzia l'importanza del numero di passaggi nei prompt di CoT e fornisce una guida pratica per sfruttare al meglio il potenziale degli LLMs in scenari di problem-solving complessi. In secondo luogo, abbiamo anche indagato la relazione tra le prestazioni della CoT e le argomentazioni utilizzate nelle dimostrazioni. Sorprendentemente, il risultato mostra che anche argomentazioni errate possono produrre esiti favorevoli se mantengono la lunghezza necessaria di inferenza. Terzo, abbiamo osservato che i vantaggi di aumentare i passaggi di ragionamento dipendono dal compito: i compiti più semplici richiedono meno passaggi, mentre i compiti complessi traggono un significativo beneficio da sequenze di inferenza più lunghe.
I modelli linguistici di grandi dimensioni (LLM) sono potenti agenti di dialogo, ma specializzarli per svolgere una funzione specifica può essere complesso. La regolazione tramite istruzioni, ovvero l'addestramento dei modelli su istruzioni e risposte campione generate da esseri umani (Ouyang et al., 2022), si è dimostrata un metodo efficace per raggiungere questo obiettivo, ma richiede un numero di campioni di dati che a) potrebbero non essere disponibili o b) sono costosi da generare. Inoltre, questo costo aumenta quando l'obiettivo è far seguire all'LLM un flusso di lavoro specifico all'interno di un dialogo, anziché singole istruzioni. Ispirati dalla tecnica del self-play nell'apprendimento per rinforzo e dall'uso degli LLM per simulare agenti umani, proponiamo un metodo più efficace per la raccolta di dati attraverso LLM che interagiscono in conversazioni assumendo vari ruoli. Questo approccio genera dati di addestramento tramite il "dialogo interno" degli LLM, che possono essere raffinati e utilizzati per la regolazione supervisionata. Introduciamo un modo automatizzato per misurare il (parziale) successo di un dialogo. Questa metrica viene utilizzata per filtrare i dati conversazionali generati, che vengono poi reinseriti nell'LLM per l'addestramento. Sulla base delle nostre valutazioni automatizzate e umane della qualità delle conversazioni, dimostriamo che tali dati di dialogo interno migliorano i risultati. Inoltre, esaminiamo le varie caratteristiche che evidenziano la qualità dei dialoghi generati e come queste possano essere collegate alla loro potenziale utilità come dati di addestramento.
Il recente progresso nei modelli visione-linguaggio è largamente attribuito all'abbondanza di dati immagine-testo. Il nostro obiettivo è replicare questo successo per i modelli video-linguaggio, ma semplicemente non ci sono abbastanza dati video-testo curati dall'uomo disponibili. Abbiamo quindi optato per il fine-tuning di un modello video-linguaggio partendo da una solida baseline immagine-linguaggio con dati sintetici di tipo istruzionale. Il modello video-linguaggio risultante viene poi utilizzato per etichettare automaticamente milioni di video e generare didascalie di alta qualità. Dimostriamo che il modello video-linguaggio adattato performa bene su un'ampia gamma di benchmark video-linguaggio. Ad esempio, supera il miglior risultato precedente su NExT-QA a risposta aperta del 2,8%. Inoltre, il nostro modello genera descrizioni dettagliate per video mai visti prima, fornendo una supervisione testuale migliore rispetto ai metodi esistenti. Gli esperimenti mostrano che un modello dual-encoder video-linguaggio addestrato in modo contrastivo su queste didascalie auto-generate è del 3,8% migliore rispetto alla baseline più forte che sfrutta anch'essa modelli visione-linguaggio. Il nostro modello migliore supera i metodi state-of-the-art su MSR-VTT nel recupero testo-video zero-shot del 6%.
Lo Score Distillation Sampling (SDS) è un metodo recente ma già ampiamente popolare che si basa su un modello di diffusione di immagini per controllare problemi di ottimizzazione utilizzando prompt testuali. In questo articolo, conduciamo un'analisi approfondita della funzione di perdita SDS, identifichiamo un problema intrinseco nella sua formulazione e proponiamo una soluzione sorprendentemente semplice ma efficace. Nello specifico, scomponiamo la perdita in diversi fattori e isoliamo il componente responsabile dei gradienti rumorosi. Nella formulazione originale, viene utilizzata un'elevata guida testuale per compensare il rumore, portando a effetti collaterali indesiderati. Invece, addestriamo una rete superficiale che imita la carenza di denoising dipendente dal timestep del modello di diffusione di immagini per fattorizzarla efficacemente. Dimostriamo la versatilità e l'efficacia della nostra nuova formulazione della perdita attraverso diversi esperimenti qualitativi e quantitativi, tra cui la sintesi e la modifica di immagini basate sull'ottimizzazione, l'addestramento di reti di traduzione di immagini zero-shot e la sintesi da testo a 3D.
La ricchezza di contenuti su Internet, con fino al 60% pubblicato in inglese, contrasta nettamente con la popolazione globale, dove solo il 18,8% parla inglese e appena il 5,1% lo considera la propria lingua madre, portando a disparità nell'accesso alle informazioni online. Sfortunatamente, i processi automatizzati per il doppiaggio video - sostituendo la traccia audio di un video con una alternativa tradotta - rimangono un compito complesso e impegnativo a causa delle pipeline, che richiedono una tempistica precisa, la sincronizzazione dei movimenti facciali e la corrispondenza della prosodia. Sebbene il doppiaggio end-to-end offra una soluzione, la scarsità di dati continua a ostacolare il progresso sia dei metodi end-to-end che di quelli basati su pipeline. In questo lavoro, presentiamo Anim-400K, un dataset completo di oltre 425K segmenti video animati allineati in giapponese e inglese che supporta varie attività legate ai video, tra cui il doppiaggio automatizzato, la traduzione simultanea, la sintesi video guidata e la classificazione per genere/tema/stile. Il nostro dataset è reso pubblicamente disponibile per scopi di ricerca all'indirizzo https://github.com/davidmchan/Anim400K.
I modelli linguistici di grandi dimensioni (LLM) basati su Transformer sono stati ampiamente utilizzati in molti campi, e l'efficienza dell'inferenza degli LLM è diventata un argomento di grande interesse nelle applicazioni reali. Tuttavia, gli LLM sono solitamente progettati in modo complesso nella struttura del modello, con un numero massiccio di operazioni, e eseguono l'inferenza in modalità auto-regressiva, rendendo impegnativo progettare un sistema ad alta efficienza. In questo articolo, proponiamo una soluzione efficiente per l'inferenza degli LLM con bassa latenza e alto throughput. In primo luogo, semplifichiamo il livello di decodifica degli LLM fondendo il movimento dei dati e le operazioni elementari per ridurre la frequenza di accesso alla memoria e abbassare la latenza del sistema. Proponiamo inoltre una politica di cache KV segmentata per mantenere le chiavi/valori dei token di richiesta e risposta in memoria fisica separata, consentendo una gestione efficace della memoria del dispositivo, aiutando ad aumentare la dimensione del batch in esecuzione e migliorare il throughput del sistema. Un kernel personalizzato per l'attenzione Scaled-Dot-Product è progettato per adattarsi alla nostra politica di fusione basata sulla soluzione di cache KV segmentata. Implementiamo la nostra soluzione di inferenza LLM su GPU Intel e la rendiamo pubblicamente disponibile. Rispetto all'implementazione standard di HuggingFace, la soluzione proposta raggiunge fino a 7 volte in meno la latenza per token e 27 volte il throughput per alcuni LLM popolari su GPU Intel.