Articoli di ricerca IA selezionati quotidianamente con traduzioni
I sistemi di Intelligenza Artificiale Generativa (GenAI) stanno trovando un impiego sempre più diffuso in tutti i settori industriali e contesti di ricerca. Sviluppatori e utenti finali interagiscono con questi sistemi attraverso l'uso del prompting o dell'ingegneria dei prompt. Sebbene il prompting sia un concetto ampiamente studiato e utilizzato, esistono terminologie contrastanti e una comprensione ontologica limitata di ciò che costituisce un prompt, a causa della relativa novità di questo campo. Questo articolo stabilisce una comprensione strutturata dei prompt, attraverso l'assemblaggio di una tassonomia delle tecniche di prompting e l'analisi del loro utilizzo. Presentiamo un vocabolario completo di 33 termini, una tassonomia di 58 tecniche di prompting basate esclusivamente su testo e 40 tecniche per altre modalità. Inoltre, forniamo una meta-analisi dell'intera letteratura sul prompting con prefissi in linguaggio naturale.
I recenti progressi nei modelli generativi hanno evidenziato il ruolo cruciale della tokenizzazione delle immagini nella sintesi efficiente di immagini ad alta risoluzione. La tokenizzazione, che trasforma le immagini in rappresentazioni latenti, riduce le esigenze computazionali rispetto all'elaborazione diretta dei pixel e migliora l'efficacia e l'efficienza del processo di generazione. I metodi precedenti, come il VQGAN, utilizzano tipicamente griglie latenti 2D con fattori di downsampling fissi. Tuttavia, queste tokenizzazioni 2D incontrano difficoltà nel gestire le ridondanze intrinseche presenti nelle immagini, dove regioni adiacenti mostrano frequentemente somiglianze. Per superare questo problema, introduciamo il Transformer-based 1-Dimensional Tokenizer (TiTok), un approccio innovativo che tokenizza le immagini in sequenze latenti 1D. TiTok fornisce una rappresentazione latente più compatta, ottenendo rappresentazioni sostanzialmente più efficienti ed efficaci rispetto alle tecniche convenzionali. Ad esempio, un'immagine 256 x 256 x 3 può essere ridotta a soli 32 token discreti, una riduzione significativa rispetto ai 256 o 1024 token ottenuti con i metodi precedenti. Nonostante la sua natura compatta, TiTok raggiunge prestazioni competitive rispetto agli approcci all'avanguardia. Nello specifico, utilizzando lo stesso framework generativo, TiTok raggiunge un gFID di 1.97, superando significativamente il baseline di MaskGIT di 4.21 nel benchmark ImageNet 256 x 256. I vantaggi di TiTok diventano ancora più significativi quando si tratta di risoluzioni più elevate. Nel benchmark ImageNet 512 x 512, TiTok non solo supera il modello di diffusione all'avanguardia DiT-XL/2 (gFID 2.74 vs. 3.04), ma riduce anche i token delle immagini di 64 volte, portando a un processo di generazione 410 volte più veloce. La nostra variante con le migliori prestazioni supera significativamente DiT-XL/2 (gFID 2.13 vs. 3.04) generando comunque campioni di alta qualità 74 volte più velocemente.
I modelli linguistici di grandi dimensioni per il codice (LLM) hanno dimostrato progressi significativi nelle attività di comprensione, completamento e generazione del codice. I benchmark di programmazione, composti da una selezione di sfide di codice e relativi casi di test, servono come standard per valutare le capacità di diversi LLM in tali compiti. Tuttavia, la maggior parte dei benchmark esistenti si concentra principalmente su Python ed è ancora limitata a un numero ristretto di linguaggi, dove altri linguaggi vengono tradotti dai campioni Python (ad esempio, MultiPL-E), riducendo la diversità dei dati. Per favorire ulteriormente la ricerca sui LLM per il codice, proponiamo un benchmark di codice multilingue di grandi dimensioni che copre 40 linguaggi di programmazione (McEval) con 16K campioni di test, che spinge sostanzialmente i limiti dei LLM per il codice in scenari multilingue. Il benchmark include compiti impegnativi di completamento, comprensione e generazione del codice con un corpus di istruzioni multilingue accuratamente curato, McEval-Instruct. Inoltre, introduciamo un codificatore multilingue efficace, mCoder, addestrato su McEval-Instruct per supportare la generazione di linguaggi di programmazione multilingue. I risultati sperimentali estesi su McEval mostrano che c'è ancora un percorso difficile tra i modelli open-source e i LLM closed-source (ad esempio, i modelli della serie GPT) in numerosi linguaggi. Il corpus di istruzioni, il benchmark di valutazione e la classifica sono disponibili su https://mceval.github.io/.
L'editing di immagini rappresenta un compito pratico ma impegnativo, considerando le diverse esigenze degli utenti, dove una delle parti più difficili è descrivere con precisione come dovrebbe apparire l'immagine modificata. In questo lavoro, presentiamo una nuova forma di editing, denominata editing imitativo, per aiutare gli utenti a esercitare la propria creatività in modo più conveniente. Nello specifico, per modificare una regione di interesse di un'immagine, gli utenti sono liberi di trarre ispirazione direttamente da alcuni riferimenti trovati in contesti reali (ad esempio, alcune immagini relative trovate online), senza doversi preoccupare della corrispondenza tra il riferimento e la sorgente. Tale design richiede che il sistema capisca automaticamente cosa aspettarsi dal riferimento per eseguire la modifica. A tal fine, proponiamo un framework di addestramento generativo, chiamato MimicBrush, che seleziona casualmente due fotogrammi da un video, maschera alcune regioni di un fotogramma e impara a ripristinare le regioni mascherate utilizzando le informazioni dell'altro fotogramma. In questo modo, il nostro modello, sviluppato a partire da un prior di diffusione, è in grado di catturare la corrispondenza semantica tra immagini separate in modo auto-supervisionato. Sperimentalmente dimostriamo l'efficacia del nostro metodo in vari casi di test, nonché la sua superiorità rispetto alle alternative esistenti. Abbiamo anche costruito un benchmark per facilitare ulteriori ricerche.
L'IA sta vivendo un cambiamento di paradigma, con progressi ottenuti da sistemi che orchestrano più modelli linguistici di grandi dimensioni (LLM) e altri componenti complessi. Di conseguenza, lo sviluppo di metodi di ottimizzazione automatizzati e basati su principi per sistemi di IA composti rappresenta una delle nuove sfide più importanti. Le reti neurali hanno affrontato una sfida simile nei loro primi giorni, fino a quando la retropropagazione e la differenziazione automatica hanno trasformato il campo, rendendo l'ottimizzazione un processo immediato. Ispirati da ciò, introduciamo TextGrad, un potente framework che esegue una "differenziazione" automatica tramite testo. TextGrad retropropaga feedback testuali forniti dagli LLM per migliorare i singoli componenti di un sistema di IA composto. Nel nostro framework, gli LLM forniscono suggerimenti ricchi, generali e in linguaggio naturale per ottimizzare variabili nei grafi di calcolo, che vanno da frammenti di codice a strutture molecolari. TextGrad segue la sintassi e l'astrazione di PyTorch, risultando flessibile e facile da usare. Funziona immediatamente per una varietà di task, dove gli utenti forniscono solo la funzione obiettivo senza dover ottimizzare componenti o prompt del framework. Dimostriamo l'efficacia e la generalità di TextGrad in un'ampia gamma di applicazioni, dal question answering e l'ottimizzazione molecolare alla pianificazione di trattamenti radioterapici. Senza modificare il framework, TextGrad migliora l'accuratezza zero-shot di GPT-4o nel Google-Proof Question Answering dal 51% al 55%, ottiene un guadagno relativo del 20% nelle prestazioni nell'ottimizzazione di soluzioni a problemi di codifica LeetCode-Hard, migliora i prompt per il ragionamento, progetta nuove piccole molecole simili a farmaci con legami in silico desiderabili e progetta piani di trattamento di radioterapia con alta specificità. TextGrad getta le basi per accelerare lo sviluppo della prossima generazione di sistemi di IA.
Questo articolo introduce l'algoritmo MCT Self-Refine (MCTSr), un'innovativa integrazione di Large Language Models (LLM) con il Monte Carlo Tree Search (MCTS), progettato per migliorare le prestazioni in compiti complessi di ragionamento matematico. Affrontando le sfide di accuratezza e affidabilità degli LLM, in particolare nel ragionamento strategico e matematico, MCTSr sfrutta meccanismi di esplorazione sistematica e di auto-affinamento euristico per migliorare i framework decisionali all'interno degli LLM. L'algoritmo costruisce un albero di ricerca Monte Carlo attraverso processi iterativi di Selezione, auto-affinamento, auto-valutazione e Backpropagation, utilizzando una formula migliorata dell'Upper Confidence Bound (UCB) per ottimizzare il bilanciamento tra esplorazione e sfruttamento. Esperimenti estesi dimostrano l'efficacia di MCTSr nella risoluzione di problemi matematici di livello olimpico, migliorando significativamente i tassi di successo su più dataset, tra cui GSM8K, GSM Hard, MATH e benchmark di livello olimpico, come Math Odyssey, AIME e OlympiadBench. Lo studio avanza l'applicazione degli LLM in compiti di ragionamento complesso e getta le basi per future integrazioni di IA, migliorando l'accuratezza e l'affidabilità decisionale nelle applicazioni guidate da LLM.
I compiti di ragionamento complessi e multi-step, come la risoluzione di problemi matematici o la generazione di codice, rappresentano ancora una sfida significativa anche per i più avanzati modelli linguistici di grandi dimensioni (LLM). La verifica degli output degli LLM mediante un Outcome Reward Model (ORM) è una tecnica standard al momento dell'inferenza, mirata a migliorare le prestazioni di ragionamento degli LLM. Tuttavia, questo approccio si rivela ancora insufficiente per compiti di ragionamento con catene lunghe o multi-hop, dove i risultati intermedi non sono adeguatamente premiati o penalizzati. La supervisione del processo affronta questa limitazione assegnando ricompense intermedie durante il processo di ragionamento. Fino ad oggi, i metodi utilizzati per raccogliere dati di supervisione del processo si sono basati su annotazioni umane o su stime Monte Carlo per ogni passo, entrambi proibitivamente costosi da scalare, ostacolando così l'ampia applicazione di questa tecnica. In risposta a questa sfida, proponiamo un nuovo algoritmo di Monte Carlo Tree Search (MCTS) in stile divide-et-impera, denominato OmegaPRM, per la raccolta efficiente di dati di supervisione del processo di alta qualità. Questo algoritmo identifica rapidamente il primo errore nella Catena di Pensiero (CoT) mediante ricerca binaria e bilancia gli esempi positivi e negativi, garantendo così sia efficienza che qualità. Di conseguenza, siamo stati in grado di raccogliere oltre 1,5 milioni di annotazioni di supervisione del processo per addestrare un Process Reward Model (PRM). Utilizzando questa supervisione del processo completamente automatizzata insieme all'algoritmo di auto-consistenza ponderata, abbiamo migliorato le prestazioni di ragionamento matematico del modello Gemini Pro ottimizzato per le istruzioni, raggiungendo un tasso di successo del 69,4% sul benchmark MATH, un miglioramento relativo del 36% rispetto al 51% delle prestazioni del modello base. Inoltre, l'intero processo opera senza alcun intervento umano, rendendo il nostro metodo sia economicamente che computazionalmente conveniente rispetto ai metodi esistenti.
In questo rapporto tecnico, presentiamo le metodologie di addestramento implementate nello sviluppo di Skywork-MoE, un modello linguistico di grandi dimensioni (LLM) ad alte prestazioni basato su una miscela di esperti (MoE) con 146 miliardi di parametri e 16 esperti. Il modello è inizializzato a partire dai checkpoint densi preesistenti del nostro modello Skywork-13B. Esploriamo l'efficacia comparativa dell'upcycling rispetto all'addestramento partendo da inizializzazioni da zero. I nostri risultati suggeriscono che la scelta tra questi due approcci dovrebbe considerare sia le prestazioni dei checkpoint densi esistenti sia il budget di addestramento MoE. Evidenziamo due tecniche innovative: la normalizzazione dei logit di gating, che migliora la diversificazione degli esperti, e i coefficienti di perdita ausiliaria adattivi, che consentono un aggiustamento specifico per livello dei coefficienti di perdita ausiliaria. I nostri risultati sperimentali convalidano l'efficacia di questi metodi. Sfruttando queste tecniche e intuizioni, abbiamo addestrato il nostro Skywork-MoE upcyclato su un sottoinsieme condensato del nostro corpus SkyPile. I risultati di valutazione dimostrano che il nostro modello offre prestazioni solide su un'ampia gamma di benchmark.
La generazione di esperienze sensoriali combinate visive e uditive è fondamentale per il consumo di contenuti immersivi. I recenti progressi nei modelli generativi neurali hanno permesso la creazione di contenuti ad alta risoluzione attraverso molteplici modalità, come immagini, testo, parlato e video. Nonostante questi successi, rimane un divario significativo nella generazione di audio spaziale di alta qualità che completi il contenuto visivo generato. Inoltre, gli attuali modelli di generazione audio eccellono nella creazione di audio naturale, parlato o musica, ma non riescono a integrare i segnali audio spaziali necessari per esperienze immersive. In questo lavoro, introduciamo SEE-2-SOUND, un approccio zero-shot che scompone il compito in (1) identificazione delle regioni visive di interesse; (2) localizzazione di questi elementi nello spazio 3D; (3) generazione di audio mono per ciascuno di essi; e (4) integrazione in audio spaziale. Utilizzando il nostro framework, dimostriamo risultati convincenti nella generazione di audio spaziale per video di alta qualità, immagini e immagini dinamiche provenienti da internet, nonché per media generati da approcci basati sull'apprendimento.
I metodi esistenti per la generazione dinamica di scene si basano principalmente sulla distillazione della conoscenza da modelli generativi 3D pre-addestrati, che vengono tipicamente perfezionati su dataset sintetici di oggetti. Di conseguenza, le scene generate sono spesso centrate sugli oggetti e mancano di fotorealismo. Per affrontare queste limitazioni, introduciamo una nuova pipeline progettata per la generazione fotorealistica di scene 4D da testo, eliminando la dipendenza da modelli generativi multi-vista e sfruttando invece appieno modelli generativi di video addestrati su diversi dataset del mondo reale. Il nostro metodo inizia generando un video di riferimento utilizzando il modello di generazione video. Successivamente, apprendiamo la rappresentazione 3D canonica del video utilizzando un video a tempo congelato, generato con cura dal video di riferimento. Per gestire le incongruenze nel video a tempo congelato, apprendiamo congiuntamente una deformazione per fotogramma per modellare queste imperfezioni. Apprendiamo quindi la deformazione temporale basata sulla rappresentazione canonica per catturare le interazioni dinamiche nel video di riferimento. La pipeline facilita la generazione di scene dinamiche con un fotorealismo e un'integrità strutturale migliorati, visualizzabili da molteplici prospettive, stabilendo così un nuovo standard nella generazione di scene 4D.
I modelli di diffusione hanno attirato un notevole interesse da parte della comunità per la loro straordinaria capacità generativa in varie applicazioni. Tuttavia, la loro tipica natura di denoising sequenziale multi-step comporta un'elevata latenza cumulativa, impedendo così la possibilità di calcolo parallelo. Per affrontare questo problema, introduciamo AsyncDiff, uno schema di accelerazione universale e plug-and-play che consente il parallelismo del modello su più dispositivi. Il nostro approccio suddivide l'ingombrante modello di previsione del rumore in più componenti, assegnando ciascuno a un dispositivo diverso. Per interrompere la catena di dipendenza tra questi componenti, trasforma il convenzionale denoising sequenziale in un processo asincrono sfruttando l'elevata somiglianza tra gli stati nascosti in passaggi di diffusione consecutivi. Di conseguenza, ogni componente è facilitato a calcolare in parallelo su dispositivi separati. La strategia proposta riduce significativamente la latenza di inferenza con un impatto minimo sulla qualità generativa. Nello specifico, per Stable Diffusion v2.1, AsyncDiff ottiene un'accelerazione di 2.7x con una degradazione trascurabile e un'accelerazione di 4.0x con una riduzione di soli 0.38 nel CLIP Score, su quattro GPU NVIDIA A5000. I nostri esperimenti dimostrano inoltre che AsyncDiff può essere facilmente applicato ai modelli di diffusione video con prestazioni incoraggianti. Il codice è disponibile all'indirizzo https://github.com/czg1225/AsyncDiff.
Sebbene i modelli di diffusione eccellano nella generazione di immagini di alta qualità, lavori precedenti riportano un significativo divario prestazionale tra i metodi di diffusione e quelli autoregressivi (AR) nel campo del language modeling. In questo lavoro, dimostriamo che una semplice diffusione discreta mascherata è più performante di quanto si pensasse in precedenza. Applichiamo una ricetta di addestramento efficace che migliora le prestazioni dei modelli di diffusione mascherata e deriviamo un obiettivo semplificato e Rao-Blackwellizzato che porta a ulteriori miglioramenti. Il nostro obiettivo ha una forma semplice — è una miscela di classiche perdite di language modeling mascherato — e può essere utilizzato per addestrare modelli linguistici basati esclusivamente su encoder che ammettono campionatori efficienti, inclusi quelli in grado di generare testi di lunghezza arbitraria in modo semi-autoregressivo, come un tradizionale modello linguistico. Su benchmark di language modeling, una gamma di modelli di diffusione mascherata addestrati con pratiche ingegneristiche moderne raggiunge un nuovo stato dell'arte tra i modelli di diffusione e si avvicina alla perplessità dei modelli AR. Rilasciamo il nostro codice all'indirizzo: https://github.com/kuleshov-group/mdlm
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto prestazioni impressionanti nei benchmark di risposta a domande mediche. Tuttavia, un'elevata accuratezza nei benchmark non implica che le prestazioni si generalizzino a contesti clinici reali. I benchmark di risposta a domande mediche si basano su presupposti coerenti con la quantificazione delle prestazioni degli LLM, ma che potrebbero non valere nel mondo aperto della clinica. Tuttavia, gli LLM apprendono una conoscenza ampia che può aiutarli a generalizzare a condizioni pratiche, indipendentemente da presupposti irrealistici nei benchmark celebrati. Cerchiamo di quantificare quanto bene le prestazioni degli LLM nei benchmark di risposta a domande mediche si generalizzano quando i presupposti del benchmark vengono violati. Nello specifico, presentiamo un metodo avversario che chiamiamo MedFuzz (per medical fuzzing). MedFuzz tenta di modificare le domande del benchmark in modi mirati a confondere l'LLM. Dimostriamo l'approccio prendendo di mira forti presupposti sulle caratteristiche del paziente presentati nel benchmark MedQA. Gli "attacchi" riusciti modificano un elemento del benchmark in modi che difficilmente ingannerebbero un esperto medico, ma che comunque "ingannano" l'LLM facendolo passare da una risposta corretta a una errata. Inoltre, presentiamo una tecnica di test di permutazione che può garantire che un attacco riuscito sia statisticamente significativo. Mostriamo come utilizzare le prestazioni su un benchmark "MedFuzzato", nonché i singoli attacchi riusciti. I metodi mostrano promesse nel fornire approfondimenti sulla capacità di un LLM di operare in modo robusto in contesti più realistici.
Presentiamo DenseAV, una nuova architettura di grounding a doppio encoder che apprende feature ad alta risoluzione, semanticamente significative e allineate audio-visivamente esclusivamente attraverso la visione di video. Dimostriamo che DenseAV è in grado di scoprire il "significato" delle parole e la "posizione" dei suoni senza una supervisione esplicita di localizzazione. Inoltre, distingue automaticamente tra questi due tipi di associazioni senza supervisione. Mostriamo che le capacità di localizzazione di DenseAV derivano da un nuovo operatore di aggregazione multi-head che confronta direttamente rappresentazioni dense di immagini e audio per l'apprendimento contrastivo. Al contrario, molti altri sistemi che apprendono rappresentazioni "globali" di audio e video non sono in grado di localizzare parole e suoni. Infine, contribuiamo con due nuovi dataset per migliorare la valutazione delle rappresentazioni audio-visive attraverso la segmentazione semantica guidata da parole e suoni. Su questi e altri dataset, dimostriamo che DenseAV supera significativamente lo stato dell'arte nella segmentazione semantica guidata da parole e suoni. DenseAV supera il precedente stato dell'arte, ImageBind, nel recupero cross-modale utilizzando meno della metà dei parametri. Pagina del progetto: https://aka.ms/denseav{https://aka.ms/denseav}
La riluminazione da singola immagine è un compito impegnativo che richiede la comprensione dell'interazione complessa tra geometria, materiali e illuminazione. Molti metodi precedenti supportano solo categorie specifiche di immagini, come i ritratti, o richiedono condizioni di acquisizione particolari, come l'uso di una torcia. In alternativa, alcuni metodi scompongono esplicitamente una scena in componenti intrinseche, come le normali e le BRDF, che possono essere imprecise o poco espressive. In questo lavoro, proponiamo un nuovo modello di diffusione end-to-end 2D per la riluminazione, chiamato Neural Gaffer, che prende una singola immagine di qualsiasi oggetto e può sintetizzare un'immagine riluminata accurata e di alta qualità sotto qualsiasi nuova condizione di illuminazione ambientale, semplicemente condizionando un generatore di immagini su una mappa ambientale target, senza una scomposizione esplicita della scena. Il nostro metodo si basa su un modello di diffusione pre-addestrato, che viene perfezionato su un dataset sintetico di riluminazione, rivelando e sfruttando la comprensione intrinseca dell'illuminazione presente nel modello di diffusione. Valutiamo il nostro modello sia su immagini sintetiche che su immagini reali provenienti da Internet e ne dimostriamo i vantaggi in termini di generalizzazione e accuratezza. Inoltre, combinando il nostro modello con altri metodi generativi, è possibile abilitare numerosi compiti 2D a valle, come la riluminazione basata su testo e l'inserimento di oggetti. Il nostro modello può anche fungere da forte prior per la riluminazione in compiti 3D, come la riluminazione di un campo di radianza.
La robustezza dei grandi modelli linguistici (LLM) contro manipolazioni avversarie, come gli attacchi di jailbreak, rimane una sfida significativa. In questo lavoro, proponiamo un approccio che migliora la capacità di autocritica del LLM e lo affina ulteriormente su dati sintetici sanificati. Questo viene realizzato con l'aggiunta di un modello critico esterno che può essere fuso con quello originale, rafforzando così le capacità di autocritica e migliorando la robustezza della risposta del LLM a prompt avversari. I nostri risultati dimostrano che la combinazione di fusione e autocritica può ridurre significativamente il tasso di successo degli attacchi avversari, offrendo così un promettente meccanismo di difesa contro gli attacchi di jailbreak. Codice, dati e modelli sono disponibili all'indirizzo https://github.com/vicgalle/merging-self-critique-jailbreaks.