Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante le impressionanti capacità dei Large Language Models (LLMs) in vari compiti, essi continuano a lottare con scenari che coinvolgono ragionamenti complessi e pianificazione. Recenti lavori hanno proposto tecniche avanzate di prompting e la necessità di un fine-tuning con dati di alta qualità per potenziare le capacità di ragionamento degli LLMs. Tuttavia, questi approcci sono intrinsecamente limitati dalla disponibilità e dalla qualità dei dati. Alla luce di ciò, l'autocorrezione e l'autoapprendimento emergono come soluzioni praticabili, impiegando strategie che consentono agli LLMs di affinare i loro output e apprendere da ricompense auto-valutate. Tuttavia, l'efficacia degli LLMs nell'autorifinire le proprie risposte, specialmente in compiti di ragionamento complesso e pianificazione, rimane dubbia. In questo articolo, introduciamo AlphaLLM per il miglioramento autonomo degli LLMs, che integra il Monte Carlo Tree Search (MCTS) con gli LLMs per stabilire un ciclo di auto-miglioramento, migliorando così le capacità degli LLMs senza annotazioni aggiuntive. Traendo ispirazione dal successo di AlphaGo, AlphaLLM affronta le sfide uniche di combinare MCTS con LLM per l'auto-miglioramento, inclusa la scarsità di dati, l'ampiezza degli spazi di ricerca nei compiti linguistici e la natura soggettiva del feedback nei compiti linguistici. AlphaLLM è composto da un componente di sintesi dei prompt, un approccio MCTS efficiente adattato per i compiti linguistici e una triade di modelli critici per un feedback preciso. I nostri risultati sperimentali in compiti di ragionamento matematico dimostrano che AlphaLLM migliora significativamente le prestazioni degli LLMs senza annotazioni aggiuntive, mostrando il potenziale per l'auto-miglioramento negli LLMs.
L'animazione testuale funge da mezzo espressivo, trasformando la comunicazione statica in esperienze dinamiche infondendo movimento alle parole per evocare emozioni, enfatizzare significati e costruire narrazioni coinvolgenti. Creare animazioni semanticamente consapevoli presenta sfide significative, richiedendo competenze nel design grafico e nell'animazione. Presentiamo uno schema automatizzato di animazione testuale, denominato "Tipografia Dinamica", che combina due compiti impegnativi. Deforma le lettere per trasmettere significato semantico e le arricchisce con movimenti vivaci basati sugli input dell'utente. La nostra tecnica sfrutta rappresentazioni di grafica vettoriale e un framework di ottimizzazione end-to-end. Questo framework utilizza campi di spostamento neurali per convertire le lettere in forme di base e applica movimenti per fotogramma, promuovendo la coerenza con il concetto testuale inteso. Tecniche di preservazione della forma e regolarizzazione della perdita percettiva vengono impiegate per mantenere la leggibilità e l'integrità strutturale durante il processo di animazione. Dimostriamo la generalizzabilità del nostro approccio attraverso vari modelli text-to-video e evidenziamo la superiorità della nostra metodologia end-to-end rispetto ai metodi di base, che potrebbero comprendere compiti separati. Attraverso valutazioni quantitative e qualitative, dimostriamo l'efficacia del nostro framework nel generare animazioni testuali coerenti che interpretano fedelmente gli input dell'utente mantenendo la leggibilità. Il nostro codice è disponibile all'indirizzo: https://animate-your-word.github.io/demo/.
Proponiamo MeshLRM, un nuovo approccio basato su LRM in grado di ricostruire una mesh di alta qualità a partire da soli quattro immagini di input in meno di un secondo. A differenza dei precedenti modelli di ricostruzione su larga scala (LRM) focalizzati sulla ricostruzione basata su NeRF, MeshLRM integra l'estrazione e il rendering differenziabili di mesh all'interno del framework LRM. Ciò consente una ricostruzione end-to-end della mesh attraverso il fine-tuning di un LRM NeRF pre-addestrato con il rendering di mesh. Inoltre, miglioriamo l'architettura LRM semplificando diversi design complessi presenti nei precedenti LRM. L'inizializzazione NeRF di MeshLRM viene addestrata sequenzialmente con immagini a bassa e alta risoluzione; questa nuova strategia di addestramento LRM permette una convergenza significativamente più rapida, portando a una migliore qualità con meno risorse computazionali. Il nostro approccio raggiunge risultati all'avanguardia nella ricostruzione di mesh da input a vista sparsa e consente anche molte applicazioni downstream, tra cui la generazione da testo a 3D e da singola immagine a 3D. Pagina del progetto: https://sarahweiii.github.io/meshlrm/
L'intenso carico computazionale di Stable Diffusion (SD) per la generazione di immagini da testo rappresenta un ostacolo significativo per la sua applicazione pratica. Per affrontare questa sfida, la ricerca recente si concentra su metodi per ridurre i passaggi di campionamento, come il Latent Consistency Model (LCM), e sull'impiego di ottimizzazioni architetturali, tra cui il pruning e la distillazione della conoscenza. Diversamente dagli approcci esistenti, partiamo in modo unico da una variante compatta di SD, BK-SDM. Osserviamo che l'applicazione diretta di LCM a BK-SDM con dataset comunemente utilizzati e ottenuti tramite crawling produce risultati insoddisfacenti. Ciò ci porta a sviluppare due strategie: (1) sfruttare coppie immagine-testo di alta qualità provenienti da modelli generativi leader e (2) progettare un processo avanzato di distillazione specifico per LCM. Attraverso un'approfondita esplorazione della quantizzazione, del profiling e del deployment su dispositivi, otteniamo una generazione rapida di immagini foto-realistiche e allineate al testo in soli due passaggi, con una latenza inferiore a un secondo su dispositivi edge con risorse limitate.
Con l'ampio utilizzo di modelli linguistici di grandi dimensioni (LLM) nella generazione di contenuti lunghi di recente, è emersa una crescente domanda di supporto efficiente per l'inferenza su sequenze lunghe. Tuttavia, la cache chiave-valore (KV), che viene memorizzata per evitare il ricalcolo, è diventata un collo di bottiglia critico, crescendo linearmente in dimensioni con la lunghezza della sequenza. A causa della natura auto-regressiva degli LLM, l'intera cache KV viene caricata per ogni token generato, risultando in una bassa utilizzazione dei core computazionali e un'elevata latenza. Sebbene siano stati proposti vari metodi di compressione per la cache KV per alleviare questo problema, essi soffrono di un degrado nella qualità della generazione. Introduciamo TriForce, un sistema di decodifica speculativa gerarchica scalabile per la generazione di sequenze lunghe. Questo approccio sfrutta i pesi originali del modello e una cache KV sparsa dinamica tramite recupero come modello di bozza, che funge da livello intermedio nella gerarchia ed è ulteriormente speculato da un modello più piccolo per ridurre la sua latenza di bozza. TriForce non solo facilita impressionanti accelerazioni per Llama2-7B-128K, raggiungendo fino a 2.31 volte su una GPU A100, ma dimostra anche scalabilità nella gestione di contesti ancora più lunghi. Per l'impostazione di offloading su due GPU RTX 4090, TriForce raggiunge 0.108s/token—solo la metà della lentezza rispetto alla baseline auto-regressiva su una A100, che ottiene 7.78 volte sul nostro sistema di offloading ottimizzato. Inoltre, TriForce performa 4.86 volte meglio di DeepSpeed-Zero-Inference su una singola GPU RTX 4090. La robustezza di TriForce è evidenziata dalla sua performance costantemente eccezionale a varie temperature. Il codice è disponibile su https://github.com/Infini-AI-Lab/TriForce.
Introduciamo una nuova architettura per la personalizzazione di modelli di diffusione testo-immagine, denominata Mixture-of-Attention (MoA). Ispirata dal meccanismo Mixture-of-Experts utilizzato nei grandi modelli linguistici (LLM), MoA distribuisce il carico di generazione tra due percorsi di attenzione: un ramo personalizzato e un ramo prior non personalizzato. MoA è progettato per preservare il prior del modello originale fissando i suoi strati di attenzione nel ramo prior, intervenendo in modo minimale nel processo di generazione con il ramo personalizzato che impara a incorporare i soggetti nel layout e nel contesto generati dal ramo prior. Un meccanismo di routing innovativo gestisce la distribuzione dei pixel in ogni strato tra questi rami per ottimizzare la fusione tra creazione di contenuti personalizzati e generici. Una volta addestrato, MoA facilita la creazione di immagini personalizzate di alta qualità che presentano più soggetti con composizioni e interazioni tanto diversificate quanto quelle generate dal modello originale. Fondamentalmente, MoA migliora la distinzione tra la capacità preesistente del modello e il nuovo intervento personalizzato, offrendo un controllo più disgiunto tra soggetto e contesto che in precedenza non era raggiungibile. Pagina del progetto: https://snap-research.github.io/mixture-of-attention
Allineare i modelli linguistici (LM) basandosi su dati di preferenza annotati da esseri umani rappresenta un passaggio cruciale per ottenere sistemi basati su LM pratici e performanti. Tuttavia, i dati di preferenza umana multilingue sono difficili da ottenere su larga scala, rendendo complesso estendere questo framework a lingue diverse. In questo lavoro, valutiamo un approccio semplice per l'allineamento cross-linguale zero-shot, in cui un modello di ricompensa viene addestrato su dati di preferenza in una lingua sorgente e applicato direttamente ad altre lingue target. Nel contesto della generazione di riassunti e dialoghi aperti, dimostriamo che questo metodo risulta costantemente efficace in impostazioni di valutazione complete, inclusa la valutazione umana: i modelli allineati cross-lingualmente sono preferiti dagli esseri umani rispetto ai modelli non allineati in oltre il 70% dei casi di valutazione. Inoltre, scopriamo che un modello di ricompensa in una lingua diversa a volte produce modelli allineati migliori rispetto a un modello di ricompensa nella stessa lingua. Identifichiamo anche le migliori pratiche quando non sono disponibili dati specifici per una lingua, nemmeno per il fine-tuning supervisionato, un altro componente dell'allineamento.
Questo articolo presenta la versione 0.5 dell'AI Safety Benchmark, sviluppato dal MLCommons AI Safety Working Group. L'AI Safety Benchmark è stato progettato per valutare i rischi di sicurezza dei sistemi di intelligenza artificiale che utilizzano modelli linguistici ottimizzati per il chat. Introduciamo un approccio metodologico per specificare e costruire il benchmark, che nella versione 0.5 copre un solo caso d'uso (un adulto che chatta con un assistente generico in inglese) e un insieme limitato di personaggi (ad esempio, utenti tipici, utenti malintenzionati e utenti vulnerabili). Abbiamo creato una nuova tassonomia di 13 categorie di rischio, di cui 7 sono testate nel benchmark v0.5. Prevediamo di rilasciare la versione 1.0 dell'AI Safety Benchmark entro la fine del 2024. Il benchmark v1.0 fornirà informazioni significative sulla sicurezza dei sistemi di intelligenza artificiale. Tuttavia, il benchmark v0.5 non dovrebbe essere utilizzato per valutare la sicurezza dei sistemi di intelligenza artificiale. Abbiamo cercato di documentare completamente i limiti, i difetti e le sfide della versione 0.5. Questa release della versione 0.5 dell'AI Safety Benchmark include: (1) un approccio metodologico per specificare e costruire il benchmark, che comprende casi d'uso, tipi di sistemi sotto test (SUT), linguaggio e contesto, personaggi, test e elementi di test; (2) una tassonomia di 13 categorie di rischio con definizioni e sottocategorie; (3) test per sette delle categorie di rischio, ciascuno composto da un insieme unico di elementi di test, ovvero prompt. Ci sono 43.090 elementi di test in totale, creati con modelli; (4) un sistema di valutazione per i sistemi di intelligenza artificiale rispetto al benchmark; (5) una piattaforma disponibile pubblicamente e uno strumento scaricabile, chiamato ModelBench, che può essere utilizzato per valutare la sicurezza dei sistemi di intelligenza artificiale sul benchmark; (6) un esempio di rapporto di valutazione che confronta le prestazioni di oltre una dozzina di modelli linguistici ottimizzati per il chat disponibili pubblicamente; (7) una specifica di test per il benchmark.