HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

8 papers found

Verso l'auto-miglioramento dei LLM attraverso immaginazione, ricerca e critica
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

Apr 18

ByYe Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu

Nonostante le impressionanti capacità dei Large Language Models (LLMs) in vari compiti, essi continuano a lottare con scenari che coinvolgono ragionamenti complessi e pianificazione. Recenti lavori hanno proposto tecniche avanzate di prompting e la necessità di un fine-tuning con dati di alta qualità per potenziare le capacità di ragionamento degli LLMs. Tuttavia, questi approcci sono intrinsecamente limitati dalla disponibilità e dalla qualità dei dati. Alla luce di ciò, l'autocorrezione e l'autoapprendimento emergono come soluzioni praticabili, impiegando strategie che consentono agli LLMs di affinare i loro output e apprendere da ricompense auto-valutate. Tuttavia, l'efficacia degli LLMs nell'autorifinire le proprie risposte, specialmente in compiti di ragionamento complesso e pianificazione, rimane dubbia. In questo articolo, introduciamo AlphaLLM per il miglioramento autonomo degli LLMs, che integra il Monte Carlo Tree Search (MCTS) con gli LLMs per stabilire un ciclo di auto-miglioramento, migliorando così le capacità degli LLMs senza annotazioni aggiuntive. Traendo ispirazione dal successo di AlphaGo, AlphaLLM affronta le sfide uniche di combinare MCTS con LLM per l'auto-miglioramento, inclusa la scarsità di dati, l'ampiezza degli spazi di ricerca nei compiti linguistici e la natura soggettiva del feedback nei compiti linguistici. AlphaLLM è composto da un componente di sintesi dei prompt, un approccio MCTS efficiente adattato per i compiti linguistici e una triade di modelli critici per un feedback preciso. I nostri risultati sperimentali in compiti di ragionamento matematico dimostrano che AlphaLLM migliora significativamente le prestazioni degli LLMs senza annotazioni aggiuntive, mostrando il potenziale per l'auto-miglioramento negli LLMs.

Tipografia Dinamica: Dare Vita alle Parole
Dynamic Typography: Bringing Words to Life

Apr 17

ByZichen Liu, Yihao Meng, Hao Ouyang, Yue Yu, Bolin Zhao, Daniel Cohen-Or, Huamin Qu

L'animazione testuale funge da mezzo espressivo, trasformando la comunicazione statica in esperienze dinamiche infondendo movimento alle parole per evocare emozioni, enfatizzare significati e costruire narrazioni coinvolgenti. Creare animazioni semanticamente consapevoli presenta sfide significative, richiedendo competenze nel design grafico e nell'animazione. Presentiamo uno schema automatizzato di animazione testuale, denominato "Tipografia Dinamica", che combina due compiti impegnativi. Deforma le lettere per trasmettere significato semantico e le arricchisce con movimenti vivaci basati sugli input dell'utente. La nostra tecnica sfrutta rappresentazioni di grafica vettoriale e un framework di ottimizzazione end-to-end. Questo framework utilizza campi di spostamento neurali per convertire le lettere in forme di base e applica movimenti per fotogramma, promuovendo la coerenza con il concetto testuale inteso. Tecniche di preservazione della forma e regolarizzazione della perdita percettiva vengono impiegate per mantenere la leggibilità e l'integrità strutturale durante il processo di animazione. Dimostriamo la generalizzabilità del nostro approccio attraverso vari modelli text-to-video e evidenziamo la superiorità della nostra metodologia end-to-end rispetto ai metodi di base, che potrebbero comprendere compiti separati. Attraverso valutazioni quantitative e qualitative, dimostriamo l'efficacia del nostro framework nel generare animazioni testuali coerenti che interpretano fedelmente gli input dell'utente mantenendo la leggibilità. Il nostro codice è disponibile all'indirizzo: https://animate-your-word.github.io/demo/.

MeshLRM: Modello di Ricostruzione su Grande Scala per Mesh di Alta Qualità
MeshLRM: Large Reconstruction Model for High-Quality Mesh

Apr 18

ByXinyue Wei, Kai Zhang, Sai Bi, Hao Tan, Fujun Luan, Valentin Deschaintre, Kalyan Sunkavalli, Hao Su, Zexiang Xu

Proponiamo MeshLRM, un nuovo approccio basato su LRM in grado di ricostruire una mesh di alta qualità a partire da soli quattro immagini di input in meno di un secondo. A differenza dei precedenti modelli di ricostruzione su larga scala (LRM) focalizzati sulla ricostruzione basata su NeRF, MeshLRM integra l'estrazione e il rendering differenziabili di mesh all'interno del framework LRM. Ciò consente una ricostruzione end-to-end della mesh attraverso il fine-tuning di un LRM NeRF pre-addestrato con il rendering di mesh. Inoltre, miglioriamo l'architettura LRM semplificando diversi design complessi presenti nei precedenti LRM. L'inizializzazione NeRF di MeshLRM viene addestrata sequenzialmente con immagini a bassa e alta risoluzione; questa nuova strategia di addestramento LRM permette una convergenza significativamente più rapida, portando a una migliore qualità con meno risorse computazionali. Il nostro approccio raggiunge risultati all'avanguardia nella ricostruzione di mesh da input a vista sparsa e consente anche molte applicazioni downstream, tra cui la generazione da testo a 3D e da singola immagine a 3D. Pagina del progetto: https://sarahweiii.github.io/meshlrm/

EdgeFusion: Generazione di Immagini da Testo su Dispositivo
EdgeFusion: On-Device Text-to-Image Generation

Apr 18

ByThibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim

L'intenso carico computazionale di Stable Diffusion (SD) per la generazione di immagini da testo rappresenta un ostacolo significativo per la sua applicazione pratica. Per affrontare questa sfida, la ricerca recente si concentra su metodi per ridurre i passaggi di campionamento, come il Latent Consistency Model (LCM), e sull'impiego di ottimizzazioni architetturali, tra cui il pruning e la distillazione della conoscenza. Diversamente dagli approcci esistenti, partiamo in modo unico da una variante compatta di SD, BK-SDM. Osserviamo che l'applicazione diretta di LCM a BK-SDM con dataset comunemente utilizzati e ottenuti tramite crawling produce risultati insoddisfacenti. Ciò ci porta a sviluppare due strategie: (1) sfruttare coppie immagine-testo di alta qualità provenienti da modelli generativi leader e (2) progettare un processo avanzato di distillazione specifico per LCM. Attraverso un'approfondita esplorazione della quantizzazione, del profiling e del deployment su dispositivi, otteniamo una generazione rapida di immagini foto-realistiche e allineate al testo in soli due passaggi, con una latenza inferiore a un secondo su dispositivi edge con risorse limitate.

TriForce: Accelerazione Senza Perdite della Generazione di Sequenze Lunghe con Decodifica Speculativa Gerarchica
TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding

Apr 18

ByHanshi Sun, Zhuoming Chen, Xinyu Yang, Yuandong Tian, Beidi Chen

Con l'ampio utilizzo di modelli linguistici di grandi dimensioni (LLM) nella generazione di contenuti lunghi di recente, è emersa una crescente domanda di supporto efficiente per l'inferenza su sequenze lunghe. Tuttavia, la cache chiave-valore (KV), che viene memorizzata per evitare il ricalcolo, è diventata un collo di bottiglia critico, crescendo linearmente in dimensioni con la lunghezza della sequenza. A causa della natura auto-regressiva degli LLM, l'intera cache KV viene caricata per ogni token generato, risultando in una bassa utilizzazione dei core computazionali e un'elevata latenza. Sebbene siano stati proposti vari metodi di compressione per la cache KV per alleviare questo problema, essi soffrono di un degrado nella qualità della generazione. Introduciamo TriForce, un sistema di decodifica speculativa gerarchica scalabile per la generazione di sequenze lunghe. Questo approccio sfrutta i pesi originali del modello e una cache KV sparsa dinamica tramite recupero come modello di bozza, che funge da livello intermedio nella gerarchia ed è ulteriormente speculato da un modello più piccolo per ridurre la sua latenza di bozza. TriForce non solo facilita impressionanti accelerazioni per Llama2-7B-128K, raggiungendo fino a 2.31 volte su una GPU A100, ma dimostra anche scalabilità nella gestione di contesti ancora più lunghi. Per l'impostazione di offloading su due GPU RTX 4090, TriForce raggiunge 0.108s/token—solo la metà della lentezza rispetto alla baseline auto-regressiva su una A100, che ottiene 7.78 volte sul nostro sistema di offloading ottimizzato. Inoltre, TriForce performa 4.86 volte meglio di DeepSpeed-Zero-Inference su una singola GPU RTX 4090. La robustezza di TriForce è evidenziata dalla sua performance costantemente eccezionale a varie temperature. Il codice è disponibile su https://github.com/Infini-AI-Lab/TriForce.

MoA: Mixture-of-Attention per la Disentanglement di Soggetto e Contesto nella Generazione Personalizzata di Immagini
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

Apr 17

ByKuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman

Introduciamo una nuova architettura per la personalizzazione di modelli di diffusione testo-immagine, denominata Mixture-of-Attention (MoA). Ispirata dal meccanismo Mixture-of-Experts utilizzato nei grandi modelli linguistici (LLM), MoA distribuisce il carico di generazione tra due percorsi di attenzione: un ramo personalizzato e un ramo prior non personalizzato. MoA è progettato per preservare il prior del modello originale fissando i suoi strati di attenzione nel ramo prior, intervenendo in modo minimale nel processo di generazione con il ramo personalizzato che impara a incorporare i soggetti nel layout e nel contesto generati dal ramo prior. Un meccanismo di routing innovativo gestisce la distribuzione dei pixel in ogni strato tra questi rami per ottimizzare la fusione tra creazione di contenuti personalizzati e generici. Una volta addestrato, MoA facilita la creazione di immagini personalizzate di alta qualità che presentano più soggetti con composizioni e interazioni tanto diversificate quanto quelle generate dal modello originale. Fondamentalmente, MoA migliora la distinzione tra la capacità preesistente del modello e il nuovo intervento personalizzato, offrendo un controllo più disgiunto tra soggetto e contesto che in precedenza non era raggiungibile. Pagina del progetto: https://snap-research.github.io/mixture-of-attention

Riutilizza le Tue Ricompense: Trasferimento del Modello di Ricompensa per l'Allineamento Cross-Linguistico Zero-Shot
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

Apr 18

ByZhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami

Allineare i modelli linguistici (LM) basandosi su dati di preferenza annotati da esseri umani rappresenta un passaggio cruciale per ottenere sistemi basati su LM pratici e performanti. Tuttavia, i dati di preferenza umana multilingue sono difficili da ottenere su larga scala, rendendo complesso estendere questo framework a lingue diverse. In questo lavoro, valutiamo un approccio semplice per l'allineamento cross-linguale zero-shot, in cui un modello di ricompensa viene addestrato su dati di preferenza in una lingua sorgente e applicato direttamente ad altre lingue target. Nel contesto della generazione di riassunti e dialoghi aperti, dimostriamo che questo metodo risulta costantemente efficace in impostazioni di valutazione complete, inclusa la valutazione umana: i modelli allineati cross-lingualmente sono preferiti dagli esseri umani rispetto ai modelli non allineati in oltre il 70% dei casi di valutazione. Inoltre, scopriamo che un modello di ricompensa in una lingua diversa a volte produce modelli allineati migliori rispetto a un modello di ricompensa nella stessa lingua. Identifichiamo anche le migliori pratiche quando non sono disponibili dati specifici per una lingua, nemmeno per il fine-tuning supervisionato, un altro componente dell'allineamento.

Presentiamo la versione 0.5 del Benchmark per la Sicurezza dell'Intelligenza Artificiale di MLCommons.
Introducing v0.5 of the AI Safety Benchmark from MLCommons

Apr 18

ByBertie Vidgen, Adarsh Agrawal, Ahmed M. Ahmed, Victor Akinwande, Namir Al-Nuaimi, Najla Alfaraj, Elie Alhajjar, Lora Aroyo, Trupti Bavalatti, Borhane Blili-Hamelin, Kurt Bollacker, Rishi Bomassani, Marisa Ferrara Boston, Siméon Campos, Kal Chakra, Canyu Chen, Cody Coleman, Zacharie Delpierre Coudert, Leon Derczynski, Debojyoti Dutta, Ian Eisenberg, James Ezick, Heather Frase, Brian Fuller, Ram Gandikota, Agasthya Gangavarapu, Ananya Gangavarapu, James Gealy, Rajat Ghosh, James Goel, Usman Gohar, Sujata Goswami, Scott A. Hale, Wiebke Hutiri, Joseph Marvin Imperial, Surgan Jandial, Nick Judd, Felix Juefei-Xu, Foutse Khomh, Bhavya Kailkhura, Hannah Rose Kirk, Kevin Klyman, Chris Knotz, Michael Kuchnik, Shachi H. Kumar, Chris Lengerich, Bo Li, Zeyi Liao, Eileen Peters Long, Victor Lu, Yifan Mai, Priyanka Mary Mammen, Kelvin Manyeki, Sean McGregor, Virendra Mehta, Shafee Mohammed, Emanuel Moss, Lama Nachman, Dinesh Jinenhally Naganna, Amin Nikanjam, Besmira Nushi, Luis Oala, Iftach Orr, Alicia Parrish, Cigdem Patlak, William Pietri, Forough Poursabzi-Sangdeh, Eleonora Presani, Fabrizio Puletti, Paul Röttger, Saurav Sahay, Tim Santos, Nino Scherrer, Alice Schoenauer Sebag, Patrick Schramowski, Abolfazl Shahbazi, Vin Sharma, Xudong Shen, Vamsi Sistla, Leonard Tang, Davide Testuggine, Vithursan Thangarasa, Elizabeth Anne Watkins, Rebecca Weiss, Chris Welty, Tyler Wilbers, Adina Williams, Carole-Jean Wu, Poonam Yadav, Xianjun Yang, Yi Zeng, Wenhui Zhang, Fedor Zhdanov, Jiacheng Zhu, Percy Liang, Peter Mattson, Joaquin Vanschoren

Questo articolo presenta la versione 0.5 dell'AI Safety Benchmark, sviluppato dal MLCommons AI Safety Working Group. L'AI Safety Benchmark è stato progettato per valutare i rischi di sicurezza dei sistemi di intelligenza artificiale che utilizzano modelli linguistici ottimizzati per il chat. Introduciamo un approccio metodologico per specificare e costruire il benchmark, che nella versione 0.5 copre un solo caso d'uso (un adulto che chatta con un assistente generico in inglese) e un insieme limitato di personaggi (ad esempio, utenti tipici, utenti malintenzionati e utenti vulnerabili). Abbiamo creato una nuova tassonomia di 13 categorie di rischio, di cui 7 sono testate nel benchmark v0.5. Prevediamo di rilasciare la versione 1.0 dell'AI Safety Benchmark entro la fine del 2024. Il benchmark v1.0 fornirà informazioni significative sulla sicurezza dei sistemi di intelligenza artificiale. Tuttavia, il benchmark v0.5 non dovrebbe essere utilizzato per valutare la sicurezza dei sistemi di intelligenza artificiale. Abbiamo cercato di documentare completamente i limiti, i difetti e le sfide della versione 0.5. Questa release della versione 0.5 dell'AI Safety Benchmark include: (1) un approccio metodologico per specificare e costruire il benchmark, che comprende casi d'uso, tipi di sistemi sotto test (SUT), linguaggio e contesto, personaggi, test e elementi di test; (2) una tassonomia di 13 categorie di rischio con definizioni e sottocategorie; (3) test per sette delle categorie di rischio, ciascuno composto da un insieme unico di elementi di test, ovvero prompt. Ci sono 43.090 elementi di test in totale, creati con modelli; (4) un sistema di valutazione per i sistemi di intelligenza artificiale rispetto al benchmark; (5) una piattaforma disponibile pubblicamente e uno strumento scaricabile, chiamato ModelBench, che può essere utilizzato per valutare la sicurezza dei sistemi di intelligenza artificiale sul benchmark; (6) un esempio di rapporto di valutazione che confronta le prestazioni di oltre una dozzina di modelli linguistici ottimizzati per il chat disponibili pubblicamente; (7) una specifica di test per il benchmark.

Presentiamo la versione 0.5 del Benchmark per la Sicurezza dell'Intelligenza Artificiale di MLCommons.
Introducing v0.5 of the AI Safety Benchmark from MLCommons

Apr 18