HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

6 papers found

Llama 2: Fondazione Aperta e Modelli di Chat Fine-Tunati
Llama 2: Open Foundation and Fine-Tuned Chat Models

Jul 18

ByHugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, Thomas Scialom

245

In questo lavoro, sviluppiamo e rilasciamo Llama 2, una collezione di modelli linguistici di grandi dimensioni (LLM) pre-addestrati e affinati, che vanno da 7 a 70 miliardi di parametri. I nostri LLM affinati, chiamati Llama 2-Chat, sono ottimizzati per casi d'uso dialogici. I nostri modelli superano i modelli di chat open-source nella maggior parte dei benchmark testati e, in base alle nostre valutazioni umane sull'utilità e la sicurezza, potrebbero rappresentare un sostituto adeguato per i modelli closed-source. Forniamo una descrizione dettagliata del nostro approccio all'affinamento e ai miglioramenti della sicurezza di Llama 2-Chat, al fine di consentire alla comunità di costruire sul nostro lavoro e contribuire allo sviluppo responsabile degli LLM.

Come sta cambiando il comportamento di ChatGPT nel tempo?
How is ChatGPT's behavior changing over time?

Jul 18

ByLingjiao Chen, Matei Zaharia, James Zou

GPT-3.5 e GPT-4 sono i due servizi di modelli linguistici di grandi dimensioni (LLM) più ampiamente utilizzati. Tuttavia, quando e come questi modelli vengano aggiornati nel tempo rimane opaco. In questo studio, valutiamo le versioni di GPT-3.5 e GPT-4 di marzo 2023 e giugno 2023 su quattro compiti diversi: 1) risoluzione di problemi matematici, 2) risposta a domande sensibili/pericolose, 3) generazione di codice e 4) ragionamento visivo. Scopriamo che le prestazioni e il comportamento sia di GPT-3.5 che di GPT-4 possono variare notevolmente nel tempo. Ad esempio, GPT-4 (marzo 2023) era molto bravo a identificare i numeri primi (accuratezza del 97,6%), ma GPT-4 (giugno 2023) era molto scarso nelle stesse domande (accuratezza del 2,4%). Curiosamente, GPT-3.5 (giugno 2023) era molto migliore di GPT-3.5 (marzo 2023) in questo compito. GPT-4 era meno disposto a rispondere a domande sensibili a giugno rispetto a marzo, e sia GPT-4 che GPT-3.5 hanno commesso più errori di formattazione nella generazione di codice a giugno rispetto a marzo. Nel complesso, i nostri risultati dimostrano che il comportamento dello stesso servizio LLM può cambiare sostanzialmente in un periodo di tempo relativamente breve, evidenziando la necessità di un monitoraggio continuo della qualità degli LLM.

L'analisi dei circuiti scala nell'interpretabilità? Evidenze dalle capacità a scelta multipla in Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Jul 18

ByTom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik

L'analisi dei circuiti è una tecnica promettente per comprendere i meccanismi interni dei modelli linguistici. Tuttavia, le analisi esistenti sono state condotte su modelli di piccole dimensioni, lontani dallo stato dell'arte. Per affrontare questa limitazione, presentiamo uno studio di caso sull'analisi dei circuiti nel modello Chinchilla da 70B, con l'obiettivo di testare la scalabilità di questa tecnica. In particolare, studiamo il task di risposta a domande a scelta multipla e investigiamo la capacità di Chinchilla di identificare l'etichetta della risposta corretta data la conoscenza del testo della risposta corretta. Riscontriamo che le tecniche esistenti di attribuzione dei logit, visualizzazione dei pattern di attenzione e patching delle attivazioni si adattano naturalmente a Chinchilla, permettendoci di identificare e categorizzare un piccolo insieme di "nodi di output" (teste di attenzione e MLP). Approfondiamo inoltre lo studio delle teste di attenzione della categoria "lettera corretta" con l'obiettivo di comprendere la semantica delle loro caratteristiche, ottenendo risultati contrastanti. Per le normali risposte a domande a scelta multipla, comprimiamo significativamente i sottospazi di query, key e value della testa senza perdita di prestazioni quando operiamo sulle etichette delle risposte, e dimostriamo che i sottospazi di query e key rappresentano, almeno in parte, una caratteristica di "N-esimo elemento in un'enumerazione". Tuttavia, quando tentiamo di utilizzare questa spiegazione per comprendere il comportamento delle teste su una distribuzione più generale che include etichette di risposta randomizzate, scopriamo che si tratta solo di una spiegazione parziale, suggerendo che c'è ancora molto da apprendere sul funzionamento delle teste "lettera corretta" nel task di risposta a domande a scelta multipla.

Potenziamento di CLIP con un Miglior Ragionamento Visivo-Linguistico
Augmenting CLIP with Improved Visio-Linguistic Reasoning

Jul 18

BySamyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi

I modelli contrastivi immagine-testo come CLIP sono utili per una varietà di applicazioni downstream, tra cui la classificazione zero-shot, il recupero immagine-testo e il transfer learning. Tuttavia, questi modelli visione-linguaggio addestrati in modo contrastivo spesso falliscono in compiti visio-linguistici composizionali come Winoground, con prestazioni equivalenti al caso. Nel nostro articolo, affrontiamo questo problema e proponiamo un metodo leggero ed efficiente in termini di campioni chiamato SDS-CLIP per migliorare le capacità di ragionamento visio-linguistico composizionale di CLIP. L'idea centrale del nostro metodo è utilizzare parametrizzazioni differenziabili delle immagini per affinare CLIP con un obiettivo di distillazione da grandi modelli generativi testo-immagine come Stable-Diffusion, che sono relativamente bravi nei compiti di ragionamento visio-linguistico. Sul benchmark di ragionamento composizionale Winoground, il nostro metodo migliora le prestazioni visio-linguistiche assolute di diversi modelli CLIP fino al 7%, mentre sul dataset ARO, il nostro metodo migliora le prestazioni visio-linguistiche fino al 3%. Come sottoprodotto dell'induzione del ragionamento visio-linguistico in CLIP, troviamo anche che le prestazioni zero-shot migliorano leggermente su una varietà di dataset downstream. Il nostro metodo rafforza l'idea che obiettivi di distillazione accuratamente progettati da modelli generativi possano essere sfruttati per estendere i modelli contrastivi immagine-testo esistenti con capacità di ragionamento visio-linguistico migliorate.

NU-MCC: Codifica Compressiva Multivista con Decodificatore a Vicinato e Funzione di Distanza Repulsiva (UDF)
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF

Jul 18

ByStefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee

Sono stati compiuti notevoli progressi nella ricostruzione 3D a partire da input RGB-D a singola vista. MCC rappresenta attualmente il metodo più avanzato in questo campo, ottenendo un successo senza precedenti combinando i Transformer visivi con un addestramento su larga scala. Tuttavia, abbiamo identificato due limitazioni chiave di MCC: 1) Il decoder Transformer è inefficiente nel gestire un numero elevato di punti di query; 2) La rappresentazione 3D fatica a recuperare dettagli ad alta fedeltà. In questo articolo, proponiamo un nuovo approccio chiamato NU-MCC che affronta queste limitazioni. NU-MCC include due innovazioni chiave: un decoder di vicinato e una funzione di distanza senza segno repulsiva (Repulsive UDF). In primo luogo, il nostro decoder di vicinato introduce punti centrali come un proxy efficiente delle caratteristiche visive di input, consentendo a ciascun punto di query di considerare solo un piccolo vicinato. Questo design non solo porta a una velocità di inferenza molto più rapida, ma permette anche di sfruttare caratteristiche visive a scala più fine per un miglior recupero delle texture 3D. In secondo luogo, la nostra Repulsive UDF è una nuova alternativa al campo di occupazione utilizzato in MCC, migliorando significativamente la qualità della ricostruzione degli oggetti 3D. Rispetto alle UDF standard che soffrono di buchi nei risultati, la nostra Repulsive UDF proposta può ottenere una ricostruzione della superficie più completa. I risultati sperimentali dimostrano che NU-MCC è in grado di apprendere una rappresentazione 3D robusta, avanzando significativamente lo stato dell'arte nella ricostruzione 3D a singola vista. In particolare, supera MCC del 9,7% in termini di F1-score sul dataset CO3D-v2 con una velocità di esecuzione più di 5 volte superiore.

Biomaker CA: un progetto Biome Maker che utilizza Automi Cellulari
Biomaker CA: a Biome Maker project using Cellular Automata

Jul 18

ByEttore Randazzo, Alexander Mordvintsev

Presentiamo Biomaker CA: un progetto Biome Maker che utilizza Automi Cellulari (CA). In Biomaker CA, la morfogenesi è un elemento di primaria importanza e piccoli semi devono crescere in organismi simili a piante per sopravvivere in un ambiente povero di nutrienti e alla fine riprodursi con variazioni affinché un bioma sopravviva per lunghi periodi di tempo. Simuliamo biomi complessi mediante regole CA su griglie 2D e parallelizziamo tutti i calcoli su GPU attraverso il framework Python JAX. Mostriamo come questo progetto consenta di creare diversi tipi di ambienti e leggi della "fisica", insieme a diverse architetture di modelli e strategie di mutazione. Analizziamo ulteriormente alcune configurazioni per dimostrare come gli agenti vegetali possano crescere, sopravvivere, riprodursi ed evolversi, formando biomi stabili e instabili. Dimostriamo poi come sia possibile meta-evolvere i modelli per sopravvivere in un ambiente ostile, sia attraverso una meta-evoluzione end-to-end sia mediante un approccio più chirurgico ed efficiente, chiamato meta-evoluzione in piastra di Petri. Infine, mostriamo come eseguire un'evoluzione interattiva, in cui l'utente decide come evolvere un modello vegetale in modo interattivo per poi distribuirlo in un ambiente più ampio. Rendiamo disponibile il codice sorgente di Biomaker CA all'indirizzo: https://tinyurl.com/2x8yu34s.

L'analisi dei circuiti scala nell'interpretabilità? Evidenze dalle capacità a scelta multipla in Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Jul 18

ByTom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik