Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo lavoro, sviluppiamo e rilasciamo Llama 2, una collezione di modelli linguistici di grandi dimensioni (LLM) pre-addestrati e affinati, che vanno da 7 a 70 miliardi di parametri. I nostri LLM affinati, chiamati Llama 2-Chat, sono ottimizzati per casi d'uso dialogici. I nostri modelli superano i modelli di chat open-source nella maggior parte dei benchmark testati e, in base alle nostre valutazioni umane sull'utilità e la sicurezza, potrebbero rappresentare un sostituto adeguato per i modelli closed-source. Forniamo una descrizione dettagliata del nostro approccio all'affinamento e ai miglioramenti della sicurezza di Llama 2-Chat, al fine di consentire alla comunità di costruire sul nostro lavoro e contribuire allo sviluppo responsabile degli LLM.
GPT-3.5 e GPT-4 sono i due servizi di modelli linguistici di grandi dimensioni (LLM) più ampiamente utilizzati. Tuttavia, quando e come questi modelli vengano aggiornati nel tempo rimane opaco. In questo studio, valutiamo le versioni di GPT-3.5 e GPT-4 di marzo 2023 e giugno 2023 su quattro compiti diversi: 1) risoluzione di problemi matematici, 2) risposta a domande sensibili/pericolose, 3) generazione di codice e 4) ragionamento visivo. Scopriamo che le prestazioni e il comportamento sia di GPT-3.5 che di GPT-4 possono variare notevolmente nel tempo. Ad esempio, GPT-4 (marzo 2023) era molto bravo a identificare i numeri primi (accuratezza del 97,6%), ma GPT-4 (giugno 2023) era molto scarso nelle stesse domande (accuratezza del 2,4%). Curiosamente, GPT-3.5 (giugno 2023) era molto migliore di GPT-3.5 (marzo 2023) in questo compito. GPT-4 era meno disposto a rispondere a domande sensibili a giugno rispetto a marzo, e sia GPT-4 che GPT-3.5 hanno commesso più errori di formattazione nella generazione di codice a giugno rispetto a marzo. Nel complesso, i nostri risultati dimostrano che il comportamento dello stesso servizio LLM può cambiare sostanzialmente in un periodo di tempo relativamente breve, evidenziando la necessità di un monitoraggio continuo della qualità degli LLM.
L'analisi dei circuiti è una tecnica promettente per comprendere i meccanismi interni dei modelli linguistici. Tuttavia, le analisi esistenti sono state condotte su modelli di piccole dimensioni, lontani dallo stato dell'arte. Per affrontare questa limitazione, presentiamo uno studio di caso sull'analisi dei circuiti nel modello Chinchilla da 70B, con l'obiettivo di testare la scalabilità di questa tecnica. In particolare, studiamo il task di risposta a domande a scelta multipla e investigiamo la capacità di Chinchilla di identificare l'etichetta della risposta corretta data la conoscenza del testo della risposta corretta. Riscontriamo che le tecniche esistenti di attribuzione dei logit, visualizzazione dei pattern di attenzione e patching delle attivazioni si adattano naturalmente a Chinchilla, permettendoci di identificare e categorizzare un piccolo insieme di "nodi di output" (teste di attenzione e MLP). Approfondiamo inoltre lo studio delle teste di attenzione della categoria "lettera corretta" con l'obiettivo di comprendere la semantica delle loro caratteristiche, ottenendo risultati contrastanti. Per le normali risposte a domande a scelta multipla, comprimiamo significativamente i sottospazi di query, key e value della testa senza perdita di prestazioni quando operiamo sulle etichette delle risposte, e dimostriamo che i sottospazi di query e key rappresentano, almeno in parte, una caratteristica di "N-esimo elemento in un'enumerazione". Tuttavia, quando tentiamo di utilizzare questa spiegazione per comprendere il comportamento delle teste su una distribuzione più generale che include etichette di risposta randomizzate, scopriamo che si tratta solo di una spiegazione parziale, suggerendo che c'è ancora molto da apprendere sul funzionamento delle teste "lettera corretta" nel task di risposta a domande a scelta multipla.
I modelli contrastivi immagine-testo come CLIP sono utili per una varietà di applicazioni downstream, tra cui la classificazione zero-shot, il recupero immagine-testo e il transfer learning. Tuttavia, questi modelli visione-linguaggio addestrati in modo contrastivo spesso falliscono in compiti visio-linguistici composizionali come Winoground, con prestazioni equivalenti al caso. Nel nostro articolo, affrontiamo questo problema e proponiamo un metodo leggero ed efficiente in termini di campioni chiamato SDS-CLIP per migliorare le capacità di ragionamento visio-linguistico composizionale di CLIP. L'idea centrale del nostro metodo è utilizzare parametrizzazioni differenziabili delle immagini per affinare CLIP con un obiettivo di distillazione da grandi modelli generativi testo-immagine come Stable-Diffusion, che sono relativamente bravi nei compiti di ragionamento visio-linguistico. Sul benchmark di ragionamento composizionale Winoground, il nostro metodo migliora le prestazioni visio-linguistiche assolute di diversi modelli CLIP fino al 7%, mentre sul dataset ARO, il nostro metodo migliora le prestazioni visio-linguistiche fino al 3%. Come sottoprodotto dell'induzione del ragionamento visio-linguistico in CLIP, troviamo anche che le prestazioni zero-shot migliorano leggermente su una varietà di dataset downstream. Il nostro metodo rafforza l'idea che obiettivi di distillazione accuratamente progettati da modelli generativi possano essere sfruttati per estendere i modelli contrastivi immagine-testo esistenti con capacità di ragionamento visio-linguistico migliorate.
Sono stati compiuti notevoli progressi nella ricostruzione 3D a partire da input RGB-D a singola vista. MCC rappresenta attualmente il metodo più avanzato in questo campo, ottenendo un successo senza precedenti combinando i Transformer visivi con un addestramento su larga scala. Tuttavia, abbiamo identificato due limitazioni chiave di MCC: 1) Il decoder Transformer è inefficiente nel gestire un numero elevato di punti di query; 2) La rappresentazione 3D fatica a recuperare dettagli ad alta fedeltà. In questo articolo, proponiamo un nuovo approccio chiamato NU-MCC che affronta queste limitazioni. NU-MCC include due innovazioni chiave: un decoder di vicinato e una funzione di distanza senza segno repulsiva (Repulsive UDF). In primo luogo, il nostro decoder di vicinato introduce punti centrali come un proxy efficiente delle caratteristiche visive di input, consentendo a ciascun punto di query di considerare solo un piccolo vicinato. Questo design non solo porta a una velocità di inferenza molto più rapida, ma permette anche di sfruttare caratteristiche visive a scala più fine per un miglior recupero delle texture 3D. In secondo luogo, la nostra Repulsive UDF è una nuova alternativa al campo di occupazione utilizzato in MCC, migliorando significativamente la qualità della ricostruzione degli oggetti 3D. Rispetto alle UDF standard che soffrono di buchi nei risultati, la nostra Repulsive UDF proposta può ottenere una ricostruzione della superficie più completa. I risultati sperimentali dimostrano che NU-MCC è in grado di apprendere una rappresentazione 3D robusta, avanzando significativamente lo stato dell'arte nella ricostruzione 3D a singola vista. In particolare, supera MCC del 9,7% in termini di F1-score sul dataset CO3D-v2 con una velocità di esecuzione più di 5 volte superiore.
Presentiamo Biomaker CA: un progetto Biome Maker che utilizza Automi Cellulari (CA). In Biomaker CA, la morfogenesi è un elemento di primaria importanza e piccoli semi devono crescere in organismi simili a piante per sopravvivere in un ambiente povero di nutrienti e alla fine riprodursi con variazioni affinché un bioma sopravviva per lunghi periodi di tempo. Simuliamo biomi complessi mediante regole CA su griglie 2D e parallelizziamo tutti i calcoli su GPU attraverso il framework Python JAX. Mostriamo come questo progetto consenta di creare diversi tipi di ambienti e leggi della "fisica", insieme a diverse architetture di modelli e strategie di mutazione. Analizziamo ulteriormente alcune configurazioni per dimostrare come gli agenti vegetali possano crescere, sopravvivere, riprodursi ed evolversi, formando biomi stabili e instabili. Dimostriamo poi come sia possibile meta-evolvere i modelli per sopravvivere in un ambiente ostile, sia attraverso una meta-evoluzione end-to-end sia mediante un approccio più chirurgico ed efficiente, chiamato meta-evoluzione in piastra di Petri. Infine, mostriamo come eseguire un'evoluzione interattiva, in cui l'utente decide come evolvere un modello vegetale in modo interattivo per poi distribuirlo in un ambiente più ampio. Rendiamo disponibile il codice sorgente di Biomaker CA all'indirizzo: https://tinyurl.com/2x8yu34s.