HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

9 papers found

Verso Modelli Linguistici che Possono Vedere: Visione Artificiale Attraverso la LENTE del Linguaggio Naturale
Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language

Jun 28

ByWilliam Berrios, Gautam Mittal, Tristan Thrush, Douwe Kiela, Amanpreet Singh

Proponiamo LENS, un approccio modulare per affrontare problemi di computer vision sfruttando la potenza dei grandi modelli linguistici (LLM). Il nostro sistema utilizza un modello linguistico per ragionare sugli output di un insieme di moduli visivi indipendenti e altamente descrittivi che forniscono informazioni esaustive su un'immagine. Valutiamo l'approccio in contesti di pura computer vision come il riconoscimento di oggetti in zero-shot e few-shot, nonché su problemi che combinano visione e linguaggio. LENS può essere applicato a qualsiasi LLM preesistente e scopriamo che i LLM con LENS ottengono prestazioni altamente competitive rispetto a sistemi molto più grandi e sofisticati, senza alcun addestramento multimodale. Rendiamo disponibile il nostro codice open-source all'indirizzo https://github.com/ContextualAI/lens e forniamo una demo interattiva.

Intelligenza Artificiale Generativa per l'Educazione alla Programmazione: Benchmarking di ChatGPT, GPT-4 e Tutor Umani
Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors

Jun 29

ByTung Phung, Victor-Alexandru Pădurean, José Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares

L'intelligenza artificiale generativa e i modelli linguistici di grandi dimensioni offrono un grande potenziale nel migliorare l'educazione informatica, alimentando le tecnologie educative di prossima generazione per la programmazione introduttiva. Recenti studi hanno analizzato questi modelli in diversi scenari rilevanti per l'insegnamento della programmazione; tuttavia, questi lavori presentano diverse limitazioni, poiché spesso considerano modelli già obsoleti o si concentrano solo su scenari specifici. Di conseguenza, manca uno studio sistematico che confronti i modelli più avanzati per un insieme completo di scenari nell'educazione alla programmazione. Nel nostro lavoro, valutiamo sistematicamente due modelli, ChatGPT (basato su GPT-3.5) e GPT-4, e confrontiamo le loro prestazioni con quelle di tutor umani in una varietà di scenari. La valutazione viene effettuata utilizzando cinque problemi introduttivi di programmazione in Python e programmi con bug reali provenienti da una piattaforma online, e le prestazioni vengono valutate tramite annotazioni basate su esperti. I nostri risultati dimostrano che GPT-4 supera nettamente ChatGPT (basato su GPT-3.5) e si avvicina alle prestazioni dei tutor umani in diversi scenari. Questi risultati evidenziano anche contesti in cui GPT-4 incontra ancora difficoltà, offrendo interessanti direzioni future per lo sviluppo di tecniche volte a migliorare le prestazioni di questi modelli.

HyenaDNA: Modellazione di Sequenze Genomiche a Lungo Raggio con Risoluzione a Singolo Nucleotide
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution

Jun 27

ByEric Nguyen, Michael Poli, Marjan Faizi, Armin Thomas, Callum Birch-Sykes, Michael Wornow, Aman Patel, Clayton Rabideau, Stefano Massaroli, Yoshua Bengio, Stefano Ermon, Stephen A. Baccus, Chris Ré

Le sequenze genomiche (DNA) codificano un'enorme quantità di informazioni per la regolazione genica e la sintesi proteica. Similmente ai modelli di linguaggio naturale, i ricercatori hanno proposto modelli di base (foundation models) in genomica per apprendere caratteristiche generalizzabili da dati genomici non etichettati, che possono poi essere affinati per compiti specifici come l'identificazione di elementi regolatori. A causa della scala quadratica dell'attenzione, i precedenti modelli genomici basati su Transformer hanno utilizzato contesti da 512 a 4k token (<0,001% del genoma umano), limitando significativamente la modellazione delle interazioni a lungo raggio nel DNA. Inoltre, questi metodi si affidano a tokenizer per aggregare unità di DNA significative, perdendo la risoluzione a singolo nucleotide, dove sottili variazioni genetiche possono alterare completamente la funzione proteica attraverso polimorfismi a singolo nucleotide (SNP). Recentemente, Hyena, un modello di linguaggio di grandi dimensioni basato su convoluzioni implicite, ha dimostrato di eguagliare la qualità dell'attenzione consentendo contesti più lunghi e una complessità temporale inferiore. Sfruttando le nuove capacità a lungo raggio di Hyena, presentiamo HyenaDNA, un modello di base genomico pre-addestrato sul genoma di riferimento umano con contesti fino a 1 milione di token a livello di singolo nucleotide, un aumento fino a 500 volte rispetto ai precedenti modelli basati su attenzione densa. HyenaDNA scala in modo sub-quadratico rispetto alla lunghezza della sequenza (addestrandosi fino a 160 volte più velocemente di un Transformer), utilizza token a singolo nucleotide e ha un contesto globale completo in ogni livello. Esploriamo ciò che un contesto più lungo consente, incluso il primo utilizzo dell'apprendimento in-context in genomica per un adattamento semplice a nuovi compiti senza aggiornare i pesi del modello pre-addestrato. Su benchmark affinati dal Nucleotide Transformer, HyenaDNA raggiunge lo stato dell'arte (SotA) su 12 dei 17 dataset utilizzando un modello con ordini di grandezza meno parametri e dati di pre-addestramento. Su GenomicBenchmarks, HyenaDNA supera lo SotA su tutti gli 8 dataset in media di +9 punti di accuratezza.

LLaVAR: Miglioramento del Tuning delle Istruzioni Visive per la Comprensione di Immagini Ricche di Testo
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

Jun 29

ByYanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun

Il fine-tuning delle istruzioni sblocca la capacità superiore dei Modelli Linguistici di Grande Dimensione (LLM) di interagire con gli esseri umani. Inoltre, recenti dataset di istruzioni includono immagini come input visivi, raccogliendo risposte per istruzioni basate su immagini. Tuttavia, i modelli addestrati con istruzioni visive non riescono a comprendere bene i dettagli testuali all'interno delle immagini. Questo lavoro migliora l'attuale pipeline di fine-tuning delle istruzioni visive con immagini ricche di testo (ad esempio, poster di film, copertine di libri, ecc.). Nello specifico, utilizziamo prima strumenti OCR disponibili pubblicamente per raccogliere risultati su 422K immagini ricche di testo dal dataset LAION. Inoltre, sollecitiamo GPT-4 solo testo con testi riconosciuti e didascalie di immagini per generare 16K conversazioni, ciascuna contenente coppie domanda-risposta per immagini ricche di testo. Combinando i nostri dati raccolti con i precedenti dati multi-modali di istruzioni, il nostro modello, LLaVAR, migliora sostanzialmente la capacità del modello LLaVA sui dataset VQA basati su testo (fino a un miglioramento del 20% in accuratezza) raggiungendo un'accuratezza del 91.42% su ScienceQA. La valutazione delle istruzioni basata su GPT-4 dimostra anche il miglioramento del nostro modello sia su immagini naturali che su immagini ricche di testo. Attraverso l'analisi qualitativa, LLaVAR mostra promettenti capacità di interazione (ad esempio, ragionamento, scrittura e elaborazione) con gli esseri umani basate sui più recenti contenuti online del mondo reale che combinano testo e immagini. Rendiamo disponibili pubblicamente il nostro codice/dati/modelli all'indirizzo https://llavar.github.io/.

REFLECT: Sintesi delle Esperienze Robotiche per la Spiegazione e Correzione degli Errori
REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction

Jun 27

ByZeyi Liu, Arpit Bahety, Shuran Song

La capacità di rilevare e analizzare automaticamente le esecuzioni fallite è cruciale per un sistema robotico spiegabile e robusto. Recentemente, i Modelli Linguistici di Grande Dimensione (LLM) hanno dimostrato forti capacità di ragionamento basato sul senso comune su input testuali. Per sfruttare il potere degli LLM per la spiegazione dei fallimenti robotici, proponiamo un framework chiamato REFLECT, che converte dati multi-sensoriali in un riepilogo gerarchico delle esperienze passate del robot e interroga l'LLM con un algoritmo progressivo di spiegazione dei fallimenti. Condizionato dalla spiegazione, un pianificatore di correzione dei fallimenti genera un piano eseguibile per il robot per correggere il fallimento e completare il compito. Per valutare sistematicamente il framework, creiamo il dataset RoboFail e dimostriamo che il nostro framework basato su LLM è in grado di generare spiegazioni informative sui fallimenti che assistono la pianificazione corretta con successo. Sito web del progetto: https://roboreflect.github.io/

SVNR: Rimozione del rumore spazialmente variante con diffusione di denoising
SVNR: Spatially-variant Noise Removal with Denoising Diffusion

Jun 28

ByNaama Pearl, Yaron Brodsky, Dana Berman, Assaf Zomet, Alex Rav Acha, Daniel Cohen-Or, Dani Lischinski

I modelli di diffusione per il denoising hanno recentemente mostrato risultati impressionanti in compiti generativi. Apprendendo potenti prior da enormi collezioni di immagini di addestramento, tali modelli sono in grado di modificare gradualmente il rumore completo in un'immagine naturale pulita attraverso una sequenza di piccoli passi di denoising, rendendoli apparentemente ben adatti per il denoising di singole immagini. Tuttavia, applicare efficacemente i modelli di diffusione per il denoising alla rimozione di rumore realistico è più impegnativo di quanto possa sembrare, poiché la loro formulazione si basa su rumore bianco gaussiano additivo, a differenza del rumore presente nelle immagini del mondo reale. In questo lavoro, presentiamo SVNR, una nuova formulazione di diffusione per il denoising che assume un modello di rumore più realistico e spazialmente variante. SVNR consente di utilizzare l'immagine rumorosa in ingresso come punto di partenza per il processo di diffusione per il denoising, oltre a condizionare il processo su di essa. A tal fine, adattiamo il processo di diffusione per consentire a ciascun pixel di avere il proprio embedding temporale e proponiamo schemi di addestramento e inferenza che supportano mappe temporali spazialmente varianti. La nostra formulazione tiene anche conto della correlazione esistente tra l'immagine di condizione e i campioni lungo il processo di diffusione modificato. Nei nostri esperimenti dimostriamo i vantaggi del nostro approccio rispetto a un solido modello di diffusione di base, nonché rispetto a un metodo all'avanguardia per il denoising di singole immagini.

Verso la misurazione della rappresentazione delle opinioni globali soggettive nei modelli linguistici
Towards Measuring the Representation of Subjective Global Opinions in Language Models

Jun 28

ByEsin Durmus, Karina Nyugen, Thomas I. Liao, Nicholas Schiefer, Amanda Askell, Anton Bakhtin, Carol Chen, Zac Hatfield-Dodds, Danny Hernandez, Nicholas Joseph, Liane Lovitt, Sam McCandlish, Orowa Sikder, Alex Tamkin, Janel Thamkul, Jared Kaplan, Jack Clark, Deep Ganguli

I grandi modelli linguistici (LLM) potrebbero non rappresentare equamente le diverse prospettive globali sulle questioni sociali. In questo articolo, sviluppiamo un framework quantitativo per valutare a quali opinioni le risposte generate dai modelli siano più simili. Iniziamo costruendo un dataset, GlobalOpinionQA, composto da domande e risposte provenienti da sondaggi transnazionali progettati per catturare opinioni diverse su questioni globali in diversi paesi. Successivamente, definiamo una metrica che quantifica la somiglianza tra le risposte ai sondaggi generate dagli LLM e quelle umane, condizionate al paese. Utilizzando il nostro framework, conduciamo tre esperimenti su un LLM addestrato per essere utile, onesto e innocuo con Constitutional AI. Di default, le risposte degli LLM tendono a essere più simili alle opinioni di alcune popolazioni, come quelle degli USA e di alcuni paesi europei e sudamericani, evidenziando il potenziale per bias. Quando sollecitiamo il modello a considerare la prospettiva di un particolare paese, le risposte si spostano per essere più simili alle opinioni delle popolazioni sollecitate, ma possono riflettere stereotipi culturali dannosi. Quando traduciamo le domande di GlobalOpinionQA in una lingua target, le risposte del modello non diventano necessariamente le più simili alle opinioni dei parlanti di quelle lingue. Rilasciamo il nostro dataset affinché altri possano utilizzarlo e costruirci sopra. I nostri dati sono disponibili su https://huggingface.co/datasets/Anthropic/llm_global_opinions. Forniamo anche una visualizzazione interattiva su https://llmglobalvalues.anthropic.com.

Calibrazione Automatica e Correzione degli Errori per Modelli Linguistici di Grande Scala tramite Auto-Supervisione Pareto-Ottimale
Automatic Calibration and Error Correction for Large Language Models via Pareto Optimal Self-Supervision

Jun 28

ByTheodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon

I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli fin da subito per un'ampia gamma di applicazioni, ma l'accuratezza rimane un'area di crescita cruciale, specialmente in domini mission-critical come la biomedicina. Un metodo efficace per calibrare il livello di fiducia nelle risposte degli LLM è essenziale per rilevare automaticamente gli errori e facilitare la verifica con l'uomo nel ciclo. Un'importante fonte di segnali di calibrazione deriva dalla supervisione programmatica stabilita da esperti, spesso disponibile a basso costo ma con limitazioni come rumore e copertura. In questo articolo, introduciamo un framework di auto-supervisione Pareto-ottimale che può sfruttare la supervisione programmatica disponibile per calibrare sistematicamente le risposte degli LLM producendo un punteggio di rischio per ogni risposta, senza ulteriori sforzi manuali. Questo è ottenuto apprendendo un modello armonizzatore per allineare l'output degli LLM con altre fonti di supervisione disponibili, che assegna punteggi di rischio più alti alle risposte degli LLM più incerte e facilita la correzione degli errori. Esperimenti su compiti standard di estrazione di relazioni nei domini biomedico e generale dimostrano il potenziale di questo approccio, con i nostri punteggi di rischio altamente correlati al tasso di errore reale degli LLM. Per le istanze di test più incerte, il prompting dinamico basato sui nostri punteggi di rischio porta a un significativo miglioramento dell'accuratezza per gli LLM pronti all'uso, superando i risultati di GPT-3 rispetto ai migliori approcci di supervisione debole (SOTA) e i risultati di GPT-4 rispetto ai migliori risultati supervisionati SOTA su dataset di valutazione impegnativi.

Accelerazione dei Trasduttori tramite Fusione di Token Adiacenti
Accelerating Transducers through Adjacent Token Merging

Jun 28

ByYuang Li, Yu Wu, Jinyu Li, Shujie Liu

I recenti sistemi end-to-end per il riconoscimento automatico del parlato (ASR) spesso utilizzano un codificatore acustico basato su Transformer che genera embedding a una frequenza di frame elevata. Tuttavia, questo design risulta inefficiente, specialmente per segnali vocali lunghi, a causa del calcolo quadratico dell'auto-attenzione. Per affrontare questo problema, proponiamo un nuovo metodo, chiamato Adjacent Token Merging (A-ToMe), che combina gradualmente token adiacenti con punteggi di similarità elevati tra i loro valori chiave. In questo modo, il numero totale di passaggi temporali può essere ridotto, accelerando l'inferenza sia del codificatore che della rete congiunta. Esperimenti su LibriSpeech dimostrano che il nostro metodo può ridurre il 57% dei token e migliorare la velocità di inferenza su GPU del 70% senza una perdita significativa di accuratezza. Inoltre, dimostriamo che A-ToMe è anche una soluzione efficace per ridurre i token nell'ASR a lungo formato, dove il parlato in input è composto da più enunciati.

HyenaDNA: Modellazione di Sequenze Genomiche a Lungo Raggio con Risoluzione a Singolo Nucleotide
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution

Jun 27