Articoli di ricerca IA selezionati quotidianamente con traduzioni
Proponiamo LENS, un approccio modulare per affrontare problemi di computer vision sfruttando la potenza dei grandi modelli linguistici (LLM). Il nostro sistema utilizza un modello linguistico per ragionare sugli output di un insieme di moduli visivi indipendenti e altamente descrittivi che forniscono informazioni esaustive su un'immagine. Valutiamo l'approccio in contesti di pura computer vision come il riconoscimento di oggetti in zero-shot e few-shot, nonché su problemi che combinano visione e linguaggio. LENS può essere applicato a qualsiasi LLM preesistente e scopriamo che i LLM con LENS ottengono prestazioni altamente competitive rispetto a sistemi molto più grandi e sofisticati, senza alcun addestramento multimodale. Rendiamo disponibile il nostro codice open-source all'indirizzo https://github.com/ContextualAI/lens e forniamo una demo interattiva.
L'intelligenza artificiale generativa e i modelli linguistici di grandi dimensioni offrono un grande potenziale nel migliorare l'educazione informatica, alimentando le tecnologie educative di prossima generazione per la programmazione introduttiva. Recenti studi hanno analizzato questi modelli in diversi scenari rilevanti per l'insegnamento della programmazione; tuttavia, questi lavori presentano diverse limitazioni, poiché spesso considerano modelli già obsoleti o si concentrano solo su scenari specifici. Di conseguenza, manca uno studio sistematico che confronti i modelli più avanzati per un insieme completo di scenari nell'educazione alla programmazione. Nel nostro lavoro, valutiamo sistematicamente due modelli, ChatGPT (basato su GPT-3.5) e GPT-4, e confrontiamo le loro prestazioni con quelle di tutor umani in una varietà di scenari. La valutazione viene effettuata utilizzando cinque problemi introduttivi di programmazione in Python e programmi con bug reali provenienti da una piattaforma online, e le prestazioni vengono valutate tramite annotazioni basate su esperti. I nostri risultati dimostrano che GPT-4 supera nettamente ChatGPT (basato su GPT-3.5) e si avvicina alle prestazioni dei tutor umani in diversi scenari. Questi risultati evidenziano anche contesti in cui GPT-4 incontra ancora difficoltà, offrendo interessanti direzioni future per lo sviluppo di tecniche volte a migliorare le prestazioni di questi modelli.
Le sequenze genomiche (DNA) codificano un'enorme quantità di informazioni per la regolazione genica e la sintesi proteica. Similmente ai modelli di linguaggio naturale, i ricercatori hanno proposto modelli di base (foundation models) in genomica per apprendere caratteristiche generalizzabili da dati genomici non etichettati, che possono poi essere affinati per compiti specifici come l'identificazione di elementi regolatori. A causa della scala quadratica dell'attenzione, i precedenti modelli genomici basati su Transformer hanno utilizzato contesti da 512 a 4k token (<0,001% del genoma umano), limitando significativamente la modellazione delle interazioni a lungo raggio nel DNA. Inoltre, questi metodi si affidano a tokenizer per aggregare unità di DNA significative, perdendo la risoluzione a singolo nucleotide, dove sottili variazioni genetiche possono alterare completamente la funzione proteica attraverso polimorfismi a singolo nucleotide (SNP). Recentemente, Hyena, un modello di linguaggio di grandi dimensioni basato su convoluzioni implicite, ha dimostrato di eguagliare la qualità dell'attenzione consentendo contesti più lunghi e una complessità temporale inferiore. Sfruttando le nuove capacità a lungo raggio di Hyena, presentiamo HyenaDNA, un modello di base genomico pre-addestrato sul genoma di riferimento umano con contesti fino a 1 milione di token a livello di singolo nucleotide, un aumento fino a 500 volte rispetto ai precedenti modelli basati su attenzione densa. HyenaDNA scala in modo sub-quadratico rispetto alla lunghezza della sequenza (addestrandosi fino a 160 volte più velocemente di un Transformer), utilizza token a singolo nucleotide e ha un contesto globale completo in ogni livello. Esploriamo ciò che un contesto più lungo consente, incluso il primo utilizzo dell'apprendimento in-context in genomica per un adattamento semplice a nuovi compiti senza aggiornare i pesi del modello pre-addestrato. Su benchmark affinati dal Nucleotide Transformer, HyenaDNA raggiunge lo stato dell'arte (SotA) su 12 dei 17 dataset utilizzando un modello con ordini di grandezza meno parametri e dati di pre-addestramento. Su GenomicBenchmarks, HyenaDNA supera lo SotA su tutti gli 8 dataset in media di +9 punti di accuratezza.
Il fine-tuning delle istruzioni sblocca la capacità superiore dei Modelli Linguistici di Grande Dimensione (LLM) di interagire con gli esseri umani. Inoltre, recenti dataset di istruzioni includono immagini come input visivi, raccogliendo risposte per istruzioni basate su immagini. Tuttavia, i modelli addestrati con istruzioni visive non riescono a comprendere bene i dettagli testuali all'interno delle immagini. Questo lavoro migliora l'attuale pipeline di fine-tuning delle istruzioni visive con immagini ricche di testo (ad esempio, poster di film, copertine di libri, ecc.). Nello specifico, utilizziamo prima strumenti OCR disponibili pubblicamente per raccogliere risultati su 422K immagini ricche di testo dal dataset LAION. Inoltre, sollecitiamo GPT-4 solo testo con testi riconosciuti e didascalie di immagini per generare 16K conversazioni, ciascuna contenente coppie domanda-risposta per immagini ricche di testo. Combinando i nostri dati raccolti con i precedenti dati multi-modali di istruzioni, il nostro modello, LLaVAR, migliora sostanzialmente la capacità del modello LLaVA sui dataset VQA basati su testo (fino a un miglioramento del 20% in accuratezza) raggiungendo un'accuratezza del 91.42% su ScienceQA. La valutazione delle istruzioni basata su GPT-4 dimostra anche il miglioramento del nostro modello sia su immagini naturali che su immagini ricche di testo. Attraverso l'analisi qualitativa, LLaVAR mostra promettenti capacità di interazione (ad esempio, ragionamento, scrittura e elaborazione) con gli esseri umani basate sui più recenti contenuti online del mondo reale che combinano testo e immagini. Rendiamo disponibili pubblicamente il nostro codice/dati/modelli all'indirizzo https://llavar.github.io/.
La capacità di rilevare e analizzare automaticamente le esecuzioni fallite è cruciale per un sistema robotico spiegabile e robusto. Recentemente, i Modelli Linguistici di Grande Dimensione (LLM) hanno dimostrato forti capacità di ragionamento basato sul senso comune su input testuali. Per sfruttare il potere degli LLM per la spiegazione dei fallimenti robotici, proponiamo un framework chiamato REFLECT, che converte dati multi-sensoriali in un riepilogo gerarchico delle esperienze passate del robot e interroga l'LLM con un algoritmo progressivo di spiegazione dei fallimenti. Condizionato dalla spiegazione, un pianificatore di correzione dei fallimenti genera un piano eseguibile per il robot per correggere il fallimento e completare il compito. Per valutare sistematicamente il framework, creiamo il dataset RoboFail e dimostriamo che il nostro framework basato su LLM è in grado di generare spiegazioni informative sui fallimenti che assistono la pianificazione corretta con successo. Sito web del progetto: https://roboreflect.github.io/
I modelli di diffusione per il denoising hanno recentemente mostrato risultati impressionanti in compiti generativi. Apprendendo potenti prior da enormi collezioni di immagini di addestramento, tali modelli sono in grado di modificare gradualmente il rumore completo in un'immagine naturale pulita attraverso una sequenza di piccoli passi di denoising, rendendoli apparentemente ben adatti per il denoising di singole immagini. Tuttavia, applicare efficacemente i modelli di diffusione per il denoising alla rimozione di rumore realistico è più impegnativo di quanto possa sembrare, poiché la loro formulazione si basa su rumore bianco gaussiano additivo, a differenza del rumore presente nelle immagini del mondo reale. In questo lavoro, presentiamo SVNR, una nuova formulazione di diffusione per il denoising che assume un modello di rumore più realistico e spazialmente variante. SVNR consente di utilizzare l'immagine rumorosa in ingresso come punto di partenza per il processo di diffusione per il denoising, oltre a condizionare il processo su di essa. A tal fine, adattiamo il processo di diffusione per consentire a ciascun pixel di avere il proprio embedding temporale e proponiamo schemi di addestramento e inferenza che supportano mappe temporali spazialmente varianti. La nostra formulazione tiene anche conto della correlazione esistente tra l'immagine di condizione e i campioni lungo il processo di diffusione modificato. Nei nostri esperimenti dimostriamo i vantaggi del nostro approccio rispetto a un solido modello di diffusione di base, nonché rispetto a un metodo all'avanguardia per il denoising di singole immagini.
I grandi modelli linguistici (LLM) potrebbero non rappresentare equamente le diverse prospettive globali sulle questioni sociali. In questo articolo, sviluppiamo un framework quantitativo per valutare a quali opinioni le risposte generate dai modelli siano più simili. Iniziamo costruendo un dataset, GlobalOpinionQA, composto da domande e risposte provenienti da sondaggi transnazionali progettati per catturare opinioni diverse su questioni globali in diversi paesi. Successivamente, definiamo una metrica che quantifica la somiglianza tra le risposte ai sondaggi generate dagli LLM e quelle umane, condizionate al paese. Utilizzando il nostro framework, conduciamo tre esperimenti su un LLM addestrato per essere utile, onesto e innocuo con Constitutional AI. Di default, le risposte degli LLM tendono a essere più simili alle opinioni di alcune popolazioni, come quelle degli USA e di alcuni paesi europei e sudamericani, evidenziando il potenziale per bias. Quando sollecitiamo il modello a considerare la prospettiva di un particolare paese, le risposte si spostano per essere più simili alle opinioni delle popolazioni sollecitate, ma possono riflettere stereotipi culturali dannosi. Quando traduciamo le domande di GlobalOpinionQA in una lingua target, le risposte del modello non diventano necessariamente le più simili alle opinioni dei parlanti di quelle lingue. Rilasciamo il nostro dataset affinché altri possano utilizzarlo e costruirci sopra. I nostri dati sono disponibili su https://huggingface.co/datasets/Anthropic/llm_global_opinions. Forniamo anche una visualizzazione interattiva su https://llmglobalvalues.anthropic.com.
I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli fin da subito per un'ampia gamma di applicazioni, ma l'accuratezza rimane un'area di crescita cruciale, specialmente in domini mission-critical come la biomedicina. Un metodo efficace per calibrare il livello di fiducia nelle risposte degli LLM è essenziale per rilevare automaticamente gli errori e facilitare la verifica con l'uomo nel ciclo. Un'importante fonte di segnali di calibrazione deriva dalla supervisione programmatica stabilita da esperti, spesso disponibile a basso costo ma con limitazioni come rumore e copertura. In questo articolo, introduciamo un framework di auto-supervisione Pareto-ottimale che può sfruttare la supervisione programmatica disponibile per calibrare sistematicamente le risposte degli LLM producendo un punteggio di rischio per ogni risposta, senza ulteriori sforzi manuali. Questo è ottenuto apprendendo un modello armonizzatore per allineare l'output degli LLM con altre fonti di supervisione disponibili, che assegna punteggi di rischio più alti alle risposte degli LLM più incerte e facilita la correzione degli errori. Esperimenti su compiti standard di estrazione di relazioni nei domini biomedico e generale dimostrano il potenziale di questo approccio, con i nostri punteggi di rischio altamente correlati al tasso di errore reale degli LLM. Per le istanze di test più incerte, il prompting dinamico basato sui nostri punteggi di rischio porta a un significativo miglioramento dell'accuratezza per gli LLM pronti all'uso, superando i risultati di GPT-3 rispetto ai migliori approcci di supervisione debole (SOTA) e i risultati di GPT-4 rispetto ai migliori risultati supervisionati SOTA su dataset di valutazione impegnativi.
I recenti sistemi end-to-end per il riconoscimento automatico del parlato (ASR) spesso utilizzano un codificatore acustico basato su Transformer che genera embedding a una frequenza di frame elevata. Tuttavia, questo design risulta inefficiente, specialmente per segnali vocali lunghi, a causa del calcolo quadratico dell'auto-attenzione. Per affrontare questo problema, proponiamo un nuovo metodo, chiamato Adjacent Token Merging (A-ToMe), che combina gradualmente token adiacenti con punteggi di similarità elevati tra i loro valori chiave. In questo modo, il numero totale di passaggi temporali può essere ridotto, accelerando l'inferenza sia del codificatore che della rete congiunta. Esperimenti su LibriSpeech dimostrano che il nostro metodo può ridurre il 57% dei token e migliorare la velocità di inferenza su GPU del 70% senza una perdita significativa di accuratezza. Inoltre, dimostriamo che A-ToMe è anche una soluzione efficace per ridurre i token nell'ASR a lungo formato, dove il parlato in input è composto da più enunciati.