Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo la famiglia di modelli Yi, una serie di modelli linguistici e multimodali che dimostrano forti capacità multidimensionali. La famiglia di modelli Yi si basa su modelli linguistici pre-addestrati da 6B e 34B, che successivamente estendiamo a modelli di chat, modelli con contesto lungo 200K, modelli con profondità aumentata e modelli visione-linguaggio. I nostri modelli di base raggiungono prestazioni solide su un'ampia gamma di benchmark come MMLU, mentre i nostri modelli di chat finetunati ottengono un elevato tasso di preferenza umana su piattaforme di valutazione principali come AlpacaEval e Chatbot Arena. Basandoci sulla nostra infrastruttura di supercalcolo scalabile e sull'architettura classica dei transformer, attribuiamo le prestazioni dei modelli Yi principalmente alla qualità dei dati, frutto dei nostri sforzi di data engineering. Per il pre-addestramento, abbiamo costruito un corpus di 3,1 trilioni di token in inglese e cinese utilizzando una pipeline a cascada per la deduplicazione e il filtraggio di qualità dei dati. Per il finetuning, abbiamo perfezionato un dataset di istruzioni di piccole dimensioni (meno di 10K) attraverso iterazioni multiple, in modo che ogni singolo esempio sia stato verificato direttamente dai nostri ingegneri di machine learning. Per i modelli visione-linguaggio, abbiamo combinato il modello linguistico di chat con un encoder vision transformer e addestrato il modello per allineare le rappresentazioni visive allo spazio semantico del modello linguistico. Abbiamo inoltre esteso la lunghezza del contesto a 200K attraverso un pre-addestramento continuo leggero e dimostrato solide prestazioni nel recupero di informazioni complesse (needle-in-a-haystack). Mostriamo che estendere la profondità del checkpoint pre-addestrato attraverso un pre-addestramento continuo migliora ulteriormente le prestazioni. Riteniamo che, dati i risultati attuali, continuare a scalare i parametri del modello utilizzando dati ottimizzati in modo approfondito porterà a modelli di frontiera ancora più potenti.
Il Reinforcement Learning from Human Feedback (RLHF) è emerso come un approccio dominante per allineare gli output dei Large Language Models (LLM) con le preferenze umane. Ispirati dal successo dell'RLHF, studiamo le prestazioni di diversi algoritmi che apprendono dal feedback (Expert Iteration, Proximal Policy Optimization (PPO), Return-Conditioned RL) nel migliorare le capacità di ragionamento dei LLM. Investigiamo sia ricompense sparse che dense fornite al LLM, sia in modo euristico che tramite un modello di ricompensa appreso. Inoltre, partiamo da diverse dimensioni e inizializzazioni del modello, sia con che senza dati di fine-tuning supervisionato (SFT). Nel complesso, troviamo che tutti gli algoritmi performano in modo comparabile, con Expert Iteration che ottiene i migliori risultati nella maggior parte dei casi. Sorprendentemente, scopriamo che la complessità campionaria di Expert Iteration è simile a quella di PPO, richiedendo al massimo dell'ordine di 10^6 campioni per convergere da un checkpoint pre-addestrato. Investigiamo il motivo di ciò, concludendo che durante l'addestramento RL i modelli non riescono a esplorare significativamente oltre le soluzioni già prodotte dai modelli SFT. Inoltre, discutiamo un compromesso tra le metriche maj@1 e pass@96 durante l'addestramento SFT e come, al contrario, l'addestramento RL migliori entrambe simultaneamente. Concludiamo quindi discutendo le implicazioni dei nostri risultati per l'RLHF e il futuro ruolo del RL nel fine-tuning dei LLM.
I Large Language Model (LLM) hanno sbloccato nuove capacità e applicazioni; tuttavia, valutare l'allineamento con le preferenze umane rappresenta ancora una sfida significativa. Per affrontare questo problema, introduciamo Chatbot Arena, una piattaforma aperta per la valutazione degli LLM basata sulle preferenze umane. La nostra metodologia utilizza un approccio di confronto a coppie e sfrutta il contributo di un'ampia base di utenti attraverso il crowdsourcing. La piattaforma è operativa da diversi mesi, raccogliendo oltre 240.000 voti. Questo articolo descrive la piattaforma, analizza i dati raccolti finora e spiega i metodi statistici collaudati che utilizziamo per una valutazione e classificazione efficiente e accurata dei modelli. Confermiamo che le domande raccolte tramite crowdsourcing sono sufficientemente diversificate e discriminanti e che i voti umani raccolti sono in buon accordo con quelli dei valutatori esperti. Queste analisi stabiliscono collettivamente una solida base per la credibilità di Chatbot Arena. Grazie al suo valore unico e alla sua apertura, Chatbot Arena è emersa come una delle classifiche di LLM più citate, ampiamente referenziata dai principali sviluppatori e aziende di LLM. La nostra demo è disponibile pubblicamente all'indirizzo https://chat.lmsys.org.
L'editing di immagini basato su punti ha attirato notevole attenzione sin dall'emergere di DragGAN. Recentemente, DragDiffusion ha ulteriormente migliorato la qualità generativa adattando questa tecnica di trascinamento ai modelli di diffusione. Nonostante questi grandi successi, questo schema di trascinamento presenta due principali inconvenienti, ovvero il tracciamento impreciso dei punti e una supervisione del movimento incompleta, che possono portare a risultati di trascinamento insoddisfacenti. Per affrontare questi problemi, abbiamo costruito un framework di editing basato su trascinamento stabile e preciso, denominato StableDrag, progettando un metodo di tracciamento dei punti discriminativo e una strategia di miglioramento latente basata sulla fiducia per la supervisione del movimento. Il primo ci consente di localizzare con precisione i punti di manipolazione aggiornati, migliorando così la stabilità della manipolazione a lungo raggio, mentre il secondo è responsabile di garantire che il latente ottimizzato sia di alta qualità in tutti i passaggi di manipolazione. Grazie a queste soluzioni uniche, abbiamo istanziato due tipi di modelli di editing di immagini, inclusi StableDrag-GAN e StableDrag-Diff, che raggiungono una performance di trascinamento più stabile, attraverso ampi esperimenti qualitativi e valutazioni quantitative su DragBench.
Gli strumenti sono essenziali affinché i modelli linguistici di grandi dimensioni (LLM) possano acquisire informazioni aggiornate e intraprendere azioni consequenziali in ambienti esterni. Il lavoro esistente sugli LLM potenziati da strumenti si concentra principalmente sull'ampia copertura degli strumenti e sulla flessibilità nell'aggiungere nuovi strumenti. Tuttavia, un aspetto critico che è stato sorprendentemente poco studiato è semplicemente quanto accuratamente un LLM utilizzi gli strumenti per i quali è stato addestrato. Scopriamo che gli LLM esistenti, inclusi GPT-4 e LLM open-source specificamente ottimizzati per l'uso di strumenti, raggiungono un tasso di correttezza compreso tra il 30% e il 60%, ben lontano da un utilizzo affidabile nella pratica. Proponiamo un metodo ispirato alla biologia per gli LLM potenziati da strumenti, il trial and error simulato (STE), che orchestra tre meccanismi chiave per comportamenti di successo nell'uso degli strumenti nel sistema biologico: trial and error, immaginazione e memoria. Nello specifico, STE sfrutta l'"immaginazione" di un LLM per simulare scenari plausibili per l'uso di uno strumento, dopo di che l'LLM interagisce con lo strumento per apprendere dal feedback della sua esecuzione. Sia la memoria a breve termine che quella a lungo termine vengono impiegate per migliorare rispettivamente la profondità e l'ampiezza dell'esplorazione. Esperimenti completi su ToolBench dimostrano che STE migliora sostanzialmente l'apprendimento degli strumenti per gli LLM sia in contesti di apprendimento in-context che di fine-tuning, portando un incremento del 46,7% a Mistral-Instruct-7B e consentendogli di superare GPT-4. Mostriamo inoltre un efficace apprendimento continuo degli strumenti attraverso una semplice strategia di replay delle esperienze.
I modelli visione-linguaggio (VLMs) come GPT-4V hanno recentemente dimostrato progressi incredibili in una vasta gamma di task che combinano visione e linguaggio. Ci addentriamo nel ragionamento deduttivo basato sulla visione, un ambito più sofisticato ma meno esplorato, e scopriamo punti ciechi precedentemente non evidenziati negli attuali VLMs all'avanguardia. Nello specifico, utilizziamo le Matrici Progressive di Raven (RPMs) per valutare le capacità dei VLMs di eseguire ragionamenti relazionali e deduttivi multi-hop basandosi esclusivamente su indizi visivi. Eseguiamo valutazioni approfondite di diversi VLMs popolari impiegando strategie standard come l'apprendimento in-context, la self-consistency e la Catena di Pensiero (CoT) su tre dataset diversi, tra cui il test del QI Mensa, IntelligenceTest e RAVEN. I risultati rivelano che, nonostante le impressionanti capacità dei LLMs nel ragionamento basato sul testo, siamo ancora lontani dal raggiungere una competenza comparabile nel ragionamento deduttivo visivo. Abbiamo scoperto che alcune strategie standard efficaci quando applicate ai LLMs non si traducono in modo fluido nelle sfide poste dai task di ragionamento visivo. Inoltre, un'analisi dettagliata mostra che i VLMs faticano a risolvere questi task principalmente perché non riescono a percepire e comprendere molteplici pattern astratti e confondenti presenti negli esempi di RPM.
Si credeva che le capacità matematiche emergessero nei modelli linguistici comuni solo su scala molto ampia o richiedessero un pre-addestramento estensivo in ambito matematico. Questo articolo dimostra che il modello LLaMA-2 7B, con un pre-addestramento comune, mostra già forti abilità matematiche, come evidenziato dalla sua impressionante accuratezza del 97,7% e del 72,0% sui benchmark GSM8K e MATH, rispettivamente, quando si seleziona la migliore risposta tra 256 generazioni casuali. Il problema principale del modello base attuale è la difficoltà di elicitare in modo coerente le sue capacità matematiche intrinseche. In particolare, l'accuratezza per la prima risposta scende al 49,5% e al 7,9% sui benchmark GSM8K e MATH, rispettivamente. Scopriamo che semplicemente aumentando i dati SFT si può migliorare significativamente l'affidabilità nella generazione di risposte corrette. Tuttavia, il potenziale per un'estensione su larga scala è limitato dalla scarsità di domande matematiche disponibili pubblicamente. Per superare questa limitazione, utilizziamo dati sintetici, che si dimostrano quasi altrettanto efficaci dei dati reali e non mostrano una chiara saturazione quando vengono scalati fino a circa un milione di campioni. Questo approccio semplice raggiunge un'accuratezza dell'82,6% su GSM8K e del 40,6% su MATH utilizzando i modelli LLaMA-2 7B, superando i modelli precedenti del 14,2% e del 20,8%, rispettivamente. Forniamo inoltre approfondimenti sui comportamenti di scalabilità attraverso diverse complessità di ragionamento e tipi di errore.
Presentiamo Pix2Gif, un modello di diffusione guidato dal movimento per la generazione di immagini in GIF (video). Affrontiamo questo problema in modo diverso formulando il compito come un problema di traduzione di immagini guidato da prompt testuali e di magnitudine del movimento, come mostrato nella figura introduttiva. Per garantire che il modello segua la guida del movimento, proponiamo un nuovo modulo di deformazione guidata dal movimento per trasformare spazialmente le caratteristiche dell'immagine sorgente condizionate sui due tipi di prompt. Inoltre, introduciamo una perdita percettiva per assicurare che la mappa delle caratteristiche trasformate rimanga nello stesso spazio dell'immagine target, garantendo coerenza e consistenza del contenuto. In preparazione per l'addestramento del modello, abbiamo curato meticolosamente i dati estraendo frame di immagini coerenti dal dataset TGIF video-caption, che fornisce informazioni ricche sui cambiamenti temporali dei soggetti. Dopo il pre-addestramento, applichiamo il nostro modello in modalità zero-shot a diversi dataset video. Esperimenti qualitativi e quantitativi estesi dimostrano l'efficacia del nostro modello: non solo cattura il prompt semantico dal testo, ma anche quelli spaziali dalla guida del movimento. Addestriamo tutti i nostri modelli utilizzando un singolo nodo con 16 GPU V100. Codice, dataset e modelli sono resi pubblici all'indirizzo: https://hiteshk03.github.io/Pix2Gif/.
I raggi X sono ampiamente utilizzati per l'imaging a trasmissione grazie alla loro maggiore penetrazione rispetto alla luce naturale. Quando si generano proiezioni di raggi X da nuove prospettive, i metodi esistenti basati principalmente su NeRF soffrono di lunghi tempi di addestramento e di una velocità di inferenza lenta. In questo articolo, proponiamo un framework basato su 3D Gaussian splatting, denominato X-Gaussian, per la sintesi di nuove viste di raggi X. In primo luogo, ridisegniamo un modello di nuvola di punti Gaussiana radiante ispirato alla natura isotropica dell'imaging a raggi X. Il nostro modello esclude l'influenza della direzione di vista durante l'apprendimento per prevedere l'intensità di radiazione dei punti 3D. Sulla base di questo modello, sviluppiamo una Rasterizzazione Radiante Differenziabile (DRR) con implementazione CUDA. In secondo luogo, personalizziamo una strategia di Inizializzazione Uniforme Cuboide Angolo-posa (ACUI) che utilizza direttamente i parametri dello scanner a raggi X per calcolare le informazioni della telecamera e poi campiona uniformemente le posizioni dei punti all'interno di un cuboide che racchiude l'oggetto scansionato. Gli esperimenti mostrano che il nostro X-Gaussian supera i metodi all'avanguardia di 6,5 dB, godendo di meno del 15% del tempo di addestramento e di una velocità di inferenza superiore a 73x. L'applicazione nella ricostruzione TC a vista sparsa rivela anche i valori pratici del nostro metodo. Codice e modelli saranno pubblicamente disponibili su https://github.com/caiyuanhao1998/X-Gaussian. Una demo video della visualizzazione del processo di addestramento è disponibile su https://www.youtube.com/watch?v=gDVf_Ngeghg.