Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo rapporto introduce la serie Qwen2, l'ultima aggiunta ai nostri modelli linguistici di grandi dimensioni e modelli multimodali di grandi dimensioni. Rilasciamo una suite completa di modelli linguistici di base e ottimizzati per istruzioni, che coprono un intervallo di parametri da 0,5 a 72 miliardi, includendo modelli densi e un modello Mixture-of-Experts. Qwen2 supera la maggior parte dei modelli open-weight precedenti, incluso il suo predecessore Qwen1.5, e mostra prestazioni competitive rispetto ai modelli proprietari in vari benchmark su comprensione del linguaggio, generazione, competenza multilingue, codifica, matematica e ragionamento. Il modello di punta, Qwen2-72B, mostra prestazioni notevoli: 84,2 su MMLU, 37,9 su GPQA, 64,6 su HumanEval, 89,5 su GSM8K e 82,4 su BBH come modello linguistico di base. La variante ottimizzata per istruzioni, Qwen2-72B-Instruct, raggiunge 9,1 su MT-Bench, 48,1 su Arena-Hard e 35,7 su LiveCodeBench. Inoltre, Qwen2 dimostra robuste capacità multilingue, competente in circa 30 lingue, tra cui inglese, cinese, spagnolo, francese, tedesco, arabo, russo, coreano, giapponese, thailandese, vietnamita e altre, sottolineando la sua versatilità e portata globale. Per favorire l'innovazione e l'accessibilità della comunità, abbiamo reso disponibili i pesi del modello Qwen2 su Hugging Face1 e ModelScope2, e i materiali supplementari, incluso il codice di esempio, su GitHub3. Queste piattaforme includono anche risorse per la quantizzazione, il fine-tuning e il deployment, facilitando una vasta gamma di applicazioni e iniziative di ricerca.
I grandi modelli linguistici (LLM) dimostrano capacità straordinarie nella comprensione e generazione del linguaggio naturale. Tuttavia, questi modelli possono memorizzare involontariamente informazioni private, rappresentando rischi significativi per la privacy. Questo studio affronta la sfida di consentire ai LLM di proteggere i dati personali di specifici individui senza la necessità di un completo riaddestramento. Proponiamo \return, un dataset di Real-world pErsonal daTa UnleaRNing, composto da 2.492 individui provenienti da Wikipedia con coppie di domande e risposte associate, per valutare i metodi di machine unlearning (MU) per la protezione dei dati personali in uno scenario realistico. Inoltre, introduciamo il Name-Aware Unlearning Framework (NAUF) per la protezione della privacy, che consente al modello di apprendere quali informazioni degli individui debbano essere protette senza compromettere la sua capacità di rispondere a domande relative ad altri individui non correlati. I nostri ampi esperimenti dimostrano che NAUF raggiunge un punteggio medio di unlearning all'avanguardia, superando il miglior metodo di riferimento di 5,65 punti, proteggendo efficacemente i dati personali degli individui target mantenendo le capacità generali del modello.
Recenti lavori hanno esplorato le leggi di scala nel campo dell'Intelligenza Artificiale Embodied. Considerati i costi proibitivi della raccolta di dati nel mondo reale, riteniamo che il paradigma Simulation-to-Real (Sim2Real) rappresenti un passaggio cruciale per scalare l'apprendimento di modelli embodied. Questo articolo introduce il progetto GRUtopia, la prima società interattiva simulata in 3D progettata per vari robot. Esso presenta diversi progressi: (a) Il dataset di scene, GRScenes, include 100k scene interattive e finemente annotate, che possono essere liberamente combinate in ambienti su scala cittadina. A differenza dei lavori precedenti, che si concentravano principalmente su ambienti domestici, GRScenes copre 89 categorie di scene diverse, colmando il vuoto degli ambienti orientati ai servizi in cui i robot generali verrebbero inizialmente impiegati. (b) GRResidents, un sistema di Personaggi Non Giocanti (NPC) guidato da un Large Language Model (LLM), responsabile dell'interazione sociale, della generazione di compiti e dell'assegnazione di compiti, simulando così scenari sociali per applicazioni di AI embodied. (c) Il benchmark, GRBench, supporta vari robot ma si concentra sui robot a zampe come agenti primari e propone compiti moderatamente impegnativi che coinvolgono Object Loco-Navigation, Social Loco-Navigation e Loco-Manipulation. Speriamo che questo lavoro possa alleviare la scarsità di dati di alta qualità in questo campo e fornire una valutazione più completa della ricerca sull'AI Embodied. Il progetto è disponibile all'indirizzo https://github.com/OpenRobotLab/GRUtopia.
Le valutazioni attuali dei grandi modelli linguistici (LLM) spesso trascurano il non-determinismo, concentrandosi tipicamente su un singolo output per esempio. Ciò limita la nostra comprensione della variabilità delle prestazioni degli LLM nelle applicazioni del mondo reale. Il nostro studio affronta questa problematica esplorando questioni chiave riguardanti le differenze di prestazione tra il decoding greedy e il sampling, identificando la coerenza dei benchmark rispetto al non-determinismo, ed esaminando comportamenti unici dei modelli. Attraverso esperimenti estensivi, osserviamo che il decoding greedy generalmente supera i metodi di sampling per la maggior parte dei compiti valutati. Notiamo inoltre prestazioni coerenti tra diverse dimensioni degli LLM e metodi di allineamento, osservando che l'allineamento può ridurre la varianza del sampling. Inoltre, il nostro approccio di best-of-N sampling dimostra che LLM più piccoli possono eguagliare o superare modelli più grandi come GPT-4-Turbo, evidenziando il potenziale inesplorato degli LLM più piccoli. Questa ricerca mostra l'importanza di considerare il non-determinismo nelle valutazioni degli LLM e fornisce spunti per lo sviluppo e la valutazione futura degli LLM.
Introduciamo Q-Sparse, un approccio semplice ma efficace per l'addestramento di modelli linguistici di grandi dimensioni (LLM) con attivazione sparsa. Q-Sparse consente la completa sparsità delle attivazioni negli LLM, portando a significativi guadagni di efficienza durante l'inferenza. Questo risultato è ottenuto applicando la sparsificazione top-K alle attivazioni e lo stimatore diretto (straight-through-estimator) durante l'addestramento. I risultati chiave di questo lavoro sono: (1) Q-Sparse può raggiungere prestazioni paragonabili a quelle dei LLM di riferimento, pur essendo molto più efficiente in fase di inferenza; (2) Presentiamo una legge di scalabilità ottimizzata per l'inferenza di LLM con attivazione sparsa; (3) Q-Sparse è efficace in diversi contesti, tra cui l'addestramento da zero, il continuo addestramento di LLM preesistenti e il fine-tuning; (4) Q-Sparse funziona sia per LLM a precisione completa che per quelli a 1 bit (ad esempio, BitNet b1.58). In particolare, la sinergia tra BitNet b1.58 e Q-Sparse (che può essere integrata con MoE) fornisce le basi e un percorso chiaro per rivoluzionare l'efficienza, inclusi i costi e il consumo energetico, dei futuri LLM.
Man mano che i modelli linguistici di grandi dimensioni (LLM) progrediscono, diventa sempre più difficile valutare in modo affidabile il loro output a causa degli elevati costi della valutazione umana. Per fare progressi verso migliori autorater LLM, introduciamo FLAMe, una famiglia di Foundational Large Autorater Models. FLAMe è addestrato sulla nostra vasta e diversificata raccolta di oltre 100 task di valutazione della qualità, comprendente più di 5 milioni di giudizi umani, curati e standardizzati utilizzando valutazioni umane rilasciate pubblicamente da ricerche precedenti. FLAMe migliora significativamente la generalizzazione su una vasta gamma di task tenuti da parte, superando LLM addestrati su dati proprietari come GPT-4 e Claude-3 in molti task. Dimostriamo che FLAMe può anche servire come un potente punto di partenza per ulteriori ottimizzazioni downstream, utilizzando la valutazione del reward modeling come caso di studio (FLAMe-RM). In particolare, su RewardBench, il nostro modello FLAMe-RM-24B (con un'accuratezza dell'87,8%) è il modello generativo con le migliori prestazioni addestrato esclusivamente su dati con licenza permissiva, superando sia GPT-4-0125 (85,9%) che GPT-4o (84,7%). Inoltre, esploriamo un approccio più efficiente dal punto di vista computazionale utilizzando una nuova strategia di fine-tuning tail-patch per ottimizzare la nostra miscela multitask FLAMe per la valutazione del reward modeling (FLAMe-Opt-RM), offrendo prestazioni competitive su RewardBench pur richiedendo circa 25 volte meno punti di addestramento. Nel complesso, le nostre varianti FLAMe superano tutti i popolari modelli LLM-as-a-Judge proprietari che consideriamo in 8 su 12 benchmark di valutazione autorater, comprendenti 53 task di valutazione della qualità, inclusi RewardBench e LLM-AggreFact. Infine, la nostra analisi rivela che FLAMe è significativamente meno distorto rispetto a questi modelli LLM-as-a-Judge sul benchmark di bias autorater CoBBLEr, identificando efficacemente risposte di alta qualità per la generazione di codice.
Possiamo generare una politica di controllo per un agente utilizzando una sola dimostrazione di comportamenti desiderati come prompt, con la stessa facilità con cui si crea un'immagine da una descrizione testuale? In questo articolo, presentiamo Make-An-Agent, un innovativo generatore di parametri per politiche che sfrutta la potenza dei modelli di diffusione condizionata per la generazione di politiche a partire da comportamenti. Guidato da embedding comportamentali che codificano informazioni sulle traiettorie, il nostro generatore di politiche sintetizza rappresentazioni latenti dei parametri, che possono poi essere decodificate in reti di politiche. Addestrato su checkpoint di reti di politiche e sulle corrispondenti traiettorie, il nostro modello di generazione dimostra una notevole versatilità e scalabilità su molteplici task e possiede una forte capacità di generalizzazione su task non visti, producendo politiche ben performanti con solo poche dimostrazioni come input. Ne mostriamo l'efficacia e l'efficienza in vari domini e task, inclusi obiettivi variabili, comportamenti diversi e persino su diversi manipolatori robotici. Oltre alla simulazione, implementiamo direttamente le politiche generate da Make-An-Agent su robot reali per task di locomozione.
Sebbene i modelli di diffusione testo-immagine abbiano dimostrato di raggiungere risultati all'avanguardia nella sintesi di immagini, devono ancora provare la loro efficacia nelle applicazioni downstream. Precedenti lavori hanno proposto di generare dati per l'addestramento di classificatori di immagini in presenza di un accesso limitato a dati reali. Tuttavia, questi metodi faticano a generare immagini in-distribuzione o a rappresentare caratteristiche fini, ostacolando così la generalizzazione dei modelli di classificazione addestrati su dataset sintetici. Proponiamo DataDream, un framework per sintetizzare dataset di classificazione che rappresentano in modo più fedele la distribuzione dei dati reali quando guidati da pochi esempi delle classi target. DataDream ottimizza i pesi LoRA per il modello di generazione di immagini sui pochi esempi reali prima di generare i dati di addestramento utilizzando il modello adattato. Successivamente, ottimizziamo i pesi LoRA per CLIP utilizzando i dati sintetici per migliorare la classificazione di immagini downstream rispetto agli approcci precedenti su una vasta gamma di dataset. Dimostriamo l'efficacia di DataDream attraverso esperimenti estesi, superando l'accuratezza di classificazione state-of-the-art con dati few-shot su 7 su 10 dataset, mentre rimanendo competitivi sugli altri 3. Inoltre, forniamo approfondimenti sull'impatto di vari fattori, come il numero di immagini real-shot e generate, nonché il calcolo di fine-tuning sulle prestazioni del modello. Il codice è disponibile all'indirizzo https://github.com/ExplainableML/DataDream.
La generazione video-to-audio (V2A) sfrutta le caratteristiche visive di un video per produrre suoni plausibili che corrispondono alla scena. È fondamentale che l'inizio dei suoni generati sia sincronizzato con le azioni visive a cui sono associati, altrimenti si verificano artefatti di sincronizzazione innaturali. Recenti lavori hanno esplorato l'evoluzione dei generatori di suoni condizionati prima su immagini statiche e poi su caratteristiche video, concentrandosi sulla qualità e sulla corrispondenza semantica mentre ignoravano la sincronizzazione, oppure sacrificando parte della qualità per migliorare esclusivamente la sincronizzazione. In questo lavoro, proponiamo un modello generativo V2A, denominato MaskVAT, che interconnette un codec audio generale ad alta qualità a banda completa con un modello generativo sequenziale mascherato. Questa combinazione consente di modellare contemporaneamente alta qualità audio, corrispondenza semantica e sincronicità temporale. I nostri risultati dimostrano che, unendo un codec di alta qualità con caratteristiche audio-visive pre-addestrate adeguate e una struttura sequenziale parallela, siamo in grado di ottenere risultati altamente sincronizzati da un lato, pur rimanendo competitivi con lo stato dell'arte dei modelli generativi audio non basati su codec. Video di esempio e audio generati sono disponibili su https://maskvat.github.io.
Introduciamo una nuova famiglia di modelli di previsione video progettati per supportare attività di controllo downstream. Chiamiamo questi modelli Video Occupancy models (VOC). I VOC operano in uno spazio latente compatto, evitando così la necessità di fare previsioni sui singoli pixel. A differenza dei precedenti modelli di mondo nello spazio latente, i VOC prevedono direttamente la distribuzione scontata degli stati futuri in un singolo passaggio, evitando così la necessità di roll-out multi-step. Dimostriamo che entrambe queste proprietà sono vantaggiose nella costruzione di modelli predittivi di video da utilizzare nel controllo downstream. Il codice è disponibile all'indirizzo https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.
I flussi di lavoro di data science e ingegneria spesso si estendono su più fasi, dall'archiviazione all'orchestrazione, utilizzando strumenti come BigQuery, dbt e Airbyte. Con l'avanzamento dei modelli linguistici visivi (VLMs) nella comprensione multimodale e nella generazione di codice, gli agenti basati su VLM potrebbero potenzialmente automatizzare questi flussi di lavoro generando query SQL, codice Python e operazioni GUI. Questa automazione può migliorare la produttività degli esperti, democratizzando al contempo l'accesso all'analisi di dati su larga scala. In questo articolo, introduciamo Spider2-V, il primo benchmark multimodale per agenti focalizzato sui flussi di lavoro professionali di data science e ingegneria, caratterizzato da 494 task reali in ambienti informatici autentici e che incorpora 20 applicazioni professionali di livello enterprise. Questi task, derivati da casi d'uso reali, valutano la capacità di un agente multimodale di eseguire attività legate ai dati scrivendo codice e gestendo la GUI nei sistemi software enterprise per i dati. Per bilanciare il realismo della simulazione con la semplicità di valutazione, abbiamo dedicato uno sforzo significativo allo sviluppo di configurazioni automatiche per l'impostazione dei task e alla creazione accurata di metriche di valutazione per ciascun task. Inoltre, abbiamo integrato gli agenti multimodali con documentazione completa di questi sistemi software enterprise per i dati. La nostra valutazione empirica rivela che gli agenti basati su LLM/VLM allo stato dell'arte non automatizzano in modo affidabile interi flussi di lavoro dati (14,0% di successo). Anche con una guida passo-passo, questi agenti continuano a ottenere risultati inferiori nei task che richiedono azioni GUI dettagliate e ad alta intensità di conoscenza (16,2%) e che coinvolgono spazi di lavoro remoti ospitati su cloud (10,6%). Speriamo che Spider2-V apra la strada a agenti multimodali autonomi per trasformare l'automazione dei flussi di lavoro di data science e ingegneria. Il nostro codice e i dati sono disponibili su https://spider2-v.github.io.
Esiste un diffuso ottimismo sul fatto che i modelli linguistici di frontiera (LLM) e i sistemi potenziati da LLM abbiano il potenziale di accelerare rapidamente la scoperta scientifica in diverse discipline. Oggi esistono molti benchmark per misurare la conoscenza e il ragionamento degli LLM su domande scientifiche di tipo scolastico, ma pochi, se non nessuno, sono progettati per valutare le prestazioni dei modelli linguistici su compiti pratici necessari per la ricerca scientifica, come la ricerca bibliografica, la pianificazione di protocolli e l'analisi dei dati. Come passo verso la creazione di tali benchmark, introduciamo il Language Agent Biology Benchmark (LAB-Bench), un ampio dataset di oltre 2.400 domande a scelta multipla per valutare i sistemi di intelligenza artificiale su una gamma di capacità pratiche di ricerca biologica, tra cui il richiamo e il ragionamento sulla letteratura, l'interpretazione di figure, l'accesso e la navigazione di database, e la comprensione e manipolazione di sequenze di DNA e proteine. È importante sottolineare che, a differenza dei precedenti benchmark scientifici, ci aspettiamo che un sistema di intelligenza artificiale in grado di ottenere punteggi costantemente alti sui compiti più difficili di LAB-Bench possa servire come un utile assistente per i ricercatori in aree come la ricerca bibliografica e il clonaggio molecolare. Come valutazione iniziale delle capacità emergenti dei modelli linguistici di frontiera su compiti scientifici, misuriamo le prestazioni di diversi modelli rispetto al nostro benchmark e riportiamo i risultati confrontati con quelli di ricercatori esperti in biologia. Continueremo ad aggiornare e ampliare LAB-Bench nel tempo, e ci aspettiamo che possa servire come uno strumento utile nello sviluppo di sistemi di ricerca automatizzati in futuro. Un sottoinsieme pubblico di LAB-Bench è disponibile per l'uso al seguente URL: https://huggingface.co/datasets/futurehouse/lab-bench
Il transfer learning efficiente in termini di parametri (PETL) è emerso come un campo di ricerca in forte crescita per adattare grandi modelli pre-addestrati a task downstream, riducendo notevolmente i parametri addestrabili e affrontando le sfide legate alla memoria durante il fine-tuning. Per risolvere questo problema, le serie efficienti in termini di memoria (METL) evitano di propagare i gradienti attraverso il grande backbone. Tuttavia, questo compromesso si basa esclusivamente sull'utilizzo di output intermedi congelati, limitando un'esplorazione esaustiva della conoscenza pregressa dei modelli pre-addestrati. Inoltre, la dipendenza e la ridondanza tra le feature cross-layer sono spesso trascurate, oscurando così rappresentazioni più discriminative e causando un gap prestazionale intrinseco (rispetto ai metodi PETL convenzionali). Pertanto, proponiamo una strategia METL innovativa chiamata SHERL per scenari con risorse limitate, che scompone l'intero processo di adattamento in due fasi successive e complementari. Nella fase iniziale, gli output intermedi vengono consolidati tramite un'operazione anti-ridondanza, migliorando la loro compatibilità per interazioni successive; nella fase finale, l'utilizzo di un numero minimo di layer pre-addestrati tardivi può alleviare il picco di richiesta di memoria e regolare queste feature piuttosto flessibili in rappresentazioni più adattive e potenti per nuovi domini. Estese analisi ablative su task di visione-e-linguaggio e solo linguistici dimostrano che SHERL combina i punti di forza delle tecniche efficienti sia in termini di parametri che di memoria, ottenendo prestazioni pari o superiori su diverse architetture con un minor utilizzo di memoria durante il fine-tuning. Il nostro codice è disponibile pubblicamente all'indirizzo: https://github.com/Paranioar/SHERL.
L'Effetto di Rafforzamento Reciproco (MRE) rappresenta una prospettiva promettente nella ricerca sull'estrazione di informazioni e sul multitasking. Tuttavia, la sua applicabilità è stata limitata dalla disponibilità esclusiva di dataset MRE mix in giapponese, restringendo così l'esplorazione approfondita da parte della comunità di ricerca globale. Per affrontare questa limitazione, introduciamo un dataset Multilingue MRE mix (MMM) che comprende 21 sotto-dataset in inglese, giapponese e cinese. In questo articolo, proponiamo inoltre un metodo per la traduzione dei dataset assistita da Modelli Linguistici di Grande Scala (LLMs), che riduce significativamente il tempo di annotazione manuale richiesto per la costruzione dei dataset sfruttando gli LLMs per tradurre i dataset originali in giapponese. Inoltre, abbiamo arricchito il dataset incorporando attività di Riconoscimento di Entità Nominate (NER) a dominio aperto e di classificazione delle frasi. Utilizzando questo dataset ampliato, abbiamo sviluppato un framework unificato di input-output per addestrare un Modello Linguistico di Grande Scala per l'Estrazione di Informazioni a Dominio Aperto (OIELLM). Il modello OIELLM dimostra la capacità di elaborare efficacemente i nuovi dataset MMM, mostrando miglioramenti significativi nelle prestazioni.
La maggior parte dei grandi modelli linguistici (LLM) attualmente implementati subisce un addestramento continuo o un ulteriore affinamento. Al contrario, la maggior parte della ricerca sui meccanismi interni degli LLM si concentra su modelli in un singolo istante temporale (la fine del pre-addestramento), sollevando la questione se i loro risultati siano generalizzabili a contesti reali. Gli studi esistenti sui meccanismi nel tempo si concentrano su modelli encoder-only o su modelli giocattolo, che differiscono significativamente dalla maggior parte dei modelli implementati. In questo studio, monitoriamo come i meccanismi del modello, operazionalizzati come circuiti, emergono e si evolvono durante l'addestramento su 300 miliardi di token in LLM decoder-only, in modelli che vanno da 70 milioni a 2,8 miliardi di parametri. Scopriamo che le abilità di task e i componenti funzionali che le supportano emergono in modo coerente a conteggi di token simili attraverso diverse scale. Inoltre, sebbene tali componenti possano essere implementati da diverse teste di attenzione nel tempo, l'algoritmo generale che implementano rimane invariato. Sorprendentemente, sia questi algoritmi che i tipi di componenti coinvolti possono replicarsi attraverso diverse scale di modelli. Questi risultati suggeriscono che le analisi dei circuiti condotte su modelli piccoli alla fine del pre-addestramento possono fornire intuizioni che rimangono valide anche dopo ulteriore pre-addestramento e attraverso diverse scale di modelli.
Per migliorare la qualità dei video sintetizzati, attualmente un metodo predominante prevede il riaddestramento di un modello di diffusione esperto e l'implementazione di un processo di rumore-denisso per il perfezionamento. Nonostante i costi significativi di addestramento, mantenere la coerenza del contenuto tra i video originali e quelli migliorati rimane una sfida importante. Per affrontare questa sfida, proponiamo una nuova formulazione che considera sia la qualità visiva che la coerenza del contenuto. La coerenza del contenuto è garantita da una funzione di perdita proposta che mantiene la struttura dell'input, mentre la qualità visiva è migliorata sfruttando il processo di denisso dei modelli di diffusione preaddestrati. Per risolvere il problema di ottimizzazione formulato, abbiamo sviluppato una strategia di ottimizzazione del rumore plug-and-play, denominata Calibrazione del Rumore. Affinando il rumore casuale iniziale attraverso poche iterazioni, il contenuto del video originale può essere ampiamente preservato e l'effetto di miglioramento dimostra un notevole progresso. Esperimenti estesi hanno dimostrato l'efficacia del metodo proposto.