Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo rapporto, presentiamo la serie Qwen2.5-Coder, un significativo aggiornamento rispetto al suo predecessore, CodeQwen1.5. Questa serie include due modelli: Qwen2.5-Coder-1.5B e Qwen2.5-Coder-7B. Come modello specifico per il codice, Qwen2.5-Coder si basa sull'architettura Qwen2.5 e continua il preaddestramento su un vasto corpus di oltre 5,5 trilioni di token. Attraverso un'attenta pulizia dei dati, la generazione scalabile di dati sintetici e un bilanciato mixing dei dati, Qwen2.5-Coder dimostra impressionanti capacità di generazione di codice pur mantenendo una versatilità generale. Il modello è stato valutato su una vasta gamma di compiti correlati al codice, raggiungendo prestazioni all'avanguardia su più di 10 benchmark, inclusa la generazione, il completamento, il ragionamento e la riparazione del codice, superando costantemente modelli più grandi della stessa dimensione. Crediamo che il rilascio della serie Qwen2.5-Coder non solo spingerà i confini della ricerca nell'intelligenza del codice, ma anche, attraverso la sua licenza permissiva, incoraggerà una più ampia adozione da parte degli sviluppatori nelle applicazioni del mondo reale.
Presentiamo la Serie Qwen2-VL, un avanzato aggiornamento dei modelli precedenti Qwen-VL che ridefinisce l'approccio convenzionale a risoluzione predeterminata nel trattamento visivo. Qwen2-VL introduce il meccanismo di Risoluzione Dinamica Naive, che consente al modello di elaborare dinamicamente immagini di diverse risoluzioni in diversi numeri di token visivi. Questo approccio consente al modello di generare rappresentazioni visive più efficienti e accurate, allineandosi strettamente ai processi percettivi umani. Il modello integra anche l'Incorporamento Posizionale Rotante Multimodale (M-RoPE), facilitando la fusione efficace delle informazioni posizionali tra testo, immagini e video. Utilizziamo un paradigma unificato per elaborare sia immagini che video, potenziando le capacità di percezione visiva del modello. Per esplorare il potenziale dei grandi modelli multimodali, Qwen2-VL studia le leggi di scala per i grandi modelli visione-linguaggio (LVLMs). Scalando sia la dimensione del modello - con versioni a 2B, 8B e 72B parametri - sia la quantità di dati di addestramento, la Serie Qwen2-VL raggiunge prestazioni altamente competitive. In particolare, il modello Qwen2-VL-72B ottiene risultati paragonabili ai modelli leader come GPT-4o e Claude3.5-Sonnet su vari benchmark multimodali, superando altri modelli generalisti. Il codice è disponibile su https://github.com/QwenLM/Qwen2-VL.
Una comprensione testuale ampia e un apprendimento contestuale richiedono modelli linguistici che utilizzino contesti di documenti completi. A causa delle sfide di implementazione legate all'addestramento diretto di modelli a lungo contesto, sono stati proposti molti metodi per estendere i modelli al fine di gestire contesti lunghi. Tuttavia, a causa delle differenze nei dati e nelle classi di modelli, è stato difficile confrontare questi approcci, portando a incertezze su come valutare le prestazioni a lungo contesto e se differiscano dalla valutazione standard. Implementiamo un protocollo controllato per i metodi di estensione con una valutazione standardizzata, utilizzando modelli di base coerenti e dati di estensione. Il nostro studio fornisce diverse intuizioni sul comportamento a lungo contesto. In primo luogo, confermiamo il ruolo critico della perplessità come indicatore delle prestazioni a scopo generale anche nelle attività a contesto più lungo. In secondo luogo, scopriamo che i metodi attuali di attenzione approssimata sottoperformano sistematicamente nelle attività a lungo contesto. Infine, confermiamo che i metodi di fine-tuning esatti sono generalmente efficaci all'interno del loro intervallo di estensione, mentre l'interpolazione rimane una sfida. Tutte le basi di codice, i modelli e i checkpoint saranno resi disponibili open-source, promuovendo la trasparenza e agevolando ulteriori ricerche in questa area critica dello sviluppo dell'IA.
Il chain-of-thought (CoT) tramite sollecitazione è il metodo di fatto per estrarre le capacità di ragionamento dai grandi modelli linguistici (LLM). Ma per quali tipi di compiti questo "pensiero" aggiuntivo è davvero utile? Per analizzarlo, abbiamo condotto un'analisi meta-quantitativa che copre oltre 100 articoli che utilizzano CoT e abbiamo eseguito le nostre valutazioni su 20 set di dati attraverso 14 modelli. I nostri risultati mostrano che CoT fornisce forti benefici prestazionali principalmente su compiti che coinvolgono matematica o logica, con guadagni molto più piccoli su altri tipi di compiti. Su MMLU, generare direttamente la risposta senza CoT porta a un'accuratezza quasi identica a CoT a meno che la domanda o la risposta del modello contenga un segno di uguale, indicando operazioni e ragionamenti simbolici. Seguendo questa scoperta, analizziamo il comportamento di CoT su questi problemi separando la pianificazione dall'esecuzione e confrontando con LLM potenziati da strumenti. Gran parte del guadagno di CoT deriva dal miglioramento dell'esecuzione simbolica, ma risulta meno efficiente rispetto all'uso di un risolutore simbolico. I nostri risultati indicano che CoT può essere applicato selettivamente, mantenendo le prestazioni e risparmiando costi di inferenza. Inoltre, suggeriscono la necessità di andare oltre il CoT basato su sollecitazione verso nuovi paradigmi che sfruttino meglio la computazione intermedia in tutta la gamma delle applicazioni di LLM.
La personalizzazione svolge un ruolo critico in numerose attività e applicazioni linguistiche, poiché utenti con gli stessi requisiti possono preferire output diversi in base ai loro interessi individuali. Ciò ha portato allo sviluppo di vari approcci personalizzati mirati ad adattare i grandi modelli linguistici (LLM) per generare output personalizzati allineati alle preferenze dell'utente. Alcuni di essi prevedono il raffinamento di un unico LLM personalizzato per ciascun utente, il che risulta troppo costoso per un'applicazione diffusa. Approcci alternativi introducono informazioni di personalizzazione in modo plug-and-play recuperando i testi storici rilevanti dell'utente come dimostrazioni. Tuttavia, questa strategia basata sul recupero potrebbe interrompere la continuità della storia dell'utente e non riuscire a catturare gli stili e i modelli complessivi dell'utente, portando quindi a prestazioni subottimali. Per affrontare queste sfide, proponiamo un nuovo modello LLM personalizzato. Esso costruisce un embedding specifico dell'utente per ciascun individuo modellando tutti i suoi contesti storici attraverso un modulo di embedding utente leggero e plug-in. Attaccando questo embedding all'input del compito, i LLM possono comprendere e catturare meglio le abitudini e le preferenze dell'utente, producendo così output più personalizzati senza regolare i propri parametri. Esperimenti approfonditi su vari compiti nel benchmark di personalizzazione del modello linguistico (LaMP) dimostrano che il modello proposto supera significativamente gli approcci LLM personalizzati esistenti.
Il tuning delle preferenze è un processo cruciale per allineare i modelli generativi profondi con le preferenze umane. Questa panoramica offre una visione approfondita degli ultimi progressi nel tuning delle preferenze e nell'integrazione del feedback umano. Il documento è organizzato in tre sezioni principali: 1) introduzione e preliminari: un'introduzione ai framework di apprendimento per rinforzo, compiti di tuning delle preferenze, modelli e set di dati attraverso varie modalità: linguaggio, linguaggio parlato e visione, nonché diversi approcci di politica, 2) esame approfondito di ciascun approccio al tuning delle preferenze: un'analisi dettagliata dei metodi utilizzati nel tuning delle preferenze, e 3) applicazioni, discussioni e future direzioni: un'esplorazione delle applicazioni del tuning delle preferenze in compiti successivi, inclusi metodi di valutazione per diverse modalità e una prospettiva sulle future direzioni della ricerca. Il nostro obiettivo è presentare le ultime metodologie nel tuning delle preferenze e nell'allineamento dei modelli, migliorando la comprensione di questo campo per ricercatori e professionisti. Speriamo di incoraggiare ulteriori impegni e innovazioni in questo settore.
I modelli Mixture-of-Experts (MoE) scalano in modo più efficace rispetto ai modelli densi grazie alla computazione sparsa attraverso il routing degli esperti, attivando selettivamente solo un piccolo sottoinsieme dei moduli esperti. Tuttavia, la computazione sparsa sfida le pratiche di addestramento tradizionali, poiché il routing esperto discreto ostacola la backpropagation standard e quindi l'ottimizzazione basata sui gradienti, che sono il fondamento del deep learning. Per perseguire meglio la potenza di scalabilità di MoE, introduciamo GRIN (GRadient-INformed MoE training), che incorpora stime sparse del gradiente per il routing esperto e configura il parallelismo del modello per evitare la perdita di token. Applicando GRIN alla modellazione del linguaggio autoregressiva, sviluppiamo un modello MoE top-2 16 volte 3.8B. Il nostro modello, con soli 6.6B di parametri attivati, supera un modello denso da 7B e eguaglia le prestazioni di un modello denso da 14B addestrato sugli stessi dati. Valutazioni approfondite su diverse attività dimostrano il potenziale di GRIN nel migliorare significativamente l'efficacia di MoE, raggiungendo 79.4 su MMLU, 83.7 su HellaSwag, 74.4 su HumanEval e 58.9 su MATH.
Con l'avvento dell'era dei big data e dei grandi modelli linguistici, la personalizzazione rapida personalizzata zero-shot è emersa come una tendenza significativa. In questo rapporto, presentiamo Takin AudioLLM, una serie di tecniche e modelli, che includono principalmente Takin TTS, Takin VC e Takin Morphing, progettati specificamente per la produzione di audiolibri. Questi modelli sono capaci di produrre discorsi zero-shot, generando discorsi di alta qualità che sono quasi indistinguibili dal parlato umano reale e facilitando gli individui a personalizzare il contenuto del discorso secondo le proprie esigenze. In particolare, introduciamo prima Takin TTS, un modello linguistico di codifica neurale che si basa su un codificatore vocale neurale potenziato e su un framework di addestramento multi-task, capace di generare un parlato naturale ad alta fedeltà in modo zero-shot. Per Takin VC, sosteniamo un approccio efficace di modellizzazione congiunta di contenuto e timbro per migliorare la similarità dello speaker, mentre sosteniamo un decoder basato su corrispondenza di flusso condizionale per migliorarne ulteriormente la naturalezza e l'espressività. Infine, proponiamo il sistema Takin Morphing con approcci altamente disaccoppiati e avanzati di modellizzazione di timbro e prosodia, che consente agli individui di personalizzare la produzione del discorso con il timbro e la prosodia preferiti in modo preciso e controllabile. Esperimenti estesi convalidano l'efficacia e la robustezza dei nostri modelli della serie Takin AudioLLM. Per dimostrazioni dettagliate, si prega di fare riferimento a https://takinaudiollm.github.io.
Ci impegniamo nella vecchia ricerca: svelare le dimensioni nascoste degli oggetti da brevi sguardi alle loro parti visibili. Per affrontare ciò, presentiamo Vista3D, un framework che realizza in modo rapido e coerente la generazione 3D in soli 5 minuti. Al cuore di Vista3D si trova un approccio a due fasi: la fase grossolana e la fase fine. Nella fase grossolana, generiamo rapidamente la geometria iniziale con Gaussian Splatting da un'immagine singola. Nella fase fine, estraiamo una Funzione di Distanza Firmata (SDF) direttamente dal Gaussian Splatting appreso, ottimizzandola con una rappresentazione di superficie isosurface differenziabile. Inoltre, eleva la qualità della generazione utilizzando una rappresentazione disentangled con due funzioni implicite indipendenti per catturare gli aspetti visibili e oscurati degli oggetti. Inoltre, armonizza i gradienti da una precedente diffusione 2D con precedenti diffusione 3D tramite composizione di precedenti diffusione angolare. Attraverso una valutazione approfondita, dimostriamo che Vista3D mantiene efficacemente un equilibrio tra la coerenza e la diversità degli oggetti 3D generati. Demo e codice saranno disponibili su https://github.com/florinshen/Vista3D.
In questo articolo, presentiamo SoloAudio, un nuovo modello generativo basato sulla diffusione per l'estrazione del suono target (TSE). Il nostro approccio addestra modelli di diffusione latenti sull'audio, sostituendo la precedente struttura U-Net con un Transformer connesso tramite skip che opera sulle caratteristiche latenti. SoloAudio supporta sia l'estrazione del suono orientata all'audio che all'linguaggio, utilizzando un modello CLAP come estrattore di caratteristiche per i suoni target. Inoltre, SoloAudio sfrutta l'audio sintetico generato dai modelli di testo-ad-audio all'avanguardia per l'addestramento, dimostrando una forte generalizzazione ai dati fuori dominio ed eventi sonori non visti. Valutiamo questo approccio sul dataset misto FSD Kaggle 2018 e sui dati reali di AudioSet, dove SoloAudio raggiunge i risultati di ultima generazione sia sui dati in-dominio che fuori-dominio, e mostra impressionanti capacità zero-shot e few-shot. Il codice sorgente e le demo sono stati rilasciati.
Introduciamo la Descrizione Audio basata sulla Diffusione (DAC), un modello di diffusione non autoregressivo progettato per la descrizione efficiente e diversificata di audio. Sebbene i modelli di descrizione esistenti che si basano su strutture linguistiche abbiano ottenuto successi notevoli in varie attività di descrizione, le loro prestazioni insufficienti in termini di velocità di generazione e diversità ostacolano il progresso nell'ambito della comprensione dell'audio e delle applicazioni multimediali. Il nostro framework basato sulla diffusione offre vantaggi unici derivanti dalla sua intrinseca stocasticità e dalla modellazione contestuale olistica nella descrizione. Attraverso una valutazione rigorosa, dimostriamo che DAC non solo raggiunge livelli di prestazioni di alto livello rispetto ai benchmark esistenti nella qualità della descrizione, ma li supera significativamente anche in termini di velocità e diversità di generazione. Il successo di DAC dimostra che la generazione di testo può essere integrata in modo fluido anche con compiti di generazione audio e visiva utilizzando una struttura di base a diffusione, aprendo la strada a un modello generativo unificato relativo all'audio attraverso diverse modalità.
Il reinforcement learning multi-agente (MARL) offline è una direzione di ricerca entusiasmante che utilizza set di dati statici per trovare politiche di controllo ottimali per sistemi multi-agente. Sebbene il campo sia per definizione basato sui dati, gli sforzi finora hanno trascurato i dati nel loro tentativo di raggiungere risultati all'avanguardia. Prima di tutto, supportiamo questa affermazione esaminando la letteratura, mostrando come la maggior parte dei lavori generi i propri set di dati senza una metodologia coerente e fornisca scarse informazioni sulle caratteristiche di questi set di dati. Successivamente mostriamo perché trascurare la natura dei dati è problematico, attraverso esempi significativi di come le prestazioni algoritmiche siano strettamente legate al set di dati utilizzato, rendendo necessaria una base comune per gli esperimenti nel campo. In risposta, compiamo un grande passo verso il miglioramento dell'uso dei dati e della consapevolezza dei dati nel MARL offline, con tre contributi chiave: (1) linee guida chiare per la generazione di nuovi set di dati; (2) una standardizzazione di oltre 80 set di dati esistenti, ospitati in un repository pubblicamente disponibile, utilizzando un formato di archiviazione coerente e un'API facile da usare; e (3) una serie di strumenti di analisi che ci consentono di comprendere meglio questi set di dati, facilitando ulteriori sviluppi.
La ricostruzione di visualizzazioni 3D dai dati di Imaging a Risonanza Magnetica Funzionale (fMRI), introdotta come Recon3DMind nel nostro lavoro alla conferenza, è di notevole interesse sia per la neuroscienza cognitiva che per la visione artificiale. Per avanzare in questo compito, presentiamo il dataset fMRI-3D, che include dati di 15 partecipanti e mostra un totale di 4768 oggetti 3D. Il dataset è composto da due componenti: fMRI-Shape, precedentemente introdotto e accessibile su https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, e fMRI-Objaverse, proposto in questo articolo e disponibile su https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse include dati di 5 soggetti, di cui 4 fanno parte anche del set Core in fMRI-Shape, con ciascun soggetto che visualizza 3142 oggetti 3D distribuiti su 117 categorie, tutti accompagnati da didascalie. Ciò migliora significativamente la diversità e le potenziali applicazioni del dataset. Inoltre, proponiamo MinD-3D, un nuovo framework progettato per decodificare informazioni visive 3D dai segnali fMRI. Il framework estrae e aggrega inizialmente le caratteristiche dai dati fMRI utilizzando un codificatore neuro-fusion, quindi impiega un modello di diffusione del ponte delle caratteristiche per generare caratteristiche visive e infine ricostruisce l'oggetto 3D utilizzando un decodificatore trasformatore generativo. Stabiliamo nuovi benchmark progettando metriche a livello semantico e strutturale per valutare le prestazioni del modello. Inoltre, valutiamo l'efficacia del nostro modello in un contesto Out-of-Distribution e analizziamo l'attribuzione delle caratteristiche estratte e delle ROI visive nei segnali fMRI. I nostri esperimenti dimostrano che MinD-3D non solo ricostruisce oggetti 3D con elevata precisione semantica e spaziale, ma approfondisce anche la nostra comprensione di come il cervello umano elabora informazioni visive 3D. Pagina del progetto su: https://jianxgao.github.io/MinD-3D.
La matematica è stata a lungo trasmessa attraverso il linguaggio naturale, principalmente per la comprensione umana. Con la diffusione della matematica meccanizzata e degli assistenti alla dimostrazione, c'è una crescente necessità di comprendere il testo matematico informale, tuttavia la maggior parte dei benchmark esistenti si concentra esclusivamente sull'inglese, trascurando le altre lingue. Questo articolo introduce RoMath, una suite di benchmark di ragionamento matematico in lingua rumena che comprende tre set di dati: RoMath-Baccalaureate, RoMath-Competitions e RoMath-Synthetic, che coprono una serie di domini matematici e livelli di difficoltà, con l'obiettivo di migliorare i modelli linguistici non in lingua inglese e promuovere lo sviluppo dell'IA multilingue. Concentrandosi sul rumeno, una lingua a risorse limitate con caratteristiche linguistiche uniche, RoMath affronta le limitazioni dei modelli anglo-centrici e sottolinea la necessità di risorse dedicate al di là della semplice traduzione automatica. Valutiamo diversi modelli di linguaggio open-weight, evidenziando l'importanza della creazione di risorse per le lingue sottorappresentate. Mettiamo a disposizione il codice e il set di dati.
Gli agenti di intelligenza artificiale hanno il potenziale per aiutare gli utenti in una varietà di compiti di conseguenza, inclusa la conduzione di ricerche scientifiche. Per promuovere lo sviluppo di agenti utili, abbiamo bisogno di benchmark che siano impegnativi, ma soprattutto corrispondano direttamente a compiti del mondo reale di interesse. Questo articolo introduce un tale benchmark, progettato per misurare l'accuratezza degli agenti di intelligenza artificiale nel affrontare un aspetto cruciale ma sorprendentemente impegnativo della ricerca scientifica: la riproducibilità computazionale. Questo compito, fondamentale per il processo scientifico, coinvolge la riproduzione dei risultati di uno studio utilizzando il codice e i dati forniti. Presentiamo CORE-Bench (Benchmark dell'Agente di Riproducibilità Computazionale), un benchmark composto da 270 compiti basati su 90 articoli scientifici in tre discipline (informatica, scienze sociali e medicina). I compiti in CORE-Bench sono di tre livelli di difficoltà e includono compiti solo di linguaggio e visione-linguaggio. Forniamo un sistema di valutazione per misurare l'accuratezza degli agenti in modo rapido e parallelizzabile, risparmiando giorni di tempo di valutazione per ogni esecuzione rispetto a un'implementazione sequenziale. Abbiamo valutato due agenti di base: l'AutoGPT ad uso generale e un agente specifico del compito chiamato CORE-Agent. Abbiamo testato entrambe le varianti utilizzando due modelli linguistici sottostanti: GPT-4o e GPT-4o-mini. Il miglior agente ha raggiunto un'accuratezza del 21% sul compito più difficile, mostrando un ampio margine di miglioramento nell'automatizzazione dei compiti scientifici di routine. Avere agenti in grado di riprodurre lavori esistenti è un passo necessario verso la costruzione di agenti in grado di condurre ricerche innovative e potrebbe verificare e migliorare le prestazioni di altri agenti di ricerca. Speriamo che CORE-Bench possa migliorare lo stato della riproducibilità e promuovere lo sviluppo di futuri agenti di ricerca.
Nel affrontare la sfida della Riassunzione Multi-Documento (MDS), sono state proposte numerose metodologie, che spaziano tra tecniche di riassunzione estrattive e astrattive. Tuttavia, ciascun approccio ha i propri limiti, rendendo meno efficace fare affidamento esclusivamente su uno dei due. Una strategia emergente e promettente coinvolge una fusione sinergica di metodi di riassunzione estrattivi e astrattivi. Nonostante la moltitudine di studi in questo ambito, la ricerca sulla metodologia combinata rimane scarsa, in particolare nel contesto dell'elaborazione del linguaggio vietnamita. Questo articolo presenta un nuovo framework vietnamita MDS che sfrutta un'architettura a due componenti che integra tecniche estrattive e astrattive. La prima componente utilizza un approccio estrattivo per identificare le frasi chiave all'interno di ciascun documento. Ciò è ottenuto mediante una modifica della rete BERT pre-addestrata, che deriva incapsulamenti di frasi semanticamente significativi utilizzando strutture di rete siamesi e triplet. La seconda componente utilizza il modello VBD-LLaMA2-7B-50b per la riassunzione astrattiva, generando infine il documento di riassunto finale. Il nostro framework proposto dimostra una performance positiva, raggiungendo punteggi ROUGE-2 del 39.6% sul dataset VN-MDS e superando i baselines all'avanguardia.
I valori umani e la loro misurazione sono oggetto di un'indagine interdisciplinare di lunga data. I recenti progressi nell'IA hanno suscitato un rinnovato interesse in questo ambito, con i grandi modelli linguistici (LLM) che emergono sia come strumenti sia come soggetti di misurazione dei valori. Questo lavoro introduce la Psicometria Generativa per i Valori (GPV), un paradigma di misurazione dei valori basato su LLM e guidato dai dati, fondato teoricamente sulle percezioni selettive rivelate dal testo. Iniziamo con il raffinamento di un LLM per una misurazione accurata dei valori a livello di percezione e la verifica della capacità dei LLM di analizzare i testi in percezioni, che costituiscono il nucleo del processo GPV. Applicando GPV a blog scritti da esseri umani, dimostriamo la sua stabilità, validità e superiorità rispetto agli strumenti psicologici precedenti. Successivamente, estendendo GPV alla misurazione dei valori tramite LLM, avanziamo l'attuale stato dell'arte con 1) una metodologia psicometrica che misura i valori dei LLM in base alle loro uscite scalabili e libere, consentendo una misurazione specifica del contesto; 2) un'analisi comparativa dei paradigmi di misurazione, indicando i bias di risposta dei metodi precedenti; e 3) un tentativo di collegare i valori dei LLM alla loro sicurezza, rivelando il potere predittivo dei diversi sistemi di valori e gli impatti dei vari valori sulla sicurezza dei LLM. Attraverso sforzi interdisciplinari, miriamo a sfruttare l'IA per la psicometria di prossima generazione e la psicometria per un'IA allineata ai valori.