Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'apprendimento per rinforzo (Reinforcement Learning, RL) si è affermato come un approccio promettente per migliorare il ragionamento dei grandi modelli linguistici (Large Language Models, LLM), tuttavia la maggior parte degli sforzi aperti si concentra in modo ristretto su matematica e codice, limitando la nostra comprensione della sua più ampia applicabilità al ragionamento generale. Una delle principali sfide risiede nella mancanza di segnali di ricompensa RL affidabili e scalabili in diversi domini di ragionamento. Introduciamo Guru, un corpus curato di ragionamento RL composto da 92K esempi verificabili che coprono sei domini di ragionamento—Matematica, Codice, Scienza, Logica, Simulazione e Tabelle—ciascuno costruito attraverso un design di ricompensa specifico per il dominio, deduplicazione e filtraggio per garantire affidabilità ed efficacia per l'addestramento RL. Basandoci su Guru, esaminiamo sistematicamente i risultati consolidati nell'RL per il ragionamento dei LLM e osserviamo una significativa variazione tra i domini. Ad esempio, mentre lavori precedenti suggeriscono che l'RL principalmente eliciti conoscenze esistenti dai modelli pre-addestrati, i nostri risultati rivelano un modello più sfumato: i domini frequentemente visti durante il pre-addestramento (Matematica, Codice, Scienza) beneficiano facilmente dell'addestramento RL cross-dominio, mentre i domini con un'esposizione limitata durante il pre-addestramento (Logica, Simulazione e Tabelle) richiedono un addestramento in-dominio per ottenere miglioramenti significativi delle prestazioni, suggerendo che l'RL è probabilmente in grado di facilitare l'acquisizione di competenze genuine. Infine, presentiamo Guru-7B e Guru-32B, due modelli che raggiungono prestazioni all'avanguardia tra i modelli aperti addestrati con RL utilizzando dati pubblicamente disponibili, superando i migliori baseline del 7,9% e del 6,7% sulla nostra suite di valutazione composta da 17 task in sei domini di ragionamento. Mostriamo inoltre che i nostri modelli migliorano efficacemente le prestazioni Pass@k dei loro modelli base, in particolare su task complessi meno probabili nei dati di pre-addestramento. Rilasciamo dati, modelli, codice di addestramento e valutazione per facilitare il ragionamento generico all'indirizzo: https://github.com/LLM360/Reasoning360.
Questo articolo presenta modelli multimodali unificati nativi migliorati, denominati Show-o2, che sfruttano la modellazione autoregressiva e il flow matching. Basati su uno spazio di autoencoder variazionale causale 3D, le rappresentazioni visive unificate vengono costruite attraverso un percorso duale di fusione spaziale (-temporale), consentendo scalabilità tra le modalità di immagini e video e garantendo una comprensione e generazione multimodale efficace. Basandosi su un modello linguistico, la modellazione autoregressiva e il flow matching vengono applicati nativamente rispettivamente alla testa linguistica e alla testa di flusso, per facilitare la previsione dei token di testo e la generazione di immagini/video. Una ricetta di addestramento in due fasi è stata progettata per apprendere efficacemente e scalare a modelli più grandi. I modelli Show-o2 risultanti dimostrano versatilità nella gestione di un'ampia gamma di compiti di comprensione e generazione multimodale attraverso diverse modalità, inclusi testo, immagini e video. Codice e modelli sono rilasciati su https://github.com/showlab/Show-o.
Il progresso dei modelli di sintesi vocale e generazione audio richiede benchmark robusti per valutare le capacità di comprensione emotiva dei sistemi di intelligenza artificiale. Gli attuali dataset per il riconoscimento delle emozioni nel parlato (Speech Emotion Recognition, SER) presentano spesso limitazioni nella granularità emotiva, preoccupazioni relative alla privacy o una dipendenza da rappresentazioni recitate. Questo articolo introduce EmoNet-Voice, una nuova risorsa per il rilevamento delle emozioni nel parlato, che include EmoNet-Voice Big, un dataset su larga scala per il pre-training (con oltre 4.500 ore di parlato in 11 voci, 40 emozioni e 4 lingue), e EmoNet-Voice Bench, un nuovo dataset di benchmark con annotazioni di esperti umani. EmoNet-Voice è progettato per valutare i modelli SER su uno spettro dettagliato di 40 categorie emotive con diversi livelli di intensità. Sfruttando le più avanzate tecnologie di generazione vocale, abbiamo curato frammenti audio sintetici che simulano attori che interpretano scene progettate per evocare emozioni specifiche. In modo cruciale, abbiamo condotto una rigorosa validazione da parte di esperti di psicologia che hanno assegnato etichette di intensità percepita. Questo approccio sintetico e rispettoso della privacy consente l'inclusione di stati emotivi sensibili spesso assenti nei dataset esistenti. Infine, introduciamo i modelli Empathic Insight Voice, che stabiliscono un nuovo standard nel riconoscimento delle emozioni nel parlato con un elevato accordo con gli esperti umani. Le nostre valutazioni sull'attuale panorama dei modelli rivelano risultati significativi, come il fatto che emozioni ad alta eccitazione come la rabbia siano molto più facili da rilevare rispetto a stati a bassa eccitazione come la concentrazione.
Recentemente, i modelli linguistici multimodali di grandi dimensioni (MLLM) hanno attirato un'attenzione crescente nella ricerca grazie alle loro potenti capacità di comprensione visiva. Nonostante abbiano ottenuto risultati impressionanti in vari compiti visivi, le loro prestazioni nella generazione di codice a partire da grafici rimangono subottimali. Questo compito richiede che gli MLLM generino codice eseguibile in grado di riprodurre un grafico dato, esigendo non solo una precisa comprensione visiva ma anche una traduzione accurata degli elementi visivi in codice strutturato. Richiedere direttamente agli MLLM di eseguire questo compito complesso spesso produce risultati insoddisfacenti. Per affrontare questa sfida, proponiamo {ChartIR}, un metodo di raffinamento iterativo basato su istruzioni strutturate. In primo luogo, distinguiamo due compiti: comprensione visiva e traduzione del codice. Per realizzare la componente di comprensione visiva, progettiamo due tipi di istruzioni strutturate: descrizione e differenza. L'istruzione di descrizione cattura gli elementi visivi del grafico di riferimento, mentre l'istruzione di differenza caratterizza le discrepanze tra il grafico di riferimento e il grafico generato. Queste istruzioni trasformano efficacemente le caratteristiche visive in rappresentazioni linguistiche, facilitando così il successivo processo di traduzione del codice. In secondo luogo, scomponiamo l'intera pipeline di generazione del grafico in due fasi: generazione iniziale del codice e raffinamento iterativo, consentendo un miglioramento progressivo dell'output finale. I risultati sperimentali mostrano che, rispetto ad altri metodi, il nostro metodo raggiunge prestazioni superiori sia sul modello open-source Qwen2-VL che sul modello closed-source GPT-4o.
Descrizioni dettagliate che riflettono accuratamente le caratteristiche di un brano musicale possono arricchire i database musicali e favorire la ricerca nell'ambito dell'AI musicale. Questo articolo introduce un modello di descrizione musicale multi-task, SonicVerse, che integra la generazione di descrizioni con attività ausiliarie di rilevamento di caratteristiche musicali come l'individuazione della tonalità, la presenza di voci e altro, al fine di catturare direttamente sia i dettagli acustici di basso livello che gli attributi musicali di alto livello. Il contributo principale è un'architettura basata su proiezione che trasforma l'input audio in token linguistici, rilevando contemporaneamente le caratteristiche musicali attraverso appositi moduli ausiliari. Gli output di questi moduli vengono anch'essi proiettati in token linguistici, per arricchire l'input della descrizione. Questo framework non solo produce descrizioni ricche e dettagliate per brevi frammenti musicali, ma consente anche direttamente la generazione di descrizioni temporali dettagliate per brani musicali più lunghi, concatenando gli output utilizzando un modello linguistico di grandi dimensioni. Per addestrare il modello, abbiamo esteso il dataset MusicBench annotandolo con caratteristiche musicali utilizzando MIRFLEX, un estrattore modulare di caratteristiche musicali, ottenendo così dati accoppiati di audio, descrizioni e caratteristiche musicali. I risultati sperimentali dimostrano che l'incorporazione delle caratteristiche in questo modo migliora la qualità e il dettaglio delle descrizioni generate.
I recenti modelli linguistici di grandi dimensioni (LLM) hanno riportato un'elevata accuratezza nei benchmark di ragionamento. Tuttavia, non è ancora chiaro se i risultati osservati derivino da un vero ragionamento o da un richiamo statistico del set di addestramento. Ispirati dalla scala della causalità (Pearl, 2009) e dai suoi tre livelli (associazioni, interventi e controfattuali), questo articolo introduce RE-IMAGINE, un framework per caratterizzare una gerarchia di abilità di ragionamento nei LLM, insieme a una pipeline automatizzata per generare variazioni di problemi a diversi livelli della gerarchia. Modificando i problemi in una rappresentazione simbolica intermedia, RE-IMAGINE genera un numero arbitrario di problemi che non possono essere risolti utilizzando solo la memorizzazione. Inoltre, il framework è generale e può funzionare in diversi domini di ragionamento, inclusi matematica, codice e logica. Dimostriamo il nostro framework su quattro benchmark ampiamente utilizzati per valutare diverse famiglie di LLM, e osserviamo riduzioni nelle prestazioni quando i modelli vengono interrogati con variazioni di problemi. Queste valutazioni indicano un certo grado di affidamento sul richiamo statistico per le prestazioni passate, e aprono la porta a ulteriori ricerche mirate a sviluppare competenze attraverso la gerarchia del ragionamento.