Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

Rivalutazione dell'Apprendimento per Rinforzo nel Ragionamento dei Modelli Linguistici da una Prospettiva Interdominio
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

Jun 17, 2025

Zhoujun Cheng, Shibo Hao, Tianyang Liu, Fan Zhou, Yutao Xie, Feng Yao, Yuexin Bian, Yonghao Zhuang, Nilabjo Dey, Yuheng Zha, Yi Gu, Kun Zhou, Yuqi Wang, Yuan Li, Richard Fan, Jianshu She, Chengqian Gao, Abulhair Saparov, Haonan Li, Taylor W. Killian, Mikhail Yurochkin, Zhengzhong Liu, Eric P. Xing, Zhiting Hu

462

L'apprendimento per rinforzo (Reinforcement Learning, RL) si è affermato come un approccio promettente per migliorare il ragionamento dei grandi modelli linguistici (Large Language Models, LLM), tuttavia la maggior parte degli sforzi aperti si concentra in modo ristretto su matematica e codice, limitando la nostra comprensione della sua più ampia applicabilità al ragionamento generale. Una delle principali sfide risiede nella mancanza di segnali di ricompensa RL affidabili e scalabili in diversi domini di ragionamento. Introduciamo Guru, un corpus curato di ragionamento RL composto da 92K esempi verificabili che coprono sei domini di ragionamento—Matematica, Codice, Scienza, Logica, Simulazione e Tabelle—ciascuno costruito attraverso un design di ricompensa specifico per il dominio, deduplicazione e filtraggio per garantire affidabilità ed efficacia per l'addestramento RL. Basandoci su Guru, esaminiamo sistematicamente i risultati consolidati nell'RL per il ragionamento dei LLM e osserviamo una significativa variazione tra i domini. Ad esempio, mentre lavori precedenti suggeriscono che l'RL principalmente eliciti conoscenze esistenti dai modelli pre-addestrati, i nostri risultati rivelano un modello più sfumato: i domini frequentemente visti durante il pre-addestramento (Matematica, Codice, Scienza) beneficiano facilmente dell'addestramento RL cross-dominio, mentre i domini con un'esposizione limitata durante il pre-addestramento (Logica, Simulazione e Tabelle) richiedono un addestramento in-dominio per ottenere miglioramenti significativi delle prestazioni, suggerendo che l'RL è probabilmente in grado di facilitare l'acquisizione di competenze genuine. Infine, presentiamo Guru-7B e Guru-32B, due modelli che raggiungono prestazioni all'avanguardia tra i modelli aperti addestrati con RL utilizzando dati pubblicamente disponibili, superando i migliori baseline del 7,9% e del 6,7% sulla nostra suite di valutazione composta da 17 task in sei domini di ragionamento. Mostriamo inoltre che i nostri modelli migliorano efficacemente le prestazioni Pass@k dei loro modelli base, in particolare su task complessi meno probabili nei dati di pre-addestramento. Rilasciamo dati, modelli, codice di addestramento e valutazione per facilitare il ragionamento generico all'indirizzo: https://github.com/LLM360/Reasoning360.

Show-o2: Modelli Multimodali Unificati Nativi Migliorati
Show-o2: Improved Native Unified Multimodal Models

Jun 18, 2025

Jinheng Xie, Zhenheng Yang, Mike Zheng Shou

283

Questo articolo presenta modelli multimodali unificati nativi migliorati, denominati Show-o2, che sfruttano la modellazione autoregressiva e il flow matching. Basati su uno spazio di autoencoder variazionale causale 3D, le rappresentazioni visive unificate vengono costruite attraverso un percorso duale di fusione spaziale (-temporale), consentendo scalabilità tra le modalità di immagini e video e garantendo una comprensione e generazione multimodale efficace. Basandosi su un modello linguistico, la modellazione autoregressiva e il flow matching vengono applicati nativamente rispettivamente alla testa linguistica e alla testa di flusso, per facilitare la previsione dei token di testo e la generazione di immagini/video. Una ricetta di addestramento in due fasi è stata progettata per apprendere efficacemente e scalare a modelli più grandi. I modelli Show-o2 risultanti dimostrano versatilità nella gestione di un'ampia gamma di compiti di comprensione e generazione multimodale attraverso diverse modalità, inclusi testo, immagini e video. Codice e modelli sono rilasciati su https://github.com/showlab/Show-o.

EmoNet-Voice: Un Benchmark Fine-Grained e Verificato da Esperti per il Rilevamento delle Emozioni nel Parlato
EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection

Jun 11, 2025

Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, Felix Friedrich, Maurice Kraus, Kourosh Nadi, Huu Nguyen, Kristian Kersting, Sören Auer

172

Il progresso dei modelli di sintesi vocale e generazione audio richiede benchmark robusti per valutare le capacità di comprensione emotiva dei sistemi di intelligenza artificiale. Gli attuali dataset per il riconoscimento delle emozioni nel parlato (Speech Emotion Recognition, SER) presentano spesso limitazioni nella granularità emotiva, preoccupazioni relative alla privacy o una dipendenza da rappresentazioni recitate. Questo articolo introduce EmoNet-Voice, una nuova risorsa per il rilevamento delle emozioni nel parlato, che include EmoNet-Voice Big, un dataset su larga scala per il pre-training (con oltre 4.500 ore di parlato in 11 voci, 40 emozioni e 4 lingue), e EmoNet-Voice Bench, un nuovo dataset di benchmark con annotazioni di esperti umani. EmoNet-Voice è progettato per valutare i modelli SER su uno spettro dettagliato di 40 categorie emotive con diversi livelli di intensità. Sfruttando le più avanzate tecnologie di generazione vocale, abbiamo curato frammenti audio sintetici che simulano attori che interpretano scene progettate per evocare emozioni specifiche. In modo cruciale, abbiamo condotto una rigorosa validazione da parte di esperti di psicologia che hanno assegnato etichette di intensità percepita. Questo approccio sintetico e rispettoso della privacy consente l'inclusione di stati emotivi sensibili spesso assenti nei dataset esistenti. Infine, introduciamo i modelli Empathic Insight Voice, che stabiliscono un nuovo standard nel riconoscimento delle emozioni nel parlato con un elevato accordo con gli esperti umani. Le nostre valutazioni sull'attuale panorama dei modelli rivelano risultati significativi, come il fatto che emozioni ad alta eccitazione come la rabbia siano molto più facili da rilevare rispetto a stati a bassa eccitazione come la concentrazione.

Miglioramento Iterativo per la Generazione da Grafici a Codice tramite Istruzioni Strutturate
Improved Iterative Refinement for Chart-to-Code Generation via Structured Instruction

Jun 15, 2025

Chengzhi Xu, Yuyang Wang, Lai Wei, Lichao Sun, Weiran Huang

102

Recentemente, i modelli linguistici multimodali di grandi dimensioni (MLLM) hanno attirato un'attenzione crescente nella ricerca grazie alle loro potenti capacità di comprensione visiva. Nonostante abbiano ottenuto risultati impressionanti in vari compiti visivi, le loro prestazioni nella generazione di codice a partire da grafici rimangono subottimali. Questo compito richiede che gli MLLM generino codice eseguibile in grado di riprodurre un grafico dato, esigendo non solo una precisa comprensione visiva ma anche una traduzione accurata degli elementi visivi in codice strutturato. Richiedere direttamente agli MLLM di eseguire questo compito complesso spesso produce risultati insoddisfacenti. Per affrontare questa sfida, proponiamo {ChartIR}, un metodo di raffinamento iterativo basato su istruzioni strutturate. In primo luogo, distinguiamo due compiti: comprensione visiva e traduzione del codice. Per realizzare la componente di comprensione visiva, progettiamo due tipi di istruzioni strutturate: descrizione e differenza. L'istruzione di descrizione cattura gli elementi visivi del grafico di riferimento, mentre l'istruzione di differenza caratterizza le discrepanze tra il grafico di riferimento e il grafico generato. Queste istruzioni trasformano efficacemente le caratteristiche visive in rappresentazioni linguistiche, facilitando così il successivo processo di traduzione del codice. In secondo luogo, scomponiamo l'intera pipeline di generazione del grafico in due fasi: generazione iniziale del codice e raffinamento iterativo, consentendo un miglioramento progressivo dell'output finale. I risultati sperimentali mostrano che, rispetto ad altri metodi, il nostro metodo raggiunge prestazioni superiori sia sul modello open-source Qwen2-VL che sul modello closed-source GPT-4o.

SonicVerse: Apprendimento Multi-Task per la Generazione di Didascalie Informate dalle Caratteristiche Musicali
SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning

Jun 18, 2025

Anuradha Chopra, Abhinaba Roy, Dorien Herremans

Descrizioni dettagliate che riflettono accuratamente le caratteristiche di un brano musicale possono arricchire i database musicali e favorire la ricerca nell'ambito dell'AI musicale. Questo articolo introduce un modello di descrizione musicale multi-task, SonicVerse, che integra la generazione di descrizioni con attività ausiliarie di rilevamento di caratteristiche musicali come l'individuazione della tonalità, la presenza di voci e altro, al fine di catturare direttamente sia i dettagli acustici di basso livello che gli attributi musicali di alto livello. Il contributo principale è un'architettura basata su proiezione che trasforma l'input audio in token linguistici, rilevando contemporaneamente le caratteristiche musicali attraverso appositi moduli ausiliari. Gli output di questi moduli vengono anch'essi proiettati in token linguistici, per arricchire l'input della descrizione. Questo framework non solo produce descrizioni ricche e dettagliate per brevi frammenti musicali, ma consente anche direttamente la generazione di descrizioni temporali dettagliate per brani musicali più lunghi, concatenando gli output utilizzando un modello linguistico di grandi dimensioni. Per addestrare il modello, abbiamo esteso il dataset MusicBench annotandolo con caratteristiche musicali utilizzando MIRFLEX, un estrattore modulare di caratteristiche musicali, ottenendo così dati accoppiati di audio, descrizioni e caratteristiche musicali. I risultati sperimentali dimostrano che l'incorporazione delle caratteristiche in questo modo migliora la qualità e il dettaglio delle descrizioni generate.

RE-IMAGINE: Sintesi di Benchmark Simbolici per la Valutazione del Ragionamento
RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation

Jun 18, 2025

Xinnuo Xu, Rachel Lawrence, Kshitij Dubey, Atharva Pandey, Risa Ueno, Fabian Falck, Aditya V. Nori, Rahul Sharma, Amit Sharma, Javier Gonzalez

I recenti modelli linguistici di grandi dimensioni (LLM) hanno riportato un'elevata accuratezza nei benchmark di ragionamento. Tuttavia, non è ancora chiaro se i risultati osservati derivino da un vero ragionamento o da un richiamo statistico del set di addestramento. Ispirati dalla scala della causalità (Pearl, 2009) e dai suoi tre livelli (associazioni, interventi e controfattuali), questo articolo introduce RE-IMAGINE, un framework per caratterizzare una gerarchia di abilità di ragionamento nei LLM, insieme a una pipeline automatizzata per generare variazioni di problemi a diversi livelli della gerarchia. Modificando i problemi in una rappresentazione simbolica intermedia, RE-IMAGINE genera un numero arbitrario di problemi che non possono essere risolti utilizzando solo la memorizzazione. Inoltre, il framework è generale e può funzionare in diversi domini di ragionamento, inclusi matematica, codice e logica. Dimostriamo il nostro framework su quattro benchmark ampiamente utilizzati per valutare diverse famiglie di LLM, e osserviamo riduzioni nelle prestazioni quando i modelli vengono interrogati con variazioni di problemi. Queste valutazioni indicano un certo grado di affidamento sul richiamo statistico per le prestazioni passate, e aprono la porta a ulteriori ricerche mirate a sviluppare competenze attraverso la gerarchia del ragionamento.

Rivalutazione dell'Apprendimento per Rinforzo nel Ragionamento dei Modelli Linguistici da una Prospettiva Interdominio
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

Jun 17, 2025

462

Paper Giornalieri

Rivalutazione dell'Apprendimento per Rinforzo nel Ragionamento dei Modelli Linguistici da una Prospettiva Interdominio
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

Show-o2: Modelli Multimodali Unificati Nativi Migliorati
Show-o2: Improved Native Unified Multimodal Models

EmoNet-Voice: Un Benchmark Fine-Grained e Verificato da Esperti per il Rilevamento delle Emozioni nel Parlato
EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection

Miglioramento Iterativo per la Generazione da Grafici a Codice tramite Istruzioni Strutturate
Improved Iterative Refinement for Chart-to-Code Generation via Structured Instruction

SonicVerse: Apprendimento Multi-Task per la Generazione di Didascalie Informate dalle Caratteristiche Musicali
SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning

RE-IMAGINE: Sintesi di Benchmark Simbolici per la Valutazione del Ragionamento
RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation

Support

Support

Paper Giornalieri

Rivalutazione dell'Apprendimento per Rinforzo nel Ragionamento dei Modelli Linguistici da una Prospettiva Interdominio
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

Show-o2: Modelli Multimodali Unificati Nativi Migliorati
Show-o2: Improved Native Unified Multimodal Models

EmoNet-Voice: Un Benchmark Fine-Grained e Verificato da Esperti per il Rilevamento delle Emozioni nel Parlato
EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection

Miglioramento Iterativo per la Generazione da Grafici a Codice tramite Istruzioni Strutturate
Improved Iterative Refinement for Chart-to-Code Generation via Structured Instruction

SonicVerse: Apprendimento Multi-Task per la Generazione di Didascalie Informate dalle Caratteristiche Musicali
SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning

RE-IMAGINE: Sintesi di Benchmark Simbolici per la Valutazione del Ragionamento
RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation