Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'apprendimento per rinforzo su larga scala con ricompense verificabili (RLVR) ha dimostrato la sua efficacia nello sfruttare il potenziale dei grandi modelli linguistici (LLM) per compiti di ragionamento a singolo turno. Negli scenari realistici di ragionamento, i LLM possono spesso utilizzare strumenti esterni per assistere nei processi di risoluzione dei compiti. Tuttavia, gli attuali algoritmi di RL non bilanciano adeguatamente le capacità intrinseche di ragionamento a lungo termine dei modelli e la loro competenza nelle interazioni multi-turno con gli strumenti. Per colmare questa lacuna, proponiamo l'Agentic Reinforced Policy Optimization (ARPO), un nuovo algoritmo di RL agentico progettato per addestrare agenti basati su LLM multi-turno. Attraverso esperimenti preliminari, osserviamo che i LLM tendono a mostrare un comportamento altamente incerto, caratterizzato da un aumento della distribuzione di entropia dei token generati, immediatamente dopo le interazioni con strumenti esterni. Motivati da questa osservazione, ARPO incorpora un meccanismo di rollout adattivo basato sull'entropia, bilanciando dinamicamente il campionamento globale delle traiettorie e il campionamento a livello di passo, promuovendo così l'esplorazione nei passi con alta incertezza dopo l'uso degli strumenti. Integrando una stima dell'attribuzione del vantaggio, ARPO consente ai LLM di interiorizzare le differenze di vantaggio nelle interazioni passo-passo con l'uso degli strumenti. I nostri esperimenti su 13 benchmark impegnativi nei domini del ragionamento computazionale, del ragionamento basato sulla conoscenza e della ricerca approfondita dimostrano la superiorità di ARPO rispetto agli algoritmi di RL a livello di traiettoria. In modo significativo, ARPO raggiunge prestazioni migliorate utilizzando solo la metà del budget di utilizzo degli strumenti richiesto dai metodi esistenti, offrendo una soluzione scalabile per allineare gli agenti basati su LLM con ambienti dinamici in tempo reale. Il nostro codice e i dataset sono rilasciati su https://github.com/dongguanting/ARPO.
I Modelli Linguistici di Grande Dimensione (LLM) hanno dimostrato capacità significative, ma rimangono fondamentalmente statici, incapaci di adattare i loro parametri interni a nuovi compiti, domini di conoscenza in evoluzione o contesti di interazione dinamici. Poiché i LLM vengono sempre più implementati in ambienti aperti e interattivi, questa natura statica è diventata un collo di bottiglia critico, rendendo necessari agenti in grado di ragionare, agire ed evolversi in tempo reale in modo adattivo. Questo cambio di paradigma — dal ridimensionamento di modelli statici allo sviluppo di agenti auto-evolventi — ha suscitato un crescente interesse per architetture e metodi che consentano l'apprendimento continuo e l'adattamento da dati, interazioni ed esperienze. Questa rassegna offre la prima revisione sistematica e completa degli agenti auto-evolventi, organizzata attorno a tre dimensioni fondamentali: cosa evolvere, quando evolvere e come evolvere. Esaminiamo i meccanismi evolutivi attraverso i componenti degli agenti (ad esempio, modelli, memoria, strumenti, architettura), categorizziamo i metodi di adattamento per fasi (ad esempio, intra-test-time, inter-test-time) e analizziamo i disegni algoritmici e architetturali che guidano l'adattamento evolutivo (ad esempio, ricompense scalari, feedback testuale, sistemi a singolo agente e multi-agente). Inoltre, analizziamo metriche di valutazione e benchmark specifici per agenti auto-evolventi, evidenziamo applicazioni in domini come la programmazione, l'educazione e la sanità, e identifichiamo sfide critiche e direzioni di ricerca in materia di sicurezza, scalabilità e dinamiche co-evolutive. Fornendo un quadro strutturato per comprendere e progettare agenti auto-evolventi, questa rassegna stabilisce una roadmap per avanzare i sistemi agentici adattativi sia nella ricerca che nelle implementazioni nel mondo reale, gettando infine luce sul percorso verso la realizzazione dell'Intelligenza Artificiale Superiore (ASI), dove gli agenti si evolvono autonomamente, performando a o oltre il livello di intelligenza umana in un'ampia gamma di compiti.
I video brevi generati dagli utenti nel mondo reale, in particolare quelli distribuiti su piattaforme come WeChat Channel e TikTok, dominano l’internet mobile. Tuttavia, gli attuali modelli multimodali di grandi dimensioni mancano di capacità essenziali di comprensione video strutturata temporalmente, dettagliata e approfondita, che sono la base per una ricerca e raccomandazione video efficace, nonché per le applicazioni video emergenti. Comprendere i video brevi del mondo reale è effettivamente impegnativo a causa dei loro elementi visivi complessi, dell’elevata densità di informazioni sia visive che audio e del ritmo veloce che si concentra sull’espressione emotiva e sulla trasmissione di punti di vista. Ciò richiede un ragionamento avanzato per integrare efficacemente informazioni multimodali, tra cui visive, audio e testuali. In questo lavoro, introduciamo ARC-Hunyuan-Video, un modello multimodale che elabora segnali visivi, audio e testuali da input video grezzi end-to-end per una comprensione strutturata. Il modello è in grado di generare didascalie e riassunti video con timestamp multi-granularità, rispondere a domande aperte sui video, effettuare il grounding temporale dei video e ragionare sui video. Sfruttando dati di alta qualità provenienti da una pipeline di annotazione automatizzata, il nostro modello compatto da 7 miliardi di parametri viene addestrato attraverso un regime completo: pre-training, fine-tuning su istruzioni, avvio a freddo, post-training con apprendimento per rinforzo (RL) e fine-tuning finale su istruzioni. Le valutazioni quantitative sul nostro benchmark introdotto ShortVid-Bench e i confronti qualitativi dimostrano le sue prestazioni solide nella comprensione video del mondo reale, e supporta applicazioni downstream diverse con zero-shot o fine-tuning con pochi campioni. Il deployment in produzione del nostro modello nel mondo reale ha portato a miglioramenti tangibili e misurabili nell’engagement e nella soddisfazione degli utenti, un successo supportato dalla sua notevole efficienza, con test di stress che indicano un tempo di inferenza di soli 10 secondi per un video di un minuto su GPU H20.
Mentre i modelli linguistici di grandi dimensioni (LLM) all'avanguardia continuano a spingere i confini delle capacità, il loro dispiegamento rimane confinato a infrastrutture cloud alimentate da GPU. Noi sfidiamo questo paradigma con SmallThinker, una famiglia di LLM progettati nativamente - non adattati - per i vincoli unici dei dispositivi locali: potenza computazionale ridotta, memoria limitata e archiviazione lenta. A differenza degli approcci tradizionali che comprimono principalmente modelli esistenti costruiti per il cloud, noi progettiamo SmallThinker da zero per prosperare all'interno di questi limiti. La nostra innovazione risiede in un'architettura consapevole del dispiegamento che trasforma i vincoli in principi di progettazione. In primo luogo, introduciamo una struttura sparsa a due livelli che combina una Mixture-of-Experts (MoE) a grana fine con reti feed-forward sparse, riducendo drasticamente le richieste computazionali senza sacrificare la capacità del modello. In secondo luogo, per superare il collo di bottiglia I/O dell'archiviazione lenta, progettiamo un router pre-attention che consente al nostro motore di inferenza co-progettato di prelevare i parametri degli esperti dall'archiviazione mentre calcola l'attenzione, nascondendo efficacemente la latenza di archiviazione che altrimenti comprometterebbe l'inferenza sul dispositivo. In terzo luogo, per l'efficienza della memoria, utilizziamo un meccanismo di attenzione sparsa ibrido NoPE-RoPE per ridurre drasticamente i requisiti della cache KV. Rilasciamo SmallThinker-4B-A0.6B e SmallThinker-21B-A3B, che raggiungono punteggi di prestazione all'avanguardia e superano persino LLM più grandi. Notevolmente, il nostro sistema co-progettato elimina per lo più la necessità di costose hardware GPU: con la quantizzazione Q4_0, entrambi i modelli superano i 20 token/s su CPU consumer ordinarie, consumando rispettivamente solo 1GB e 8GB di memoria. SmallThinker è disponibile pubblicamente su hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct e hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.
Nonostante le promesse dell'Apprendimento Multi-Task nel sfruttare conoscenze complementari tra i task, le tecniche esistenti di ottimizzazione multi-task (MTO) rimangono focalizzate sulla risoluzione dei conflitti attraverso strategie di scalatura delle perdite e manipolazione dei gradienti centrate sull'ottimizzatore, senza tuttavia garantire miglioramenti consistenti. In questo articolo, sosteniamo che lo spazio di rappresentazione condiviso, dove avvengono naturalmente le interazioni tra i task, offra informazioni ricche e potenzialità per operazioni complementari agli ottimizzatori esistenti, in particolare per facilitare la complementarità inter-task, raramente esplorata nell'MTO. Questa intuizione porta a Rep-MTL, che sfrutta la salienza dei task a livello di rappresentazione per quantificare le interazioni tra l'ottimizzazione specifica per task e l'apprendimento della rappresentazione condivisa. Orientando queste salienze attraverso penalizzazioni basate sull'entropia e allineamenti campione-per-campione tra i task, Rep-MTL mira a mitigare il trasferimento negativo mantenendo un addestramento efficace dei singoli task anziché concentrarsi esclusivamente sulla risoluzione dei conflitti, promuovendo esplicitamente la condivisione di informazioni complementari. Gli esperimenti sono condotti su quattro benchmark MTL impegnativi, che coprono sia scenari di task-shift che di domain-shift. I risultati mostrano che Rep-MTL, anche abbinato alla semplice politica di ponderazione uniforme, raggiunge miglioramenti competitivi con un'efficienza favorevole. Oltre alle metriche di prestazione standard, l'analisi dell'esponente della Legge di Potenza dimostra l'efficacia di Rep-MTL nel bilanciare l'apprendimento specifico per task e la condivisione inter-task. La pagina del progetto è disponibile QUI.
La ricostruzione dell'intelligenza spaziale 4D dalle osservazioni visive è da tempo un compito centrale ma impegnativo nel campo della visione artificiale, con ampie applicazioni nel mondo reale. Queste spaziano dai domini dell'intrattenimento come i film, dove l'attenzione è spesso sulla ricostruzione di elementi visivi fondamentali, all'AI incarnata, che enfatizza la modellazione delle interazioni e il realismo fisico. Alimentato dai rapidi progressi nelle rappresentazioni 3D e nelle architetture di deep learning, il campo si è evoluto rapidamente, superando l'ambito delle precedenti survey. Inoltre, le survey esistenti raramente offrono un'analisi completa della struttura gerarchica della ricostruzione di scene 4D. Per colmare questa lacuna, presentiamo una nuova prospettiva che organizza i metodi esistenti in cinque livelli progressivi di intelligenza spaziale 4D: (1) Livello 1 -- ricostruzione di attributi 3D di basso livello (ad esempio, profondità, pose e mappe di punti); (2) Livello 2 -- ricostruzione di componenti di scene 3D (ad esempio, oggetti, esseri umani, strutture); (3) Livello 3 -- ricostruzione di scene dinamiche 4D; (4) Livello 4 -- modellazione delle interazioni tra i componenti della scena; e (5) Livello 5 -- incorporazione di leggi e vincoli fisici. Concludiamo la survey discutendo le principali sfide a ciascun livello e evidenziando le direzioni promettenti per progredire verso livelli ancora più ricchi di intelligenza spaziale 4D. Per monitorare gli sviluppi in corso, manteniamo una pagina di progetto aggiornata: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
I recenti progressi, come l'ottimizzazione delle politiche relative ai gruppi (Group Relative Policy Optimization, GRPO), hanno migliorato le capacità di ragionamento dei modelli linguistici di grandi dimensioni ottimizzando la media aritmetica delle ricompense a livello di token. Tuttavia, GRPO soffre di aggiornamenti instabili delle politiche durante l'elaborazione di token con ricompense ponderate dall'importanza anomale, che si manifestano come rapporti di campionamento dell'importanza estremi durante l'addestramento, ovvero il rapporto tra le probabilità di campionamento assegnate a un token dalle politiche corrente e precedente. In questo lavoro, proponiamo l'ottimizzazione delle politiche basata sulla media geometrica (Geometric-Mean Policy Optimization, GMPO), una variante stabilizzata di GRPO. Invece di ottimizzare la media aritmetica, GMPO massimizza la media geometrica delle ricompense a livello di token, che è intrinsecamente meno sensibile ai valori anomali e mantiene un intervallo più stabile del rapporto di campionamento dell'importanza. Inoltre, forniamo un'analisi teorica e sperimentale completa per giustificare la progettazione e i benefici di stabilità di GMPO. Oltre a una maggiore stabilità, GMPO-7B supera GRPO in media del 4,1% su più benchmark matematici e dell'1,4% su benchmark di ragionamento multimodale, tra cui AIME24, AMC, MATH500, OlympiadBench, Minerva e Geometry3K. Il codice è disponibile all'indirizzo https://github.com/callsys/GMPO.
I grandi modelli di ragionamento (LRM) con capacità di catena di pensiero (CoT) estesa hanno dimostrato prestazioni solide in compiti oggettivi, come il ragionamento matematico e la programmazione. Tuttavia, la loro efficacia su domande soggettive che possono avere risposte diverse da diverse prospettive è ancora limitata da una tendenza verso un ragionamento omogeneo, introdotta dalla dipendenza da una singola verità di riferimento nell'addestramento supervisionato e da ricompense verificabili nell'apprendimento per rinforzo. Motivati dalla scoperta che l'aumento delle prospettive di ruolo migliora costantemente le prestazioni, proponiamo MultiRole-R1, un framework potenziato dalla diversità con molteplici prospettive di ruolo, per migliorare l'accuratezza e la diversità nei compiti di ragionamento soggettivo. MultiRole-R1 include una pipeline di costruzione dei dati non supervisionata che genera catene di ragionamento che incorporano prospettive di ruolo diverse. Utilizziamo inoltre l'apprendimento per rinforzo tramite l'ottimizzazione relativa delle politiche di gruppo (GRPO) con modellazione delle ricompense, considerando la diversità come un segnale di ricompensa oltre alla ricompensa verificabile. Con funzioni di ricompensa appositamente progettate, promuoviamo con successo la diversità delle prospettive e la diversità lessicale, scoprendo una relazione positiva tra diversità di ragionamento e accuratezza. I nostri esperimenti su sei benchmark dimostrano l'efficacia e la generalizzabilità di MultiRole-R1 nel migliorare sia il ragionamento soggettivo che quello oggettivo, evidenziando il potenziale dell'addestramento potenziato dalla diversità nei LRM.
I recenti progressi nei grandi modelli multimodali come GPT-4o hanno stabilito un nuovo standard per l'editing di immagini guidato da istruzioni ad alta fedeltà. Tuttavia, la natura proprietaria di questi modelli e dei loro dati di addestramento rappresenta un significativo ostacolo per la ricerca open-source. Per colmare questa lacuna, introduciamo GPT-IMAGE-EDIT-1.5M, un corpus di editing di immagini su larga scala e pubblicamente disponibile, contenente oltre 1,5 milioni di triplette di alta qualità (istruzione, immagine sorgente, immagine modificata). Costruiamo sistematicamente questo dataset sfruttando le capacità versatili di GPT-4o per unificare e perfezionare tre popolari dataset di editing di immagini: OmniEdit, HQ-Edit e UltraEdit. Nello specifico, la nostra metodologia prevede 1) la rigenerazione delle immagini di output per migliorare la qualità visiva e l'allineamento alle istruzioni, e 2) la riscrittura selettiva dei prompt per migliorare la chiarezza semantica. Per validare l'efficacia del nostro dataset, addestriamo modelli open-source avanzati su GPT-IMAGE-EDIT-1.5M. I risultati empirici sono entusiasmanti: ad esempio, il modello FluxKontext, dopo l'addestramento, raggiunge prestazioni altamente competitive su una vasta gamma di benchmark, tra cui 7.24 su GEdit-EN, 3.80 su ImgEdit-Full e 8.78 su Complex-Edit, dimostrando una migliore aderenza alle istruzioni e una qualità percettiva superiore, pur mantenendo l'identità. Questi punteggi superano nettamente tutti i metodi open-source precedentemente pubblicati e riducono significativamente il divario rispetto ai principali modelli proprietari. Speriamo che il rilascio completo di GPT-IMAGE-EDIT-1.5M possa contribuire a catalizzare ulteriori ricerche aperte nel campo dell'editing di immagini guidato da istruzioni.
L'apprendimento di rappresentazioni visive è fondamentale per un'ampia gamma di attività downstream. Sebbene i recenti modelli contrastivi visione-linguaggio, come CLIP e SigLIP, abbiano ottenuto prestazioni impressionanti in modalità zero-shot grazie all'allineamento su larga scala tra visione e linguaggio, la loro dipendenza da rappresentazioni globali limita la loro efficacia per attività di predizione densa, come il grounding, l'OCR e la segmentazione. Per colmare questa lacuna, introduciamo Region-Aware Cluster Discrimination (RICE), un metodo innovativo che potenzia le capacità visive e OCR a livello regionale. Inizialmente costruiamo un dataset di regioni candidate su scala miliardaria e proponiamo un livello Region Transformer per estrarre una semantica regionale ricca. Progettiamo inoltre una funzione di perdita unificata per la discriminazione dei cluster regionali che supporta congiuntamente l'apprendimento di oggetti e OCR all'interno di un unico framework di classificazione, consentendo un addestramento distribuito efficiente e scalabile su dati su larga scala. Esperimenti estensivi dimostrano che RICE supera costantemente i metodi precedenti in attività come la segmentazione, la rilevazione densa e la percezione visiva per Modelli Linguistici Multimodali di Grande Scala (MLLMs). I modelli pre-addestrati sono stati rilasciati su https://github.com/deepglint/MVT.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno evidenziato il potenziale del reinforcement learning con ricompense verificabili (RLVR) per migliorare le capacità di ragionamento attraverso sequenze di output estese. Tuttavia, i tradizionali framework di RL incontrano inefficienze nella gestione di output ultra-lunghi a causa delle distribuzioni a coda lunga delle sequenze e del collasso dell'entropia durante l'addestramento. Per affrontare queste sfide, proponiamo un approccio di Reinforcement Learning per Output Ultra-Lunghi (UloRL) per potenziare le capacità di ragionamento dei modelli linguistici di grandi dimensioni. Nello specifico, dividiamo la decodifica di output ultra-lunghi in segmenti brevi, consentendo un addestramento efficiente mitigando i ritardi causati da campioni a coda lunga. Inoltre, introduciamo il mascheramento dinamico dei Token Positivi Ben Padroneggiati (MPTs) per prevenire il collasso dell'entropia. I risultati sperimentali dimostrano l'efficacia del nostro approccio. Sul modello Qwen3-30B-A3B, il RL con segment rollout ha ottenuto un aumento di 2,06x nella velocità di addestramento, mentre l'addestramento RL con output di 128k token migliora le prestazioni del modello su AIME2025 dal 70,9% all'85,1% e su BeyondAIME dal 50,7% al 61,9%, superando persino Qwen3-235B-A22B con guadagni significativi. Questi risultati sottolineano il potenziale dei nostri metodi per avanzare le capacità di ragionamento degli LLM con la generazione di sequenze ultra-lunghe. Rilasceremo il nostro codice e modello per ulteriori utilizzi da parte della comunità.
La generazione perpetua di scene 3D mira a produrre sequenze di visualizzazioni 3D a lungo raggio e coerenti, applicabili per la sintesi di video a lungo termine e la ricostruzione di scene 3D. I metodi esistenti seguono un approccio "naviga-e-immagina" e si basano sull'outpainting per l'espansione successiva delle visualizzazioni. Tuttavia, le sequenze di visualizzazioni generate soffrono del problema della deriva semantica, derivato dall'accumulo di deviazioni del modulo di outpainting. Per affrontare questa sfida, proponiamo ScenePainter, un nuovo framework per la generazione di scene 3D semanticamente consistenti, che allinea il prior specifico della scena dell'outpainter con la comprensione della scena corrente. Nello specifico, introduciamo una struttura gerarchica a grafo denominata SceneConceptGraph per costruire relazioni tra concetti di scena multi-livello, che guida l'outpainter verso visualizzazioni nuove e consistenti e può essere raffinata dinamicamente per migliorare la diversità. Esperimenti estensivi dimostrano che il nostro framework supera il problema della deriva semantica e genera sequenze di visualizzazioni 3D più consistenti e immersive. Pagina del progetto: https://xiac20.github.io/ScenePainter/.
La crescente frequenza di eventi meteorologici estremi dovuta al cambiamento climatico globale richiede previsioni meteorologiche accurate. Recentemente, sono stati compiuti notevoli progressi grazie ai metodi end-to-end, grazie alle tecniche di deep learning, ma questi si scontrano con limitazioni legate all'inconsistenza nella rappresentazione nell'integrazione multivariabile e faticano a catturare efficacemente le dipendenze tra le variabili, necessarie nei sistemi meteorologici complessi. Trattare diverse variabili come modalità distinte e applicare un approccio di addestramento in due fasi basato su modelli multimodali può parzialmente alleviare questo problema, ma a causa della mancata conformità nei compiti di addestramento tra le due fasi, i risultati sono spesso subottimali. Per affrontare queste sfide, proponiamo un metodo di addestramento implicito in due fasi, configurando encoder e decoder separati per ciascuna variabile. Nello specifico, nella prima fase, il Translator viene congelato mentre gli Encoder e i Decoder apprendono uno spazio latente condiviso; nella seconda fase, gli Encoder e i Decoder vengono congelati, e il Translator cattura le interazioni tra le variabili per la previsione. Inoltre, introducendo un meccanismo di self-attention per la fusione multivariabile nello spazio latente, le prestazioni ottengono ulteriori miglioramenti. Empiricamente, esperimenti estensivi dimostrano le prestazioni all'avanguardia del nostro metodo. In particolare, riduce l'MSE per le previsioni della temperatura dell'aria vicino alla superficie e dell'umidità relativa rispettivamente del 28,82% e del 23,39%. Il codice sorgente è disponibile all'indirizzo https://github.com/ShremG/Met2Net.
La rettifica delle immagini di documenti mira a eliminare le deformazioni geometriche nei documenti fotografati per facilitare il riconoscimento del testo. Tuttavia, i metodi esistenti spesso trascurano l'importanza degli elementi in primo piano, che forniscono riferimenti geometrici essenziali e informazioni sul layout per la correzione delle immagini dei documenti. In questo articolo, introduciamo la Foreground-Centric Network (ForCenNet) per eliminare le distorsioni geometriche nelle immagini dei documenti. Nello specifico, proponiamo inizialmente un metodo di generazione di etichette centrato sul primo piano, che estrae dettagliati elementi in primo piano da un'immagine non distorta. Successivamente, introduciamo un meccanismo di maschera centrato sul primo piano per migliorare la distinzione tra regioni leggibili e lo sfondo. Inoltre, progettiamo una funzione di perdita di consistenza della curvatura per sfruttare le etichette dettagliate del primo piano e aiutare il modello a comprendere la distribuzione geometrica distorta. Esperimenti estensivi dimostrano che ForCenNet raggiunge nuovi stati dell'arte su quattro benchmark del mondo reale, come DocUNet, DIR300, WarpDoc e DocReal. L'analisi quantitativa mostra che il metodo proposto corregge efficacemente gli elementi del layout, come le linee di testo e i bordi delle tabelle. Le risorse per ulteriori confronti sono fornite su https://github.com/caipeng328/ForCenNet.
I modelli di diffusione e di flow-matching hanno rivoluzionato la generazione automatica di audio da testo negli ultimi tempi. Questi modelli sono sempre più capaci di produrre output audio di alta qualità e fedeli, catturando sia il parlato che gli eventi acustici. Tuttavia, c'è ancora molto spazio per miglioramenti nella generazione creativa di audio che coinvolge principalmente musica e canzoni. Recenti modelli open per la generazione di canzoni da testo, come DiffRhythm, ACE-Step e LeVo, hanno stabilito uno standard accettabile nella generazione automatica di canzoni per uso ricreativo. Tuttavia, questi modelli mancano di una controllabilità fine a livello di parola, spesso desiderata dai musicisti nei loro flussi di lavoro. Per quanto ne sappiamo, il nostro modello JAM basato su flow-matching rappresenta il primo tentativo di dotare la generazione di canzoni di un controllo temporale e di durata a livello di parola, consentendo un controllo vocale fine. Per migliorare la qualità delle canzoni generate in modo che siano più allineate con le preferenze umane, implementiamo l'allineamento estetico attraverso l'ottimizzazione diretta delle preferenze, che affina iterativamente il modello utilizzando un dataset sintetico, eliminando la necessità di annotazioni manuali dei dati. Inoltre, miriamo a standardizzare la valutazione di tali modelli di generazione di canzoni da testo attraverso il nostro dataset di valutazione pubblico JAME. Dimostriamo che JAM supera i modelli esistenti in termini di attributi specifici della musica.
Presentiamo Music Arena, una piattaforma aperta per la valutazione scalabile delle preferenze umane nei modelli di testo-musica (TTM). Sollecitare le preferenze umane attraverso studi di ascolto rappresenta lo standard di riferimento per la valutazione nel campo TTM, ma questi studi sono costosi da condurre e difficili da confrontare, poiché i protocolli di studio possono variare tra i sistemi. Inoltre, le preferenze umane potrebbero aiutare i ricercatori ad allineare i loro sistemi TTM o a migliorare le metriche di valutazione automatica, ma attualmente non esiste una fonte aperta e rinnovabile di preferenze. Miriamo a colmare queste lacune offrendo una valutazione *in tempo reale* per i TTM. In Music Arena, utenti reali inseriscono prompt di testo di loro scelta e confrontano gli output di due sistemi TTM, e le loro preferenze vengono utilizzate per compilare una classifica. Sebbene Music Arena segua le recenti tendenze di valutazione in altri domini dell'IA, lo abbiamo progettato con caratteristiche chiave specifiche per la musica: un sistema di routing basato su LLM per navigare le firme di tipo eterogenee dei sistemi TTM e la raccolta di preferenze *dettagliate*, inclusi dati di ascolto e feedback in linguaggio naturale. Proponiamo inoltre una politica di rilascio dati continuo con garanzie sulla privacy degli utenti, fornendo una fonte rinnovabile di dati sulle preferenze e aumentando la trasparenza della piattaforma. Attraverso il suo protocollo di valutazione standardizzato, le politiche di accesso ai dati trasparenti e le funzionalità specifiche per la musica, Music Arena non solo affronta le principali sfide nell'ecosistema TTM, ma dimostra anche come la valutazione in tempo reale possa essere adattata in modo ponderato alle caratteristiche uniche di specifici domini dell'IA. Music Arena è disponibile all'indirizzo: https://music-arena.org
I Large Language Model (LLM) hanno compiuto progressi significativi nel migliorare il ragionamento passo-passo attraverso l'apprendimento per rinforzo. Tuttavia, l'algoritmo Group Relative Policy Optimization (GRPO), che si basa su regole di ricompensa sparsa, spesso incontra il problema di ricompense identiche all'interno dei gruppi, portando al fenomeno del collasso del vantaggio. Le opere esistenti affrontano tipicamente questa sfida da due prospettive: imporre la riflessione del modello per aumentare la diversità delle risposte e introdurre feedback interno per potenziare il segnale di addestramento (vantaggio). In questo lavoro, iniziamo analizzando i limiti della riflessione del modello e investigando l'entropia della politica delle risposte a livello di campione fine-granulare. Sulla base dei nostri risultati sperimentali, proponiamo l'algoritmo EDGE-GRPO, che adotta un Vantaggio Guidato dall'Entropia e una Correzione degli Errori Guidata per mitigare efficacemente il problema del collasso del vantaggio. Esperimenti estesi su diversi benchmark di ragionamento principali dimostrano l'efficacia e la superiorità del nostro approccio. È disponibile all'indirizzo https://github.com/ZhangXJ199/EDGE-GRPO.
Quando i modelli linguistici (LM) vengono addestrati tramite apprendimento per rinforzo (RL) per generare "catene di ragionamento" in linguaggio naturale, le loro prestazioni migliorano in una varietà di compiti complessi di risposta alle domande. Oggi, quasi tutte le applicazioni di successo dell'RL per il ragionamento utilizzano funzioni di ricompensa binaria che valutano la correttezza degli output dei LM. Poiché tali funzioni di ricompensa non penalizzano le ipotesi casuali o gli output a bassa confidenza, spesso hanno l'effetto collaterale non intenzionale di degradare la calibrazione e aumentare la frequenza con cui i LM generano risposte errate (o "allucinano") in altri domini problematici. Questo articolo descrive RLCR (Reinforcement Learning with Calibration Rewards), un approccio per addestrare modelli di ragionamento che migliora congiuntamente l'accuratezza e la stima della confidenza calibrata. Durante RLCR, i LM generano sia previsioni che stime numeriche di confidenza dopo il ragionamento. Vengono addestrati per ottimizzare una funzione di ricompensa che integra un punteggio di correttezza binario con un punteggio di Brier — una regola di punteggio per le stime di confidenza che incentiva previsioni calibrate. Dimostriamo innanzitutto che questa funzione di ricompensa (o qualsiasi funzione di ricompensa analoga che utilizza una regola di punteggio limitata e propria) produce modelli le cui previsioni sono sia accurate che ben calibrate. Successivamente, mostriamo che, su diversi dataset, RLCR migliora sostanzialmente la calibrazione senza perdita di accuratezza, sia nelle valutazioni in dominio che fuori dominio — superando sia l'addestramento RL ordinario che i classificatori addestrati per assegnare punteggi di confidenza post-hoc. Mentre l'RL ordinario danneggia la calibrazione, RLCR la migliora. Infine, dimostriamo che la confidenza verbalizzata può essere sfruttata al momento del test per migliorare l'accuratezza e la calibrazione tramite metodi di scalatura ponderata per confidenza. I nostri risultati mostrano che ottimizzare esplicitamente per la calibrazione può produrre modelli di ragionamento più affidabili in generale.
La richiesta di modelli linguistici di grandi dimensioni (LLM) in grado di eseguire ragionamenti matematici sofisticati è in crescita in vari settori. Tuttavia, lo sviluppo di LLM matematici performanti è fortemente limitato dalla scarsità di dati di addestramento difficili e innovativi. Introduciamo SAND-Math (Synthetic Augmented Novel and Difficult Mathematics problems and solutions), una pipeline che affronta questo problema generando prima problemi di alta qualità da zero e poi aumentando sistematicamente la loro complessità attraverso un nuovo passaggio chiamato Difficulty Hiking. Dimostriamo l'efficacia del nostro approccio attraverso due risultati chiave. In primo luogo, arricchendo una solida baseline con i dati di SAND-Math si ottiene un significativo miglioramento delle prestazioni, superando il miglior dataset sintetico esistente di ben 17,85 punti assoluti sul benchmark AIME25. In secondo luogo, in uno studio di ablazione dedicato, mostriamo che il processo di Difficulty Hiking è altamente efficace: aumentando la difficoltà media dei problemi da 5,02 a 5,98, questo passaggio migliora le prestazioni su AIME25 dal 46,38% al 49,23%. La pipeline completa di generazione, il dataset finale e un modello fine-tuned costituiscono un toolkit pratico e scalabile per costruire LLM matematici più capaci ed efficienti. Il dataset SAND-Math è disponibile qui: https://huggingface.co/datasets/amd/SAND-MATH{https://huggingface.co/datasets/amd/SAND-MATH}
I simulator di utenti sono essenziali per l'IA conversazionale, consentendo lo sviluppo e la valutazione scalabile degli agenti attraverso interazioni simulate. Sebbene gli attuali Modelli Linguistici di Grande Dimensione (LLM) abbiano avanzato le capacità di simulazione degli utenti, riveliamo che faticano a dimostrare comportamenti orientati agli obiettivi in modo coerente attraverso conversazioni multi-turn—una limitazione critica che compromette la loro affidabilità nelle applicazioni downstream. Introduciamo il User Goal State Tracking (UGST), un framework innovativo che monitora il progresso degli obiettivi dell'utente durante le conversazioni. Sfruttando UGST, presentiamo una metodologia in tre fasi per sviluppare simulatori di utenti in grado di monitorare autonomamente il progresso degli obiettivi e ragionare per generare risposte allineate agli obiettivi. Inoltre, stabiliamo metriche di valutazione complete per misurare l'allineamento agli obiettivi nei simulatori di utenti e dimostriamo che il nostro approccio produce miglioramenti sostanziali su due benchmark (MultiWOZ 2.4 e {\tau}-Bench). I nostri contributi affrontano una lacuna critica nell'IA conversazionale e stabiliscono UGST come un framework essenziale per sviluppare simulatori di utenti allineati agli obiettivi.
L'analisi dell'espressione genica rappresenta la chiave per molte scoperte biomediche, tuttavia estrarre informazioni dai dati trascrittomici grezzi rimane una sfida impegnativa a causa della complessità di più file di grandi dimensioni e semi-strutturati e della necessità di un'ampia competenza nel dominio. Gli attuali approcci di automazione sono spesso limitati da flussi di lavoro rigidi che falliscono nei casi limite o da agenti completamente autonomi che mancano della precisione necessaria per un'indagine scientifica rigorosa. GenoMAS traccia un percorso diverso presentando un team di scienziati basati su LLM che integra l'affidabilità dei flussi di lavoro strutturati con l'adattabilità degli agenti autonomi. GenoMAS orchestra sei agenti LLM specializzati attraverso protocolli di passaggio di messaggi tipizzati, ciascuno dei quali contribuisce con punti di forza complementari a una tela analitica condivisa. Al centro di GenoMAS si trova un framework di pianificazione guidata: gli agenti di programmazione scompongono le linee guida di alto livello delle attività in Unità d'Azione e, a ogni punto di decisione, scelgono di avanzare, rivedere, bypassare o tornare indietro, mantenendo così la coerenza logica mentre si adattano con flessibilità alle idiosincrasie dei dati genomici. Sul benchmark GenoTEX, GenoMAS raggiunge una Correlazione di Somiglianza Composita dell'89,13% per la pre-elaborazione dei dati e un F_1 del 60,48% per l'identificazione genica, superando rispettivamente il miglior stato dell'arte del 10,61% e del 16,85%. Oltre alle metriche, GenoMAS evidenzia associazioni gene-fenotipo biologicamente plausibili corroborate dalla letteratura, tutto ciò mentre aggiusta per i fattori confondenti latenti. Il codice è disponibile all'indirizzo https://github.com/Liu-Hy/GenoMAS.
Man mano che i grandi modelli linguistici (LLM) integrano sempre più interpreti di codice nativo, abilitano potenti capacità di esecuzione in tempo reale, ampliando sostanzialmente la loro utilità. Tuttavia, tali integrazioni introducono potenziali minacce informatiche a livello di sistema, fondamentalmente diverse dalle vulnerabilità basate su prompt. Per valutare sistematicamente questi rischi specifici degli interpreti, proponiamo CIRCLE (Code-Interpreter Resilience Check for LLM Exploits), un semplice benchmark composto da 1.260 prompt che mirano all'esaurimento delle risorse di CPU, memoria e disco. Ogni categoria di rischio include varianti di prompt esplicitamente maliziose ("dirette") e plausibilmente innocue ("indirette"). Il nostro framework di valutazione automatizzato non solo verifica se gli LLM rifiutano o generano codice rischioso, ma esegue anche il codice generato all'interno dell'ambiente dell'interprete per valutare la correttezza del codice, le semplificazioni apportate dall'LLM per rendere il codice sicuro o i timeout di esecuzione. Valutando 7 modelli commercialmente disponibili di OpenAI e Google, abbiamo scoperto vulnerabilità significative e inconsistenti. Ad esempio, le valutazioni mostrano disparità sostanziali anche all'interno degli stessi fornitori: il modello o4-mini di OpenAI rifiuta correttamente le richieste rischiose al 7,1%, un tasso notevolmente più alto rispetto a GPT-4.1 allo 0,5%. I risultati sottolineano in particolare che i prompt indiretti, progettati socialmente, indeboliscono sostanzialmente le difese del modello. Ciò evidenzia un urgente bisogno di benchmark di sicurezza informatica specifici per gli interpreti, strumenti dedicati di mitigazione (ad esempio, guardrail) e standard chiari del settore per guidare un'implementazione sicura e responsabile delle integrazioni degli interpreti negli LLM. Il dataset del benchmark e il codice di valutazione sono stati rilasciati pubblicamente per favorire ulteriori ricerche.