Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene l'apprendimento profondo abbia ottenuto un successo straordinario in molti ambiti, storicamente ha ottenuto prestazioni inferiori nei compiti di apprendimento su dati tabellari, che rimangono dominati dagli alberi decisionali con boosting a gradienti (GBDT). Tuttavia, i recenti progressi stanno aprendo la strada ai Modelli di Base per Dati Tabellari (Tabular Foundation Models), che possono sfruttare conoscenze del mondo reale e generalizzare su diversi dataset, specialmente quando i dati contengono testo libero. Nonostante l'integrazione delle capacità dei modelli linguistici nei compiti tabellari sia stata esplorata, la maggior parte dei metodi esistenti utilizza rappresentazioni testuali statiche e indipendenti dal target, limitandone l'efficacia. Introduciamo TabSTAR: un Modello di Base per Dati Tabellari con Rappresentazioni Semanticamente Consapevoli del Target. TabSTAR è progettato per abilitare il trasferimento di apprendimento su dati tabellari con caratteristiche testuali, con un'architettura priva di parametri specifici per il dataset. Sblocca un codificatore di testo pre-addestrato e prende in input token target, che forniscono al modello il contesto necessario per apprendere embedding specifici per il compito. TabSTAR raggiunge prestazioni all'avanguardia sia per dataset di medie che di grandi dimensioni su benchmark noti di compiti di classificazione con caratteristiche testuali, e la sua fase di pre-addestramento mostra leggi di scalabilità rispetto al numero di dataset, offrendo una via per ulteriori miglioramenti delle prestazioni.
I recenti modelli di ragionamento su larga scala (LRM) hanno dimostrato forti capacità di ragionamento attraverso l'apprendimento per rinforzo (RL). Questi miglioramenti sono stati osservati principalmente nei compiti di ragionamento a contesto breve. Al contrario, estendere gli LRM per elaborare e ragionare efficacemente su input a contesto lungo tramite RL rimane una sfida critica irrisolta. Per colmare questa lacuna, formalizziamo innanzitutto il paradigma del ragionamento RL a contesto lungo e identifichiamo le principali sfide legate all'efficienza subottimale dell'addestramento e all'instabilità del processo di ottimizzazione. Per affrontare questi problemi, proponiamo QwenLong-L1, un framework che adatta gli LRM a contesto breve a scenari a contesto lungo attraverso un ridimensionamento progressivo del contesto. Nello specifico, utilizziamo una fase iniziale di fine-tuning supervisionato (SFT) per stabilire una politica iniziale robusta, seguita da una tecnica RL a fasi guidata da un curriculum per stabilizzare l'evoluzione della politica, e arricchita con una strategia di campionamento retrospettivo basata sulla difficoltà per incentivare l'esplorazione della politica. Esperimenti su sette benchmark di risposta a domande su documenti a contesto lungo dimostrano che QwenLong-L1-32B supera LRM di punta come OpenAI-o3-mini e Qwen3-235B-A22B, raggiungendo prestazioni paragonabili a Claude-3.7-Sonnet-Thinking, dimostrando una performance leader tra gli LRM all'avanguardia. Questo lavoro avanza lo sviluppo di LRM pratici a contesto lungo capaci di ragionamento robusto in ambienti ad alta intensità informativa.
I grandi modelli linguistici (LLM) eccellono in compiti di ragionamento complesso, ma rimangono computazionalmente costosi, limitandone l'implementazione pratica. Per affrontare questo problema, lavori recenti si sono concentrati sulla distillazione delle capacità di ragionamento in modelli linguistici più piccoli (sLM) utilizzando tracce di catena di pensiero (CoT) da LLM insegnanti. Tuttavia, questo approccio incontra difficoltà in scenari che richiedono conoscenze fattuali rare o calcoli precisi, dove gli sLM spesso producono allucinazioni a causa delle capacità limitate. In questo lavoro, proponiamo la Distillazione di Agenti, un framework per trasferire non solo la capacità di ragionamento, ma l'intero comportamento di risoluzione dei compiti da agenti basati su LLM a sLM dotati di strumenti di recupero e codice. Miglioriamo la distillazione di agenti lungo due assi complementari: (1) introduciamo un metodo di prompting chiamato prefisso di primo pensiero per migliorare la qualità delle traiettorie generate dagli insegnanti; e (2) proponiamo una generazione di azioni auto-consistente per migliorare la robustezza al test-time dei piccoli agenti. Valutiamo il nostro metodo su otto compiti di ragionamento in domini fattuali e matematici, coprendo sia la generalizzazione in-dominio che out-of-domain. I nostri risultati mostrano che sLM con soli 0,5B, 1,5B, 3B parametri possono raggiungere prestazioni competitive con modelli più grandi di livello successivo (1,5B, 3B, 7B) fine-tuned utilizzando la distillazione CoT, dimostrando il potenziale della distillazione di agenti per costruire piccoli agenti pratici e dotati di strumenti. Il nostro codice è disponibile all'indirizzo https://github.com/Nardien/agent-distillation.
Il rapido progresso dei modelli linguistici di grandi dimensioni (LLM) è stato accompagnato da aumenti senza precedenti nelle richieste computazionali, con i costi di addestramento per i modelli all'avanguardia che raddoppiano ogni pochi mesi. L'addestramento diretto dei modelli in aritmetica a bassa precisione offre una soluzione, migliorando sia la velocità computazionale che l'efficienza energetica. In particolare, la recente architettura Blackwell di NVIDIA facilita operazioni a precisione estremamente bassa, specificamente varianti FP4, promettendo guadagni sostanziali in termini di efficienza. Tuttavia, gli attuali algoritmi per l'addestramento di LLM in precisione FP4 affrontano un significativo degrado dell'accuratezza e spesso si affidano a soluzioni di ripiego a precisione mista. In questo articolo, indaghiamo sistematicamente l'addestramento FP4 supportato dall'hardware e introduciamo Quartet, un nuovo approccio che consente un addestramento FP4 accurato end-to-end con tutti i principali calcoli (ad esempio nei livelli lineari) eseguiti a bassa precisione. Attraverso valutazioni estensive su modelli di tipo Llama, riveliamo una nuova legge di scala a bassa precisione che quantifica i compromessi di prestazioni attraverso diverse larghezze di bit e ci permette di identificare una tecnica di addestramento a bassa precisione "quasi ottimale" in termini di accuratezza-vs-calcolo, chiamata Quartet. Implementiamo Quartet utilizzando kernel CUDA ottimizzati specifici per GPU NVIDIA Blackwell e dimostriamo che può raggiungere un'accuratezza all'avanguardia per la precisione FP4, addestrando con successo modelli su scala miliardi. Il nostro metodo dimostra che l'addestramento completamente basato su FP4 è un'alternativa competitiva rispetto all'addestramento a precisione standard e FP8. Il nostro codice è disponibile all'indirizzo https://github.com/IST-DASLab/Quartet.
I modelli linguistici di grandi dimensioni hanno dimostrato una notevole competenza in compiti di ragionamento lunghi e complessi. Tuttavia, mostrano frequentemente una problematica dipendenza da schemi di ragionamento familiari, un fenomeno che definiamo rigidità di ragionamento. Nonostante istruzioni esplicite da parte degli utenti, questi modelli spesso ignorano condizioni chiaramente enunciate e ricadono in traiettorie di ragionamento abituali, portando a conclusioni errate. Questo comportamento presenta sfide significative, specialmente in domini come la matematica e gli enigmi logici, dove l'aderenza precisa a vincoli specificati è cruciale. Per indagare sistematicamente la rigidità di ragionamento, un comportamento largamente inesplorato in precedenti lavori, introduciamo un set diagnostico curato da esperti. Il nostro dataset include varianti appositamente modificate di benchmark matematici esistenti, come AIME e MATH500, nonché enigmi ben noti deliberatamente riprogettati per richiedere una deviazione dalle strategie di ragionamento familiari. Utilizzando questo dataset, identifiamo schemi ricorrenti di contaminazione che si verificano quando i modelli ricadono in ragionamenti radicati. Nello specifico, categorizziamo questa contaminazione in tre modalità distinte: (i) Sovraccarico Interpretativo, (ii) Diffidenza verso l'Input, e (iii) Attenzione Parziale alle Istruzioni, ciascuna delle quali induce i modelli a ignorare o distorcere le istruzioni fornite. Rilasciamo pubblicamente il nostro set diagnostico per facilitare future ricerche sulla mitigazione della rigidità di ragionamento nei modelli linguistici.
L'apprendimento per rinforzo (Reinforcement Learning, RL) ha significativamente migliorato le capacità di ragionamento dei modelli visione-linguaggio (Vision-Language Models, VLMs). Tuttavia, l'uso del RL al di là dei compiti di ragionamento rimane in gran parte inesplorato, specialmente per compiti intensivi di percezione come il rilevamento e il grounding di oggetti. Proponiamo V-Triune, un sistema di Visual Triple Unified Reinforcement Learning che consente ai VLMs di apprendere congiuntamente compiti di ragionamento visivo e percezione all'interno di una singola pipeline di addestramento. V-Triune comprende tre componenti complementari: la Formattazione dei Dati a Livello di Campione (per unificare input di compiti diversi), il Calcolo delle Ricompense a Livello di Verificatore (per fornire ricompense personalizzate tramite verificatori specializzati) e il Monitoraggio delle Metriche a Livello di Sorgente (per diagnosticare problemi a livello di sorgente dati). Introduciamo inoltre una nuova ricompensa Dynamic IoU, che fornisce feedback adattivo, progressivo e definitivo per i compiti di percezione gestiti da V-Triune. Il nostro approccio è implementato all'interno di un framework di addestramento RL standard utilizzando modelli backbone open-source da 7B e 32B. Il modello risultante, denominato Orsta (One RL to See Them All), dimostra miglioramenti consistenti sia nei compiti di ragionamento che di percezione. Questa ampia capacità è significativamente influenzata dal suo addestramento su un dataset diversificato, costruito attorno a quattro compiti rappresentativi di ragionamento visivo (Matematica, Puzzle, Grafici e Scienza) e quattro compiti di percezione visiva (Grounding, Rilevamento, Conteggio e OCR). Di conseguenza, Orsta ottiene guadagni sostanziali su MEGA-Bench Core, con miglioramenti che vanno da +2.1 a un impressionante +14.1 tra le sue varie varianti di modelli da 7B e 32B, con benefici di prestazioni che si estendono a un'ampia gamma di compiti downstream. Questi risultati evidenziano l'efficacia e la scalabilità del nostro approccio RL unificato per i VLMs. Il sistema V-Triune, insieme ai modelli Orsta, è disponibile pubblicamente all'indirizzo https://github.com/MiniMax-AI.
I benchmark esistenti non riescono a cogliere un aspetto cruciale dell'intelligenza: il ragionamento fisico, ovvero la capacità integrata di combinare conoscenze di dominio, ragionamento simbolico e comprensione dei vincoli del mondo reale. Per colmare questa lacuna, introduciamo PhyX: il primo benchmark su larga scala progettato per valutare la capacità dei modelli di ragionare in modo fondato sulla fisica in scenari visivi. PhyX include 3K domande multimodali accuratamente curate, che coprono 6 tipi di ragionamento in 25 sottodomini e 6 aree principali della fisica: termodinamica, elettromagnetismo, meccanica, fisica moderna, ottica e onde\&acustica. Nella nostra valutazione completa, anche i modelli all'avanguardia mostrano notevoli difficoltà nel ragionamento fisico. GPT-4o, Claude3.7-Sonnet e GPT-o4-mini raggiungono rispettivamente solo il 32,5\%, il 42,2\% e il 45,8\% di accuratezza, con divari di prestazione superiori al 29\% rispetto agli esperti umani. La nostra analisi rivela limitazioni critiche nei modelli attuali: eccessiva dipendenza da conoscenze disciplinari memorizzate, affidamento eccessivo su formulazioni matematiche e corrispondenza superficiale di pattern visivi piuttosto che una comprensione fisica genuina. Forniamo un'analisi approfondita attraverso statistiche dettagliate, studi di caso specifici e molteplici paradigmi di valutazione per esaminare a fondo le capacità di ragionamento fisico. Per garantire la riproducibilità, implementiamo un protocollo di valutazione compatibile basato su toolkit ampiamente utilizzati come VLMEvalKit, che consente una valutazione con un solo clic.
Questo rapporto tecnico presenta QwenLong-CPRS, un framework di compressione del contesto progettato per l'ottimizzazione esplicita di contesti lunghi, affrontando l'onere computazionale proibitivo durante la fase di prefill e il degrado delle prestazioni "lost in the middle" dei modelli linguistici di grandi dimensioni (LLM) durante l'elaborazione di sequenze lunghe. Implementato attraverso un innovativo meccanismo di ottimizzazione dinamica del contesto, QwenLong-CPRS consente una compressione del contesto multi-granularità guidata da istruzioni in linguaggio naturale, ottenendo sia guadagni di efficienza che miglioramenti delle prestazioni. Evoluto dalla serie di architetture Qwen, QwenLong-CPRS introduce quattro innovazioni chiave: (1) Ottimizzazione dinamica guidata dal linguaggio naturale, (2) Strati di ragionamento bidirezionale per una maggiore consapevolezza dei confini, (3) Meccanismi di critica dei token con testate di modellazione linguistica e (4) Inferenza parallela a finestre. Valutazioni complete su cinque benchmark (contesti da 4K a 2M parole) dimostrano la triplice efficacia di QwenLong-CPRS: (1) Superiorità costante rispetto ad altri metodi di gestione del contesto come RAG e attenzione sparsa sia in termini di accuratezza che di efficienza. (2) Integrazione agnostica rispetto all'architettura con tutti i principali LLM, tra cui GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3 e Qwen2.5-max, raggiunge una compressione del contesto di 21.59 volte insieme a un miglioramento medio delle prestazioni di 19.15 punti; (3) Implementato con Qwen2.5-32B-Instruct, QwenLong-CPRS supera i principali LLM proprietari di 4.85 e 10.88 punti su Ruler-128K e InfiniteBench, stabilendo nuove prestazioni SOTA.
Poiché il costo marginale di scalabilità del calcolo (dati e parametri) durante il pre-addestramento dei modelli continua ad aumentare in modo significativo, la scalabilità al momento del test (Test-Time Scaling, TTS) è emersa come una direzione promettente per migliorare le prestazioni dei modelli generativi allocando ulteriori risorse computazionali al momento dell'inferenza. Sebbene il TTS abbia dimostrato un notevole successo in molteplici task linguistici, rimane un divario significativo nella comprensione dei comportamenti di scalabilità al momento del test per i modelli generativi di immagini e video (basati su diffusione o flusso). Nonostante lavori recenti abbiano iniziato a esplorare strategie per l'inferenza nei task visivi, questi approcci presentano limitazioni critiche: sono vincolati a domini specifici, mostrano una scarsa scalabilità o cadono in un'over-ottimizzazione della ricompensa che sacrifica la diversità dei campioni. In questo articolo, proponiamo Evolutionary Search (EvoSearch), un metodo TTS innovativo, generalista ed efficiente che migliora efficacemente la scalabilità sia della generazione di immagini che di video nei modelli di diffusione e flusso, senza richiedere ulteriori addestramenti o espansioni del modello. EvoSearch riformula la scalabilità al momento del test per i modelli di diffusione e flusso come un problema di ricerca evolutiva, sfruttando i principi dell'evoluzione biologica per esplorare e affinare in modo efficiente la traiettoria di denoising. Incorporando meccanismi di selezione e mutazione progettati con cura e adattati al processo di denoising basato su equazioni differenziali stocastiche, EvoSearch genera iterativamente discendenti di qualità superiore preservando la diversità della popolazione. Attraverso una valutazione estesa su architetture di diffusione e flusso per task di generazione di immagini e video, dimostriamo che il nostro metodo supera costantemente gli approcci esistenti, raggiunge una maggiore diversità e mostra una forte generalizzabilità a metriche di valutazione non viste. Il nostro progetto è disponibile al sito https://tinnerhrhe.github.io/evosearch.
Il ranking delle ipotesi è un componente cruciale della scoperta scientifica automatizzata, in particolare nelle scienze naturali dove gli esperimenti di laboratorio sono costosi e limitati in termini di produttività. Gli approcci esistenti si concentrano sul ranking pre-esperimento, basandosi esclusivamente sul ragionamento interno di modelli linguistici di grandi dimensioni senza incorporare i risultati empirici degli esperimenti. Introduciamo il compito del ranking guidato da esperimenti, che mira a prioritizzare le ipotesi candidate in base ai risultati di quelle precedentemente testate. Tuttavia, sviluppare tali strategie è impegnativo a causa dell'impraticabilità di condurre ripetutamente esperimenti reali nei domini delle scienze naturali. Per affrontare questo problema, proponiamo un simulatore basato su tre assunzioni informate dal dominio, modellando la performance delle ipotesi come una funzione della somiglianza a un'ipotesi di verità nota, perturbata da rumore. Abbiamo curato un dataset di 124 ipotesi chimiche con risultati sperimentali riportati per validare il simulatore. Basandoci su questo simulatore, sviluppiamo un metodo di ranking pseudo-guidato da esperimenti che raggruppa le ipotesi in base a caratteristiche funzionali condivise e prioritizza i candidati in base alle intuizioni derivate dal feedback sperimentale simulato. Gli esperimenti dimostrano che il nostro metodo supera i baseline pre-esperimento e forti ablazioni.
La scelta del rumore iniziale influisce significativamente sulla qualità e sull'allineamento ai prompt nei modelli di diffusione video, dove diversi semi di rumore per lo stesso prompt possono portare a generazioni drasticamente diverse. Mentre i metodi recenti si basano su prior progettati esternamente come filtri di frequenza o smoothing inter-fotogramma, spesso trascurano i segnali interni del modello che indicano quali semi di rumore sono intrinsecamente preferibili. Per affrontare questo problema, proponiamo ANSE (Active Noise Selection for Generation), un framework consapevole del modello che seleziona semi di rumore di alta qualità quantificando l'incertezza basata sull'attenzione. Al suo centro c'è BANSA (Bayesian Active Noise Selection via Attention), una funzione di acquisizione che misura il disaccordo di entropia tra più campioni stocastici di attenzione per stimare la confidenza e la coerenza del modello. Per un'implementazione efficiente al momento dell'inferenza, introduciamo un'approssimazione mascherata di Bernoulli di BANSA che consente la stima del punteggio utilizzando un singolo passo di diffusione e un sottoinsieme di livelli di attenzione. Gli esperimenti su CogVideoX-2B e 5B dimostrano che ANSE migliora la qualità video e la coerenza temporale con solo un aumento dell'8% e del 13% rispettivamente nel tempo di inferenza, fornendo un approccio principiato e generalizzabile alla selezione del rumore nella diffusione video. Visita la nostra pagina del progetto: https://anse-project.github.io/anse-project/
I Large Reasoning Models (LRM) eccellono in compiti complessi utilizzando il ragionamento a Catena di Pensiero (Chain-of-Thought, CoT). Tuttavia, la loro tendenza a sovrapensare porta a catene di ragionamento eccessivamente lunghe, aumentando drasticamente i costi di inferenza. Per mitigare questo problema, introduciamo VeriThinker, un approccio innovativo per la compressione del CoT. A differenza dei metodi convenzionali che ottimizzano direttamente gli LRM sul compito di ragionamento originale utilizzando dati sintetici di CoT concisi, noi ottimizziamo in modo innovativo il modello esclusivamente attraverso un compito di verifica ausiliario. Addestrando gli LRM a verificare accuratamente la correttezza delle soluzioni CoT, questi diventano intrinsecamente più selettivi riguardo alla necessità dei passaggi successivi di autoriflessione, sopprimendo così efficacemente il sovrapensiero. Esperimenti estensivi validano che VeriThinker riduce sostanzialmente la lunghezza delle catene di ragionamento mantenendo o addirittura migliorando leggermente l'accuratezza. Applicato a DeepSeek-R1-Distill-Qwen-7B, il nostro approccio riduce i token di ragionamento su MATH500 da 3790 a 2125, migliorando l'accuratezza dello 0,8% (dal 94,0% al 94,8%), mentre su AIME25 i token diminuiscono da 14321 a 10287 con un guadagno di accuratezza del 2,1% (dal 38,7% al 40,8%). Inoltre, i nostri esperimenti dimostrano che VeriThinker può essere generalizzato in modalità zero-shot anche al ragionamento speculativo. Il codice è disponibile all'indirizzo https://github.com/czg1225/VeriThinker.
Comprendere le scene visive è fondamentale per l'intelligenza umana. Sebbene i modelli discriminativi abbiano fatto avanzare significativamente la visione artificiale, spesso faticano a comprendere la composizione. Al contrario, i recenti modelli generativi di diffusione testo-immagine eccellono nella sintesi di scene complesse, suggerendo capacità compositive intrinseche. Sulla base di ciò, sono stati proposti classificatori di diffusione zero-shot per riutilizzare i modelli di diffusione in compiti discriminativi. Sebbene lavori precedenti abbiano offerto risultati promettenti in scenari compositivi discriminativi, questi risultati rimangono preliminari a causa di un numero limitato di benchmark e di un'analisi relativamente superficiale delle condizioni in cui i modelli hanno successo. Per affrontare questo problema, presentiamo uno studio completo delle capacità discriminative dei classificatori di diffusione su un'ampia gamma di compiti compositivi. Nello specifico, il nostro studio copre tre modelli di diffusione (SD 1.5, 2.0 e, per la prima volta, 3-m) su 10 dataset e oltre 30 task. Inoltre, gettiamo luce sul ruolo che i domini dei dataset target giocano nelle rispettive prestazioni; per isolare gli effetti del dominio, introduciamo un nuovo benchmark diagnostico, Self-Bench, composto da immagini create dai modelli di diffusione stessi. Infine, esploriamo l'importanza della ponderazione dei timestep e scopriamo una relazione tra il gap di dominio e la sensibilità ai timestep, in particolare per SD3-m. In sintesi, i classificatori di diffusione comprendono la composizionalità, ma con alcune condizioni! Il codice e il dataset sono disponibili all'indirizzo https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
La generazione di forme 3D ad alta risoluzione utilizzando rappresentazioni volumetriche come le Funzioni di Distanza con Segno presenta sfide computazionali e di memoria significative. Introduciamo Direct3D S2, un framework scalabile per la generazione 3D basato su volumi sparsi che raggiunge una qualità di output superiore con costi di addestramento drasticamente ridotti. La nostra innovazione chiave è il meccanismo di Spatial Sparse Attention, che migliora notevolmente l'efficienza dei calcoli del Diffusion Transformer su dati volumetrici sparsi. SSA consente al modello di elaborare efficacemente grandi insiemi di token all'interno di volumi sparsi, riducendo significativamente il sovraccarico computazionale e ottenendo un'accelerazione di 3.9x nel passaggio in avanti e di 9.6x nel passaggio all'indietro. Il nostro framework include anche un autoencoder variazionale che mantiene un formato volumetrico sparso coerente attraverso le fasi di input, latente e output. Rispetto ai metodi precedenti con rappresentazioni eterogenee nei VAE 3D, questo design unificato migliora significativamente l'efficienza e la stabilità dell'addestramento. Il nostro modello è addestrato su dataset pubblicamente disponibili, e gli esperimenti dimostrano che Direct3D S2 non solo supera i metodi all'avanguardia in termini di qualità ed efficienza di generazione, ma consente anche l'addestramento a una risoluzione di 1024 utilizzando solo 8 GPU, un compito che tipicamente richiederebbe almeno 32 GPU per rappresentazioni volumetriche a una risoluzione di 256, rendendo così la generazione 3D su scala gigante sia pratica che accessibile. Pagina del progetto: https://nju3dv.github.io/projects/Direct3D-S2/.
Il rapido progresso e le applicazioni in espansione dei Modelli Linguistici Audio di Grande Dimensione (ALLM) richiedono una comprensione rigorosa della loro affidabilità. Tuttavia, la ricerca sistematica sulla valutazione di questi modelli, in particolare per quanto riguarda i rischi unici della modalità audio, rimane in gran parte inesplorata. I framework di valutazione esistenti si concentrano principalmente sulla modalità testuale o affrontano solo un insieme limitato di dimensioni della sicurezza, non riuscendo a tenere adeguatamente conto delle caratteristiche uniche e degli scenari applicativi intrinseci alla modalità audio. Introduciamo AudioTrust, il primo framework e benchmark di valutazione dell'affidabilità multifaccettato specificamente progettato per gli ALLM. AudioTrust facilita valutazioni in sei dimensioni chiave: equità, allucinazione, sicurezza, privacy, robustezza e autenticazione. Per valutare in modo completo queste dimensioni, AudioTrust è strutturato attorno a 18 configurazioni sperimentali distinte. Il suo nucleo è un dataset meticolosamente costruito di oltre 4.420 campioni audio/testo, tratti da scenari reali (ad esempio, conversazioni quotidiane, chiamate di emergenza, interazioni con assistenti vocali), specificamente progettato per esplorare l'affidabilità multifaccettata degli ALLM. Per la valutazione, il benchmark progetta attentamente 9 metriche di valutazione specifiche per l'audio, e impieghiamo una pipeline automatizzata su larga scala per la valutazione oggettiva e scalabile degli output del modello. I risultati sperimentali rivelano i limiti e le frontiere dell'affidabilità degli ALLM open-source e closed-source all'avanguardia quando affrontano vari scenari audio ad alto rischio, offrendo spunti preziosi per il dispiegamento sicuro e affidabile dei futuri modelli audio. La nostra piattaforma e il benchmark sono disponibili all'indirizzo https://github.com/JusperLee/AudioTrust.
I grandi modelli linguistici mostrano un bias posizionale – una sistematica trascuratezza delle informazioni in specifiche posizioni del contesto – tuttavia la sua interazione con la diversità linguistica rimane poco compresa. Presentiamo uno studio cross-linguistico su cinque lingue tipologicamente distinte (inglese, russo, tedesco, hindi, vietnamita), esaminando come il bias posizionale interagisca con l'incertezza del modello, la sintassi e il prompting. Principali risultati: (1) Il bias posizionale è guidato dal modello, con variazioni specifiche per lingua – Qwen2.5-7B favorisce le posizioni tardive, sfidando le assunzioni di un bias verso i token iniziali; (2) Una guida posizionale esplicita (ad esempio, il contesto corretto è alla posizione X) riduce l'accuratezza attraverso le lingue, minando le pratiche di prompt-engineering; (3) Allineare il contesto con il bias posizionale aumenta l'entropia, tuttavia un'entropia minima non predice l'accuratezza. (4) Scopriamo inoltre che i LLM impongono diversamente l'ordine delle parole dominante in lingue con ordine libero delle parole come l'hindi.
I sistemi di generazione aumentata da recupero (RAG) consentono ai grandi modelli linguistici (LLM) di accedere a conoscenze esterne durante l'inferenza. Recenti progressi hanno permesso agli LLM di agire come agenti di ricerca tramite apprendimento per rinforzo (RL), migliorando l'acquisizione di informazioni attraverso interazioni multi-turn con motori di recupero. Tuttavia, gli approcci esistenti ottimizzano il recupero utilizzando metriche esclusive per la ricerca (ad esempio, NDCG) che ignorano l'utilità a valle, oppure ottimizzano l'intero LLM per ragionare e recuperare congiuntamente, intrecciando il recupero con la generazione e limitando l'utilità reale della ricerca e la compatibilità con modelli congelati o proprietari. In questo lavoro, proponiamo s3, un framework leggero e agnostico rispetto al modello, che disaccoppia il searcher dal generatore e addestra il searcher utilizzando una ricompensa Gain Beyond RAG: il miglioramento nell'accuratezza della generazione rispetto a un RAG ingenuo. s3 richiede solo 2.4k campioni di addestramento per superare i baseline addestrati su oltre 70 volte più dati, fornendo costantemente prestazioni migliori a valle su sei benchmark di QA generale e cinque di QA medica.
Allineare i grandi modelli linguistici (LLM) per rilevare accuratamente le allucinazioni rimane una sfida significativa a causa della natura sofisticata del testo allucinato. Riconoscendo che i campioni allucinati tipicamente presentano una qualità ingannevole superiore rispetto ai tradizionali campioni negativi, utilizziamo queste allucinazioni accuratamente progettate come esempi negativi nel processo di allineamento DPO. Il nostro metodo incorpora una strategia di apprendimento curriculare, passando gradualmente dall'addestramento su campioni più semplici, identificati in base alla maggiore riduzione dei punteggi di probabilità da modelli di verifica dei fatti indipendenti, a campioni progressivamente più difficili. Questa scalabilità strutturata della difficoltà garantisce un apprendimento stabile e incrementale. La valutazione sperimentale dimostra che i nostri modelli HaluCheck, addestrati con l'approccio DPO curriculare e campioni negativi di alta qualità, migliorano significativamente le prestazioni del modello su varie metriche, raggiungendo miglioramenti fino al 24% su benchmark difficili come MedHallu e HaluEval. Inoltre, i modelli HaluCheck dimostrano robustezza in contesti zero-shot, superando significativamente modelli all'avanguardia più grandi su vari benchmark.
La rapida crescita degli assistenti vocali alimentati da modelli linguistici di grandi dimensioni (LLM) ha evidenziato la necessità di dati di istruzione vocale per addestrare questi sistemi. Nonostante l'abbondanza di dati per il riconoscimento vocale, si riscontra una notevole carenza di dati di istruzione vocale, essenziali per affinare i modelli affinché comprendano ed eseguano comandi vocali. La generazione di sintesi vocale di alta qualità richiede un buon modello di sintesi vocale (TTS), che potrebbe non essere disponibile per lingue con risorse limitate. Il nostro approccio innovativo affronta questa sfida interrompendo la sintesi a livello di rappresentazione semantica, evitando così la necessità di un TTS. Raggiungiamo questo obiettivo allineando le rappresentazioni semantiche sintetiche con l'encoder pre-addestrato Whisper, consentendo a un LLM di essere affinato su istruzioni testuali mantenendo la capacità di comprendere istruzioni vocali durante l'inferenza. Questo processo di addestramento semplificato rappresenta un approccio promettente per costruire assistenti vocali per lingue con risorse limitate.
L'ingegneria front-end coinvolge un flusso di lavoro complesso in cui gli ingegneri concettualizzano i design, li traducono in codice e affinano iterativamente l'implementazione. Mentre i recenti benchmark si concentrano principalmente sulla conversione di design visivi in codice, presentiamo FullFront, un benchmark progettato per valutare i Modelli Linguistici Multimodali di Grande Dimensione (MLLM) lungo l'intera pipeline di sviluppo front-end. FullFront valuta tre compiti fondamentali che si mappano direttamente sulla pipeline dell'ingegneria front-end: Progettazione di Pagine Web (fase di concettualizzazione), QA sulla Percezione delle Pagine Web (comprensione dell'organizzazione visiva e degli elementi) e Generazione del Codice delle Pagine Web (fase di implementazione). A differenza dei benchmark esistenti che utilizzano siti web raschiati con codice ridondante o HTML generato da LLM eccessivamente semplificato, FullFront impiega un processo innovativo in due fasi per trasformare pagine web reali in HTML pulito e standardizzato, mantenendo design visivi diversificati ed evitando problemi di copyright. Test estensivi sugli MLLM più avanzati rivelano significative limitazioni nella percezione delle pagine, nella generazione del codice (in particolare per la gestione delle immagini e del layout) e nell'implementazione delle interazioni. I nostri risultati dimostrano quantitativamente le disparità di prestazione tra modelli e compiti, e evidenziano un divario sostanziale tra le capacità attuali degli MLLM e le prestazioni degli esperti umani nell'ingegneria front-end. Il benchmark FullFront e il codice sono disponibili su https://github.com/Mikivishy/FullFront.
L'apprendimento per rinforzo (Reinforcement Learning, RL) si è affermato come un metodo efficace per addestrare modelli di ragionamento. Tuttavia, gli approcci RL esistenti tendono a distorcere la distribuzione di output del modello verso percorsi che massimizzano la ricompensa senza introdurre conoscenze esterne. Ciò limita la loro capacità di esplorazione e porta a un confine di ragionamento più ristretto rispetto ai modelli di base. Per affrontare questa limitazione, proponiamo TAPO (Thought-Augmented Policy Optimization), un nuovo framework che potenzia l'RL incorporando una guida esterna di alto livello ("pattern di pensiero"). Integrando in modo adattivo pensieri strutturati durante l'addestramento, TAPO bilancia efficacemente l'esplorazione interna del modello e lo sfruttamento della guida esterna. Esperimenti estensivi dimostrano che il nostro approccio supera significativamente GRPO del 99% su AIME, del 41% su AMC e del 17% su Minerva Math. È degno di nota che questi pattern di pensiero di alto livello, astratti da soli 500 campioni precedenti, si generalizzano efficacemente su vari compiti e modelli. Ciò evidenzia il potenziale di TAPO per applicazioni più ampie in diversi compiti e domini. La nostra ulteriore analisi rivela che l'introduzione di una guida esterna produce modelli di ragionamento potenti con una superiore spiegabilità del comportamento inferenziale e una migliore leggibilità degli output.
I Large Language Model (LLM) dimostrano capacità impressionanti ma mancano di una solida intelligenza temporale, trovando difficoltà nell'integrare il ragionamento sul passato con previsioni e generazioni plausibili del futuro. Nel frattempo, i metodi esistenti si concentrano tipicamente su abilità temporali isolate, come il question answering su eventi passati o previsioni di base, e mostrano una scarsa generalizzazione, specialmente quando si tratta di eventi oltre il loro cutoff di conoscenza o che richiedono una visione creativa. Per affrontare queste limitazioni, introduciamo Time-R1, il primo framework progettato per dotare un LLM di dimensioni moderate (3 miliardi di parametri) di abilità temporali complete: comprensione, previsione e generazione creativa. Il nostro approccio presenta un percorso di sviluppo innovativo in tre fasi; le prime due costituiscono un curriculum di reinforcement learning (RL) guidato da un sistema di ricompense dinamico basato su regole accuratamente progettato. Questo framework costruisce progressivamente (1) una comprensione temporale di base e mappature logiche evento-tempo dai dati storici, (2) abilità di previsione di eventi futuri oltre il cutoff di conoscenza e, infine, (3) consente una notevole generalizzazione nella generazione creativa di scenari futuri senza alcun fine-tuning. Sorprendentemente, gli esperimenti dimostrano che Time-R1 supera modelli oltre 200 volte più grandi, incluso lo state-of-the-art DeepSeek-R1 da 671 miliardi di parametri, su benchmark altamente impegnativi per la previsione di eventi futuri e la generazione creativa di scenari. Questo lavoro fornisce una forte evidenza che un fine-tuning RL progressivo e ben progettato consente a modelli più piccoli ed efficienti di raggiungere prestazioni temporali superiori, offrendo un percorso pratico e scalabile verso un’IA veramente consapevole del tempo. Per promuovere ulteriori ricerche, rilasciamo anche Time-Bench, un dataset su larga scala per il ragionamento temporale multi-task derivato da 10 anni di dati giornalistici, e la nostra serie di checkpoint di Time-R1.
Il rapido progresso dei modelli nativi multimodali e omni-modelli, esemplificati da GPT-4o, Gemini e o3, con la loro capacità di elaborare e generare contenuti attraverso modalità come testo e immagini, rappresenta una pietra miliare significativa nell'evoluzione dell'intelligenza. La valutazione sistematica delle loro capacità di output multimodali nei processi di pensiero visivo (noti anche come catena di pensiero multimodale, M-CoT) diventa di fondamentale importanza. Tuttavia, i benchmark esistenti per valutare i modelli multimodali si concentrano principalmente sull'analisi degli input multimodali e sul ragionamento basato esclusivamente sul testo, trascurando l'importanza del ragionamento attraverso output multimodali. In questo articolo, presentiamo un benchmark, denominato RBench-V, progettato per valutare le capacità di ragionamento indispensabili per la visione dei modelli. Per costruire RBench-V, abbiamo selezionato con cura 803 domande che coprono matematica, fisica, conteggio e giochi. A differenza dei benchmark precedenti che tipicamente specificano determinate modalità di input, RBench-V presenta problemi incentrati su output multimodali, che richiedono manipolazioni di immagini come la generazione di nuove immagini e la costruzione di linee ausiliarie per supportare il processo di ragionamento. Abbiamo valutato numerosi modelli open-source e closed-source su RBench-V, inclusi o3, Gemini 2.5 Pro, Qwen2.5-VL, ecc. Anche il modello con le migliori prestazioni, o3, raggiunge solo il 25,8% di accuratezza su RBench-V, ben al di sotto del punteggio umano dell'82,3%, evidenziando che i modelli attuali faticano a sfruttare il ragionamento multimodale. Dati e codice sono disponibili all'indirizzo https://evalmodels.github.io/rbenchv.
Il ripristino delle immagini notturne affette da molteplici condizioni meteorologiche avverse è un problema di ricerca pratico ma ancora poco esplorato, poiché spesso diverse condizioni meteorologiche coesistono nel mondo reale insieme a vari effetti di illuminazione notturna. Questo articolo esplora per la prima volta il complesso compito di ripristino delle immagini notturne in presenza di molteplici condizioni meteorologiche, in cui vari tipi di degradazioni meteorologiche si intrecciano con effetti di flare. Per supportare la ricerca, contribuiamo con il dataset AllWeatherNight, che presenta immagini notturne di alta qualità su larga scala con diverse degradazioni compositive, sintetizzate utilizzando la nostra generazione di degradazione consapevole dell'illuminazione. Inoltre, presentiamo ClearNight, un framework unificato per il ripristino delle immagini notturne, che rimuove efficacemente le degradazioni complesse in un'unica soluzione. Nello specifico, ClearNight estrae priorità duali basate su Retinex e guida esplicitamente la rete a concentrarsi rispettivamente sulle regioni con illuminazione irregolare e sui contenuti intrinseci della texture, migliorando così l'efficacia del ripristino negli scenari notturni. Per rappresentare meglio le caratteristiche comuni e uniche delle molteplici degradazioni meteorologiche, introduciamo un metodo di collaborazione dinamica specifica-comune consapevole delle condizioni meteorologiche, che identifica le degradazioni meteorologiche e seleziona in modo adattivo le unità candidate ottimali associate a specifici tipi di condizioni meteorologiche. Il nostro ClearNight raggiunge prestazioni all'avanguardia sia su immagini sintetiche che su immagini del mondo reale. Esperimenti di ablazione completi convalidano la necessità del dataset AllWeatherNight nonché l'efficacia di ClearNight. Pagina del progetto: https://henlyta.github.io/ClearNight/mainpage.html
Insegnare ai grandi modelli linguistici (LLM) a essere fedeli al contesto fornito è fondamentale per costruire sistemi affidabili di ricerca di informazioni. Pertanto, proponiamo un framework sistematico, CANOE, per migliorare la fedeltà dei LLM sia nei compiti di generazione breve che lunga senza annotazioni umane. Nello specifico, sintetizziamo prima dati di domande e risposte (QA) brevi con quattro compiti diversi per costruire dati di addestramento di alta qualità e facilmente verificabili senza annotazioni umane. Inoltre, proponiamo Dual-GRPO, un metodo di apprendimento per rinforzo basato su regole che include tre ricompense basate su regole personalizzate derivate dai dati QA brevi sintetizzati, ottimizzando contemporaneamente sia la generazione di risposte brevi che lunghe. È importante notare che Dual-GRPO elimina la necessità di etichettare manualmente i dati di preferenza per addestrare modelli di ricompensa ed evita l'ottimizzazione eccessiva della generazione breve quando si fa affidamento solo sui dati QA brevi sintetizzati. I risultati sperimentali mostrano che CANOE migliora notevolmente la fedeltà dei LLM in 11 diversi compiti downstream, superando persino i LLM più avanzati, come GPT-4o e OpenAI o1.
Il reinforcement learning (RL) è un metodo potente per adattare i modelli di base a compiti specializzati, ma la sua dipendenza da dati su larga scala etichettati da esseri umani ne limita l'adozione diffusa. Introduciamo Synthetic Data RL, un framework semplice e generale che ottimizza i modelli tramite RL utilizzando esclusivamente dati sintetici generati a partire dalla definizione del compito. Il nostro metodo genera prima coppie di domande e risposte dalla definizione del compito e da documenti recuperati, adatta poi la difficoltà della domanda in base alla risolvibilità del modello e seleziona le domande utilizzando il tasso medio di successo del modello su più campioni per l'addestramento RL. Su Qwen-2.5-7B, il nostro metodo ottiene un miglioramento assoluto del 29,2% rispetto al modello base su GSM8K (+2,9 pp rispetto al modello ottimizzato con istruzioni, +6,6 pp rispetto a Self-Instruct), dell'8,7% su MATH, del 13,1% su GPQA (+7,0 pp rispetto a SynthLLM), dell'8,9% su MedQA, del 17,7% su CQA (legge) e del 13,7% su CFA (finanza). Supera l'ottimizzazione supervisionata con lo stesso budget di dati e si avvicina alle prestazioni del RL con dati umani completi su vari dataset (ad esempio, +17,2 pp su GSM8K). L'aggiunta di 100 dimostrazioni umane migliora le prestazioni su GSM8K solo di 0,4 pp, mostrando un valore aggiunto limitato. Riducendo l'annotazione umana dei dati, Synthetic Data RL consente un adattamento scalabile ed efficiente dei modelli basato su RL. Codice e demo sono disponibili su https://github.com/gydpku/Data_Synthesis_RL/.
Trinity-RFT è un framework generico, flessibile e scalabile progettato per il fine-tuning con rinforzo (RFT) di modelli linguistici di grandi dimensioni. È costruito con un design disaccoppiato, composto da (1) un RFT-core che unifica e generalizza le modalità sincrone/asincrone, on-policy/off-policy e online/offline di RFT, (2) un'integrazione senza soluzione di continuità per l'interazione agente-ambiente con elevata efficienza e robustezza, e (3) pipeline di dati sistematiche ottimizzate per RFT. Trinity-RFT può essere facilmente adattato a diversi scenari applicativi e funge da piattaforma unificata per esplorare paradigmi avanzati di apprendimento per rinforzo. Questo rapporto tecnico delinea la visione, le caratteristiche, il design e le implementazioni di Trinity-RFT, accompagnato da numerosi esempi che dimostrano l'utilità e la facilità d'uso del framework proposto.
Presentiamo ScanBot, un nuovo dataset progettato per la scansione di superfici ad alta precisione condizionata da istruzioni nei sistemi robotici. A differenza dei dataset esistenti per l'apprendimento robotico che si concentrano su compiti generici come la presa, la navigazione o il dialogo, ScanBot si rivolge alle esigenze di alta precisione della scansione laser industriale, dove la continuità del percorso sub-millimetrica e la stabilità dei parametri sono critiche. Il dataset copre traiettorie di scansione laser eseguite da un robot su 12 oggetti diversi e 6 tipi di compiti, tra cui scansioni complete della superficie, regioni focalizzate sulla geometria, parti con riferimento spaziale, strutture funzionalmente rilevanti, ispezione dei difetti e analisi comparativa. Ogni scansione è guidata da istruzioni in linguaggio naturale e associata a profili RGB, di profondità e laser sincronizzati, nonché alla posa del robot e agli stati delle giunzioni. Nonostante i recenti progressi, i modelli esistenti di visione-linguaggio-azione (VLA) non riescono ancora a generare traiettorie di scansione stabili sotto istruzioni dettagliate e richieste di precisione nel mondo reale. Per indagare questa limitazione, valutiamo una gamma di modelli linguistici multimodali di grandi dimensioni (MLLM) lungo l'intero ciclo percezione-pianificazione-esecuzione, rivelando persistenti sfide nel seguire le istruzioni sotto vincoli realistici.
Il rapido dispiegamento di modelli visione-linguaggio (VLMs) amplifica i rischi per la sicurezza, tuttavia la maggior parte delle valutazioni si basa su immagini artificiali. Questo studio si chiede: quanto sono sicuri gli attuali VLMs quando si confrontano con immagini di meme che gli utenti comuni condividono? Per indagare questa questione, introduciamo MemeSafetyBench, un benchmark di 50.430 istanze che accoppia immagini reali di meme con istruzioni sia dannose che benigne. Utilizzando una tassonomia completa della sicurezza e una generazione di istruzioni basata su LLM, valutiamo diversi VLMs in interazioni sia singole che multi-turn. Esaminiamo come i meme del mondo reale influenzino le uscite dannose, gli effetti mitiganti del contesto conversazionale e la relazione tra scala del modello e metriche di sicurezza. I nostri risultati dimostrano che i VLMs mostrano una maggiore vulnerabilità a prompt dannosi basati su meme rispetto a immagini sintetiche o tipografiche. I meme aumentano significativamente le risposte dannose e diminuiscono i rifiuti rispetto agli input testuali. Sebbene le interazioni multi-turn forniscano una mitigazione parziale, la vulnerabilità elevata persiste. Questi risultati evidenziano la necessità di valutazioni ecologicamente valide e di meccanismi di sicurezza più robusti.
Nonostante i recenti progressi nella generazione da testo a immagine (T2I), i modelli esistenti spesso faticano a catturare fedelmente le intenzioni dell'utente a partire da prompt brevi e poco specificati. Mentre lavori precedenti hanno tentato di migliorare i prompt utilizzando modelli linguistici di grandi dimensioni (LLM), questi metodi generano frequentemente contenuti stilistici o irrealistici a causa di un insufficiente ancoraggio nella semantica visiva e nella composizione del mondo reale. Ispirati dai recenti progressi nel ragionamento per i modelli linguistici, proponiamo RePrompt, un nuovo framework di riprompting che introduce un ragionamento esplicito nel processo di miglioramento dei prompt attraverso l'apprendimento per rinforzo. Invece di affidarsi a regole predefinite o riscritture stilistiche, il nostro metodo addestra un modello linguistico a generare prompt strutturati e auto-riflessivi ottimizzando i risultati a livello di immagine. I modelli di ricompensa personalizzati valutano le immagini generate in termini di preferenza umana, allineamento semantico e composizione visiva, fornendo una supervisione indiretta per affinare la generazione dei prompt. Il nostro approccio consente un addestramento end-to-end senza dati annotati manualmente. Gli esperimenti su GenEval e T2I-Compbench dimostrano che RePrompt migliora significativamente la fedeltà del layout spaziale e la generalizzazione compositiva attraverso diversi backbone T2I, stabilendo nuovi risultati all'avanguardia.
La generazione controllata di video (CVG) ha fatto rapidi progressi, ma gli attuali sistemi incontrano difficoltà quando più attori devono muoversi, interagire e scambiare posizioni sotto segnali di controllo rumorosi. Affrontiamo questa lacuna con DanceTogether, il primo framework end-to-end basato su diffusione che trasforma una singola immagine di riferimento più flussi indipendenti di maschere di pose in video lunghi e fotorealistici, preservando rigorosamente ogni identità. Un innovativo MaskPoseAdapter lega "chi" e "come" ad ogni passo di denoising fondendo maschere di tracciamento robuste con mappe di calore di pose semanticamente ricche ma rumorose, eliminando la deriva dell'identità e la fusione dell'aspetto che affliggono le pipeline frame-by-frame. Per addestrare e valutare su larga scala, introduciamo (i) PairFS-4K, 26 ore di filmati di pattinatori in coppia con oltre 7.000 ID distinti, (ii) HumanRob-300, un set di un'ora di interazioni tra umanoidi e robot per un rapido trasferimento cross-dominio, e (iii) TogetherVideoBench, un benchmark a tre tracce incentrato sulla suite di test DanceTogEval-100 che copre danza, boxe, wrestling, yoga e pattinaggio artistico. Su TogetherVideoBench, DanceTogether supera significativamente i precedenti approcci. Inoltre, dimostriamo che un'ora di fine-tuning produce video convincenti di interazioni uomo-robot, evidenziando un'ampia generalizzazione ai compiti di embodied-AI e HRI. Estese ablazioni confermano che il legame persistente tra identità e azione è cruciale per questi miglioramenti. Insieme, il nostro modello, i dataset e il benchmark elevano la CVG dalla coreografia a soggetto singolo a interazioni multi-attore controllabili in modo composizionale, aprendo nuove strade per la produzione digitale, la simulazione e l'intelligenza incarnata. Le nostre demo video e il codice sono disponibili su https://DanceTog.github.io/.
Introduciamo RIPT-VLA, un paradigma semplice e scalabile di post-addestramento interattivo basato sul reinforcement learning che ottimizza modelli Vision-Language-Action (VLA) pre-addestrati utilizzando solo ricompense binarie sparse di successo. Le pipeline di addestramento VLA esistenti si basano fortemente su dati di dimostrazione esperti offline e su imitazione supervisionata, limitando la loro capacità di adattarsi a nuovi compiti e ambienti in regimi di dati scarsi. RIPT-VLA affronta questo problema abilitando un post-addestramento interattivo con un algoritmo di ottimizzazione della policy stabile basato su campionamento dinamico dei rollout e stima del vantaggio leave-one-out. RIPT-VLA presenta le seguenti caratteristiche. In primo luogo, si applica a vari modelli VLA, ottenendo un miglioramento del 21,2% sul modello leggero QueST e portando il modello OpenVLA-OFT da 7B a un tasso di successo senza precedenti del 97,5%. In secondo luogo, è computazionalmente ed energeticamente efficiente: con una sola dimostrazione, RIPT-VLA consente a un modello SFT inizialmente non funzionante (4%) di raggiungere un tasso di successo del 97% in sole 15 iterazioni. Inoltre, dimostriamo che la policy appresa da RIPT-VLA si generalizza su diversi compiti e scenari ed è robusta al contesto dello stato iniziale. Questi risultati evidenziano RIPT-VLA come un paradigma pratico ed efficace per il post-addestramento di modelli VLA attraverso una supervisione minima.
I grandi modelli linguistici vengono tipicamente adattati a compiti specifici attraverso il fine-tuning supervisionato su dati di dominio. Mentre il fine-tuning standard si concentra sulla minimizzazione della perdita di generazione per ottimizzare i parametri del modello, noi facciamo un passo ulteriore conservando e sfruttando i segnali di apprendimento del modello stesso, analogamente a come gli esseri umani riflettono sugli errori passati per migliorare le prestazioni future. Introduciamo innanzitutto il concetto di Registro degli Errori per monitorare sistematicamente il comportamento di apprendimento del modello e gli errori ricorrenti durante il fine-tuning. Trattando il modello originale basato su transformer come il Pilota, progettiamo di conseguenza un modello Copilota per affinare le prestazioni inferenziali del Pilota attraverso la rettifica dei logit. Denominiamo l'intero framework Pilota-Copilota come Transformer Copilot, che introduce (i) un nuovo design del modello Copilota, (ii) un paradigma di addestramento congiunto in cui il Copilota apprende continuamente dal Registro degli Errori in evoluzione insieme al Pilota, e (iii) un paradigma di inferenza fusa in cui il Copilota rettifica i logit del Pilota per una generazione migliorata. Forniamo sia analisi teoriche che empiriche sul nostro nuovo framework di apprendimento. Esperimenti su 12 benchmark che coprono compiti di buonsenso, aritmetica e raccomandazione dimostrano che Transformer Copilot migliora costantemente le prestazioni fino al 34,5%, introducendo un sovraccarico computazionale marginale per i modelli Pilota e mostrando una forte scalabilità e trasferibilità.
I recenti progressi negli agenti LLM si sono basati principalmente su architetture di ragionamento come ReAct, che alternano pensiero e azione in ambienti complessi. Tuttavia, ReAct spesso produce passaggi di ragionamento privi di fondamento o incoerenti, portando a una disallineamento tra lo stato effettivo dell'agente e l'obiettivo. La nostra analisi rileva che ciò deriva dall'incapacità di ReAct di mantenere credenze interne coerenti e un allineamento con l'obiettivo, causando errori cumulativi e allucinazioni. Per affrontare questo problema, introduciamo ReflAct, una nuova architettura che sposta il ragionamento dalla semplice pianificazione delle azioni successive a una riflessione continua sullo stato dell'agente rispetto al suo obiettivo. Basando esplicitamente le decisioni sugli stati e rafforzando l'allineamento continuo con l'obiettivo, ReflAct migliora notevolmente l'affidabilità strategica. Questo design produce significativi miglioramenti empirici: ReflAct supera ReAct del 27,7% in media, raggiungendo un tasso di successo del 93,3% in ALFWorld. In particolare, ReflAct supera persino ReAct con moduli di potenziamento aggiuntivi (ad esempio, Reflexion, WKM), dimostrando che rafforzare il nucleo del ragionamento è fondamentale per prestazioni affidabili degli agenti.
Gli algoritmi a gradiente della politica sono stati applicati con successo per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). Nonostante l'uso diffuso della regolarizzazione di Kullback-Leibler (KL) negli algoritmi a gradiente della politica per stabilizzare l'addestramento, l'esplorazione sistematica di come diverse formulazioni della divergenza KL possano essere stimate e integrate nelle funzioni di perdita surrogate per l'apprendimento per rinforzo (RL) online rappresenta uno spazio di progettazione sfumato e sistematicamente esplorabile. In questo articolo, proponiamo il gradiente della politica regolarizzato (RPG), un framework sistematico per derivare e analizzare metodi a gradiente della politica regolarizzati con KL nel contesto del RL online. Deriviamo i gradienti della politica e le corrispondenti funzioni di perdita surrogate per obiettivi regolarizzati sia dalla divergenza KL diretta che inversa, considerando sia distribuzioni di politica normalizzate che non normalizzate. Inoltre, presentiamo derivazioni per funzioni di perdita completamente differenziabili nonché stimatori di gradiente in stile REINFORCE, adattandoci a diverse esigenze algoritmiche. Condividiamo esperimenti estesi sul RL per il ragionamento con LLM utilizzando questi metodi, mostrando risultati migliorati o competitivi in termini di stabilità dell'addestramento e prestazioni rispetto a baseline robusti come GRPO, REINFORCE++ e DAPO. Il codice è disponibile all'indirizzo https://github.com/complex-reasoning/RPG.
In questo articolo, proponiamo un metodo semplice ed efficiente per l'addestramento di modelli di valore su tracce di ragionamento a contesto lungo. Rispetto ai modelli di ricompensa basati sul processo (PRM) esistenti, il nostro metodo non richiede una nozione dettagliata di "passo", che è difficile da definire per i modelli di ragionamento a contesto lungo. Raccogliendo un dataset di 2,5 milioni di tracce di ragionamento, abbiamo addestrato un modello di valore a livello di token da 1,5 miliardi di parametri e lo abbiamo applicato ai modelli DeepSeek per migliorare le prestazioni con il ridimensionamento del calcolo in fase di test. Abbiamo scoperto che la ricerca guidata dal valore (VGS) a blocchi con un voto a maggioranza ponderato finale ottiene un ridimensionamento migliore in fase di test rispetto ai metodi standard come il voto a maggioranza o il best-of-n. Con un budget di inferenza di 64 generazioni, il VGS con DeepSeek-R1-Distill-1.5B raggiunge un'accuratezza media del 45,7% su quattro benchmark di matematica competitiva (AIME 2024 & 2025, HMMT Feb 2024 & 2025), raggiungendo la parità con o3-mini-medium. Inoltre, il VGS riduce significativamente i FLOP di inferenza necessari per ottenere le stesse prestazioni del voto a maggioranza. Il nostro dataset, modello e codice sono open-source.
Questo articolo presenta una scoperta affascinante: addestrando un modello LLM auto-regressivo su token di testo, il modello di testo sviluppa intrinsecamente al suo interno la capacità di comprendere immagini e audio, acquisendo così la capacità di vedere e sentire semplicemente leggendo. I popolari modelli LLM audio e visivi eseguono il fine-tuning di modelli LLM di testo per produrre output testuali condizionati da embedding di immagini e audio. D'altra parte, la nostra architettura accetta in input patch di immagini, forme d'onda audio o token. Fornisce gli embedding o le etichette di categoria tipiche di una pipeline di classificazione. Dimostriamo la generalità dei pesi del testo nell'aiutare la classificazione audio per i dataset FSD-50K e GTZAN. Inoltre, mostriamo che questo funziona per la classificazione di immagini su CIFAR-10 e Fashion-MNIST, così come su patch di immagini. Ciò spinge l'idea che i modelli LLM di testo apprendano potenti circuiti interni che possono essere utilizzati attivando le connessioni necessarie per varie applicazioni, piuttosto che addestrare modelli da zero ogni volta.
Le connessioni residue sono fondamentali per le reti neurali profonde, poiché consentono una maggiore profondità mitigando il problema dei gradienti che svaniscono. Tuttavia, negli aggiornamenti residui standard, l'output del modulo viene aggiunto direttamente al flusso di input. Questo può portare ad aggiornamenti che rafforzano o modulano principalmente la direzione del flusso esistente, rischiando di sottoutilizzare la capacità del modulo di apprendere caratteristiche completamente nuove. In questo lavoro, introduciamo l'Aggiornamento Residuo Ortogonale: scomponiamo l'output del modulo rispetto al flusso di input e aggiungiamo solo la componente ortogonale a questo flusso. Questo design mira a guidare i moduli a contribuire principalmente con nuove direzioni rappresentative, favorendo un apprendimento delle caratteristiche più ricco e promuovendo un addestramento più efficiente. Dimostriamo che la nostra strategia di aggiornamento ortogonale migliora l'accuratezza di generalizzazione e la stabilità dell'addestramento su diverse architetture (ResNetV2, Vision Transformers) e dataset (CIFARs, TinyImageNet, ImageNet-1k), ottenendo, ad esempio, un guadagno di +4,3\%p nell'accuratezza top-1 per ViT-B su ImageNet-1k.
Il modello Mixture-of-Experts (MoE) consente un efficiente ridimensionamento di grandi modelli linguistici (LLM) attraverso l'attivazione sparsa di esperti durante l'inferenza. Per implementare efficacemente grandi modelli MoE su dispositivi con memoria limitata, molti sistemi introducono il *caricamento differito degli esperti* (expert offloading), che memorizza un sottoinsieme di esperti nella memoria veloce, lasciando gli altri nella memoria lenta per essere eseguiti sulla CPU o caricati su richiesta. Sebbene alcune ricerche abbiano sfruttato la località delle attivazioni degli esperti, dove token consecutivi attivano esperti simili, il grado di questa **consistenza locale del routing** varia tra i modelli e rimane poco studiato. In questo articolo, proponiamo due metriche per misurare la consistenza locale del routing nei modelli MoE: (1) **Segment Routing Best Performance (SRP)**, che valuta quanto bene un gruppo fisso di esperti può soddisfare le esigenze di un segmento di token, e (2) **Segment Cache Best Hit Rate (SCH)**, che misura il tasso ottimale di cache hit a livello di segmento con un limite di dimensione della cache. Abbiamo analizzato 20 LLM MoE con dimensioni e architetture diverse e abbiamo scoperto che i modelli che applicano MoE su ogni livello e non utilizzano esperti condivisi mostrano la più alta consistenza locale del routing. Inoltre, abbiamo dimostrato che esperti specializzati per dominio contribuiscono maggiormente alla consistenza del routing rispetto a quelli specializzati per vocabolario, e che la maggior parte dei modelli può bilanciare efficacia ed efficienza della cache con dimensioni della cache approssimativamente 2x rispetto agli esperti attivi. Questi risultati aprono la strada a una progettazione e implementazione efficiente in termini di memoria dei modelli MoE senza compromettere la velocità di inferenza. Pubblichiamo il codice per replicare gli esperimenti all'indirizzo https://github.com/ljcleo/moe-lrc.
I recenti progressi, come DeepSeek R1-Zero, evidenziano l'efficacia dell'incentive training, un paradigma di apprendimento per rinforzo che calcola le ricompense esclusivamente sulla base della parte finale della risposta generata da un modello linguistico, incoraggiando così la generazione di passaggi di ragionamento intermedi. Tuttavia, questi metodi si basano fondamentalmente su verificatori esterni, il che ne limita l'applicabilità a domini come la matematica e la programmazione, dove tali verificatori sono facilmente disponibili. Sebbene i modelli di ricompensa possano fungere da verificatori, richiedono dati annotati di alta qualità e sono costosi da addestrare. In questo lavoro, proponiamo NOVER, NO-VERifier Reinforcement Learning, un framework generale di apprendimento per rinforzo che richiede solo dati standard di fine-tuning supervisionato, senza la necessità di un verificatore esterno. NOVER consente l'incentive training su un'ampia gamma di attività di testo-to-text e supera del 7,7% il modello delle stesse dimensioni distillato da grandi modelli di ragionamento come DeepSeek R1 671B. Inoltre, la flessibilità di NOVER apre nuove possibilità per ottimizzare i grandi modelli linguistici, come l'incentive training inverso.
Man mano che i Modelli Linguistici di Grande Dimensione (LLM) vengono sempre più impiegati in ambiti sensibili come le imprese e il governo, garantire che rispettino le politiche di sicurezza definite dall'utente nel contesto è fondamentale, specialmente per quanto riguarda la non divulgazione delle informazioni. Mentre gli studi precedenti sugli LLM si sono concentrati sulla sicurezza generale e sui dati socialmente sensibili, mancano ancora benchmark su larga scala per la preservazione della sicurezza contestuale contro gli attacchi. Per affrontare questa lacuna, introduciamo un nuovo dataset di benchmark su larga scala, CoPriva, che valuta l'aderenza degli LLM alle politiche di non divulgazione contestuale nel rispondere alle domande. Derivato da contesti realistici, il nostro dataset include politiche esplicite e query progettate come attacchi diretti e indiretti impegnativi che cercano informazioni proibite. Valutiamo 10 LLM sul nostro benchmark e riveliamo una vulnerabilità significativa: molti modelli violano le politiche definite dall'utente e divulgano informazioni sensibili. Questo fallimento è particolarmente grave contro gli attacchi indiretti, evidenziando una lacuna critica nell'allineamento della sicurezza degli LLM attuali per applicazioni sensibili. La nostra analisi mostra che, sebbene i modelli possano spesso identificare la risposta corretta a una query, faticano a incorporare i vincoli delle politiche durante la generazione. Al contrario, mostrano una capacità parziale di rivedere gli output quando esplicitamente sollecitati. I nostri risultati sottolineano l'urgente necessità di metodi più robusti per garantire la sicurezza contestuale.
I Large Reasoning Models (LRMs) hanno dimostrato capacità notevoli nel ragionamento a più passaggi e nell'utilizzo di motori di ricerca nei momenti appropriati. Tuttavia, gli approcci esistenti di ragionamento potenziato dal recupero delle informazioni si basano su modelli di recupero separati, limitando il ruolo dell'LRM nel recupero alla decisione di quando recuperare e come interrogare. Questa separazione non solo aumenta i costi hardware e operativi, ma porta anche a errori nel processo di recupero a causa del collo di bottiglia della rappresentazione, un fenomeno in cui lo spazio di embedding del retriever non è sufficientemente espressivo per soddisfare i requisiti del generatore. Per affrontare questo problema, spostiamo la nostra prospettiva dalla corrispondenza sequenza-a-sequenza alla localizzazione dei percorsi contenenti la risposta all'interno del corpus, e proponiamo un nuovo framework chiamato FREESON (Retriever-FREE Retrieval-Augmented ReaSONing). Questo framework consente agli LRM di recuperare autonomamente le conoscenze rilevanti agendo sia come generatore che come retriever. Per raggiungere questo obiettivo, introduciamo una variante dell'algoritmo MCTS specializzata per il compito di recupero, che chiamiamo CT-MCTS (Corpus-Traversing Monte Carlo Tree Search). In questo algoritmo, gli LRM attraversano il corpus verso le regioni contenenti le risposte. I nostri risultati su cinque benchmark di QA a dominio aperto, inclusi quesiti a singolo e multi-hop, mostrano che FREESON ottiene un miglioramento medio del 14,4% in EM e F1 rispetto a quattro modelli di ragionamento a più passaggi con un retriever separato, e si comporta in modo comparabile al baseline più forte, superandolo del 3% su PopQA e del 2% su 2WikiMultihopQA.
Il RAG iterativo per il rispondere a domande multi-hop affronta sfide legate a contesti estesi e all'accumulo di informazioni irrilevanti. Ciò ostacola la capacità di un modello di elaborare e ragionare sui contenuti recuperati, limitandone le prestazioni. Sebbene i metodi recenti si concentrino sulla compressione delle informazioni recuperate, sono limitati al RAG a singolo round, richiedono un fine-tuning o mancano di scalabilità nel RAG iterativo. Per affrontare queste sfide, proponiamo Notes Writing, un metodo che genera note concise e pertinenti dai documenti recuperati a ogni passaggio, riducendo così il rumore e mantenendo solo le informazioni essenziali. Ciò aumenta indirettamente la lunghezza effettiva del contesto dei Large Language Models (LLM), consentendo loro di ragionare e pianificare in modo più efficace durante l'elaborazione di volumi maggiori di testo in input. Notes Writing è indipendente dal framework e può essere integrato con diversi metodi di RAG iterativo. Ne dimostriamo l'efficacia con tre metodi di RAG iterativo, su due modelli e quattro dataset di valutazione. Notes Writing produce un miglioramento medio complessivo di 15,6 punti percentuali, con un aumento minimo dei token in output.
Il ragionamento temporale è fondamentale affinché i Large Language Models (LLM) possano comprendere il mondo reale. Tuttavia, i lavori esistenti trascurano le sfide reali del ragionamento temporale: (1) l'intensità delle informazioni temporali, (2) la rapida evoluzione delle dinamiche degli eventi e (3) le complesse dipendenze temporali nelle interazioni sociali. Per colmare questa lacuna, proponiamo un benchmark multi-livello chiamato TIME, progettato per il ragionamento temporale in scenari reali. TIME è composto da 38.522 coppie domanda-risposta, che coprono 3 livelli con 11 sotto-task dettagliati. Questo benchmark include 3 sotto-dataset che riflettono diverse sfide del mondo reale: TIME-Wiki, TIME-News e TIME-Dial. Abbiamo condotto esperimenti estesi su modelli di ragionamento e modelli non di ragionamento. Inoltre, abbiamo effettuato un'analisi approfondita delle prestazioni del ragionamento temporale in vari scenari e task reali, e abbiamo sintetizzato l'impatto del ridimensionamento al momento del test sulle capacità di ragionamento temporale. In aggiunta, rilasciamo TIME-Lite, un sottoinsieme annotato manualmente per favorire future ricerche e valutazioni standardizzate nel ragionamento temporale. Il codice è disponibile all'indirizzo https://github.com/sylvain-wei/TIME, e il dataset è disponibile all'indirizzo https://huggingface.co/datasets/SylvainWei/TIME.
Migliorare le capacità linguistiche dei Large Language Models (LLM) per includere lingue a bassa risorsa rappresenta un'area di ricerca cruciale. Le attuali direzioni di ricerca si basano principalmente su dati sintetici generati attraverso la traduzione di corpora inglesi, che, pur dimostrando una promettente comprensione linguistica e abilità di traduzione, spesso portano a modelli allineati con la cultura della lingua sorgente. Questi modelli frequentemente non riescono a rappresentare il patrimonio culturale e i valori delle comunità locali. Questo lavoro propone una metodologia per creare dati di pre-addestramento sia sintetici che basati su retrieval, specificamente adattati a una determinata comunità, tenendo conto di (i) lingua, (ii) patrimonio culturale e (iii) valori culturali. Dimostriamo la nostra metodologia utilizzando i dialetti egiziani e marocchini come casi di studio, scelti per la loro ricchezza linguistica e culturale e per la loro attuale sottorappresentazione nei LLM. Come prova di concetto, sviluppiamo NileChat, un LLM da 3 miliardi di parametri adattato per le comunità egiziane e marocchine, incorporando la loro lingua, patrimonio culturale e valori. I nostri risultati su vari benchmark di comprensione, traduzione e allineamento culturale e valoriale mostrano che NileChat supera i LLM esistenti di dimensioni simili consapevoli dell'arabo e si comporta alla pari con modelli più grandi. Condividiamo i nostri metodi, dati e modelli con la comunità per promuovere l'inclusione e la copertura di comunità più diversificate nello sviluppo dei LLM.
In questo articolo presentiamo FuxiMT, un innovativo modello di traduzione automatica multilingue centrato sul cinese, basato su un modello linguistico di grandi dimensioni (LLM) sparsificato. Adottiamo una strategia in due fasi per addestrare FuxiMT. Inizialmente pre-addestriamo il modello su un ampio corpus cinese e successivamente effettuiamo un fine-tuning multilingue su un vasto dataset parallelo che comprende 65 lingue. FuxiMT incorpora un approccio Mixture-of-Experts (MoEs) e utilizza una strategia di apprendimento curriculare per garantire prestazioni robuste a diversi livelli di risorse. I risultati sperimentali dimostrano che FuxiMT supera significativamente i baseline di riferimento, inclusi i modelli LLM e di traduzione automatica all'avanguardia, in particolare in scenari con risorse limitate. Inoltre, FuxiMT mostra notevoli capacità di traduzione zero-shot per coppie di lingue non viste, indicando il suo potenziale nel colmare i gap comunicativi laddove i dati paralleli siano scarsi o non disponibili.
Il sequenziamento de novo dei peptidi è un compito cruciale in proteomica. Tuttavia, le prestazioni degli attuali metodi basati sul deep learning sono limitate dalla complessità intrinseca dei dati di spettrometria di massa e dalla distribuzione eterogenea dei segnali di rumore, portando a bias specifici dei dati. Presentiamo RankNovo, il primo framework di deep reranking che migliora il sequenziamento de novo dei peptidi sfruttando i punti di forza complementari di modelli di sequenziamento multipli. RankNovo utilizza un approccio di reranking list-wise, modellando i peptidi candidati come allineamenti multipli di sequenze e sfruttando l'attenzione assiale per estrarre caratteristiche informative tra i candidati. Inoltre, introduciamo due nuove metriche, PMD (Peptide Mass Deviation) e RMD (Residual Mass Deviation), che offrono una supervisione precisa quantificando le differenze di massa tra i peptidi sia a livello di sequenza che di residuo. Esperimenti estensivi dimostrano che RankNovo non solo supera i modelli di base utilizzati per generare i candidati di training per il pre-training di reranking, ma stabilisce anche un nuovo benchmark state-of-the-art. Inoltre, RankNovo mostra una forte generalizzazione zero-shot verso modelli non visti le cui generazioni non sono state esposte durante il training, evidenziando la sua robustezza e il potenziale come framework universale di reranking per il sequenziamento dei peptidi. Il nostro lavoro presenta una nuova strategia di reranking che sfida fondamentalmente i paradigmi esistenti basati su singoli modelli e avanza la frontiera del sequenziamento de novo accurato. Il nostro codice sorgente è disponibile su GitHub.