Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo CASS, il primo dataset su larga scala e suite di modelli per la transpilazione di codice GPU cross-architettura, mirando sia alla traduzione a livello di sorgente (CUDA ↔ HIP) che a livello di assembly (Nvidia SASS ↔ AMD RDNA3). Il dataset comprende 70k coppie di codice verificate tra host e dispositivo, colmando una lacuna critica nella portabilità del codice GPU a basso livello. Sfruttando questa risorsa, addestriamo la famiglia di modelli linguistici specifici per il dominio CASS, raggiungendo una precisione del 95% nella traduzione del sorgente e del 37,5% nella traduzione dell'assembly, superando significativamente i benchmark commerciali come GPT-4o, Claude e Hipify. Il codice generato corrisponde alle prestazioni native in oltre l'85% dei casi di test, preservando il comportamento di runtime e memoria. Per supportare una valutazione rigorosa, introduciamo CASS-Bench, un benchmark curato che copre 16 domini GPU con esecuzione ground-truth. Tutti i dati, i modelli e gli strumenti di valutazione sono rilasciati come open source per favorire il progresso negli strumenti di compilazione GPU, nella compatibilità binaria e nella traduzione hardware guidata da LLM. Il dataset e il benchmark sono disponibili su https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}, con il codice su https://github.com/GustavoStahl/CASS{blue{GitHub}}.
Presentiamo Mutarjim, un modello linguistico compatto ma potente per la traduzione bidirezionale arabo-inglese. Sebbene i modelli linguistici su larga scala (LLM) abbiano mostrato progressi impressionanti nelle attività di elaborazione del linguaggio naturale, inclusa la traduzione automatica, i modelli più piccoli possono comunque eccellere. Sfruttando questa intuizione, abbiamo sviluppato Mutarjim basandoci su Kuwain-1.5B, un modello linguistico ottimizzato sia per l'arabo che per l'inglese. Nonostante le sue dimensioni contenute, Mutarjim supera modelli molto più grandi su diversi benchmark consolidati, grazie a un approccio di addestramento in due fasi ottimizzato e a un corpus di addestramento di alta qualità e accuratamente curato. I risultati sperimentali dimostrano che Mutarjim rivaleggia con modelli fino a 20 volte più grandi, riducendo significativamente i costi computazionali e i requisiti di addestramento. Introduciamo inoltre Tarjama-25, un nuovo benchmark progettato per superare le limitazioni dei dataset esistenti per la valutazione arabo-inglese, come la ristrettezza del dominio, la brevità delle frasi e il bias verso l'inglese come lingua sorgente. Tarjama-25 comprende 5.000 coppie di frasi revisionate da esperti e copre un'ampia gamma di domini, offrendo un quadro di valutazione più completo ed equilibrato. In particolare, Mutarjim raggiunge prestazioni all'avanguardia nel compito di traduzione inglese-arabo su Tarjama-25, superando persino modelli significativamente più grandi e proprietari come GPT-4o mini. Rilasciamo pubblicamente Tarjama-25 per supportare la ricerca futura e avanzare la valutazione dei sistemi di traduzione arabo-inglese.
Il rapido progresso dei grandi modelli linguistici (LLM) e dei modelli linguistici multimodali (MLLM) si è storicamente basato sullo scaling centrato sul modello, aumentando il numero di parametri da milioni a centinaia di miliardi per ottenere miglioramenti nelle prestazioni. Tuttavia, avvicinandoci ai limiti hardware delle dimensioni dei modelli, il collo di bottiglia computazionale dominante si è spostato radicalmente verso il costo quadratico del meccanismo di self-attention su sequenze di token lunghe, ora guidato da contesti testuali ultra-lunghi, immagini ad alta risoluzione e video estesi. In questo position paper, sosteniamo che il focus della ricerca per un'IA efficiente si sta spostando dalla compressione centrata sul modello alla compressione centrata sui dati. Posizioniamo la compressione dei token come la nuova frontiera, che migliora l'efficienza dell'IA riducendo il numero di token durante l'addestramento o l'inferenza del modello. Attraverso un'analisi completa, esaminiamo prima i recenti sviluppi nell'IA a contesto lungo in vari domini e stabiliamo un framework matematico unificato per le strategie esistenti di efficienza dei modelli, dimostrando perché la compressione dei token rappresenta un cambiamento di paradigma cruciale per affrontare il sovraccarico dei contesti lunghi. Successivamente, esaminiamo sistematicamente il panorama della ricerca sulla compressione dei token, analizzandone i benefici fondamentali e identificandone i vantaggi significativi in diversi scenari. Inoltre, forniamo un'analisi approfondita delle attuali sfide nella ricerca sulla compressione dei token e delineiamo promettenti direzioni future. In definitiva, il nostro lavoro mira a offrire una nuova prospettiva sull'efficienza dell'IA, sintetizzare la ricerca esistente e catalizzare sviluppi innovativi per affrontare le sfide che le lunghezze crescenti dei contesti pongono al progresso della comunità dell'IA.
Il pre-addestramento fornisce ai modelli text-to-image (T2I) una conoscenza ampia del mondo, ma questo da solo spesso non è sufficiente per raggiungere un'elevata qualità estetica e un buon allineamento. Di conseguenza, il fine-tuning supervisionato (SFT) è cruciale per un ulteriore affinamento. Tuttavia, la sua efficacia dipende fortemente dalla qualità del dataset di fine-tuning. Gli attuali dataset pubblici di SFT spesso si concentrano su domini ristretti (ad esempio, anime o stili artistici specifici), e la creazione di dataset SFT di alta qualità e a scopo generale rimane una sfida significativa. I metodi attuali di selezione sono spesso costosi e faticano a identificare campioni veramente significativi. Questa sfida è ulteriormente complicata dalla scarsità di dataset pubblici a scopo generale, poiché i modelli leader si basano spesso su grandi quantità di dati interni, proprietari e scarsamente documentati, ostacolando così il progresso della ricerca in ambito più ampio. Questo articolo introduce una nuova metodologia per creare dataset SFT a scopo generale, sfruttando un modello generativo pre-addestrato come stimatore di campioni di addestramento ad alto impatto. Applichiamo questa metodologia per costruire e rilasciare Alchemist, un dataset SFT compatto (3.350 campioni) ma altamente efficace. Gli esperimenti dimostrano che Alchemist migliora sostanzialmente la qualità generativa di cinque modelli T2I pubblici, preservando al contempo la diversità e lo stile. Inoltre, rilasciamo pubblicamente i pesi dei modelli fine-tuned.
I grandi modelli linguistici eccellono in compiti generali, ma valutare la loro affidabilità in domini ad alta intensità logica e critici per la precisione, come finanza, diritto e sanità, rimane una sfida. Per affrontare questo problema, introduciamo BizFinBench, il primo benchmark specificamente progettato per valutare i LLM in applicazioni finanziarie reali. BizFinBench è composto da 6.781 query ben annotate in cinese, che coprono cinque dimensioni: calcolo numerico, ragionamento, estrazione di informazioni, riconoscimento di previsioni e risposte a domande basate sulla conoscenza, raggruppate in nove categorie dettagliate. Il benchmark include sia metriche oggettive che soggettive. Introduciamo anche IteraJudge, un nuovo metodo di valutazione dei LLM che riduce i bias quando i LLM fungono da valutatori nelle metriche oggettive. Abbiamo testato 25 modelli, inclusi sia sistemi proprietari che open-source. Esperimenti estesi dimostrano che nessun modello domina in tutti i compiti. La nostra valutazione rivela distinti schemi di capacità: (1) Nel Calcolo Numerico, Claude-3.5-Sonnet (63.18) e DeepSeek-R1 (64.04) sono in testa, mentre modelli più piccoli come Qwen2.5-VL-3B (15.92) sono significativamente indietro; (2) Nel Ragionamento, i modelli proprietari dominano (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), con i modelli open-source che restano indietro fino a 19.49 punti; (3) Nell'Estrazione di Informazioni, la diffusione delle prestazioni è la più ampia, con DeepSeek-R1 che ottiene 71.46, mentre Qwen3-1.7B ottiene 11.23; (4) Nel Riconoscimento di Previsioni, la varianza delle prestazioni è minima, con i modelli migliori che ottengono punteggi tra 39.16 e 50.00. Troviamo che, sebbene gli attuali LLM gestiscano con competenza le query finanziarie di routine, hanno difficoltà con scenari complessi che richiedono ragionamenti tra concetti. BizFinBench offre un benchmark rigoroso e allineato al business per la ricerca futura. Il codice e il dataset sono disponibili su https://github.com/HiThink-Research/BizFinBench.
Gli agenti incarnati potenziati da modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni solide nei compiti di riorganizzazione degli oggetti domestici. Tuttavia, questi compiti si concentrano principalmente su interazioni a turno singolo con istruzioni semplificate, che non riflettono veramente le sfide di fornire un'assistenza significativa agli utenti. Per offrire un'assistenza personalizzata, gli agenti incarnati devono comprendere le semantiche uniche che gli utenti assegnano al mondo fisico (ad esempio, la tazza preferita, la routine della colazione) sfruttando la storia delle interazioni precedenti per interpretare istruzioni dinamiche e legate al mondo reale. Tuttavia, l'efficacia degli agenti incarnati nell'utilizzo della memoria per un'assistenza personalizzata rimane in gran parte inesplorata. Per colmare questa lacuna, presentiamo MEMENTO, un framework di valutazione per agenti incarnati personalizzati progettato per valutare in modo completo le capacità di utilizzo della memoria per fornire un'assistenza personalizzata. Il nostro framework consiste in un processo di valutazione della memoria a due fasi che consente di quantificare l'impatto dell'utilizzo della memoria sulle prestazioni del compito. Questo processo permette di valutare la comprensione da parte degli agenti delle conoscenze personalizzate nei compiti di riorganizzazione degli oggetti, concentrandosi sul loro ruolo nell'interpretazione degli obiettivi: (1) la capacità di identificare oggetti target in base al significato personale (semantica degli oggetti), e (2) la capacità di dedurre le configurazioni oggetto-posizione da modelli utente coerenti, come le routine (modelli utente). I nostri esperimenti su vari LLM rivelano significative limitazioni nell'utilizzo della memoria, con persino modelli all'avanguardia come GPT-4o che registrano un calo delle prestazioni del 30,5% quando è necessario fare riferimento a più memorie, in particolare nei compiti che coinvolgono modelli utente. Questi risultati, insieme alle nostre analisi dettagliate e studi di caso, forniscono preziose indicazioni per la ricerca futura nello sviluppo di agenti incarnati personalizzati più efficaci. Sito web del progetto: https://connoriginal.github.io/MEMENTO
I modelli linguistici di grandi dimensioni (LLM) attuali adottano tipicamente una strategia di ragionamento fissa, semplice o complessa, per tutte le domande, indipendentemente dalla loro difficoltà. Questa mancanza di considerazione per la variazione nella complessità del compito e del processo di ragionamento porta a uno squilibrio tra prestazioni ed efficienza. I metodi esistenti cercano di implementare un sistema di commutazione tra pensiero veloce e lento senza addestramento per gestire problemi di diversa difficoltà, ma sono limitati da aggiustamenti di strategia a livello di soluzione troppo grossolani. Per affrontare questo problema, proponiamo un nuovo paradigma di ragionamento: Process-Level Adaptive Thinking Mode Switching (PATS), che consente agli LLM di adattare dinamicamente la loro strategia di ragionamento in base alla difficoltà di ogni passaggio, ottimizzando il bilanciamento tra accuratezza ed efficienza computazionale. Il nostro approccio integra Process Reward Models (PRM) con la ricerca a fascio, incorporando meccanismi di commutazione progressiva della modalità e penalizzazione dei passaggi errati. Esperimenti su diversi benchmark matematici dimostrano che la nostra metodologia raggiunge un'elevata accuratezza mantenendo un uso moderato di token. Questo studio sottolinea l'importanza dell'adattamento della strategia di ragionamento a livello di processo e consapevole della difficoltà, offrendo spunti preziosi per un'inferenza efficiente negli LLM.
Mentre i modelli di ragionamento su larga scala dimostrano prestazioni solide su compiti complessi, mancano della capacità di adattare l'uso dei token di ragionamento in base alla difficoltà del task. Questo spesso porta al problema del "sovrapensiero" — un ragionamento eccessivo e non necessario — che, sebbene possa essere mitigato dall'intervento umano per controllare il budget di token, contraddice comunque l'obiettivo di ottenere un'IA completamente autonoma. In questo lavoro, proponiamo Adaptive Reasoning Model (ARM), un modello di ragionamento in grado di selezionare in modo adattivo i formati di ragionamento appropriati in base al task specifico. Questi formati includono tre opzioni efficienti — Risposta Diretta, CoT Breve e Codice — oltre a un formato più elaborato, CoT Lungo. Per addestrare ARM, introduciamo Ada-GRPO, un adattamento di Group Relative Policy Optimization (GRPO), che affronta il problema del collasso dei formati nel GRPO tradizionale. Ada-GRPO consente a ARM di raggiungere un'elevata efficienza nei token, riducendoli in media del 30% e fino al 70%, mantenendo prestazioni paragonabili al modello che si affida esclusivamente al CoT Lungo. Inoltre, non solo migliora l'efficienza dell'inferenza attraverso la riduzione della generazione di token, ma porta anche a un'accelerazione di 2x nell'addestramento. Oltre alla Modalità Adattiva predefinita, ARM supporta due modalità di ragionamento aggiuntive: 1) Modalità Guidata da Istruzioni, che consente agli utenti di specificare esplicitamente il formato di ragionamento tramite token speciali — ideale quando il formato appropriato è noto per un batch di task. 2) Modalità Guidata da Consenso, che aggrega gli output dei tre formati efficienti e ricorre al CoT Lungo in caso di disaccordo, privilegiando le prestazioni con un uso maggiore di token.
I Large Language Model (LLM), come OpenAI's o1 e DeepSeek's R1, eccellono in compiti di ragionamento avanzato come matematica e programmazione grazie al Reinforcement Learning con Ricompense Verificabili (RLVR), ma continuano a lottare con enigmi risolvibili da esseri umani senza conoscenze specifiche del dominio. Introduciamo Enigmata, la prima suite completa progettata per migliorare le capacità di ragionamento enigmistico degli LLM. Include 36 task suddivisi in sette categorie, ciascuno con 1) un generatore che produce esempi illimitati con difficoltà controllabile e 2) un verificatore basato su regole per la valutazione automatica. Questo design generatore-verificatore supporta un addestramento RL scalabile e multi-task, analisi granulari e un'integrazione senza soluzione di continuità con RLVR. Proponiamo inoltre Enigmata-Eval, un benchmark rigoroso, e sviluppiamo strategie RLVR multi-task ottimizzate. Il nostro modello addestrato, Qwen2.5-32B-Enigmata, supera costantemente o3-mini-high e o1 sui benchmark di ragionamento enigmistico come Enigmata-Eval, ARC-AGI (32,8%) e ARC-AGI 2 (0,6%). Generalizza bene anche su benchmark enigmistici fuori dominio e sul ragionamento matematico, con un minimo compromesso multi-task. Quando addestrato su modelli più grandi come Seed1.5-Thinking (20 miliardi di parametri attivati e 200 miliardi di parametri totali), i dati enigmistici di Enigmata migliorano ulteriormente le prestazioni SoTA su compiti avanzati di matematica e ragionamento STEM come AIME (2024-2025), BeyondAIME e GPQA (Diamond), dimostrando i vantaggi di generalizzazione di Enigmata. Questo lavoro offre un framework unificato e controllabile per avanzare il ragionamento logico negli LLM. Le risorse di questo lavoro sono disponibili su https://seed-enigmata.github.io.
Proponiamo un nuovo framework per comprendere le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) attraverso la prospettiva del meta-apprendimento. Concettualizzando le traiettorie di ragionamento come aggiornamenti pseudo-discesa del gradiente ai parametri del LLM, identifichiamo parallelismi tra il ragionamento dei LLM e vari paradigmi di meta-apprendimento. Formalizziamo il processo di addestramento per i compiti di ragionamento come una configurazione di meta-apprendimento, in cui ogni domanda viene trattata come un compito individuale e le traiettorie di ragionamento fungono da ottimizzazione del ciclo interno per adattare i parametri del modello. Una volta addestrato su un insieme diversificato di domande, il LLM sviluppa capacità di ragionamento fondamentali che possono generalizzare a domande mai viste prima. Valutazioni empiriche estensive confermano la forte connessione tra il ragionamento dei LLM e il meta-apprendimento, esplorando diverse questioni di notevole interesse dal punto di vista del meta-apprendimento. Il nostro lavoro non solo migliora la comprensione del ragionamento dei LLM, ma fornisce anche intuizioni pratiche per migliorare questi modelli attraverso tecniche consolidate di meta-apprendimento.
I grandi modelli linguistici (LLM) spesso mostrano forti pregiudizi, ad esempio contro le donne o a favore del numero 7. Indaghiamo se gli LLM siano in grado di produrre risposte meno distorte quando possono osservare le loro risposte precedenti alla stessa domanda in una conversazione a più turni. Per comprendere quali tipi di domande invitano risposte più distorte, testiamo gli LLM sul nostro set di domande proposte che coprono 9 argomenti e appartengono a tre tipologie: (1) Soggettive; (2) Casuali; e (3) Oggettive. È interessante notare che gli LLM sono in grado di "de-distorcere" se stessi in una conversazione a più turni in risposta a domande che cercano una risposta Casuale e imparziale. Inoltre, proponiamo il B-score, una nuova metrica efficace nel rilevare i pregiudizi nelle domande Soggettive, Casuali, Facili e Difficili. Su MMLU, HLE e CSQA, l'utilizzo del B-score migliora sostanzialmente l'accuratezza di verifica delle risposte degli LLM (cioè, accettare le risposte corrette degli LLM e rifiutare quelle errate) rispetto all'uso dei punteggi di fiducia verbalizzati o alla frequenza delle risposte a turno singolo da soli. Codice e dati sono disponibili al seguente indirizzo: https://b-score.github.io.
I Modelli Linguistici di Grandi Dimensioni hanno ottenuto un successo straordinario nei compiti di elaborazione del linguaggio naturale, con l'Apprendimento per Rinforzo che svolge un ruolo chiave nell'adattarli a specifiche applicazioni. Tuttavia, ottenere risposte di verità di base per addestrare i LLM nella risoluzione di problemi matematici è spesso impegnativo, costoso e talvolta impossibile. Questa ricerca approfondisce l'utilizzo del formato e della lunghezza come segnali surrogati per addestrare i LLM nella risoluzione di problemi matematici, aggirando la necessità delle tradizionali risposte di verità di base. Il nostro studio dimostra che una funzione di ricompensa incentrata esclusivamente sulla correttezza del formato può produrre miglioramenti delle prestazioni paragonabili all'algoritmo GRPO standard nelle fasi iniziali. Riconoscendo i limiti delle ricompense basate solo sul formato nelle fasi successive, incorporiamo ricompense basate sulla lunghezza. L'approccio GRPO risultante, che sfrutta i segnali surrogati di formato-lunghezza, non solo eguaglia ma supera le prestazioni dell'algoritmo GRPO standard che si basa su risposte di verità di base in determinati scenari, raggiungendo un'accuratezza del 40,0\% su AIME2024 con un modello base da 7B. Attraverso un'esplorazione e una sperimentazione sistematiche, questa ricerca non solo offre una soluzione pratica per addestrare i LLM a risolvere problemi matematici e ridurre la dipendenza dalla raccolta estensiva di dati di verità di base, ma rivela anche l'essenza del perché il nostro approccio senza etichette ha successo: il modello base è come un eccellente studente che ha già padroneggiato le abilità di ragionamento matematico e logico, ma si comporta male nel compito in classe, ha semplicemente bisogno di sviluppare buone abitudini di risposta per ottenere risultati eccezionali negli esami, in altre parole, per sbloccare le capacità che già possiede.
L'addestramento di grandi modelli linguistici (LLM) per il ragionamento complesso tramite Reinforcement Learning con Ricompense Verificabili (RLVR) è efficace ma limitato dalla dipendenza da supervisione costosa e specifica per dominio. Esploriamo il Reinforcement Learning da Feedback Interno (RLIF), un framework che consente ai LLM di apprendere da segnali intrinseci senza ricompense esterne o dati etichettati. Proponiamo Intuitor, un metodo RLIF che utilizza la fiducia del modello stesso, denominata auto-certezza, come unico segnale di ricompensa. Intuitor sostituisce le ricompense esterne nell'ottimizzazione delle politiche relative al gruppo (GRPO) con punteggi di auto-certezza, consentendo un apprendimento completamente non supervisionato. Gli esperimenti dimostrano che Intuitor eguaglia le prestazioni di GRPO su benchmark matematici, ottenendo al contempo una generalizzazione superiore per compiti fuori dominio come la generazione di codice, senza richiedere soluzioni di riferimento o casi di test. I nostri risultati mostrano che i segnali intrinseci del modello possono guidare un apprendimento efficace in diversi domini, offrendo un'alternativa scalabile a RLVR per sistemi di IA autonomi in cui le ricompense verificabili non sono disponibili. Il codice è disponibile all'indirizzo https://github.com/sunblaze-ucb/Intuitor.
I segnali di ricompensa generati dall'uomo sono cruciali per allineare i modelli generativi alle preferenze umane, guidando sia l'addestramento che le valutazioni durante l'inferenza. Sebbene i grandi modelli linguistici (LLM) impiegati come valutatori proxy, ovvero LLM-as-a-Judge, riducano significativamente i costi associati alle annotazioni manuali, richiedono tipicamente dati di addestramento specifici per ogni modalità e non riescono a generalizzare bene su compiti multimodali diversi. In questo articolo, proponiamo Flex-Judge, un modello di valutazione multimodale guidato dal ragionamento che sfrutta dati minimi di ragionamento testuale per generalizzare in modo robusto su più modalità e formati di valutazione. La nostra intuizione principale è che le spiegazioni di ragionamento testuale strutturato codifichino intrinsecamente schemi decisionali generalizzabili, consentendo un trasferimento efficace a giudizi multimodali, ad esempio con immagini o video. I risultati empirici dimostrano che Flex-Judge, nonostante sia addestrato su un numero significativamente inferiore di dati testuali, raggiunge prestazioni competitive o superiori rispetto alle API commerciali all'avanguardia e ai valutatori multimodali ampiamente addestrati. In particolare, Flex-Judge mostra un impatto ampio in modalità come le molecole, dove sono scarsi i benchmark di valutazione completi, sottolineando il suo valore pratico in domini con risorse limitate. Il nostro framework evidenzia la supervisione testuale basata sul ragionamento come un'alternativa potente ed economicamente vantaggiosa agli approcci tradizionali intensivi di annotazione, avanzando sostanzialmente la scalabilità del modello-as-a-judge multimodale.
I grandi modelli linguistici (LLM) hanno dimostrato potenzialità nell'automatizzare la generazione di ipotesi scientifiche, tuttavia gli approcci esistenti producono principalmente ipotesi a grana grossa, prive di dettagli metodologici e sperimentali critici. Introduciamo e definiamo formalmente il nuovo compito della scoperta di ipotesi scientifiche a grana fine, che consiste nel generare ipotesi dettagliate e sperimentalmente attuabili a partire da direzioni di ricerca iniziali approssimative. Inquadriamo questo problema come un'ottimizzazione combinatoria e investigiamo i limiti superiori della capacità degli LLM di risolverlo quando sfruttati al massimo. In particolare, esploriamo quattro questioni fondamentali: (1) come sfruttare al meglio le euristiche interne di un LLM per formulare l'ipotesi a grana fine che esso stesso giudicherebbe come la più promettente tra tutte le possibili ipotesi che potrebbe generare, basandosi sul proprio punteggio interno - definendo così un paesaggio di ricompensa latente sullo spazio delle ipotesi; (2) se tali ipotesi giudicate migliori dall'LLM mostrano un allineamento più forte con ipotesi di verità di base; (3) se modellare il paesaggio di ricompensa utilizzando un insieme di LLM diversi ma di capacità simile produca risultati migliori rispetto a definirlo con istanze ripetute del più forte tra di essi; e (4) se un insieme di LLM identici fornisca un paesaggio di ricompensa più affidabile rispetto a un singolo LLM. Per affrontare queste questioni, proponiamo un metodo di ricerca gerarchica che propone e integra progressivamente dettagli nell'ipotesi, passando da concetti generali a configurazioni sperimentali specifiche. Mostriamo che questo processo gerarchico appiana il paesaggio di ricompensa e consente un'ottimizzazione più efficace. Valutazioni empiriche su un nuovo benchmark di ipotesi a grana fine annotate da esperti, tratte dalla recente letteratura chimica, dimostrano che il nostro metodo supera costantemente i baseline più robusti.
I LLM hanno compiuto progressi impressionanti, ma le loro crescenti capacità li espongono anche ad attacchi di jailbreaking altamente flessibili progettati per bypassare l'allineamento alla sicurezza. Mentre molte difese esistenti si concentrano su tipologie di attacchi note, è più cruciale preparare i LLM ad attacchi non visti che potrebbero emergere durante il dispiegamento. Per affrontare questo problema, proponiamo un framework di allineamento alla sicurezza lifelong che consente ai LLM di adattarsi continuamente a nuove e in evoluzione strategie di jailbreaking. Il nostro framework introduce una configurazione competitiva tra due componenti: un Meta-Attaccante, addestrato a scoprire attivamente nuove strategie di jailbreaking, e un Difensore, addestrato a resistervi. Per riscaldare efficacemente il Meta-Attaccante, sfruttiamo prima l'API di GPT-4 per estrarre intuizioni chiave da una vasta raccolta di articoli di ricerca relativi al jailbreaking. Attraverso un addestramento iterativo, il Meta-Attaccante della prima iterazione raggiunge un tasso di successo degli attacchi (ASR) del 73% su RR e un ASR di trasferimento del 57% su LAT utilizzando solo attacchi a turno singolo. Nel frattempo, il Difensore migliora progressivamente la sua robustezza e alla fine riduce il tasso di successo del Meta-Attaccante a solo il 7%, consentendo un dispiegamento più sicuro e affidabile dei LLM in ambienti aperti. Il codice è disponibile all'indirizzo https://github.com/sail-sg/LifelongSafetyAlignment.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno recentemente compiuto progressi significativi nelle attività visive, tra cui la comprensione semantica delle scene e l'allineamento testo-immagine, con varianti di ragionamento che migliorano le prestazioni su compiti complessi che coinvolgono matematica e logica. Tuttavia, la loro capacità per compiti di ragionamento che richiedono una comprensione visiva fine non è stata sufficientemente valutata. Per colmare questa lacuna, introduciamo ReasonMap, un benchmark progettato per valutare la comprensione visiva fine e le abilità di ragionamento spaziale degli MLLM. ReasonMap comprende mappe di transito ad alta risoluzione di 30 città in 13 paesi e include 1.008 coppie domanda-risposta che coprono due tipi di domande e tre modelli. Inoltre, progettiamo una pipeline di valutazione a due livelli che valuta correttamente la correttezza e la qualità delle risposte. Valutazioni complete di 15 MLLM popolari, inclusi sia modelli base che varianti di ragionamento, rivelano un modello controintuitivo: tra i modelli open-source, i modelli base superano quelli di ragionamento, mentre si osserva il trend opposto nei modelli closed-source. Inoltre, le prestazioni generalmente peggiorano quando gli input visivi sono mascherati, indicando che, sebbene gli MLLM possano sfruttare conoscenze pregresse per rispondere ad alcune domande, i compiti di ragionamento visivo fine richiedono ancora una genuina percezione visiva per ottenere prestazioni solide. Il nostro studio di benchmark offre nuove intuizioni sul ragionamento visivo e contribuisce a indagare il divario tra modelli open-source e closed-source.
Nonostante la predominanza dei modelli linguistici di tipo decoder-only, gli encoder rimangono cruciali per applicazioni con risorse limitate. Introduciamo ModernGBERT (134M, 1B), una famiglia completamente trasparente di modelli encoder in tedesco addestrati da zero, che incorpora innovazioni architetturali da ModernBERT. Per valutare i compromessi pratici dell'addestramento di encoder da zero, presentiamo anche LL\"aMmlein2Vec (120M, 1B, 7B), una famiglia di encoder derivati da modelli decoder-only in tedesco tramite LLM2Vec. Valutiamo tutti i modelli su compiti di comprensione del linguaggio naturale, embedding di testo e ragionamento su contesti lunghi, consentendo un confronto controllato tra encoder dedicati e decoder convertiti. I nostri risultati mostrano che ModernGBERT 1B supera i precedenti encoder in tedesco all'avanguardia, nonché gli encoder adattati tramite LLM2Vec, in termini di prestazioni ed efficienza parametrica. Tutti i modelli, i dati di addestramento, i checkpoint e il codice sono pubblicamente disponibili, contribuendo all'ecosistema NLP in tedesco con modelli encoder trasparenti e ad alte prestazioni.
La generazione e la comprensione visiva sono due aspetti profondamente interconnessi dell'intelligenza umana, tuttavia sono stati tradizionalmente trattati come compiti separati nell'apprendimento automatico. In questo articolo, proponiamo Jodi, un framework di diffusione che unifica la generazione e la comprensione visiva modellando congiuntamente il dominio delle immagini e i domini di più etichette. Nello specifico, Jodi è costruito su un trasformatore di diffusione lineare insieme a un meccanismo di commutazione dei ruoli, che gli consente di eseguire tre tipi particolari di compiti: (1) generazione congiunta, in cui il modello genera simultaneamente immagini e più etichette; (2) generazione controllata, in cui le immagini vengono generate condizionate su qualsiasi combinazione di etichette; e (3) percezione delle immagini, in cui più etichette possono essere predette contemporaneamente da una data immagine. Inoltre, presentiamo il dataset Joint-1.6M, che contiene 200.000 immagini di alta qualità raccolte da fonti pubbliche, etichette automatiche per 7 domini visivi e didascalie generate da LLM. Esperimenti estensivi dimostrano che Jodi eccelle sia nei compiti di generazione che di comprensione e mostra una forte estensibilità a una gamma più ampia di domini visivi. Il codice è disponibile all'indirizzo https://github.com/VIPL-GENUN/Jodi.
Nel 2025, in un momento cruciale per il perseguimento dell'Intelligenza Artificiale Generale (AGI), il fine-tuning basato sul rinforzo (Reinforcement Fine-Tuning, RFT) ha dimostrato un potenziale significativo nel migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (Large Language Models, LLMs) e ha portato allo sviluppo di modelli di IA all'avanguardia come OpenAI-o1 e DeepSeek-R1. Inoltre, l'applicazione efficiente del RFT per potenziare le capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni (Multimodal Large Language Models, MLLMs) ha attirato un'ampia attenzione da parte della comunità. In questo position paper, sosteniamo che il fine-tuning basato sul rinforzo potenzia le capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni. Per cominciare, forniamo una dettagliata introduzione alle conoscenze di base che i ricercatori interessati a questo campo dovrebbero padroneggiare. Inoltre, riassumiamo meticolosamente i miglioramenti apportati dal RFT nel potenziare le capacità di ragionamento degli MLLMs in cinque punti chiave: modalità diverse, compiti e domini vari, algoritmi di addestramento migliorati, benchmark abbondanti e framework ingegneristici in crescita. Infine, proponiamo cinque promettenti direzioni per la ricerca futura che la comunità potrebbe considerare. Speriamo che questo position paper fornisca spunti preziosi alla comunità in questa fase cruciale del progresso verso l'AGI. Un riassunto dei lavori svolti sul RFT per gli MLLMs è disponibile all'indirizzo https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.
Man mano che i Large Language Model (LLM) diventano parte integrante dei flussi di lavoro nello sviluppo software, la loro capacità di generare output strutturati è diventata di fondamentale importanza. Introduciamo StructEval, un benchmark completo per valutare le capacità dei LLM nella produzione di formati strutturati sia non renderizzabili (JSON, YAML, CSV) che renderizzabili (HTML, React, SVG). A differenza dei benchmark precedenti, StructEval valuta sistematicamente la fedeltà strutturale attraverso diversi formati utilizzando due paradigmi: 1) task di generazione, che producono output strutturato a partire da prompt in linguaggio naturale, e 2) task di conversione, che traducono tra formati strutturati. Il nostro benchmark comprende 18 formati e 44 tipi di task, con metriche innovative per l'aderenza al formato e la correttezza strutturale. I risultati rivelano significative lacune nelle prestazioni: anche modelli all'avanguardia come o1-mini raggiungono solo un punteggio medio di 75,58, con alternative open-source che rimangono indietro di circa 10 punti. Abbiamo riscontrato che i task di generazione sono più complessi rispetto a quelli di conversione, e che produrre contenuti visivi corretti è più difficile rispetto alla generazione di strutture testuali.
Presentiamo REARANK, un agente di riordinamento basato su un modello linguistico di grandi dimensioni (LLM) che utilizza un ragionamento di tipo listwise. REARANK esegue un ragionamento esplicito prima di procedere al riordinamento, migliorando significativamente sia le prestazioni che l'interpretabilità. Sfruttando l'apprendimento per rinforzo e l'aumento dei dati, REARANK ottiene miglioramenti sostanziali rispetto ai modelli di riferimento su popolari benchmark di information retrieval, richiedendo in particolare solo 179 campioni annotati. Basato su Qwen2.5-7B, il nostro REARANK-7B dimostra prestazioni paragonabili a GPT-4 sia su benchmark in dominio che fuori dominio, superando addirittura GPT-4 su benchmark BRIGHT ad alta intensità di ragionamento. Questi risultati sottolineano l'efficacia del nostro approccio e evidenziano come l'apprendimento per rinforzo possa potenziare le capacità di ragionamento degli LLM nel riordinamento.
La ragionamento video-audio a lungo orizzonte e la comprensione fine a livello di pixel impongono requisiti contrastanti ai modelli omnimodali: una copertura temporale densa richiede molti fotogrammi a bassa risoluzione, mentre un ancoraggio preciso necessita di input ad alta risoluzione. Affrontiamo questo compromesso con un'architettura a due sistemi: un Sistema di Ragionamento Globale seleziona fotogrammi chiave informativi e riformula il compito a basso costo spaziale, mentre un Sistema di Comprensione dei Dettagli esegue l'ancoraggio a livello di pixel sui frammenti selezionati ad alta risoluzione. Poiché la selezione e la riformulazione dei fotogrammi chiave "ottimali" sono ambigue e difficili da supervisionare, le formuliamo come un problema di apprendimento per rinforzo (RL) e presentiamo Omni-R1, un framework RL end-to-end basato sull'ottimizzazione delle politiche relative di gruppo. Omni-R1 addestra il Sistema di Ragionamento Globale attraverso ricompense gerarchiche ottenute tramite collaborazione online con il Sistema di Comprensione dei Dettagli, richiedendo solo un'epoca di RL su piccole suddivisioni del compito. Esperimenti su due benchmark impegnativi, ovvero la Segmentazione Audio-Visuale Referenziale (RefAVS) e la Segmentazione di Oggetti Video con Ragionamento (REVOS), mostrano che Omni-R1 non solo supera forti baseline supervisionate, ma supera anche modelli specializzati all'avanguardia, migliorando sostanzialmente la generalizzazione fuori dominio e mitigando l'allucinazione multimodale. I nostri risultati dimostrano la prima applicazione riuscita dell'RL al ragionamento omnimodale su larga scala e evidenziano un percorso scalabile verso modelli di fondazione universali.
La diffusione discreta è emersa recentemente come un paradigma promettente nella modellazione di dati discreti. Tuttavia, i metodi esistenti si basano tipicamente su una matrice di transizione a tasso fisso durante l'addestramento, il che non solo limita l'espressività delle rappresentazioni latenti, un punto di forza fondamentale dei metodi variazionali, ma restringe anche lo spazio complessivo di progettazione. Per affrontare queste limitazioni, proponiamo Discrete Markov Bridge, un nuovo framework specificamente progettato per l'apprendimento di rappresentazioni discrete. Il nostro approccio si basa su due componenti chiave: Matrix Learning e Score Learning. Condurremo un'analisi teorica rigorosa, stabilendo garanzie formali di prestazione per Matrix Learning e dimostrando la convergenza del framework complessivo. Inoltre, analizzeremo la complessità spaziale del nostro metodo, affrontando i vincoli pratici identificati in studi precedenti. Valutazioni empiriche estensive convalidano l'efficacia del Discrete Markov Bridge proposto, che raggiunge un Evidence Lower Bound (ELBO) di 1.38 sul dataset Text8, superando i baseline consolidati. Inoltre, il modello proposto dimostra prestazioni competitive sul dataset CIFAR-10, ottenendo risultati paragonabili a quelli raggiunti da approcci specifici per la generazione di immagini.
Proponiamo un sistema di fisica neurale per simulazioni di fluidi interattive e in tempo reale. I metodi tradizionali basati sulla fisica, sebbene accurati, sono computazionalmente intensivi e soffrono di problemi di latenza. I recenti metodi di apprendimento automatico riducono i costi computazionali mantenendo la fedeltà; tuttavia, la maggior parte non soddisfa ancora i vincoli di latenza per l'uso in tempo reale e manca di supporto per applicazioni interattive. Per colmare questa lacuna, introduciamo un metodo ibrido innovativo che integra simulazione numerica, fisica neurale e controllo generativo. La nostra fisica neurale persegue congiuntamente una simulazione a bassa latenza e un'elevata fedeltà fisica, impiegando un meccanismo di sicurezza di ripiego su risolutori numerici classici. Inoltre, sviluppiamo un controllore basato su diffusione che viene addestrato utilizzando una strategia di modellazione inversa per generare campi di forza dinamici esterni per la manipolazione dei fluidi. Il nostro sistema dimostra prestazioni robuste in diversi scenari 2D/3D, tipi di materiali e interazioni con ostacoli, raggiungendo simulazioni in tempo reale ad alti frame rate (11~29% di latenza) e consentendo il controllo dei fluidi guidato da schizzi a mano libera di facile utilizzo. Presentiamo un passo significativo verso simulazioni di fluidi pratiche, controllabili e fisicamente plausibili per applicazioni interattive in tempo reale. Ci impegniamo a rilasciare sia i modelli che i dati in caso di accettazione.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità di ragionamento notevoli in matematica e programmazione, spesso potenziate da un post-addestramento sulle catene di pensiero (CoT) generate da modelli più avanzati. Tuttavia, le strategie esistenti per la selezione di tali dati di addestramento si basano principalmente su euristiche, limitando la generalizzabilità e non riuscendo a cogliere le sottigliezze intrinseche ai dati. Per affrontare queste limitazioni, sfruttiamo le funzioni di influenza per attribuire sistematicamente la capacità di ragionamento degli LLM in matematica e programmazione a singoli esempi, sequenze e token di addestramento, consentendo una comprensione più profonda delle caratteristiche efficaci dei dati. Il nostro approccio di Attribuzione del Ragionamento basato sull'Influenza (Infra) rivela effetti non banali tra domini nelle attività di matematica e programmazione: esempi di matematica ad alta difficoltà migliorano sia il ragionamento matematico che quello di programmazione, mentre compiti di programmazione a bassa difficoltà risultano più efficaci per il ragionamento di codice. Sulla base di queste scoperte, introduciamo una strategia semplice ma efficace di ripesatura del dataset invertendo la difficoltà dei compiti, che raddoppia l'accuratezza di AIME24 dal 10% al 20% e aumenta l'accuratezza di LiveCodeBench dal 33,8% al 35,3% per Qwen2.5-7B-Instruct. Inoltre, la nostra attribuzione granulare rivela che i comportamenti esplorativi a livello di sequenza migliorano le prestazioni di ragionamento sia in matematica che in programmazione, e che i modelli di influenza a livello di token sono distinti per il ragionamento matematico e di codice: il primo preferisce connettori logici in linguaggio naturale, mentre il secondo enfatizza la sintassi strutturale.
Questa rassegna presenta un'analisi completa di due paradigmi emergenti nello sviluppo software assistito dall'IA: il coding intuitivo (vibe coding) e il coding agentico (agentic coding). Sebbene entrambi si basino su modelli linguistici di grandi dimensioni (LLM), differiscono fondamentalmente in termini di autonomia, progettazione architettonica e ruolo dello sviluppatore. Il coding intuitivo enfatizza l'interazione intuitiva e umano-centrica attraverso flussi di lavoro conversazionali basati su prompt, che supportano l'ideazione, la sperimentazione e l'esplorazione creativa. Al contrario, il coding agentico abilita lo sviluppo software autonomo attraverso agenti guidati da obiettivi, capaci di pianificare, eseguire, testare e iterare compiti con un intervento umano minimo. Proponiamo una tassonomia dettagliata che abbraccia fondamenti concettuali, modelli di esecuzione, cicli di feedback, meccanismi di sicurezza, strategie di debug ed ecosistemi di strumenti reali. Attraverso un'analisi comparativa dei flussi di lavoro e 20 casi d'uso dettagliati, illustriamo come i sistemi intuitivi eccellano nella prototipazione iniziale e nell'educazione, mentre i sistemi agentici si distinguono nell'automazione di livello enterprise, nel refactoring di codebase e nell'integrazione CI/CD. Esaminiamo inoltre le tendenze emergenti nelle architetture ibride, dove le interfacce in linguaggio naturale sono accoppiate a pipeline di esecuzione autonoma. Infine, delineiamo una roadmap futura per l'IA agentica, evidenziando l'infrastruttura necessaria per sistemi affidabili, spiegabili e collaborativi. I nostri risultati suggeriscono che il successo dell'ingegneria del software basata sull'IA non dipenderà dalla scelta di un unico paradigma, ma dall'armonizzazione dei loro punti di forza all'interno di un ciclo di sviluppo unificato e centrato sull'uomo.
I moderni modelli di ragionamento su larga scala dimostrano impressionanti capacità di risoluzione dei problemi grazie all'impiego di strategie di ragionamento sofisticate. Tuttavia, spesso faticano a bilanciare efficienza ed efficacia, generando frequentemente catene di ragionamento eccessivamente lunghe per problemi semplici. In questo lavoro, proponiamo AdaCtrl, un nuovo framework che supporta sia l'allocazione adattiva del budget di ragionamento basata sulla difficoltà, sia il controllo esplicito dell'utente sulla profondità del ragionamento. AdaCtrl regola dinamicamente la lunghezza del ragionamento in base alla difficoltà auto-valutata del problema, consentendo inoltre agli utenti di controllare manualmente il budget per privilegiare l'efficienza o l'efficacia. Questo è ottenuto attraverso una pipeline di addestramento in due fasi: una fase iniziale di fine-tuning a freddo per instillare la capacità di auto-valutare la difficoltà e regolare il budget di ragionamento, seguita da una fase di reinforcement learning (RL) basata sulla difficoltà che affina le strategie di ragionamento adattivo del modello e calibra le sue valutazioni della difficoltà in base alle sue capacità in evoluzione durante l'addestramento online. Per consentire un'interazione intuitiva con l'utente, progettiamo tag espliciti attivati dalla lunghezza che fungono da interfaccia naturale per il controllo del budget. I risultati empirici mostrano che AdaCtrl adatta la lunghezza del ragionamento in base alla difficoltà stimata; rispetto alla baseline di addestramento standard che include anche fine-tuning e RL, migliora le prestazioni e riduce simultaneamente la lunghezza delle risposte del 10,06% e del 12,14% sui dataset più impegnativi AIME2024 e AIME2025, che richiedono un ragionamento elaborato, e del 62,05% e del 91,04% sui dataset MATH500 e GSM8K, dove sono sufficienti risposte più concise. Inoltre, AdaCtrl consente un controllo preciso dell'utente sul budget di ragionamento, permettendo risposte personalizzate per soddisfare esigenze specifiche.
I Large Reasoning Models (LRM) sono criticati per l'eccessiva lunghezza della Catena di Pensiero (Chain-of-Thought, CoT) necessaria per derivare la risposta finale, soffrendo di un'elevata latenza sia per il primo token che complessiva. Tipicamente, la CoT degli LRM mescola molteplici unità di pensiero; ciascuna unità tenta di produrre una risposta candidata alla query originale. Pertanto, un'idea naturale per migliorare l'efficienza è ridurre il numero di unità. Tuttavia, il fatto che le unità di pensiero nella CoT standard non possano essere gestite esplicitamente rende questa operazione complessa. Questo articolo introduce la Decomposizione Multi-Turn (MinD) per decodificare la CoT convenzionale in una sequenza di interazioni esplicite, strutturate e turno per turno, colmando così il divario. In MinD, il modello fornisce una risposta multi-turno alla query, dove ciascun turno abbraccia un'unità di pensiero e produce una risposta corrispondente. I turni successivi possono riflettere, verificare, revisionare o esplorare approcci alternativi sia per la parte di pensiero che per la risposta dei turni precedenti. Ciò non solo rende la risposta più rapida, ma consente anche un controllo esplicito sul processo di ragionamento iterativo (ad esempio, gli utenti possono fermarsi o continuare in qualsiasi turno). Seguiamo un paradigma di fine-tuning supervisionato (SFT) seguito da apprendimento per rinforzo (RL) per realizzare MinD. Inizialmente, riformuliamo gli output di un LRM in formati multi-turno utilizzando un altro LLM, e poi ottimizziamo l'LRM con tali dati. Osservando che il modello ottimizzato tende a consumare ancora più token rispetto a quello originale (probabilmente perché i formati multi-turno introducono token aggiuntivi per le risposte), suggeriamo di sfruttare algoritmi RL come GRPO per privilegiare output corretti con meno turni. Addestrato sul dataset MATH utilizzando modelli R1-Distill, MinD può raggiungere una riduzione fino a ~70% sia nell'uso dei token di output che nel tempo per il primo token (TTFT), mantenendo prestazioni competitive su benchmark di ragionamento come MATH-500, AIME24, AMC23 e GPQA-Diamond.
Le lunghe catene di ragionamento (CoT) migliorano significativamente le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, le tracce di ragionamento estese portano a inefficienze e a un aumento del tempo per il primo token (TTFT). Proponiamo un nuovo paradigma di addestramento che utilizza l'apprendimento per rinforzo (RL) per guidare i modelli di ragionamento a intervallare pensiero e risposta per domande multi-hop. Osserviamo che i modelli possiedono intrinsecamente la capacità di eseguire ragionamenti intervallati, che può essere ulteriormente potenziata attraverso l'RL. Introduciamo una ricompensa basata su regole semplice ma efficace per incentivare i passaggi intermedi corretti, che guida il modello di policy verso percorsi di ragionamento corretti sfruttando i segnali intermedi generati durante il ragionamento intervallato. Esperimenti estesi condotti su cinque dataset diversi e tre algoritmi di RL (PPO, GRPO e REINFORCE++) dimostrano miglioramenti consistenti rispetto al tradizionale ragionamento pensa-risposta, senza richiedere strumenti esterni. In particolare, il nostro approccio riduce il TTFT in media di oltre l'80% e migliora fino al 19,3% nell'accuratezza Pass@1. Inoltre, il nostro metodo, addestrato esclusivamente su dataset di risposta alle domande e ragionamento logico, mostra una forte capacità di generalizzazione su dataset di ragionamento complesso come MATH, GPQA e MMLU. In aggiunta, conduciamo un'analisi approfondita per rivelare diverse intuizioni preziose sulla modellazione condizionale delle ricompense.
La modellazione Visual Autoregressive (VAR) ha attirato notevole attenzione per il suo innovativo approccio di previsione a scala successiva, che porta a significativi miglioramenti in termini di efficienza, scalabilità e generalizzazione zero-shot. Tuttavia, la metodologia da grossolana a fine intrinseca nel VAR comporta una crescita esponenziale della cache KV durante l'inferenza, causando un notevole consumo di memoria e ridondanza computazionale. Per affrontare questi colli di bottiglia, introduciamo ScaleKV, un nuovo framework di compressione della cache KV progettato specificamente per le architetture VAR. ScaleKV sfrutta due osservazioni critiche: la variazione delle esigenze di cache tra i livelli del transformer e i distinti pattern di attenzione a diverse scale. Sulla base di queste intuizioni, ScaleKV classifica i livelli del transformer in due gruppi funzionali: drafters e refiners. I drafters mostrano un'attenzione dispersa su più scale, richiedendo quindi una maggiore capacità di cache. Al contrario, i refiners concentrano l'attenzione sulla mappa dei token corrente per elaborare i dettagli locali, necessitando di una capacità di cache sostanzialmente ridotta. ScaleKV ottimizza la pipeline di inferenza multi-scala identificando drafters e refiners specifici per ogni scala, facilitando una gestione differenziata della cache adattata a ciascuna scala. La valutazione sulla famiglia di modelli VAR text-to-image all'avanguardia, Infinity, dimostra che il nostro approccio riduce efficacemente la memoria richiesta per la cache KV al 10%, preservando la fedeltà a livello di pixel.
Il linguaggio parlato trasmette significato non solo attraverso le parole, ma anche tramite intonazione, emozione ed enfasi. L'accento di frase, ovvero l'enfasi posta su parole specifiche all'interno di una frase, è cruciale per comunicare l'intenzione del parlante ed è stato ampiamente studiato in linguistica. In questo lavoro, introduciamo WHISTRESS, un approccio senza allineamento per migliorare i sistemi di trascrizione con il rilevamento dell'accento di frase. Per supportare questo compito, proponiamo TINYSTRESS-15K, un insieme di dati di addestramento sintetico e scalabile per il rilevamento dell'accento di frase, generato attraverso un processo completamente automatizzato di creazione del dataset. Addestriamo WHISTRESS su TINYSTRESS-15K e lo valutiamo rispetto a diverse baseline competitive. I nostri risultati dimostrano che WHISTRESS supera i metodi esistenti senza richiedere input aggiuntivi durante l'addestramento o l'inferenza. In particolare, nonostante sia stato addestrato su dati sintetici, WHISTRESS mostra una forte generalizzazione zero-shot su diversi benchmark. Pagina del progetto: https://pages.cs.huji.ac.il/adiyoss-lab/whistress.
I modelli visione-linguaggio (VLMs) eccellono in molti compiti multimodali diretti, ma faticano a tradurre questa abilità in un processo decisionale efficace all'interno di ambienti interattivi e visivamente ricchi come i giochi. Questo "divario tra sapere e fare" limita significativamente il loro potenziale come agenti autonomi, poiché i principali VLMs spesso si comportano male in giochi semplici. Per affrontare questo problema, introduciamo VLM-Gym, un ambiente di apprendimento per rinforzo (RL) curato che presenta una varietà di giochi visivi con interfacce unificate e difficoltà componibile e regolabile, progettato specificamente per un addestramento parallelo scalabile su più giochi. Utilizzando VLM-Gym, addestriamo i modelli G0 attraverso un'auto-evoluzione guidata esclusivamente da RL, che dimostrano schemi emergenti di percezione e ragionamento. Per mitigare ulteriormente le sfide derivanti dalla diversità dei giochi, sviluppiamo i modelli G1. G1 incorpora un avvio a freddo potenziato dalla percezione prima del fine-tuning RL. I nostri modelli G1 risultanti superano costantemente il loro insegnante in tutti i giochi e superano i principali modelli proprietari come Claude-3.7-Sonnet-Thinking. Un'analisi sistematica rivela un risultato intrigante: le capacità di percezione e ragionamento si rafforzano reciprocamente durante il processo di addestramento RL. Il codice sorgente, inclusi VLM-Gym e l'addestramento RL, è rilasciato su https://github.com/chenllliang/G1 per promuovere future ricerche nel progresso dei VLMs come agenti interattivi capaci.
I recenti progressi negli agenti di intelligenza artificiale hanno dimostrato il loro crescente potenziale nel guidare e supportare la scoperta scientifica. In questo lavoro, presentiamo MLR-Bench, un benchmark completo per valutare gli agenti di IA nella ricerca aperta sul machine learning. MLR-Bench include tre componenti chiave: (1) 201 task di ricerca provenienti da workshop di NeurIPS, ICLR e ICML che coprono una vasta gamma di argomenti di ML; (2) MLR-Judge, un framework di valutazione automatizzato che combina revisori basati su LLM con rubriche di revisione progettate con cura per valutare la qualità della ricerca; e (3) MLR-Agent, un'impalcatura modulare per agenti in grado di completare task di ricerca attraverso quattro fasi: generazione di idee, formulazione di proposte, sperimentazione e scrittura di articoli. Il nostro framework supporta sia la valutazione graduale attraverso queste distinte fasi di ricerca, sia la valutazione end-to-end del documento di ricerca finale. Utilizziamo quindi MLR-Bench per valutare sei LLM all'avanguardia e un avanzato agente di codifica, riscontrando che, sebbene gli LLM siano efficaci nel generare idee coerenti e articoli ben strutturati, gli attuali agenti di codifica producono frequentemente (ad esempio, nell'80% dei casi) risultati sperimentali fabbricati o non validati, rappresentando un ostacolo significativo per l'affidabilità scientifica. Convalidiamo MLR-Judge attraverso una valutazione umana, mostrando un elevato accordo con revisori esperti, supportando il suo potenziale come strumento scalabile per la valutazione della ricerca. Rendiamo open-source MLR-Bench per aiutare la comunità a benchmarkare, diagnosticare e migliorare gli agenti di ricerca IA verso una scoperta scientifica affidabile e trasparente.
La distillazione data-centric, che include l'aumento, la selezione e la miscelazione dei dati, offre una strada promettente per creare modelli linguistici di grandi dimensioni (LLM) studente più piccoli ed efficienti che mantengono forti capacità di ragionamento. Tuttavia, manca ancora un benchmark completo per valutare sistematicamente l'effetto di ciascun approccio di distillazione. Questo articolo introduce DC-CoT, il primo benchmark data-centric che indaga la manipolazione dei dati nella distillazione a catena di pensiero (CoT) da prospettive metodologiche, modellistiche e dei dati. Utilizzando vari modelli insegnanti (ad esempio, o4-mini, Gemini-Pro, Claude-3.5) e architetture studente (ad esempio, 3B, 7B parametri), valutiamo rigorosamente l'impatto di queste manipolazioni dei dati sulle prestazioni del modello studente su più dataset di ragionamento, con un focus sulla generalizzazione in-distribuzione (IID) e out-of-distribuzione (OOD), e sul trasferimento cross-dominio. I nostri risultati mirano a fornire intuizioni pratiche e stabilire le migliori pratiche per ottimizzare la distillazione CoT attraverso tecniche data-centric, facilitando infine lo sviluppo di modelli di ragionamento più accessibili e capaci. Il dataset è disponibile all'indirizzo https://huggingface.co/datasets/rana-shahroz/DC-COT, mentre il nostro codice è condiviso su https://anonymous.4open.science/r/DC-COT-FF4C/.
Traendo vantaggio da encoder visivi addestrati in modo contrastivo su immagini su larga scala di scene naturali, i Large Multimodal Models (LMM) hanno ottenuto prestazioni notevoli in vari compiti di percezione visiva. Tuttavia, le limitazioni intrinseche dell'apprendimento contrastivo basato su descrizioni riassuntive limitano fondamentalmente le capacità dei modelli nel ragionamento meticoloso, in particolare negli scenari cruciali di risoluzione di problemi geometrici. Per migliorare la comprensione geometrica, proponiamo un nuovo framework di apprendimento contrastivo con negativi difficili per l'encoder visivo, che combina l'apprendimento contrastivo basato su immagini utilizzando negativi difficili generati perturbando il codice di generazione di diagrammi, e l'apprendimento contrastivo basato su testo utilizzando negativi basati su regole derivati da descrizioni geometriche modificate e negativi selezionati in base alla similarità delle didascalie. Addestriamo CLIP utilizzando il nostro metodo di apprendimento con negativi forti, denominato MMCLIP (Multimodal Math CLIP), e successivamente addestriamo un LMM per la risoluzione di problemi geometrici. Gli esperimenti dimostrano che il nostro modello addestrato, MMGeoLM, supera significativamente altri modelli open-source su tre benchmark di ragionamento geometrico. Anche con una dimensione di 7B, può rivaleggiare con potenti modelli closed-source come GPT-4o. Studiamo ulteriormente l'impatto di diversi metodi di costruzione dei campioni negativi e del numero di campioni negativi sulle prestazioni di ragionamento geometrico degli LMM, ottenendo conclusioni fruttuose. Il codice e il dataset sono disponibili all'indirizzo https://github.com/THU-KEG/MMGeoLM.
I recenti progressi nei modelli di generazione video hanno suscitato interesse verso modelli di mondo capaci di simulare ambienti realistici. Sebbene la navigazione sia stata ampiamente esplorata, le interazioni fisicamente significative che imitano le forze del mondo reale rimangono in gran parte poco studiate. In questo lavoro, indaghiamo l'uso delle forze fisiche come segnale di controllo per la generazione video e proponiamo i "force prompt", che consentono agli utenti di interagire con le immagini attraverso sia forze puntuali localizzate, come il toccare una pianta, sia campi di forza globali, come il vento che soffia su un tessuto. Dimostriamo che questi force prompt possono far sì che i video rispondano in modo realistico ai segnali di controllo fisici sfruttando il prior visivo e di movimento nel modello pre-addestrato originale, senza utilizzare alcun asset 3D o simulatore fisico durante l'inferenza. La principale sfida dei force prompt è la difficoltà di ottenere dati di addestramento di alta qualità accoppiati forza-video, sia nel mondo reale a causa della difficoltà di acquisire segnali di forza, sia nei dati sintetici a causa delle limitazioni nella qualità visiva e nella diversità di dominio dei simulatori fisici. La nostra scoperta chiave è che i modelli di generazione video possono generalizzare in modo sorprendente quando adattati a seguire il condizionamento delle forze fisiche da video sintetizzati con Blender, anche con dimostrazioni limitate di pochi oggetti. Il nostro metodo può generare video che simulano forze su geometrie, ambientazioni e materiali diversi. Cerchiamo anche di comprendere l'origine di questa generalizzazione e eseguiamo ablazioni che rivelano due elementi chiave: la diversità visiva e l'uso di specifiche parole chiave durante l'addestramento. Il nostro approccio viene addestrato su circa 15k esempi di addestramento per un solo giorno su quattro GPU A100 e supera i metodi esistenti in termini di aderenza alle forze e realismo fisico, avvicinando i modelli di mondo alle interazioni fisiche del mondo reale. Rilasciamo tutti i dataset, il codice, i pesi e le demo video interattive sulla nostra pagina del progetto.
Le crescenti esigenze computazionali dei grandi modelli linguistici (LLM) rendono sempre più cruciali strategie efficienti di inferenza e attivazione. Mentre approcci recenti, come il Mixture-of-Experts (MoE), sfruttano l'attivazione selettiva ma richiedono un addestramento specializzato, i metodi di attivazione sparsa senza addestramento offrono un'applicabilità più ampia e una superiore efficienza delle risorse grazie al loro design plug-and-play. Tuttavia, molti metodi esistenti si basano esclusivamente sulle magnitudini degli stati nascosti per determinare l'attivazione, risultando in elevati errori di approssimazione e in un'accuratezza di inferenza subottimale. Per affrontare queste limitazioni, proponiamo WINA (Weight Informed Neuron Activation), un nuovo, semplice e senza addestramento framework di attivazione sparsa che considera congiuntamente le magnitudini degli stati nascosti e le norme ell_2 colonna per colonna delle matrici dei pesi. Dimostriamo che ciò porta a una strategia di sparsificazione che ottiene limiti di errore di approssimazione ottimali con garanzie teoriche più stringenti rispetto alle tecniche esistenti. Empiricamente, WINA supera anche i metodi all'avanguardia (ad esempio, TEAL) fino al 2,94% in termini di prestazioni medie agli stessi livelli di sparsità, su un insieme diversificato di architetture di LLM e dataset. Questi risultati posizionano WINA come una nuova frontiera delle prestazioni per l'attivazione sparsa senza addestramento nell'inferenza di LLM, avanzando i metodi di attivazione sparsa senza addestramento e stabilendo una solida baseline per un'inferenza efficiente. Il codice sorgente è disponibile all'indirizzo https://github.com/microsoft/wina.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno dimostrato capacità notevoli in una vasta gamma di compiti, ma rimangono significativamente indietro rispetto agli esseri umani nel ragionamento spaziale. Investigiamo questo divario attraverso il Ragionamento Visivo Guidato da Trasformazioni (TVR), un compito impegnativo che richiede l'identificazione delle trasformazioni degli oggetti tra immagini con punti di vista variabili. Mentre il Fine-Tuning Supervisionato (SFT) tradizionale non riesce a generare percorsi di ragionamento coerenti in contesti cross-view, il Reinforcement Learning (RL) con ricompensa sparsa soffre di esplorazione inefficiente e convergenza lenta. Per affrontare queste limitazioni, proponiamo STAR-R1, un nuovo framework che integra un paradigma RL a stadio singolo con un meccanismo di ricompensa fine-tuned specifico per il TVR. Nello specifico, STAR-R1 premia la correttezza parziale mentre penalizza l'enumerazione eccessiva e l'inazione passiva, consentendo un'esplorazione efficiente e un ragionamento preciso. Valutazioni complete dimostrano che STAR-R1 raggiunge prestazioni all'avanguardia in tutti gli 11 metrici, superando il SFT del 23% negli scenari cross-view. Un'ulteriore analisi rivela il comportamento antropomorfo di STAR-R1 e mette in luce la sua capacità unica di confrontare tutti gli oggetti per migliorare il ragionamento spaziale. Il nostro lavoro fornisce intuizioni critiche per avanzare la ricerca sugli MLLMs e i modelli di ragionamento. I codici, i pesi del modello e i dati saranno pubblicamente disponibili su https://github.com/zongzhao23/STAR-R1.
Questo articolo presenta InfantAgent-Next, un agente generalista in grado di interagire con i computer in modo multimodale, comprendendo testo, immagini, audio e video. A differenza degli approcci esistenti che costruiscono flussi di lavoro complessi attorno a un singolo modello di grandi dimensioni o offrono solo modularità nei flussi di lavoro, il nostro agente integra agenti basati su strumenti e agenti puramente visivi all'interno di un'architettura altamente modulare, consentendo a diversi modelli di risolvere in modo collaborativo compiti scomposti passo dopo passo. La nostra generalità è dimostrata dalla capacità di valutare non solo benchmark del mondo reale basati esclusivamente sulla visione (ad esempio, OSWorld), ma anche benchmark più generali o intensivi in termini di strumenti (ad esempio, GAIA e SWE-Bench). In particolare, raggiungiamo un'accuratezza del 7,27% su OSWorld, superiore a quella di Claude-Computer-Use. I codici e gli script di valutazione sono open-source all'indirizzo https://github.com/bin123apple/InfantAgent.
I recenti progressi nel campo del Riconoscimento Automatico del Parlato (ASR) sono stati in gran parte alimentati da enormi corpora di dati vocali. Tuttavia, estendere la copertura a lingue diverse con risorse limitate rimane una sfida formidabile. Questo articolo introduce il Speech Back-Translation, una pipeline scalabile che migliora i modelli ASR multilingue convertendo grandi corpora di testo in sintesi vocale tramite modelli text-to-speech (TTS) già disponibili. Dimostriamo che bastano poche decine di ore di discorso reale trascritto per addestrare efficacemente modelli TTS a generare sintesi vocale con un volume centinaia di volte superiore rispetto all'originale, mantenendo un'elevata qualità. Per valutare la qualità della sintesi vocale, sviluppiamo un framework di valutazione basato sull'intelligibilità e stabiliamo soglie chiare per determinare quando i dati sintetici sono utili per l'addestramento ASR. Utilizzando il Speech Back-Translation, generiamo oltre 500.000 ore di sintesi vocale in dieci lingue e continuiamo il pre-addestramento di Whisper-large-v3, ottenendo riduzioni medie degli errori di trascrizione superiori al 30%. Questi risultati evidenziano la scalabilità e l'efficacia del Speech Back-Translation per potenziare i sistemi ASR multilingue.
Sebbene i Modelli di Diffusione Mascherata (MDM), come LLaDA, rappresentino un paradigma promettente per la modellazione del linguaggio, sono stati fatti relativamente pochi sforzi per allineare questi modelli alle preferenze umane tramite apprendimento per rinforzo. La sfida principale deriva dall'elevata varianza nelle stime di verosimiglianza basate sull'Evidence Lower Bound (ELBO) necessarie per l'ottimizzazione delle preferenze. Per affrontare questo problema, proponiamo l'Ottimizzazione delle Preferenze con Riduzione della Varianza (VRPO), un framework che analizza formalmente la varianza degli stimatori ELBO e deriva limiti sia sul bias che sulla varianza dei gradienti di ottimizzazione delle preferenze. Basandoci su queste fondamenta teoriche, introduciamo strategie di riduzione della varianza imparziali, tra cui l'allocazione ottimale del budget Monte Carlo e il campionamento antitetico, che migliorano significativamente le prestazioni dell'allineamento degli MDM. Dimostriamo l'efficacia di VRPO applicandolo a LLaDA, e il modello risultante, LLaDA 1.5, supera costantemente e significativamente il suo predecessore basato solo su SFT in ambito matematico (GSM8K +4.7), di programmazione (HumanEval +3.0, MBPP +1.8) e di allineamento (IFEval +4.0, Arena-Hard +4.3). Inoltre, LLaDA 1.5 dimostra una prestazione matematica altamente competitiva rispetto a potenti MDM e ARM linguistici. Pagina del progetto: https://ml-gsai.github.io/LLaDA-1.5-Demo/.
I modelli di base stanno diventando sempre più abili come programmatori autonomi, sollevando la prospettiva che possano automatizzare anche operazioni offensive pericolose nel cyberspazio. Le attuali valutazioni dei modelli all'avanguardia esaminano i rischi legati alla cybersecurity di tali agenti, ma la maggior parte non tiene conto dei gradi di libertà disponibili per gli avversari nel mondo reale. In particolare, con verificatori robusti e incentivi finanziari, gli agenti dedicati alla cybersecurity offensiva sono suscettibili di miglioramenti iterativi da parte di potenziali avversari. Sosteniamo che le valutazioni dovrebbero considerare un modello di minaccia ampliato nel contesto della cybersecurity, enfatizzando i diversi gradi di libertà che un avversario potrebbe possedere in ambienti con e senza stato, all'interno di un budget di calcolo fisso. Dimostriamo che, anche con un budget di calcolo relativamente ridotto (8 ore di GPU H100 nel nostro studio), gli avversari possono migliorare le capacità di cybersecurity di un agente su InterCode CTF di oltre il 40% rispetto al baseline — senza alcun aiuto esterno. Questi risultati evidenziano la necessità di valutare il rischio di cybersecurity degli agenti in modo dinamico, offrendo una rappresentazione più accurata del rischio.
I grandi modelli linguistici eccellono nel riconoscimento di pattern, ma spesso non riescono a generalizzare in modo sistematico e composizionale. Proponiamo il principio di copertura: un framework centrato sui dati che dimostra come i modelli che si basano principalmente sul riconoscimento di pattern per compiti composizionali non possano generalizzare in modo affidabile oltre la sostituzione di frammenti che producono risultati identici quando utilizzati negli stessi contesti. Dimostriamo che questo framework ha un forte potere predittivo per le capacità di generalizzazione dei Transformer. In primo luogo, deriviamo e confermiamo empiricamente che i dati di addestramento necessari per la generalizzazione a due salti crescono almeno quadraticamente con la dimensione del set di token, e l'efficienza dei dati di addestramento non migliora con un aumento di 20 volte dei parametri. In secondo luogo, per compiti composizionali con ambiguità di percorso, in cui una variabile influisce sull'output attraverso più percorsi computazionali, mostriamo che i Transformer apprendono rappresentazioni di stato dipendenti dal contesto che compromettono sia le prestazioni che l'interoperabilità. In terzo luogo, la supervisione Chain-of-Thought migliora l'efficienza dei dati di addestramento per compiti multi-salto, ma continua a lottare con l'ambiguità di percorso. Infine, delineiamo una tassonomia basata su meccanismi che distingue tre modi in cui le reti neurali possono generalizzare: basata sulla struttura (limitata dalla copertura), basata sulle proprietà (sfruttando invarianze algebriche) e condivisa-operatore (attraverso il riutilizzo di funzioni). Questa lente concettuale contestualizza i nostri risultati e evidenzia dove sono necessarie nuove idee architetturali per raggiungere una composizionalità sistematica. Nel complesso, il principio di copertura fornisce una prospettiva unificata per comprendere il ragionamento composizionale e sottolinea la necessità di innovazioni fondamentali nell'architettura o nell'addestramento per raggiungere una vera composizionalità sistematica.
Gli attacchi di inferenza di appartenenza (MIAs) allo stato dell'arte richiedono tipicamente l'addestramento di molti modelli di riferimento, rendendo difficile scalare questi attacchi a grandi modelli linguistici pre-addestrati (LLMs). Di conseguenza, le ricerche precedenti si sono basate su attacchi più deboli che evitano di addestrare modelli di riferimento (ad esempio, attacchi di fine-tuning) o su attacchi più forti applicati a modelli e dataset di piccole dimensioni. Tuttavia, è stato dimostrato che gli attacchi più deboli sono fragili, ottenendo un successo quasi arbitrario, e le intuizioni provenienti da attacchi forti in contesti semplificati non si traducono negli LLM odierni. Queste sfide hanno sollevato una domanda importante: le limitazioni osservate nei lavori precedenti sono dovute a scelte progettuali degli attacchi o i MIAs sono fondamentalmente inefficaci sugli LLM? Affrontiamo questa questione scalando LiRA, uno dei MIAs più potenti, alle architetture GPT-2 che vanno da 10M a 1B di parametri, addestrando modelli di riferimento su oltre 20B di token del dataset C4. I nostri risultati avanzano la comprensione dei MIAs sugli LLM in tre modi chiave: (1) i MIAs forti possono avere successo sugli LLM pre-addestrati; (2) la loro efficacia, tuttavia, rimane limitata (ad esempio, AUC<0.7) in contesti pratici; e (3) la relazione tra il successo dei MIAs e le metriche di privacy correlate non è così diretta come suggerito dai lavori precedenti.
L'Apprendimento per Rinforzo Tradizionale dal Feedback Umano (RLHF) si basa spesso su modelli di ricompensa, assumendo frequentemente strutture di preferenza come il modello Bradley-Terry, che potrebbero non catturare accuratamente le complessità delle preferenze umane reali (ad esempio, l'intransitività). L'Apprendimento Nash dal Feedback Umano (NLHF) offre un'alternativa più diretta inquadrando il problema come la ricerca di un equilibrio di Nash in un gioco definito da queste preferenze. In questo lavoro, introduciamo Nash Mirror Prox (Nash-MP), un algoritmo NLHF online che sfrutta lo schema di ottimizzazione Mirror Prox per ottenere una convergenza rapida e stabile verso l'equilibrio di Nash. La nostra analisi teorica stabilisce che Nash-MP mostra una convergenza lineare all'ultima iterazione verso l'equilibrio di Nash beta-regolarizzato. In particolare, dimostriamo che la divergenza KL rispetto alla politica ottimale diminuisce a un tasso dell'ordine (1+2beta)^{-N/2}, dove N è il numero di query di preferenza. Inoltre, dimostriamo una convergenza lineare all'ultima iterazione per il gap di sfruttabilità e uniformemente per la semi-norma dello span delle probabilità logaritmiche, con tutti questi tassi indipendenti dalla dimensione dello spazio delle azioni. Inoltre, proponiamo e analizziamo una versione approssimata di Nash-MP in cui i passi prossimali sono stimati utilizzando gradienti stocastici delle politiche, avvicinando l'algoritmo alle applicazioni pratiche. Infine, dettagliamo una strategia di implementazione pratica per il fine-tuning di grandi modelli linguistici e presentiamo esperimenti che ne dimostrano le prestazioni competitive e la compatibilità con i metodi esistenti.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno introdotto il ragionamento latente come una promettente alternativa al ragionamento autoregressivo. Eseguendo calcoli interni con stati nascosti provenienti da passaggi precedenti, il ragionamento latente beneficia di caratteristiche più informative rispetto al campionamento di un percorso discreto di catena di pensiero (CoT). Tuttavia, gli approcci di ragionamento latente sono spesso incompatibili con gli LLM, poiché il loro paradigma continuo entra in conflitto con la natura discreta della generazione autoregressiva. Inoltre, questi metodi si basano su tracce CoT per l'addestramento e quindi non riescono a sfruttare i modelli di ragionamento intrinseci degli LLM. In questo lavoro, esploriamo il ragionamento latente sfruttando le capacità intrinseche degli LLM tramite l'apprendimento per rinforzo (RL). A tal fine, introduciamo l'ottimizzazione della politica di ragionamento ibrido (HRPO), un approccio di ragionamento latente ibrido basato su RL che (1) integra stati nascosti precedenti in token campionati con un meccanismo di gate apprendibile e (2) inizializza l'addestramento con principalmente incorporamenti di token mentre incorpora progressivamente più caratteristiche nascoste. Questo design mantiene le capacità generative degli LLM e incentiva il ragionamento ibrido utilizzando sia rappresentazioni discrete che continue. Inoltre, l'HRPO ibrido introduce stocasticità nel ragionamento latente tramite il campionamento di token, consentendo così l'ottimizzazione basata su RL senza richiedere traiettorie CoT. Valutazioni estensive su diversi benchmark mostrano che l'HRPO supera i metodi precedenti sia in compiti basati sulla conoscenza che in quelli intensivi di ragionamento. Inoltre, gli LLM addestrati con HRPO rimangono interpretabili e mostrano comportamenti interessanti come modelli cross-linguistici e lunghezze di completamento più brevi, evidenziando il potenziale del nostro approccio basato su RL e offrendo spunti per futuri lavori sul ragionamento latente.
L'apprendimento per rinforzo mostra potenziale nel migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni, ma risulta difficile da scalare a causa della bassa efficienza campionaria durante la fase di rollout. I metodi esistenti cercano di migliorare l'efficienza pianificando i problemi in base alla loro difficoltà. Tuttavia, questi approcci soffrono di stime instabili e distorte della difficoltà dei problemi e non riescono a catturare l'allineamento tra la competenza del modello e la difficoltà del problema durante l'addestramento RL, portando a risultati subottimali. Per affrontare queste limitazioni, questo articolo introduce il Campionamento Allineato Competenza-Difficoltà (CDAS), che consente una stima accurata e stabile della difficoltà dei problemi aggregando le discrepanze di prestazione storiche dei problemi. La competenza del modello viene quindi quantificata per selezionare in modo adattivo i problemi la cui difficoltà è allineata con la competenza attuale del modello utilizzando un sistema a punto fisso. I risultati sperimentali su una gamma di benchmark matematici impegnativi mostrano che CDAS ottiene notevoli miglioramenti sia in termini di accuratezza che di efficienza. CDAS raggiunge la più alta accuratezza media rispetto ai metodi di riferimento e mostra significativi vantaggi in termini di velocità rispetto al Campionamento Dinamico, una strategia competitiva in DAPO, che è 2,33 volte più lento di CDAS.
Con il crescente successo dei modelli di ragionamento in compiti complessi di linguaggio naturale, i ricercatori della comunità di Information Retrieval (IR) hanno iniziato a esplorare come capacità di ragionamento simili possano essere integrate nei sistemi di riordinamento di passaggi basati su Large Language Models (LLM). Questi metodi impiegano tipicamente un LLM per produrre un processo di ragionamento esplicito e passo-passo prima di arrivare a una previsione finale di rilevanza. Ma il ragionamento migliora effettivamente l'accuratezza del riordinamento? In questo articolo, approfondiamo questa domanda, studiando l'impatto del processo di ragionamento confrontando i sistemi di riordinamento pointwise basati su ragionamento (ReasonRR) con i sistemi pointwise standard senza ragionamento (StandardRR) in condizioni di addestramento identiche, e osserviamo che StandardRR generalmente supera ReasonRR. Sulla base di questa osservazione, studiamo poi l'importanza del ragionamento per ReasonRR disabilitando il suo processo di ragionamento (ReasonRR-NoReason), e scopriamo che ReasonRR-NoReason è sorprendentemente più efficace di ReasonRR. Esaminando la causa di questo risultato, le nostre scoperte rivelano che i sistemi di riordinamento basati su ragionamento sono limitati dal processo di ragionamento dell'LLM, che lo spinge verso punteggi di rilevanza polarizzati e quindi non riesce a considerare la rilevanza parziale dei passaggi, un fattore chiave per l'accuratezza dei sistemi di riordinamento pointwise.
Gli Autoencoder Sparse (SAE) sono uno strumento prominente nell'interpretabilità meccanicistica (MI) per scomporre le attivazioni delle reti neurali in caratteristiche interpretabili. Tuttavia, l'aspirazione di identificare un insieme canonico di caratteristiche è messa in discussione dall'inconsistenza osservata delle caratteristiche apprese dagli SAE in diverse esecuzioni di addestramento, minando l'affidabilità e l'efficienza della ricerca in MI. Questo position paper sostiene che l'interpretabilità meccanicistica dovrebbe dare priorità alla consistenza delle caratteristiche negli SAE — la convergenza affidabile verso insiemi di caratteristiche equivalenti in esecuzioni indipendenti. Proponiamo di utilizzare il Coefficiente di Correlazione Media Pairwise dei Dizionari (PW-MCC) come metrica pratica per operazionalizzare la consistenza e dimostriamo che è possibile raggiungere livelli elevati (0,80 per TopK SAE sulle attivazioni di LLM) con scelte architetturali appropriate. I nostri contributi includono: dettagliare i vantaggi di dare priorità alla consistenza; fornire un fondamento teorico e una validazione sintetica utilizzando un organismo modello, che verifica il PW-MCC come un proxy affidabile per il recupero della verità di base; e estendere questi risultati a dati reali di LLM, dove un'elevata consistenza delle caratteristiche è fortemente correlata con la similarità semantica delle spiegazioni delle caratteristiche apprese. Invitiamo a un cambiamento a livello di comunità verso la misurazione sistematica della consistenza delle caratteristiche per favorire un progresso cumulativo robusto in MI.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato eccellenti capacità nel campo del rispondere a domande biomediche, ma la loro applicazione nelle consultazioni cliniche reali affronta ancora sfide fondamentali. I sistemi esistenti si basano su una modalità di trasmissione unidirezionale delle informazioni in cui i pazienti devono descrivere completamente i loro sintomi in un unico turno, portando a raccomandazioni diagnostiche non specifiche quando i reclami sono vaghi. I metodi tradizionali di dialogo multi-turn basati sull'apprendimento supervisionato sono limitati da paradigmi statici guidati dai dati, mancando di generalizzabilità e faticando a estrarre in modo intelligente le informazioni cliniche chiave. Per affrontare queste limitazioni, proponiamo DoctorAgent-RL, un framework collaborativo multi-agente basato sull'apprendimento per rinforzo (RL) che modella le consultazioni mediche come un processo decisionale dinamico in condizioni di incertezza. L'agente medico ottimizza continuamente la sua strategia di interrogazione all'interno del framework RL attraverso interazioni multi-turn con l'agente paziente, adattando dinamicamente il suo percorso di raccolta delle informazioni basandosi sulle ricompense complete del Valutatore della Consultazione. Questo meccanismo di fine-tuning RL consente agli LLM di sviluppare autonomamente strategie di interazione allineate con la logica del ragionamento clinico, piuttosto che imitare superficialmente i modelli nei dati di dialogo esistenti. In particolare, abbiamo costruito MTMedDialog, il primo dataset inglese di consultazione medica multi-turn in grado di simulare interazioni con i pazienti. Gli esperimenti dimostrano che DoctorAgent-RL supera i modelli esistenti sia nella capacità di ragionamento multi-turn che nelle prestazioni diagnostiche finali, dimostrando un valore pratico nell'assistenza alle consultazioni cliniche. https://github.com/JarvisUSTC/DoctorAgent-RL
I modelli linguistici di grandi dimensioni (LLM) sono tipicamente allineati per conformarsi alle linee guida di sicurezza rifiutando istruzioni dannose. Un recente attacco, denominato abliterazione, isola e sopprime la singola direzione latente maggiormente responsabile del comportamento di rifiuto, consentendo al modello di generare contenuti non etici. Proponiamo una difesa che modifica il modo in cui i modelli generano i rifiuti. Costruiamo un dataset di rifiuti estesi che contiene prompt dannosi con una risposta completa che giustifica il motivo del rifiuto. Successivamente, ottimizziamo Llama-2-7B-Chat e Qwen2.5-Instruct (1,5B e 3B parametri) sul nostro dataset di rifiuti estesi e valutiamo i sistemi risultanti su un insieme di prompt dannosi. Nei nostri esperimenti, i modelli con rifiuti estesi mantengono alti tassi di rifiuto, diminuendo al massimo del 10%, mentre i tassi di rifiuto dei modelli di base diminuiscono del 70-80% dopo l'abliterazione. Una valutazione ampia della sicurezza e dell'utilità dimostra che l'ottimizzazione con rifiuti estesi neutralizza l'attacco di abliterazione preservando le prestazioni generali.
La mappatura attiva generalizzabile in ambienti complessi e sconosciuti rimane una sfida cruciale per i robot mobili. I metodi esistenti, limitati da dati di addestramento insufficienti e strategie di esplorazione conservative, mostrano una generalizzabilità limitata in scenari con layout diversificati e connettività complessa. Per abilitare un addestramento scalabile e una valutazione affidabile, introduciamo GLEAM-Bench, il primo benchmark su larga scala progettato per la mappatura attiva generalizzabile, con 1.152 scene 3D diverse provenienti da dataset sintetici e di scansioni reali. Sulla base di questa fondazione, proponiamo GLEAM, una politica di esplorazione generalizzabile unificata per la mappatura attiva. La sua superiore generalizzabilità deriva principalmente dalle nostre rappresentazioni semantiche, obiettivi navigabili a lungo termine e strategie randomizzate. GLEAM supera significativamente i metodi all'avanguardia, raggiungendo una copertura del 66,50% (+9,49%) con traiettorie efficienti e una migliore accuratezza di mappatura su 128 scene complesse non viste. Pagina del progetto: https://xiao-chen.tech/gleam/.
L'Apprendimento per Rinforzo (Reinforcement Learning, RL) ha svolto un ruolo centrale nel recente incremento delle capacità matematiche dei Modelli Linguistici di Grande Dimensione (LLMs), consentendo l'auto-miglioramento attraverso segnali binari di verifica. Al contrario, l'Apprendimento Supervisionato (Supervised Learning, SL) è raramente considerato per questo tipo di formazione basata sulla verifica, principalmente a causa della sua forte dipendenza da risposte di riferimento e dell'incapacità di riflettere sugli errori. In questo lavoro, mettiamo in discussione l'idea prevalente che l'auto-miglioramento sia esclusivo dell'RL e proponiamo il Fine-Tuning Consapevole del Negativo (Negative-aware Fine-Tuning, NFT) — un approccio supervisionato che consente agli LLMs di riflettere sui propri fallimenti e migliorare autonomamente senza insegnanti esterni. Nella formazione online, invece di scartare le risposte negative auto-generate, l'NFT costruisce una politica negativa implicita per modellarle. Questa politica implicita è parametrizzata con lo stesso LLM positivo che miriamo a ottimizzare sui dati positivi, consentendo l'ottimizzazione diretta della politica su tutte le generazioni degli LLMs. Abbiamo condotto esperimenti su modelli da 7B e 32B in compiti di ragionamento matematico. I risultati mostrano costantemente che, attraverso il vantaggio aggiuntivo del feedback negativo, l'NFT migliora significativamente rispetto ai baselines di SL come il Fine-Tuning con Campionamento di Rifiuto, eguagliando o addirittura superando algoritmi di RL leader come GRPO e DAPO. Inoltre, dimostriamo che l'NFT e il GRPO sono effettivamente equivalenti in una formazione strettamente on-policy, nonostante abbiano origini teoriche completamente diverse. I nostri esperimenti e risultati teorici colmano il divario tra i metodi di SL e RL nei sistemi di apprendimento con feedback binario.
I Large Language Model (LLM) sono inclini all'allucinazione, specialmente durante compiti multi-hop e ad alta intensità di ragionamento come la risoluzione di problemi matematici. Mentre i modelli di ricompensa basati sul risultato verificano solo le risposte finali, i Process Reward Model (PRM) valutano ogni passaggio intermedio per orientare la generazione verso soluzioni coerenti. Introduciamo PathFinder-PRM, un nuovo PRM discriminativo gerarchico e consapevole degli errori che prima classifica gli errori matematici e di coerenza a ogni passaggio, poi combina questi segnali granulari per stimare la correttezza del passaggio. Per addestrare PathFinder-PRM, abbiamo costruito un dataset di 400K campioni arricchendo il corpus PRM800K annotato manualmente e le tracce RLHFlow Mistral con etichette tridimensionali a livello di passaggio. Su PRMBench, PathFinder-PRM raggiunge un nuovo stato dell'arte con un PRMScore di 67.7, superando il precedente miglior risultato (65.5) utilizzando 3 volte meno dati. Quando applicato alla ricerca greedy guidata dalla ricompensa, il nostro modello ottiene un prm@8 di 48.3, un miglioramento di +1.5 punti rispetto al baseline più forte. Questi risultati dimostrano che il rilevamento degli errori e la stima della ricompensa disaccoppiati non solo potenziano il rilevamento granulare degli errori, ma migliorano sostanzialmente il ragionamento matematico end-to-end guidato dalla ricompensa con una maggiore efficienza dei dati.
Per quasi un decennio, la comunità accademica ha investigato le backdoor nelle reti neurali, concentrandosi principalmente sui task di classificazione in cui gli avversari manipolano le previsioni del modello. Sebbene chiaramente maliziose, l'impatto immediato nel mondo reale di tali attacchi che alterano le previsioni è rimasto poco chiaro. In questo articolo introduciamo una nuova e significativamente più potente classe di backdoor che si basa sui recenti progressi nelle backdoor architetturali. Dimostriamo come queste backdoor possano essere specificamente progettate per sfruttare l'inferenza in batch, una tecnica comune per l'utilizzo dell'hardware, consentendo la manipolazione e il furto su larga scala dei dati degli utenti. Mirando al processo di batching, queste backdoor architetturali facilitano la fuoriuscita di informazioni tra richieste concorrenti degli utenti e permettono agli attaccanti di controllare completamente le risposte del modello dirette ad altri utenti all'interno dello stesso batch. In altre parole, un attaccante che può modificare l'architettura del modello può impostare e rubare gli input e gli output del modello di altri utenti all'interno dello stesso batch. Mostriamo che tali attacchi non sono solo fattibili ma anche allarmantemente efficaci, possono essere facilmente iniettati in architetture di modelli prevalenti e rappresentano una minaccia veramente maliziosa per la privacy degli utenti e l'integrità del sistema. In modo cruciale, per contrastare questa nuova classe di vulnerabilità, proponiamo una strategia di mitigazione deterministica che fornisce garanzie formali contro questo nuovo vettore di attacco, a differenza del lavoro precedente che si basava sui Large Language Model per trovare le backdoor. La nostra strategia di mitigazione impiega un nuovo meccanismo di Controllo del Flusso di Informazioni che analizza il grafo del modello e dimostra la non interferenza tra diversi input degli utenti all'interno dello stesso batch. Utilizzando la nostra strategia di mitigazione, eseguiamo un'analisi su larga scala dei modelli ospitati su Hugging Face e troviamo oltre 200 modelli che introducono (involontariamente) una fuoriuscita di informazioni tra le voci del batch a causa dell'uso della quantizzazione dinamica.
Il post-training ha dimostrato la sua importanza nel potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). I principali metodi di post-training possono essere categorizzati in fine-tuning supervisionato (SFT) e fine-tuning con rinforzo (RFT). L'SFT è efficiente e ben adatto per modelli linguistici di piccole dimensioni, ma può portare a overfitting e limitare le capacità di ragionamento dei modelli più grandi. Al contrario, l'RFT generalmente offre una migliore generalizzazione, ma dipende fortemente dalla forza del modello di base. Per affrontare i limiti di SFT e RFT, proponiamo il Unified Fine-Tuning (UFT), un nuovo paradigma di post-training che unisce SFT e RFT in un unico processo integrato. L'UFT consente al modello di esplorare efficacemente le soluzioni incorporando segnali di supervisione informativi, colmando il divario tra memorizzazione e pensiero sottostante ai metodi esistenti. In particolare, l'UFT supera sia SFT che RFT in generale, indipendentemente dalle dimensioni del modello. Inoltre, dimostriamo teoricamente che l'UFT supera il collo di bottiglia intrinseco della complessità esponenziale del campionamento dell'RFT, mostrando per la prima volta che l'addestramento unificato può accelerare esponenzialmente la convergenza su compiti di ragionamento a lungo termine.
I Large Language Model (LLM) eccellono nel ragionamento complesso attraverso algoritmi di ricerca, ma le strategie attuali spesso soffrono di un enorme consumo di token a causa dell'esplorazione ridondante di passaggi semanticamente equivalenti. I metodi esistenti di similarità semantica faticano a identificare con precisione tale equivalenza in contesti specifici come il ragionamento matematico. Per affrontare questo problema, proponiamo EquivPruner, un approccio semplice ma efficace che identifica e pota le azioni semanticamente equivalenti durante la ricerca di ragionamento nei LLM. Introduciamo inoltre MathEquiv, il primo dataset da noi creato per l'equivalenza di enunciati matematici, che consente l'addestramento di un rilevatore di equivalenza leggero. Esperimenti estesi su vari modelli e compiti dimostrano che EquivPruner riduce significativamente il consumo di token, migliorando l'efficienza della ricerca e spesso aumentando l'accuratezza del ragionamento. Ad esempio, applicato a Qwen2.5-Math-7B-Instruct su GSM8K, EquivPruner ha ridotto il consumo di token del 48,1\% migliorando anche l'accuratezza. Il nostro codice è disponibile all'indirizzo https://github.com/Lolo1222/EquivPruner.
Con i progressi nei grandi modelli audio-linguistici (LALMs), che potenziano i grandi modelli linguistici (LLMs) con capacità uditive, si prevede che questi modelli dimostrino una competenza universale in vari compiti uditivi. Sebbene siano emersi numerosi benchmark per valutare le prestazioni dei LALMs, essi rimangono frammentati e privi di una tassonomia strutturata. Per colmare questa lacuna, conduciamo un'indagine completa e proponiamo una tassonomia sistematica per le valutazioni dei LALMs, categorizzandole in quattro dimensioni basate sui loro obiettivi: (1) Consapevolezza e Elaborazione Uditiva Generale, (2) Conoscenza e Ragionamento, (3) Abilità Orientata al Dialogo, e (4) Equità, Sicurezza e Affidabilità. Forniamo panoramiche dettagliate all'interno di ciascuna categoria e evidenziamo le sfide in questo campo, offrendo spunti su promettenti direzioni future. Per quanto ne sappiamo, questa è la prima indagine specificamente focalizzata sulle valutazioni dei LALMs, fornendo linee guida chiare per la comunità. Rilasceremo la raccolta dei documenti esaminati e la manterremo attivamente per supportare i progressi in corso nel campo.
Un numero crescente di modelli autoregressivi, come MAR, FlowAR, xAR e Harmon, adotta il campionamento basato su diffusione per migliorare la qualità della generazione di immagini. Tuttavia, questa strategia comporta una bassa efficienza nell'inferenza, poiché di solito sono necessari da 50 a 100 passaggi per campionare un token attraverso la diffusione. Questo articolo esplora come affrontare efficacemente questo problema. La nostra motivazione chiave è che, man mano che vengono generati più token durante il processo autoregressivo, i token successivi seguono distribuzioni più vincolate e sono più facili da campionare. Per spiegarlo in modo intuitivo, se un modello ha generato parte di un cane, i token rimanenti devono completare il cane e sono quindi più vincolati. Le evidenze empiriche supportano la nostra motivazione: nelle fasi successive della generazione, i token successivi possono essere ben predetti da un perceptron multistrato, mostrano una bassa varianza e seguono percorsi di denoising più vicini a linee rette dal rumore ai token. Sulla base di questa scoperta, introduciamo il metodo di annealing dei passaggi di diffusione (DiSA), un approccio senza necessità di addestramento che utilizza gradualmente meno passaggi di diffusione man mano che vengono generati più token, ad esempio utilizzando 50 passaggi all'inizio e riducendoli gradualmente a 5 passaggi nelle fasi successive. Poiché DiSA deriva dalla nostra scoperta specifica per la diffusione nei modelli autoregressivi, è complementare ai metodi di accelerazione esistenti progettati esclusivamente per la diffusione. DiSA può essere implementato con poche righe di codice sui modelli esistenti e, sebbene semplice, consente un'inferenza da 5 a 10 volte più veloce per MAR e Harmon e da 1,4 a 2,5 volte più veloce per FlowAR e xAR, mantenendo la qualità della generazione.
La quantificazione dell'incertezza è essenziale per valutare l'affidabilità e la fiducia nei moderni sistemi di intelligenza artificiale. Tra gli approcci esistenti, l'incertezza verbalizzata, in cui i modelli esprimono la propria confidenza attraverso il linguaggio naturale, è emersa come una soluzione leggera e interpretabile nei grandi modelli linguistici (LLM). Tuttavia, la sua efficacia nei modelli visione-linguaggio (VLM) rimane insufficientemente studiata. In questo lavoro, conduciamo una valutazione completa della confidenza verbalizzata nei VLM, abbracciando tre categorie di modelli, quattro domini di attività e tre scenari di valutazione. I nostri risultati mostrano che gli attuali VLM spesso presentano una notevole scorretta calibrazione in diverse attività e contesti. In particolare, i modelli di ragionamento visivo (cioè, pensare con le immagini) mostrano costantemente una migliore calibrazione, suggerendo che il ragionamento specifico per modalità è cruciale per una stima affidabile dell'incertezza. Per affrontare ulteriormente le sfide di calibrazione, introduciamo il Visual Confidence-Aware Prompting, una strategia di prompting in due fasi che migliora l'allineamento della confidenza in contesti multimodali. Nel complesso, il nostro studio evidenzia la scorretta calibrazione intrinseca nei VLM attraverso le modalità. Più in generale, i nostri risultati sottolineano l'importanza fondamentale dell'allineamento delle modalità e della fedeltà del modello nel progredire verso sistemi multimodali affidabili.
I recenti modelli linguistici di grandi dimensioni come Gemini-1.5, DeepSeek-V3 e Llama-4 adottano sempre più architetture Mixture-of-Experts (MoE), che offrono un ottimo compromesso tra efficienza e prestazioni attivando solo una frazione del modello per token. Tuttavia, i ricercatori accademici mancano ancora di una piattaforma MoE completamente aperta e end-to-end per investigare il ridimensionamento, il routing e il comportamento degli esperti. Rilasciamo FLAME-MoE, una suite di ricerca completamente open-source composta da sette modelli decoder-only, che vanno da 38M a 1.7B parametri attivi, la cui architettura—64 esperti con top-8 gating e 2 esperti condivisi—riflette da vicino i moderni LLM di produzione. Tutte le pipeline di dati di addestramento, script, log e checkpoint sono pubblicamente disponibili per consentire esperimenti riproducibili. In sei task di valutazione, FLAME-MoE migliora l'accuratezza media fino a 3,4 punti rispetto ai baseline densi addestrati con lo stesso numero di FLOP. Sfruttando la completa trasparenza delle tracce di addestramento, presentiamo analisi iniziali che mostrano che (i) gli esperti si specializzano sempre più su sottoinsiemi distinti di token, (ii) le matrici di co-attivazione rimangono sparse, riflettendo un utilizzo diversificato degli esperti, e (iii) il comportamento di routing si stabilizza precocemente durante l'addestramento. Tutto il codice, i log di addestramento e i checkpoint dei modelli sono disponibili su https://github.com/cmu-flame/FLAME-MoE.
L'estrazione dei metadati è essenziale per catalogare e preservare i dataset, consentendo una scoperta efficace della ricerca e la riproducibilità, soprattutto considerando l'attuale crescita esponenziale della ricerca scientifica. Sebbene Masader (Alyafeai et al., 2021) abbia gettato le basi per estrarre un'ampia gamma di attributi di metadati dagli articoli accademici relativi ai dataset di NLP in arabo, si basa fortemente sull'annotazione manuale. In questo articolo, presentiamo MOLE, un framework che sfrutta i Large Language Model (LLM) per estrarre automaticamente gli attributi di metadati da articoli scientifici che coprono dataset di lingue diverse dall'arabo. La nostra metodologia basata su schema elabora interi documenti in più formati di input e incorpora meccanismi di validazione robusti per garantire un output coerente. Inoltre, introduciamo un nuovo benchmark per valutare i progressi della ricerca su questo compito. Attraverso un'analisi sistematica della lunghezza del contesto, dell'apprendimento few-shot e dell'integrazione della navigazione web, dimostriamo che i moderni LLM mostrano risultati promettenti nell'automatizzazione di questo compito, evidenziando la necessità di ulteriori miglioramenti futuri per garantire prestazioni coerenti e affidabili. Rilasciamo il codice: https://github.com/IVUL-KAUST/MOLE e il dataset: https://huggingface.co/datasets/IVUL-KAUST/MOLE per la comunità di ricerca.
I recenti generatori di immagini multimodali come GPT-4o, Gemini 2.0 Flash e Gemini 2.5 Pro eccellono nel seguire istruzioni complesse, modificare immagini e mantenere la coerenza dei concetti. Tuttavia, vengono ancora valutati tramite toolkit disgiunti: benchmark di testo-immagine (T2I) che mancano di condizionamento multimodale e benchmark di generazione di immagini personalizzati che trascurano la semantica compositiva e la conoscenza comune. Proponiamo MMIG-Bench, un benchmark completo per la generazione di immagini multimodali che unifica questi compiti abbinando 4.850 prompt di testo riccamente annotati a 1.750 immagini di riferimento multi-vista su 380 soggetti, che spaziano da esseri umani, animali, oggetti e stili artistici. MMIG-Bench è dotato di un framework di valutazione a tre livelli: (1) metriche di basso livello per artefatti visivi e preservazione dell'identità degli oggetti; (2) un nuovo Aspect Matching Score (AMS): una metrica di medio livello basata su VQA che fornisce un allineamento fine tra prompt e immagine e mostra una forte correlazione con i giudizi umani; e (3) metriche di alto livello per l'estetica e le preferenze umane. Utilizzando MMIG-Bench, abbiamo valutato 17 modelli all'avanguardia, tra cui Gemini 2.5 Pro, FLUX, DreamBooth e IP-Adapter, e validato le nostre metriche con 32k valutazioni umane, ottenendo approfondite intuizioni sull'architettura e il design dei dati. Rilasceremo il dataset e il codice di valutazione per promuovere una valutazione rigorosa e unificata e accelerare le future innovazioni nella generazione di immagini multimodali.
I modelli linguistici di grandi dimensioni (LLM) attuali hanno dimostrato capacità emergenti nei compiti di intelligenza sociale, inclusa la risoluzione di implicature (Sravanthi et al., 2024) e il ragionamento sulla teoria della mente (Shapira et al., 2024), entrambi i quali richiedono una comprensione pragmatica sostanziale. Tuttavia, come i LLM acquisiscano questa competenza durante il processo di addestramento rimane poco compreso. In questo lavoro, introduciamo ALTPRAG, un dataset basato sul concetto pragmatico di alternative, progettato per valutare se i LLM in diverse fasi di addestramento possano inferire accuratamente le intenzioni sfumate del parlante. Ogni istanza accoppia due continuazioni contestualmente appropriate ma pragmaticamente distinte, consentendo una valutazione dettagliata sia dell'interpretazione pragmatica che del ragionamento contrastivo. Valutiamo sistematicamente 22 LLM attraverso le fasi chiave dell'addestramento: pre-addestramento, fine-tuning supervisionato (SFT) e ottimizzazione delle preferenze, per esaminare lo sviluppo della competenza pragmatica. I nostri risultati mostrano che anche i modelli di base presentano una sensibilità notevole agli indizi pragmatici, che migliora costantemente con l'aumento della scala del modello e dei dati. Inoltre, SFT e RLHF contribuiscono a ulteriori miglioramenti, in particolare nel ragionamento cognitivo-pragmatico. Questi risultati evidenziano la competenza pragmatica come una proprietà emergente e compositiva dell'addestramento dei LLM e offrono nuove intuizioni per allineare i modelli alle norme comunicative umane.
I grandi modelli fondazionali multimodali, in particolare nei domini del linguaggio e della visione, hanno fatto progressi significativi in vari compiti, tra cui la robotica, la guida autonoma, il recupero delle informazioni e il grounding. Tuttavia, molti di questi modelli percepiscono gli oggetti come indivisibili, trascurando i componenti che li costituiscono. Comprendere questi componenti e le loro affordance associate fornisce preziose intuizioni sulla funzionalità di un oggetto, che è fondamentale per eseguire un'ampia gamma di compiti. In questo lavoro, introduciamo un nuovo benchmark del mondo reale, InstructPart, che comprende annotazioni di segmentazione delle parti etichettate manualmente e istruzioni orientate ai compiti per valutare le prestazioni dei modelli attuali nella comprensione e nell'esecuzione di compiti a livello di parti in contesti quotidiani. Attraverso i nostri esperimenti, dimostriamo che la segmentazione delle parti orientata ai compiti rimane un problema impegnativo, anche per i modelli visione-linguaggio (VLMs) all'avanguardia. Oltre al nostro benchmark, introduciamo una semplice baseline che ottiene un miglioramento delle prestazioni di due volte attraverso il fine-tuning con il nostro dataset. Con il nostro dataset e benchmark, miriamo a facilitare la ricerca sulla segmentazione delle parti orientata ai compiti e a migliorare l'applicabilità dei VLMs in vari domini, tra cui la robotica, la realtà virtuale, il recupero delle informazioni e altri campi correlati. Sito web del progetto: https://zifuwan.github.io/InstructPart/.
I recenti progressi, come il prompting a catena di pensiero (Chain-of-Thought), hanno migliorato significativamente i grandi modelli linguistici (LLMs) nel ragionamento medico zero-shot. Tuttavia, i metodi basati sul prompting spesso rimangono superficiali e instabili, mentre i LLMs medici fine-tuned soffrono di una scarsa generalizzazione in caso di cambiamenti nella distribuzione dei dati e di una limitata adattabilità a scenari clinici non visti. Per affrontare queste limitazioni, presentiamo TAGS, un framework in fase di test che combina un generalista ampiamente capace con uno specialista specifico del dominio per offrire prospettive complementari senza alcun fine-tuning o aggiornamento dei parametri del modello. Per supportare questo processo di ragionamento generalista-specialista, introduciamo due moduli ausiliari: un meccanismo di recupero gerarchico che fornisce esempi multi-scala selezionando casi basati sia sulla similarità semantica che a livello di ragionamento, e uno scorer di affidabilità che valuta la coerenza del ragionamento per guidare l'aggregazione finale delle risposte. TAGS ottiene prestazioni solide su nove benchmark MedQA, aumentando l'accuratezza di GPT-4o del 13.8%, di DeepSeek-R1 del 16.8%, e migliorando un modello vanilla da 7B dal 14.1% al 23.9%. Questi risultati superano diversi LLMs medici fine-tuned, senza alcun aggiornamento dei parametri. Il codice sarà disponibile su https://github.com/JianghaoWu/TAGS.
Nonostante i recenti progressi nella robotica generica, le politiche dei robot rimangono ancora molto indietro rispetto alle capacità umane di base nel mondo reale. Gli esseri umani interagiscono costantemente con il mondo fisico, eppure questa ricca risorsa di dati rimane in gran parte inutilizzata nell'apprendimento dei robot. Proponiamo EgoZero, un sistema minimale che apprende politiche di manipolazione robuste da dimostrazioni umane catturate con gli occhiali intelligenti Project Aria, senza utilizzare alcun dato robotico. EgoZero consente: (1) l'estrazione di azioni complete ed eseguibili da robot da dimostrazioni umane egocentriche in contesti reali, (2) la compressione delle osservazioni visive umane in rappresentazioni di stato indipendenti dalla morfologia, e (3) l'apprendimento di politiche a ciclo chiuso che generalizzano morfologicamente, spazialmente e semanticamente. Implementiamo le politiche di EgoZero su un robot Franka Panda con pinza e dimostriamo un trasferimento zero-shot con un tasso di successo del 70% su 7 compiti di manipolazione e solo 20 minuti di raccolta dati per ciascun compito. I nostri risultati suggeriscono che i dati umani raccolti in contesti reali possono servire come base scalabile per l'apprendimento dei robot nel mondo reale, aprendo la strada verso un futuro di dati di addestramento abbondanti, diversificati e naturalistici per i robot. Codice e video sono disponibili all'indirizzo https://egozero-robot.github.io.
Questo studio esamina l'emergere di caratteristiche categoriche interpretabili all'interno di grandi modelli linguistici (LLM), analizzandone il comportamento attraverso checkpoint di addestramento (tempo), strati del trasformatore (spazio) e dimensioni variabili del modello (scala). Utilizzando autoencoder sparsi per l'interpretabilità meccanicistica, identifichiamo quando e dove emergono specifici concetti semantici all'interno delle attivazioni neurali. I risultati indicano soglie temporali e specifiche della scala per l'emergere delle caratteristiche in più domini. In particolare, l'analisi spaziale rivela una riattivazione semantica inaspettata, con caratteristiche degli strati iniziali che riemergono negli strati successivi, sfidando le ipotesi standard sulla dinamica rappresentativa nei modelli a trasformatore.
I metodi di steering sono emersi come strumenti efficaci e mirati per guidare il comportamento dei grandi modelli linguistici (LLMs) senza modificarne i parametri. Tuttavia, i grandi modelli linguistici multimodali (MLLMs) non dispongono attualmente della stessa gamma di tecniche, in parte a causa della loro recente introduzione e della diversità architetturale. Ispirati da questa lacuna, abbiamo indagato se gli MLLMs possano essere guidati utilizzando vettori derivati dal loro backbone LLM esclusivamente testuale, attraverso autoencoder sparsi (SAEs), mean shift e linear probing. Abbiamo riscontrato che lo steering derivato dal testo migliora costantemente l'accuratezza multimodale attraverso diverse architetture MLLM e compiti visivi. In particolare, il mean shift aumenta l'accuratezza delle relazioni spaziali su CV-Bench fino al +7,3% e l'accuratezza nel conteggio fino al +3,3%, superando il prompting e mostrando una forte generalizzazione su dataset fuori distribuzione. Questi risultati evidenziano i vettori di steering testuali come un meccanismo potente ed efficiente per migliorare il grounding negli MLLMs con un minimo sovraccarico di raccolta dati e computazionale.
L'apprendimento per rinforzo offline condizionato agli obiettivi (GCRL) offre un paradigma di apprendimento pratico in cui le politiche di raggiungimento degli obiettivi vengono addestrate da ampi dataset non etichettati (senza ricompensa) senza ulteriori interazioni con l'ambiente. Tuttavia, il GCRL offline continua a lottare con compiti a lungo termine, nonostante i recenti progressi che impiegano strutture gerarchiche di politiche, come HIQL. Identificando la causa principale di questa sfida, osserviamo le seguenti intuizioni: in primo luogo, i colli di bottiglia delle prestazioni derivano principalmente dall'incapacità della politica di alto livello di generare sottobiettivi appropriati. In secondo luogo, durante l'apprendimento della politica di alto livello in contesti a lungo termine, il segnale di vantaggio spesso diventa errato. Pertanto, sosteniamo che migliorare la funzione di valore per produrre un segnale di vantaggio chiaro per l'apprendimento della politica di alto livello sia essenziale. In questo articolo, proponiamo una soluzione semplice ma efficace: l'apprendimento del valore temporalmente astratto e consapevole delle opzioni, denominato OTA, che incorpora l'astrazione temporale nel processo di apprendimento a differenza temporale. Modificando l'aggiornamento del valore per renderlo consapevole delle opzioni, il metodo proposto riduce la lunghezza effettiva dell'orizzonte, consentendo stime migliori del vantaggio anche in contesti a lungo termine. Sperimentalmente dimostriamo che la politica di alto livello estratta utilizzando la funzione di valore OTA raggiunge prestazioni solide su compiti complessi di OGBench, un benchmark recentemente proposto per il GCRL offline, inclusi ambienti di navigazione in labirinti e manipolazione robotica visiva.