Articoli di ricerca IA selezionati quotidianamente con traduzioni
La navigazione web è un dominio unico che può automatizzare molti compiti ripetitivi della vita reale e rappresenta una sfida in quanto richiede un processo decisionale sequenziale a lungo termine che va oltre i tipici compiti dei modelli linguistici multimodali di grandi dimensioni (MLLM). Tuttavia, fino ad ora sono mancati modelli di ricompensa specializzati per la navigazione web che possano essere utilizzati sia durante l'addestramento che in fase di test. Nonostante l'importanza della velocità e della convenienza economica, i lavori precedenti hanno utilizzato MLLM come modelli di ricompensa, il che pone significativi vincoli per il dispiegamento nel mondo reale. Per affrontare questo problema, in questo lavoro proponiamo il primo modello di ricompensa basato sul processo (PRM), chiamato Web-Shepherd, in grado di valutare le traiettorie di navigazione web a livello di singolo passo. Per raggiungere questo obiettivo, abbiamo prima costruito la WebPRM Collection, un dataset su larga scala con 40K coppie di preferenze a livello di passo e checklist annotate che coprono diversi domini e livelli di difficoltà. Successivamente, introduciamo anche WebRewardBench, il primo benchmark di meta-valutazione per la valutazione dei PRM. Nei nostri esperimenti, osserviamo che il nostro Web-Shepherd raggiunge un'accuratezza di circa 30 punti migliore rispetto all'uso di GPT-4o su WebRewardBench. Inoltre, testando su WebArena-lite utilizzando GPT-4o-mini come policy e Web-Shepherd come verificatore, otteniamo un miglioramento di 10,9 punti, con un costo inferiore di 10 rispetto all'uso di GPT-4o-mini come verificatore. Il nostro modello, dataset e codice sono disponibili pubblicamente al LINK.
Introduciamo MMaDA, una nuova classe di modelli di fondazione basati su diffusione multimodale progettati per ottenere prestazioni superiori in diversi domini come il ragionamento testuale, la comprensione multimodale e la generazione di immagini da testo. L'approccio si distingue per tre innovazioni chiave: (i) MMaDA adotta un'architettura di diffusione unificata con una formulazione probabilistica condivisa e un design agnostico rispetto alle modalità, eliminando la necessità di componenti specifici per ciascuna modalità. Questa architettura garantisce un'integrazione e un'elaborazione senza soluzione di continuità tra diversi tipi di dati. (ii) Implementiamo una strategia di fine-tuning mista a catena di pensiero (CoT) lunga che cura un formato CoT unificato tra le modalità. Allineando i processi di ragionamento tra i domini testuali e visivi, questa strategia facilita l'addestramento a freddo per la fase finale di apprendimento per rinforzo (RL), migliorando così la capacità del modello di gestire compiti complessi fin dall'inizio. (iii) Proponiamo UniGRPO, un algoritmo RL basato su gradienti di politica unificato, specificamente adattato per i modelli di fondazione basati su diffusione. Utilizzando una modellizzazione diversificata delle ricompense, UniGRPO unifica il post-training sia per i compiti di ragionamento che di generazione, garantendo miglioramenti prestazionali consistenti. I risultati sperimentali dimostrano che MMaDA-8B mostra forti capacità di generalizzazione come modello di fondazione multimodale unificato. Supera modelli potenti come LLaMA-3-7B e Qwen2-7B nel ragionamento testuale, supera Show-o e SEED-X nella comprensione multimodale e eccelle rispetto a SDXL e Janus nella generazione di immagini da testo. Questi risultati evidenziano l'efficacia di MMaDA nel colmare il divario tra pre-training e post-training all'interno di architetture di diffusione unificate, fornendo un quadro completo per la ricerca e lo sviluppo futuri. Rendiamo disponibile il nostro codice e i modelli addestrati all'indirizzo: https://github.com/Gen-Verse/MMaDA.
I grandi modelli linguistici (LLM) richiedono risorse computazionali e di memoria sostanziali, creando sfide nel loro dispiegamento. L'addestramento consapevole della quantizzazione (QAT) affronta queste sfide riducendo la precisione del modello mantenendo le prestazioni. Tuttavia, il comportamento di scalabilità del QAT, specialmente a una precisione di 4 bit (W4A4), non è ben compreso. Le leggi di scalabilità esistenti per il QAT spesso ignorano fattori chiave come il numero di token di addestramento e la granularità della quantizzazione, limitandone l'applicabilità. Questo articolo propone una legge di scalabilità unificata per il QAT che modella l'errore di quantizzazione in funzione della dimensione del modello, del volume dei dati di addestramento e della dimensione del gruppo di quantizzazione. Attraverso 268 esperimenti di QAT, dimostriamo che l'errore di quantizzazione diminuisce all'aumentare della dimensione del modello, ma aumenta con più token di addestramento e una granularità di quantizzazione più grossolana. Per identificare le fonti dell'errore di quantizzazione W4A4, lo scomponiamo in componenti di peso e attivazione. Entrambe le componenti seguono la tendenza generale dell'errore di quantizzazione W4A4, ma con sensibilità diverse. In particolare, l'errore di quantizzazione del peso aumenta più rapidamente con più token di addestramento. Un'ulteriore analisi mostra che l'errore di quantizzazione delle attivazioni nello strato FC2, causato da valori anomali, è il principale collo di bottiglia dell'errore di quantizzazione QAT W4A4. Applicando una quantizzazione a precisione mista per affrontare questo collo di bottiglia, dimostriamo che gli errori di quantizzazione del peso e delle attivazioni possono convergere a livelli simili. Inoltre, con più dati di addestramento, l'errore di quantizzazione del peso supera alla fine l'errore di quantizzazione delle attivazioni, suggerendo che ridurre l'errore di quantizzazione del peso è altrettanto importante in tali scenari. Questi risultati offrono intuizioni chiave per migliorare la ricerca e lo sviluppo del QAT.
I modelli di embedding basati su Large Language Model (LLM), beneficiando di un pre-training e post-training su larga scala, hanno iniziato a superare i modelli basati su BERT e T5 in compiti di embedding testuale generico come il recupero di documenti. Tuttavia, una limitazione fondamentale degli embedding LLM risiede nell'attenzione unidirezionale utilizzata durante il pre-training autoregressivo, che non si allinea con la natura bidirezionale dei compiti di embedding testuale. A tal fine, proponiamo di adottare modelli linguistici di diffusione per gli embedding testuali, motivati dalla loro architettura intrinsecamente bidirezionale e dai recenti successi nel pareggiare o superare gli LLM, specialmente in compiti di ragionamento. Presentiamo il primo studio sistematico del modello di embedding linguistico basato sulla diffusione, che supera il modello di embedding basato su LLM del 20% nel recupero di documenti lunghi, dell'8% nel recupero ad alta intensità di ragionamento, del 2% nel recupero che segue istruzioni, e raggiunge prestazioni competitive nei benchmark tradizionali di embedding testuale. La nostra analisi verifica che l'attenzione bidirezionale è cruciale per codificare il contesto globale in testi lunghi e complessi.
I metodi tradizionali di grounding visivo si concentrano principalmente su scenari a immagine singola con riferimenti testuali semplici. Tuttavia, estendere questi metodi a scenari del mondo reale che coinvolgono istruzioni implicite e complesse, specialmente in combinazione con più immagini, presenta sfide significative, principalmente a causa della mancanza di capacità di ragionamento avanzato in contesti multimodali diversi. In questo lavoro, miriamo a affrontare il compito più pratico del grounding universale e proponiamo UniVG-R1, un modello linguistico multimodale di grandi dimensioni (MLLM) guidato dal ragionamento per il grounding visivo universale, che migliora le capacità di ragionamento attraverso l'apprendimento per rinforzo (RL) combinato con dati di cold-start. Nello specifico, costruiamo prima un dataset di grounding Chain-of-Thought (CoT) di alta qualità, annotato con catene di ragionamento dettagliate, per guidare il modello verso percorsi di ragionamento corretti tramite fine-tuning supervisionato. Successivamente, eseguiamo un apprendimento per rinforzo basato su regole per incoraggiare il modello a identificare catene di ragionamento corrette, incentivando così le sue capacità di ragionamento. Inoltre, identifichiamo un bias di difficoltà derivante dalla prevalenza di campioni facili man mano che l'addestramento RL progredisce, e proponiamo una strategia di aggiustamento del peso basata sulla difficoltà per rafforzare ulteriormente le prestazioni. I risultati sperimentali dimostrano l'efficacia di UniVG-R1, che raggiunge prestazioni all'avanguardia su MIG-Bench con un miglioramento del 9,1% rispetto al metodo precedente. Inoltre, il nostro modello mostra una forte generalizzabilità, ottenendo un miglioramento medio del 23,4% nelle prestazioni zero-shot su quattro benchmark di grounding di ragionamento su immagini e video. La pagina del progetto è accessibile all'indirizzo https://amap-ml.github.io/UniVG-R1-page/.
L'aumento di dati di traiettoria di alta qualità è stato a lungo un collo di bottiglia critico per lo sviluppo di agenti informatici con capacità simili a quelle umane. Presentiamo PC Agent-E, un framework di addestramento efficiente per agenti che riduce significativamente la dipendenza da dimostrazioni umane su larga scala. Partendo da soli 312 percorsi di utilizzo del computer annotati da esseri umani, abbiamo ulteriormente migliorato la qualità dei dati sintetizzando decisioni d'azione diverse con Claude 3.7 Sonnet. Addestrato su queste traiettorie arricchite, il nostro modello PC Agent-E ha ottenuto un notevole miglioramento relativo del 141%, superando il robusto Claude 3.7 Sonnet con pensiero esteso su WindowsAgentArena-V2, un benchmark migliorato che abbiamo anche rilasciato. Inoltre, PC Agent-E dimostra una forte generalizzabilità su diversi sistemi operativi su OSWorld. I nostri risultati suggeriscono che forti capacità di utilizzo del computer possono essere stimolate da una piccola quantità di dati di traiettoria di alta qualità.
Presentiamo Toto, un modello di base per la previsione di serie temporali con 151 milioni di parametri. Toto utilizza un'architettura moderna di tipo decoder-only, arricchita da innovazioni architetturali progettate per affrontare le specifiche sfide presenti nei dati di osservabilità multivariata delle serie temporali. Il corpus di pre-addestramento di Toto è una combinazione di dati di osservabilità, dataset aperti e dati sintetici, ed è da 4 a 10 volte più ampio rispetto a quello dei principali modelli di base per le serie temporali. Inoltre, introduciamo BOOM, un benchmark su larga scala composto da 350 milioni di osservazioni su 2.807 serie temporali del mondo reale. Sia per Toto che per BOOM, i dati di osservabilità provengono esclusivamente dalla telemetria e dalle metriche interne di osservabilità di Datadog. Valutazioni estensive dimostrano che Toto raggiunge prestazioni all'avanguardia sia su BOOM che su benchmark consolidati per la previsione di serie temporali a scopo generale. I pesi del modello di Toto, il codice di inferenza e gli script di valutazione, così come i dati e il codice di valutazione di BOOM, sono tutti disponibili come open source sotto la licenza Apache 2.0 ai seguenti indirizzi: https://huggingface.co/Datadog/Toto-Open-Base-1.0 e https://github.com/DataDog/toto.
I Large Reasoning Models (LRM) hanno dimostrato capacità notevoli nel risolvere problemi complessi attraverso il reinforcement learning (RL), in particolare generando tracce di ragionamento lunghe. Tuttavia, questi output estesi spesso presentano una ridondanza sostanziale, che limita l'efficienza degli LRM. In questo articolo, indaghiamo approcci basati su RL per promuovere l'efficienza del ragionamento. Nello specifico, presentiamo prima un framework unificato che formula vari metodi di ragionamento efficiente attraverso la lente del reward shaping basato sulla lunghezza. Basandoci su questa prospettiva, proponiamo un nuovo metodo di reward shaping basato su una funzione a gradino, chiamato Length-bAsed StEp Reward shaping (LASER), che utilizza una funzione a gradino come ricompensa, controllata da una lunghezza target. LASER supera i metodi precedenti, raggiungendo un equilibrio Pareto-ottimale superiore tra prestazioni ed efficienza. Successivamente, estendiamo ulteriormente LASER basandoci su due intuizioni chiave: (1) Il comportamento di ragionamento del modello evolve durante l'addestramento, richiedendo specifiche di ricompensa che siano anche adattive e dinamiche; (2) Piuttosto che incoraggiare uniformemente catene di pensiero (CoT) più brevi o più lunghe, ipotizziamo che il reward shaping basato sulla lunghezza debba essere consapevole della difficoltà, cioè dovrebbe penalizzare maggiormente le CoT lunghe per query facili. Questo approccio dovrebbe facilitare una combinazione di pensiero veloce e lento, portando a un migliore compromesso complessivo. Il metodo risultante è denominato LASER-D (Dinamico e Consapevole della Difficoltà). Esperimenti su DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B e DeepSeek-R1-Distill-Qwen-32B mostrano che il nostro approccio migliora significativamente sia le prestazioni di ragionamento che l'efficienza della lunghezza della risposta. Ad esempio, LASER-D e la sua variante ottengono un miglioramento di +6.1 su AIME2024 riducendo l'uso di token del 63%. Un'ulteriore analisi rivela che la nostra compressione basata su RL produce modelli di ragionamento più concisi con meno "auto-riflessioni" ridondanti. Le risorse sono disponibili su https://github.com/hkust-nlp/Laser.
I modelli del mondo, che prevedono transizioni basate su sequenze di osservazioni storiche e azioni, hanno dimostrato un grande potenziale nel migliorare l'efficienza dei dati per il processo decisionale sequenziale. Tuttavia, i modelli del mondo esistenti spesso richiedono un addestramento estensivo specifico per dominio e producono ancora previsioni a bassa fedeltà e grossolane, limitando la loro applicabilità in ambienti complessi. Al contrario, i modelli di diffusione video addestrati su grandi dataset su scala internet hanno dimostrato capacità impressionanti nella generazione di video di alta qualità che catturano dinamiche diverse del mondo reale. In questo lavoro, presentiamo Vid2World, un approccio generale per sfruttare e trasferire modelli di diffusione video pre-addestrati in modelli del mondo interattivi. Per colmare il divario, Vid2World esegue la causalizzazione di un modello di diffusione video pre-addestrato progettando la sua architettura e l'obiettivo di addestramento per abilitare la generazione autoregressiva. Inoltre, introduce un meccanismo di guida causale delle azioni per migliorare la controllabilità delle azioni nel modello del mondo interattivo risultante. Esperimenti estesi nei domini della manipolazione robotica e della simulazione di giochi mostrano che il nostro metodo offre un approccio scalabile ed efficace per riutilizzare modelli di diffusione video altamente capaci in modelli del mondo interattivi.
L'acquisizione di scene 3D dettagliate richiede tipicamente attrezzature costose, dati multi-vista o una modellazione laboriosa. Pertanto, un'alternativa leggera, che genera scene 3D complesse a partire da una singola immagine dall'alto, svolge un ruolo essenziale nelle applicazioni reali. Sebbene i recenti modelli generativi 3D abbiano ottenuto risultati notevoli a livello di oggetti, la loro estensione alla generazione di intere scene spesso porta a geometrie inconsistenti, allucinazioni di layout e mesh di bassa qualità. In questo lavoro, presentiamo 3DTown, un framework senza addestramento progettato per sintetizzare scene 3D realistiche e coerenti da una singola vista dall'alto. Il nostro metodo si basa su due principi: generazione basata su regioni per migliorare l'allineamento e la risoluzione da immagine a 3D, e inpainting 3D consapevole dello spazio per garantire la coerenza globale della scena e la generazione di geometrie di alta qualità. Nello specifico, scomponiamo l'immagine di input in regioni sovrapposte e generiamo ciascuna utilizzando un generatore di oggetti 3D pre-addestrato, seguito da un processo di inpainting a flusso rettificato mascherato che riempie la geometria mancante mantenendo la continuità strutturale. Questo design modulare ci permette di superare i colli di bottiglia della risoluzione e preservare la struttura spaziale senza richiedere supervisione 3D o fine-tuning. Esperimenti estesi su diverse scene dimostrano che 3DTown supera i migliori baseline, tra cui Trellis, Hunyuan3D-2 e TripoSG, in termini di qualità della geometria, coerenza spaziale e fedeltà delle texture. I nostri risultati dimostrano che la generazione di città 3D di alta qualità è realizzabile da una singola immagine utilizzando un approccio principiato e senza addestramento.
I modelli di ragionamento su larga scala (LRM) raggiungono prestazioni notevoli attraverso catene di ragionamento lunghe, ma spesso comportano un eccessivo sovraccarico computazionale a causa di ragionamenti ridondanti, specialmente su compiti semplici. In questo lavoro, quantifichiamo sistematicamente i limiti superiori degli LRM sia in modalità Pensiero Lungo che in modalità Non Pensiero, e scopriamo il fenomeno del "Meccanismo di Auto-Recupero Interno", in cui i modelli integrano implicitamente il ragionamento durante la generazione delle risposte. Basandoci su questa intuizione, proponiamo il Ragionamento ad Auto-Recupero Adattivo (ASRR), un framework che sopprime i ragionamenti non necessari e abilita il recupero implicito. Introducendo una regolazione della ricompensa basata sulla lunghezza e consapevole dell'accuratezza, l'ASRR alloca adattivamente lo sforzo di ragionamento in base alla difficoltà del problema, raggiungendo un'elevata efficienza con una perdita di prestazioni trascurabile. Esperimenti su più benchmark e modelli dimostrano che, rispetto a GRPO, l'ASRR riduce il budget di ragionamento fino al 32,5% (1,5B) e al 25,7% (7B) con una minima perdita di accuratezza (1,2% e 0,6% pass@1), e aumenta significativamente i tassi di innocuità sui benchmark di sicurezza (fino a +21,7%). I nostri risultati evidenziano il potenziale dell'ASRR per abilitare un ragionamento efficiente, adattivo e più sicuro negli LRM.
Giocare ai videogiochi richiede percezione, memoria e pianificazione, esattamente le capacità che si prevede che i moderni agenti basati su grandi modelli linguistici (LLM) padroneggino. Studiamo le principali sfide nell'utilizzo di videogiochi popolari per valutare i moderni LLM e scopriamo che inserire direttamente gli LLM nei giochi non costituisce una valutazione efficace, per tre motivi: percezione visiva fragile, sensibilità ai prompt e potenziale contaminazione dei dati. Introduciamo lmgame-Bench per trasformare i giochi in valutazioni affidabili. lmgame-Bench include una suite di giochi platform, puzzle e narrativi forniti attraverso un'API unificata in stile Gym e abbinati a impalcature leggere per la percezione e la memoria, ed è progettato per stabilizzare la varianza dei prompt e rimuovere la contaminazione. Su 13 modelli leader, dimostriamo che lmgame-Bench è impegnativo pur separando bene i modelli. L'analisi di correlazione mostra che ogni gioco esplora una combinazione unica di capacità spesso testate isolatamente altrove. Ancora più interessante, eseguire l'apprendimento per rinforzo su un singolo gioco di lmgame-Bench si trasferisce sia a giochi non visti che a compiti di pianificazione esterni. Il nostro codice di valutazione è disponibile all'indirizzo https://github.com/lmgame-org/GamingAgent/lmgame-bench.
Gli esseri umani utilizzano naturalmente molteplici modalità di ragionamento per apprendere e risolvere problemi logici, ovvero diversi formati rappresentazionali come il linguaggio naturale, il codice e la logica simbolica. Al contrario, la maggior parte degli approcci esistenti basati su LLM (Large Language Models) opera con una singola modalità di ragionamento durante l'addestramento, tipicamente il linguaggio naturale. Sebbene alcuni metodi abbiano esplorato la selezione o l'aumento delle modalità al momento dell'inferenza, il processo di addestramento rimane indifferente alle modalità, limitando la sinergia tra di esse. Per colmare questa lacuna, proponiamo Mixture-of-Thought (MoT), un framework che consente agli LLM di ragionare attraverso tre modalità complementari: linguaggio naturale, codice e una nuova modalità simbolica introdotta, la tavola di verità, che enumera sistematicamente i casi logici e mitiga parzialmente i principali punti di fallimento nel ragionamento in linguaggio naturale. MoT adotta un design a due fasi: (1) addestramento MoT auto-evolutivo, che apprende congiuntamente da razionalità auto-generate e filtrate attraverso le modalità; e (2) inferenza MoT, che sfrutta appieno la sinergia delle tre modalità per produrre previsioni migliori. Esperimenti su benchmark di ragionamento logico, tra cui FOLIO e ProofWriter, dimostrano che il nostro framework MoT supera costantemente e significativamente i forti baseline LLM con approcci a catena di pensiero a modalità singola, raggiungendo un guadagno medio di accuratezza fino a +11,7 punti percentuali. Ulteriori analisi mostrano che il nostro framework MoT beneficia sia delle fasi di addestramento che di inferenza; che è particolarmente efficace su problemi di ragionamento logico più difficili; e che le diverse modalità contribuiscono con punti di forza complementari, con il ragionamento tramite tavola di verità che aiuta a superare i principali colli di bottiglia nell'inferenza in linguaggio naturale.
Grandi modelli di ragionamento come OpenAI o1 e DeepSeek-R1 hanno ottenuto prestazioni notevoli nel dominio del ragionamento. Un componente chiave del loro addestramento è l'incorporazione di ricompense verificabili all'interno dell'apprendimento per rinforzo (RL). Tuttavia, i benchmark di ricompensa esistenti non valutano i sistemi di ricompensa basati su riferimenti, lasciando i ricercatori con una comprensione limitata dell'accuratezza dei verificatori utilizzati nell'RL. In questo articolo, introduciamo due benchmark, VerifyBench e VerifyBench-Hard, progettati per valutare le prestazioni dei sistemi di ricompensa basati su riferimenti. Questi benchmark sono costruiti attraverso una meticolosa raccolta e curatela dei dati, seguita da un'attenta annotazione umana per garantire un'elevata qualità. I modelli attuali mostrano ancora un notevole margine di miglioramento sia su VerifyBench che su VerifyBench-Hard, specialmente i modelli di scala più piccola. Inoltre, conduciamo un'analisi approfondita e completa dei risultati di valutazione, offrendo spunti per comprendere e sviluppare sistemi di ricompensa basati su riferimenti. I benchmark proposti servono come strumenti efficaci per guidare lo sviluppo dell'accuratezza dei verificatori e delle capacità di ragionamento dei modelli addestrati tramite RL in compiti di ragionamento.
La cognizione umana tipicamente implica il pensiero attraverso concetti astratti e fluidi piuttosto che l'uso rigoroso di token linguistici discreti. I modelli di ragionamento attuali, tuttavia, sono limitati a ragionare entro i confini del linguaggio umano, elaborando embedding di token discreti che rappresentano punti fissi nello spazio semantico. Questo vincolo discreto limita il potere espressivo e il potenziale massimo di tali modelli di ragionamento, causando spesso un'esplorazione incompleta dei percorsi di ragionamento, poiché i metodi standard di Catena di Pensiero (Chain-of-Thought, CoT) si basano sul campionamento di un token per passo. In questo lavoro, introduciamo il Pensiero Morbido (Soft Thinking), un metodo senza addestramento che emula il ragionamento "morbido" simile a quello umano generando token di concetti astratti e fluidi in uno spazio concettuale continuo. Questi token di concetti sono creati dalla miscela ponderata in base alla probabilità degli embedding di token, che formano lo spazio concettuale continuo, consentendo transizioni fluide e rappresentazioni più ricche che trascendono i tradizionali confini discreti. In sostanza, ogni token di concetto generato racchiude molteplici significati da token discreti correlati, esplorando implicitamente vari percorsi di ragionamento per convergere efficacemente verso la risposta corretta. Le valutazioni empiriche su diversi benchmark matematici e di programmazione dimostrano costantemente l'efficacia e l'efficienza del Pensiero Morbido, migliorando l'accuratezza pass@1 fino a 2,48 punti e riducendo contemporaneamente l'uso di token fino al 22,4% rispetto al CoT standard. L'analisi qualitativa rivela inoltre che gli output del Pensiero Morbido rimangono altamente interpretabili e leggibili, evidenziando il potenziale del Pensiero Morbido di superare il collo di bottiglia intrinseco del ragionamento basato sul linguaggio discreto. Il codice è disponibile all'indirizzo https://github.com/eric-ai-lab/Soft-Thinking.
I modelli linguistici basati su diffusione (Diffusion Language Models, DLMs) sono stati considerati un promettente concorrente dei modelli linguistici autoregressivi. Tuttavia, i DLMs sono stati a lungo limitati da un'inferenza lenta. Una sfida fondamentale è che la loro architettura non autoregressiva e l'attenzione bidirezionale impediscono l'uso della cache chiave-valore che accelera il processo di decodifica. Affrontiamo questo collo di bottiglia proponendo un meccanismo simile alla KV-cache, chiamato delayed KV-Cache, per il processo di denoising dei DLMs. Il nostro approccio è motivato dall'osservazione che token diversi hanno dinamiche di rappresentazione distinte durante il processo di diffusione. Di conseguenza, proponiamo una strategia di caching ritardato e condizionato per gli stati chiave e valore. Progettiamo due varianti complementari per memorizzare chiavi e valori passo dopo passo: (1) dKV-Cache-Decode, che fornisce un'accelerazione quasi senza perdite e migliora persino le prestazioni su sequenze lunghe, suggerendo che i DLMs esistenti potrebbero non sfruttare appieno le informazioni contestuali durante l'inferenza. (2) dKV-Cache-Greedy, che utilizza un caching aggressivo con una durata ridotta, ottenendo accelerazioni maggiori con una complessità temporale quadratica al costo di un certo degrado delle prestazioni. In definitiva, dKV-Cache raggiunge un'accelerazione da 2 a 10 volte nell'inferenza, riducendo significativamente il divario tra i modelli autoregressivi (ARs) e i DLMs. Valutiamo il nostro dKV-Cache su diversi benchmark, dimostrando un'accelerazione in ambiti come la comprensione linguistica generale, la matematica e la generazione di codice. Gli esperimenti mostrano che la cache può essere utilizzata anche nei DLMs, persino in modo training-free a partire dai DLMs attuali.
I modelli attuali di generazione da testo a immagine (T2I) ottengono risultati promettenti, ma falliscono negli scenari in cui la conoscenza implicita nel prompt di testo è incerta. Ad esempio, un modello T2I rilasciato a febbraio avrebbe difficoltà a generare un poster adatto per un film in uscita ad aprile, poiché i design dei personaggi e gli stili sono incerti per il modello. Per risolvere questo problema, proponiamo un framework di generazione da testo a immagine aumentato da Internet (IA-T2I) per rendere i modelli T2I consapevoli di tale conoscenza incerta fornendo loro immagini di riferimento. Nello specifico, un modulo di recupero attivo è progettato per determinare se è necessaria un'immagine di riferimento in base al prompt di testo fornito; un modulo di selezione gerarchica delle immagini è introdotto per trovare l'immagine più adatta restituita da un motore di ricerca di immagini per migliorare il modello T2I; un meccanismo di auto-riflessione è presentato per valutare e perfezionare continuamente l'immagine generata, garantendo un allineamento fedele con il prompt di testo. Per valutare le prestazioni del framework proposto, raccogliamo un dataset denominato Img-Ref-T2I, in cui i prompt di testo includono tre tipi di conoscenza incerta: (1) nota ma rara, (2) sconosciuta, (3) ambigua. Inoltre, elaboriamo con cura un prompt complesso per guidare GPT-4o nella valutazione delle preferenze, che ha dimostrato un'accuratezza di valutazione simile a quella della valutazione delle preferenze umane. I risultati sperimentali dimostrano l'efficacia del nostro framework, superando GPT-4o di circa il 30% nella valutazione umana.
La generazione aumentata dal recupero basata su grafi di conoscenza mira a mitigare le allucinazioni nei Modelli Linguistici di Grande Dimensione (LLMs) causate da conoscenze insufficienti o obsolete. Tuttavia, i metodi esistenti spesso non sfruttano appieno la conoscenza pregressa incorporata nei grafi di conoscenza (KGs), in particolare le loro informazioni strutturali e i vincoli espliciti o impliciti. Le prime possono migliorare la fedeltà del ragionamento degli LLMs, mentre i secondi possono aumentare l'affidabilità della generazione delle risposte. Motivati da ciò, proponiamo un framework di ragionamento affidabile, denominato Deliberation over Priors (DP), che utilizza in modo sufficiente le conoscenze pregresse contenute nei KGs. Nello specifico, DP adotta una strategia progressiva di distillazione della conoscenza che integra le conoscenze strutturali negli LLMs attraverso una combinazione di fine-tuning supervisionato e ottimizzazione di Kahneman-Tversky, migliorando così la fedeltà della generazione dei percorsi relazionali. Inoltre, il nostro framework impiega una strategia di ragionamento-introspezione, che guida gli LLMs a eseguire una verifica raffinata del ragionamento basata sui vincoli estratti, garantendo l'affidabilità della generazione delle risposte. Esperimenti estesi su tre dataset di benchmark dimostrano che DP raggiunge nuove prestazioni all'avanguardia, in particolare un miglioramento del 13% su Hit@1 nel dataset ComplexWebQuestions, e genera risposte altamente affidabili. Abbiamo anche condotto varie analisi per verificarne la flessibilità e la praticità. Il codice è disponibile all'indirizzo https://github.com/reml-group/Deliberation-on-Priors.
I modelli del mondo prevedono le transizioni di stato in risposta alle azioni e vengono sempre più sviluppati in diverse modalità. Tuttavia, gli obiettivi di addestramento standard come la stima di massima verosimiglianza (MLE) spesso non sono allineati con gli obiettivi specifici del compito dei modelli del mondo, ovvero metriche di previsione delle transizioni come accuratezza o qualità percettiva. In questo articolo, presentiamo RLVR-World, un framework unificato che sfrutta l'apprendimento per rinforzo con ricompense verificabili (RLVR) per ottimizzare direttamente i modelli del mondo per tali metriche. Nonostante la formulazione della modellazione del mondo come previsione autoregressiva di sequenze tokenizzate, RLVR-World valuta le metriche delle previsioni decodificate come ricompense verificabili. Dimostriamo significativi miglioramenti delle prestazioni sia sui modelli del mondo basati sul linguaggio che su quelli basati su video, in diversi ambiti, inclusi giochi di testo, navigazione web e manipolazione robotica. Il nostro lavoro indica che, oltre ai recenti progressi nei modelli linguistici di ragionamento, RLVR offre un paradigma promettente di post-addestramento per migliorare l'utilità dei modelli generativi in modo più ampio.
Il fine-tuning su modelli linguistici di grandi dimensioni (LLM) open-source con dati proprietari è ormai una pratica standard per gli sviluppatori downstream per ottenere LLM specifici per determinati compiti. Sorprendentemente, riveliamo un nuovo e preoccupante rischio associato a questa pratica: il creatore degli LLM open-source può successivamente estrarre i dati privati utilizzati per il fine-tuning downstream attraverso un semplice addestramento backdoor, richiedendo solo l'accesso in modalità black-box al modello downstream fine-tuned. I nostri esperimenti completi, condotti su 4 modelli open-source ampiamente utilizzati con parametri che vanno da 3B a 32B e 2 dataset downstream, suggeriscono che le prestazioni di estrazione possono essere sorprendentemente elevate: in contesti pratici, fino al 76,3% dei dati di fine-tuning downstream (query) su un totale di 5.000 campioni può essere estratto perfettamente, e il tasso di successo può aumentare al 94,9% in contesti più ideali. Abbiamo anche esplorato una strategia di difesa basata sul rilevamento, ma abbiamo scoperto che può essere aggirata con un attacco migliorato. Nel complesso, evidenziamo l'urgenza di questo rischio di violazione dei dati appena identificato nel fine-tuning, e speriamo che ulteriori ricerche possano spingere il progresso nel contrastare questo rischio preoccupante. Il codice e i dati utilizzati nei nostri esperimenti sono disponibili all'indirizzo https://github.com/thu-coai/Backdoor-Data-Extraction.
Diffusion Transformer (DiT), un promettente modello di diffusione per la generazione visiva, dimostra prestazioni impressionanti ma comporta un significativo sovraccarico computazionale. Curiosamente, l'analisi dei modelli DiT pre-addestrati rivela che l'auto-attenzione globale è spesso ridondante, catturando principalmente pattern locali, evidenziando il potenziale per alternative più efficienti. In questo articolo, rivalutiamo la convoluzione come blocco costitutivo alternativo per costruire modelli di diffusione efficienti ed espressivi. Tuttavia, la semplice sostituzione dell'auto-attenzione con la convoluzione tipicamente comporta un degrado delle prestazioni. Le nostre indagini attribuiscono questo divario di prestazioni alla maggiore ridondanza dei canali nelle ConvNet rispetto ai Transformer. Per risolvere questo problema, introduciamo un meccanismo di attenzione ai canali compatto che promuove l'attivazione di canali più diversificati, migliorando così la diversità delle feature. Questo porta a Diffusion ConvNet (DiCo), una famiglia di modelli di diffusione costruiti interamente da moduli ConvNet standard, che offre forti prestazioni generative con significativi guadagni di efficienza. Sui benchmark condizionati per classe di ImageNet, DiCo supera i precedenti modelli di diffusione sia nella qualità dell'immagine che nella velocità di generazione. In particolare, DiCo-XL raggiunge un FID di 2.05 alla risoluzione 256x256 e 2.53 a 512x512, con un'accelerazione rispettivamente di 2.7x e 3.1x rispetto a DiT-XL/2. Inoltre, il nostro modello più grande, DiCo-H, scalato a 1B parametri, raggiunge un FID di 1.90 su ImageNet 256x256, senza alcuna supervisione aggiuntiva durante l'addestramento. Codice: https://github.com/shallowdream204/DiCo.
I Large Reasoning Models (LRM) hanno ottenuto un successo notevole in compiti ad alta intensità di ragionamento come la matematica e la programmazione. Tuttavia, le loro capacità di ragionamento potenziate non si traducono necessariamente in un miglioramento delle prestazioni in termini di sicurezza—e in alcuni casi, potrebbero persino degradarle. Ciò solleva un'importante questione di ricerca: come possiamo migliorare la sicurezza degli LRM? In questo articolo, presentiamo uno studio empirico completo su come migliorare la sicurezza degli LRM attraverso il Fine-Tuning Supervisionato (SFT). La nostra indagine inizia con un'osservazione inaspettata: la distillazione diretta di risposte sicure da DeepSeek-R1 non riesce a migliorare significativamente la sicurezza. Analizziamo questo fenomeno e identifichiamo tre modelli di fallimento chiave che contribuiscono a esso. Dimostriamo quindi che affrontare esplicitamente questi problemi durante il processo di distillazione dei dati può portare a sostanziali miglioramenti della sicurezza. Successivamente, esploriamo se un processo di ragionamento lungo e complesso sia necessario per raggiungere la sicurezza. Curiosamente, scopriamo che l'uso di un processo di ragionamento breve o basato su modelli può ottenere prestazioni di sicurezza comparabili—e sono significativamente più facili da apprendere per i modelli rispetto a catene di ragionamento più intricate. Questi risultati spingono a una riflessione più profonda sul ruolo del ragionamento nel garantire la sicurezza. Infine, scopriamo che la miscelazione di dati di ragionamento matematico durante il fine-tuning della sicurezza è utile per bilanciare sicurezza e rifiuto eccessivo. Nel complesso, speriamo che il nostro studio empirico possa fornire un quadro più olistico sul miglioramento della sicurezza degli LRM. Il codice e i dati utilizzati nei nostri esperimenti sono rilasciati su https://github.com/thu-coai/LRM-Safety-Study.
I recenti progressi nei Modelli di Ragionamento su Grande Scala (LRMs) hanno dimostrato capacità impressionanti nel ragionamento matematico e logico. Tuttavia, gli attuali LRMs raramente ammettono ignoranza o rispondono con "Non lo so". Invece, spesso producono risposte errate mostrando una fiducia eccessiva, sollevando preoccupazioni riguardo alla loro affidabilità fattuale. In questo lavoro, identifichiamo due modelli patologici di ragionamento caratterizzati da un eccesso di pensiero che contribuiscono a risposte eccessivamente sicure e scorrette: l'ipotesi dell'ultimo minuto e la spirale del ripensamento. Per affrontare questi problemi, proponiamo BARREL, un nuovo framework che promuove un ragionamento fattuale conciso e consapevole dei limiti. I nostri esperimenti mostrano che l'addestramento con BARREL aumenta l'affidabilità di DeepSeek-R1-Distill-Llama-8B dal 39,33% al 61,48%, mantenendo comunque un'accuratezza paragonabile ai modelli perfezionati su dati di ragionamento generati da R1. Questi risultati dimostrano che il nostro studio pilota è stimolante per costruire LRMs di Sistema 2 più affidabili e fattuali.
I sistemi di ricerca conversazionale richiedono una gestione efficace di query dipendenti dal contesto che spesso contengono ambiguità, omissioni e coreferenze. La Riformulazione di Query Conversazionali (CQR) affronta questa sfida trasformando queste query in forme autonome adatte a sistemi di recupero standard. Tuttavia, gli approcci CQR esistenti soffrono di due limitazioni critiche: un'elevata dipendenza da supervisione esterna costosa, derivante da annotazioni umane o modelli linguistici di grandi dimensioni, e un allineamento insufficiente tra il modello di riscrittura e i sistemi di recupero downstream. Presentiamo ConvSearch-R1, il primo framework autoguidato che elimina completamente la dipendenza dalla supervisione esterna per la riscrittura, sfruttando l'apprendimento per rinforzo per ottimizzare direttamente la riformulazione attraverso segnali di recupero. Il nostro approccio innovativo a due fasi combina un Riscaldamento della Politica Autoguidata per affrontare il problema dell'avvio a freddo attraverso l'auto-distillazione guidata dal recupero, seguito da un Apprendimento per Rinforzo Guidato dal Recupero con un meccanismo di incentivazione del ranking appositamente progettato che risolve il problema della sparsità nelle metriche di recupero convenzionali. Esperimenti estesi sui dataset TopiOCQA e QReCC dimostrano che ConvSearch-R1 supera significativamente i precedenti metodi all'avanguardia, ottenendo un miglioramento superiore al 10% sul complesso dataset TopiOCQA utilizzando modelli più piccoli da 3 miliardi di parametri senza alcuna supervisione esterna.
Nella generazione autoregressiva standard, un LLM predice la distribuzione del token successivo, campiona un token discreto e poi scarta la distribuzione, passando solo il token campionato come nuovo input. Per preservare le ricche informazioni di questa distribuzione, proponiamo Mixture of Inputs (MoI), un metodo senza addestramento per la generazione autoregressiva. Dopo aver generato un token seguendo il paradigma standard, costruiamo un nuovo input che combina il token discreto generato con la distribuzione dei token precedentemente scartata. Nello specifico, utilizziamo un metodo di stima bayesiana che tratta la distribuzione dei token come prior, il token campionato come osservazione e sostituisce il convenzionale vettore one-hot con l'aspettativa continua a posteriori come nuovo input del modello. MoI consente al modello di mantenere una rappresentazione interna più ricca durante l'intero processo di generazione, portando a un miglioramento della qualità del testo e delle capacità di ragionamento. Su compiti di ragionamento matematico, generazione di codice e domande a livello di dottorato, MoI migliora costantemente le prestazioni su più modelli, tra cui QwQ-32B, Nemotron-Super-49B, Gemma-3-27B e DAPO-Qwen-32B, senza ulteriore addestramento e con un overhead computazionale trascurabile.
Il bias nei Large Language Models (LLM) compromette significativamente la loro affidabilità e equità. Ci concentriamo su una forma comune di bias: quando due concetti di riferimento nello spazio concettuale del modello, come le polarità di sentimento (ad esempio, "positivo" e "negativo"), sono correlati in modo asimmetrico con un terzo concetto target, come un aspetto di recensione, il modello manifesta un bias non intenzionale. Ad esempio, la comprensione di "cibo" non dovrebbe inclinarsi verso un particolare sentimento. I metodi esistenti per valutare il bias analizzano le differenze comportamentali degli LLM costruendo dati etichettati per diversi gruppi sociali e misurando le risposte del modello tra di essi, un processo che richiede un notevole sforzo umano e cattura solo un insieme limitato di concetti sociali. Per superare queste limitazioni, proponiamo BiasLens, un framework di analisi del bias senza set di test basato sulla struttura dello spazio vettoriale del modello. BiasLens combina i Vettori di Attivazione Concettuale (CAV) con gli Autoencoder Sparse (SAE) per estrarre rappresentazioni concettuali interpretabili e quantifica il bias misurando la variazione nella similarità rappresentativa tra il concetto target e ciascuno dei concetti di riferimento. Anche senza dati etichettati, BiasLens mostra una forte concordanza con le metriche tradizionali di valutazione del bias (correlazione di Spearman r > 0,85). Inoltre, BiasLens rivela forme di bias difficili da rilevare con i metodi esistenti. Ad esempio, in scenari clinici simulati, lo stato assicurativo di un paziente può portare l'LLM a produrre valutazioni diagnostiche distorte. Nel complesso, BiasLens offre un paradigma scalabile, interpretabile ed efficiente per la scoperta del bias, aprendo la strada al miglioramento dell'equità e della trasparenza negli LLM.
I potenziali interatomici e i campi di forza basati sul machine learning dipendono criticamente da strutture atomiche accurate, tuttavia tali dati sono scarsi a causa della limitata disponibilità di cristalli risolti sperimentalmente. Sebbene la microscopia elettronica a risoluzione atomica offra una potenziale fonte di dati strutturali, la conversione di queste immagini in formati pronti per la simulazione rimane laboriosa e soggetta a errori, creando un collo di bottiglia per l'addestramento e la validazione dei modelli. Introduciamo AutoMat, una pipeline end-to-end assistita da agenti che trasforma automaticamente le immagini di microscopia elettronica a scansione in trasmissione (STEM) in strutture cristalline atomiche e ne prevede le proprietà fisiche. AutoMat combina la riduzione del rumore adattiva ai pattern, il recupero di modelli guidato dalla fisica, la ricostruzione atomica consapevole della simmetria, il rilassamento rapido e la previsione delle proprietà tramite MatterSim, oltre a un'orchestrazione coordinata di tutte le fasi. Proponiamo il primo benchmark dedicato STEM2Mat-Bench per questo compito e valutiamo le prestazioni utilizzando l'RMSD del reticolo, l'errore assoluto medio (MAE) dell'energia di formazione e il tasso di successo nella corrispondenza delle strutture. Orchestrando chiamate a strumenti esterni, AutoMat consente a un LLM basato solo su testo di superare i modelli vision-language in questo dominio, raggiungendo un ragionamento a ciclo chiuso lungo l'intera pipeline. In esperimenti su larga scala su 450 campioni di strutture, AutoMat supera sostanzialmente i modelli e gli strumenti multimodali di grandi dimensioni esistenti. Questi risultati convalidano sia AutoMat che STEM2Mat-Bench, segnando un passo cruciale verso il collegamento tra microscopia e simulazione atomistica nella scienza dei materiali. Il codice e il dataset sono disponibili pubblicamente su https://github.com/yyt-2378/AutoMat e https://huggingface.co/datasets/yaotianvector/STEM2Mat.
La minimizzazione dell'entropia (EM) addestra il modello a concentrare una massa di probabilità ancora maggiore sui suoi output più confidenti. Dimostriamo che questo semplice obiettivo, da solo e senza alcun dato etichettato, può migliorare sostanzialmente le prestazioni dei grandi modelli linguistici (LLMs) su compiti impegnativi di matematica, fisica e programmazione. Esploriamo tre approcci: (1) EM-FT minimizza l'entropia a livello di token in modo simile al fine-tuning su istruzioni, ma su output non etichettati generati dal modello; (2) EM-RL: apprendimento per rinforzo con l'entropia negativa come unica ricompensa da massimizzare; (3) EM-INF: aggiustamento dei logit al momento dell'inferenza per ridurre l'entropia senza alcun dato di addestramento o aggiornamento dei parametri. Su Qwen-7B, EM-RL, senza alcun dato etichettato, raggiunge prestazioni comparabili o migliori rispetto a forti baseline di RL come GRPO e RLOO addestrate su 60K esempi etichettati. Inoltre, EM-INF consente a Qwen-32B di eguagliare o superare le prestazioni di modelli proprietari come GPT-4o, Claude 3 Opus e Gemini 1.5 Pro sul benchmark impegnativo di SciCode, pur essendo 3 volte più efficiente rispetto all'autoconsistenza e al raffinamento sequenziale. I nostri risultati rivelano che molti LLMs pre-addestrati possiedono capacità di ragionamento precedentemente sottovalutate che possono essere efficacemente elicitare attraverso la sola minimizzazione dell'entropia, senza alcun dato etichettato o persino aggiornamenti dei parametri.
Questo articolo indaga l'ingegnerizzazione preliminare dei prompt (pPE) nel contesto del fine-tuning con rinforzo (RFT), in cui i modelli linguistici (LMs) sono incentivati a esibire comportamenti che massimizzano le prestazioni attraverso segnali di ricompensa. Mentre la ricerca esistente sull'RFT si è concentrata principalmente su algoritmi, modellazione delle ricompense e curatela dei dati, la progettazione del prompt preliminare—le istruzioni preposte alle query durante l'addestramento per elicitare comportamenti come il ragionamento passo-passo—rimane poco esplorata. Indaghiamo se diversi approcci di pPE possano guidare i LMs a interiorizzare comportamenti distinti dopo l'RFT. Ispirati dall'ingegnerizzazione dei prompt al momento dell'inferenza (iPE), traduciamo cinque strategie rappresentative di iPE—ragionamento, pianificazione, ragionamento basato su codice, richiamo di conoscenze e utilizzo di esempi nulli—in corrispondenti approcci di pPE. Sperimentiamo con Qwen2.5-7B utilizzando ciascuno degli approcci di pPE, quindi valutiamo le prestazioni su benchmark in dominio e fuori dominio (ad esempio, AIME2024, HumanEval+ e GPQA-Diamond). I nostri risultati mostrano che tutti i modelli addestrati con pPE superano le loro controparti con prompt iPE, con l'approccio pPE basato su esempi nulli che ottiene il maggior guadagno medio di prestazioni e il miglioramento più alto su AIME2024 e GPQA-Diamond, superando il comunemente utilizzato approccio di ragionamento. Inoltre, adattando un framework di classificazione dei comportamenti, dimostriamo che diverse strategie di pPE instillano stili comportamentali distinti nei modelli risultanti. Questi risultati posizionano la pPE come un asse potente ma poco studiato per l'RFT.
I modelli di diffusione sono emersi come potenti strumenti generativi in vari domini, ma adattare modelli pre-addestrati per esibire specifiche proprietà desiderabili rimane una sfida. Sebbene l'apprendimento per rinforzo (RL) offra una soluzione promettente, i metodi attuali faticano a raggiungere simultaneamente un fine-tuning stabile ed efficiente e a supportare ricompense non differenziabili. Inoltre, la loro dipendenza da ricompense sparse fornisce una supervisione inadeguata durante i passaggi intermedi, spesso portando a una qualità di generazione subottimale. Per affrontare queste limitazioni, sono necessari segnali densi e differenziabili durante l'intero processo di diffusione. Pertanto, proponiamo VAlue-based Reinforced Diffusion (VARD): un approccio innovativo che prima apprende una funzione di valore che predice l'aspettativa delle ricompense dagli stati intermedi, e successivamente utilizza questa funzione di valore con regolarizzazione KL per fornire una supervisione densa durante il processo di generazione. Il nostro metodo mantiene la prossimità al modello pre-addestrato consentendo al contempo un addestramento efficace e stabile tramite backpropagation. I risultati sperimentali dimostrano che il nostro approccio facilita una migliore guida della traiettoria, migliora l'efficienza dell'addestramento e amplia l'applicabilità dell'RL ai modelli di diffusione ottimizzati per funzioni di ricompensa complesse e non differenziabili.
L'ascesa dei Large Audio Language Models (LAMs) porta con sé sia potenzialità che rischi, poiché i loro output audio possono contenere contenuti dannosi o non etici. Tuttavia, la ricerca attuale manca di una valutazione sistematica e quantitativa della sicurezza dei LAM, specialmente contro gli attacchi di jailbreak, che sono particolarmente impegnativi a causa della natura temporale e semantica del parlato. Per colmare questa lacuna, introduciamo AJailBench, il primo benchmark specificamente progettato per valutare le vulnerabilità di jailbreak nei LAM. Iniziamo costruendo AJailBench-Base, un dataset di 1.495 prompt audio avversari che coprono 10 categorie di violazioni delle policy, convertiti da attacchi di jailbreak testuali utilizzando una sintesi vocale realistica. Utilizzando questo dataset, valutiamo diversi LAM all'avanguardia e riveliamo che nessuno di essi mostra una robustezza consistente contro gli attacchi. Per rafforzare ulteriormente i test di jailbreak e simulare condizioni di attacco più realistiche, proponiamo un metodo per generare varianti avversarie dinamiche. Il nostro Audio Perturbation Toolkit (APT) applica distorsioni mirate nei domini del tempo, della frequenza e dell'ampiezza. Per preservare l'intento originale del jailbreak, imponiamo un vincolo di coerenza semantica e utilizziamo l'ottimizzazione bayesiana per cercare in modo efficiente perturbazioni che siano sia sottili che altamente efficaci. Questo porta alla creazione di AJailBench-APT, un dataset esteso di campioni audio avversari ottimizzati. I nostri risultati dimostrano che anche piccole perturbazioni, semanticamente preservate, possono ridurre significativamente le prestazioni di sicurezza dei principali LAM, sottolineando la necessità di meccanismi di difesa più robusti e semanticamente consapevoli.
L'apprendimento per rinforzo (RL) è emerso recentemente come un approccio convincente per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM), in cui un generatore LLM funge da politica guidata da un verificatore (modello di ricompensa). Tuttavia, i metodi attuali di post-addestramento RL per gli LLM utilizzano tipicamente verificatori che sono fissi (basati su regole o pre-addestrati e congelati) o addestrati in modo discriminativo tramite fine-tuning supervisionato (SFT). Tali design sono suscettibili a manipolazioni delle ricompense e generalizzano male oltre le loro distribuzioni di addestramento. Per superare queste limitazioni, proponiamo Tango, un nuovo framework che utilizza RL per addestrare contemporaneamente sia un generatore LLM che un verificatore in modo intervallato. Un'innovazione centrale di Tango è il suo verificatore LLM generativo a livello di processo, che viene addestrato tramite RL e co-evolve con il generatore. È importante sottolineare che il verificatore viene addestrato esclusivamente sulla base di ricompense di correttezza della verifica a livello di risultato, senza richiedere annotazioni esplicite a livello di processo. Questo verificatore generativo addestrato con RL mostra una maggiore robustezza e una superiore generalizzazione rispetto ai verificatori deterministici o addestrati con SFT, favorendo un efficace rinforzo reciproco con il generatore. Esperimenti estensivi dimostrano che entrambe le componenti di Tango raggiungono risultati all'avanguardia tra i modelli di scala 7B/8B: il generatore ottiene prestazioni di prim'ordine su cinque benchmark matematici di livello competitivo e quattro compiti di ragionamento fuori dominio particolarmente impegnativi, mentre il verificatore eccelle sul dataset ProcessBench. Notevolmente, entrambe le componenti mostrano miglioramenti particolarmente significativi sui problemi di ragionamento matematico più difficili. Il codice è disponibile su: https://github.com/kaiwenzha/rl-tango.
I grandi modelli multimodali (LMM) eccellono oggi in molti benchmark di visione e linguaggio, tuttavia continuano a mostrare difficoltà rispetto a criteri centrati sull'uomo come equità, etica, empatia e inclusività, elementi chiave per allinearsi ai valori umani. Introduciamo HumaniBench, un benchmark olistico composto da 32K coppie immagine-domanda del mondo reale, annotate tramite una pipeline scalabile assistita da GPT4 e verificata in modo esaustivo da esperti di dominio. HumaniBench valuta sette principi di Intelligenza Artificiale Centrata sull'Uomo (HCAI): equità, etica, comprensione, ragionamento, inclusività linguistica, empatia e robustezza, attraverso sette compiti diversificati, tra cui risposte a domande visive aperte e chiuse (VQA), QA multilingue, grounding visivo, captioning empatico e test di robustezza. Il benchmarking di 15 LMM all'avanguardia (open source e proprietari) rivela che i modelli proprietari generalmente si distinguono, sebbene robustezza e grounding visivo rimangano punti deboli. Alcuni modelli open source faticano anche a bilanciare accuratezza e aderenza ai principi allineati all'uomo. HumaniBench è il primo benchmark progettato specificamente attorno ai principi HCAI. Fornisce un rigoroso banco di prova per diagnosticare i gap di allineamento e guidare i LMM verso comportamenti sia accurati che socialmente responsabili. Il dataset, le istruzioni di annotazione e il codice di valutazione sono disponibili al seguente indirizzo: https://vectorinstitute.github.io/HumaniBench
I modelli di ricompensa sono fondamentali per allineare i LLM (Large Language Models) alle preferenze umane, ma sono costosi da addestrare, richiedendo dati su larga scala etichettati da esseri umani e potenti backbone di LLM preaddestrati. Nel frattempo, la crescente disponibilità di dataset sintetici di alta qualità per il seguimento di istruzioni solleva la domanda: metriche più semplici, basate su riferimenti, possono fungere da alternative valide ai modelli di ricompensa durante l'allineamento basato su RL (Reinforcement Learning)? In questo articolo, dimostriamo innanzitutto che BLEU, una metrica di base per la corrispondenza di stringhe, sorprendentemente eguaglia i modelli di ricompensa più robusti nel concordare con le preferenze umane su dataset generali di seguimento di istruzioni. Sulla base di questa intuizione, sviluppiamo BLEUBERI, un metodo che prima identifica istruzioni complesse e poi applica l'ottimizzazione relativa delle politiche di gruppo (GRPO) utilizzando direttamente BLEU come funzione di ricompensa. Dimostriamo che i modelli addestrati con BLEUBERI sono competitivi rispetto ai modelli addestrati tramite RL guidato da modelli di ricompensa su quattro benchmark impegnativi di seguimento di istruzioni e tre diversi modelli linguistici di base. Una valutazione umana supporta ulteriormente che la qualità degli output dei modelli BLEUBERI è alla pari con quella dei modelli allineati tramite modelli di ricompensa. Inoltre, i modelli BLEUBERI generano output più ancorati ai fatti rispetto ai metodi concorrenti. Nel complesso, mostriamo che, data la disponibilità di output di riferimento di alta qualità (facilmente ottenibili tramite dataset esistenti di seguimento di istruzioni o generazione di dati sintetici), le metriche basate sulla corrispondenza di stringhe sono proxy economici ma efficaci per i modelli di ricompensa durante l'allineamento. Rilasciamo il nostro codice e i dati su https://github.com/lilakk/BLEUBERI.
Il decoding speculativo è emerso come un metodo popolare per accelerare l'inferenza dei Large Language Models (LLM) mantenendo la loro superiore performance nella generazione di testo. I metodi precedenti adottano una configurazione fissa di decoding speculativo indipendentemente dai token di prefisso, oppure addestrano modelli draft in modo offline o online per allinearli al contesto. Questo articolo propone un framework di apprendimento online senza addestramento per scegliere in modo adattivo la configurazione degli iperparametri per il decoding speculativo mentre il testo viene generato. Inizialmente, formuliamo questo problema di selezione degli iperparametri come un problema di Multi-Armed Bandit e forniamo un framework generale di decoding speculativo chiamato BanditSpec. Inoltre, vengono progettati e analizzati due algoritmi di selezione degli iperparametri basati su bandit, UCBSpec e EXP3Spec, in termini di una nuova quantità, il rimpianto del tempo di arresto. Limitiamo superiormente questo rimpianto sia in contesti di ricompensa stocastica che avversaria. Derivando un risultato di impossibilità teorico-informativa, si dimostra che la performance del rimpianto di UCBSpec è ottimale fino a costanti universali. Infine, esperimenti empirici estesi con LLaMA3 e Qwen2 dimostrano che i nostri algoritmi sono efficaci rispetto ai metodi esistenti, e la produttività è vicina al miglior iperparametro oracolo in scenari simulati di servizio LLM con prompt di input diversi.
I sistemi multi-agente (MAS) basati su Large Language Model (LLM) dimostrano un potenziale straordinario per la scoperta scientifica. Tuttavia, gli approcci esistenti spesso automatizzano la scoperta scientifica utilizzando flussi di lavoro predefiniti che mancano di vincoli di razionalità. Ciò porta frequentemente a ipotesi senza scopo e a una mancata connessione sistematica tra ipotesi ed evidenze, ostacolando così la riduzione sistematica dell'incertezza. Superare queste limitazioni richiede fondamentalmente una riduzione strutturata dell'incertezza. Introduciamo PiFlow, un framework teorico-informatico che tratta la scoperta scientifica automatizzata come un problema strutturato di riduzione dell'incertezza guidato da principi (ad esempio, leggi scientifiche). Nelle valutazioni condotte in tre distinti domini scientifici — la scoperta di strutture nanomateriali, biomolecole e candidati superconduttori con proprietà mirate — il nostro metodo migliora significativamente l'efficienza della scoperta, riflessa da un aumento del 73,55\% nell'Area Under the Curve (AUC) dei valori delle proprietà rispetto ai passi di esplorazione, e migliora la qualità delle soluzioni del 94,06\% rispetto a un sistema di agenti standard. Nel complesso, PiFlow funziona come un metodo Plug-and-Play, stabilendo un nuovo paradigma per una scoperta scientifica automatizzata altamente efficiente, aprendo la strada a una ricerca guidata dall'IA più robusta e accelerata. Il codice è disponibile pubblicamente sul nostro {GitHub} all'indirizzo https://github.com/amair-lab/PiFlow.
Valutare in modo robusto le capacità di narrazione a lungo termine dei Modelli Linguistici di Grande Dimensione (LLM) rimane una sfida significativa, poiché i benchmark esistenti spesso mancano della scala, diversità o misure oggettive necessarie. Per affrontare questo problema, introduciamo WebNovelBench, un nuovo benchmark specificamente progettato per valutare la generazione di romanzi a lungo termine. WebNovelBench sfrutta un dataset su larga scala di oltre 4.000 romanzi web cinesi, inquadrando la valutazione come un compito di generazione da sinossi a storia. Proponiamo un framework multi-faccettato che comprende otto dimensioni di qualità narrativa, valutate automaticamente attraverso un approccio LLM-as-Judge. I punteggi vengono aggregati utilizzando l'Analisi delle Componenti Principali e mappati su un rango percentile rispetto a opere scritte da esseri umani. I nostri esperimenti dimostrano che WebNovelBench differenzia efficacemente tra capolavori scritti da esseri umani, romanzi web popolari e contenuti generati da LLM. Forniamo un'analisi completa di 24 LLM all'avanguardia, classificando le loro capacità narrative e offrendo spunti per futuri sviluppi. Questo benchmark fornisce una metodologia scalabile, replicabile e basata sui dati per valutare e avanzare la generazione narrativa guidata da LLM.
I grandi modelli multimodali eccellono nei compiti multimodali ma affrontano significative sfide computazionali a causa dell'eccessivo calcolo sui token visivi. A differenza dei metodi di riduzione dei token che si concentrano sulla ridondanza a livello di token, noi identifichiamo e studiamo la ridondanza a livello di calcolo sui token visivi per garantire che non ci sia perdita di informazioni. La nostra intuizione chiave è che i token visivi provenienti dall'encoder visivo pre-addestrato non richiedono necessariamente tutte le operazioni pesanti (ad esempio, self-attention, FFN) nei LMM solo decoder e potrebbero essere elaborati in modo più leggero con progetti adeguati. Abbiamo progettato una serie di esperimenti per scoprire e ridurre progressivamente la ridondanza computazionale legata alla visione. Sulla base delle nostre scoperte, proponiamo ProxyV, un approccio innovativo che utilizza token visivi proxy per alleviare il carico computazionale sui token visivi originali. ProxyV migliora l'efficienza senza compromettere le prestazioni e può persino produrre notevoli miglioramenti delle prestazioni in scenari con miglioramenti di efficienza più moderati. Inoltre, la flessibilità di ProxyV è dimostrata dalla sua combinazione con metodi di riduzione dei token per aumentare ulteriormente l'efficienza. Il codice sarà reso pubblico all'URL https://github.com/penghao-wu/ProxyV.
Il riconoscimento audio-visivo del parlato (AVSR) migliora la robustezza in ambienti rumorosi integrando segnali visivi. Sebbene i recenti progressi integrino modelli linguistici di grandi dimensioni (LLM) nell'AVSR, il loro elevato costo computazionale ne ostacola l'implementazione in contesti con risorse limitate. Per affrontare questo problema, proponiamo Llama-SMoP, un LLM multimodale efficiente che utilizza un modulo Sparse Mixture of Projectors (SMoP) per scalare la capacità del modello senza aumentare i costi di inferenza. Incorporando proiettori a miscela di esperti (MoE) con gate sparsi, Llama-SMoP consente l'uso di LLM più piccoli mantenendo prestazioni elevate. Esploriamo tre configurazioni SMoP e dimostriamo che Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), che utilizza router ed esperti specifici per modalità, raggiunge prestazioni superiori nei compiti di ASR, VSR e AVSR. Studi di ablazione ne confermano l'efficacia nell'attivazione degli esperti, nella scalabilità e nella robustezza al rumore.
Gli ascoltatori umani si adattano facilmente a parlanti non familiari e varietà linguistiche attraverso l'esposizione, ma questi benefici di adattamento si estendono ai modelli di linguaggio parlato all'avanguardia? Introduciamo un framework scalabile che consente l'apprendimento in contesto (ICL) in Phi-4 Multimodal utilizzando prompt di task intervallati e coppie audio-testo, e scopriamo che anche solo 12 esempi di enunciati (~50 secondi) al momento dell'inferenza riducono i tassi di errore sulle parole di un relativo 19,7% (1,2 pp.) in media su diversi corpora inglesi. Questi miglioramenti sono più evidenti nelle varietà a bassa risorsa, quando il contesto e il parlante target coincidono, e quando vengono forniti più esempi—sebbene il ridimensionamento della nostra procedura produca rendimenti marginali decrescenti rispetto alla lunghezza del contesto. Nel complesso, scopriamo che il nostro nuovo schema di adattamento ICL (1) rivela un profilo di prestazioni simile a quello degli ascoltatori umani e (2) dimostra miglioramenti consistenti nella robustezza del riconoscimento automatico del parlato (ASR) tra parlanti e background linguistici diversi. Sebbene l'adattamento abbia successo in generale, permangono lacune significative per alcune varietà, rivelando dove i modelli attuali sono ancora inferiori alla flessibilità umana. Rilasciamo i nostri prompt e il codice su GitHub.
I modelli linguistici di grandi dimensioni (LLM) presentano limitazioni intrinseche in termini di affidabilità e veridicità, comunemente denominate allucinazioni. Sono stati sviluppati diversi benchmark che forniscono un ambiente di test per la valutazione della veridicità nel contesto di dataset centrati sulla lingua inglese, basandosi su contesti informativi supplementari come link web o passaggi di testo, ma ignorando le risorse strutturate di fatti disponibili. A tal fine, i Knowledge Graph (KG) sono stati identificati come un utile strumento per la mitigazione delle allucinazioni, poiché forniscono un modo strutturato per rappresentare i fatti relativi alle entità e alle loro relazioni con un sovraccarico linguistico minimo. Colmiamo la mancanza di percorsi KG e di multilinguità per la modellazione linguistica fattuale all'interno degli esistenti benchmark di valutazione delle allucinazioni e proponiamo un benchmark multilingue e multihop basato su KG, chiamato MultiHal, progettato per la valutazione di testi generativi. Come parte della nostra pipeline di raccolta dati, abbiamo estratto 140k percorsi KG da KG a dominio aperto, dai quali abbiamo eliminato i percorsi KG rumorosi, curando un sottoinsieme di alta qualità di 25.9k. La nostra valutazione di base mostra un aumento assoluto della scala di circa 0,12 a 0,36 punti per il punteggio di similarità semantica in KG-RAG rispetto al QA standard in più lingue e su più modelli, dimostrando il potenziale dell'integrazione dei KG. Prevediamo che MultiHal favorirà future ricerche verso diverse attività di mitigazione delle allucinazioni e verifica dei fatti basate su grafi.
Il code-switching è un fenomeno comune che consiste nell'alternare diverse lingue all'interno dello stesso enunciato, pensiero o conversazione. Proponiamo che gli esseri umani ricorrano al code-switching perché si sentono più a loro agio nel parlare di determinati argomenti e domini in una lingua piuttosto che in un'altra. Con l'ascesa dei modelli linguistici ad alta intensità di conoscenza, ci poniamo la successiva, naturale domanda: i modelli potrebbero possedere più conoscenza su alcuni argomenti in una determinata lingua X? Ancora più importante, potremmo migliorare il ragionamento cambiando la lingua in cui esso viene svolto? Coniamo il termine Conoscenza Specifica della Lingua (Language Specific Knowledge, LSK) per rappresentare questo fenomeno. Poiché le culture etniche tendono a svilupparsi parallelamente a lingue diverse, utilizziamo dataset specifici per cultura (che contengono conoscenze sulle norme comportamentali culturali e sociali). Scopriamo che i modelli linguistici possono performare meglio quando utilizzano il ragionamento a catena di pensiero in alcune lingue diverse dall'inglese, a volte persino meglio in lingue a bassa risorsa. Insieme a lavori precedenti che dimostrano come la somiglianza semantica non equivalga alla somiglianza rappresentazionale, ipotizziamo che i testi specifici per cultura siano più abbondanti nelle lingue corrispondenti, permettendo a conoscenze specifiche di manifestarsi solo in determinate lingue "esperte". Motivati dai nostri risultati iniziali, progettiamo una metodologia semplice chiamata LSKExtractor per valutare la conoscenza specifica della lingua presente in un modello linguistico e, successivamente, sfruttarla durante l'inferenza. Mostriamo i nostri risultati su vari modelli e dataset, evidenziando un miglioramento relativo medio del 10% in termini di accuratezza. La nostra ricerca contribuisce allo sviluppo open-source di modelli linguistici che siano inclusivi e più allineati con i contesti culturali e linguistici in cui vengono implementati.