Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo lavoro, introduciamo il Reinforcement Pre-Training (RPT) come un nuovo paradigma di scalabilità per i grandi modelli linguistici e l'apprendimento per rinforzo (RL). Nello specifico, riformuliamo la previsione del token successivo come un compito di ragionamento addestrato utilizzando RL, in cui il modello riceve ricompense verificabili per aver previsto correttamente il token successivo dato un contesto. RPT offre un metodo scalabile per sfruttare grandi quantità di dati testuali per l'apprendimento per rinforzo di tipo generale, anziché affidarsi a risposte annotate specifiche per dominio. Incentivando la capacità di ragionamento sui token successivi, RPT migliora significativamente l'accuratezza della modellazione linguistica nella previsione dei token successivi. Inoltre, RPT fornisce una solida base pre-addestrata per un ulteriore fine-tuning con rinforzo. Le curve di scalabilità mostrano che l'aumento della potenza di calcolo durante l'addestramento migliora costantemente l'accuratezza nella previsione dei token successivi. I risultati posizionano RPT come un paradigma di scalabilità efficace e promettente per avanzare il pre-addestramento dei modelli linguistici.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato capacità impressionanti nella comprensione di elementi visivi comuni, grazie principalmente ai loro dataset su larga scala e alle avanzate strategie di addestramento. Tuttavia, la loro efficacia nelle applicazioni mediche rimane limitata a causa delle discrepanze intrinseche tra i dati e i compiti negli scenari medici rispetto a quelli del dominio generale. Nello specifico, gli attuali MLLMs medici presentano le seguenti limitazioni critiche: (1) copertura limitata della conoscenza medica al di là delle immagini, (2) maggiore suscettibilità alle allucinazioni dovuta a processi di curatela dei dati non ottimali, (3) mancanza di capacità di ragionamento adattate a scenari medici complessi. Per affrontare queste sfide, proponiamo innanzitutto una procedura completa di curatela dei dati che (1) acquisisce in modo efficiente dati ricchi di conoscenza medica non solo dalle immagini mediche ma anche da testi medici estesi e dati di dominio generale; e (2) sintetizza descrizioni mediche accurate, risposte a domande visive (VQA) e campioni di ragionamento. Di conseguenza, costruiamo un dataset multimodale arricchito con una vasta conoscenza medica. Basandoci sui dati curati, introduciamo il nostro MLLM specializzato in medicina: Lingshu. Lingshu viene sottoposto a un addestramento multi-fase per incorporare competenze mediche e migliorare progressivamente le sue capacità di risoluzione dei compiti. Inoltre, esploriamo preliminarmente il potenziale di applicare il paradigma del reinforcement learning con ricompense verificabili per migliorare la capacità di ragionamento medico di Lingshu. In aggiunta, sviluppiamo MedEvalKit, un framework di valutazione unificato che consolida i principali benchmark medici multimodali e testuali per una valutazione del modello standardizzata, equa ed efficiente. Valutiamo le prestazioni di Lingshu su tre compiti medici fondamentali: QA multimodale, QA basato su testo e generazione di referti medici. I risultati mostrano che Lingshu supera costantemente i modelli multimodali open-source esistenti nella maggior parte dei compiti...
Questo articolo introduce MiniCPM4, un modello linguistico di grandi dimensioni (LLM) altamente efficiente progettato specificamente per dispositivi lato utente. Raggiungiamo questa efficienza attraverso innovazioni sistematiche in quattro dimensioni chiave: architettura del modello, dati di addestramento, algoritmi di addestramento e sistemi di inferenza. Nello specifico, per quanto riguarda l'architettura del modello, proponiamo InfLLM v2, un meccanismo di attenzione sparsa addestrabile che accelera sia la fase di prefilling che quella di decodifica per l'elaborazione di contesti lunghi. Per i dati di addestramento, proponiamo UltraClean, una strategia efficiente e accurata di filtraggio e generazione di dati per il pre-training, e UltraChat v2, un dataset completo per il fine-tuning supervisionato. Questi dataset consentono di ottenere prestazioni soddisfacenti del modello utilizzando solo 8 trilioni di token di addestramento. Per gli algoritmi di addestramento, proponiamo ModelTunnel v2 per una ricerca efficiente di strategie di pre-training e miglioriamo i metodi di post-training esistenti introducendo il chunk-wise rollout per l'apprendimento per rinforzo bilanciato e il modello ternario efficiente in termini di dati, BitCPM. Per i sistemi di inferenza, proponiamo CPM.cu che integra attenzione sparsa, quantizzazione del modello e campionamento speculativo per ottenere un prefilling e una decodifica efficienti. Per soddisfare diverse esigenze on-device, MiniCPM4 è disponibile in due versioni, rispettivamente con 0,5 miliardi e 8 miliardi di parametri. I risultati di valutazione mostrano che MiniCPM4 supera i modelli open-source di dimensioni simili su più benchmark, evidenziando sia la sua efficienza che la sua efficacia. In particolare, MiniCPM4-8B dimostra miglioramenti significativi nella velocità rispetto a Qwen3-8B durante l'elaborazione di sequenze lunghe. Attraverso ulteriori adattamenti, MiniCPM4 alimenta con successo diverse applicazioni, tra cui la generazione affidabile di sondaggi e l'uso di strumenti con il protocollo di contesto del modello, dimostrando chiaramente la sua ampia usabilità.
La ricerca esistente sull'assicurazione della sicurezza si è concentrata principalmente sull'allineamento durante la fase di addestramento per instillare comportamenti sicuri nei LLM. Tuttavia, studi recenti hanno evidenziato la vulnerabilità di questi metodi a diversi attacchi di jailbreak. Parallelamente, il scaling dell'inferenza ha significativamente migliorato le capacità di ragionamento dei LLM, ma rimane inesplorato nel contesto dell'assicurazione della sicurezza. Colmando questa lacuna, il nostro lavoro pionieristico applica il scaling dell'inferenza per una sicurezza robusta ed efficace dei LLM contro minacce emergenti. Riveliamo che le tecniche convenzionali di scaling dell'inferenza, nonostante il loro successo nei compiti di ragionamento, si comportano male nei contesti di sicurezza, persino inferiori a approcci di base come il Best-of-N Sampling. Attribuiamo questa inefficienza a una nuova sfida identificata, il dilemma esplorazione-efficienza, che deriva dall'elevato overhead computazionale associato alle frequenti valutazioni del modello di ricompensa del processo (PRM). Per superare questo dilemma, proponiamo SAFFRON, un nuovo paradigma di scaling dell'inferenza specificamente progettato per l'assicurazione della sicurezza. Al centro del nostro approccio c'è l'introduzione di un modello di ricompensa multiforcazione (MRM) che riduce significativamente il numero di valutazioni del modello di ricompensa richieste. Per rendere operativo questo paradigma, proponiamo ulteriormente: (i) un obiettivo di addestramento con supervisione parziale per l'MRM, (ii) un vincolo di esplorazione conservativa per prevenire esplorazioni fuori distribuzione, e (iii) una strategia di caching chiave-valore basata su Trie che facilita la condivisione della cache tra sequenze durante la ricerca ad albero. Esperimenti estesi validano l'efficacia del nostro metodo. Inoltre, rilasciamo pubblicamente il nostro modello di ricompensa multiforcazione addestrato (Saffron-1) e il dataset di ricompensa di sicurezza a livello di token (Safety4M) per accelerare la ricerca futura sulla sicurezza dei LLM. Il nostro codice, modello e dati sono pubblicamente disponibili su https://github.com/q-rz/saffron, e la nostra homepage del progetto è su https://q-rz.github.io/p/saffron.
SpatialLM è un modello linguistico di grandi dimensioni progettato per elaborare dati di nuvole di punti 3D e generare output strutturati di comprensione delle scene 3D. Questi output includono elementi architettonici come pareti, porte, finestre e box di oggetti orientati con le loro categorie semantiche. A differenza dei metodi precedenti che sfruttano design di rete specifici per il compito, il nostro modello aderisce all'architettura standard dei modelli linguistici multimodali (LLM) ed è messo a punto direttamente a partire da LLM open-source. Per addestrare SpatialLM, abbiamo raccolto un ampio dataset sintetico di alta qualità composto dalle nuvole di punti di 12.328 scene interne (54.778 stanze) con annotazioni 3D di riferimento, e abbiamo condotto uno studio accurato su varie decisioni di modellazione e addestramento. Su benchmark pubblici, il nostro modello raggiunge prestazioni all'avanguardia nella stima del layout e risultati competitivi nel rilevamento di oggetti 3D. Con ciò, dimostriamo una via percorribile per potenziare le capacità di comprensione spaziale dei moderni LLM per applicazioni nella realtà aumentata, nella robotica incarnata e altro ancora.
I modelli Text-to-Image (T2I) hanno attirato notevole attenzione per la generazione di immagini di alta qualità allineate ai prompt testuali. Tuttavia, i rapidi progressi nei modelli T2I hanno rivelato limitazioni nei benchmark iniziali, che mancano di valutazioni complete, ad esempio, nella valutazione del ragionamento, del rendering del testo e dello stile. In particolare, i recenti modelli all'avanguardia, con le loro avanzate capacità di modellazione della conoscenza, mostrano risultati promettenti nei problemi di generazione di immagini che richiedono una forte capacità di ragionamento, ma i sistemi di valutazione esistenti non hanno adeguatamente affrontato questa frontiera. Per colmare sistematicamente queste lacune, introduciamo OneIG-Bench, un framework di benchmark completo e meticolosamente progettato per la valutazione granulare dei modelli T2I su più dimensioni, tra cui l'allineamento prompt-immagine, la precisione del rendering del testo, il contenuto generato dal ragionamento, la stilizzazione e la diversità. Strutturando la valutazione, questo benchmark consente un'analisi approfondita delle prestazioni del modello, aiutando ricercatori e professionisti a identificare punti di forza e colli di bottiglia nell'intero processo di generazione delle immagini. Nello specifico, OneIG-Bench consente una valutazione flessibile permettendo agli utenti di concentrarsi su un sottoinsieme specifico di valutazione. Invece di generare immagini per l'intero set di prompt, gli utenti possono generare immagini solo per i prompt associati alla dimensione selezionata e completare la valutazione corrispondente di conseguenza. Il nostro codice e dataset sono ora pubblicamente disponibili per facilitare studi di valutazione riproducibili e confronti incrociati tra modelli all'interno della comunità di ricerca T2I.
Gli encoder visivi sono sempre più utilizzati nelle applicazioni moderne, dai modelli esclusivamente visivi ai sistemi multimodali come i modelli visione-linguaggio. Nonostante il loro notevole successo, rimane poco chiaro come queste architetture rappresentino internamente le caratteristiche. Qui proponiamo un nuovo approccio per interpretare le caratteristiche visive attraverso la ricostruzione delle immagini. Confrontiamo due famiglie di modelli correlate, SigLIP e SigLIP2, che differiscono solo per il loro obiettivo di addestramento, e dimostriamo che gli encoder pre-addestrati su compiti basati su immagini conservano significativamente più informazioni visive rispetto a quelli addestrati su compiti non visivi come l'apprendimento contrastivo. Applichiamo ulteriormente il nostro metodo a una gamma di encoder visivi, classificandoli in base all'informatività delle loro rappresentazioni delle caratteristiche. Infine, dimostriamo che la manipolazione dello spazio delle caratteristiche produce cambiamenti prevedibili nelle immagini ricostruite, rivelando che le rotazioni ortogonali (piuttosto che le trasformazioni spaziali) controllano la codifica del colore. Il nostro approccio può essere applicato a qualsiasi encoder visivo, gettando luce sulla struttura interna del suo spazio delle caratteristiche. Il codice e i pesi del modello per riprodurre gli esperimenti sono disponibili su GitHub.
I moderni sistemi di navigazione robotica incontrano difficoltà in ambienti interni diversificati e complessi. Gli approcci tradizionali si basano su più moduli con modelli di piccole dimensioni o sistemi basati su regole, mancando quindi di adattabilità a nuovi ambienti. Per affrontare questo problema, abbiamo sviluppato Astra, un'architettura dual-model completa, Astra-Global e Astra-Local, per la navigazione di robot mobili. Astra-Global, un LLM multimodale, elabora input visivi e linguistici per eseguire la localizzazione del robot e dell'obiettivo utilizzando un grafo topologico-semantico ibrido come mappa globale, superando i tradizionali metodi di riconoscimento visivo dei luoghi. Astra-Local, una rete multitask, gestisce la pianificazione del percorso locale e la stima dell'odometria. Il suo codificatore spazio-temporale 4D, addestrato attraverso l'apprendimento auto-supervisionato, genera robuste caratteristiche 4D per i task successivi. La testa di pianificazione utilizza il flow matching e una nuova funzione di perdita ESDF mascherata per minimizzare i rischi di collisione nella generazione di traiettorie locali, mentre la testa di odometria integra input multi-sensoriali tramite un encoder transformer per prevedere la posa relativa del robot. Implementato su robot mobili reali in ambienti interni, Astra raggiunge un'elevata percentuale di successo end-to-end in una varietà di ambienti interni.
I Modelli di Markov Nascosti (HMM) sono strumenti fondamentali per modellare dati sequenziali con struttura latente di Markov, ma adattarli a dati del mondo reale rimane una sfida computazionale. In questo lavoro, dimostriamo che i modelli linguistici pre-addestrati su larga scala (LLM) possono modellare efficacemente i dati generati da HMM attraverso l'apprendimento in contesto (ICL)x2013la loro capacità di inferire schemi da esempi all'interno di un prompt. Su un insieme diversificato di HMM sintetici, gli LLM raggiungono un'accuratezza predittiva che si avvicina all'ottimo teorico. Scopriamo nuove tendenze di scalabilità influenzate dalle proprietà degli HMM e offriamo congetture teoriche per queste osservazioni empiriche. Forniamo inoltre linee guida pratiche per gli scienziati sull'uso dell'ICL come strumento diagnostico per dati complessi. Su compiti reali di decisione animale, l'ICL ottiene prestazioni competitive con modelli progettati da esperti umani. A nostra conoscenza, questa è la prima dimostrazione che l'ICL può apprendere e prevedere sequenze generate da HMMx2013un progresso che approfondisce la nostra comprensione dell'apprendimento in contesto negli LLM e ne stabilisce il potenziale come strumento potente per scoprire strutture nascoste in dati scientifici complessi.
Indaghiamo il meccanismo alla base di un fenomeno precedentemente identificato nei Vision Transformers: l'emergenza di token ad alta norma che portano a mappe di attenzione rumorose. Osserviamo che in diversi modelli (ad esempio, CLIP, DINOv2), un insieme sparso di neuroni è responsabile della concentrazione di attivazioni ad alta norma su token anomali, portando a schemi di attenzione irregolari e degradando l'elaborazione visiva a valle. Mentre la soluzione esistente per rimuovere questi outlier prevede il riaddestramento dei modelli da zero con l'aggiunta di token di registro appresi, utilizziamo le nostre scoperte per creare un approccio privo di addestramento per mitigare questi artefatti. Spostando le attivazioni ad alta norma dai neuroni di registro da noi scoperti in un token aggiuntivo non addestrato, possiamo mimare l'effetto dei token di registro su un modello già addestrato senza registri. Dimostriamo che il nostro metodo produce mappe di attenzione e feature più pulite, migliora le prestazioni rispetto ai modelli di base in diverse attività visive a valle e ottiene risultati comparabili a modelli addestrati esplicitamente con token di registro. Estendiamo quindi i registri al momento del test a modelli visione-linguaggio pronti all'uso per migliorarne l'interpretabilità. I nostri risultati suggeriscono che i registri al momento del test assumono efficacemente il ruolo dei token di registro durante il test, offrendo una soluzione priva di addestramento per qualsiasi modello pre-addestrato rilasciato senza di essi.
I modelli Vision-Language-Action (VLA) hanno dimostrato capacità impressionanti in un'ampia gamma di attività di manipolazione robotica. Tuttavia, le loro dimensioni crescenti pongono sfide significative per il dispiegamento su sistemi robotici con risorse limitate. Sebbene il pre-addestramento a 1 bit si sia dimostrato efficace per migliorare l'efficienza inferenziale di grandi modelli linguistici con una minima perdita di prestazioni, la sua applicazione ai modelli VLA rimane poco esplorata. In questo lavoro, presentiamo BitVLA, il primo modello VLA a 1 bit per la manipolazione robotica, in cui ogni parametro è ternario, ovvero {-1, 0, 1}. Per ridurre ulteriormente l'impronta di memoria dell'encoder visivo, proponiamo una strategia di addestramento consapevole della distillazione che comprime l'encoder a precisione completa in pesi a 1,58 bit. Durante questo processo, un encoder a precisione completa funge da modello insegnante per allineare meglio le rappresentazioni latenti. Nonostante la mancanza di un pre-addestramento robotico su larga scala, BitVLA raggiunge prestazioni paragonabili al modello all'avanguardia OpenVLA-OFT con quantizzazione post-addestramento a 4 bit sul benchmark LIBERO, consumando solo il 29,8% della memoria. Questi risultati evidenziano il potenziale di BitVLA per il dispiegamento su dispositivi edge con memoria limitata. Rilasciamo il codice e i pesi del modello su https://github.com/ustcwhy/BitVLA.
I Transformer Multimodali per Diffusione (MM-DiT) hanno ottenuto progressi significativi nella generazione visiva guidata da testo. Tuttavia, anche modelli MM-DiT all'avanguardia come FLUX incontrano difficoltà nel raggiungere un allineamento preciso tra i prompt testuali e il contenuto generato. Identifichiamo due problemi chiave nel meccanismo di attenzione degli MM-DiT, ovvero 1) la soppressione dell'attenzione cross-modale a causa dello squilibrio di token tra le modalità visiva e testuale e 2) la mancanza di una ponderazione dell'attenzione consapevole del timestep, che ostacolano l'allineamento. Per affrontare questi problemi, proponiamo l'Attenzione Cross-modale con Regolazione della Temperatura (TACA), un metodo efficiente in termini di parametri che ribilancia dinamicamente le interazioni multimodali attraverso il ridimensionamento della temperatura e l'adeguamento dipendente dal timestep. Quando combinato con il fine-tuning LoRA, TACA migliora significativamente l'allineamento testo-immagine sul benchmark T2I-CompBench con un sovraccarico computazionale minimo. Abbiamo testato TACA su modelli all'avanguardia come FLUX e SD3.5, dimostrando la sua capacità di migliorare l'allineamento immagine-testo in termini di aspetto degli oggetti, associazione degli attributi e relazioni spaziali. I nostri risultati evidenziano l'importanza di bilanciare l'attenzione cross-modale per migliorare la fedeltà semantica nei modelli di diffusione testo-immagine. I nostri codici sono disponibili pubblicamente all'indirizzo https://github.com/Vchitect/TACA.
La supervisione con lunghe catene di pensiero (CoT) è diventata una strategia comune per potenziare il ragionamento nei modelli linguistici. Sebbene efficace per i modelli di grandi dimensioni, abbiamo identificato un fenomeno che chiamiamo Degradazione da Lunga CoT, in cui i piccoli modelli linguistici (SLM; <=3B parametri) addestrati su dati limitati di lunghe CoT subiscono un significativo deterioramento delle prestazioni. Attraverso esperimenti estesi sulle famiglie Qwen2.5, LLaMA3 e Gemma3, dimostriamo che questa degradazione è diffusa tra gli SLM. In alcuni contesti, i modelli addestrati su soli 8k esempi di lunghe CoT perdono fino al 75% delle loro prestazioni originali prima del fine-tuning. Sorprendentemente, osserviamo inoltre che per alcuni modelli particolarmente piccoli, anche l'addestramento su 220k esempi di lunghe CoT non riesce a recuperare o superare le loro prestazioni originali prima del fine-tuning. La nostra analisi attribuisce questo effetto all'accumulo di errori: sebbene risposte più lunghe aumentino la capacità di ragionamento multi-step, amplificano anche il rischio di errori composti. Inoltre, scopriamo che la Degradazione da Lunga CoT può influire negativamente sull'apprendimento per rinforzo (RL) a valle, sebbene ciò possa essere mitigato da un fine-tuning supervisionato (SFT) sufficientemente scalato. Le nostre scoperte mettono in discussione le assunzioni comuni sui benefici dell'addestramento con lunghe CoT per gli SLM e offrono indicazioni pratiche per costruire modelli di ragionamento su piccola scala più efficaci.
Lo sviluppo di capacità di ragionamento generalizzabili nei modelli linguistici multimodali di grandi dimensioni (MLLM) rimane una sfida. Ispirati dalla letteratura delle scienze cognitive che suggerisce come il gioco promuova abilità cognitive trasferibili, proponiamo un nuovo paradigma di post-addestramento, Visual Game Learning, o ViGaL, in cui gli MLLM sviluppano una generalizzazione fuori dominio del ragionamento multimodale attraverso il gioco di arcade. Nello specifico, dimostriamo che il post-addestramento di un MLLM con 7 miliardi di parametri tramite apprendimento per rinforzo (RL) su semplici giochi arcade, come Snake, migliora significativamente le sue prestazioni downstream su benchmark multimodali di matematica come MathVista e su domande multidisciplinari come MMMU, senza che il modello veda soluzioni, equazioni o diagrammi durante l'RL, suggerendo l'acquisizione di abilità di ragionamento trasferibili. Notevolmente, il nostro modello supera modelli specializzati ottimizzati su dati di ragionamento multimodale nei benchmark di ragionamento multimodale, preservando al contempo le prestazioni del modello base su benchmark visivi generali, una sfida in cui i modelli specializzati spesso falliscono. I nostri risultati suggeriscono un nuovo paradigma di post-addestramento: giochi sintetici basati su regole possono servire come compiti pre-testo controllabili e scalabili che sbloccano abilità di ragionamento multimodale generalizzabili negli MLLM.
Il riconoscimento ottico della struttura chimica (OCSR) è fondamentale per la digitalizzazione della conoscenza chimica, convertendo immagini molecolari in formati leggibili dalle macchine. Sebbene i recenti modelli visione-linguaggio (VLMs) abbiano mostrato potenziale in questo compito, il loro approccio di generazione di didascalie spesso incontra difficoltà con strutture molecolari complesse e annotazioni inconsistenti. Per superare queste sfide, introduciamo GTR-Mol-VLM, un nuovo framework che presenta due innovazioni chiave: (1) il meccanismo di Graph Traversal as Visual Chain of Thought, che emula il ragionamento umano analizzando gradualmente i grafi molecolari attraverso previsioni sequenziali di atomi e legami, e (2) il principio data-centric di Faithfully Recognize What You've Seen, che affronta la discrepanza tra strutture abbreviate nelle immagini e le loro annotazioni estese. Per supportare lo sviluppo del modello, abbiamo costruito GTR-CoT-1.3M, un ampio dataset di instruction-tuning con annotazioni accuratamente corrette, e introdotto MolRec-Bench, il primo benchmark progettato per una valutazione granulare dell'accuratezza del parsing di grafi in OCSR. Esperimenti completi dimostrano che GTR-Mol-VLM ottiene risultati superiori rispetto a modelli specializzati, VLMs nel dominio della chimica e VLMs generici commerciali. In particolare, in scenari che coinvolgono immagini molecolari con abbreviazioni di gruppi funzionali, GTR-Mol-VLM supera il secondo miglior baseline di circa 14 punti percentuali, sia in metriche basate su SMILES che su grafi. Speriamo che questo lavoro spinga la tecnologia OCSR a soddisfare più efficacemente le esigenze del mondo reale, contribuendo così ai progressi nei campi della chemioinformatica e dell'AI for Science. Rilasceremo GTR-CoT su https://github.com/opendatalab/GTR-CoT.
Introduciamo la Valutazione dei Discorsi Dibattimentali come un nuovo e impegnativo benchmark per valutare i giudici LLM. Valutare i discorsi dibattimentali richiede una profonda comprensione del discorso a più livelli, inclusa la forza e la rilevanza degli argomenti, la coerenza e l'organizzazione del discorso, l'appropriatezza dello stile e del tono, e così via. Questo compito coinvolge un insieme unico di abilità cognitive che hanno ricevuto finora un'attenzione limitata nei benchmark sistematici degli LLM. Per esplorare tali abilità, sfruttiamo un dataset di oltre 600 discorsi dibattimentali meticolosamente annotati e presentiamo la prima analisi approfondita di come gli LLM all'avanguardia si confrontino con i giudici umani in questo compito. Le nostre scoperte rivelano un quadro sfumato: mentre i modelli più grandi possono approssimare i giudizi individuali degli esseri umani sotto alcuni aspetti, differiscono sostanzialmente nel loro comportamento complessivo di giudizio. Investigiamo inoltre la capacità degli LLM di frontiera di generare discorsi persuasivi e opinionati, dimostrando che i modelli possono raggiungere un livello umano in questo compito.
Le ultime generazioni di modelli linguistici hanno introdotto i Large Reasoning Models (LRM), che generano processi di pensiero dettagliati prima di fornire risposte. Sebbene questi modelli dimostrino prestazioni migliorate nei benchmark di ragionamento, le loro capacità fondamentali, proprietà di scalabilità e limitazioni rimangono insufficientemente comprese. Le valutazioni attuali si concentrano principalmente su benchmark consolidati di matematica e programmazione, enfatizzando l'accuratezza delle risposte finali. Tuttavia, questo paradigma di valutazione spesso soffre di contaminazione e non fornisce approfondimenti sulle tracce di ragionamento. In questo lavoro, indaghiamo sistematicamente queste lacune con l'aiuto di ambienti di puzzle controllabili che consentono una manipolazione precisa della complessità mantenendo strutture logiche consistenti. Questa configurazione permette l'analisi non solo delle risposte finali, ma anche delle tracce di ragionamento interne, offrendo intuizioni su come pensano gli LRM. Attraverso esperimenti estesi, dimostriamo che gli LRM affrontano un collasso completo dell'accuratezza oltre determinate complessità. Inoltre, mostrano un limite di scalabilità controintuitivo: il loro sforzo di ragionamento aumenta con la complessità del problema fino a un certo punto, per poi diminuire nonostante rimanga un budget di token disponibile. Confrontando gli LRM con le loro controparti standard LLM sotto lo stesso calcolo di inferenza, identifichiamo tre regimi di prestazione: (1) compiti a bassa complessità in cui i modelli standard superano gli LRM, (2) compiti a media complessità in cui gli LRM dimostrano un vantaggio, e (3) compiti ad alta complessità in cui entrambi i modelli affrontano un collasso completo. Abbiamo scoperto che gli LRM hanno limitazioni nel calcolo esatto: non riescono a utilizzare algoritmi espliciti e ragionano in modo inconsistente su diverse scale. Investigiamo inoltre più a fondo le tracce di ragionamento, studiando i modelli delle soluzioni esplorate e analizzando il comportamento computazionale dei modelli, gettando luce sui loro punti di forza, limitazioni e sollevando domande sulle loro capacità di ragionamento.
In che misura i modelli foundation visione-e-linguaggio possiedono un modello realistico del mondo (osservazione per azione freccia destra osservazione) e un modello dinamico (osservazione per osservazione freccia destra azione), quando le azioni sono espresse attraverso il linguaggio? Mentre i modelli foundation open-source faticano in entrambi i casi, scopriamo che il fine-tuning per acquisire un modello dinamico attraverso la supervisione è significativamente più semplice rispetto all'acquisizione di un modello del mondo. A loro volta, i modelli dinamici possono essere utilizzati per avviare modelli del mondo attraverso due strategie principali: 1) apprendimento debolmente supervisionato da dati sintetici e 2) verifica al momento dell'inferenza. In primo luogo, il modello dinamico può annotare le azioni per coppie non etichettate di osservazioni di frame video per espandere i dati di addestramento. Proponiamo inoltre un nuovo obiettivo, in cui i token delle immagini nelle coppie di osservazioni sono ponderati in base alla loro importanza, come previsto da un modello di riconoscimento. In secondo luogo, i modelli dinamici possono assegnare ricompense a più campioni del modello del mondo per valutarli, guidando efficacemente la ricerca al momento dell'inferenza. Valutiamo i modelli del mondo risultanti da entrambe le strategie attraverso il compito di editing di immagini centrato sull'azione su Aurora-Bench. Il nostro miglior modello raggiunge una performance competitiva con i modelli di editing di immagini all'avanguardia, migliorandoli di un margine del 15% sui sottoinsiemi del mondo reale secondo GPT4o-as-judge, e ottenendo la migliore valutazione umana media su tutti i sottoinsiemi di Aurora-Bench.
Presentiamo CCI4.0, un ampio dataset bilingue di pre-addestramento progettato per garantire una qualità dei dati superiore e una traiettoria di ragionamento umano diversificata. CCI4.0 occupa circa 35 TB di spazio su disco ed è composto da due sotto-dataset: CCI4.0-M2-Base e CCI4.0-M2-CoT. CCI4.0-M2-Base combina un corpus web cinese curato con cura di 5,2 TB, un sottoinsieme inglese di 22,5 TB proveniente da Nemotron-CC, e fonti diverse da matematica, wiki, arxiv e codice. Sebbene questi dati siano per lo più provenienti da dataset ben processati, gli standard di qualità di vari domini sono dinamici e richiedono un'estesa esperienza e lavoro esperto per essere elaborati. Pertanto, proponiamo una nuova pipeline che giustifica la qualità dei dati principalmente basata su modelli attraverso una deduplicazione in due fasi, un punteggio di qualità multiclassificatore e un filtraggio di fluidità consapevole del dominio. Estraiamo 4,5 miliardi di modelli CoT (Chain-of-Thought), denominati CCI4.0-M2-CoT. Diversamente dalla distillazione di CoT da modelli più grandi, la nostra proposta di estrazione CoT in fasi esemplifica modelli di ragionamento diversificati e riduce significativamente la possibilità di allucinazione. Le valutazioni empiriche dimostrano che i modelli linguistici pre-addestrati su CCI4.0 beneficiano di segnali di addestramento più puliti e affidabili, ottenendo miglioramenti consistenti nei task downstream, specialmente in matematica e nei task di riflessione sul codice. I nostri risultati sottolineano il ruolo cruciale di una rigorosa cura dei dati e di modelli di pensiero umano nel migliorare le prestazioni dei modelli linguistici, gettando luce sul processo automatico di elaborazione dei corpora di pre-addestramento.
Possiamo insegnare ai Large Language Model (LLM) a evitare di produrre affermazioni fattuali allucinate? In questo articolo presentiamo una strategia di fine-tuning che chiamiamo ConfQA, in grado di ridurre il tasso di allucinazione dal 20-40% a meno del 5% su molteplici benchmark di fattualità. L'idea di base è semplice: quando un LLM risponde correttamente a una domanda, viene addestrato a continuare con la risposta; altrimenti, viene addestrato ad ammettere "Non sono sicuro". Tuttavia, ci sono due fattori chiave che rendono l'addestramento altamente efficace. Innanzitutto, introduciamo un prompt attenuante "rispondi solo se sei sicuro" per guidare esplicitamente il comportamento, senza il quale l'allucinazione rimane alta al 15%-25%. In secondo luogo, sfruttiamo semplici affermazioni fattuali, in particolare valori di attributi provenienti da grafi di conoscenza, per aiutare gli LLM a calibrare la confidenza, ottenendo una generalizzazione robusta tra domini e tipi di domande. Basandoci su questa intuizione, proponiamo il framework Dual Neural Knowledge, che seleziona in modo fluido tra la conoscenza neurale parametrizzata internamente e la conoscenza simbolica registrata esternamente, in base alla confidenza di ConfQA. Il framework consente potenziali guadagni di accuratezza oltre il 95%, riducendo al contempo le ricerche esterne non necessarie di oltre il 30%.
Questo articolo introduce ExpertLongBench, un benchmark di livello esperto contenente 11 task provenienti da 9 domini che riflettono flussi di lavoro e applicazioni realistiche di esperti. Oltre al question answering, i task guidati dall'applicazione in ExpertLongBench richiedono output di forma lunga che possono superare i 5.000 token e un rigoroso rispetto dei requisiti specifici del dominio. In particolare, ogni task in ExpertLongBench include una rubrica, progettata o validata da esperti del dominio, per specificare i requisiti del task e guidare la valutazione degli output. Inoltre, proponiamo CLEAR, un framework di valutazione che supporta una valutazione accurata degli output di forma lunga nel nostro benchmark. Per ottenere una valutazione granulare e allineata agli esperti, CLEAR deriva checklist sia dagli output del modello che dai riferimenti, estraendo informazioni corrispondenti agli elementi della rubrica specifica del task. Gli elementi della checklist per gli output del modello vengono poi confrontati con i corrispondenti elementi per gli output di riferimento per valutarne la correttezza, consentendo una valutazione fondata. Valutiamo 11 modelli linguistici di grandi dimensioni (LLM) e analizziamo i componenti di CLEAR, dimostrando che (1) gli LLM esistenti, con il miglior risultato che raggiunge solo un punteggio F1 del 26,8%, richiedono un miglioramento significativo per i task di livello esperto; (2) i modelli possono generare contenuti corrispondenti agli aspetti richiesti, anche se spesso non in modo accurato; e (3) l'estrazione e il confronto accurati delle checklist in CLEAR possono essere raggiunti da modelli open-weight per un utilizzo più scalabile e a basso costo.
I recenti progressi nei LLM (Large Language Models) hanno permesso il loro utilizzo come agenti autonomi in una gamma di attività, ma continuano a incontrare difficoltà nella formulazione e nell'adesione a strategie coerenti a lungo termine. In questo articolo, indaghiamo se gli agenti basati su LLM possano auto-migliorarsi quando inseriti in ambienti che mettono esplicitamente alla prova le loro capacità di pianificazione strategica. Utilizzando il gioco da tavolo "I Coloni di Catan", accessibile tramite il framework open-source Catanatron, valutiamo una progressione di agenti basati su LLM, da un semplice agente che gioca a sistemi in grado di riscrivere autonomamente i propri prompt e il codice dell'agente giocatore. Introduciamo un'architettura multi-agente in cui ruoli specializzati (Analizzatore, Ricercatore, Programmatore e Giocatore) collaborano per analizzare iterativamente il gameplay, ricercare nuove strategie e modificare la logica o il prompt dell'agente. Confrontando agenti creati manualmente con quelli evoluti interamente da LLM, valutiamo quanto efficacemente questi sistemi possano diagnosticare i fallimenti e adattarsi nel tempo. I nostri risultati mostrano che gli agenti auto-evolutivi, specialmente quando alimentati da modelli come Claude 3.7 e GPT-4o, superano i benchmark statici adottando autonomamente le proprie strategie, trasmettendo comportamenti campione agli agenti giocatori e dimostrando un ragionamento adattivo su più iterazioni.
L'immunizzazione dei modelli mira a pre-addestrare modelli che siano difficili da ottimizzare per compiti dannosi, pur mantenendo la loro utilità su altri compiti non dannosi. Sebbene lavori precedenti abbiano mostrato evidenze empiriche per l'immunizzazione di modelli testo-immagine, la comprensione chiave di quando l'immunizzazione è possibile e una definizione precisa di un modello immunizzato rimangono poco chiare. In questo lavoro, proponiamo un framework, basato sul numero di condizione di una matrice Hessiana, per analizzare l'immunizzazione dei modelli per modelli lineari. Basandoci su questo framework, progettiamo un algoritmo con termini di regolarizzazione per controllare i numeri di condizione risultanti dopo il pre-addestramento. I risultati empirici su modelli lineari e reti neurali non lineari dimostrano l'efficacia dell'algoritmo proposto per l'immunizzazione dei modelli. Il codice è disponibile all'indirizzo https://github.com/amberyzheng/model-immunization-cond-num.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato un grande potenziale nel rivoluzionare l'automazione delle Interfacce Grafiche Utente (GUI). Tuttavia, i modelli GUI esistenti si basano principalmente sull'apprendimento da traiettorie offline quasi prive di errori, mancando quindi di capacità di riflessione e recupero dagli errori. Per colmare questa lacuna, proponiamo GUI-Reflection, un framework innovativo che integra esplicitamente capacità di auto-riflessione e correzione degli errori nei modelli multimodali GUI end-to-end attraverso fasi di training dedicate: pre-training specifico per GUI, fine-tuning supervisionato offline (SFT) e tuning online basato sulla riflessione. GUI-Reflection consente l'emergere di comportamenti di auto-riflessione con processi di generazione dati e apprendimento completamente automatizzati, senza richiedere alcuna annotazione umana. Nello specifico, 1) proponiamo pipeline dati scalabili per costruire automaticamente dati di riflessione e correzione degli errori a partire da traiettorie di successo esistenti. Mentre i modelli GUI esistenti si concentrano principalmente sulle capacità di grounding e comprensione dell'interfaccia utente, proponiamo la GUI-Reflection Task Suite per apprendere e valutare esplicitamente capacità orientate alla riflessione. 2) Inoltre, abbiamo costruito un ambiente diversificato ed efficiente per il training online e la raccolta dati di modelli GUI su dispositivi mobili. 3) Presentiamo anche un algoritmo iterativo di tuning online basato sulla riflessione che sfrutta l'ambiente proposto, consentendo al modello di migliorare continuamente le sue capacità di riflessione e correzione degli errori. Il nostro framework fornisce agli agenti GUI capacità di auto-riflessione e correzione, aprendo la strada a un'automazione GUI più robusta, adattabile e intelligente, con tutti i dati, modelli, ambienti e strumenti che verranno rilasciati pubblicamente.
I modelli generativi su larga scala per video possono sintetizzare contenuti visivi diversificati e realistici per la creazione di mondi dinamici, ma spesso mancano di controllabilità a livello di singoli elementi, limitando il loro utilizzo nella modifica delle scene e nell'addestramento di agenti AI incarnati. Proponiamo Dreamland, un framework ibrido per la generazione di mondi che combina il controllo granulare di un simulatore basato sulla fisica con l'output di contenuti fotorealistici di modelli generativi pre-addestrati su larga scala. In particolare, progettiamo un'astrazione stratificata del mondo che codifica sia la semantica che la geometria a livello di pixel e di oggetti come rappresentazione intermedia per collegare il simulatore e il modello generativo. Questo approccio migliora la controllabilità, riduce i costi di adattamento attraverso un allineamento precoce con le distribuzioni del mondo reale e supporta l'uso immediato di modelli generativi pre-addestrati esistenti e futuri. Inoltre, costruiamo un dataset D3Sim per facilitare l'addestramento e la valutazione di pipeline di generazione ibride. Gli esperimenti dimostrano che Dreamland supera le baseline esistenti con un miglioramento del 50,8% nella qualità delle immagini, un aumento del 17,9% nella controllabilità e un grande potenziale per migliorare l'addestramento degli agenti incarnati. Codice e dati saranno resi disponibili.
I Large Language Model (LLM) richiedono un allineamento con le preferenze umane per evitare di generare contenuti offensivi, falsi o privi di significato. Recentemente, i metodi a basso consumo di risorse per l'allineamento degli LLM hanno guadagnato popolarità, pur affrontando sfide nel garantire sia contenuti di alta qualità che allineati. Motivati dall'osservazione che la difficoltà di generare risposte allineate si concentra all'inizio del processo di decodifica, proponiamo un nuovo framework, il Weak-to-Strong Decoding (WSD), per migliorare la capacità di allineamento dei modelli di base attraverso la guida di un piccolo modello allineato. Il modello piccolo redige inizialmente degli inizi ben allineati, seguiti dal modello di base di grandi dimensioni che continua il resto, controllato da un meccanismo di auto-switch ben progettato. Abbiamo inoltre raccolto un nuovo dataset, GenerAlign, per ottimizzare un modello di piccole dimensioni, Pilot-3B, come modello di bozza, che migliora efficacemente diversi modelli di base all'interno del framework WSD, superando tutti i metodi di riferimento, evitando al contempo il degrado nelle attività downstream, noto come "tassa di allineamento". Sono stati condotti ulteriori esperimenti per esaminare l'impatto di diverse configurazioni e l'efficienza temporale, nonché analisi approfondite sui meccanismi intrinseci del WSD.
Le recenti richieste di un allineamento pluralistico dei Large Language Model (LLM) incoraggiano l'adattamento dei modelli alle diverse preferenze degli utenti. Tuttavia, la maggior parte del lavoro precedente sui modelli di ricompensa personalizzati si basa pesantemente su informazioni aggiuntive relative all'identità, come dettagli demografici o un insieme predefinito di categorie di preferenze. A tal fine, introduciamo SynthesizeMe, un approccio per indurre persone sintetiche dalle interazioni degli utenti per la modellazione delle ricompense personalizzate. SynthesizeMe genera e verifica prima il ragionamento per spiegare le preferenze degli utenti, poi induce persone sintetiche da quel ragionamento e infine filtra le interazioni precedenti informative per costruire prompt personalizzati per un determinato utente. Dimostriamo che l'uso dei prompt indotti da SynthesizeMe migliora l'accuratezza del giudizio personalizzato LLM-as-a-judge del 4,4% su Chatbot Arena. La combinazione dei prompt derivati da SynthesizeMe con un modello di ricompensa raggiunge le migliori prestazioni su PersonalRewardBench: una nuova raccolta di interazioni stratificate per utente con chatbot raccolte da 854 utenti di Chatbot Arena e PRISM.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) e nei modelli visione-linguaggio (VLM) hanno reso possibile la creazione di agenti autonomi potenti, capaci di ragionamento complesso e utilizzo multimodale di strumenti. Nonostante le loro crescenti capacità, i framework per agenti odierni rimangono fragili, privi di meccanismi strutturati per il flusso sicuro delle informazioni, l'affidabilità e il coordinamento multi-agente. In questo lavoro, introduciamo SAFEFLOW, un nuovo framework a livello di protocollo per la costruzione di agenti affidabili basati su LLM/VLM. SAFEFLOW applica un controllo granulare del flusso di informazioni (IFC), monitorando con precisione la provenienza, l'integrità e la riservatezza di tutti i dati scambiati tra agenti, strumenti, utenti e ambienti. Vincolando il ragionamento degli LLM a rispettare queste etichette di sicurezza, SAFEFLOW impedisce che input non attendibili o avversari contaminino decisioni ad alta integrità. Per garantire robustezza in contesti multi-agente concorrenti, SAFEFLOW introduce esecuzione transazionale, risoluzione dei conflitti e pianificazione sicura su stati condivisi, preservando la coerenza globale tra gli agenti. Introduciamo inoltre meccanismi, tra cui logging anticipato, rollback e cache sicure, che migliorano ulteriormente la resilienza contro errori runtime e violazioni delle policy. Per validare le prestazioni, abbiamo creato SAFEFLOWBENCH, una suite di benchmark completa progettata per valutare l'affidabilità degli agenti in condizioni operative avverse, rumorose e concorrenti. Esperimenti estensivi dimostrano che gli agenti costruiti con SAFEFLOW mantengono prestazioni impressionanti nelle attività e garanzie di sicurezza anche in ambienti ostili, superando significativamente lo stato dell'arte. Insieme, SAFEFLOW e SAFEFLOWBENCH gettano le basi per ecosistemi di agenti strutturati, robusti e sicuri, avanzando la frontiera dell'autonomia affidabile.
Recentemente, tecniche come il ragionamento strutturato esplicito hanno dimostrato un forte comportamento di scalabilità durante i test, imponendo una separazione tra il processo di "pensiero" interno del modello e la risposta finale. Un fattore chiave che influenza la qualità delle risposte in questo contesto è la durata della fase di pensiero. Quando il ragionamento è troppo breve, il modello potrebbe non cogliere la complessità del compito. Al contrario, quando è troppo lungo, il modello potrebbe sovrapensare, portando a calcoli non necessari e a un peggioramento delle prestazioni. Questo articolo esplora e sfrutta i meccanismi sottostanti attraverso i quali i modelli linguistici di grandi dimensioni (LLM) comprendono e regolano la durata del loro ragionamento durante i processi di pensiero espliciti. In primo luogo, dimostriamo che gli LLM codificano il loro avanzamento nel processo di ragionamento e introduciamo una visualizzazione interattiva della barra di progresso, che viene poi utilizzata per rivelare approfondimenti sulla dinamica di pianificazione del modello. In secondo luogo, manipoliamo la codifica interna del progresso durante l'inferenza per ridurre i passaggi non necessari e generare una catena di pensieri più concisa e decisiva. I nostri risultati empirici dimostrano che questo metodo di "overclocking" mitiga il sovrapensiero, migliora l'accuratezza delle risposte e riduce la latenza di inferenza. Il nostro codice è disponibile pubblicamente.
In questo lavoro, affrontiamo la sintesi dinamica di viste da video monoculari come un problema inverso in un contesto privo di addestramento. Riprogettando la fase di inizializzazione del rumore di un modello di diffusione video pre-addestrato, abilitiamo la sintesi dinamica di viste ad alta fedeltà senza aggiornamenti dei pesi o moduli ausiliari. Iniziamo identificando un ostacolo fondamentale all'inversione deterministica derivante da schemi di rapporto segnale-rumore (SNR) a terminale zero e lo risolviamo introducendo una nuova rappresentazione del rumore, denominata Rappresentazione Ricorsiva del Rumore di Ordine K. Deriviamo un'espressione in forma chiusa per questa rappresentazione, consentendo un allineamento preciso ed efficiente tra i latenti codificati dal VAE e quelli invertiti dal DDIM. Per sintetizzare le regioni visibili risultanti dal movimento della telecamera, introduciamo la Modulazione Stocastica dei Latenti, che esegue un campionamento consapevole della visibilità nello spazio latente per completare le regioni occluse. Esperimenti completi dimostrano che la sintesi dinamica di viste può essere efficacemente eseguita attraverso una manipolazione strutturata dei latenti nella fase di inizializzazione del rumore.
I benchmark esistenti per gli agenti di intelligenza artificiale conversazionale simulano ambienti a controllo singolo, in cui solo l'agente AI può utilizzare strumenti per interagire con il mondo, mentre l'utente rimane un fornitore passivo di informazioni. Ciò differisce dagli scenari del mondo reale come il supporto tecnico, dove gli utenti devono partecipare attivamente alla modifica dello stato del mondo (condiviso). Per colmare questa lacuna, introduciamo tau^2-bench, con quattro contributi chiave: 1) Un nuovo dominio di controllo duale Telecom modellato come un Dec-POMDP, in cui sia l'agente che l'utente utilizzano strumenti per agire in un ambiente condiviso e dinamico che mette alla prova sia il coordinamento che la comunicazione dell'agente, 2) Un generatore di task composizionale che crea programmaticamente task diversificati e verificabili da componenti atomiche, garantendo copertura del dominio e complessità controllata, 3) Un simulatore di utente affidabile strettamente accoppiato all'ambiente, il cui comportamento è vincolato da strumenti e stati osservabili, migliorando la fedeltà della simulazione, 4) Un'analisi granulare delle prestazioni dell'agente attraverso multiple ablazioni, inclusa la separazione degli errori derivanti dal ragionamento rispetto a quelli di comunicazione/coordinamento. In particolare, i nostri esperimenti mostrano significativi cali di prestazione quando gli agenti passano da un contesto senza utente a uno a controllo duale, evidenziando le sfide nel guidare gli utenti. Nel complesso, tau^2-bench fornisce un banco di prova controllato per agenti che devono sia ragionare efficacemente sia guidare le azioni degli utenti.
I modelli linguistici di grandi dimensioni si basano frequentemente sia sull'input contestuale che sulla conoscenza parametrica per eseguire compiti. Tuttavia, queste fonti possono entrare in conflitto, specialmente quando i documenti recuperati contraddicono la conoscenza parametrica del modello. Proponiamo un framework diagnostico per valutare sistematicamente il comportamento dei modelli linguistici in situazioni di conflitto contesto-memoria, in cui le informazioni contestuali divergono dalle loro convinzioni parametriche. Costruiamo dati diagnostici che suscitano questi conflitti e analizziamo le prestazioni del modello attraverso diversi tipi di compiti. Le nostre scoperte rivelano che (1) il conflitto di conoscenza ha un impatto minimo sui compiti che non richiedono l'utilizzo della conoscenza, (2) le prestazioni del modello sono costantemente migliori quando la conoscenza contestuale e parametrica sono allineate, (3) i modelli non sono in grado di sopprimere completamente la loro conoscenza interna anche quando istruiti a farlo, e (4) fornire razionali che spiegano il conflitto aumenta la dipendenza dai contesti. Questi risultati sollevano preoccupazioni sulla validità della valutazione basata sui modelli e sottolineano la necessità di tenere conto del conflitto di conoscenza nel dispiegamento dei modelli linguistici di grandi dimensioni.
I modelli linguistici di grandi dimensioni sono spesso utilizzati per rispondere a query basate su ampi corpora testuali (ad esempio codebase, documenti legali o cronologie di chat) inserendo l'intero corpus nella finestra contestuale e sfruttando l'apprendimento in contesto (ICL). Sebbene i modelli attuali supportino contesti di 100K-1M token, questa configurazione è costosa da gestire perché il consumo di memoria della cache KV scala con la lunghezza dell'input. Esploriamo un'alternativa: addestrare offline una cache KV più piccola su ciascun corpus. Al momento dell'inferenza, carichiamo questa cache KV addestrata, che chiamiamo Cartridge, e decodifichiamo una risposta. In modo cruciale, il costo di addestramento di un Cartridge può essere ammortizzato su tutte le query che fanno riferimento allo stesso corpus. Tuttavia, scopriamo che l'approccio ingenuo di addestrare il Cartridge con la previsione del token successivo sul corpus non è competitivo rispetto all'ICL. Proponiamo invece il self-study, una ricetta di addestramento in cui generiamo conversazioni sintetiche sul corpus e addestriamo il Cartridge con un obiettivo di distillazione contestuale. Scopriamo che i Cartridge addestrati con il self-study replicano la funzionalità dell'ICL, pur essendo significativamente più economici da gestire. Su benchmark impegnativi con contesti lunghi, i Cartridge addestrati con il self-study eguagliano le prestazioni dell'ICL utilizzando 38,6 volte meno memoria e consentendo un throughput 26,4 volte maggiore. Il self-study estende inoltre la lunghezza contestuale effettiva del modello (ad esempio da 128k a 484k token su MTOB) e, sorprendentemente, porta a Cartridge che possono essere composti al momento dell'inferenza senza bisogno di riaddestramento.
Gli attuali Modelli Linguistici Multimodali di Grande Scala (MLLM) possono incontrare difficoltà nella comprensione di video lunghi o complessi a causa delle esigenze computazionali durante il test, della mancanza di robustezza e di una precisione limitata, derivanti principalmente dalla loro natura di elaborazione feed-forward. Queste limitazioni potrebbero essere più severe per i modelli con un numero inferiore di parametri. Per affrontare queste sfide, proponiamo un nuovo framework ispirato ai principi cibernetici, ridisegnando i video MLLM come sistemi adattivi in grado di auto-monitorarsi, auto-correggersi e allocare dinamicamente le risorse durante l'inferenza. Il nostro approccio, CyberV, introduce un ciclo cibernetico composto da un Sistema di Inferenza MLLM, un Sensore e un Controller. Nello specifico, il sensore monitora i processi in avanti dell'MLLM e raccoglie interpretazioni intermedie, come la deriva dell'attenzione, mentre il controller determina quando e come attivare l'auto-correzione e generare feedback per guidare il ciclo successivo. Questo framework di scalabilità adattiva durante il test migliora gli MLLM congelati senza richiedere riaddestramento o componenti aggiuntivi. Gli esperimenti dimostrano miglioramenti significativi: CyberV incrementa Qwen2.5-VL-7B dell'8.3% e InternVL3-8B del 5.5% su VideoMMMU, superando il modello proprietario competitivo GPT-4o. Quando applicato a Qwen2.5-VL-72B, si ottiene un miglioramento del 10.0%, raggiungendo prestazioni paragonabili a quelle di esperti umani. Inoltre, il nostro metodo mostra guadagni consistenti su benchmark di uso generale, come VideoMME e WorldSense, evidenziando la sua efficacia e capacità di generalizzazione nel rendere gli MLLM più robusti e precisi per la comprensione dinamica dei video. Il codice è disponibile all'indirizzo https://github.com/marinero4972/CyberV.
Nonostante i recenti progressi nella generazione di video, i modelli esistenti mancano ancora di un controllo fine, specialmente per la personalizzazione multi-soggetto con identità e interazione consistenti. In questo articolo, proponiamo PolyVivid, un framework di personalizzazione video multi-soggetto che consente una generazione flessibile e coerente con l'identità. Per stabilire corrispondenze accurate tra immagini di soggetti ed entità testuali, progettiamo un modulo di fusione testo-immagine basato su VLLM che incorpora le identità visive nello spazio testuale per un ancoraggio preciso. Per migliorare ulteriormente la preservazione dell'identità e l'interazione tra i soggetti, proponiamo un modulo di potenziamento basato su 3D-RoPE che abilita una fusione bidirezionale strutturata tra gli embedding di testo e immagine. Inoltre, sviluppiamo un modulo di iniezione dell'identità basato sull'ereditarietà dell'attenzione per iniettare efficacemente le caratteristiche di identità fuse nel processo di generazione video, mitigando la deriva dell'identità. Infine, costruiamo una pipeline di dati basata su MLLM che combina l'ancoraggio, la segmentazione basata su MLLM e una strategia di consolidamento dei soggetti basata su clique per produrre dati multi-soggetto di alta qualità, migliorando efficacemente la distinzione dei soggetti e riducendo l'ambiguità nella generazione video downstream. Esperimenti estensivi dimostrano che PolyVivid raggiunge prestazioni superiori in termini di fedeltà dell'identità, realismo video e allineamento dei soggetti, superando le baseline open-source e commerciali esistenti.
I modelli generativi video addestrati su dimostrazioni di esperti sono stati utilizzati come pianificatori visivi condizionati da testo ad alte prestazioni per risolvere compiti robotici. Tuttavia, la generalizzazione a compiti non visti rimane una sfida. Sebbene una migliore generalizzazione possa essere facilitata sfruttando conoscenze pregresse apprese da fonti di dati offline pre-raccolte, come dataset video su scala web, nell'era dell'esperienza miriamo a progettare agenti che possano migliorare continuamente in modo online attraverso comportamenti auto-raccolti. In questo lavoro proponiamo quindi il Self-Adapting Improvement Loop (SAIL), in cui un modello video di dominio specifico si aggiorna iterativamente su traiettorie auto-prodotte, raccolte attraverso l'adattamento con un modello video pre-addestrato su scala internet, e migliora costantemente le sue prestazioni per un compito specifico di interesse. Applichiamo SAIL a una serie diversificata di compiti di MetaWorld, nonché a due compiti di manipolazione su un braccio robotico reale, e scopriamo che i miglioramenti delle prestazioni emergono continuamente in più iterazioni per compiti nuovi inizialmente non visti durante l'addestramento originale del modello video di dominio specifico. Inoltre, scopriamo che SAIL è sorprendentemente robusto riguardo a se e come l'esperienza auto-raccolta viene filtrata, e alla qualità delle dimostrazioni iniziali di dominio specifico. Attraverso l'adattamento con dati riassunti su scala internet e l'apprendimento tramite esperienza online, dimostriamo quindi un modo per avviare iterativamente un modello video ad alte prestazioni per risolvere nuovi compiti robotici attraverso l'auto-miglioramento.
I grandi modelli linguistici (LLM) sono diventati la pietra angolare dell'IA moderna. Tuttavia, il paradigma esistente della previsione del token successivo limita fondamentalmente la loro capacità di formare concetti coerenti e di alto livello, rappresentando una barriera critica per una comprensione e un ragionamento simili a quelli umani. Prendiamo come esempio la frase "acido ribonucleico": un LLM la scomporrà prima in token, ovvero frammenti di testo artificiali ("rib", "on", ...), per poi apprendere ciascun token in sequenza, anziché cogliere la frase come un'entità semantica unificata e coerente. Questa rappresentazione frammentata ostacola una comprensione concettuale più profonda e, in ultima analisi, lo sviluppo di sistemi veramente intelligenti. In risposta, introduciamo il Concept-Aware Fine-Tuning (CAFT), un innovativo metodo di addestramento multi-token che ridefinisce il modo in cui gli LLM vengono ottimizzati. Consentendo l'apprendimento di sequenze che abbracciano più token, questo metodo favorisce un apprendimento più consapevole dei concetti. I nostri esperimenti dimostrano miglioramenti significativi rispetto ai tradizionali metodi di ottimizzazione basati sulla previsione del token successivo, in una vasta gamma di compiti, tra cui applicazioni tradizionali come il riassunto del testo e altre specifiche di dominio come la progettazione de novo di proteine. La previsione multi-token era in precedenza possibile solo nella fase di pre-addestramento, proibitivamente costosa; CAFT, a nostra conoscenza, è il primo a portare l'impostazione multi-token alla fase post-addestramento, democratizzando così efficacemente i suoi benefici per la più ampia comunità di professionisti e ricercatori. Infine, l'efficacia inaspettata del metodo proposto suggerisce implicazioni più ampie per la comunità di ricerca nel campo dell'apprendimento automatico. Tutti i codici e i dati sono disponibili all'indirizzo https://github.com/michaelchen-lab/caft-llm.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità impressionanti in vari compiti di elaborazione del linguaggio naturale (NLP) negli ultimi anni. Tuttavia, la loro suscettibilità a jailbreak e perturbazioni richiede valutazioni aggiuntive. Molti LLM sono multilingue, ma i dati di addestramento relativi alla sicurezza contengono principalmente lingue ad alto livello di risorse come l'inglese. Ciò può renderli vulnerabili a perturbazioni in lingue a basso livello di risorse come il polacco. Mostriamo come attacchi sorprendentemente forti possano essere creati a basso costo alterando solo pochi caratteri e utilizzando un piccolo modello proxy per il calcolo dell'importanza delle parole. Scopriamo che questi attacchi a livello di carattere e parola alterano drasticamente le previsioni di diversi LLM, suggerendo una potenziale vulnerabilità che può essere sfruttata per aggirare i loro meccanismi di sicurezza interni. Convalidiamo la nostra metodologia di costruzione degli attacchi sul polacco, una lingua a basso livello di risorse, e individuiamo potenziali vulnerabilità degli LLM in questa lingua. Inoltre, mostriamo come possa essere estesa ad altre lingue. Rilasciamo i dataset e il codice creati per ulteriori ricerche.
I recenti progressi nel ragionamento dei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato che comportamenti sofisticati come la pianificazione e l'autoriflessione possono emergere attraverso l'apprendimento per rinforzo (RL). Tuttavia, nonostante questi successi, l'RL nella sua forma attuale rimane insufficiente per indurre capacità che superino i limiti del modello di base, poiché è principalmente ottimizzato sulla base delle conoscenze esistenti del modello piuttosto che facilitare l'acquisizione di nuove informazioni. Per affrontare questa limitazione, utilizziamo il fine-tuning supervisionato (SFT) per apprendere ciò che l'RL non può, il che consente l'incorporazione di nuove conoscenze e schemi di ragionamento sfruttando dati dimostrativi di alta qualità. Analizziamo le dinamiche di addestramento dell'RL e dell'SFT per il ragionamento degli LLM e scopriamo che l'RL eccelle nel mantenere e migliorare le prestazioni su domande all'interno delle capacità originali del modello, mentre l'SFT è più efficace nel consentire progressi su domande al di là dell'attuale portata del modello. Motivati dai punti di forza complementari di RL e SFT, introduciamo un nuovo approccio di addestramento, ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). In ReLIFT, il modello viene principalmente addestrato utilizzando l'RL, ma quando incontra domande impegnative, vengono raccolte soluzioni di alta qualità per il fine-tuning, e il processo di addestramento alterna tra RL e fine-tuning per migliorare le capacità di ragionamento del modello. ReLIFT ottiene un miglioramento medio di oltre +5,2 punti su cinque benchmark di livello competitivo e un benchmark fuori distribuzione rispetto ad altri modelli zero-RL. Inoltre, dimostriamo che ReLIFT supera sia l'RL che l'SFT utilizzando solo il 13\% dei dati dimostrativi dettagliati, evidenziandone la scalabilità. Questi risultati forniscono prove convincenti che ReLIFT supera le limitazioni fondamentali dell'RL e sottolinea il significativo potenziale.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie in diversi ambiti, in particolare nel ragionamento matematico, tra i quali la risoluzione di problemi di geometria rimane un'area impegnativa in cui le costruzioni ausiliarie svolgono un ruolo essenziale. Gli approcci esistenti ottengono prestazioni subottimali o si basano su LLM di grandi dimensioni (ad esempio, GPT-4), comportando costi computazionali elevati. Proponiamo che l'apprendimento per rinforzo con ricompensa verificabile (ad esempio, GRPO) offra una direzione promettente per addestrare modelli più piccoli che combinano efficacemente le costruzioni ausiliarie con un solido ragionamento geometrico. Tuttavia, l'applicazione diretta di GRPO al ragionamento geometrico presenta limitazioni fondamentali a causa della sua dipendenza da ricompense incondizionate, che portano a costruzioni ausiliarie indiscriminate e controproducenti. Per affrontare queste sfide, proponiamo il Group Contrastive Policy Optimization (GCPO), un nuovo framework di apprendimento per rinforzo che presenta due innovazioni chiave: (1) il Group Contrastive Masking, che fornisce in modo adattivo segnali di ricompensa positivi o negativi per le costruzioni ausiliarie basati sull'utilità contestuale, e (2) una ricompensa per la lunghezza che promuove catene di ragionamento più estese. Basandoci su GCPO, sviluppiamo GeometryZero, una famiglia di modelli di ragionamento geometrico di dimensioni contenute che determinano in modo giudizioso quando impiegare costruzioni ausiliarie. La nostra ampia valutazione empirica su benchmark geometrici popolari (Geometry3K, MathVista) dimostra che i modelli GeometryZero superano costantemente i baseline (ad esempio, GRPO), ottenendo un miglioramento medio del 4,29% su tutti i benchmark.
Nonostante il crescente interesse nel benchmarking specifico per dominio dei modelli linguistici di grandi dimensioni (LLM) e degli agenti, le valutazioni attuali rimangono limitate a dataset statici e su piccola scala, specialmente in compiti ad alto rischio come le operazioni di rete che richiedono affidabilità per le implementazioni. Presentiamo NetPress, un framework automatizzato per la generazione di benchmark per valutare gli agenti LLM nelle applicazioni di rete. NetPress introduce un'astrazione unificata con stato e azione, consentendo la generazione dinamica di set di query diversificati insieme alle corrispondenti verità di base. In fase di esecuzione, gli utenti possono specificare configurazioni di benchmark per generare milioni di query al volo. Oltre alla costruzione dinamica dei benchmark, NetPress si integra con emulatori di rete per fornire feedback realistici sull'ambiente, supportando una valutazione completa su correttezza, sicurezza e latenza. Istanziamo NetPress su tre applicazioni rappresentative, rivelando interessanti differenze granulari nel comportamento degli agenti che i benchmark statici, focalizzati solo sulla correttezza, spesso trascurano. NetPress sposta la valutazione degli LLM verso test realistici e scalabili in domini centrati sull'infrastruttura, contribuendo a colmare il divario tra le prestazioni nei benchmark e la prontezza per il dispiegamento nel mondo reale. Il codice è disponibile all'indirizzo https://github.com/Froot-NetSys/NetPress.
I modelli linguistici multimodali di grandi dimensioni (MLLM) vengono sempre più impiegati in ambienti aperti e reali, dove gli input sono disordinati, poco specificati e non sempre affidabili. A differenza dei benchmark curati, questi contesti spesso includono istruzioni che fanno riferimento a oggetti mancanti o fatti contraddittori, si basano su riferimenti ambigui o richiedono azioni non fattibili. In tali casi, il successo non dipende solo dall'esecuzione del compito, ma dalla capacità del modello di rilevare quando qualcosa è silenziosamente sbagliato. Questo articolo presenta un'analisi sistematica di come gli attuali MLLM gestiscono tali scenari di ragionamento implicito: casi in cui l'errore non è esplicitamente dichiarato ma deve essere dedotto dal contesto. Utilizzando una suite diagnostica curata che copre quattro categorie di modalità di fallimento del mondo reale, valutiamo sei MLLM, inclusi o3 e GPT-4o, e scopriamo che i modelli spesso non riescono a evidenziare problemi nascosti, anche quando possiedono le necessarie capacità percettive e di ragionamento. Il prompting esplicito rivela che le capacità sottostanti esistono ma sono spesso soppresse a favore della conformità dell'utente. Mostriamo inoltre che semplici interventi al momento dell'inferenza, come il prompting di una persona cauta e, in particolare, la richiesta di una domanda chiarificatrice, possono recuperare drasticamente le prestazioni. I nostri risultati evidenziano un persistente divario tra competenza di ragionamento e conformità comportamentale negli attuali MLLM e suggeriscono strategie pratiche per rendere questi modelli più affidabili in ambienti poco vincolati.
I Large Multimodal Models (LMM) spesso si affidano all'apprendimento in contesto (In-Context Learning, ICL) per eseguire nuovi compiti con una supervisione minima. Tuttavia, le prestazioni dell'ICL, specialmente nei LMM più piccoli, sono inconsistenti e non migliorano sempre in modo monotono all'aumentare degli esempi. Ipotesizziamo che ciò avvenga perché il LMM viene sopraffatto dalle informazioni aggiuntive presenti negli embedding delle immagini, che non sono necessarie per il compito downstream. Per affrontare questo problema, proponiamo un approccio di meta-apprendimento che fornisce un'alternativa per indurre capacità few-shot nei LMM, utilizzando un insieme fisso di soft prompt distillati da caratteristiche delle immagini rilevanti per il compito e che possono essere adattati al momento del test utilizzando pochi esempi. Per facilitare questa distillazione, introduciamo un modulo attention-mapper che può essere facilmente integrato con la popolare architettura LLaVA v1.5 e viene appreso congiuntamente ai soft prompt, consentendo l'adattamento ai compiti nei LMM in regimi di bassa disponibilità di dati con pochi passaggi di gradiente. La valutazione su VL-ICL Bench dimostra che il nostro metodo supera costantemente l'ICL e approcci correlati di prompt-tuning, anche in presenza di perturbazioni delle immagini, migliorando l'induzione dei compiti e il ragionamento nei task di risposta a domande visive.
Presentiamo un metodo senza addestramento per trapiantare i tokenizer nei modelli linguistici preaddestrati di grandi dimensioni (LLM) ricostruendo gli embedding di token non visti tramite Orthogonal Matching Pursuit (OMP). Nello specifico, approssimiamo ogni token fuori dal vocabolario come una combinazione lineare sparsa di token condivisi, in due fasi: prima, calcoliamo la rappresentazione di ogni nuovo token nello spazio di embedding del donatore utilizzando un piccolo dizionario di token ancorati condivisi, poi trasferiamo questi stessi coefficienti sparsi nello spazio di embedding del modello base. Su due impegnativi task cross-tokenizer—LlamatoMistral NeMo (12B) e QwentoLlama (1B)—dimostriamo che OMP ottiene la migliore conservazione zero-shot delle prestazioni del modello base su più benchmark, mentre altri approcci zero-shot si degradano significativamente. Rispetto ai baseline (zero-init, mean-init e approcci esistenti come WECHSEL, FOCUS, ZETT), OMP raggiunge costantemente le migliori prestazioni complessive, colmando efficacemente le grandi discrepanze tra tokenizer senza aggiornamenti del gradiente. La nostra analisi identifica inoltre gli schemi di tokenizzazione numerica non corrispondenti come una sfida critica per preservare le capacità di ragionamento matematico. Questa tecnica consente il riutilizzo diretto dei pesi preaddestrati del modello con nuovi tokenizer, facilitando la distillazione della conoscenza cross-tokenizer, il decoding speculativo, l'ensembling, il merging e gli adattamenti del vocabolario specifici per dominio. Integriamo il nostro metodo nello strumento open-source mergekit-tokensurgeon per il riallineamento post hoc del vocabolario.
I recenti progressi nell'IA conversazionale sono stati significativi, ma lo sviluppo di sistemi in tempo reale per la guida di compiti percettivi rimane una sfida. Questi sistemi devono fornire assistenza interattiva e proattiva basata su input visivi in streaming, ma il loro sviluppo è limitato dal processo costoso e laborioso di raccolta dati e valutazione del sistema. Per affrontare queste limitazioni, presentiamo un framework completo con tre contributi chiave. In primo luogo, introduciamo una nuova pipeline di curatela dei dati che sintetizza dialoghi da video egocentrici annotati, risultando in \dataset, un ampio dataset sintetico di dialoghi che copre più domini. In secondo luogo, sviluppiamo una suite di metriche di valutazione automatica, validate attraverso ampi studi umani. In terzo luogo, proponiamo un modello end-to-end che elabora input video in streaming per generare risposte contestualmente appropriate, incorporando nuove tecniche per gestire lo squilibrio dei dati e i video di lunga durata. Questo lavoro getta le basi per lo sviluppo di assistenti AI proattivi in tempo reale, in grado di guidare gli utenti attraverso compiti diversi. Pagina del progetto: https://pro-assist.github.io/
Fondamentali per la lingua e la cultura cinese, i caratteri cinesi abbracciano categorie straordinariamente estese e in continua espansione, con l'ultimo standard cinese GB18030-2022 che ne contiene 87.887. Il riconoscimento accurato di questo vasto numero di caratteri, denominato riconoscimento mega-categoria, rappresenta una sfida formidabile ma cruciale per la preservazione del patrimonio culturale e le applicazioni digitali. Nonostante i significativi progressi nel riconoscimento ottico dei caratteri (OCR), il riconoscimento mega-categoria rimane inesplorato a causa dell'assenza di dataset completi, con il più grande dataset esistente che contiene appena 16.151 categorie. Per colmare questa lacuna critica, introduciamo MegaHan97K, un dataset su larga scala e mega-categoria che copre un numero senza precedenti di 97.455 categorie di caratteri cinesi. Il nostro lavoro offre tre contributi principali: (1) MegaHan97K è il primo dataset a supportare completamente l'ultimo standard GB18030-2022, fornendo almeno sei volte più categorie rispetto ai dataset esistenti; (2) Affronta efficacemente il problema della distribuzione a coda lunga fornendo campioni bilanciati in tutte le categorie attraverso i suoi tre distinti sottoinsiemi: manoscritto, storico e sintetico; (3) Esperimenti di benchmarking completi rivelano nuove sfide negli scenari mega-categoria, tra cui maggiori esigenze di archiviazione, riconoscimento di caratteri morfologicamente simili e difficoltà nell'apprendimento zero-shot, aprendo al contempo sostanziali opportunità per la ricerca futura. Per quanto ne sappiamo, MegaHan97K è probabilmente il dataset con il maggior numero di classi non solo nel campo dell'OCR, ma potenzialmente anche nel più ampio dominio del riconoscimento di pattern. Il dataset è disponibile all'indirizzo https://github.com/SCUT-DLVCLab/MegaHan97K.
L'allineamento dei Large Language Models (LLM) è cruciale per garantire la loro sicurezza e affidabilità nelle applicazioni pratiche. L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) è emersa come un metodo efficiente che ottimizza direttamente i modelli utilizzando coppie di preferenze, riducendo significativamente le richieste di risorse. Tuttavia, l'efficacia della DPO dipende fortemente dalla qualità dei dati, che è spesso compromessa dal rumore. In questo lavoro, proponiamo gamma-PO, un algoritmo di ottimizzazione dinamica dei margini di preferenza che regola i margini di ricompensa a livello di coppia. Introducendo una calibrazione dei margini specifica per ogni istanza, gamma-PO priorizza strategicamente le coppie ad alta confidenza (quelle che dimostrano margini di ricompensa più elevati) mentre sopprime il potenziale rumore proveniente da coppie ambigue. Inoltre, gamma-PO è un metodo plug-and-play, compatibile con le varianti della DPO che si basano sul margine di ricompensa tra le coppie di preferenze. Su benchmark come AlpacaEval2 e Arena-Hard, gamma-PO ottiene un miglioramento medio del 4,4% rispetto ad altre baseline, stabilendo nuovi standard per le prestazioni all'avanguardia. Inoltre, gamma-PO richiede modifiche minime al codice e ha un impatto trascurabile sull'efficienza dell'addestramento, rendendolo una soluzione robusta per migliorare l'allineamento dei LLM. I nostri codici sono disponibili all'indirizzo https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.
I grandi modelli linguistici (LLM) spesso rifiutano di rispondere a istruzioni pseudo-maliziose: query di input semanticamente innocue che innescano rifiuti non necessari da parte degli LLM a causa di un allineamento di sicurezza eccessivamente conservativo, compromettendo significativamente l'esperienza dell'utente. Raccogliere tali istruzioni è cruciale per valutare e mitigare i rifiuti eccessivi, ma i metodi esistenti di curatela delle istruzioni, come la creazione manuale o la riscrittura delle istruzioni, mancano di scalabilità o non riescono a produrre prompt sufficientemente diversificati ed efficaci nell'indurre rifiuti. Per affrontare queste limitazioni, introduciamo EVOREFUSE, un approccio di ottimizzazione dei prompt che genera istruzioni pseudo-maliziose diversificate in grado di suscitare costantemente rifiuti sicuri negli LLM. EVOREFUSE utilizza un algoritmo evolutivo che esplora lo spazio delle istruzioni in direzioni più diversificate rispetto ai metodi esistenti, attraverso strategie di mutazione e ricombinazione, e evolve iterativamente le istruzioni di partenza per massimizzare il limite inferiore dell'evidenza sulla probabilità di rifiuto degli LLM. Utilizzando EVOREFUSE, abbiamo creato due nuovi dataset: EVOREFUSE-TEST, un benchmark di 582 istruzioni pseudo-maliziose che supera il benchmark successivo con un tasso medio di innesco di rifiuti più alto del 140,41% su 9 LLM, una diversità lessicale maggiore del 34,86% e punteggi di confidenza delle risposte degli LLM migliorati del 40,03%; e EVOREFUSE-ALIGN, che fornisce 3.000 istruzioni pseudo-maliziose con risposte per l'addestramento supervisionato e basato su preferenze. LLAMA3.1-8B-INSTRUCT, addestrato in modo supervisionato su EVOREFUSE-ALIGN, ottiene fino al 14,31% in meno di rifiuti eccessivi rispetto ai modelli addestrati sul secondo miglior dataset di allineamento, senza compromettere la sicurezza. La nostra analisi con EVOREFUSE-TEST rivela che i modelli innescano rifiuti eccessivi concentrandosi troppo su parole chiave sensibili mentre ignorano il contesto più ampio.