Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il rilevamento delle allucinazioni rimane una sfida fondamentale per il dispiegamento sicuro e affidabile di modelli linguistici di grandi dimensioni (LLM), specialmente in applicazioni che richiedono accuratezza fattuale. I benchmark esistenti per il rilevamento delle allucinazioni operano spesso a livello di sequenza e sono limitati all'inglese, mancando della supervisione multilingue e granulare necessaria per una valutazione completa. In questo lavoro, introduciamo PsiloQA, un dataset su larga scala e multilingue annotato con allucinazioni a livello di span in 14 lingue. PsiloQA è costruito attraverso una pipeline automatizzata in tre fasi: generazione di coppie domanda-risposta da Wikipedia utilizzando GPT-4o, elicitation di risposte potenzialmente allucinate da diversi LLM in un contesto privo di informazioni, e annotazione automatica degli span allucinati utilizzando GPT-4o confrontandoli con risposte di riferimento e contesto recuperato. Valutiamo un'ampia gamma di metodi per il rilevamento delle allucinazioni – inclusi la quantificazione dell'incertezza, il tagging basato su LLM e modelli encoder fine-tuned – e dimostriamo che i modelli basati su encoder raggiungono le prestazioni più solide tra le lingue. Inoltre, PsiloQA dimostra un'efficace generalizzazione cross-linguale e supporta un robusto trasferimento di conoscenza ad altri benchmark, tutto ciò mantenendo una significativa efficienza in termini di costi rispetto ai dataset annotati manualmente. Il nostro dataset e i risultati ottenuti avanzano lo sviluppo di un rilevamento scalabile e granulare delle allucinazioni in contesti multilingue.
Recentemente, il Reinforcement Learning Agente (Agentic RL) ha compiuto progressi significativi nell'incentivare le capacità di utilizzo di strumenti multi-turn e a lungo orizzonte degli agenti web. Mentre gli algoritmi principali di Agentic RL esplorano autonomamente i passaggi di chiamata degli strumenti ad alta incertezza sotto la guida dell'entropia, un'eccessiva dipendenza dai segnali di entropia può imporre ulteriori vincoli, portando al collasso dell'addestramento. In questo articolo, approfondiamo le sfide causate dall'entropia e proponiamo l'Agentic Entropy-Balanced Policy Optimization (AEPO), un algoritmo di Agentic RL progettato per bilanciare l'entropia sia nella fase di rollout che in quella di aggiornamento della policy. AEPO comprende due componenti principali: (1) un meccanismo di rollout bilanciato dinamicamente dall'entropia che assegna in modo adattivo il budget di campionamento globale e di ramificazione attraverso il pre-monitoraggio dell'entropia, imponendo una penalità di ramificazione sui passaggi consecutivi di chiamata degli strumenti ad alta entropia per prevenire problemi di eccessiva ramificazione; e (2) l'Entropy-Balanced Policy Optimization che inserisce un'operazione di stop-gradient nel termine di clipping ad alta entropia per preservare e ridimensionare correttamente i gradienti sui token ad alta entropia, incorporando una stima del vantaggio consapevole dell'entropia per dare priorità all'apprendimento sui token ad alta incertezza. I risultati su 14 dataset complessi mostrano che AEPO supera costantemente 7 algoritmi principali di RL. Con soli 1K campioni di RL, Qwen3-14B con AEPO ottiene risultati impressionanti: 47,6% su GAIA, 11,2% su Humanity's Last Exam e 43,0% su WebWalker per Pass@1; 65,0% su GAIA, 26,0% su Humanity's Last Exam e 70,0% su WebWalker per Pass@5. Un'ulteriore analisi rivela che AEPO migliora la diversità del campionamento di rollout mantenendo stabile l'entropia della policy, facilitando un addestramento scalabile degli agenti web.
La generazione coerente con l'identità è diventata un aspetto cruciale nella ricerca sul testo-immagine, con modelli recenti che hanno ottenuto successi significativi nella produzione di immagini allineate a un'identità di riferimento. Tuttavia, la scarsità di dataset su larga scala contenenti più immagini della stessa persona costringe la maggior parte degli approcci ad adottare un addestramento basato sulla ricostruzione. Questa dipendenza spesso porta a una modalità di fallimento che definiamo "copia-incolla", in cui il modello replica direttamente il volto di riferimento anziché preservare l'identità attraverso variazioni naturali di posa, espressione o illuminazione. Tale eccessiva somiglianza compromette la controllabilità e limita il potere espressivo della generazione. Per affrontare queste limitazioni, noi (1) costruiamo un dataset su larga scala MultiID-2M, progettato per scenari multi-persona, fornendo riferimenti diversificati per ogni identità; (2) introduciamo un benchmark che quantifica sia gli artefatti di copia-incolla sia il compromesso tra fedeltà all'identità e variazione; e (3) proponiamo un nuovo paradigma di addestramento con una funzione di perdita contrastiva per l'identità che sfrutta i dati accoppiati per bilanciare fedeltà e diversità. Questi contributi culminano in WithAnyone, un modello basato su diffusione che mitiga efficacemente il copia-incolla preservando un'elevata somiglianza con l'identità. Esperimenti qualitativi e quantitativi estesi dimostrano che WithAnyone riduce significativamente gli artefatti di copia-incolla, migliora la controllabilità su posa ed espressione e mantiene una forte qualità percettiva. Studi con utenti convalidano ulteriormente che il nostro metodo raggiunge un'elevata fedeltà all'identità consentendo una generazione controllata ed espressiva.
In un'era in cui l'IA si sta evolvendo da uno strumento passivo a un compagno attivo e adattivo, introduciamo AI for Service (AI4Service), un nuovo paradigma che abilita un'assistenza proattiva e in tempo reale nella vita quotidiana. I servizi di IA esistenti rimangono in gran parte reattivi, rispondendo solo a comandi espliciti dell'utente. Sosteniamo che un assistente veramente intelligente e utile dovrebbe essere in grado di anticipare le esigenze dell'utente e agire proattivamente quando appropriato. Per realizzare questa visione, proponiamo Alpha-Service, un framework unificato che affronta due sfide fondamentali: Sapere Quando intervenire rilevando opportunità di servizio da flussi video egocentrici, e Sapere Come fornire servizi sia generalizzati che personalizzati. Ispirato dall'architettura informatica di von Neumann e basato su occhiali intelligenti, Alpha-Service è composto da cinque componenti chiave: un'Unità di Input per la percezione, un'Unità di Elaborazione Centrale per la pianificazione delle attività, un'Unità Aritmetico-Logica per l'utilizzo degli strumenti, un'Unità di Memoria per la personalizzazione a lungo termine e un'Unità di Output per l'interazione naturale con l'uomo. Come esplorazione iniziale, implementiamo Alpha-Service attraverso un sistema multi-agente distribuito su occhiali intelligenti. Studi di caso, tra cui un consulente in tempo reale per il Blackjack, una guida museale e un assistente per lo shopping, dimostrano la sua capacità di percepire in modo fluido l'ambiente, dedurre le intenzioni dell'utente e fornire un'assistenza tempestiva e utile senza prompt espliciti.
L'edificio dei modelli nativi Vision-Linguaggio (VLMs) è emerso come un contendente in ascesa rispetto ai tipici VLMs modulari, plasmato dall'evoluzione delle architetture dei modelli e dei paradigmi di addestramento. Tuttavia, due persistenti nubi gettano ombre sulla sua ampia esplorazione e promozione: (-) Quali vincoli fondamentali distinguono i VLMs nativi da quelli modulari, e in che misura è possibile superare queste barriere? (-) Come rendere la ricerca sui VLMs nativi più accessibile e democratizzata, accelerando così i progressi nel campo. In questo articolo, chiariamo queste sfide e delineiamo principi guida per la costruzione di VLMs nativi. Nello specifico, un primitivo VLM nativo dovrebbe: (i) allineare efficacemente le rappresentazioni di pixel e parole all'interno di uno spazio semantico condiviso; (ii) integrare senza soluzione di continuità i punti di forza dei moduli di visione e linguaggio precedentemente separati; (iii) incarnare intrinsecamente varie proprietà cross-modali che supportano la codifica, l'allineamento e il ragionamento unificati tra visione e linguaggio. Pertanto, lanciamo NEO, una nuova famiglia di VLMs nativi costruiti dai primi principi, in grado di rivaleggiare con le controparti modulari di prim'ordine in diversi scenari del mondo reale. Con soli 390 milioni di esempi immagine-testo, NEO sviluppa efficacemente la percezione visiva da zero, mitigando i conflitti tra visione e linguaggio all'interno di un modello denso e monolitico realizzato dai nostri elaborati primitivi. Posizioniamo NEO come una pietra angolare per VLMs nativi scalabili e potenti, accompagnato da un ricco set di componenti riutilizzabili che favoriscono un ecosistema economico ed estensibile. Il nostro codice e i nostri modelli sono disponibili pubblicamente all'indirizzo: https://github.com/EvolvingLMMs-Lab/NEO.
In questo rapporto, proponiamo PaddleOCR-VL, un modello all'avanguardia (SOTA) ed efficiente in termini di risorse, progettato specificamente per l'analisi dei documenti. Il suo componente principale è PaddleOCR-VL-0.9B, un modello visione-linguaggio (VLM) compatto ma potente che integra un codificatore visivo a risoluzione dinamica in stile NaViT con il modello linguistico ERNIE-4.5-0.3B, consentendo un riconoscimento accurato degli elementi. Questo modello innovativo supporta in modo efficiente 109 lingue e si distingue nel riconoscimento di elementi complessi (ad esempio, testo, tabelle, formule e grafici), mantenendo al contempo un consumo minimo di risorse. Attraverso valutazioni approfondite su benchmark pubblici ampiamente utilizzati e benchmark interni, PaddleOCR-VL raggiunge prestazioni SOTA sia nell'analisi dei documenti a livello di pagina che nel riconoscimento a livello di elemento. Supera significativamente le soluzioni esistenti, dimostra una forte competitività rispetto ai migliori VLM e offre velocità di inferenza elevate. Questi punti di forza lo rendono altamente adatto per l'implementazione pratica in scenari reali.
I modelli di generazione video hanno compiuto progressi significativi, eccellendo in particolare in scenari realistici; tuttavia, le loro prestazioni si deteriorano notevolmente in scenari immaginativi. Questi prompt spesso coinvolgono concetti che raramente co-occorrono con relazioni semantiche a lunga distanza, cadendo al di fuori delle distribuzioni di addestramento. I metodi esistenti applicano tipicamente il ridimensionamento al momento del test per migliorare la qualità del video, ma i loro spazi di ricerca fissi e i design di ricompensa statici limitano l'adattabilità a scenari immaginativi. Per colmare questa lacuna, proponiamo ImagerySearch, una strategia di ricerca adattiva al momento del test guidata dal prompt che regola dinamicamente sia lo spazio di ricerca dell'inferenza che la funzione di ricompensa in base alle relazioni semantiche nel prompt. Ciò consente video più coerenti e visivamente plausibili in contesti immaginativi impegnativi. Per valutare i progressi in questa direzione, introduciamo LDT-Bench, il primo benchmark dedicato ai prompt semantici a lunga distanza, composto da 2.839 coppie di concetti diversi e un protocollo automatizzato per valutare le capacità di generazione creativa. Esperimenti estesi dimostrano che ImagerySearch supera costantemente i baseline di generazione video e gli approcci esistenti di ridimensionamento al momento del test su LDT-Bench, e ottiene miglioramenti competitivi su VBench, dimostrando la sua efficacia su diversi tipi di prompt. Rilasceremo LDT-Bench e il codice per facilitare la ricerca futura sulla generazione video immaginativa.
In questo articolo presentiamo BitNet Distillation (BitDistill), una pipeline leggera che ottimizza modelli linguistici preesistenti a precisione completa (ad esempio, Qwen) per specifici task downstream, riducendoli a una precisione di 1.58 bit (ovvero, pesi ternari {-1, 0, 1}), ottenendo prestazioni specifiche per il task con un costo computazionale minimo. Nello specifico, BitDistill incorpora tre tecniche chiave: il modulo SubLN, introdotto in BitNet; la distillazione dell'attenzione multi-testa, basata su MiniLM; e il pre-training continuo, che funge da fase di riscaldamento cruciale per mitigare il problema di scalabilità del divario prestazionale tra modelli linguistici a precisione completa e quelli a 1.58 bit su task specifici. I risultati sperimentali dimostrano che BitDistill raggiunge prestazioni paragonabili ai modelli a precisione completa, indipendentemente dalle dimensioni del modello, consentendo un risparmio di memoria fino a 10x e un'inferenza 2.65x più veloce su CPU. Il codice è disponibile all'indirizzo https://github.com/microsoft/BitNet.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso recentemente come un paradigma fondamentale per potenziare le capacità di ragionamento dei Modelli Linguistici di Grande Scala (LLM). Per affrontare la mancanza di segnali di verifica durante il test, studi precedenti hanno integrato l'addestramento della capacità di auto-verifica del modello nel processo standard di RLVR, unificando così le capacità di ragionamento e verifica all'interno di un singolo LLM. Tuttavia, la pratica precedente richiedeva che l'LLM generasse sequenzialmente soluzioni e auto-verifiche utilizzando due modelli di prompt separati, riducendo significativamente l'efficienza. In questo lavoro, riveliamo teoricamente che la soluzione in forma chiusa dell'obiettivo di RL per l'auto-verifica può essere ridotta a una forma sorprendentemente semplice: la ricompensa di ragionamento vera di una soluzione è uguale al suo punteggio di auto-ricompensa dell'ultimo token, calcolato come la differenza tra la probabilità logaritmica del token successivo assegnata dal modello di politica a qualsiasi token pre-specificato all'ultimo token della soluzione e una costante pre-calcolata, scalata per il coefficiente KL. Basandoci su questa intuizione, proponiamo LaSeR (Reinforcement Learning con Auto-Ricompensa dell'Ultimo Token), un algoritmo che semplicemente amplifica la perdita originale di RLVR con una perdita MSE che allinea i punteggi di auto-ricompensa dell'ultimo token con le ricompense di ragionamento basate su verificatori, ottimizzando congiuntamente le capacità di ragionamento e auto-ricompensa degli LLM. I punteggi di auto-ricompensa ottimizzati possono essere utilizzati sia durante l'addestramento che durante il test per migliorare le prestazioni del modello. In particolare, il nostro algoritmo deriva questi punteggi dalla distribuzione di probabilità del token successivo prevista per l'ultimo token immediatamente dopo la generazione, comportando solo il costo aggiuntivo minimo di un'inferenza di un token aggiuntivo. Gli esperimenti dimostrano che il nostro metodo non solo migliora le prestazioni di ragionamento del modello, ma lo equipaggia anche con una notevole capacità di auto-ricompensa, potenziando così le sue prestazioni di scalabilità durante l'inferenza.
Questo lavoro studia come ricomputare in modo adattivo le cache chiave-valore (KV) per i modelli linguistici di diffusione (DLM) al fine di massimizzare l'accuratezza delle previsioni riducendo al minimo la latenza di decodifica. I decodificatori dei metodi precedenti ricomputano QKV per tutti i token a ogni passo di denoising e a ogni livello, nonostante gli stati KV cambino poco nella maggior parte dei passi, specialmente nei livelli superficiali, portando a una sostanziale ridondanza. Facciamo tre osservazioni: (1) i token {bf MASK} distanti agiscono principalmente come un bias di lunghezza e possono essere memorizzati in cache a blocchi oltre la finestra di previsione attiva; (2) le dinamiche KV aumentano con la profondità, suggerendo che un aggiornamento selettivo a partire dai livelli più profondi è sufficiente; e (3) il token con il maggior numero di attenzioni mostra la minima deriva KV, fornendo un limite inferiore conservativo sul cambiamento della cache per gli altri token. Basandoci su queste osservazioni, proponiamo {bf Elastic-Cache}, una strategia senza addestramento e indipendente dall'architettura che decide congiuntamente {quando} aggiornare (tramite un test di deriva basato sull'attenzione sul token con il maggior numero di attenzioni) e {dove} aggiornare (tramite una pianificazione basata sulla profondità che ricomputa a partire da un livello scelto in poi, riutilizzando le cache dei livelli superficiali e le cache MASK fuori dalla finestra). A differenza degli schemi a periodo fisso, Elastic-Cache esegue aggiornamenti adattivi e consapevoli del livello delle cache per i DLM, riducendo il calcolo ridondante e accelerando la decodifica con una perdita trascurabile nella qualità della generazione. Esperimenti su LLaDA-Instruct, LLaDA-1.5 e LLaDA-V su compiti di ragionamento matematico e generazione di codice dimostrano accelerazioni consistenti: 8.7 volte su GSM8K (256 token), 45.1 volte su sequenze più lunghe e 4.8 volte su HumanEval, mantenendo costantemente un'accuratezza superiore rispetto alla baseline. Il nostro metodo raggiunge un throughput significativamente più alto (6.8 volte su GSM8K) rispetto agli approcci esistenti basati sulla confidenza, preservando la qualità della generazione e consentendo la distribuzione pratica dei DLM.
Gli agenti basati su modelli linguistici di grandi dimensioni (LLM) vengono sempre più addestrati con l'apprendimento per rinforzo (RL) per migliorare la loro capacità di interagire con ambienti esterni attraverso l'uso di strumenti, in particolare in contesti basati sulla ricerca che richiedono ragionamenti a più turni e acquisizione di conoscenze. Tuttavia, gli approcci esistenti si basano tipicamente su ricompense basate sui risultati, fornite solo alla risposta finale. Questa scarsità di ricompense diventa particolarmente problematica in contesti a più turni, dove traiettorie lunghe esacerbano due problemi critici: (i) il collasso del vantaggio, in cui tutti i rollout ricevono ricompense identiche e non forniscono segnali di apprendimento utili, e (ii) la mancanza di un'assegnazione di credito granulare, dove le dipendenze tra i turni sono oscurate, specialmente in compiti a lungo termine. In questo articolo, proponiamo l'ottimizzazione delle politiche basata sul guadagno di informazione (IGPO), un framework RL semplice ma efficace che fornisce una supervisione densa e intrinseca per l'addestramento di agenti a più turni. IGPO modella ogni turno di interazione come un processo incrementale di acquisizione di informazioni sulla verità di base e definisce le ricompense a livello di turno come l'aumento marginale nella probabilità della politica di produrre la risposta corretta. A differenza degli approcci precedenti basati su ricompense a livello di processo che dipendono da modelli di ricompensa esterni o da costose stime Monte Carlo, IGPO deriva ricompense intrinseche direttamente dagli aggiornamenti delle credenze del modello stesso. Queste ricompense intrinseche a livello di turno sono combinate con la supervisione a livello di risultato per formare traiettorie di ricompensa dense. Esperimenti estesi su benchmark sia in dominio che fuori dominio dimostrano che IGPO supera costantemente baseline forti in scenari a più turni, raggiungendo una maggiore accuratezza e una migliore efficienza campionaria.
I modelli linguistici di grandi dimensioni (LLM) per il codice si basano su tokenizer sub-parola, come la codifica byte-pair (BPE), appresi da un mix di testo in linguaggio naturale e codice di programmazione, ma guidati da statistiche piuttosto che dalla grammatica. Di conseguenza, frammenti di codice semanticamente identici possono essere tokenizzati in modo diverso a seconda di fattori superficiali come gli spazi bianchi o la denominazione degli identificatori. Per misurare l'impatto di questo disallineamento, introduciamo TokDrift, un framework che applica regole di riscrittura che preservano la semantica per creare varianti di codice che differiscono solo nella tokenizzazione. Su nove LLM per il codice, inclusi quelli di grandi dimensioni con oltre 30 miliardi di parametri, anche piccoli cambiamenti di formattazione possono causare sostanziali variazioni nel comportamento del modello. L'analisi strato per strato mostra che il problema ha origine nelle prime fasi di embedding, dove la segmentazione sub-parola non riesce a catturare i confini dei token grammaticali. I nostri risultati identificano la tokenizzazione disallineata come un ostacolo nascosto alla comprensione e alla generazione affidabile del codice, evidenziando la necessità di una tokenizzazione consapevole della grammatica per i futuri LLM per il codice.
Mentre i Large Language Models (LLM) hanno eccelso nel ragionamento testuale, incontrano difficoltà nei domini matematici come la geometria, che si basano intrinsecamente su supporti visivi. Gli approcci esistenti al Visual Chain-of-Thought (VCoT) sono spesso limitati da strumenti esterni rigidi o non riescono a generare diagrammi ad alta fedeltà e temporalmente strategici necessari per la risoluzione di problemi complessi. Per colmare questa lacuna, introduciamo MathCanvas, un framework completo progettato per dotare i Large Multimodal Models (LMM) unificati di capacità intrinseche di VCoT per la matematica. Il nostro approccio si compone di due fasi. In primo luogo, una fase di Visual Manipulation pre-addestra il modello su un nuovo corpus di 15,2 milioni di coppie, comprendente 10 milioni di coppie didascalia-diagramma (MathCanvas-Imagen) e 5,2 milioni di traiettorie di modifica passo-passo (MathCanvas-Edit), per padroneggiare la generazione e la modifica dei diagrammi. In secondo luogo, una fase di Strategic Visual-Aided Reasoning affina il modello su MathCanvas-Instruct, un nuovo dataset di 219 mila esempi di percorsi di ragionamento intervallati visivo-testuali, insegnandogli quando e come sfruttare i supporti visivi. Per facilitare una valutazione rigorosa, introduciamo MathCanvas-Bench, un benchmark impegnativo con 3 mila problemi che richiedono ai modelli di produrre soluzioni intervallate visivo-testuali. Il nostro modello, BAGEL-Canvas, addestrato sotto questo framework, raggiunge un miglioramento relativo dell'86% rispetto ai forti baseline LMM su MathCanvas-Bench, dimostrando un'eccellente generalizzazione su altri benchmark matematici pubblici. Il nostro lavoro fornisce un toolkit completo—framework, dataset e benchmark—per sbloccare un ragionamento visivo-aided complesso e simile a quello umano negli LMM. Pagina del progetto: https://mathcanvas.github.io/
Proponiamo e testiamo l'Ipotesi del Degrado Cerebrale nei LLM: l'esposizione continua a testi di bassa qualità provenienti dal web induce un declino cognitivo duraturo nei grandi modelli linguistici (LLM). Per isolare causalmente la qualità dei dati, conduciamo esperimenti controllati su corpora reali di Twitter/X, costruendo dataset di bassa qualità e dataset di controllo inverso attraverso due operazionalizzazioni ortogonali: M1 (grado di coinvolgimento) e M2 (qualità semantica), con scala di token e operazioni di training bilanciate tra le condizioni. Contrariamente al gruppo di controllo, il pre-training continuo di 4 LLM sul dataset di bassa qualità causa declini significativi (Hedges' g>0.3) nel ragionamento, nella comprensione di contesti lunghi, nella sicurezza e nell'incremento di "tratti oscuri" (ad esempio, psicopatia, narcisismo). Le miscele graduali di dataset di bassa qualità e di controllo producono anche un decadimento cognitivo dose-risposta: ad esempio, in M1, ARC-Challenge con Chain Of Thoughts scende da 74.9 a 57.2 e RULER-CWE da 84.4 a 52.3 man mano che la percentuale di dati di bassa qualità aumenta dallo 0% al 100%. L'analisi degli errori rivela diverse intuizioni chiave. In primo luogo, identifichiamo il salto di pensiero come la lesione principale: i modelli troncano o saltano sempre più le catene di ragionamento, spiegando gran parte della crescita degli errori. In secondo luogo, osserviamo una guarigione parziale ma incompleta: il tuning delle istruzioni e il pre-training con dati puliti migliorano la cognizione deteriorata, ma non riescono a ripristinare le capacità di base, suggerendo una deriva rappresentativa persistente piuttosto che un disallineamento di formato. Infine, scopriamo che la popolarità, una metrica non semantica, di un tweet è un indicatore migliore dell'effetto di Degrado Cerebrale rispetto alla lunghezza in M1. Insieme, i risultati forniscono prove significative e multiprospettiche che la qualità dei dati è un fattore causale del declino delle capacità dei LLM, ridefinendo la curazione per il pre-training continuo come un problema di sicurezza durante l'addestramento e motivando controlli di routine della "salute cognitiva" per i LLM in produzione.
I recenti progressi nei modelli di ricompensa multimodale (RMs) hanno notevolmente migliorato il post-training per i modelli generativi visivi. Tuttavia, gli attuali RMs presentano limitazioni intrinseche: (1) gli input visivi consumano ampi budget di contesto, costringendo a un numero ridotto di frame e causando la perdita di dettagli fini; e (2) tutte le informazioni visive vengono compresse nel prompt iniziale, aggravando il fenomeno di allucinazione e dimenticanza durante il ragionamento a catena di pensiero. Per superare questi problemi, introduciamo VideoReward Thinker (VR-Thinker), un framework di pensiero-con-immagini che equipaggia l'RM con operazioni di ragionamento visivo (ad esempio, selezione del frame) e una finestra di memoria visiva configurabile. Ciò consente all'RM di acquisire e aggiornare attivamente le evidenze visive entro i limiti del contesto, migliorando la fedeltà e l'affidabilità del ragionamento. Attiviamo il ragionamento visivo attraverso una pipeline di fine-tuning a rinforzo: (i) Avvio a freddo con dati curati di catena di pensiero visiva per distillare le abilità di ragionamento di base e la formattazione delle operazioni; (ii) selezione di campioni i cui giudizi per dimensione e complessivi sono tutti corretti, seguito da un Fine-Tuning con campionamento di rifiuto su queste tracce di alta qualità per migliorare ulteriormente il ragionamento; e (iii) applicazione dell'ottimizzazione relativa delle politiche di gruppo (GRPO) per rafforzare il ragionamento. Il nostro approccio raggiunge un'accuratezza all'avanguardia tra i modelli open-source sui benchmark di preferenza video, specialmente per video più lunghi: un VR-Thinker da 7B ottiene l'80,5% su VideoGen Reward, l'82,3% su GenAI-Bench e il 75,6% su MJ-Bench-Video. Questi risultati convalidano l'efficacia e la promessa della modellazione multimodale di ricompensa con pensiero-con-immagini.
Recenti studi suggeriscono che i grandi modelli linguistici (LLM) codificano segnali di veridicità nelle loro rappresentazioni interne, come stati nascosti, pesi di attenzione o probabilità dei token, implicando che gli LLM possano "sapere ciò che non sanno". Tuttavia, gli LLM possono anche produrre errori fattuali basandosi su scorciatoie o associazioni spurie. Questi errori sono guidati dallo stesso obiettivo di addestramento che incoraggia previsioni corrette, sollevando la questione se i calcoli interni possano distinguere in modo affidabile tra output fattuali e allucinati. In questo lavoro, conduciamo un'analisi meccanicistica di come gli LLM elaborano internamente le query fattuali confrontando due tipi di allucinazioni in base alla loro dipendenza dalle informazioni sul soggetto. Scopriamo che quando le allucinazioni sono associate alla conoscenza del soggetto, gli LLM impiegano lo stesso processo di richiamo interno utilizzato per le risposte corrette, portando a geometrie degli stati nascosti sovrapposte e indistinguibili. Al contrario, le allucinazioni slegate dalla conoscenza del soggetto producono rappresentazioni distinte e raggruppate che le rendono rilevabili. Questi risultati rivelano una limitazione fondamentale: gli LLM non codificano la veridicità nei loro stati interni, ma solo modelli di richiamo della conoscenza, dimostrando che "gli LLM non sanno davvero ciò che non sanno".
I moderni sistemi di Information Retrieval (IR) sono sempre più chiamati a rispondere a query complesse e multifaccettate che richiedono un ragionamento approfondito, piuttosto che un semplice matching di parole chiave o semantico. Sebbene l'IR basato su Large Language Models (LLM) abbia mostrato grandi potenzialità, il paradigma prevalente di "recupera e poi riordina" eredita i limiti del recupero basato su embedding; gli approcci generativi parametrici sono difficili da aggiornare con nuove informazioni; e i metodi a contesto lungo, che inseriscono l'intero corpus nel contesto, sono computazionalmente impraticabili per grandi collezioni di documenti. Per affrontare queste sfide, introduciamo LATTICE, un framework di recupero gerarchico che consente a un LLM di ragionare e navigare grandi corpora con una complessità di ricerca logaritmica, imponendo una struttura ad albero semantica sul corpus. Il nostro approccio si compone di due fasi: (1) una fase offline che organizza il corpus in una gerarchia semantica attraverso una strategia agglomerativa bottom-up o una strategia divisiva top-down utilizzando riassunti multilivello, e (2) una fase di attraversamento online in cui un LLM di ricerca naviga questo albero. Una sfida centrale in tale ricerca guidata da LLM è che i giudizi di rilevanza del modello sono rumorosi, dipendenti dal contesto e inconsapevoli della gerarchia, rendendo difficili i confronti tra rami e livelli. Per superare ciò, proponiamo un algoritmo di attraversamento che stima punteggi di rilevanza latente calibrati dagli output locali del LLM e li aggrega in una metrica globale di rilevanza del percorso. Il nostro framework, che non richiede addestramento, raggiunge prestazioni state-of-the-art zero-shot sul benchmark BRIGHT, intensivo di ragionamento, dimostrando un miglioramento fino al 9% in Recall@100 e al 5% in nDCG@10 rispetto al miglior baseline zero-shot. Inoltre, rispetto al metodo SOTA fine-tuned DIVER-v2, LATTICE ottiene risultati comparabili sui sottoinsiemi di BRIGHT che utilizzano un corpus statico per la valutazione.
I modelli attuali visione-linguaggio-azione (VLA), pre-addestrati su dati robotici su larga scala, dimostrano forti capacità multi-task e si generalizzano bene alle variazioni nelle istruzioni visive e linguistiche per la manipolazione. Tuttavia, il loro tasso di successo diminuisce significativamente quando si trovano di fronte a concetti di oggetti esterni ai dati di addestramento, come descrizioni e texture di oggetti non visti nel dataset. Per affrontare questo problema, proponiamo un nuovo framework agentico, VLA^2, che utilizza OpenVLA come backbone di esecuzione e sfrutta efficacemente moduli esterni come il recupero web e la rilevazione di oggetti per fornire conoscenze visive e testuali sugli oggetti target al VLA. Questo approccio mitiga il fallimento della generalizzazione quando si gestiscono oggetti fuori distribuzione. Basandoci sull'ambiente di simulazione LIBERO, abbiamo introdotto nuovi oggetti e descrizioni di oggetti per costruire un nuovo benchmark di valutazione con tre livelli di difficoltà per testare l'efficacia del nostro metodo. Il nostro framework ha superato con successo i modelli attuali all'avanguardia sul nostro benchmark di generalizzazione di livello difficile progettato. Rispetto alla baseline standalone di OpenVLA, VLA^2 raggiunge un miglioramento del 44,2% nel tasso di successo nel benchmark di livello difficile e un miglioramento medio del 20,2% in tutti gli ambienti personalizzati senza alcun degrado delle prestazioni sui task in dominio. Sito web del progetto: https://vla-2.github.io.
Man mano che i modelli linguistici di grandi dimensioni (LLM) diventano più capaci e ampiamente utilizzati, garantire la sicurezza dei loro output è sempre più cruciale. I modelli di protezione esistenti, sebbene utili in contesti di valutazione statica, presentano due principali limitazioni nelle applicazioni reali: (1) in genere producono solo etichette binarie "sicuro/non sicuro", che possono essere interpretate in modo incoerente tra diverse politiche di sicurezza, rendendoli incapaci di adattarsi a tolleranze di sicurezza variabili tra i domini; e (2) richiedono output completi del modello prima di eseguire controlli di sicurezza, rendendoli fondamentalmente incompatibili con l'inferenza in streaming degli LLM, impedendo così un intervento tempestivo durante la generazione e aumentando l'esposizione a output parziali dannosi. Per affrontare queste sfide, presentiamo Qwen3Guard, una serie di modelli di protezione multilingue con due varianti specializzate: Generative Qwen3Guard, che trasforma la classificazione della sicurezza in un compito di esecuzione di istruzioni per consentire giudizi tri-classe granulari (sicuro, controverso, non sicuro); e Stream Qwen3Guard, che introduce una testa di classificazione a livello di token per il monitoraggio della sicurezza in tempo reale durante la generazione incrementale del testo. Entrambe le varianti sono disponibili in tre dimensioni (0,6B, 4B e 8B parametri) e supportano fino a 119 lingue e dialetti, fornendo una moderazione della sicurezza completa, scalabile e a bassa latenza per le implementazioni globali degli LLM. Valutato su benchmark in inglese, cinese e multilingue, Qwen3Guard raggiunge prestazioni all'avanguardia sia nella classificazione della sicurezza dei prompt che delle risposte. Tutti i modelli sono rilasciati sotto licenza Apache 2.0 per uso pubblico.
I grandi modelli linguistici mostrano carenze sistematiche nella scrittura creativa, in particolare in contesti non anglofoni dove i dati di addestramento sono scarsi e mancano di supervisione a livello di processo. Presentiamo COIG-Writer, un nuovo dataset cinese per la scrittura creativa che cattura sia output diversificati sia i processi di pensiero sottostanti attraverso un'ingegneria inversa sistematica di testi di alta qualità. A differenza dei dataset esistenti che forniscono solo coppie input-output, COIG-Writer comprende 1.665 triplette accuratamente curate che coprono 51 generi, ciascuna contenente: (1) un prompt ricostruito tramite ingegneria inversa, (2) un ragionamento creativo dettagliato che documenta i processi decisionali, e (3) il testo finale. Attraverso esperimenti completi, identifichiamo un modello a due componenti della scrittura creativa: logica narrativa (fornita dalla supervisione del processo) ed espressione linguistica (mantenuta da dati di uso generale). Le nostre scoperte rivelano tre intuizioni critiche: (1) La supervisione del processo è altamente efficace ma richiede stabilizzazione con dati generali. Un rapporto di almeno un campione creativo ogni dodici campioni generali è necessario per ottenere prestazioni ottimali; al di sotto di questa soglia, il tasso di successo si degrada progressivamente (dal 62,75% fino al 35,78%). (2) Le capacità creative sono legate alla cultura, senza trasferimento cross-linguistico (un divario di 89,26 punti percentuali tra le prestazioni in cinese e in inglese). (3) La diversità lessicale è inversamente correlata alla qualità creativa (paradosso TTR), suggerendo che un'elevata diversità segnali un comportamento compensatorio per carenze logiche. Questi risultati stabiliscono che l'eccellenza creativa emerge dall'interazione tra un'impalcatura logica e una base linguistica, analogamente a come il ragionamento matematico migliora ma non può sostituire la competenza linguistica nei modelli di base.
In questo lavoro, introduciamo i modelli mxbai-edge-colbert-v0, disponibili in due diverse configurazioni di parametri: 17M e 32M. Come parte della nostra ricerca, conduciamo numerosi esperimenti per migliorare i modelli di retrieval e late-interaction, con l'obiettivo di distillarli in modelli più piccoli come proof-of-concept. Il nostro obiettivo finale è supportare il retrieval a tutte le scale, dal retrieval su larga scala che risiede nel cloud a modelli che possono essere eseguiti localmente, su qualsiasi dispositivo. mxbai-edge-colbert-v0 è un modello che speriamo possa servire come solida base per tutti i futuri esperimenti, rappresentando la prima versione di una lunga serie di piccoli proof-of-concept. Come parte dello sviluppo di mxbai-edge-colbert-v0, abbiamo condotto diversi studi di ablazione, di cui riportiamo i risultati. In termini di prestazioni downstream, mxbai-edge-colbert-v0 è un modello piccolo particolarmente capace, superando ColBERTv2 su benchmark comuni per testi brevi (BEIR) e rappresentando un grande passo avanti nelle attività a contesto lungo, con un'efficienza senza precedenti.
La ricerca approfondita -- produrre report completi e basati su citazioni attraverso la ricerca e la sintesi di informazioni provenienti da centinaia di fonti web in tempo reale -- rappresenta una frontiera importante per i sistemi agentivi. Per valutare rigorosamente questa capacità, quattro principi sono essenziali: i compiti dovrebbero essere (1) centrati sull'utente, riflettendo esigenze informative realistiche, (2) dinamici, richiedendo informazioni aggiornate oltre la conoscenza parametrica, (3) inequivocabili, garantendo un'interpretazione coerente tra gli utenti, e (4) multifaccettati e intensivi nella ricerca, richiedendo la consultazione di numerose fonti web e un'analisi approfondita. Gli attuali benchmark non soddisfano questi principi, spesso concentrandosi su domini ristretti o ponendo domande ambigue che ostacolano un confronto equo. Guidati da questi principi, introduciamo LiveResearchBench, un benchmark di 100 compiti curati da esperti che spaziano dalla vita quotidiana all'impresa e all'accademia, ciascuno dei quali richiede un'ampia ricerca web dinamica in tempo reale e una sintesi. Costruito con oltre 1.500 ore di lavoro umano, LiveResearchBench fornisce una base rigorosa per una valutazione sistematica. Per valutare report lunghi basati su citazioni, introduciamo DeepEval, una suite completa che copre sia la qualità del contenuto che del report, inclusi copertura, presentazione, accuratezza e associazione delle citazioni, coerenza e profondità dell'analisi. DeepEval integra quattro protocolli di valutazione complementari, ciascuno progettato per garantire una valutazione stabile e un elevato accordo con i giudizi umani. Utilizzando LiveResearchBench e DeepEval, conduciamo una valutazione completa di 17 sistemi all'avanguardia per la ricerca approfondita, inclusi sistemi di ricerca web a singolo agente, sistemi di ricerca approfondita a singolo agente e sistemi multi-agente. La nostra analisi rivela i punti di forza attuali, le modalità di fallimento ricorrenti e i componenti chiave del sistema necessari per progredire verso una ricerca approfondita affidabile e perspicace.
I metodi attuali di apprendimento delle preferenze raggiungono un'elevata accuratezza sui benchmark standard, ma mostrano un significativo degrado delle prestazioni quando vengono rimossi i segnali di qualità oggettiva. Introduciamo WritingPreferenceBench, un dataset di 1.800 coppie di preferenze annotate da esseri umani (1.200 in inglese, 600 in cinese) in 8 generi di scrittura creativa, in cui le risposte sono confrontate per correttezza oggettiva, accuratezza fattuale e lunghezza. Su questo benchmark, i modelli di ricompensa basati su sequenze—l'architettura standard per il RLHF—raggiungono solo una precisione media del 52,7%, mentre i giudici dei modelli linguistici zero-shot ottengono il 53,9%. Al contrario, i modelli di ricompensa generativi che producono catene di ragionamento esplicite raggiungono un'accuratezza dell'81,8%. Osserviamo un'elevata varianza interna ai modelli tra i generi: i singoli modelli variano dal 18,2% all'81,8% di accuratezza tra le diverse categorie di scrittura, con deviazioni standard che in media raggiungono il 10,1%. Questa varianza persiste indipendentemente dalla scala del modello, con modelli da 27B parametri che non mostrano miglioramenti consistenti rispetto alle varianti da 8B. I nostri risultati suggeriscono che i metodi attuali di RLHF apprendono principalmente a rilevare errori oggettivi piuttosto che a catturare preferenze di qualità soggettiva (ad esempio, creatività, stile e risonanza emotiva), e che una modellazione efficace delle preferenze potrebbe richiedere rappresentazioni intermedie di ragionamento piuttosto che una classificazione diretta.
Introduciamo AnyUp, un metodo per l'upsampling di feature che può essere applicato a qualsiasi feature visiva a qualsiasi risoluzione, senza necessità di addestramento specifico per l'encoder. Gli attuali upsampler basati su apprendimento per feature come DINO o CLIP richiedono di essere ri-addestrati per ogni estrattore di feature e quindi non generalizzano a diversi tipi di feature durante l'inferenza. In questo lavoro, proponiamo un'architettura di upsampling agnostica rispetto alle feature, utilizzabile durante l'inferenza, per mitigare questa limitazione e migliorare la qualità dell'upsampling. Nei nostri esperimenti, AnyUp stabilisce un nuovo stato dell'arte per le feature upsampled, generalizza a diversi tipi di feature e preserva la semantica delle feature, risultando al contempo efficiente e facile da applicare a un'ampia gamma di task downstream.
La progettazione di macchine complesse rappresenta sia un indicatore dell'intelligenza umana che un fondamento della pratica ingegneristica. Alla luce dei recenti progressi nei grandi modelli linguistici (LLM), ci chiediamo se anche essi possano imparare a creare. Affrontiamo questa questione attraverso la lente della progettazione composizionale di macchine: un compito in cui le macchine vengono assemblate da componenti standardizzati per soddisfare esigenze funzionali come la locomozione o la manipolazione in un ambiente fisico simulato. Per supportare questa indagine, introduciamo BesiegeField, un banco di prova basato sul gioco di costruzione di macchine Besiege, che consente la costruzione basata su parti, la simulazione fisica e la valutazione guidata da ricompense. Utilizzando BesiegeField, testiamo i migliori LLM con flussi di lavoro agentici e identifichiamo le capacità chiave necessarie per il successo, tra cui il ragionamento spaziale, l'assemblaggio strategico e il rispetto delle istruzioni. Poiché gli attuali modelli open-source non sono all'altezza, esploriamo l'apprendimento per rinforzo (RL) come percorso di miglioramento: curiamo un dataset di partenza a freddo, conduciamo esperimenti di fine-tuning RL e evidenziamo le sfide aperte all'intersezione tra linguaggio, progettazione di macchine e ragionamento fisico.
Il reinforcement learning con ricompense verificabili (RLVR) ha migliorato le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, i metodi RLVR prevalenti mostrano un bias sistematico verso lo sfruttamento piuttosto che l'esplorazione, come evidenziato da un miglioramento delle prestazioni in pass@1 ma da una riduzione in pass@K (K>1). Per comprendere questo problema, analizziamo le dinamiche di addestramento dei metodi RLVR monitorando le distribuzioni di probabilità a livello di token sui candidati del vocabolario. La nostra analisi rivela un effetto consistente di concentrazione della probabilità, in cui il candidato top-1 accumula progressivamente massa di probabilità e sopprime quella degli altri candidati. Ancora più importante, una maggiore sovra-concentrazione è correlata a prestazioni peggiori in pass@K. Ispirati da questa scoperta, proponiamo Simple Pass@K Optimization (SimKO), un metodo progettato per mitigare il problema della sovra-concentrazione, incoraggiando così l'esplorazione. SimKO opera in modo asimmetrico. Per le risposte verificate come corrette, aumenta le probabilità dei candidati top-K. Per le risposte verificate come errate, applica penalità più severe al candidato top-1. Osserviamo che questo design asimmetrico è particolarmente efficace nel mitigare la sovra-concentrazione quando applicato a token con alta entropia. Su vari benchmark di matematica e ragionamento logico, SimKO produce costantemente valori più alti di pass@K per un'ampia gamma di K, fornendo un modo semplice per migliorare l'esplorazione nell'RLVR.
I modelli Vision-Language-Action (VLA) stanno vivendo uno sviluppo rapido e dimostrano capacità promettenti nei compiti di manipolazione robotica. Tuttavia, il ridimensionamento dei modelli VLA presenta diverse sfide critiche: (1) L'addestramento di nuovi modelli VLA da zero richiede risorse computazionali sostanziali e dataset estesi. Data l'attuale scarsità di dati robotici, diventa particolarmente prezioso sfruttare appieno i pesi di modelli VLA pre-addestrati durante il processo di ridimensionamento. (2) Il controllo in tempo reale richiede un bilanciamento accurato tra capacità del modello ed efficienza computazionale. Per affrontare queste sfide, proponiamo AdaMoE, un'architettura Mixture-of-Experts (MoE) che eredita i pesi pre-addestrati da modelli VLA densi e ridimensiona l'esperto di azione sostituendo i livelli feedforward con livelli MoE attivati in modo sparso. AdaMoE utilizza una tecnica di disaccoppiamento che separa la selezione degli esperti dalla ponderazione degli esperti attraverso un adattatore di scala indipendente che lavora insieme al router tradizionale. Ciò consente agli esperti di essere selezionati in base alla rilevanza del compito mentre contribuiscono con pesi controllati in modo indipendente, permettendo un utilizzo collaborativo degli esperti anziché una dinamica winner-takes-all. Il nostro approccio dimostra che l'esperienza non deve monopolizzare. Invece, attraverso un utilizzo collaborativo degli esperti, possiamo ottenere prestazioni superiori mantenendo l'efficienza computazionale. AdaMoE supera costantemente il modello di riferimento su benchmark chiave, ottenendo miglioramenti delle prestazioni dell'1,8% su LIBERO e del 9,3% su RoboTwin. Soprattutto, un sostanziale miglioramento del 21,5% negli esperimenti nel mondo reale ne convalida l'efficacia pratica per i compiti di manipolazione robotica.
I modelli Vision-Language-Action (VLA) promettono enormemente di abilitare la manipolazione robotica generalista. Tuttavia, il modo migliore per costruirli rimane una questione aperta. Gli approcci attuali spesso aggiungono complessità, come modificare il vocabolario esistente di un modello Vision-Language (VLM) con token di azione o introdurre speciali "teste di azione". Curiosamente, la strategia più semplice di rappresentare direttamente le azioni come testo è rimasta in gran parte inesplorata. Questo lavoro introduce VLA-0 per indagare questa idea. Scopriamo che VLA-0 non solo è efficace; è sorprendentemente potente. Con il giusto design, VLA-0 supera modelli più complessi. Su LIBERO, un popolare benchmark per valutare i VLA, VLA-0 supera tutti i metodi esistenti addestrati sugli stessi dati robotici, inclusi pi_0.5-KI, OpenVLA-OFT e SmolVLA. Inoltre, senza un addestramento su larga scala specifico per la robotica, supera metodi addestrati su grandi quantità di dati robotici, come pi_0.5-KI, pi_0, GR00T-N1 e MolmoAct. Questi risultati si traducono anche nel mondo reale, dove VLA-0 supera SmolVLA, un modello VLA pre-addestrato su grandi quantità di dati reali. Questo articolo riassume le nostre scoperte inaspettate e descrive le tecniche specifiche necessarie per sbloccare le alte prestazioni di questo design VLA semplice ma potente. Risultati visivi, codice e modelli addestrati sono forniti qui: https://vla0.github.io/.
I modelli linguistici di grandi dimensioni (LLM) hanno suscitato un crescente interesse verso gli agenti di ricerca automatica nel campo del machine learning. Tra questi, gli agenti in grado di proporre idee e condurre esperimenti di machine learning in modo autonomo sono particolarmente promettenti, poiché massimizzano l'automazione della ricerca e accelerano il progresso scientifico attraverso il perfezionamento iterativo delle idee basato sui risultati sperimentali. Tuttavia, valutare in modo completo tali agenti rimane una sfida. I benchmark esistenti tendono a enfatizzare eccessivamente gli aspetti ingegneristici trascurando il rigore accademico, creando barriere che oscurano una valutazione chiara delle capacità scientifiche di un agente nella ricerca sul machine learning. Inoltre, soffrono di una limitata diversità dei compiti, un'enfasi eccessiva su attività orientate all'applicazione rispetto ai problemi di ricerca fondamentali e una scalabilità limitata a contesti di ricerca realistici. Per affrontare queste limitazioni, introduciamo FML-bench, un benchmark progettato per valutare gli agenti di ricerca automatica su 8 problemi di ricerca fondamentali e diversificati nel machine learning. Riduce il carico di codifica, enfatizza i problemi fondamentali piuttosto che casi d'uso specifici, offre un'elevata diversità di compiti ed è estendibile ai repository GitHub di machine learning del mondo reale. Inoltre, presentiamo un framework di valutazione unificato con cinque metriche complementari, progettato per valutare in modo completo le prestazioni degli agenti sul nostro benchmark. Valutiamo gli agenti di ricerca automatica all'avanguardia su FML-bench e scopriamo che gli agenti che adottano strategie di esplorazione ampia superano quelli che si concentrano su un'esplorazione ristretta ma approfondita. Questi risultati suggeriscono che enfatizzare l'ampiezza dell'esplorazione può portare a risultati di ricerca più efficaci rispetto al concentrarsi esclusivamente su un perfezionamento incrementale. Il nostro benchmark è disponibile all'indirizzo https://github.com/qrzou/FML-bench.
I modelli generativi basati su diffusione o flusso con pochi passi tipicamente distillano un insegnante che predice la velocità in uno studente che predice una scorciatoia verso dati denoisati. Questo disallineamento di formato ha portato a procedure di distillazione complesse che spesso soffrono di un compromesso qualità-diversità. Per affrontare questo problema, proponiamo modelli di flusso basati su policy (pi-Flow). pi-Flow modifica lo strato di output di un modello di flusso studente per predire una policy senza rete in un singolo passo temporale. La policy produce poi velocità di flusso dinamiche nei sottopassi futuri con un overhead trascurabile, consentendo un'integrazione ODE rapida e accurata su questi sottopassi senza valutazioni aggiuntive della rete. Per allineare la traiettoria ODE della policy a quella dell'insegnante, introduciamo un nuovo approccio di distillazione per imitazione, che allinea la velocità della policy a quella dell'insegnante lungo la traiettoria della policy utilizzando una perdita standard di flusso ell_2. Semplicemente imitando il comportamento dell'insegnante, pi-Flow consente un addestramento stabile e scalabile ed evita il compromesso qualità-diversità. Su ImageNet 256^2, raggiunge un FID a 1-NFE di 2.85, superando MeanFlow della stessa architettura DiT. Su FLUX.1-12B e Qwen-Image-20B a 4 NFE, pi-Flow ottiene una diversità sostanzialmente migliore rispetto ai metodi all'avanguardia con pochi passi, mantenendo una qualità pari a quella dell'insegnante.
Il ragionamento multi-stadio è emerso come una strategia efficace per potenziare la capacità di ragionamento dei piccoli modelli linguistici, scomponendo problemi complessi in sotto-stadi sequenziali. Tuttavia, ciò avviene a scapito di una maggiore latenza. Osserviamo che le tecniche esistenti di accelerazione adattiva, come il salto di strati, faticano a bilanciare efficienza e accuratezza in questo contesto a causa di due sfide principali: (1) la variazione nella sensibilità al salto tra gli stadi, e (2) la generazione di token di output ridondanti. Per affrontare questi problemi, proponiamo LiteStage, un framework di salto di strati consapevole della latenza per il ragionamento multi-stadio. LiteStage combina una ricerca offline per stadio che assegna budget ottimali di strati con un'uscita anticipata basata sulla confidenza durante la generazione online, per sopprimere la decodifica non necessaria. Esperimenti su tre benchmark, come OBQA, CSQA e StrategyQA, dimostrano che LiteStage raggiunge un'accelerazione fino a 1.70x con una perdita di accuratezza inferiore al 4.0%, superando i precedenti metodi di salto di strati senza addestramento.
Il rapido progresso dei modelli pre-addestrati su larga scala per la generazione di contenuti visivi e la ricostruzione 3D apre nuove possibilità per la generazione di scene 3D da testo. Intuitivamente, si potrebbe ottenere un potente generatore di scene 3D se si riuscisse a combinare la potenza di un moderno modello latente testo-video come "generatore" con le capacità geometriche di un recente sistema di ricostruzione 3D (feedforward) come "decodificatore". Introduciamo VIST3A, un framework generale che fa esattamente questo, affrontando due principali sfide. Innanzitutto, i due componenti devono essere uniti in modo da preservare la ricca conoscenza codificata nei loro pesi. Rivediamo il concetto di "model stitching", ovvero identifichiamo il livello nel decodificatore 3D che meglio corrisponde alla rappresentazione latente prodotta dal generatore testo-video e uniamo le due parti. Questa operazione richiede solo un piccolo dataset e nessuna etichetta. In secondo luogo, il generatore testo-video deve essere allineato con il decodificatore 3D unito, per garantire che i latenti generati siano decodificabili in una geometria di scena 3D coerente e percettivamente convincente. A tal fine, adattiamo il "direct reward finetuning", una tecnica popolare per l'allineamento alle preferenze umane. Valutiamo l'approccio VIST3A proposto con diversi generatori video e modelli di ricostruzione 3D. Tutte le combinazioni testate mostrano un miglioramento significativo rispetto ai precedenti modelli testo-3D che producono splat gaussiani. Inoltre, scegliendo un modello 3D di base adatto, VIST3A consente anche la generazione di alta qualità di mappe di punti da testo.
I recenti modelli di editing di immagini hanno ottenuto risultati impressionanti seguendo istruzioni di modifica in linguaggio naturale, ma si basano su un fine-tuning supervisionato con ampi dataset di coppie input-target. Questo rappresenta un collo di bottiglia critico, poiché tali coppie che si verificano naturalmente sono difficili da curare su larga scala. Le soluzioni attuali utilizzano coppie di training sintetiche che sfruttano le capacità zero-shot dei modelli esistenti. Tuttavia, ciò può propagare e amplificare gli artefatti del modello pre-addestrato nel modello finale addestrato. In questo lavoro, presentiamo un nuovo paradigma di training che elimina del tutto la necessità di dati accoppiati. Il nostro approccio ottimizza direttamente un modello di diffusione a pochi passi srotolandolo durante il training e sfruttando il feedback da modelli visione-linguaggio (VLM). Per ogni input e istruzione di modifica, il VLM valuta se una modifica segue l'istruzione e preserva il contenuto invariato, fornendo gradienti diretti per l'ottimizzazione end-to-end. Per garantire la fedeltà visiva, incorporiamo una perdita di corrispondenza della distribuzione (DMD), che vincola le immagini generate a rimanere all'interno della varietà di immagini appresa dai modelli pre-addestrati. Valutiamo il nostro metodo su benchmark standard e includiamo un ampio studio di ablazione. Senza alcun dato accoppiato, il nostro metodo si comporta alla pari con vari modelli di editing di immagini basati su diffusione addestrati su ampi dati supervisionati accoppiati, nell'ambito del setting a pochi passi. Utilizzando lo stesso VLM come modello di ricompensa, superiamo anche tecniche basate su RL come Flow-GRPO.
I modelli generativi video hanno recentemente compiuto progressi significativi nella qualità della sintesi. Tuttavia, generare movimenti complessi rimane una sfida cruciale, poiché i modelli esistenti spesso faticano a produrre movimenti naturali, fluidi e contestualmente coerenti. Questo divario tra i movimenti generati e quelli del mondo reale ne limita l'applicabilità pratica. Per affrontare questo problema, introduciamo RealDPO, un nuovo paradigma di allineamento che sfrutta i dati del mondo reale come campioni positivi per l'apprendimento delle preferenze, consentendo una sintesi del movimento più accurata. A differenza del tradizionale fine-tuning supervisionato (SFT), che offre un feedback correttivo limitato, RealDPO utilizza l'ottimizzazione diretta delle preferenze (DPO) con una funzione di perdita personalizzata per migliorare il realismo del movimento. Confrontando video del mondo reale con output errati del modello, RealDPO consente un'auto-correzione iterativa, affinando progressivamente la qualità del movimento. Per supportare il post-addestramento nella sintesi di movimenti complessi, proponiamo RealAction-5K, un dataset curato di video di alta qualità che catturano attività quotidiane umane con dettagli di movimento ricchi e precisi. Esperimenti estensivi dimostrano che RealDPO migliora significativamente la qualità del video, l'allineamento del testo e il realismo del movimento rispetto ai modelli all'avanguardia e alle tecniche esistenti di ottimizzazione delle preferenze.
Lo sviluppo di modelli linguistici di grandi dimensioni si basa su corpora di addestramento su larga scala, tuttavia la maggior parte di essi contiene dati con uno stato di licenza non chiaro, limitando lo sviluppo di modelli veramente aperti. Questo problema è aggravato per le lingue non inglesi, dove i testi con licenza aperta rimangono estremamente scarsi. Introduciamo il German Commons, la più grande raccolta di testi tedeschi con licenza aperta fino ad oggi. Compila dati da 41 fonti in sette domini, che includono testi legali, scientifici, culturali, politici, giornalistici, economici e web. Attraverso un approvvigionamento sistematico da fornitori di dati consolidati con licenze verificabili, produce 154,56 miliardi di token di testo di alta qualità per l'addestramento di modelli linguistici. La nostra pipeline di elaborazione implementa un filtraggio di qualità completo, deduplicazione e correzioni della formattazione del testo, garantendo una qualità coerente tra fonti di testo eterogenee. Tutti i sottoinsiemi di dominio presentano licenze di almeno CC-BY-SA 4.0 o equivalenti, assicurando la conformità legale per l'addestramento e la ridistribuzione dei modelli. Il German Commons affronta quindi la lacuna critica nei dati di pre-addestramento tedeschi con licenza aperta e consente lo sviluppo di modelli linguistici tedeschi veramente aperti. Rilasciamo anche il codice per la costruzione del corpus e il filtraggio dei dati specifico per i testi in lingua tedesca, rendendo il German Commons completamente riproducibile ed estensibile.
I modelli linguistici con profondità ricorrente, anche definiti universali o con loop quando si considerano i transformer, sono caratterizzati dalla capacità di aumentare il loro calcolo attraverso la ripetizione di strati. Recenti sforzi nel pre-addestramento hanno dimostrato che queste architetture possono scalare per affrontare compiti moderni di modellazione linguistica, mostrando vantaggi nei compiti di ragionamento. In questo lavoro, esaminiamo la relazione tra modelli a profondità ricorrente e modelli linguistici di diffusione. Basandoci sulle loro somiglianze, sviluppiamo un nuovo campionatore di forzatura della diffusione per questi modelli, al fine di accelerare la generazione. Il campionatore procede decodificando nuovi token ad ogni passaggio in avanti del modello, mentre gli stati latenti di questi token possono essere ulteriormente raffinati in parallelo attraverso la ricorrenza. Teoricamente, la generazione con il nostro campionatore è strettamente più espressiva rispetto alla generazione autoregressiva di base utilizzando lo stesso budget di tempo su hardware moderno. Inoltre, questo campionatore, basato su principi tratti dalla letteratura sulla diffusione, può essere applicato direttamente a transformer esistenti da 3,5 miliardi di parametri con profondità ricorrente senza alcuna regolazione, portando a un incremento di velocità fino a 5 volte. Di conseguenza, i nostri risultati non solo forniscono un meccanismo efficiente per parallelizzare il calcolo extra nei modelli a profondità ricorrente durante l'inferenza, ma suggeriscono anche che tali modelli possono essere naturalmente considerati come forti modelli linguistici di diffusione continui, sebbene causali.
La generalizzazione sistematica e compositiva al di là della distribuzione di addestramento rimane una sfida fondamentale nel machine learning e un collo di bottiglia critico per le capacità di ragionamento emergenti dei moderni modelli linguistici. Questo lavoro indaga la generalizzazione fuori distribuzione (OOD) nelle reti Transformer utilizzando come banco di prova un'attività di aritmetica modulare su grafi computazionali in stile GSM8K. Introduciamo ed esploriamo un insieme di quattro meccanismi architetturali mirati a migliorare la generalizzazione OOD: (i) ricorrenza adattiva agli input; (ii) supervisione algoritmica; (iii) rappresentazioni latenti ancorate tramite un collo di bottiglia discreto; e (iv) un meccanismo esplicito di correzione degli errori. Collettivamente, questi meccanismi forniscono un approccio architetturale per il ragionamento nativo e scalabile nello spazio latente nelle reti Transformer, con robuste capacità di generalizzazione algoritmica. Integriamo questi risultati empirici con un'analisi dettagliata di interpretabilità meccanicistica che rivela come questi meccanismi diano origine a solide capacità di generalizzazione OOD.
Gli agenti digitali richiedono traiettorie di interfaccia utente (UI) diversificate e su larga scala per generalizzare su compiti del mondo reale, tuttavia la raccolta di tali dati è proibitivamente costosa in termini di annotazione umana, infrastruttura e ingegnerizzazione. A tal fine, introduciamo UI-Simulator, un paradigma scalabile che genera stati e transizioni strutturati di UI per sintetizzare traiettorie di addestramento su larga scala. Il nostro paradigma integra un simulatore di mondo digitale per stati di UI diversificati, un processo di rollout guidato per un'esplorazione coerente e un wrapper di traiettorie che produce traiettorie di alta qualità e diversificate per l'addestramento degli agenti. Proponiamo inoltre UI-Simulator-Grow, una strategia di scalatura mirata che consente una scalatura più rapida ed efficiente in termini di dati, dando priorità a compiti ad alto impatto e sintetizzando varianti informative di traiettorie. Gli esperimenti su WebArena e AndroidWorld dimostrano che UI-Simulator rivaleggia o supera agenti open-source addestrati su UI reali con una robustezza significativamente migliore, nonostante utilizzi modelli insegnanti più deboli. Inoltre, UI-Simulator-Grow eguaglia le prestazioni di Llama-3-70B-Instruct utilizzando solo Llama-3-8B-Instruct come modello base, evidenziando il potenziale del paradigma di sintesi mirata per migliorare continuamente ed efficientemente gli agenti digitali.
Le lingue di contatto come l'inglese presentano ricche variazioni regionali sotto forma di dialetti, spesso utilizzati da parlanti dialettali che interagiscono con modelli generativi. Tuttavia, i modelli generativi multimodali possono produrre efficacemente contenuti a partire da input testuali dialettali? In questo lavoro, affrontiamo questa questione costruendo un nuovo benchmark su larga scala che copre sei comuni dialetti inglesi. Collaboriamo con parlanti dialettali per raccogliere e verificare oltre 4200 prompt unici e valutiamo 17 modelli generativi di immagini e video. I risultati delle nostre valutazioni automatiche e umane mostrano che gli attuali modelli generativi multimodali all'avanguardia subiscono un degrado delle prestazioni compreso tra il 32,26% e il 48,17% quando viene utilizzata una singola parola dialettale nel prompt. Metodi comuni di mitigazione come il fine-tuning e la riscrittura dei prompt possono migliorare le prestazioni sui dialetti solo in misura limitata (< 7%), rischiando al contempo di causare un significativo degrado delle prestazioni nell'inglese standard americano (SAE). A tal fine, progettiamo una strategia generale di mitigazione basata su encoder per modelli generativi multimodali. Il nostro metodo insegna al modello a riconoscere nuove caratteristiche dialettali preservando le prestazioni in SAE. Esperimenti su modelli come Stable Diffusion 1.5 dimostrano che il nostro metodo è in grado di aumentare simultaneamente le prestazioni su cinque dialetti fino a livelli paragonabili a SAE (+34,4%), con un costo quasi nullo per le prestazioni in SAE.
Il pretraining a livello di repository è comunemente utilizzato per consentire ai grandi modelli linguistici per il codice di sfruttare il contesto a livello di intera codebase. Ciò migliora la loro capacità di generare completamenti di codice accurati e consapevoli del contesto. In questo lavoro, investigiamo come diverse strategie di elaborazione del repository influenzino l'apprendimento in contesto in OpenCoder, un modello da 1,5 miliardi di parametri. Estendiamo la sua finestra contestuale da 4.096 a 16.384 token addestrandolo su ulteriori 1 miliardo di token di dati curati a livello di repository. Nonostante si basi su un dataset più piccolo rispetto ai modelli concorrenti (che spesso utilizzano centinaia di miliardi di token), il nostro modello raggiunge prestazioni comparabili sul benchmark Long Code Arena. Scopriamo che varie tecniche di elaborazione del repository producono risultati altrettanto forti, con il guadagno principale derivante dall'adattamento a un nuovo parametro di scaling per l'embedding posizionale rotatorio (RoPE). Infine, dimostriamo che un approccio di addestramento più semplice a livello di file, con la lunghezza originale della sequenza, rimane altamente efficace, aprendo la ricerca sui completamenti di codice a livello di repository a contesti con risorse di dati e calcolo più limitate.
Il ridimensionamento al momento del test è una strategia potente per migliorare le prestazioni dei modelli linguistici di grandi dimensioni su compiti di ragionamento complesso. Mentre gli approcci all'avanguardia spesso impiegano verificatori generativi per selezionare la soluzione migliore da un insieme di candidati, questo metodo comporta costi computazionali proibitivi, limitandone la praticità. In questo lavoro, spostiamo l'attenzione su un paradigma più attento al budget: la verifica discriminativa. Condurremo un'analisi empirica approfondita e dimostreremo che, sebbene i verificatori discriminativi possano essere meno performanti se utilizzati in isolamento, combinarli con l'auto-consistenza in un approccio ibrido crea un meccanismo di ridimensionamento al momento del test potente ed efficiente. In particolare, con un budget computazionale fisso, questo approccio ibrido supera di gran lunga la verifica generativa all'avanguardia: raggiungendo un'accuratezza fino al 15,3% superiore su AIME2025. I nostri risultati stabiliscono che, per applicazioni pratiche nel mondo reale, il ridimensionamento attento al budget con verificatori discriminativi non è solo un aggiornamento "gratuito" rispetto all'auto-consistenza, ma anche un'alternativa più efficace ed efficiente rispetto alle tecniche generative costose. Il codice è disponibile all'indirizzo https://github.com/wang-research-lab/verification.
Le pose interattive a stretto contatto tra esseri umani trasmettono ricche informazioni contestuali sulle dinamiche dell'interazione. Data una tale configurazione, gli esseri umani possono intuire il contesto e anticipare le possibili dinamiche passate e future, attingendo a forti conoscenze pregresse sul comportamento umano. Ispirati da questa osservazione, proponiamo Ponimator, un semplice framework basato su pose interattive prossimali per l'animazione versatile delle interazioni. I nostri dati di addestramento consistono in pose di due persone a stretto contatto e il loro contesto temporale derivato da dataset di interazioni con motion capture. Sfruttando le conoscenze pregresse sulle pose interattive, Ponimator utilizza due modelli di diffusione condizionati: (1) un animatore di pose che utilizza il contesto temporale per generare sequenze dinamiche di movimento a partire da pose interattive, e (2) un generatore di pose che applica il contesto spaziale per sintetizzare pose interattive da una singola posa, testo, o entrambi quando le pose interattive non sono disponibili. Nel complesso, Ponimator supporta diverse attività, tra cui l'animazione interattiva basata su immagini, l'animazione di reazioni e la sintesi di interazioni da testo, facilitando il trasferimento della conoscenza interattiva da dati mocap di alta qualità a scenari di mondo aperto. Esperimenti empirici su vari dataset e applicazioni dimostrano l'universalità del contesto delle pose e l'efficacia e robustezza del nostro framework.
Le leggi di scala hanno trasformato la nostra comprensione dei modelli linguistici di grandi dimensioni collegando metriche a monte come la perdita di entropia incrociata a fattori di progettazione quali la dimensione del modello, i dati di addestramento e il calcolo. Tuttavia, queste leggi convenzionali non riescono a catturare le prestazioni nei compiti a valle, dove il contesto gioca un ruolo cruciale. In questo lavoro, proponiamo un framework semplice e interpretabile che modella congiuntamente le prestazioni a valle in funzione del calcolo di addestramento e del contesto fornito. Validiamo empiricamente il nostro framework adattandolo alle prestazioni osservate a valle delle varianti a contesto esteso di Llama-2-7B e Llama-2-13B su 65.500 istanze uniche che coprono tre compiti: ragionamento aritmetico, ragionamento di senso comune e traduzione automatica. I nostri risultati dimostrano che il nostro framework modella accuratamente le prestazioni a valle all'interno della distribuzione, generalizza su tre ordini di grandezza nel calcolo di addestramento e estrapola in modo affidabile le prestazioni all'aumentare della quantità di contesto. Questi risultati offrono preziose intuizioni sull'interazione tra calcolo di addestramento e utilizzo del contesto, fornendo indicazioni per progettare modelli linguistici di grandi dimensioni a contesto lungo più efficienti per una varietà di compiti a valle. Il nostro codice è disponibile all'indirizzo https://github.com/wang-research-lab/context-scaling.
Gli agenti di "ricerca approfondita" basati sul web mirano a risolvere complessi compiti di question-answering attraverso interazioni a lungo termine con strumenti online. Questi compiti rimangono impegnativi, poiché i modelli linguistici sottostanti spesso non sono ottimizzati per il ragionamento e l'esplorazione a lungo termine. Ricerche precedenti hanno proposto flussi di lavoro per la costruzione di dataset per l'instruction-tuning, spesso sfruttando grafi di conoscenza. Tuttavia, tali metodi generalmente mancano di un controllo fine sulla difficoltà e sulla qualità, producendo dati sintetici che non riescono a catturare la complessità necessaria per il ragionamento a lungo termine. Inoltre, molti studi confondono gli effetti dei dati e dell'addestramento confrontando modelli addestrati con diverse ricette di ottimizzazione, rendendo difficile isolare e valutare l'efficacia dei dati stessi. Introduciamo una pipeline di sintesi dati a due fasi che genera coppie domanda-risposta aumentando progressivamente la complessità del compito fino a quando un agente web di riferimento fallisce. L'agente di riferimento svolge molteplici ruoli in questo processo: tenta di rispondere alle domande, verifica la veridicità, controlla la presenza di risposte alternative e applica filtri. Per valutare l'efficacia dei nostri metodi di sintesi, adottiamo un setup di addestramento controllato basato sulla distillazione da agenti web avanzati. Esperimenti su più benchmark basati sul web dimostrano che il nostro dataset - nonostante sia più piccolo - consente l'addestramento di agenti web più efficaci rispetto ai dataset esistenti. In particolare, i nostri dati mostrano una diversità doppia nelle azioni di utilizzo degli strumenti, permettendo ai modelli addestrati su di essi di ottenere prestazioni migliori evitando comportamenti ripetitivi di chiamata agli strumenti.
Il paradigma tradizionale di RAG (Retrieval-Augmented Generation), che tipicamente si impegna nella comprensione di frammenti di testo rilevanti in risposta alle query ricevute, limita intrinsecamente sia la profondità dell'interiorizzazione della conoscenza che le capacità di ragionamento. Per affrontare questa limitazione, la nostra ricerca trasforma l'elaborazione del testo in RAG da un'operazione passiva di frammentazione a una comprensione proattiva, definendo questo processo come estrazione della memoria documentaria con l'obiettivo di simulare i processi cognitivi umani durante la lettura. Basandoci su questo, proponiamo il framework Mixtures of scenario-aware document Memories (MoM), progettato per gestire in modo efficiente documenti provenienti da più domini e addestrare piccoli modelli linguistici (SLM) per acquisire la capacità di esplorare e costruire proattivamente memorie documentarie. Il MoM inizialmente istruisce i grandi modelli linguistici (LLM) a simulare esperti di dominio nella generazione di schemi logici documentari, guidando così la frammentazione strutturata e l'estrazione del contenuto principale. Utilizza un meccanismo di campionamento multipercorso e valutazione multiprospettica, progettando specificamente metriche complete che rappresentano la chiarezza dei frammenti e la completezza dell'estrazione per selezionare le memorie documentarie ottimali. Inoltre, per infondere capacità di lettura più profonde e simili a quelle umane durante l'addestramento degli SLM, incorporiamo una strategia di ragionamento inverso, che deduce percorsi di pensiero esperti raffinati da risultati di alta qualità. Infine, sfruttando le diverse forme di contenuto generate da MoM, sviluppiamo un meccanismo di recupero della memoria documentaria a tre livelli, basato sulla nostra dimostrazione teorica dal punto di vista della modellazione probabilistica. I risultati sperimentali estesi in tre domini distinti dimostrano che il framework MoM non solo risolve le sfide della frammentazione del testo nei sistemi RAG esistenti, fornendo agli LLM memorie documentarie semanticamente complete, ma apre anche la strada agli SLM per raggiungere un'elaborazione del testo intelligente e centrata sull'uomo.
La modellizzazione persistente di scene dinamiche per il tracciamento e la sintesi di nuove visualizzazioni rimane una sfida a causa della difficoltà di catturare deformazioni accurate mantenendo al contempo l'efficienza computazionale. Proponiamo SCas4D, un framework di ottimizzazione a cascata che sfrutta i modelli strutturali nello Splatting Gaussiano 3D per scene dinamiche. L'idea chiave è che le deformazioni nel mondo reale spesso presentano modelli gerarchici, in cui gruppi di Gaussiane condividono trasformazioni simili. Affinando progressivamente le deformazioni da un livello grossolano a livello di parti fino a un livello fine a livello di punti, SCas4D raggiunge la convergenza entro 100 iterazioni per fotogramma e produce risultati comparabili ai metodi esistenti con solo un ventesimo delle iterazioni di addestramento. L'approccio dimostra inoltre efficacia nella segmentazione auto-supervisionata di oggetti articolati, nella sintesi di nuove visualizzazioni e nelle attività di tracciamento denso dei punti.
I grandi modelli linguistici (LLM) sono sempre più utilizzati come agenti di role-playing, ma la loro capacità di rappresentare fedelmente e coerentemente personaggi specifici di diverse versioni — ad esempio, supereroi attraverso universi cinematografici e di fumetti — rimane poco esplorata. Canoni di supereroi come Marvel e DC forniscono un ricco banco di prova: decenni di narrazione hanno prodotto molteplici incarnazioni dello stesso personaggio con storie, valori e codici morali distinti. Per studiare questo problema, introduciamo Beyond One World, un benchmark per il role-playing basato su personaggi che copre 30 eroi iconici e 90 versioni specifiche del canone. Il benchmark comprende due compiti: (i) Eventi del Canone, che verifica il richiamo fattuale di fasi cruciali della vita, e (ii) Dilemmi Morali, che mette i modelli di fronte a scenari eticamente carichi. Valutiamo le risposte in termini di accuratezza canonica e fedeltà di ragionamento utilizzando un framework che separa la deliberazione interna ("pensare") dalle decisioni esterne ("agire"). Proponiamo inoltre il Think-Act Matching, una metrica che quantifica l'allineamento tra ragioni e azioni e funge da proxy per l'affidabilità del modello. Esperimenti condotti su modelli orientati al ragionamento e non orientati al ragionamento producono tre risultati: (1) il prompting a catena di pensiero migliora la coerenza narrativa nei modelli più deboli ma può ridurre l'accuratezza canonica in quelli più forti; (2) la generalizzazione tra versioni di uno stesso personaggio rimane un ostacolo significativo; e (3) i modelli spesso eccellono nel pensare o nell'agire, ma raramente in entrambi. Beyond One World mette in luce lacune critiche nella coerenza multiversale e nell'allineamento del ragionamento, offrendo una valutazione impegnativa per i LLM di role-playing.
La capacità dei modelli linguistici nei sistemi RAG di rifiutarsi selettivamente di rispondere basandosi su contesti difettosi è cruciale per la sicurezza, ma rimane un punto di fallimento significativo. Il nostro studio su larga scala rivela che anche i modelli più avanzati faticano in questo contesto, con un'accuratezza nel rifiuto che scende al di sotto del 50% in compiti multi-documento, mostrando sia una pericolosa eccessiva sicurezza che un'eccessiva cautela. I benchmark statici non riescono a valutare in modo affidabile questa capacità, poiché i modelli sfruttano artefatti specifici dei dataset e memorizzano le istanze di test. Introduciamo RefusalBench, una metodologia generativa che crea programmaticamente casi di test diagnostici attraverso perturbazioni linguistiche controllate. Il nostro framework impiega 176 strategie di perturbazione distinte, suddivise in sei categorie di incertezza informativa e tre livelli di intensità. La valutazione di oltre 30 modelli rivela schemi di fallimento sistematici: il rifiuto comprende abilità separabili di rilevamento e categorizzazione, e né la scala né il ragionamento esteso migliorano le prestazioni. Scopriamo che il rifiuto selettivo è una capacità addestrabile e sensibile all'allineamento, offrendo un percorso chiaro per il miglioramento. Rilasciamo due benchmark — RefusalBench-NQ (documento singolo) e RefusalBench-GaRAGe (multi-documento) — e il nostro framework di generazione completo per consentire una valutazione continua e dinamica di questa capacità critica.
La Generazione Aumentata dal Recupero (RAG) mitiga le principali limitazioni dei Modelli Linguistici di Grande Dimensione (LLM)—come errori fattuali, conoscenza obsoleta e allucinazioni—attraverso il recupero dinamico di informazioni esterne. Recenti lavori estendono questo paradigma attraverso sistemi RAG agentici, in cui gli LLM agiscono come agenti per pianificare, recuperare e ragionare in modo iterativo su query complesse. Tuttavia, questi sistemi continuano a lottare con domande multi-hop impegnative, e le loro capacità di ragionamento intermedio rimangono poco esplorate. Per affrontare questo problema, proponiamo RAGCap-Bench, un benchmark orientato alle capacità per la valutazione granulare dei compiti intermedi nei flussi di lavoro RAG agentici. Analizziamo gli output dei sistemi all'avanguardia per identificare i compiti comuni e le capacità fondamentali necessarie per la loro esecuzione, quindi costruiamo una tassonomia degli errori tipici degli LLM per progettare domande di valutazione mirate. Gli esperimenti dimostrano che i modelli a "pensiero lento" con prestazioni RAGCap più forti ottengono risultati end-to-end migliori, sottolineando la validità del benchmark e l'importanza di potenziare queste capacità intermedie.
I Modelli di Ricompensa per Processi (PRM) mirano a migliorare il ragionamento multi-step nei Modelli Linguistici di Grande Scala (LLM) supervisionando i passaggi intermedi e identificando gli errori. Tuttavia, costruire PRM efficaci rimane una sfida a causa della mancanza di annotazioni scalabili e di alta qualità. Gli approcci esistenti si basano su costose etichettature umane, su autovalutazioni basate su LLM che sono soggette a allucinazioni, o su stime Monte Carlo (MC), che inferiscono la qualità dei passaggi esclusivamente dai risultati finali e spesso introducono una supervisione rumorosa e disallineata a causa di un'errata attribuzione del merito. Questi problemi portano a tre limitazioni principali: ricompense rumorose, bassa fedeltà fattuale e disallineamento con gli obiettivi di ragionamento a livello di passaggio. Per affrontare queste sfide, introduciamo GroundedPRM, un framework guidato da alberi e consapevole della fedeltà per la supervisione automatica dei processi. Per ridurre il rumore nelle ricompense e consentire un'assegnazione del merito granulare, costruiamo percorsi di ragionamento strutturati tramite la Ricerca ad Albero Monte Carlo (MCTS). Per eliminare la supervisione allucinata, convalidiamo ogni passaggio intermedio utilizzando uno strumento esterno, fornendo segnali di correttezza basati sull'esecuzione. Per combinare sia la validazione a livello di passaggio che la valutazione globale del risultato, progettiamo un meccanismo di aggregazione delle ricompense ibrido che fonde la verifica basata su strumenti con il feedback derivato da MCTS. Infine, formattiamo il segnale di ricompensa in una struttura generativa arricchita da razionali per promuovere l'interpretabilità e la compatibilità con LLM ottimizzati per le istruzioni. GroundedPRM viene addestrato su soli 40K campioni etichettati automaticamente, pari a solo il 10% dei dati utilizzati dal PRM con le migliori prestazioni addestrato con supervisione auto-etichettata. Nonostante ciò, ottiene un miglioramento relativo fino al 26% nella performance media su ProcessBench. Quando utilizzato per la ricerca avida guidata dalle ricompense, GroundedPRM supera persino i PRM addestrati con supervisione etichettata da esseri umani, offrendo un percorso scalabile e verificabile verso un ragionamento di alta qualità a livello di processo.
Il decoding speculativo accelera l'inferenza dei LLM utilizzando un modello draft per anticipare le previsioni, ma i guadagni sono limitati dal costo della generazione autoregressiva del draft: aumentare la dimensione del draft incrementa i tassi di accettazione ma introduce un sovraccarico di latenza che esacerba il compromesso tra velocità e accuratezza. I metodi precedenti (Medusa, Hydra, EAGLE) riducono parzialmente il costo del draft, ma degradano l'accettazione o introducono sovraccarichi che limitano la scalabilità. Presentiamo il Mirror Speculative Decoding (Mirror-SD), un algoritmo di inferenza che supera il compromesso tra latenza e accettazione. Mirror-SD lancia rollouts completi di ramificazioni a partire da segnali di uscita anticipata in parallelo con il suffisso del modello target e mappa esplicitamente il calcolo su acceleratori eterogenei (GPU e NPU) per sfruttare il parallelismo cross-device. Il draft specula continuazioni future per il target da verificare, mentre il target specula simultaneamente percorsi di correzione per il draft, trasformando la speculazione in due pipeline di esecuzione complementari. Per ridurre ulteriormente la latenza del draft senza indebolire la semantica di accettazione, aggiungiamo lo streaming speculativo, permettendo al draft di emettere più token per passo. Questa doppia strategia di esecuzione eterogenea parallela più lo streaming speculativo multi-token spinge il decoding speculativo verso il suo regime ideale di alta accettazione con basso sovraccarico. Su SpecBench con modelli di scala server da 14B a 66B parametri, Mirror-SD offre guadagni end-to-end consistenti, raggiungendo accelerazioni del tempo di esecuzione da 2.8x a 5.8x su compiti diversi e un miglioramento relativo medio del 30% rispetto al baseline più forte, EAGLE3.