Articoli di ricerca IA selezionati quotidianamente con traduzioni
Con l'esaurimento dei testi pubblici di alta qualità, un fenomeno noto come "Muro dei Dati", l'addestramento preliminare si sta spostando da un maggior numero di token a token di qualità superiore. Tuttavia, i metodi esistenti si basano su filtri statici euristici che ignorano le dinamiche di addestramento, oppure utilizzano criteri dinamici ma agnostici rispetto all'ottimizzatore, basati su gradienti grezzi. Proponiamo OPUS (Optimizer-induced Projected Utility Selection), un framework di selezione dinamica dei dati che definisce l'utilità nello spazio di aggiornamento indotto dall'ottimizzatore. OPUS assegna un punteggio ai candidati proiettando i loro aggiornamenti efficaci, modellati dagli ottimizzatori moderni, su una direzione target derivata da un proxy stabile e in-distribution. Per garantire la scalabilità, utilizziamo la tecnica Ghost con CountSketch per l'efficienza computazionale e il campionamento di Boltzmann per la diversità dei dati, con un sovraccarico computazionale aggiuntivo di appena il 4,7%. OPUS ottiene risultati notevoli su vari corpora, livelli di qualità, ottimizzatori e scale di modelli. Nell'addestramento preliminare di GPT-2 Large/XL su FineWeb e FineWeb-Edu con 30 miliardi di token, OPUS supera i benchmark di livello industriale e persino l'addestramento completo con 200 miliardi di token. Inoltre, se combinato con filtri statici di livello industriale, OPUS migliora ulteriormente l'efficienza dell'addestramento preliminare, anche con dati di qualità inferiore. Inoltre, nel continuo addestramento preliminare di Qwen3-8B-Base su SciencePedia, OPUS raggiunge prestazioni superiori utilizzando solo 0,5 miliardi di token rispetto all'addestramento completo con 3 miliardi di token, dimostrando significativi guadagni di efficienza dei dati in domini specializzati.
Gli agenti autonomi per interfacce grafiche interagiscono con gli ambienti percependo le interfacce ed eseguendo azioni. Come sandbox virtuale, il modello GUI World fornisce agli agenti una capacità di previsione simile a quella umana abilitando predizioni condizionate all'azione. Tuttavia, gli approcci esistenti basati su testo e pixel faticano a raggiungere simultaneamente alta fedeltà visiva e controllabilità strutturale granulare. A tal fine, proponiamo Code2World, un codificatore visione-linguaggio che simula il successivo stato visivo tramite generazione di codice renderizzabile. Nello specifico, per affrontare il problema della scarsità di dati, costruiamo AndroidCode traducendo le traiettorie GUI in HTML ad alta fedeltà e affinando il codice sintetizzato attraverso un meccanismo di revisione con feedback visivo, producendo un corpus di oltre 80.000 coppie schermo-azione di alta qualità. Per adattare i VLM esistenti alla predizione di codice, eseguiamo prima un SFT come avvio a freddo per il rispetto del layout formale, per poi applicare un Reinforcement Learning Render-Aware che utilizza il risultato renderizzato come segnale di ricompina, imponendo fedeltà semantica visiva e consistenza dell'azione. Esperimenti estensivi dimostrano che Code2World-8B raggiunge le migliori prestazioni nella predizione della UI successiva, rivaleggiando con i competitivi GPT-5 e Gemini-3-Pro-Image. Notevolmente, Code2World migliora significativamente i tassi di successo nella navigazione a valle in modo flessibile, incrementando Gemini-2.5-Flash del +9.5% sulla navigazione AndroidWorld. Il codice è disponibile all'indirizzo https://github.com/AMAP-ML/Code2World.
Gli agenti GUI sono emersi come un potente paradigma per automatizzare le interazioni negli ambienti digitali, ma raggiungere un'ampia generalità e prestazioni costantemente elevate rimane una sfida. In questo rapporto presentiamo UI-Venus-1.5, un agente GUI unificato end-to-end progettato per applicazioni robuste nel mondo reale. La famiglia di modelli proposta comprende due varianti dense (2B e 8B) e una variante mixture-of-experts (30B-A3B) per soddisfare diversi scenari applicativi downstream. Rispetto alla nostra versione precedente, UI-Venus-1.5 introduce tre progressi tecnici chiave: (1) una fase completa di Mid-Training che utilizza 10 miliardi di token su oltre 30 dataset per stabilire una semantica GUI fondamentale; (2) Apprendimento per Rinforzo Online con rollout a traiettoria completa, allineando gli obiettivi di addestramento alla navigazione dinamica a lungo termine in ambienti su larga scala; e (3) un singolo agente GUI unificato costruito tramite Model Merging, che sintetizza modelli dominio-specifici (grounding, web e mobile) in un checkpoint coerente. Valutazioni estensive dimostrano che UI-Venus-1.5 stabilisce nuove prestazioni state-of-the-art su benchmark come ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%) e AndroidWorld (77.6%), superando significativamente i precedenti baseline forti. Inoltre, UI-Venus-1.5 dimostra robuste capacità di navigazione su varie app mobili cinesi, eseguendo efficacemente le istruzioni utente in scenari reali. Codice: https://github.com/inclusionAI/UI-Venus; Modello: https://huggingface.co/collections/inclusionAI/ui-venus
La risoluzione umana dei problemi non è mai la ripetizione di un singolo *mindset*, intendendo con questo termine un modo distinto di elaborazione cognitiva. Nell'affrontare un compito specifico, non ci affidiamo a un unico mindset; piuttosto, integriamo molteplici mindset all'interno del singolo processo risolutivo. Tuttavia, i metodi di ragionamento degli LLM esistenti cadono in una trappola comune: applicano lo stesso mindset fisso a tutti i passaggi, trascurando il fatto che le diverse fasi della risoluzione dello stesso problema richiedono mindset fondamentalmente diversi. Questo presupposto di uniformità mentale impedisce ai modelli di raggiungere il livello successivo di intelligenza. Per affrontare questa limitazione, proponiamo *Chain of Mindset* (CoM), un framework agentivo *training-free* che abilita un'orchestrazione adattiva dei mindset a livello di passo. CoM scompone il ragionamento in quattro mindset funzionalmente eterogenei: Spaziale, Convergente, Divergente e Algoritmico. Un Meta-Agente seleziona dinamicamente il mindset ottimale in base allo stato di ragionamento in evoluzione, mentre un Cancello Contestuale bidirezionale filtra il flusso di informazioni tra i moduli per mantenere efficacia ed efficienza. Esperimenti su sei benchmark complessi che spaziano dalla matematica alla generazione di codice, da QA scientifici al ragionamento spaziale, dimostrano che CoM raggiunge prestazioni allo stato dell'arte, superando la baseline più forte del 4,96% e del 4,72% in accuratezza complessiva rispettivamente su Qwen3-VL-32B-Instruct e Gemini-2.0-Flash, bilanciando al contempo l'efficienza del ragionamento. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/QuantaAlpha/chain-of-mindset.
Gli agenti basati su Large Language Model (LLM) hanno mostrato risultati sorprendenti in compiti complessi, eppure operano spesso in isolamento, non riuscendo ad apprendere dalle esperienze passate. I metodi esistenti basati sulla memoria memorizzano principalmente traiettorie grezze, che sono spesso ridondanti e ricche di rumore. Ciò impedisce agli agenti di estrarre modelli comportamentali di alto livello e riutilizzabili, essenziali per la generalizzazione. In questo articolo, proponiamo SkillRL, un framework che colma il divario tra esperienza grezza e miglioramento della policy attraverso la scoperta automatica di skill e un'evoluzione ricorsiva. Il nostro approccio introduce un meccanismo di distillazione basato sull'esperienza per costruire una libreria gerarchica di skill (SkillBank), una strategia di recupero adattiva per euristiche generali e specifiche del compito, e un meccanismo di evoluzione ricorsiva che consente alla libreria di skill di co-evolvere con la policy dell'agente durante l'apprendimento per rinforzo. Queste innovazioni riducono significativamente l'impronta dei token migliorando allo stesso tempo l'utilità del ragionamento. I risultati sperimentali su ALFWorld, WebShop e sette compiti con ricerca aumentata dimostrano che SkillRL raggiunge prestazioni all'avanguardia, superando baseline robuste di oltre il 15,3% e mantenendo robustezza all'aumentare della complessità del compito. Il codice è disponibile al seguente indirizzo: https://github.com/aiming-lab/SkillRL.
La transizione dalla manipolazione simbolica al ragionamento di livello scientifico rappresenta una frontiera cruciale per i Large Language Model (LLM), con la fisica che funge da banco di prova essenziale per ancorare la logica astratta alla realtà fisica. La fisica richiede che un modello mantenga la coerenza fisica con le leggi che governano l'universo, un compito che richiede fondamentalmente una percezione multimodale per radicare la logica astratta nella realtà. A livello olimpico, i diagrammi sono spesso costitutivi e non solo illustrativi, poiché contengono vincoli essenziali, come condizioni al contorno e simmetrie spaziali, assenti nel testo. Per colmare questo divario visivo-logico, introduciamo P1-VL, una famiglia di modelli vision-linguaggio open-source progettati per il ragionamento scientifico avanzato. Il nostro metodo armonizza il Curriculum Reinforcement Learning, che impiega un'espansione progressiva della difficoltà per stabilizzare il post-addestramento, con l'Aumento Agente, abilitando un'auto-verifica iterativa durante l'inferenza. Valutato su HiPhO, un rigoroso benchmark basato su 13 esami dal 2024 al 2025, il nostro modello principale P1-VL-235B-A22B diventa il primo Vision-Language Model (VLM) open-source a conquistare 12 medaglie d'oro e raggiunge prestazioni all'avanguardia tra i modelli open-source. Il nostro sistema potenziato dall'agente raggiunge il 2° posto assoluto a livello globale, preceduto solo da Gemini-3-Pro. Oltre alla fisica, P1-VL dimostra una notevole capacità di ragionamento scientifico e generalizzabilità, stabilendo vantaggi significativi rispetto ai modelli base in benchmark STEM. Rilasciando open-source P1-VL, forniamo un passo fondamentale verso un'intelligenza fisica generica per allineare meglio le percezioni visive con le leggi fisiche astratte, favorendo la scoperta scientifica automatizzata.
I recenti progressi nei grandi modelli linguistici (LLM) hanno consentito ad agenti autonomi di svolgere compiti complessi che richiedono interazioni multiple con strumenti e ambienti. Tuttavia, la scalabilità di tale addestramento per agenti è limitata dalla carenza di ambienti diversificati e affidabili. In questo articolo, proponiamo Agent World Model (AWM), una pipeline di generazione di ambienti completamente sintetici. Utilizzando questa pipeline, scaliamo fino a 1.000 ambienti che coprono scenari quotidiani, in cui gli agenti possono interagire con ricchi set di strumenti (35 strumenti per ambiente in media) e ottenere osservazioni di alta qualità. È importante notare che questi ambienti sono guidati da codice e supportati da database, fornendo transizioni di stato più affidabili e consistenti rispetto agli ambienti simulati da LLM. Inoltre, consentono un'interazione più efficiente per gli agenti rispetto alla raccolta di traiettorie da ambienti realistici. Per dimostrare l'efficacia di questa risorsa, eseguiamo un apprendimento per rinforzo su larga scala per agenti che utilizzano strumenti in modo multi-turno. Grazie agli ambienti completamente eseguibili e agli stati del database accessibili, possiamo anche progettare funzioni di ricompensa affidabili. Esperimenti su tre benchmark mostrano che l'addestramento esclusivamente in ambienti sintetici, piuttosto che in quelli specifici del benchmark, produce una forte generalizzazione fuori distribuzione. Il codice è disponibile all'indirizzo https://github.com/Snowflake-Labs/agent-world-model.
L'attenzione block-sparse è promettente per accelerare la pre-filling di LLM a contesto lungo, ma l'identificazione efficiente dei blocchi rilevanti rimane un collo di bottiglia. I metodi esistenti tipicamente impiegano un'attenzione a grana grossa come proxy per la stima dell'importanza dei blocchi, ma spesso ricorrono a ricerche o scoring a livello di token costosi, risultando in un sovraccarico significativo per la selezione. In questo lavoro, ricondurremo l'imprecisione dell'attenzione standard a grana grossa tramite mean pooling a una causa teorica fondamentale: l'interazione tra il mean pooling e gli Embedding Posizionali Rotazionali (RoPE). Dimostriamo che il mean pooling agisce come un filtro passa-basso che induce interferenza distruttiva nelle dimensioni ad alta frequenza, creando effettivamente un "punto cieco" per le informazioni posizionali locali (ad esempio, pattern slash). Per affrontare questo problema, introduciamo Prism, un approccio spettrale, consapevole delle frequenze, che non richiede addestramento e scompone la selezione dei blocchi in rami ad alta e bassa frequenza. Applicando una calibrazione della temperatura basata sull'energia, Prism ripristina i segnali posizionali attenuati direttamente dalle rappresentazioni aggregate, consentendo la stima dell'importanza dei blocchi utilizzando esclusivamente operazioni a livello di blocco, migliorando così l'efficienza. Valutazioni estensive confermano che Prism mantiene una precisione equivalente all'attenzione completa, garantendo al contempo un speedup fino a 5,1 volte.
Recentemente, i Modelli Linguistici Basati su Diffusione (dLLM) hanno dimostrato vantaggi unici in termini di efficienza, abilitati dal loro meccanismo di decodifica intrinsecamente parallelo e dal paradigma di generazione flessibile. Nel frattempo, nonostante i rapidi progressi degli Agenti di Ricerca, il loro dispiegamento pratico è limitato da una fondamentale problematica, denominata 1) Sfida della Latenza: l'esecuzione seriale del ragionamento multi-round, della chiamata di strumenti e dell'attesa delle risposte degli strumenti sotto il paradigma agente ReAct provoca una severa latenza end-to-end. Intuitivamente, i dLLM possono sfruttare i loro punti di forza distintivi per ottimizzare l'efficienza operativa degli agenti sotto il paradigma ReAct. Tuttavia, nella pratica, gli attuali modelli base dLLM affrontano la 2) Sfida delle Capacità Agente. Ovvero, i dLLM esistenti mostrano capacità di ragionamento e di chiamata di strumenti notevolmente deboli, impedendo che questi vantaggi vengano realizzati efficacemente nella pratica. In questo articolo, proponiamo DLLM-Searcher, un framework di ottimizzazione per Agenti di Ricerca basati su dLLM. Per risolvere la Sfida delle Capacità Agente, progettiamo una pipeline di post-addestramento in due fasi che comprende l'Affinamento Supervisionato Agente (Agentic SFT) e l'Ottimizzazione delle Preferenze con Varianza Ridotta Agente (Agentic VRPO), che potenzia le capacità di ricerca di informazioni e di ragionamento del dLLM base. Per mitigare la Sfida della Latenza, sfruttiamo il meccanismo di generazione flessibile dei dLLM e proponiamo un nuovo paradigma agente denominato Ragionamento e Azione Paralleli (P-ReAct). P-ReAct guida il modello a dare priorità alla decodifica delle istruzioni di `tool_call`, permettendo così al modello di continuare a pensare mentre attende il ritorno dello strumento. I risultati sperimentali dimostrano che DLLM-Searcher raggiunge prestazioni paragonabili ai principali agenti di ricerca basati su LLM e che P-ReAct fornisce un'accelerazione inferenziale di circa il 15%. Il nostro codice è disponibile all'indirizzo https://anonymous.4open.science/r/DLLM-Searcher-553C.
I sistemi multi-agente basati su LLM abilitano ragionamenti avanzati e l'uso di strumenti attraverso la specializzazione dei ruoli, eppure l'addestramento post-allenamento affidabile con apprendimento per rinforzo (RL) per tali sistemi rimane difficile. In questo lavoro, identifichiamo teoricamente una ragione chiave dell'instabilità dell'addestramento quando si estende l'RL basato su gruppi ai sistemi multi-agente LLM. Dimostriamo che, sotto un'ottimizzazione di tipo GRPO, un baseline di normalizzazione globale può discostarsi dalle distribuzioni di ricompensa di agenti diversi, il che alla fine porta a un'instabilità della norma del gradiente. Sulla base di questa scoperta, proponiamo Dr. MAS, una ricetta di addestramento RL semplice e stabile per sistemi multi-agente LLM. Dr. MAS utilizza un rimedio per singolo agente: normalizza i vantaggi per agente utilizzando le statistiche di ricompensa di ciascun agente, il quale calibra le scale del gradiente e stabilizza notevolmente l'addestramento, sia teoricamente che empiricamente. Oltre all'algoritmo, Dr. MAS fornisce un framework di addestramento RL end-to-end per sistemi multi-agente LLM, supportando un'orchestrazione scalabile, configurazioni flessibili di servizio e ottimizzazione LLM per agente e una pianificazione condivisa delle risorse per i backend degli attori LLM. Valutiamo Dr. MAS su benchmark di ragionamento matematico multi-agente e di ricerca multi-turno utilizzando i modelli delle serie Qwen2.5 e Qwen3. Dr. MAS ottiene miglioramenti evidenti rispetto al GRPO vanilla (ad esempio, +5.6% avg@16 e +4.6% pass@16 sul matematica, e +15.2% avg@16 e +13.1% pass@16 sulla ricerca) eliminando al contempo in larga misura i picchi di gradiente. Inoltre, rimane altamente efficace anche con assegnazioni eterogenee di modelli-agente, migliorando al contempo l'efficienza.
Studiamo l'editing di immagini basato su istruzioni all'interno di flussi di lavoro professionali e identifichiamo tre sfide persistenti: (i) gli editor tendono a modificare eccessivamente, alterando contenuti oltre l'intento dell'utente; (ii) i modelli esistenti sono prevalentemente single-turn, mentre modifiche multi-turn possono compromettere la fedeltà oggettuale; (iii) la valutazione a risoluzioni di circa 1K è disallineata dai flussi di lavoro reali che spesso operano su immagini ultra high-definition (es. 4K). Proponiamo Agent Banana, un framework agente gerarchico planner-executor per editing deliberativo, ad alta fedeltà e consapevole degli oggetti. Agent Banana introduce due meccanismi chiave: (1) il Context Folding, che comprime lunghe cronologie d'interazione in memoria strutturata per un controllo stabile a lungo termine; e (2) la Scomposizione a Livelli Immagine, che esegue modifiche localizzate basate su layer per preservare le regioni non target consentendo output a risoluzione nativa. Per supportare una valutazione rigorosa, costruiamo HDD-Bench, un benchmark high-definition basato su dialoghi, con target verificabili step-by-step e immagini native 4K (11.8M pixel) per diagnosticare errori a lungo termine. Su HDD-Bench, Agent Banana raggiunge la migliore coerenza multi-turn e fedeltà dello sfondo (es. IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) mantenendo competitività nel seguire le istruzioni, e ottiene anche performance solide su benchmark standard di editing single-turn. Auspichiamo che questo lavoro avanzi l'editing agente di immagini affidabile di livello professionale e la sua integrazione in flussi di lavoro reali.
La scalabilità dei modelli del mondo controllabili tramite azioni è limitata dalla scarsità di etichette azionali. Sebbene l'apprendimento di azioni latenti prometta di estrarre interfacce di controllo da video non etichettati, i latenti appresi spesso non riescono a trasferirsi tra contesti diversi: essi tendono a fondere indizi specifici della scena e mancano di un sistema di coordinate condiviso. Ciò accade perché gli obiettivi standard operano solo all'interno di ogni clip, senza fornire un meccanismo per allineare la semantica delle azioni tra contesti. La nostra intuizione chiave è che, sebbene le azioni non siano osservate, i loro effetti semantici sono osservabili e possono fungere da riferimento condiviso. Introduciamo SeqΔ-REPA, un obiettivo di allineamento controllo-effetto a livello di sequenza che ancorà l'azione latente integrata alle differenze temporali delle feature provenienti da un codificatore video auto-supervisionato e congelato. Su questa base, presentiamo Olaf-World, una pipeline che effettua il pre-addestramento di modelli video del mondo condizionati all'azione a partire da video passivi su larga scala. Esperimenti estensivi dimostrano che il nostro metodo apprende uno spazio d'azione latente più strutturato, portando a un trasferimento zero-shot delle azioni più efficace e a un'adattamento più efficiente in termini di dati a nuove interfacce di controllo rispetto ai baseline state-of-the-art.
I grandi modelli linguistici (LLM) sono sempre più utilizzati nello sviluppo software, nonostante la loro tendenza a generare codice insicuro rimanga un ostacolo significativo alla diffusione nel mondo reale. I metodi esistenti per l'allineamento del codice sicuro spesso soffrono di un paradosso funzionalità-sicurezza, migliorando la sicurezza a scapito di un sostanziale degrado dell'utilità. Proponiamo SecCoderX, un framework di apprendimento per rinforzo online per la generazione di codice sicuro che preserva la funzionalità. SecCoderX colma innanzitutto il divario tra rilevamento delle vulnerabilità e generazione di codice sicuro riutilizzando risorse di rilevamento mature in due modi: (i) sintetizzando compiti di codifica diversificati e radicati nella realtà che inducono vulnerabilità, per esplorazione online tramite RL, e (ii) addestrando un modello di ricompensa basato sul ragionamento per le vulnerabilità, che fornisce una supervisione della sicurezza scalabile e affidabile. Insieme, questi componenti sono unificati in un ciclo di RL online per allineare gli LLM per il codice affinché generino codice sia sicuro che funzionale. Esperimenti estensivi dimostrano che SecCoderX raggiunge prestazioni all'avanguardia, migliorando il Tasso di Sicurezza Efficace (ESR) di circa il 10% rispetto a modelli non allineati, mentre i metodi precedenti spesso degradano l'ESR del 14-54%. Rilasciamo il nostro codice, dataset e checkpoint del modello all'indirizzo https://github.com/AndrewWTY/SecCoderX.
La generazione video auto-regressiva consente la sintesi di video lunghi condizionando iterativamente ogni nuovo gruppo di fotogrammi sul contenuto generato in precedenza. Tuttavia, studi recenti hanno dimostrato che tali pipeline soffrono di una deriva temporale significativa, in cui gli errori si accumulano e si amplificano su orizzonti lunghi. Ipotesizziamo che questa deriva non derivi principalmente da una capacità del modello insufficiente, ma piuttosto dalla propagazione degli errori in fase di inferenza. Nello specifico, sosteniamo che la deriva origini dal riutilizzo non controllato di token latenti di condizionamento corrotti durante l'inferenza auto-regressiva. Per correggere questo accumulo di errori, proponiamo un metodo semplice, applicabile in fase di inferenza, che mitiga la deriva temporale identificando e rimuovendo i token latenti instabili prima che vengano riutilizzati per il condizionamento. A tal fine, definiamo token instabili quei token latenti le cui rappresentazioni si discostano significativamente da quelle del gruppo generato in precedenza, indicando una potenziale corruzione o deriva semantica. Rimuovendo esplicitamente i token latenti corrotti dal contesto auto-regressivo, invece di modificare intere regioni spaziali o i parametri del modello, il nostro metodo impedisce che informazioni latenti inaffidabili influenzino i passi di generazione futuri. Di conseguenza, migliora significativamente la coerenza temporale su orizzonti lunghi senza modificare l'architettura del modello, la procedura di addestramento o lo spazio latente.
La trasformazione di un grande modello linguistico (LLM) in un modello visione-linguaggio (VLM) può essere realizzata mappando i token visivi provenienti da un encoder visivo nello spazio di embedding di un LLM. È interessante notare che questa mappatura può essere semplice quanto una trasformazione MLP superficiale. Per capire perché gli LLM possono elaborare così facilmente i token visivi, abbiamo bisogno di metodi di interpretabilità che rivelino cosa è codificato nelle rappresentazioni dei token visivi a ogni livello dell'elaborazione dell'LLM. In questo lavoro, introduciamo LatentLens, un nuovo approccio per mappare le rappresentazioni latenti a descrizioni in linguaggio naturale. LatentLens funziona codificando un ampio corpus testuale e memorizzando le rappresentazioni contestualizzate dei token per ogni token in quel corpus. Le rappresentazioni dei token visivi vengono poi confrontate con le loro rappresentazioni testuali contestualizzate, e le prime k rappresentazioni vicine più prossime forniscono le descrizioni del token visivo. Valutiamo questo metodo su 10 VLM diversi, dimostrando che i metodi comunemente usati, come LogitLens, sottostimano sostanzialmente l'interpretabilità dei token visivi. Con LatentLens, invece, la maggior parte dei token visivi è interpretabile in tutti i modelli studiati e a tutti i livelli. Qualitativamente, mostriamo che le descrizioni prodotte da LatentLens sono semanticamente significative e forniscono interpretazioni più granulari per gli esseri umani rispetto ai singoli token. Più in generale, i nostri risultati forniscono nuove prove sull'allineamento tra le rappresentazioni visive e linguistiche, aprendo nuove direzioni per l'analisi delle rappresentazioni latenti.
L'addestramento preliminare di politiche Visione-Linguaggio-Azione (VLA) su video di scala internet è allettante, tuttavia gli obiettivi ad azione latente attuali spesso apprendono l'aspetto sbagliato: rimangono ancorati alla variazione dei pixel piuttosto che alle transizioni di stato rilevanti per l'azione, rendendoli vulnerabili a bias di apparenza, moto parassita e dispersione di informazioni. Introduciamo VLA-JEPA, un framework di pre-addestramento in stile JEPA che evita per progettazione queste insidie. L'idea chiave è la predizione di stato senza dispersione: un encoder target produce rappresentazioni latenti dai frame futuri, mentre il pathway dello studente vede solo l'osservazione corrente – le informazioni future sono utilizzate esclusivamente come target di supervisione, mai come input. Predicendo nello spazio latente anziché in quello dei pixel, VLA-JEPA apprende astrazioni della dinamica che sono robuste al movimento della telecamera e a cambiamenti di fondo irrilevanti. Ciò produce una ricetta semplice in due fasi – pre-addestramento JEPA seguito da fine-tuning della testa di azione – senza la complessità multi-stadio delle pipeline ad azione latente precedenti. Esperimenti su LIBERO, LIBERO-Plus, SimplerEnv e compiti di manipolazione nel mondo reale mostrano che VLA-JEPA raggiunge miglioramenti consistenti in generalizzazione e robustezza rispetto ai metodi esistenti.
I modelli Vision-Language-Action (VLA) sono emersi come un paradigma promettente per il controllo robotico generico, con lo scaling al momento del test (TTS) che sta guadagnando attenzione per migliorare la robustezza oltre l'addestramento. Tuttavia, i metodi TTS esistenti per i VLA richiedono ulteriore addestramento, verificatori e passaggi in avanti multipli, rendendoli impraticabili per il dispiegamento. Inoltre, essi intervengono solo durante la decodifica delle azioni, mantenendo fisse le rappresentazioni visive, il che è insufficiente in caso di ambiguità percettiva, dove riconsiderare come percepire è importante tanto quanto decidere cosa fare. Per affrontare queste limitazioni, proponiamo SCALE, una semplice strategia di inferenza che modula congiuntamente la percezione visiva e l'azione basandosi sull'auto-incertezza, ispirata dall'esplorazione guidata dall'incertezza nella teoria dell'Active Inference. SCALE non richiede addestramento aggiuntivo, nessun verificatore e solo un singolo passaggio in avanti. SCALE amplia l'esplorazione sia nella percezione che nell'azione in condizioni di alta incertezza, mentre si concentra sullo sfruttamento quando si è confidenti, consentendo un'esecuzione adattiva in varie condizioni. Esperimenti su benchmark simulati e del mondo reale dimostrano che SCALE migliora i VLA allo stato dell'arte e supera i metodi TTS esistenti mantenendo l'efficienza del singolo passaggio.
Recenti studi hanno esplorato modelli autoregressivi per la generazione di immagini, con risultati promettenti, e hanno combinato modelli di diffusione con framework autoregressivi per ottimizzare la generazione di immagini tramite loss di diffusione. In questo studio, presentiamo un'analisi teorica dei modelli di diffusione e autoregressivi con loss di diffusione, evidenziando i vantaggi di quest'ultimi. Presentiamo un confronto teorico tra diffusione condizionata e diffusione autoregressiva con loss di diffusione, dimostrando che l'ottimizzazione del denoising a patch nei modelli autoregressivi mitiga efficacemente gli errori di condizione e porta a una distribuzione di condizione stabile. La nostra analisi rivela inoltre che la generazione autoregressiva della condizione affina la condizione stessa, facendo sì che l'influenza dell'errore di condizione decada in modo esponenziale. Inoltre, introduciamo un nuovo approccio di raffinamento della condizione basato sulla teoria del Trasporto Ottimo (OT) per affrontare il problema dell'“inconsistenza della condizione”. Dimostriamo teoricamente che formulare il raffinamento della condizione come un Flusso Gradiente di Wasserstein garantisce la convergenza verso la distribuzione di condizione ideale, mitigando efficacemente l'inconsistenza della condizione. Gli esperimenti dimostrano la superiorità del nostro metodo rispetto ai modelli di diffusione e autoregressivi con tecniche di loss di diffusione.
I grandi modelli linguistici (LLM) hanno dimostrato potenzialità nel risolvere problemi matematici complessi, ma non sono ancora in grado di produrre soluzioni accurate e consistenti. L'apprendimento per rinforzo (RL) è un framework per allineare questi modelli con ricompense specifiche del compito, migliorando qualità e affidabilità complessive. L'ottimizzazione relativa di gruppo delle politiche (GRPO) è un'alternativa efficiente e priva di funzione di valore all'ottimizzazione prossimale delle politiche (PPO) che sfrutta una normalizzazione delle ricompense relativa al gruppo. Introduciamo l'ottimizzazione relativa di gruppo delle politiche iterativa (iGRPO), un'estensione in due fasi del GRPO che aggiunge un auto-condizionamento dinamico attraverso bozze generate dal modello. Nella Fase 1, iGRPO campiona multiple bozze esplorative e seleziona quella con la ricompensa più alta utilizzando lo stesso segnale di ricompensa scalare usato per l'ottimizzazione. Nella Fase 2, aggiunge questa migliore bozza al prompt originale e applica un aggiornamento in stile GRPO sui perfezionamenti condizionati dalla bozza, addestrando la politica a migliorare oltre il suo precedente tentativo più forte. A parità di budget di rollout, iGRPO supera costantemente il GRPO su vari modelli base (ad esempio, Nemotron-H-8B-Base-8K e DeepSeek-R1 Distilled), convalidando la sua efficacia su benchmark di ragionamento diversificati. Inoltre, applicare iGRPO a OpenReasoning-Nemotron-7B addestrato su AceReason-Math raggiunge nuovi risultati all'avanguardia dell'85,62% e del 79,64% rispettivamente su AIME24 e AIME25. Le ablation study mostrano inoltre che il wrapper di raffinamento generalizza oltre le varianti GRPO, beneficia di un giudice generativo e altera le dinamiche di apprendimento ritardando il collasso dell'entropia. Questi risultati sottolineano il potenziale dell'RL iterativo basato sul feedback autonomo per far progredire il ragionamento matematico verificabile.
Dotare gli agenti embodied della capacità di ragionare sui compiti, prevedere gli esiti fisici e generare azioni precise è essenziale per la manipolazione a scopo generale. Sebbene i recenti modelli Visione-Linguaggio-Azione (VLA) abbiano sfruttato modelli foundation pre-addestrati, questi si concentrano tipicamente sulla pianificazione linguistica o sulla previsione visiva in modo isolato. Questi metodi raramente integrano entrambe le capacità simultaneamente per guidare la generazione delle azioni, portando a prestazioni subottimali in compiti di manipolazione complessi e a lungo termine. Per colmare questa lacuna, proponiamo BagelVLA, un modello unificato che integra la pianificazione linguistica, la previsione visiva e la generazione di azioni all'interno di un unico framework. Inizializzato da un modello unificato pre-addestrato per la comprensione e la generazione, BagelVLA viene allenato per intercalare il ragionamento testuale e la previsione visiva direttamente nel ciclo di esecuzione delle azioni. Per accoppiare efficientemente queste modalità, introduciamo la Residual Flow Guidance (RFG), che si inizializza dall'osservazione corrente e sfrutta la denoising a singolo passo per estrarre caratteristiche visive predittive, guidando la generazione delle azioni con latenza minima. Esperimenti estensivi dimostrano che BagelVLA supera i baseline esistenti con un margine significativo su molteplici benchmark simulati e del mondo reale, in particolare nei compiti che richiedono ragionamento multi-stadio.
L'addestramento di modelli agentici per compiti basati su terminale dipende criticamente da traiettorie di terminale di alta qualità che catturino interazioni realistiche a lungo orizzonte in diversi domini. Tuttavia, la costruzione di tali dati su larga scala rimane impegnativa a causa di due requisiti fondamentali: \emph{Eseguibilità}, poiché ogni istanza richiede un ambiente Docker adatto e spesso distinto; e \emph{Verificabilità}, poiché output eterogenei dei compiti precludono una verifica unificata e standardizzata. Per affrontare queste sfide, proponiamo TerminalTraj, una pipeline scalabile che (i) filtra repository di alta qualità per costruire ambienti di esecuzione Dockerizzati, (ii) genera istanze di compiti allineate a Docker, e (iii) sintetizza traiettorie agente con codice di validazione eseguibile. Utilizzando TerminalTraj, abbiamo curato 32K immagini Docker e generato 50.733 traiettorie di terminale verificate in otto domini. I modelli addestrati su questi dati con il backbone Qwen2.5-Coder raggiungono miglioramenti prestazionali consistenti su TerminalBench (TB), con guadagni fino al 20\% su TB~1.0 e al 10\% su TB~2.0 rispetto ai rispettivi backbone. Notevolmente, TerminalTraj-32B raggiunge prestazioni solide tra i modelli con meno di 100B di parametri, arrivando al 35.30\% su TB~1.0 e al 22.00\% su TB~2.0, e dimostra un migliorato comportamento di scaling al momento del test. Tutto il codice e i dati sono disponibili su https://github.com/Wusiwei0410/TerminalTraj.
L'apprendimento di conoscenze trasferibili da dati video non etichettati e la loro applicazione in nuovi ambienti è una capacità fondamentale degli agenti intelligenti. Questo lavoro presenta VideoWorld 2, che estende VideoWorld e costituisce la prima indagine sull'apprendimento di conoscenze trasferibili direttamente da video grezzi del mondo reale. Il cuore di VideoWorld 2 è un Modello Dinamico Latente a dinamica potenziata (dLDM) che disaccoppia la dinamica delle azioni dall'aspetto visivo: un modello di diffusione video pre-addestrato gestisce la modellazione dell'aspetto visivo, permettendo al dLDM di apprendere codici latenti che si concentrano su dinamiche compatte e significative relative al compito. Questi codici latenti sono poi modellati autoregressivamente per apprendere politiche di azione e supportare ragionamenti a lungo termine. Valutiamo VideoWorld 2 su complessi compiti reali di artigianato manuale, dove precedenti modelli di generazione video e di dinamiche latenti faticano a operare in modo affidabile. Notevolmente, VideoWorld 2 raggiunge un miglioramento fino al 70% nel tasso di successo del compito e produce video di esecuzione lunghi e coerenti. In robotica, dimostriamo che VideoWorld 2 può acquisire conoscenze efficaci sulla manipolazione dal dataset Open-X, migliorando sostanzialmente le prestazioni sui compiti in CALVIN. Questo studio rivela il potenziale di apprendere conoscenze trasferibili sul mondo direttamente da video grezzi. Tutti i codici, i dati e i modelli saranno open-source per ulteriori ricerche.
Dataset di alta qualità e aperti rimangono un collo di bottiglia significativo per il fine-tuning text-to-image (T2I). Nonostante i rapidi progressi nelle architetture dei modelli e nelle pipeline di addestramento, la maggior parte dei dataset di fine-tuning pubblicamente disponibili soffre di bassa risoluzione, scarso allineamento testo-immagine o diversità limitata, risultando in un evidente divario prestazionale tra i modelli di ricerca aperti e i modelli di livello enterprise. In questo lavoro, presentiamo Fine-T2I, un dataset su larga scala, di alta qualità e completamente aperto per il fine-tuning T2I. Fine-T2I copre 10 combinazioni di task, 32 categorie di prompt, 11 stili visivi e 5 template di prompt, e combina immagini sintetiche generate da potenti modelli moderni con immagini reali accuratamente selezionate da fotografi professionisti. Tutti i campioni sono stati rigorosamente filtrati per allineamento testo-immagine, fedeltà visiva e qualità del prompt, con oltre il 95% dei candidati iniziali rimossi. Il dataset finale contiene oltre 6 milioni di coppie testo-immagine, per circa 2 TB su disco, avvicinandosi alla scala dei dataset di pre-training mantenendo una qualità di livello adatto al fine-tuning. Su un insieme diversificato di modelli pre-addestrati basati su diffusion e autoregressivi, il fine-tuning su Fine-T2I migliora costantemente sia la qualità della generazione che l'aderenza alle istruzioni, come convalidato da valutazione umana, confronto visivo e metriche automatiche. Rilasciamo Fine-T2I con una licenza aperta per contribuire a colmare il divario dati nel fine-tuning T2I nella comunità open.
L'addestramento di agenti generalisti in grado di adattarsi a scenari diversificati richiede ambienti interattivi per l'auto-esplorazione. Tuttavia, gli ambienti interattivi rimangono criticamente scarsi e i metodi di sintesi esistenti presentano limitazioni significative riguardo alla diversità ambientale e alla scalabilità. Per affrontare queste sfide, introduciamo ScaleEnv, un framework che costruisce ambienti completamente interattivi e compiti verificabili completamente da zero. Nello specifico, ScaleEnv garantisce l'affidabilità dell'ambiente attraverso test procedurali e assicura la completezza e la risolvibilità dei compiti mediante l'espansione del grafo delle dipendenze degli strumenti e la verifica delle azioni eseguibili. Consentendo agli agenti di apprendere attraverso l'esplorazione all'interno di ScaleEnv, dimostriamo significativi miglioramenti delle prestazioni su benchmark non visti precedentemente per l'uso di strumenti multi-turn, come τ^2-Bench e VitaBench, evidenziando forti capacità di generalizzazione. Inoltre, indaghiamo la relazione tra l'aumento del numero di domini e le prestazioni di generalizzazione del modello, fornendo evidenze empiriche che scalare la diversità ambientale è fondamentale per un apprendimento robusto degli agenti.
In questo lavoro presentiamo Covo-Audio, un LALM end-to-end da 7 miliardi di parametri che elabora direttamente input audio continui e genera output audio all'interno di un'unica architettura unificata. Grazie a un pre-addestramento su larga scala curato e a un post-addestramento mirato, Covo-Audio raggiunge prestazioni allo stato dell'arte o competitive tra i modelli di scala comparabile in un'ampia gamma di compiti, inclusi la modellazione speech-text, il dialogo parlato, la comprensione del parlato, la comprensione audio e l'interazione vocale full-duplex. Valutazioni estensive dimostrano che il modello base pre-addestrato mostra forti capacità di comprensione speech-text e di ragionamento semantico su molteplici benchmark, superando modelli open-source rappresentativi di scala simile. Inoltre, Covo-Audio-Chat, la variante orientata al dialogo, dimostra forti abilità conversazionali parlate, includendo comprensione, ragionamento contestuale, rispetto delle istruzioni e generazione di risposte contestualmente appropriate ed empatiche, validandone l'applicabilità a scenari reali di assistenti conversazionali. Covo-Audio-Chat-FD, il modello evoluto full-duplex, raggiunge prestazioni sostanzialmente superiori sia nelle capacità di dialogo parlato che nei comportamenti di interazione full-duplex, dimostrando la sua competenza nella robustezza pratica. Per mitigare l'alto costo di distribuzione dei LALM end-to-end per sistemi conversazionali naturali, proponiamo una strategia di disaccoppiamento intelligenza-altoparlante che separa l'intelligenza dialogica dal rendering vocale, consentendo una personalizzazione vocale flessibile con dati text-to-speech (TTS) minimi preservando le prestazioni dialogiche. Nel complesso, i nostri risultati evidenziano il forte potenziale dei modelli su scala 7B nell'integrare una sofisticata intelligenza audio con un ragionamento semantico di alto livello e suggeriscono un percorso scalabile verso LALM più capaci e versatili.
La raccolta di dati nel mondo reale per agenti embodied rimane costosa e pericolosa, richiedendo ambienti 3D scalabili, realistici e pronti per la simulazione. Tuttavia, i sistemi esistenti di generazione di scene spesso si basano su pipeline basate su regole o specifiche per compito, producendo artefatti e scene fisicamente non valide. Presentiamo SAGE, un framework agentico che, dato un compito embodied specificato dall'utente (ad esempio, "raccogli una ciotola e posizionala sul tavolo"), comprende l'intento e genera automaticamente ambienti pronti per la simulazione su larga scala. L'agente combina molteplici generatori per layout e composizione di oggetti con critici che valutano plausibilità semantica, realismo visivo e stabilità fisica. Attraverso ragionamento iterativo e selezione adattiva degli strumenti, affina autonomamente le scene fino a soddisfare l'intento dell'utente e la validità fisica. Gli ambienti risultanti sono realistici, diversificati e direttamente distribuibili nei simulatori moderni per l'addestramento di politiche. Le politiche addestrate esclusivamente su questi dati mostrano chiare tendenze di scalabilità e si generalizzano a oggetti e layout non visti, dimostrando la promessa della scalabilità guidata dalla simulazione per l'AI embodied. Codice, demo e il dataset SAGE-10k sono disponibili sulla pagina del progetto qui: https://nvlabs.github.io/sage.
I modelli mondiali mirano a comprendere, ricordare e prevedere ambienti visivi dinamici, tuttavia manca ancora un benchmark unificato per valutarne le capacità fondamentali. Per colmare questa lacuna, introduciamo MIND, il primo benchmark rivisitato a ciclo chiuso e dominio aperto per valutare la coerenza della memoria e il controllo delle azioni nei modelli mondiali. MIND contiene 250 video di alta qualità a 1080p e 24 FPS, inclusi 100 (in prima persona) + 100 (in terza persona) clip video sotto uno spazio d'azione condiviso e 25 + 25 clip attraverso spazi d'azione variati che coprono otto scene diverse. Progettiamo un framework di valutazione efficiente per misurare due capacità fondamentali: la coerenza della memoria e il controllo delle azioni, catturando la stabilità temporale e la coerenza contestuale attraverso i punti di vista. Inoltre, progettiamo vari spazi d'azione, inclusi diverse velocità di movimento del personaggio e angoli di rotazione della telecamera, per valutare la capacità di generalizzazione delle azioni attraverso diversi spazi d'azione sotto scene condivise. Per facilitare future valutazioni delle prestazioni su MIND, introduciamo MIND-World, una nuova baseline interattiva Video-to-World. Esperimenti estensivi dimostrano la completezza di MIND e rivelano le principali sfide negli attuali modelli mondiali, inclusa la difficoltà di mantenere la coerenza della memoria a lungo termine e di generalizzare attraverso spazi d'azione. Pagina del progetto: https://csu-jpg.github.io/MIND.github.io/
Il paradigma prevalente nell'apprendimento robotico cerca di generalizzare attraverso ambienti, embodiment e compiti utilizzando prompt linguistici a runtime. Un conflitto fondamentale limita questo approccio: il linguaggio è spesso troppo astratto per guidare la comprensione fisica concreta necessaria per una manipolazione robusta. In questo lavoro, introduciamo le Politiche Ancorate al Contatto (CAP), che sostituiscono il condizionamento linguistico con punti di contatto fisico nello spazio. Contemporaneamente, strutturiamo le CAP come una libreria di moduli di utilità modulari piuttosto che come una politica generalista monolitica. Questa scomposizione ci permette di implementare un ciclo di iterazione reale-simulato: costruiamo EgoGym, un benchmark di simulazione leggero, per identificare rapidamente le modalità di fallimento e affinare i nostri modelli e dataset prima del dispiegamento nel mondo reale. Dimostriamo che, condizionando sul contatto e iterando tramite simulazione, le CAP generalizzano a nuovi ambienti ed embodiment immediatamente su tre abilità di manipolazione fondamentali, utilizzando solo 23 ore di dati dimostrativi, e superano le VLA all'avanguardia di grandi dimensioni nelle valutazioni zero-shot del 56%. Tutti i checkpoint dei modelli, il codice, l'hardware, la simulazione e i dataset saranno open-source. Pagina del progetto: https://cap-policy.github.io/
I modelli linguistici di grandi dimensioni (LLM) affrontano sfide significative nell'elaborazione di contesti lunghi, inclusi i costi computazionali quadratici, la dimenticanza delle informazioni e la frammentazione del contesto intrinseca nella generazione aumentata dal recupero (RAG). Proponiamo un framework ispirato alla cognizione umana per l'inferenza efficiente su contesti lunghi, basato sulla compressione per segmenti e sul richiamo selettivo dalla memoria, anziché sull'elaborazione di tutti i token grezzi. Il framework suddivide gli input lunghi in segmenti (chunk) e codifica ciascun segmento in rappresentazioni compresse di memoria utilizzando un compressore appreso. Un modulo di gating seleziona dinamicamente i blocchi di memoria rilevanti, che vengono poi elaborati iterativamente da un modulo di ragionamento con una memoria di lavoro in evoluzione per risolvere compiti downstream. Il compressore e il motore di ragionamento sono ottimizzati congiuntamente tramite apprendimento per rinforzo end-to-end, mentre il modulo di gating viene addestrato separatamente come classificatore. I risultati sperimentali mostrano che il metodo proposto raggiunge un'accuratezza competitiva su benchmark di ragionamento multi-hop come RULER-HQA, estrapola la lunghezza del contesto da 7K a 1,75 milioni di token e offre un favorevole compromesso accuratezza-efficienza rispetto a solidi baseline per contesti lunghi. In particolare, raggiunge una riduzione fino a 2 volte nell'utilizzo di picco della memoria GPU e un'accelerazione dell'inferenza di 6 volte rispetto a MemAgent.
Il ragionamento a catena del pensiero (CoT) e le sue varianti hanno migliorato sostanzialmente le prestazioni dei modelli linguistici su compiti di ragionamento complesso, eppure i meccanismi precisi attraverso i quali le diverse strategie facilitano la generalizzazione rimangono poco compresi. Sebbene le spiegazioni attuali spesso indichino un aumento del calcolo al momento del test o una guida strutturale, stabilire un collegamento coerente e quantificabile tra questi fattori e la generalizzazione rimane una sfida. In questo lavoro, identifichiamo la dimensionalità intrinseca come una misura quantitativa per caratterizzare l'efficacia delle catene di ragionamento. La dimensionalità intrinseca quantifica il numero minimo di dimensioni del modello necessarie per raggiungere una determinata soglia di accuratezza su un dato compito. Mantenendo fissa l'architettura del modello e variando la formulazione del compito attraverso diverse strategie di ragionamento, dimostriamo che le strategie di ragionamento efficaci riducono consistentemente la dimensionalità intrinseca del compito. Validando questo approccio su GSM8K con Gemma-3 da 1B e 4B parametri, osserviamo una forte correlazione inversa tra la dimensionalità intrinseca di una strategia di ragionamento e le sue prestazioni di generalizzazione sia su dati in-distribuzione che out-of-distribuzione. I nostri risultati suggeriscono che le catene di ragionamento efficaci facilitano l'apprendimento comprimendo meglio il compito utilizzando meno parametri, offrendo una nuova metrica quantitativa per analizzare i processi di ragionamento.
Lo steering di attivazione è emerso come un approccio promettente per adattare efficientemente i grandi modelli linguistici (LLM) a comportamenti downstream. Tuttavia, la maggior parte dei metodi di steering esistenti si basa su una singola direzione statica per compito o concetto, rendendoli inflessibili alle variazioni del compito e inadeguati per compiti complessi che richiedono capacità multiple coordinate. Per affrontare questa limitazione, proponiamo STEER2ADAPT, un framework leggero che adatta gli LLM componendo vettori di steering piuttosto che apprendendone di nuovi da zero. In molti domini (ad esempio, il ragionamento o la sicurezza), i compiti condividono un piccolo insieme di dimensioni concettuali sottostanti. STEER2ADAPT cattura queste dimensioni come un sottospazio semantico precedente riutilizzabile e a bassa dimensionalità, e si adatta a nuovi compiti scoprendo dinamicamente una combinazione lineare di vettori di base a partire da solo una manciata di esempi. Esperimenti su 9 compiti e 3 modelli, sia nel dominio del ragionamento che della sicurezza, dimostrano l'efficacia di STEER2ADAPT, ottenendo un miglioramento medio dell'8.2%. Analisi estensive mostrano inoltre che STEER2ADAPT è un metodo di adattamento al momento dell'inferenza per LLM efficiente in termini di dati, stabile e trasparente.
I transformer per la diffusione incorporano tipicamente le informazioni testuali tramite livelli di attenzione e un meccanismo di modulazione che utilizza un embedding testuale aggregato (pooled). Tuttavia, gli approcci recenti abbandonano il condizionamento testuale basato sulla modulazione e si affidano esclusivamente all'attenzione. In questo articolo, ci chiediamo se il condizionamento testuale basato sulla modulazione sia necessario e se possa offrire un qualche vantaggio in termini di prestazioni. La nostra analisi mostra che, nel suo utilizzo convenzionale, l'embedding aggregato contribuisce poco alle prestazioni complessive, suggerendo che la sola attenzione è generalmente sufficiente per propagare fedelmente le informazioni del prompt. Tuttavia, riveliamo che l'embedding aggregato può fornire miglioramenti significativi se utilizzato da una prospettiva diversa: fungendo da guida e abilitando spostamenti controllati verso proprietà più desiderabili. Questo approccio non richiede addestramento aggiuntivo, è semplice da implementare, comporta un overhead computazionale trascurabile e può essere applicato a vari modelli di diffusione, apportando miglioramenti in diverse attività, incluse la generazione testo-immagine/video e l'editing di immagini.
Questo articolo mette in discussione il predominio delle pipeline continue nella generazione visiva. Investigiamo sistematicamente il divario prestazionale tra i metodi discreti e quelli continui. Contrariamente alla convinzione che i tokenizzatori discreti siano intrinsecamente inferiori, dimostriamo che la disparità deriva principalmente dal numero totale di bit allocati nello spazio latente (ovvero, il rapporto di compressione). Mostriamo che aumentare la dimensione del codebook colma efficacemente questo divario, permettendo ai tokenizzatori discreti di eguagliare o superare le loro controparti continue. Tuttavia, i metodi di generazione discreta esistenti faticano a sfruttare questa intuizione, soffrendo di un degrado delle prestazioni o di costi di training proibitivi con un codebook scalato. Per affrontare questo problema, proponiamo il *masked Bit AutoRegressive modeling* (BAR), un framework scalabile che supporta codebook di dimensioni arbitrarie. Equipaggiando un trasformatore autoregressivo con una testa di modellazione mascherata a livello di bit, BAR prevede i token discreti generando progressivamente i bit che li compongono. BAR raggiunge un nuovo stato dell'arte con un gFID di 0.99 su ImageNet-256, superando i metodi leader sia nel paradigma discreto che in quello continuo, riducendo significativamente i costi di campionamento e convergendo più velocemente rispetto ai precedenti approcci continui. La pagina del progetto è disponibile all'indirizzo https://bar-gen.github.io/.
La mancanza di stato dei modelli di base rappresenta un collo di bottiglia per la capacità dei sistemi agentivi di apprendere in modo continuativo, un'abilità fondamentale per il ragionamento e l'adattamento a lungo termine. Per affrontare questa limitazione, i sistemi agentivi incorporano comunemente moduli di memoria per conservare e riutilizzare esperienze passate, mirando all'apprendimento continuo durante il periodo di test. Tuttavia, la maggior parte dei progetti di memoria esistenti sono creati manualmente e fissi, il che limita la loro capacità di adattarsi alla diversità e alla non stazionarietà dei compiti del mondo reale. In questo articolo, introduciamo ALMA (Automated meta-Learning of Memory designs for Agentic systems), un framework che meta-apprende progetti di memoria per sostituire quelli progettati manualmente, minimizzando così lo sforzo umano e consentendo ai sistemi agentivi di diventare apprendisti continui in diversi domini. Il nostro approccio impiega un Meta Agente che ricerca progetti di memoria espressi come codice eseguibile in modo aperto, teoricamente consentendo la scoperta di progetti di memoria arbitrari, inclusi schemi di database e i loro meccanismi di recupero e aggiornamento. Esperimenti estesi in quattro domini di decisione sequenziale dimostrano che i progetti di memoria appresi consentono un apprendimento dall'esperienza più efficace ed efficiente rispetto ai progetti di memoria all'avanguardia creati manualmente su tutti i benchmark. Se sviluppato e implementato in sicurezza, ALMA rappresenta un passo verso sistemi di IA auto-miglioranti che imparano a essere apprendisti adattivi e continui.
Scalare efficacemente l'automazione delle interfacce grafiche (GUI) è fondamentale per gli agenti di utilizzo del computer (CUA); tuttavia, il lavoro esistente si concentra principalmente sullo scaling del grounding delle GUI piuttosto che sulla più cruciale pianificazione delle GUI, che richiede una raccolta dati più sofisticata. In realtà, il processo di esplorazione di un CUA attraverso app/desktop/pagina web segue tipicamente una struttura ad albero, con i punti di ingresso funzionali più precoci che vengono spesso esplorati più frequentemente. Pertanto, organizzare traiettorie su larga scala in strutture ad albero può ridurre il costo dei dati e semplificare lo scaling dei dati per la pianificazione delle GUI. In questo lavoro, proponiamo TreeCUA per scalare efficientemente l'automazione delle GUI con un'evoluzione verificabile a struttura ad albero. Proponiamo un framework collaborativo multi-agente per esplorare l'ambiente, verificare le azioni, riassumere le traiettorie e valutare la qualità per generare traiettorie GUI di alta qualità e scalabili. Per migliorare l'efficienza, ideiamo una nuova topologia basata su alberi per memorizzare e rieseguire i nodi di esplorazione duplicati e progettiamo un algoritmo di esplorazione adattivo per bilanciare la profondità (cioè la difficoltà della traiettoria) e l'ampiezza (cioè la diversità della traiettoria). Inoltre, sviluppiamo una guida basata sulla conoscenza del mondo e un backtracking della memoria globale per evitare generazioni di bassa qualità. Infine, estendiamo naturalmente e proponiamo il metodo TreeCUA-DPO a partire dalle abbondanti informazioni dei nodi dell'albero, migliorando la capacità di pianificazione delle GUI facendo riferimento alle informazioni dei rami delle traiettorie adiacenti. I risultati sperimentali mostrano che TreeCUA e TreeCUA-DPO offrono miglioramenti significativi e studi fuori dominio (OOD) dimostrano ulteriormente una forte generalizzazione. Tutte le informazioni sui nodi delle traiettorie e il codice saranno disponibili su https://github.com/UITron-hub/TreeCUA.
La pianificazione è diventata una capacità centrale per i sistemi agenti contemporanei nel gestire compiti complessi e a lungo termine, tuttavia gli approcci esistenti si basano prevalentemente su strutture di pianificazione fisse e predeterminate, che mancano della flessibilità necessaria per adattarsi alla diversità strutturale dei problemi aperti. Per affrontare questa limitazione, introduciamo TodoEvolve, un paradigma di meta-pianificazione che sintetizza autonomamente e revisiona dinamicamente architetture di pianificazione specifiche per il compito. Nello specifico, costruiamo inizialmente PlanFactory, uno spazio di progettazione modulare che standardizza paradigmi di pianificazione diversi all'interno di una codebase unificata che comprende topologia, inizializzazione, adattamento e navigazione, fornendo così un'interfaccia comune per pattern di pianificazione eterogenei. Sfruttando PlanFactory, raccogliamo traiettorie di pianificazione di alta qualità e addestriamo Todo-14B tramite l'Optimizzazione delle Preferenze Guidata dall'Impedenza (IGPO), un obiettivo di apprendimento per rinforzo multi-obiettivo che incentiva la generazione di sistemi di pianificazione performanti, stabili ed efficienti in termini di token per compiti e backbone di agenti arbitrari. Le valutazioni empiriche su cinque benchmark agentici dimostrano che TodoEvolve supera costantemente moduli di pianificazione ingegnerizzati con cura, mantenendo al contempo costi API e overhead di runtime contenuti.
L'apprendimento per rinforzo migliora sostanzialmente le capacità di ragionamento dei grandi modelli linguistici, ma tende anche ad allungare le catene di pensiero in output e ad aumentare i costi computazionali sia durante l'addestramento che durante l'inferenza. Sebbene siano stati proposti metodi per il controllo della lunghezza, non è ancora chiaro quale sia la lunghezza ottimale dell'output per bilanciare efficienza e prestazioni. In questo lavoro, confrontiamo diversi metodi di controllo della lunghezza su due modelli, Qwen3-1.7B Base e DeepSeek-R1-Distill-Qwen-1.5B. I nostri risultati indicano che le penalità sulla lunghezza possono ostacolare l'acquisizione del ragionamento, mentre un controllo della lunghezza adeguatamente regolato può migliorare l'efficienza per modelli con un solido ragionamento pregresso. Estendendo il lavoro precedente a politiche addestrate con RL, identifichiamo due modalità di fallimento: 1) output lunghi aumentano la dispersione e 2) output brevi portano a un ragionamento insufficiente.
Il pensiero parallelo è emerso come un nuovo paradigma per i grandi modelli di ragionamento (LRM) nell'affrontare problemi complessi. I metodi recenti sfruttano l'Apprendimento per Rinforzo (RL) per potenziare il pensiero parallelo, con l'obiettivo di superare le limitazioni nelle risorse computazionali e nell'efficacia incontrate con la messa a punto supervisionata. Tuttavia, la maggior parte degli studi esistenti si concentra principalmente sull'ottimizzazione della fase di aggregazione, dedicando un'attenzione limitata alla fase di esplorazione dei percorsi. In questo articolo, analizziamo teoricamente l'ottimizzazione del pensiero parallelo nell'ambito dell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR), e identifichiamo come il collo di bottiglia dell'informazione mutua tra i percorsi di esplorazione limiti fondamentalmente le prestazioni complessive. Per affrontare questo problema, proponiamo l'Esplorazione di Percorsi Guidata da Schemi (OPE), che partiziona esplicitamente lo spazio delle soluzioni generando diversi schemi di ragionamento prima del ragionamento parallelo sui percorsi, riducendo così la ridondanza informativa e migliorando la diversità delle informazioni catturate attraverso i percorsi di esplorazione. Implementiamo l'OPE con una strategia RL iterativa che ottimizza in modo indipendente la pianificazione degli schemi e il ragionamento guidato dagli schemi. Esperimenti estesi su molteplici benchmark matematici complessi dimostrano che l'OPE migliora efficacemente le prestazioni di ragionamento con diverse strategie di aggregazione, consentendo agli LRM di scoprire più affidabilmente soluzioni corrette.
La simulazione è diventata uno strumento chiave per addestrare e valutare i robot domestici su larga scala, eppure gli ambienti esistenti non riescono a catturare la diversità e la complessità fisica degli spazi interni reali. I metodi attuali di sintesi di scene producono stanze scarsamente arredate che mancano del disordine denso, dei mobili articolati e delle proprietà fisiche essenziali per la manipolazione robotica. Introduciamo SceneSmith, un framework agente gerarchico che genera ambienti interni pronti per la simulazione a partire da prompt in linguaggio naturale. SceneSmith costruisce le scene attraverso stadi successivi – dal layout architettonico al posizionamento dei mobili fino al popolamento di piccoli oggetti – ciascuno implementato come un'interazione tra agenti VLM: progettista, critico e orchestratore. Il framework integra strettamente la generazione di asset attraverso la sintesi testo-3D per oggetti statici, il recupero da dataset per oggetti articolati e la stima delle proprietà fisiche. SceneSmith genera da 3 a 6 volte più oggetti rispetto ai metodi precedenti, con <2% di collisioni tra oggetti e il 96% degli oggetti che rimane stabile sotto simulazione fisica. In uno studio utente con 205 partecipanti, raggiunge tassi di vittoria contro i baseline del 92% per il realismo medio e del 91% per la fedeltà media al prompt. Dimostriamo inoltre che questi ambienti possono essere utilizzati in una pipeline end-to-end per la valutazione automatica delle policy robotiche.
Gli agenti GUI end-to-end per ambienti desktop reali richiedono grandi quantità di dati di interazione di alta qualità, ma la raccolta di dimostrazioni umane è costosa e le pipeline sintetiche esistenti spesso soffrono di una limitata diversità di compiti o di traiettorie rumorose e soggette a deriva degli obiettivi. Presentiamo Anchor, un framework di espansione delle traiettorie che avvia una supervisione desktop scalabile a partire da un piccolo insieme di dimostrazioni seed verificate. Partendo da ogni seed, identifichiamo punti di diramazione che corrispondono a cambiamenti di stato significativi e proponiamo nuove varianti di compiti, ancorate allo stato, condizionate dal contesto GUI corrente. Un agente esecutivo segue poi le istruzioni proposte per generare nuove traiettorie, mentre un verificatore impone il completamento del compito tramite controlli consapevoli dello stato e una coerenza a livello di traiettoria. Per migliorare la qualità della supervisione, applichiamo ulteriormente un filtraggio a livello di passo, condizionato dal compito, per rimuovere azioni non ancorate e ripulire i segmenti successivi alla diramazione per mantenere un'intento coerente. Esperimenti su benchmark desktop standard, OSWorld e WindowsAgentArena, mostrano che i modelli addestrati sul nostro corpus espanso ottengono miglioramenti consistenti rispetto ad agenti zero-shot e baseline sintetiche rappresentative, e generalizzano attraverso applicazioni e sistemi operativi.
In questo articolo, ci proponiamo di collegare il test-time-training con un nuovo tipo di memoria parametrica che può essere flessibilmente scaricata dai parametri del modello o fusa in essi. Presentiamo Locas, una memoria parametrica a Supporto Locale che condivide la progettazione dei blocchi FFN nei transformer moderni, consentendole di essere permanentizzata in modo flessibile nei parametri del modello supportando al contempo un apprendimento continuo efficiente. Discutiamo due varianti principali di Locas: una con una progettazione MLP a due strati convenzionale che ha una garanzia teorica più chiara; l'altra condivide la stessa struttura GLU-FFN con i modelli linguistici all'avanguardia (SOTA LLM) e può essere facilmente integrata in modelli esistenti per un apprendimento continuo sia efficiente in termini di parametri che di computazione. Fondamentalmente, dimostriamo che una corretta inizializzazione di tali memorie di tipo FFN laterale a basso rango – eseguita in modo metodologico riutilizzando parametri del modello, attivazioni e/o gradienti – è essenziale per una convergenza rapida, una generalizzazione migliorata e la prevenzione della dimenticanza catastrofica. Convalidiamo il meccanismo di memoria proposto sui compiti di modellazione linguistica su interi libri PG-19 e di risposta a domande in dialoghi a contesto lungo LoCoMo. Con solo lo 0,02% di parametri aggiuntivi nel caso più contenuto, Locas-GLU è in grado di memorizzare le informazioni dal contesto passato mantenendo una finestra contestuale molto più piccola. Inoltre, testiamo anche la perdita di capacità generale del modello dopo aver memorizzato l'intero libro con Locas, attraverso una valutazione comparativa MMLU. I risultati mostrano la promettente capacità di Locas di permanentizzare il contesto passato in conoscenza parametrica con una dimenticanza catastrofica minimizzata della conoscenza interna preesistente del modello.
La decodifica a diffusione parallela può accelerare l'inferenza dei modelli linguistici basati su diffusione smascherando più token per passo, ma un parallelismo aggressivo spesso compromette la qualità. La decodifica revocabile mitiga questo problema ricontrollando i token precedenti, tuttavia osserviamo che gli schemi di verifica esistenti innescano frequentemente oscillazioni di tipo "flip-flop", dove i token vengono nuovamente mascherati per poi essere ripristinati invariati. Questo comportamento rallenta l'inferenza in due modi: il rimascheramento di posizioni verificate indebolisce il contesto di condizionamento per la stesura parallela, e i cicli di rimascheramento ripetuti consumano il budget di revisione con scarso progresso netto. Proponiamo COVER (Cache Override Verification for Efficient Revision), che esegue una verifica "leave-one-out" e una stesura stabile in un unico passaggio in avanti. COVER costruisce due viste dell'attenzione tramite l'override della cache KV: i seed selezionati vengono mascherati per la verifica, mentre i loro stati cached di chiave-valore vengono iniettati per tutte le altre query per preservare l'informazione contestuale, con una correzione diagonale in forma chiusa che previene l'autofuga alle posizioni dei seed. COVER priorizza ulteriormente i seed utilizzando un punteggio di stabilità che bilancia incertezza, influenza a valle e deriva della cache, e adatta il numero di seed verificati per passo. Su diversi benchmark, COVER riduce marcatamente le revisioni non necessarie e produce una decodifica più veloce preservando la qualità dell'output.
Lo sfruttamento di encoder di rappresentazione per la modellazione generativa offre un percorso per una sintesi efficiente e ad alta fedeltà. Tuttavia, i transformer diffusion standard non riescono a convergere direttamente su queste rappresentazioni. Mentre lavori recenti attribuiscono il problema a un collo di bottiglia di capacità, proponendo un ridimensionamento computazionalmente costoso in ampiezza dei transformer diffusion, noi dimostriamo che l'insuccesso è fondamentalmente geometrico. Identifichiamo l'Interferenza Geometrica come la causa principale: il flusso euclideo standard forza i percorsi di probabilità attraverso la regione interna a bassa densità dello spazio delle feature ipersferico degli encoder di rappresentazione, invece di seguire la superficie della varietà. Per risolvere ciò, proponiamo il Riemannian Flow Matching con Regolarizzazione di Jacobi (RJF). Vincolando il processo generativo alle geodetiche della varietà e correggendo la propagazione dell'errore indotta dalla curvatura, RJF consente alle architetture standard dei Diffusion Transformer di convergere senza ridimensionamento in ampiezza. Il nostro metodo RJF permette all'architettura standard DiT-B (131M parametri) di convergere efficacemente, raggiungendo un FID di 3.37 laddove i metodi precedenti falliscono nella convergenza. Codice: https://github.com/amandpkr/RJF
L'autocorrezione è essenziale per risolvere problemi complessi di ragionamento nei modelli visione-linguaggio (VLM). Tuttavia, i metodi di apprendimento per rinforzo (RL) esistenti faticano ad apprenderla, poiché comportamenti efficaci di autocorrezione emergono solo raramente, rendendo i segnali di apprendimento estremamente sparsi. Per affrontare questa sfida, proponiamo *correction-specific rollouts* (Octopus), un framework di aumento dei rollout RL che sintetizza esempi densi di autocorrezione ricombinando rollout esistenti. Questa aumentazione migliora simultaneamente l'efficienza del campionamento grazie al riutilizzo dei rollout e stabilizza l'ottimizzazione RL attraverso una supervisione bilanciata. Inoltre, introduciamo una strategia di *response-masking* che disaccoppia l'autocorrezione dal ragionamento diretto, evitando conflitti di segnale e permettendo ad entrambi i comportamenti di essere appresi efficacemente. Basandoci su questo, introduciamo Octopus-8B, un VLM di ragionamento con capacità di autocorrezione controllabile. Su 7 benchmark, raggiunge prestazioni allo stato dell'arte tra i VLM open-source, superando la miglior baseline RLVR di 1.0 punti pur richiedendo solo 0.72 volte il tempo di addestramento per passo.
Gli agenti IA dotati di capacità di chiamata di strumenti sono vulnerabili ad attacchi di Iniezione Indiretta di Prompt (IPI). In questo scenario d'attacco, comandi malevoli nascosti all'interno di contenuti non attendibili ingannano l'agente spingendolo a compiere azioni non autorizzate. Le difese esistenti possono ridurre il successo degli attacchi, ma spesso soffrono del dilemma della sovradifesa: implementano una costosa e permanente sanificazione indipendentemente dalla minaccia reale, degradando così utilità e latenza anche in scenari benigni. Riconsideriamo l'IPI attraverso una prospettiva di ablazione causale: un'iniezione riuscita si manifesta come un cambiamento di dominanza in cui la richiesta dell'utente non fornisce più un supporto decisivo per l'azione privilegiata dell'agente, mentre un particolare segmento non attendibile, come un documento recuperato o un output di strumento, fornisce un'influenza attribuibile sproporzionata. Basandoci su questa firma, proponiamo CausalArmor, un framework di difesa selettivo che (i) calcola attribuzioni leggere, basate sull'ablazione leave-one-out, nei punti decisionali privilegiati, e (ii) attiva una sanificazione mirata solo quando un segmento non attendibile domina l'intento dell'utente. Inoltre, CausalArmor utilizza un mascheramento retroattivo della Catena di Pensiero (Chain-of-Thought) per impedire all'agente di agire su tracce di ragionamento "avvelenate". Presentiamo un'analisi teorica che mostra come la sanificazione basata sui margini di attribuzione produca condizionalmente un limite superiore esponenzialmente piccolo sulla probabilità di selezionare azioni malevole. Esperimenti su AgentDojo e DoomArena dimostrano che CausalArmor eguaglia la sicurezza delle difese aggressive migliorando al contempo la spiegabilità e preservando utilità e latenza degli agenti IA.
Gli agenti di codifica basati su LLM hanno dimostrato prestazioni solide nei benchmark di risoluzione automatica dei problemi, tuttavia le valutazioni esistenti si concentrano prevalentemente sul successo finale del compito, fornendo insight limitati su come gli agenti recuperano e utilizzano il contesto del codice durante la risoluzione dei problemi. Introduciamo ContextBench, una valutazione orientata al processo del recupero del contesto negli agenti di codifica. ContextBench è composto da 1.136 task di risoluzione di issue provenienti da 66 repository in otto linguaggi di programmazione, ciascuno arricchito con contesti gold annotati manualmente. Implementiamo inoltre un framework di valutazione automatizzato che traccia le traiettorie degli agenti e misura recall, precisione ed efficienza del contesto durante l'intero processo di risoluzione. Utilizzando ContextBench, valutiamo quattro LLM all'avanguardia e cinque agenti di codifica. I nostri risultati mostrano che l'impalcatura sofisticata degli agenti produce solo miglioramenti marginali nel recupero del contesto ("La Lezione Amara" degli agenti di codifica), gli LLM privilegiano costantemente la recall rispetto alla precisione, ed esistono divari sostanziali tra contesto esplorato e contesto utilizzato. ContextBench integra i benchmark end-to-end esistenti con metriche intermedie basate su contesti gold che "scoperchiano" il processo di risoluzione dei problemi. Questi contesti offrono segnali intermedi preziosi per guidare il ragionamento degli LLM nei task software.
I metodi di decomposizione delle attivazioni nei modelli linguistici sono strettamente legati ad assunzioni geometriche su come i concetti si realizzano nello spazio delle attivazioni. Gli approcci esistenti cercano singole direzioni globali, assumendo implicitamente la separabilità lineare, il che trascura i concetti con struttura non lineare o multidimensionale. In questo lavoro, utilizziamo le Miscele di Analizzatori Fattoriali (MFA) come alternativa scalabile e non supervisionata che modella lo spazio delle attivazioni come una collezione di regioni gaussiane con la loro struttura di covarianza locale. Le MFA scompongono le attivazioni in due oggetti geometrici compositivi: il centroide della regione nello spazio delle attivazioni e la variazione locale dal centroide. Addestriamo MFA su larga scala per Llama-3.1-8B e Gemma-2-2B, e dimostriamo che esse catturano strutture complesse e non lineari nello spazio delle attivazioni. Inoltre, le valutazioni su benchmark di localizzazione e steering mostrano che le MFA superano i baseline non supervisionati, sono competitive con i metodi di localizzazione supervisionati e spesso raggiungono prestazioni di steering più robuste degli autoencoder sparsi. Nel complesso, i nostri risultati posizionano la geometria locale, espressa attraverso sottospazi, come un'unità di analisi promettente per la scoperta scalabile di concetti e il controllo del modello, tenendo conto di strutture complesse che le direzioni isolate non riescono a catturare.
Sebbene il flow matching sia elegante, la sua dipendenza da velocità condizionali a singolo campione porta a target di addestramento ad alta varianza che destabilizzano l'ottimizzazione e rallentano la convergenza. Caratterizzando esplicitamente questa varianza, identifichiamo 1) un regime ad alta varianza in prossimità della distribuzione prior, dove l'ottimizzazione è difficile, e 2) un regime a bassa varianza in prossimità della distribuzione dei dati, dove le velocità condizionali e marginali quasi coincidono. Sfruttando questa intuizione, proponiamo Stable Velocity, un framework unificato che migliora sia l'addestramento che il campionamento. Per l'addestramento, introduciamo Stable Velocity Matching (StableVM), un obiettivo imparziale di riduzione della varianza, insieme a Variance-Aware Representation Alignment (VA-REPA), che rafforza in modo adattivo la supervisione ausiliaria nel regime a bassa varianza. Per l'inferenza, mostriamo che le dinamiche nel regime a bassa varianza ammettono semplificazioni in forma chiusa, abilitando Stable Velocity Sampling (StableVS), un'accelerazione senza fine-tuning. Esperimenti estensivi su ImageNet 256×256 e su grandi modelli preaddestrati text-to-image e text-to-video, inclusi SD3.5, Flux, Qwen-Image e Wan2.2, dimostrano miglioramenti consistenti nell'efficienza di addestramento e un campionamento più di 2 volte più veloce all'interno del regime a bassa varianza senza degradare la qualità del campione. Il nostro codice è disponibile all'indirizzo https://github.com/linYDTHU/StableVelocity.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più impiegati in domini ad alto rischio, dove guasti rari ma gravi possono causare danni irreversibili. Tuttavia, i benchmark di valutazione prevalenti spesso riducono il rischio sociale complesso a punteggi scalari centrati sulla media, oscurando così la struttura distributiva, le interazioni cross-dimensionali e il comportamento nel caso peggiore. Questo articolo introduce l'Analisi del Danno Sociale tramite Profili di Rischio (SHARP), un quadro per la valutazione multidimensionale e consapevole della distribuzione del danno sociale. SHARP modella il danno come una variabile casuale multivariata e integra una scomposizione esplicita in bias, equità, etica e affidabilità epistemica con un'aggregazione a unione di guasti riformulata come rischio cumulativo logaritmico additivo. Il quadro utilizza inoltre statistiche distributive sensibili al rischio, con il Valore a Rischio Condizionato (CVaR95) come metrica primaria, per caratterizzare il comportamento del modello nel caso peggiore. L'applicazione di SHARP a undici LLM di frontiera, valutati su un corpus fisso di n=901 prompt socialmente sensibili, rivela che modelli con rischio medio simile possono mostrare differenze superiori al doppio nell'esposizione e nella volatilità di coda. Attraverso i modelli, il comportamento marginale di coda varia sistematicamente tra le dimensioni del danno, con il bias che mostra le severità di coda più forti, i rischi epistemici e di equità che occupano regimi intermedi e il disallineamento etico costantemente più basso; insieme, questi modelli rivelano strutture di guasto eterogenee e dipendenti dal modello che i benchmark scalari conglobano. Questi risultati indicano che una valutazione e una governance responsabile degli LLM richiedono di andare oltre le medie scalari verso una profilazione del rischio multidimensionale e sensibile alle code.
L'iniezione indiretta di prompt minaccia gli agenti LLM incorporando istruzioni malevole in contenuti esterni, consentendo azioni non autorizzate e furto di dati. Gli agenti LLM mantengono una memoria di lavoro attraverso la finestra contestuale, che memorizza la cronologia delle interazioni per il processo decisionale. Gli agenti convenzionali accumulano indiscriminatamente tutti gli output degli strumenti e le tracce di ragionamento in questa memoria, creando due vulnerabilità critiche: (1) le istruzioni iniettate persistono durante l'intero flusso di lavoro, concedendo agli attaccanti molteplici opportunità di manipolare il comportamento, e (2) i contenuti verbosi e non essenziali degradano le capacità decisionali. Le difese esistenti considerano la memoria gonfia come un dato di fatto e si concentrano sul mantenere la resilienza, piuttosto che ridurre l'accumulo non necessario per prevenire l'attacco. Presentiamo AgentSys, un framework che si difende dall'iniezione indiretta di prompt attraverso una gestione esplicita della memoria. Ispirandosi all'isolamento della memoria dei processi nei sistemi operativi, AgentSys organizza gli agenti gerarchicamente: un agente principale genera agenti worker per le chiamate agli strumenti, ciascuno in esecuzione in un contesto isolato e in grado di generare worker nidificati per i sottocompiti. I dati esterni e le tracce dei sottocompiti non entrano mai nella memoria dell'agente principale; solo i valori di ritorno convalidati da uno schema possono attraversare i confini tramite un parsing JSON deterministico. Le ablazioni mostrano che il solo isolamento riduce il successo degli attacchi al 2,19%, e l'aggiunta di un validatore/sanificatore migliora ulteriormente la difesa con controlli attivati da eventi, il cui sovraccarico scala con le operazioni piuttosto che con la lunghezza del contesto. Su AgentDojo e ASB, AgentSys raggiunge rispettivamente uno 0,78% e un 4,25% di successo degli attacchi, migliorando leggermente anche l'utilità in condizioni benigne rispetto ai baseline non difesi. Rimane robusto contro attaccanti adattivi e su molteplici modelli fondazionali, dimostrando che la gestione esplicita della memoria abilita architetture di agenti LLM dinamiche e sicure. Il nostro codice è disponibile all'indirizzo: https://github.com/ruoyaow/agentsys-memory.
I modelli generativi a tempo continuo, come i modelli di diffusione, il flusso di corrispondenza (flow matching) e il flusso rettificato (rectified flow), apprendono campi vettoriali dipendenti dal tempo ma sono tipicamente addestrati con obiettivi che trattano gli istanti temporali in modo indipendente, portando ad un'elevata varianza dello stimatore e a un campionamento inefficiente. Gli approcci precedenti mitigano questo problema mediante penalità esplicite di regolarità, regolarizzazione della traiettoria, o percorsi di probabilità e risolutori modificati. Introduciamo la Consistenza Temporale di Coppia (Temporal Pair Consistency - TPC), un principio leggero di riduzione della varianza che accoppia le previsioni di velocità in coppie di istanti temporali lungo lo stesso percorso di probabilità, operando interamente a livello dello stimatore senza modificare l'architettura del modello, il percorso di probabilità o il risolutore. Forniamo un'analisi teorica che dimostra come TPC induca una regolarizzazione quadratica e accoppiata alla traiettoria, che riduce in modo dimostrabile la varianza del gradiente preservando l'obiettivo sottostante del flusso di corrispondenza. Istanziato all'interno del flusso di corrispondenza, TPC migliora la qualità e l'efficienza del campionamento su CIFAR-10 e ImageNet a risoluzioni multiple, raggiungendo un FID più basso a parità o a minore costo computazionale rispetto ai metodi precedenti, e si estende senza soluzione di continuità a pipeline moderne in stato dell'arte con addestramento arricchito da rumore, denoising basato su score e flusso rettificato.
I modelli visione-linguaggio (VLM) hanno ottenuto prestazioni impressionanti nella comprensione cross-modale di input testuali e visivi, tuttavia i benchmark esistenti si concentrano prevalentemente su query di puro testo. Negli scenari reali, il linguaggio appare frequentemente anche come testo visualizzato incorporato nelle immagini, sollevando la questione se gli attuali VLM gestiscano tali richieste di input in modo comparabile. Introduciamo VISTA-Bench, un benchmark sistematico che spazia dai domini della percezione multimodale e del ragionamento fino alla comprensione unimodale. Esso valuta la comprensione del testo visualizzato contrapponendo domande in puro testo e in testo visualizzato in condizioni di rendering controllate. Una valutazione estesa di oltre 20 VLM rappresentativi rivela un marcato divario modale: i modelli che performano bene su query di puro testo spesso si deteriorano sostanzialmente quando contenuti semantici equivalenti sono presentati come testo visualizzato. Questo divario è ulteriormente amplificato da una maggiore difficoltà percettiva, evidenziando una sensibilità alle variazioni di rendering nonostante la semantica invariata. Complessivamente, VISTA-Bench fornisce un framework di valutazione principiato per diagnosticare questa limitazione e guidare il progresso verso rappresentazioni linguistiche più unificate tra testo tokenizzato e pixel. Il dataset sorgente è disponibile all'indirizzo https://github.com/QingAnLiu/VISTA-Bench.
Eseguire LLM con ragionamento esteso su ogni problema è costoso, ma determinare quali input richiedano effettivamente potenza di calcolo aggiuntiva rimane una sfida. Indaghiamo se la loro stessa probabilità di successo sia recuperabile dalle loro rappresentazioni interne prima della generazione, e se questo segnale possa guidare un'inferenza più efficiente. Addestriamo sonde lineari sulle attivazioni pre-generazione per prevedere il successo specifico della policy su compiti di matematica e codifica, superando sostanzialmente feature superficiali come la lunghezza della domanda e TF-IDF. Utilizzando E2H-AMC, che fornisce le prestazioni sia umane che del modello su problemi identici, mostriamo che i modelli codificano una nozione di difficoltà specifica del modello, distinta dalla difficoltà umana, e che questa distinzione aumenta con il ragionamento esteso. Sfruttando queste sonde, dimostriamo che l'instradamento delle query attraverso un pool di modelli può superare le prestazioni del modello migliore, riducendo al contempo il costo di inferenza fino al 70% su MATH, mostrando che le rappresentazioni interne consentono guadagni di efficienza pratici anche quando divergono dalle intuizioni umane sulla difficoltà. Il nostro codice è disponibile all'indirizzo: https://github.com/KabakaWilliam/llms_know_difficulty
La Clusterizzazione di Grafi con Attributi (AGC) è un compito fondamentale di apprendimento non supervisionato che integra la topologia strutturale e gli attributi dei nodi per scoprire pattern latenti nei dati strutturati a grafo. Nonostante la sua importanza in applicazioni industriali come il rilevamento di frodi e la segmentazione degli utenti, persiste un divario significativo tra la ricerca accademica e l'implementazione nel mondo reale. I protocolli di valutazione attuali soffrono di dataset di citazioni di piccola scala e alta omofilia, paradigmi di addestramento full-batch non scalabili e una dipendenza da metriche supervisionate che non riflettono le prestazioni in ambienti con scarsità di etichette. Per colmare queste lacune, presentiamo PyAGC, un benchmark e una libreria completi e pronti per la produzione, progettati per stressare i metodi AGC su diverse scale e proprietà strutturali. Unifichiamo le metodologie esistenti in un framework modulare Encode-Cluster-Optimize e, per la prima volta, forniamo implementazioni memory-efficient e mini-batch per una vasta gamma di algoritmi AGC all'avanguardia. Il nostro benchmark raccoglie 12 dataset diversificati, che vanno da 2.7K a 111M nodi, incorporando specificamente grafi industriali con caratteristiche tabellari complesse e bassa omofilia. Inoltre, sosteniamo un protocollo di valutazione olistico che impone metriche strutturali non supervisionate e profilazione dell'efficienza insieme alle tradizionali metriche supervisionate. Testato in workflow industriali ad alto rischio presso Ant Group, questo benchmark offre alla comunità una piattaforma robusta, riproducibile e scalabile per far progredire la ricerca AGC verso un'implementazione realistica. Il codice e le risorse sono pubblicamente disponibili tramite GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc) e Documentazione (https://pyagc.readthedocs.io).
Il test-time training (TTT) adatta i modelli linguistici mediante aggiornamenti basati sul gradiente durante l'inferenza. Ma l'adattamento è la strategia corretta? Studiamo strategie compute-optimal per attività di esecuzione ancorata alla verificabilità (VEG), domini come l'ottimizzazione di kernel GPU in cui un valutatore deterministico fornisce segnali di reward densi e continui. Utilizzando KernelBench come banco di prova e un modello da 120 miliardi di parametri (GPT-OSS-120B con adattamento LoRA), scopriamo che la ricerca supera l'adattamento minimo (1-5 passi di gradiente): il campionamento "Best-of-N" raggiunge il 90% di successo (18/20 task) con K=64 sull'intero set di valutazione L1 di KernelBench, mentre il miglior checkpoint del TTT raggiunge solo il 30,6% (media su 3 seed), con il "K equivalente" del TTT inferiore a 1, peggio dell'inferenza a singolo campione. La modalità di fallimento è l'over-sharpening: gli aggiornamenti del gradiente collassano la diversità verso soluzioni mediocri invece di scoprire quelle ottimali. Il nostro contributo principale è la selezione guidata dalla sorpresa: selezionare il campione corretto con sorpresa più alta (minore confidenza) produce l'80% di successo contro il 50% della selezione più confidente, un miglioramento del 30%. Estendendo alla selezione guidata dalla sorpresa sui primi 3 campioni si eguaglia la performance oracolo al 100%. Questa strategia a costo zero, validata tramite analisi a lunghezza controllata, recupera la performance oracolo. Per task VEG con reward denso, il calcolo dovrebbe essere allocato alla diversità dei campioni e alla selezione intelligente piuttosto che all'adattamento del gradiente. Il principio della selezione guidata dalla sorpresa potrebbe generalizzarsi ad altri domini ancorati all'esecuzione dove le soluzioni ottimali occupano la coda della distribuzione.
Le implementazioni moderne richiedono ai LLM di applicare politiche di sicurezza su larga scala, eppure molti controlli si basano su interventi in fase di inferenza che aggiungono costi computazionali ricorrenti e complessità operativa. Lo steering delle attivazioni è ampiamente utilizzato, ma richiede hook in runtime e scala i costi con il numero di generazioni; le varianti condizionali migliorano la selettività regolando l'applicazione dello steering, ma mantengono comunque un percorso di controllo in fase di inferenza. Ci chiediamo se il rifiuto selettivo possa essere spostato completamente offline: è possibile distillare una comprensione meccanicistica del rifiuto specifico per categoria in un aggiornamento dei pesi, limitato a un circuito, che si distribuisca come un checkpoint standard? Proponiamo C-Δθ: Circuit Restricted Weight Arithmetic, che (i) localizza il calcolo causale del rifiuto come un circuito sparso utilizzando EAP-IG e (ii) calcola un aggiornamento vincolato dei pesi ΔθC supportato solo su quel circuito (tipicamente <5% dei parametri). L'applicazione di ΔθC produce un checkpoint modificato "drop-in" senza hook in fase di inferenza, spostando il costo dall'intervento per richiesta a un aggiornamento offline una tantum. Valutiamo la selettività mirata per categoria e la conservazione delle capacità su benchmark di rifiuto e utilità.
Con la diffusione su larga scala degli Agenti con Utilizzo di Computer (CUA) in ambienti reali complessi, i rischi latenti a lungo termine portano spesso a conseguenze gravi e irreversibili. La maggior parte delle protezioni esistenti per i CUA adotta un approccio reattivo, vincolando il comportamento dell'agente solo all'interno dello spazio osservabile corrente. Sebbene queste protezioni possano prevenire rischi immediati a breve termine (ad esempio, cliccare su un link di phishing), non possono evitare proattivamente i rischi a lungo termine: azioni apparentemente ragionevoli possono condurre a conseguenze ad alto rischio che si manifestano in ritardo (ad esempio, la pulizia dei log rende le future verifiche intracciabili), che le protezioni reattive non riescono a identificare nello spazio osservabile corrente. Per affrontare queste limitazioni, proponiamo un approccio di protezione predittiva, il cui concetto fondamentale è allineare i rischi futuri previsti con le decisioni correnti. Basandoci su questo approccio, presentiamo SafePred, un framework di protezione predittiva per CUA che stabilisce un ciclo rischio-decisione per garantire un comportamento sicuro dell'agente. SafePred supporta due capacità chiave: (1) Previsione del rischio a breve e lungo termine: utilizzando politiche di sicurezza come base per la previsione del rischio, SafePred sfrutta la capacità predittiva del modello mondiale per generare rappresentazioni semantiche dei rischi sia a breve che a lungo termine, identificando e eliminando così le azioni che portano a stati ad alto rischio; (2) Ottimizzazione decisionale: traducendo i rischi previsti in linee guida decisionali sicure e attuabili attraverso interventi a livello di step e una ripianificazione a livello di task. Esperimenti estensivi mostrano che SafePred riduce significativamente i comportamenti ad alto rischio, raggiungendo oltre il 97,6% di performance di sicurezza e migliorando l'utilità del task fino al 21,4% rispetto ai baseline reattivi.