Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo Step 3.5 Flash, un modello sparso Mixture-of-Experts (MoE) che colma il divario tra intelligenza agentica di frontiera ed efficienza computazionale. Ci concentriamo su ciò che conta di più nella costruzione di agenti: un ragionamento acuto e un'esecuzione rapida e affidabile. Step 3.5 Flash abbina una base di 196 miliardi di parametri a 11 miliardi di parametri attivi per un'inferenza efficiente. È ottimizzato con un'attenzione intervallata 3:1 a finestra scorrevole/completa e Multi-Token Prediction (MTP-3) per ridurre la latenza e il costo delle interazioni agentiche multi-round. Per raggiungere un'intelligenza di frontiera, progettiamo un framework di reinforcement learning scalabile che combina segnali verificabili con feedback di preferenza, rimanendo stabile durante l'addestramento off-policy su larga scala, consentendo un miglioramento autonomo e coerente in matematica, codice e uso di strumenti. Step 3.5 Flash dimostra prestazioni solide in compiti agentici, di programmazione e matematici, raggiungendo l'85,4% su IMO-AnswerBench, l'86,4% su LiveCodeBench-v6 (2024.08-2025.05), l'88,2% su tau2-Bench, il 69,0% su BrowseComp (con gestione del contesto) e il 51,0% su Terminal-Bench 2.0, risultati comparabili a modelli di frontiera come GPT-5.2 xHigh e Gemini 3.0 Pro. Ridefinendo la frontiera dell'efficienza, Step 3.5 Flash fornisce una base ad alta densità per implementare agenti sofisticati in ambienti industriali reali.
Studi recenti hanno adattato i modelli linguistici multimodali generativi (MLLM) per fungere da estrattori di embedding per task visivi, tipicamente attraverso fine-tuning per produrre rappresentazioni universali. Tuttavia, le loro prestazioni sui video rimangono inferiori a quelle dei Modelli Fondazionali per Video (VFM). In questo articolo, ci concentriamo sullo sfruttamento degli MLLM per l'embedding e il retrieval video-testo. Iniziamo conducendo un'analisi sistematica strato per strato, dimostrando che gli strati intermedi (pre-addestrati) degli MLLM codificano già informazioni sostanziali rilevanti per il compito. Sfruttando questa intuizione, dimostriamo che combinare gli embedding degli strati intermedi con una testa MLLM calibrata produce forti prestazioni di retrieval zero-shot senza alcun addestramento. Basandoci su questi risultati, introduciamo una strategia di allineamento leggera basata sul testo, che mappa descrizioni dense di video a riassunti brevi e abilita l'apprendimento di embedding video-testo correlati al compito senza supervisione visiva. Notevolmente, senza alcun fine-tuning oltre al testo, il nostro metodo supera le metodologie attuali, spesso con un margine sostanziale, raggiungendo risultati allo stato dell'arte su comuni benchmark di retrieval video.
I Modelli Multimodali Unificati (UMM) hanno mostrato progressi notevoli nella generazione visiva. Tuttavia, i benchmark esistenti valutano prevalentemente l'Intelligenza Cristallizzata, che si basa sul richiamo di conoscenze accumulate e schemi appresi. Questo approccio trascura l'Intelligenza Fluida Generativa (GFI): la capacità di indurre pattern, ragionare attraverso vincoli e adattarsi a scenari nuovi in tempo reale. Per valutare rigorosamente questa capacità, introduciamo GENIUS (GEN Fluid Intelligence EvalUation Suite). Formalizziamo la GFI come una sintesi di tre primitive. Queste includono l'Induzione di Pattern Impliciti (ad esempio, dedurre preferenze visive personalizzate), l'Esecuzione di Vincoli Ad-hoc (ad esempio, visualizzare metafore astratte) e l'Adattamento alla Conoscenza Contestuale (ad esempio, simulare fisica contro-intuitiva). Collettivamente, queste primitive mettono alla prova i modelli nel risolvere problemi basati interamente sul contesto immediato. La nostra valutazione sistematica di 12 modelli rappresentativi rivela deficit significativi di prestazione in questi compiti. Crucialmente, la nostra analisi diagnostica distingue queste modalità di fallimento. Dimostra che i deficit derivano da una comprensione contestuale limitata piuttosto che da un'intrinseca capacità generativa insufficiente. Per colmare questa lacuna, proponiamo una strategia di intervento sull'attenzione senza addestramento. In definitiva, GENIUS stabilisce uno standard rigoroso per la GFI, guidando il campo oltre l'utilizzo della conoscenza verso un ragionamento dinamico e di uso generale. Il nostro dataset e il codice saranno rilasciati su: https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.
Con il rapido sviluppo dei modelli multimodali di grandi dimensioni, modelli giudice e critico affidabili sono diventati essenziali per la valutazione a risposta aperta e l'allineamento delle preferenze, fornendo preferenze a coppie, punteggi numerici e giustificazioni esplicative per valutare le risposte generate dai modelli. Tuttavia, i critici esistenti sono principalmente addestrati in domini visivi generici come la descrizione immagini o il question answering su immagini, lasciando in gran parte inesplorati i compiti di intelligenza artificiale fisica che coinvolgono percezione, ragionamento causale e pianificazione. Introduciamo PhyCritic, un modello critico multimodale ottimizzato per l'IA fisica attraverso una pipeline RLVR in due fasi: una fase di riscaldamento delle abilità fisiche che potenzia la percezione e il ragionamento orientati alla fisica, seguita da un fine-tuning critico auto-referenziale, in cui il critico genera la propria previsione come riferimento interno prima di giudicare le risposte candidate, migliorando la stabilità del giudizio e la correttezza fisica. Su benchmark sia per giudici multimodali fisici che generici, PhyCritic ottiene consistenti miglioramenti prestazionali rispetto ai baseline open-source e, quando applicato come modello policy, migliora ulteriormente la percezione e il ragionamento in compiti radicati nella fisica.
L'adattamento degli agenti LLM all'utilizzo di strumenti domain-specific rimane notevolmente fragile in contesti con interfacce in evoluzione. L'ingegnerizzazione dei prompt e degli schemi è facile da implementare ma spesso fragile in caso di distribuzione non stazionaria e parser rigidi, mentre il fine-tuning continuo ed efficiente in parametri migliora l'affidabilità al costo di addestramento, manutenzione e potenziale oblio. Identifichiamo una critica modalità di fallimento dell'Agente Pigro (Lazy Agent), in cui la necessità di utilizzare uno strumento è decodificabile quasi perfettamente dalle attivazioni degli strati intermedi, eppure il modello rimane conservativo nell'entrare in modalità strumento, rivelando un divario tra rappresentazione e comportamento. Proponiamo l'Activation Steering Adapter (ASA), un controllore senza addestramento che opera durante l'inferenza, esegue un intervento one-shot a livello degli strati intermedi e indirizza i domini di strumenti tramite una miscela condizionata da un router di vettori di steering, con un gate con segno guidato da una sonda per amplificare la vera intenzione sopprimendo i trigger spurii. Su MTU-Bench con Qwen2.5-1.5B, l'ASA migliora l'F1 rigoroso dell'uso degli strumenti da 0,18 a 0,50 riducendo allo stesso tempo il tasso di falsi positivi da 0,15 a 0,05, utilizzando solo circa 20KB di risorse portabili e nessun aggiornamento dei pesi.
I recenti progressi nei modelli di base hanno prodotto sistemi di ragionamento in grado di raggiungere uno standard da medaglia d'oro alle Olimpiadi Internazionali della Matematica. La transizione dalla risoluzione di problemi a livello competitivo alla ricerca professionale, tuttavia, richiede di districarsi in una vasta letteratura e di costruire dimostrazioni a lungo orizzonte. In questo lavoro, introduciamo Aletheia, un agente per la ricerca matematica che genera, verifica e revisiona iterativamente soluzioni end-to-end in linguaggio naturale. Nello specifico, Aletheia è supportato da una versione avanzata di Gemini Deep Think per problemi di ragionamento complessi, da una nuova legge di scaling al tempo di inferenza che si estende oltre i problemi di livello olimpico, e da un uso intensivo di strumenti per navigare le complessità della ricerca matematica. Dimostriamo le capacità di Aletheia da problemi olimpici ad esercizi di livello dottorato e, in modo più significativo, attraverso diversi traguardi distinti nella ricerca matematica assistita dall'IA: (a) un articolo di ricerca (Feng26) generato dall'IA senza alcun intervento umano nel calcolo di certe costanti strutturali in geometria aritmetica chiamate autopesi; (b) un articolo di ricerca (LeeSeo26) che dimostra una collaborazione umano-IA nel dimostrare limiti per sistemi di particelle interagenti chiamati insiemi indipendenti; e (c) una valutazione semi-autonoma estensiva (Feng et al., 2026a) di 700 problemi aperti sul database delle Congetture di Erdos di Bloom, incluse soluzioni autonome a quattro questioni aperte. Al fine di aiutare il pubblico a comprendere meglio gli sviluppi relativi all'IA e alla matematica, suggeriamo di codificare livelli standard che quantifichino l'autonomia e la novità dei risultati ottenuti con l'assistenza dell'IA. Concludiamo con riflessioni sulla collaborazione umano-IA in matematica.
Sebbene il ragionamento su contesti lunghi sia cruciale per varie applicazioni nel mondo reale, rimane una sfida per i grandi modelli linguistici (LLM), che soffrono di un degrado delle prestazioni all'aumentare della lunghezza del contesto. Il recente lavoro MemAgent ha tentato di affrontare questo problema elaborando il contesto a blocchi in un ciclo simile a una RNN e aggiornando una memoria testuale per la risposta finale. Tuttavia, questo ingenuo aggiornamento ricorrente della memoria presenta due svantaggi cruciali: (i) la memoria può esplodere rapidamente perché può aggiornarsi indiscriminatamente, anche su blocchi privi di evidenze; e (ii) il ciclo manca di un meccanismo di uscita, portando a calcoli non necessari anche dopo che sono state raccolte evidenze sufficienti. Per affrontare questi problemi, proponiamo GRU-Mem, che incorpora due gate controllati da testo per un ragionamento su contesti lunghi più stabile ed efficiente. Nello specifico, in GRU-Mem, la memoria si aggiorna solo quando il gate di aggiornamento è aperto e il ciclo ricorrente termina immediatamente non appena il gate di uscita si apre. Per dotare il modello di tali capacità, introduciamo due segnali di ricompensa, r^{update} e r^{exit}, all'interno di un framework di apprendimento per rinforzo end-to-end, premiando rispettivamente i comportamenti corretti di aggiornamento e di uscita. Esperimenti su varie attività di ragionamento su contesti lunghi dimostrano l'efficacia e l'efficienza di GRU-Mem, che generalmente supera il MemAgent vanilla con un'accelerazione della velocità di inferenza fino al 400%.
Questo articolo propone l'Omni Dense Captioning, un nuovo compito progettato per generare narrazioni audiovisive continue, granulari e strutturate con timestamp espliciti. Per garantire una copertura semantica densa, introduciamo uno schema strutturale a sei dimensioni per creare didascalie "simili a copioni", consentendo ai lettori di immaginare vividamente il contenuto video scena per scena, simile a una sceneggiatura cinematografica. Per facilitare la ricerca, costruiamo OmniDCBench, un benchmark di alta qualità annotato manualmente, e proponiamo SodaM, una metrica unificata che valuta descrizioni dettagliate con consapevolezza temporale mitigando l'ambiguità dei confini di scena. Inoltre, costruiamo un dataset di addestramento, TimeChatCap-42K, e presentiamo TimeChat-Captioner-7B, una solida baseline addestrata tramite SFT e GRPO con ricompense specifiche per il compito. Esperimenti estensivi dimostrano che TimeChat-Captioner-7B raggiunge prestazioni all'avanguardia, superando Gemini-2.5-Pro, mentre le sue descrizioni dense generate potenziano significativamente le capacità downstream nel ragionamento audiovisivo (DailyOmni e WorldSense) e nel grounding temporale (Charades-STA). Tutti i dataset, i modelli e il codice saranno resi pubblicamente disponibili su https://github.com/yaolinli/TimeChat-Captioner.
I modelli linguistici di grandi dimensioni di tipo decoder-only sono sempre più utilizzati come encoder comportamentali per l'apprendimento di rappresentazioni utente, tuttavia l'impatto del masking dell'attenzione sulla qualità degli embedding utente rimane poco esplorato. In questo lavoro, conduciamo uno studio sistematico delle maschere di attenzione causali, ibride e bidirezionali all'interno di un framework unificato di apprendimento contrastivo, addestrato su dati reali su larga scala di Alipay che integrano comportamenti utente eterogenei a lungo termine. Per migliorare la dinamica di addestramento durante la transizione dall'attenzione causale a quella bidirezionale, proponiamo il Gradient-Guided Soft Masking, un pre-riscaldamento basato sul gradiente applicato prima di uno scheduler lineare che apre gradualmente l'attenzione futura durante l'ottimizzazione. Valutato su 9 benchmark industriali di cognizione utente che coprono compiti di predizione, preferenza e sensibilità al marketing, il nostro approccio produce costantemente un addestramento più stabile e rappresentazioni bidirezionali di qualità superiore rispetto ai baseline causali, ibridi e con solo scheduler, rimanendo al contempo compatibile con il pre-addestramento del decoder. Nel complesso, i nostri risultati evidenziano l'importanza della progettazione del masking e della transizione di addestramento nell'adattare i LLM decoder-only per un apprendimento efficace delle rappresentazioni utente. Il nostro codice è disponibile all'indirizzo https://github.com/JhCircle/Deepfind-GGSM.
Mentre i Large Language Model (LLM) hanno recentemente mostrato potenzialità nell'Automated Heuristic Design (AHD), gli approcci esistenti tipicamente formulano l'AHD attorno a regole di priorità costruttive o a linee guida parametriche per la ricerca locale, limitando così lo spazio di ricerca a forme euristiche fisse. Tali progetti offrono una capacità limitata di esplorazione strutturale, rendendo difficile fuggire da profondi ottimi locali in complessi Problemi di Ottimizzazione Combinatoria (COP). In questo lavoro, proponiamo G-LNS, un framework evolutivo generativo che estende l'AHD basata su LLM alla progettazione automatizzata di operatori di Large Neighborhood Search (LNS). A differenza dei metodi precedenti che evolvono euristiche in isolamento, G-LNS sfrutta i LLM per co-evolvere coppie strettamente accoppiate di operatori di distruzione e riparazione. Un meccanismo di valutazione cooperativa cattura esplicitamente la loro interazione, permettendo la scoperta di logiche operative complementari che eseguono congiuntamente un'efficace perturbazione e ricostruzione strutturale. Esperimenti estesi su benchmark impegnativi di COP, come i Traveling Salesman Problems (TSP) e i Capacitated Vehicle Routing Problems (CVRP), dimostrano che G-LNS supera significativamente i metodi AHD basati su LLM, nonché forti solver classici. Le euristiche scoperte non solo raggiungono soluzioni quasi-ottimali con budget computazionali ridotti, ma mostrano anche una robusta generalizzazione su distribuzioni di istanze diverse e non viste durante l'addestramento.
Gli agenti basati su grandi modelli linguistici (LLM) stanno guadagnando sempre più adozione nell'industria del software, contribuendo al codice come collaboratori o persino come sviluppatori autonomi. Con la loro crescente presenza, diventa importante valutare i limiti attuali delle loro capacità di programmazione. Tuttavia, gli attuali benchmark di codifica agentesica coprono un ambito di compiti limitato, ad esempio, la correzione di bug all'interno di una singola pull request (PR), e spesso si basano su valutazioni non eseguibili o mancano di un approccio automatizzato per aggiornare continuamente la copertura valutativa. Per affrontare tali problemi, proponiamo FeatureBench, un benchmark progettato per valutare le prestazioni di codifica agentesica nello sviluppo software end-to-end e orientato alle funzionalità. FeatureBench incorpora un protocollo di valutazione basato sull'esecuzione e un metodo scalabile guidato dai test che deriva automaticamente i compiti dai repository di codice con uno sforzo umano minimo. Tracciando dai test unitari lungo un grafo delle dipendenze, il nostro approccio può identificare compiti di codifica a livello di funzionalità che si estendono su più commit e PR distribuiti lungo la timeline di sviluppo, garantendo al contempo il corretto funzionamento delle altre funzionalità dopo la separazione. Utilizzando questo framework, abbiamo curato 200 compiti di valutazione impegnativi e 3825 ambienti eseguibili da 24 repository open-source nella prima versione del nostro benchmark. La valutazione empirica rivela che il modello agentesico all'avanguardia, come Claude 4.5 Opus, che raggiunge un tasso di risoluzione del 74.4% su SWE-bench, riesce solo sull'11.0% dei compiti, aprendo nuove opportunità per far progredire la codifica agentesica. Inoltre, beneficiando del nostro toolkit automatizzato di raccolta compiti, FeatureBench può essere facilmente scalato e aggiornato nel tempo per mitigare la fuga di dati. La verificabilità intrinseca degli ambienti costruiti rende anche il nostro metodo potenzialmente prezioso per l'addestramento degli agenti.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un approccio efficace per potenziare le capacità di ragionamento dei Large Language Model (LLM). Nonostante la sua efficacia, l'RLVR affronta un collo di bottiglia di tipo meta-apprenditivo: manca di meccanismi per l'attribuzione degli errori e l'interiorizzazione dell'esperienza, intrinseci al ciclo di apprendimento umano oltre la pratica e la verifica, limitando così un'assegnazione del credito granulare e la formazione di conoscenza riutilizzabile. Definiamo tali rappresentazioni di conoscenza riutilizzabile, derivate da errori passati, come meta-esperienza. Sulla base di questa intuizione, proponiamo il Meta-Experience Learning (MEL), un framework innovativo che incorpora meta-esperienza auto-distillata nella memoria parametrica del modello. Estendendo l'RLVR standard, introduciamo un design aggiuntivo che sfrutta la capacità di auto-verifica dell'LLM per condurre un'analisi contrastiva su traiettorie corrette ed errate accoppiate, identificare i precisi punti di biforcazione in cui insorgono gli errori di ragionamento e sintetizzarli in meta-esperienza generalizzabile. La meta-esperienza viene ulteriormente interiorizzata nella memoria parametrica dell'LLM minimizzando la log-verosimiglianza negativa, il che induce un segnale di ricompensa modellato linguisticamente che collega le traiettorie di ragionamento corrette ed errate e facilita un efficace riutilizzo della conoscenza. I risultati sperimentali dimostrano che MEL raggiunge miglioramenti consistenti sui benchmark, ottenendo guadagni del 3,92%–4,73% in Pass@1 attraverso diverse dimensioni del modello.
Nell'attuale panorama dei Large Language Model (LLM), la selezione di dati di addestramento su larga scala e di alta qualità è un fattore primario per le prestazioni del modello. Un elemento chiave è la "ricetta dei dati", che comprende una pipeline di elaborazione per trasformare le fonti grezze in corpora di addestramento. Nonostante l'uso crescente di LLM per automatizzare singoli passaggi di elaborazione, come la sintesi e il filtraggio dei dati, la progettazione complessiva delle ricette di dati rimane in gran parte manuale e onerosa, richiedendo notevole competenza umana e iterazioni. Per colmare questa lacuna, formuliamo la generazione end-to-end di ricette di dati per l'adattamento degli LLM. Dato un benchmark target e un insieme di fonti dati disponibili, un modello deve produrre una ricetta completa che adatti un LLM di base al compito specifico. Presentiamo DataChef-32B, che esegue reinforcement learning online utilizzando una ricompensa proxy che predice le prestazioni finali per le ricette candidate. In sei task indipendenti, DataChef-32B produce ricette pratiche che raggiungono prestazioni paragonabili a quelle curate da esperti umani. In particolare, la ricetta di DataChef-32B adatta Qwen3-1.7B-Base al dominio matematico, raggiungendo 66.7 su AIME'25 e superando Qwen3-1.7B. Questo lavoro getta nuova luce sull'automazione dell'addestramento degli LLM e sullo sviluppo di sistemi di IA auto-evolventi.
Presentiamo ROCKET, un metodo di compressione di modelli senza fase di addestramento che raggiunge prestazioni allo stato dell'arte rispetto ai baseline di fattorizzazione, sparsificazione strutturata e compressione dinamica. Operando con un budget di compressione globale, ROCKET comprende due innovazioni chiave: in primo luogo, formula l'allocazione della compressione a livello di layer come un problema dello zaino a scelte multiple, selezionando il livello di compressione ottimale per ogni layer per minimizzare l'errore di ricostruzione totale rispettando una dimensione target del modello. In secondo luogo, introduce una fattorizzazione di matrici sparse in un singolo passo, ispirata dall'apprendimento di dizionari: utilizzando solo un piccolo set di calibrazione, sparsifica i coefficienti di peso basandosi sulla sensibilità attivazioni-pesi e poi aggiorna il dizionario in forma chiusa tramite minimi quadrati, bypassando completamente l'ottimizzazione iterativa, la codifica sparsa o la retropropagazione. ROCKET supera costantemente gli approcci di compressione esistenti su diverse architetture di modello con tassi di compressione del 20-50%. Notevolmente, mantiene oltre il 90% delle prestazioni del modello originale al 30% di compressione senza alcuna messa a punto. Inoltre, applicando una leggera fase di messa a punto, il recupero è sostanzialmente migliorato: ad esempio, comprimendo Qwen3-14B in un modello da 8 miliardi di parametri e "guarendolo" con soli 30 milioni di token si ottengono prestazioni quasi pari al Qwen3-8B originale. Il codice per ROCKET è disponibile su github.com/mts-ai/ROCKET/tree/main.
L'apprendimento per rinforzo per i grandi modelli linguistici soffre di rapporti di importance sampling (IS) a livello di token ad alta varianza, che destabilizzerebbero l'ottimizzazione della politica su larga scala. Per migliorare la stabilità, i metodi recenti tipicamente utilizzano un rapporto IS fisso a livello di sequenza per tutti i token in una sequenza o aggiustano separatamente il rapporto IS di ciascun token, trascurando così la derivazione off-policy temporale tra i token in una sequenza. In questo articolo, identifichiamo empiricamente che la deviazione off-policy locale è strutturalmente inconsistente a livello di token, il che può distorcere gli aggiornamenti del policy-gradient tra token adiacenti e portare al collasso dell'addestramento. Per affrontare il problema, proponiamo Online Causal Kalman Filtering for stable and effective Policy Optimization (KPO). Nello specifico, modelliamo il rapporto IS desiderato come uno stato latente che evolve attraverso i token e applichiamo un filtro di Kalman per aggiornare online e autoregressivamente questo stato basandosi sugli stati dei token passati, indipendentemente dai token futuri. I rapporti IS filtrati risultanti preservano una variazione locale consapevole della struttura a livello di token, smussando fortemente i picchi di rumore, producendo così aggiornamenti della politica più stabili ed efficaci. Sperimentalmente, KPO ottiene risultati superiori su dataset impegnativi di ragionamento matematico rispetto alle controparti allo stato dell'arte.
I Transformer ad anello sono emersi come una classe efficiente e potente di modelli per il ragionamento nel dominio linguistico. Studi recenti dimostrano che questi modelli raggiungono prestazioni solide in compiti algoritmici e di ragionamento, suggerendo che le architetture ad anello possiedono un bias induttivo verso il ragionamento latente. Tuttavia, gli approcci precedenti fissano il numero di iterazioni del ciclo durante l'addestramento e l'inferenza, lasciando aperta la questione se questi modelli possano adattare flessibilmente la propria profondità computazionale con budget di calcolo variabili. Introduciamo LoopFormer, un Transformer ad anello addestrato su traiettorie a lunghezza variabile per abilitare un ragionamento condizionato dal budget. Il nostro contributo principale è uno schema di addestramento a consistenza di scorciatoia che allinea traiettorie di diversa lunghezza, garantendo che cicli più corti producano rappresentazioni informative mentre cicli più lunghi continuano a raffinarle. LoopFormer condiziona ogni anello sul tempo corrente e sulla dimensione del passo, permettendo alle rappresentazioni di evolversi in modo coerente attraverso traiettorie di lunghezza variabile invece di divergere o stagnare. Empiricamente, LoopFormer dimostra prestazioni robuste nei benchmark di modellazione linguistica e di ragionamento anche sotto vincoli computazionali aggressivi, scalando con gradualità con budget aggiuntivi. Questi risultati mostrano che i Transformer ad anello sono intrinsecamente adatti per la modellazione linguistica adattiva, aprendo una strada verso grandi modelli linguistici controllabili e consapevoli del budget.
Nonostante i rapidi progressi negli agenti di programmazione, i progressi per le loro controparti multimodali sono rimasti indietro. Una sfida chiave è la scarsità di banchi di prova per la valutazione che combinino la complessità dello sviluppo software con la necessità di una profonda comprensione multimodale. Lo sviluppo di videogiochi fornisce un tale banco di prova, poiché gli agenti devono navigare in codebase ampie e dense manipolando al contempo asset intrinsecamente multimodali come shader, sprite e animazioni all'interno di una scena di gioco visiva. Presentiamo GameDevBench, il primo benchmark per valutare gli agenti su compiti di sviluppo di giochi. GameDevBench è composto da 132 task derivati da tutorial web e video. I compiti richiedono una significativa comprensione multimodale e sono complessi: la soluzione media richiede oltre tre volte il numero di righe di codice e modifiche ai file rispetto ai precedenti benchmark di sviluppo software. Gli agenti hanno ancora difficoltà con lo sviluppo di giochi, con il miglior agente in grado di risolvere solo il 54,5% dei task. Troviamo una forte correlazione tra la difficoltà percepita del compito e la complessità multimodale, con i tassi di successo che scendono dal 46,9% sui task orientati al gameplay al 31,6% sui task di grafica 2D. Per migliorare le capacità multimodali, introduciamo due semplici meccanismi di feedback basati su immagini e video per gli agenti. Nonostante la loro semplicità, questi metodi migliorano costantemente le prestazioni, con il cambiamento più significativo che è un aumento delle prestazioni di Claude Sonnet 4.5 dal 33,3% al 47,7%. Rilasciamo pubblicamente GameDevBench per supportare ulteriori ricerche sullo sviluppo di giochi tramite agenti autonomi.
L'addestramento supervisionato per messa a punto (SFT) su dati a catena di pensiero è un passaggio essenziale post-addestramento per i modelli linguistici di ragionamento. L'intuizione standard dell'apprendimento automatico suggerisce che addestrare con un maggior numero di campioni di addestramento unici produca una migliore generalizzazione. Controintuitivamente, dimostriamo che l'SFT trae beneficio dalla ripetizione: con un budget di aggiornamento fisso, addestrare per più epoche su dataset più piccoli supera le prestazioni dell'addestramento a epoca singola su dataset più grandi. Sui benchmark AIME'24/25 e GPQA, Olmo3-7B addestrato per 128 epoche su 400 campioni supera di 12-26 punti percentuali l'equivalente addestramento a 1 epoca su 51200 campioni, senza ulteriore oblio catastrofico. Troviamo che l'accuratezza sui token di addestramento segnala in modo affidabile quando la ripetizione ha raggiunto la saturazione; i miglioramenti derivanti da epoche aggiuntive si stabilizzano alla memorizzazione completa, uno schema coerente in tutte le impostazioni. Questi risultati forniscono un approccio pratico per l'SFT di ragionamento, in cui scalare le epoche usando l'accuratezza sui token come criterio di arresto può sostituire la costosa scalata dei dati non diretta. Proponiamo il vantaggio della ripetizione, in cui la piena memorizzazione coincide con una generalizzazione migliorata, come un nuovo problema aperto per la comunità scientifica per comprendere le dinamiche di addestramento dei grandi modelli linguistici.
Il Group Relative Policy Optimization (GRPO) assegna un unico vantaggio scalare a tutti i token in un completamento. Per generazioni strutturate con segmenti e obiettivi espliciti, questo accoppia segnali di ricompensa non correlati tra i segmenti, portando a interferenze tra obiettivi e attribuzione errata del merito. Proponiamo la Blockwise Advantage Estimation, una famiglia di metodi compatibili con GRPO che assegna a ciascun obiettivo il proprio vantaggio e lo applica solo ai token nel corrispondente blocco di testo, riducendo la dipendenza da ricompense scalari progettate manualmente e scalando naturalmente verso obiettivi aggiuntivi. Una sfida chiave è stimare i vantaggi per i blocchi successivi, le cui ricompense sono condizionate da prefissi campionati; gli approcci standard non distorti richiedono costosi rollout annidati da stati intermedi. Nello specifico, introduciamo un Outcome-Conditioned Baseline che approssima i valori degli stati intermedi utilizzando solo statistiche intra-gruppo, stratificando i campioni in base a un risultato intermedio derivato dal prefisso. Su compiti matematici con stima dell'incertezza, il nostro metodo mitiga l'interferenza delle ricompense, è competitivo con un approccio all'avanguardia basato su ricompense progettate e preserva i guadagni al test time derivanti dall'ensembling pesato per confidenza. Più in generale, fornisce una ricetta modulare per ottimizzare obiettivi sequenziali in generazioni strutturate senza rollout aggiuntivi.
Nel mondo di Harry Potter, quando la mente di Silente è sovraccarica, estrae i ricordi in un Pensatoio per riesaminarli successivamente. Nel mondo dell'IA, sebbene possediamo l'equivalente del Pensatoio - database maturi e sistemi di retrieval - i nostri modelli mancano inspiegabilmente della "bacchetta" per utilizzarlo. Rimangono come un Silente privo di agency, accettando passivamente un contesto ingegnerizzato manualmente come unica memoria. Questo lavoro finalmente consegna la bacchetta al modello. Introduciamo StateLM, una nuova classe di modelli di fondazione dotati di un loop di ragionamento interno per gestire il proprio stato. Dotiamo il nostro modello di una suite di strumenti mnemonici, come potatura del contesto, indicizzazione di documenti e annotazioni, e lo addestriamo a gestire attivamente questi strumenti. Imparando a ingegnerizzare dinamicamente il proprio contesto, il nostro modello si libera dalla prigione architetturale della finestra fissa. Esperimenti su varie dimensioni di modello dimostrano l'efficacia di StateLM in scenari diversificati. Su task di QA per documenti lunghi, gli StateLM superano costantemente gli LLM standard a tutte le scale; sul task di memoria conversazionale, ottengono miglioramenti assoluti di accuratezza del 10-20% rispetto agli LLM standard. Sul task di ricerca approfondita BrowseComp-Plus, il divario prestazionale diventa ancora più marcato: StateLM raggiunge fino al 52% di accuratezza, mentre le controparti LLM standard si attestano intorno al 5%. In definitiva, il nostro approccio trasforma gli LLM da predittori passivi ad agenti state-aware, dove il ragionamento diventa un processo stateful e gestibile.
L'implementazione di Large Language Model (LLM) in contesti clinici ad alto rischio richiede una valutazione rigorosa e affidabile. Tuttavia, i benchmark medici esistenti rimangono statici e soffrono di due limitazioni critiche: (1) la contaminazione dei dati, in cui i set di test vengono involontariamente inclusi nei corpora di addestramento, portando a stime di performance inflazionate; e (2) il disallineamento temporale, che non riesce a cogliere la rapida evoluzione delle conoscenze mediche. Inoltre, le metriche di valutazione attuali per il ragionamento clinico a risposta aperta si basano spesso su una superficiale sovrapposizione lessicale (ad es., ROUGE) o su punteggi soggettivi forniti da un LLM come giudice (LLM-as-a-Judge), entrambi inadeguati per verificare la correttezza clinica. Per colmare queste lacune, presentiamo LiveMedBench, un benchmark continuamente aggiornato, privo di contaminazione e basato su rubriche, che raccoglie settimanalmente casi clinici reali da comunità mediche online, garantendo una rigorosa separazione temporale dai dati di addestramento del modello. Proponiamo un Multi-Agent Clinical Curation Framework che filtra il rumore dei dati grezzi e convalida l'integrità clinica rispetto a principi medici basati sull'evidenza. Per la valutazione, sviluppiamo un Automated Rubric-based Evaluation Framework che scompone le risposte dei medici in criteri granulari e specifici per caso, raggiungendo un allineamento sostanzialmente più forte con i medici esperti rispetto al metodo LLM-as-a-Judge. Ad oggi, LiveMedBench comprende 2.756 casi reali che coprono 38 specialità mediche e più lingue, associati a 16.702 criteri di valutazione unici. Una valutazione estensiva di 38 LLM rivela che anche il modello con le migliori performance raggiunge solo il 39,2%, e l'84% dei modelli mostra un degrado delle performance su casi successivi al cutoff, confermando pervasivi rischi di contaminazione dei dati. L'analisi degli errori identifica inoltre l'applicazione contestuale – non la conoscenza fattuale – come il collo di bottiglia dominante, con il 35-48% degli errori derivanti dall'incapacità di adattare le conoscenze mediche ai vincoli specifici del paziente.
L’apprendimento per rinforzo (RL) è una fase critica nel post-training di grandi modelli linguistici (LLM), che coinvolge l’interazione ripetuta tra generazione di rollout, valutazione della ricompensa e apprendimento centralizzato. Distribuire l’esecuzione dei rollout offre l’opportunità di sfruttare risorse di inferenza più economiche, ma introduce sfide nella coordinazione geograficamente distribuita e nella disseminazione della politica. Presentiamo ECHO-2, un framework RL distribuito per il post-training con worker di inferenza remoti e latenza di disseminazione non trascurabile. ECHO-2 combina un apprendimento centralizzato con rollout distribuiti e tratta la obsolescenza limitata della politica come un parametro controllabile dall’utente, permettendo alla generazione dei rollout, alla loro disseminazione e all’addestramento di sovrapporsi. Introduciamo un modello di capacità basato sulla sovrapposizione che mette in relazione tempo di addestramento, latenza di disseminazione e throughput dei rollout, producendo una regola pratica di provisioning per sostenere l’utilizzo del learner. Per mitigare i colli di bottiglia nella disseminazione e ridurre i costi, ECHO-2 impiega un broadcast pipeline assistito da peer e l’attivazione basata sul costo di worker eterogenei. Esperimenti sul post-training GRPO di modelli da 4B e 8B parametri, in regimi di banda wide-area reali, mostrano che ECHO-2 migliora significativamente l’efficienza dei costi preservando una ricompensa RL comparabile a baseline solide.
I modelli linguistici di grandi dimensioni (LLM) in grado di migliorare continuamente oltre i propri budget di addestramento possono risolvere problemi sempre più difficili adattandosi al momento del test, una proprietà che definiamo estrapolazione. Tuttavia, l'apprendimento per rinforzo (RL) standard opera su distribuzioni di problemi e budget di addestramento fissi, il che limita l'estrapolazione in presenza di uno spostamento della distribuzione al momento del test. Per affrontare questo problema, introduciamo RC, un algoritmo di decodifica iterativa che sostituisce la decodifica autoregressiva standard sia durante l'addestramento che durante l'inferenza. RC sfrutta un'asimmetria tra le capacità di generazione di risposte e di riepilogo degli LLM per costruire catene di ragionamento che migliorano costantemente attraverso le iterazioni. I modelli addestrati a utilizzare RC possono estrapolare e migliorare continuamente su orizzonti di ragionamento più lunghi di oltre un ordine di grandezza rispetto a quelli osservati durante l'addestramento. Empiricamente, l'addestramento di un modello da 4B con RC utilizzando un budget di addestramento di 16k token migliora le prestazioni su HMMT 2025 dal 40% a quasi il 70% con 0,5 milioni di token al momento del test, superando sia modelli di dimensioni comparabili che molti LLM di ragionamento più grandi. Infine, mostriamo anche che i modelli addestrati con RC possono sfruttare più efficacemente gli scaffold esistenti per scalare ulteriormente le prestazioni al momento del test, grazie alle migliori capacità di generazione condizionata al riepilogo apprese durante l'addestramento.
I modelli linguistici multimodali onnicomprensivi (OLLM) mirano a unificare la comprensione e la generazione multimodale, tuttavia l'incorporazione del parlato con l'animazione facciale 3D rimane in gran parte inesplorata nonostante la sua importanza per l'interazione naturale. Una sfida fondamentale deriva dalla discrepanza rappresentativa tra il ragionamento semantico discreto a livello di token negli LLM e le dinamiche temporali dense e granulari richieste per il movimento facciale 3D, il che rende difficile ottimizzare la modellazione diretta con dati limitati. Proponiamo Expressive Omni (Ex-Omni), un framework omni-modale open-source che potenzia gli OLLM con l'animazione facciale 3D accompagnata dal parlato. Ex-Omni riduce la difficoltà di apprendimento disaccoppiando il ragionamento semantico dalla generazione temporale, sfruttando le unità di parlato come impalcatura temporale e un meccanismo unificato di fusione controllata semantica token-as-query (TQGF) per l'iniezione semantica controllata. Introduciamo inoltre InstructEx, un dataset che mira a facilitare il potenziamento degli OLLM con l'animazione facciale 3D accompagnata dal parlato. Esperimenti estensivi dimostrano che Ex-Omni compete efficacemente con gli OLLM open-source esistenti, consentendo al contempo una generazione stabile e allineata di animazioni facciali e parlato.
La pianificazione a lungo termine è ampiamente riconosciuta come una capacità fondamentale degli agenti autonomi basati su LLM; tuttavia, gli attuali framework di valutazione soffrono di essere prevalentemente episodici, specifici per dominio o insufficientemente ancorati a dinamiche economiche persistenti. Introduciamo EcoGym, un benchmark generalizzabile per il processo decisionale continuo di pianificazione ed esecuzione in economie interattive. EcoGym comprende tre ambienti diversi: Vending, Freelance e Operation, implementati in un processo decisionale unificato con interfacce standardizzate e azioni budgetate su un orizzonte effettivamente illimitato (oltre 1000 passi, equivalenti a cicli di 365 giorni per la valutazione). La valutazione di EcoGym si basa su risultati rilevanti per il business (ad esempio, patrimonio netto, reddito e utenti attivi giornalieri - DAU), mirando alla coerenza strategica a lungo termine e alla robustezza in condizioni di osservabilità parziale e stocasticità. Esperimenti condotti su undici LLM leader di mercato rivelano una tensione sistematica: nessun singolo modello domina in tutti e tre gli scenari. In modo critico, abbiamo riscontrato che i modelli mostrano una significativa sub-ottimalità sia nelle strategie di alto livello che nell'esecuzione efficiente delle azioni. EcoGym viene rilasciato come un ambiente di test aperto ed estensibile per una valutazione trasparente degli agenti a lungo termine e per studiare i compromessi tra controllabilità e utilità in contesti economici realistici.
La codifica agentiva richiede che gli agenti interagiscano efficacemente con ambienti di runtime, ad esempio interfacce a riga di comando (CLI), per completare attività come la risoluzione di problemi di dipendenza, la correzione di problemi di sistema, ecc. Tuttavia, rimane poco esplorato come ottenere su larga scala tali compiti ad alta intensità ambientale per potenziare le capacità degli agenti. Per affrontare ciò, basandoci su un'analogia tra il Dockerfile e il compito agentivo, proponiamo di impiegare agenti per simulare ed esplorare le cronologie degli ambienti, guidati dal feedback di esecuzione. Tracciando le cronologie di un ambiente integro, il suo stato può essere invertito a uno precedente con errori di runtime, da cui è possibile derivare un compito impacchettando lo stato difettoso e i relativi messaggi di errore. Con il nostro metodo, denominato CLI-Gym, sono stati derivati un totale di 1.655 compiti ad alta intensità ambientale, rappresentando la più vasta collezione del suo genere. Inoltre, con traiettorie di successo curate, il nostro modello fine-tuned, chiamato LiberCoder, raggiunge miglioramenti assoluti sostanziali di +21,1% (portandosi al 46,1%) su Terminal-Bench, superando varie baseline solide. A nostra conoscenza, questa è la prima pipeline pubblica per la derivazione scalabile di compiti ad alta intensità ambientale.
Gli asset 3D riggati sono fondamentali per la deformazione e l'animazione 3D. Tuttavia, i metodi di generazione 3D esistenti affrontano sfide nella generazione di geometrie animabili, mentre le tecniche di rigging mancano di un controllo strutturale granulare sulla creazione dello scheletro. Per affrontare queste limitazioni, introduciamo Stroke3D, un framework innovativo che genera direttamente mesh riggati a partire da input utente: tratti disegnati in 2D e un prompt testuale descrittivo. Il nostro approccio pionieristico utilizza una pipeline a due stadi che separa la generazione in: 1) Generazione Controllabile dello Scheletro, dove impieghiamo il Skeletal Graph VAE (Sk-VAE) per codificare la struttura a grafo dello scheletro in uno spazio latente, in cui il Skeletal Graph DiT (Sk-DiT) genera un embedding scheletrico. Il processo di generazione è condizionato sia dal testo per la semantica che dai tratti 2D per il controllo strutturale esplicito, con il decoder del VAE che ricostruisce lo scheletro 3D finale di alta qualità; e 2) Sintesi Potenziata della Mesh tramite TextuRig e SKA-DPO, dove sintetizziamo una mesh texturizzata condizionata dallo scheletro generato. In questa fase, potenziamo prima un modello esistente di generazione mesh-da-scheletro arricchendo i suoi dati di addestramento con TextuRig: un dataset di mesh texturizzati e riggati con didascalie, curato a partire da Objaverse-XL. Inoltre, impieghiamo una strategia di ottimizzazione delle preferenze, SKA-DPO, guidata da un punteggio di allineamento scheletro-mesh, per migliorare ulteriormente la fedeltà geometrica. Insieme, il nostro framework abilita un workflow più intuitivo per creare contenuti 3D pronti per l'animazione. Per quanto a nostra conoscenza, il nostro lavoro è il primo a generare mesh 3D riggati condizionati da tratti 2D disegnati dall'utente. Esperimenti estensivi dimostrano che Stroke3D produce scheletri plausibili e mesh di alta qualità.
Con l'aumento dell'impiego dei Large Language Model (LLM) nelle applicazioni in lingua polacca, la necessità di classificatori di sicurezza dei contenuti efficienti e accurati è diventata fondamentale. Presentiamo Bielik Guard, una famiglia di classificatori di sicurezza compatti per la lingua polacca che comprende due varianti di modello: un modello da 0,1 miliardi di parametri basato su MMLW-RoBERTa-base e un modello da 0,5 miliardi di parametri basato su PKOBP/polish-roberta-8k. Addestrati su un dataset annotato dalla comunità di 6.885 testi polacchi, questi modelli classificano i contenuti in cinque categorie di sicurezza: Odio/Aggressione, Volgarità, Contenuto Sessuale, Criminalità e Autolesionismo. La nostra valutazione dimostra che entrambi i modelli raggiungono prestazioni solide su molteplici benchmark. La variante da 0,5B offre la migliore capacità discriminativa complessiva con punteggi F1 di 0,791 (micro) e 0,785 (macro) sul set di test, mentre la variante da 0,1B dimostra un'efficienza eccezionale. È degno di nota che Bielik Guard 0.1B v1.1 raggiunga una precisione superiore (77,65%) e un tasso di falsi positivi molto basso (0,63%) su prompt di utenti reali, superando HerBERT-PL-Guard (31,55% di precisione, 4,70% FPR) nonostante la dimensione identica del modello. I modelli sono disponibili pubblicamente e progettati per fornire risposte appropriate piuttosto che un semplice blocco dei contenuti, in particolare per categorie sensibili come l'autolesionismo.
L'Elaborazione delle Query (QP) funge da ponte tra l'intento dell'utente e l'offerta di contenuti nei motori di ricerca su larga scala per i Servizi di Social Network (SNS). I sistemi QP tradizionali si basano su pipeline di modelli discriminativi isolati (ad es. BERT), soffrendo di una comprensione semantica limitata e di un elevato sovraccarico di manutenzione. Sebbene i Large Language Model (LLM) offrano una potenziale soluzione, gli approcci esistenti spesso ottimizzano i sotto-task in modo isolato, trascurando la sinergia semantica intrinseca e rendendo necessarie iterazioni indipendenti. Inoltre, i metodi generativi standard spesso mancano di un ancoraggio agli scenari SNS, non riuscendo a colmare il divario tra i corpora a dominio aperto e i pattern linguistici informali dei SNS, e faticano ad aderire a rigorose definizioni di business. Presentiamo QP-OneModel, un LLM Generativo Unificato per la Comprensione Multi-Task delle Query nel dominio SNS. Riformuliamo sotto-task eterogenei in un paradigma unificato di generazione di sequenze, adottando una strategia di allineamento progressivo in tre fasi che culmina in un Reinforcement Learning multi-ricompensa. Inoltre, QP-OneModel genera descrizioni dell'intento come un nuovo segnale semantico ad alta fedeltà, aumentando efficacemente task a valle come la riscrittura e il ranking delle query. Valutazioni offline mostrano che QP-OneModel ottiene un miglioramento complessivo del 7,35% rispetto ai baseline discriminativi, con significativi incrementi F1 nel Riconoscimento di Entità Nominate (NER, +9,01%) e nella Pesatura dei Termini (Term Weighting, +9,31%). Mostra anche una generalizzazione superiore, superando un modello da 32B per accuratezza del 7,60% su task non visti. Pienamente implementato su Xiaohongshu, test A/B online ne confermano il valore industriale, ottimizzando la rilevanza del recupero (DCG) dello 0,21% e aumentando la fidelizzazione degli utenti dello 0,044%.
I recenti progressi nei grandi modelli di editing di immagini hanno spostato il paradigma dalle istruzioni basate su testo all'editing tramite prompt visivi, dove l'intento dell'utente viene dedotto direttamente da input visivi come segni, frecce e prompt visivo-testuali. Sebbene questo paradigma espanda notevolmente la usabilità, introduce anche un rischio critico e poco esplorato per la sicurezza: la superficie di attacco diventa essa stessa visiva. In questo lavoro, proponiamo Vision-Centric Jailbreak Attack (VJA), il primo attacco jailbreak visivo-visivo che veicola istruzioni malevole esclusivamente tramite input visivi. Per studiare sistematicamente questa minaccia emergente, introduciamo IESBench, un benchmark orientato alla sicurezza per modelli di editing di immagini. Esperimenti estensivi su IESBench dimostrano che VJA compromette efficacemente modelli commerciali all'avanguardia, raggiungendo tassi di successo dell'attacco fino all'80,9% su Nano Banana Pro e al 70,1% su GPT-Image-1.5. Per mitigare questa vulnerabilità, proponiamo una difesa senza addestramento basata sul ragionamento multimodale introspettivo, che migliora sostanzialmente la sicurezza di modelli con allineamento insufficiente fino a un livello paragonabile ai sistemi commerciali, senza modelli guardia ausiliari e con un overhead computazionale trascurabile. I nostri risultati espongono nuove vulnerabilità, fornendo sia un benchmark che una difesa pratica per far progredire sistemi moderni di editing di immagini sicuri e affidabili. Avvertenza: Questo articolo contiene immagini offensive create da grandi modelli di editing di immagini.
I Knowledge Graph (KG) memorizzano conoscenza fattuale strutturata collegando entità attraverso relazioni, risultando cruciali per molte applicazioni. Queste applicazioni dipendono dall'accuratezza fattuale del KG, rendendo la verifica dei fatti essenziale, sebbene impegnativa. La verifica manuale da parte di esperti è l'ideale ma risulta impraticabile su larga scala. I metodi automatizzati sono promettenti ma non ancora pronti per KG del mondo reale. I Large Language Model (LLM) offrono un potenziale grazie alla loro comprensione semantica e accesso alla conoscenza, tuttavia la loro idoneità ed efficacia per la validazione di fatti nei KG rimangono in gran parte inesplorate. In questo articolo presentiamo FactCheck, un benchmark progettato per valutare gli LLM per la validazione di fatti nei KG lungo tre dimensioni chiave: (1) la conoscenza interna degli LLM; (2) l'evidenza esterna tramite Retrieval-Augmented Generation (RAG); e (3) la conoscenza aggregata che impiega una strategia di consenso multi-modello. Abbiamo valutato LLM open-source e commerciali su tre KG reali e diversi. FactCheck include anche un dataset RAG con oltre 2 milioni di documenti specificamente creato per la validazione di fatti nei KG. Inoltre, forniamo una piattaforma di esplorazione interattiva per analizzare le decisioni di verifica. Le analisi sperimentali dimostrano che, sebbene gli LLM producano risultati promettenti, non sono ancora sufficientemente stabili e affidabili per essere utilizzati in scenari reali di validazione di KG. L'integrazione di evidenze esterne attraverso metodi RAG produce prestazioni fluttuanti, fornendo miglioramenti inconsistenti rispetto ad approcci più semplici – a costi computazionali più elevati. Allo stesso modo, le strategie basate sul consenso multi-modello non superano in modo consistente i modelli individuali, sottolineando la mancanza di una soluzione universale. Questi risultati enfatizzano ulteriormente la necessità di un benchmark come FactCheck per valutare sistematicamente e guidare il progresso in questo compito difficile ma cruciale.
Mentre l’esplicita Catena del Ragionamento (CoT) fornisce ai Large Language Model (LLM) solide capacità di ragionamento, essa richiede che i modelli verbalizzino ogni passaggio intermedio in token testuali, vincolando i pensieri del modello allo spazio discreto del vocabolario. Recentemente, il ragionamento in spazi latenti continui è emerso come una promettente alternativa, consentendo un’inferenza più robusta e un calcolo flessibile al di là dei vincoli dei token discreti. Tuttavia, gli attuali paradigmi latenti soffrono spesso di collasso delle caratteristiche e instabilità, derivanti da disallineamenti distributivi quando si utilizzano ricorsivamente stati nascosti come embedding di input, o da problemi di allineamento quando si fa affidamento su modelli assistenti. Per affrontare ciò, proponiamo Latent Thoughts Tuning (LT-Tuning), un framework che ridefinisce la costruzione e l’impiego dei pensieri latenti. Invece di basarsi esclusivamente su stati nascosti grezzi, il nostro metodo introduce un meccanismo di Fusione Contesto-Previsione che sfrutta congiuntamente stati nascosti contestuali e una guida semantica predittiva dallo spazio di embedding del vocabolario. Combinato con una pipeline di apprendimento curriculare progressiva in tre fasi, LT-Tuning consente anche di passare dinamicamente tra modalità di pensiero latente ed esplicito. Gli esperimenti dimostrano che il nostro metodo supera le baseline esistenti di ragionamento latente, mitigando efficacemente il collasso delle caratteristiche e raggiungendo una robusta accuratezza di ragionamento.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha recentemente potenziato il ragionamento dei LLM, ma la sua focalizzazione sulla correttezza della risposta finale lascia un divario critico: non garantisce la robustezza del processo di ragionamento stesso. Adottiamo una semplice visione filosofica: un ragionamento robusto dovrebbe rimanere utile al di là della mente che lo ha prodotto, e trattiamo il ragionamento come una forma di trasferimento di significato che deve resistere a troncamento, reinterpretazione e continuazione. Basandoci su questo principio, introduciamo il Reinforcement Learning con Ricompensa Trasferibile (RLTR), che concretizza la robustezza attraverso una ricompensa di trasferimento che verifica se un prefisso di ragionamento parziale da un modello possa guidare un modello separato verso la risposta corretta. Ciò incoraggia i LLM a produrre ragionamenti stabili, interpretabili e genuinamente generalizzabili. Il nostro approccio migliora la coerenza del campionamento pur migliorando l'accuratezza della risposta finale, e raggiunge prestazioni comparabili in un numero sostanzialmente inferiore di passi di addestramento. Ad esempio, su MATH500, RLTR ottiene un guadagno di +3.6%p in Maj@64 rispetto a RLVR e raggiunge la stessa accuratezza media di RLVR con circa 2.5 volte meno passi di addestramento, fornendo sia un ragionamento più affidabile che una significativamente maggiore efficienza campionaria.
I modelli di ragionamento potenziano la risoluzione di problemi scalando il compute al tempo di test, ma affrontano un paradosso critico: token di pensiero eccessivi spesso degradano le prestazioni anziché migliorarle. Attribuiamo ciò a un difetto architetturale fondamentale: i modelli linguistici standard operano come motori "solo-malloc", accumulando continuamente sia passaggi validi che ridondanti senza un meccanismo per potare le informazioni obsolete. Per rompere questo ciclo, proponiamo Free()LM, un modello che introduce una capacità intrinseca di auto-dimenticanza tramite il Free-Module, un adattatore LoRA plug-and-play. Alternando iterativamente tra modalità di ragionamento e pulizia, Free()LM identifica e rimuove dinamicamente frammenti di contesto inutili, mantenendo uno stato compatto e privo di rumore. Esperimenti estensivi dimostrano che Free()LM fornisce miglioramenti consistenti su tutte le scale di modello (da 8B a 685B). Raggiunge un miglioramento medio del 3.3% rispetto ai migliori baseline di ragionamento, stabilendo persino un nuovo stato dell'arte su IMOanswerBench utilizzando DeepSeek V3.2-Speciale. Soprattutto, in compiti a lungo termine dove il modello standard Qwen3-235B-A22B subisce un collasso totale (0% di accuratezza), Free()LM ripristina le prestazioni al 50%. I nostri risultati suggeriscono che un'intelligenza sostenibile richiede la libertà di dimenticare tanto quanto il potere di pensare.
Gli agenti basati su grandi modelli linguistici (LLM) sono sempre più chiamati a negoziare, coordinare e transagire autonomamente, tuttavia i benchmark esistenti mancano di ambienti strutturati per valutare l'interazione economica mediata dal linguaggio tra più agenti. Introduciamo AgenticPay, un benchmark e framework di simulazione per la negoziazione multi-agente acquirente-venditore guidata dal linguaggio naturale. AgenticPay modella mercati in cui acquirenti e venditori possiedono vincoli privati e valutazioni dipendenti dal prodotto, e devono raggiungere accordi attraverso una negoziazione linguistica multi-round piuttosto che tramite sole offerte numeriche. Il framework supporta un'ampia gamma di oltre 110 task che spaziano dalla contrattazione bilaterale a mercati many-to-many, con estrazione strutturata delle azioni e metriche di fattibilità, efficienza e benessere sociale. Il benchmarking di LLM proprietari e open-weight all'avanguardia rivela lacune sostanziali nelle performance negoziali ed evidenzia sfide nel ragionamento strategico a lungo termine, stabilendo AgenticPay come base per lo studio del commercio agentivo e dell'interazione di mercato basata sul linguaggio. Codice e dataset sono disponibili al link: https://github.com/SafeRL-Lab/AgenticPay.
I modelli linguistici di grandi dimensioni (LLM) agenti di codice risolvono sempre più problemi a livello di repository modificando iterativamente il codice, invocando strumenti e convalidando patch candidate. In questi flussi di lavoro, gli agenti spesso scrivono test al volo, un paradigma adottato da molti agenti di alto rango nella classifica SWE-bench. Tuttavia, osserviamo che GPT-5.2, che scrive quasi nessun nuovo test, può persino raggiungere prestazioni paragonabili agli agenti di primo rango. Ciò solleva la questione cruciale: se tali test migliorino significativamente la risoluzione dei problemi o si limitino a imitare le pratiche di testing umano consumando un budget di interazione sostanziale. Per rivelare l'impatto dei test scritti dagli agenti, presentiamo uno studio empirico che analizza le traiettorie degli agenti su sei LLM all'avanguardia su SWE-bench Verified. I nostri risultati mostrano che, sebbene la scrittura di test sia comunemente adottata, i task risolti e non risolti all'interno dello stesso modello mostrano frequenze simili di scrittura di test. Inoltre, questi test servono tipicamente come canali di feedback osservazionale, dove gli agenti preferiscono in modo significativo istruzioni di stampa che rivelano valori rispetto a controlli formali basati su asserzioni. Sulla base di queste intuizioni, conduciamo un esperimento controllato revisionando i prompt di quattro agenti per aumentare o ridurre la scrittura di test. I risultati suggeriscono che cambiamenti nel volume dei test scritti dagli agenti non alterano significativamente gli esiti finali. Nel complesso, il nostro studio rivela che le attuali pratiche di scrittura di test potrebbero fornire un'utilità marginale nei compiti di ingegneria del software autonomi.
I grandi modelli linguistici (LLM) sono sempre più utilizzati per la generazione di codice in flussi di lavoro di sviluppo rapidi e informali, spesso definiti "vibe coding", dove velocità e convenienza sono prioritarie e i requisiti di sicurezza raramente vengono esplicitati. In questo contesto, i modelli producono frequentemente codice funzionalmente corretto ma insicuro, creando un rischio per la sicurezza in crescita. Gli approcci esistenti per migliorare la sicurezza del codice si basano su fine-tuning completo dei parametri o adattamenti efficienti in termini di parametri, che sono o costosi e inclini all'oblio catastrofico, o operano con una granularità grossolana con limitata interpretabilità e controllo. Presentiamo GoodVibe, un framework a livello di neurone per migliorare la sicurezza dei modelli linguistici per il codice di default. GoodVibe si basa sull'intuizione chiave che il ragionamento relativo alla sicurezza è localizzato in un piccolo sottoinsieme di neuroni. Identifichiamo questi neuroni utilizzando l'attribuzione basata su gradienti da un'attività di sicurezza supervisionata ed eseguiamo un fine-tuning selettivo dei neuroni che aggiorna solo questo sottospazio critico per la sicurezza. Per ridurre ulteriormente il costo dell'addestramento, introduciamo il clustering dei neuroni guidato dall'attivazione, consentendo aggiornamenti strutturati con overhead minimo. Valutiamo GoodVibe su sei LLM in linguaggi di programmazione critici per la sicurezza, tra cui C++, Java, Swift e Go. GoodVibe migliora sostanzialmente la sicurezza del codice generato preservando l'utilità generale del modello, raggiungendo un miglioramento fino a 2,5x rispetto ai modelli base, eguagliando o superando il fine-tuning completo con oltre 4.700x parametri addestrabili in meno e riducendo il calcolo di addestramento di oltre 3,6x rispetto al baseline efficiente in parametri (LoRA). I nostri risultati dimostrano che l'ottimizzazione a livello di neurone offre un approccio efficace e scalabile per proteggere la generazione di codice senza sacrificare efficienza o generalità.
La memoria auto-evolutiva funge da parametro addestrabile per agenti basati su Large Language Model (LLM), dove l'estrazione (distillare insight dall'esperienza) e la gestione (aggiornare il repository di memoria) devono essere strettamente coordinate. I metodi esistenti ottimizzano prevalentemente la gestione della memoria trattando l'estrazione come un processo statico, con conseguente scarsa generalizzazione, in cui gli agenti accumulano rumore specifico per istanza anziché memorie robuste. Per risolvere questo problema, proponiamo UMEM (Unified Memory Extraction and Management), un framework per agenti auto-evolutivi che ottimizza congiuntamente un LLM per estrarre e gestire simultaneamente le memorie. Per mitigare l'overfitting su istanze specifiche, introduciamo il Semantic Neighborhood Modeling e ottimizziamo il modello con una ricompensa di utilità marginale a livello di vicinato mediante GRPO. Questo approccio garantisce la generalizzabilità della memoria valutando l'utilità mnemonica attraverso cluster di query semanticamente correlate. Esperimenti estesi su cinque benchmark dimostrano che UMEM supera significativamente baseline altamente competitive, raggiungendo un miglioramento fino al 10,67% in task interattivi multi-turno. Inoltre, UMEM mantiene una curva di crescita monotona durante l'evoluzione continua. I codici e i modelli saranno rilasciati pubblicamente.
I robot in ambienti dinamici e centrati sull'uomo devono seguire istruzioni linguistiche mantenendo al contempo un controllo reattivo in tempo reale. I modelli visione-linguaggio-azione (VLA) offrono un quadro promettente, ma presuppongono un ragionamento e un controllo temporalmente allineati, nonostante l'inferenza semantica sia intrinsecamente ritardata rispetto all'azione in tempo reale. Introduciamo Think-in-Control (TIC)-VLA, un framework consapevole della latenza che modella esplicitamente il ragionamento semantico ritardato durante la generazione delle azioni. TIC-VLA definisce un'interfaccia semantica-controllo ritardata che condiziona la generazione delle azioni sugli stati semantici visione-linguaggio ritardati e sui metadati espliciti della latenza, oltre che sulle osservazioni correnti, consentendo alle politiche di compensare il ragionamento asincrono. Proponiamo inoltre una pipeline di addestramento consistente con la latenza che inietta ritardi di inferenza del ragionamento durante l'apprendimento per imitazione e l'apprendimento per rinforzo online, allineando l'addestramento con la distribuzione asincrona. Per supportare una valutazione realistica, presentiamo DynaNav, una suite di simulazione fisicamente accurata e fotorealistica per la navigazione guidata dal linguaggio in ambienti dinamici. Esperimenti estensivi in simulazione e su un robot reale mostrano che TIC-VLA supera costantemente i precedenti modelli VLA mantenendo al contempo un robusto controllo in tempo reale sotto latenze di ragionamento di più secondi. Sito web del progetto: https://ucla-mobility.github.io/TIC-VLA/
I modelli di diffusione hanno ottenuto una qualità di generazione notevole, ma soffrono di costi computazionali di inferenza significativi a causa della loro dipendenza da molteplici passaggi di denoising sequenziali, motivando i recenti sforzi per distillare questo processo di inferenza in un regime a pochi passi. Tuttavia, i metodi di distillazione esistenti tipicamente approssimano la traiettoria del *teacher* utilizzando scorciatoie lineari, il che rende difficile adattarsi alle sue direzioni tangenziali in costante cambiamento man mano che le velocità evolvono attraverso i *timestep*, portando così a un degrado della qualità. Per affrontare questa limitazione, proponiamo ArcFlow, un framework di distillazione a pochi passi che impiega esplicitamente traiettorie di flusso non lineari per approssimare le traiettorie pre-addestrate del *teacher*. Nello specifico, ArcFlow parametrizza il campo di velocità sottostante la traiettoria di inferenza come una miscela di processi di *momentum* continui. Ciò consente ad ArcFlow di catturare l'evoluzione della velocità ed estrapolare velocità coerenti per formare una traiettoria non lineare continua all'interno di ogni passo di denoising. È importante sottolineare che questa parametrizzazione ammette un'integrazione analitica di questa traiettoria non lineare, che evita errori di discretizzazione numerica e risulta in un'approssimazione ad alta precisione della traiettoria del *teacher*. Per addestrare questa parametrizzazione in un generatore a pochi passi, implementiamo ArcFlow tramite distillazione della traiettoria su modelli *teacher* pre-addestrati utilizzando *adapter* leggeri. Questa strategia garantisce una convergenza rapida e stabile preservando al contempo la diversità e la qualità generativa. Basato su modelli su larga scala (Qwen-Image-20B e FLUX.1-dev), ArcFlow effettua il *fine-tuning* su meno del 5% dei parametri originali e raggiunge un'accelerazione di 40x con soli 2 NFE rispetto ai *teacher* multi-passo originali senza un significativo degrado della qualità. Esperimenti su benchmark mostrano l'efficacia di ArcFlow sia qualitativamente che quantitativamente.
La rapida adozione delle architetture Mixture-of-Experts (MoE) segna un cambiamento significativo nell'implementazione dei Large Language Model (LLM). I MoE LLM migliorano l'efficienza di scalabilità attivando solo un piccolo sottoinsieme di parametri per token, ma la loro struttura di routing introduce nuove superfici di attacco per la sicurezza. Scopriamo che i comportamenti critici per la sicurezza nei MoE LLM (ad esempio, il rifiuto di rispondere) sono concentrati in un ristretto insieme di esperti, anziché essere distribuiti uniformemente. Sulla base di ciò, proponiamo la Large Language Lobotomy (L^3), un attacco *training-free* e indipendente dall'architettura che compromette l'allineamento di sicurezza sfruttando le dinamiche di routing degli esperti. L^3 apprende gli schemi di routing che correlano con il rifiuto, attribuisce il comportamento di sicurezza a esperti specifici e disattiva in modo adattivo gli esperti più rilevanti per la sicurezza finché non vengono prodotti output dannosi. Valutiamo L^3 su otto MoE LLM open-source all'avanguardia e dimostriamo che la nostra disattivazione adattiva degli esperti aumenta il successo medio dell'attacco dal 7,3% al 70,4%, raggiungendo fino all'86,3%, superando i precedenti metodi di *jailbreak* per MoE senza addestramento. Inoltre, eludere le *guardrail* richiede tipicamente la disattivazione di meno del 20% degli esperti per strato, preservando in larga misura l'utilità linguistica generale. Questi risultati rivelano una tensione fondamentale tra la progettazione dei MoE orientata all'efficienza e un robusto allineamento di sicurezza, e motivano la distribuzione più robusta dei meccanismi di sicurezza nei futuri MoE LLM con metodi consapevoli dell'architettura e del routing.
Il paradigma prevalente nello sviluppo dei Large Language Model (LLM) consiste nel pre-addestrare un modello base, per poi eseguire un ulteriore training per migliorarne le prestazioni e il comportamento. Tuttavia, l'ottimizzazione degli iperparametri e le leggi di scala sono state studiate principalmente dalla prospettiva della loss di validazione del modello base, ignorando l'adattabilità a compiti downstream. In questo lavoro, studiamo il pre-addestramento dalla prospettiva della plasticità del modello, ovvero la sua capacità di adattarsi con successo a compiti downstream attraverso il fine-tuning. Ci concentriamo sul ruolo del *weight decay*, un parametro chiave di regolarizzazione durante il pre-addestramento. Attraverso esperimenti sistematici, dimostriamo che i modelli addestrati con valori di *weight decay* più elevati sono più plastici, il che significa che mostrano maggiori miglioramenti prestazionali quando sottoposti a fine-tuning su compiti downstream. Questo fenomeno può portare a compromessi controintuitivi, per cui modelli base con prestazioni peggiori dopo il pre-addestramento possono performare meglio dopo il fine-tuning. Un'ulteriore investigazione degli effetti meccanicistici del *weight decay* sul comportamento del modello rivela che esso favorisce rappresentazioni linearmente separabili, regolarizza le matrici di attenzione e riduce l'overfitting sui dati di training. In conclusione, questo lavoro dimostra l'importanza di utilizzare metriche di valutazione oltre alla loss di entropia incrociata per l'ottimizzazione degli iperparametri e getta luce sul ruolo multiforme che un singolo iperparametro di ottimizzazione svolge nel modellare il comportamento del modello.
Gli agenti di utilizzo del computer (CUA) hanno compiuto progressi straordinari nell'ultimo anno, tuttavia continuano a produrre frequentemente azioni disallineate che si discostano dall'intento originale dell'utente. Tali azioni disallineate possono originare da attacchi esterni (ad esempio, prompt injection indiretto) o da limitazioni interne (ad esempio, ragionamenti erronei). Esse non solo espongono i CUA a rischi per la sicurezza, ma degradano anche l'efficienza e l'affidabilità delle attività. Questo lavoro rappresenta il primo tentativo di definire e studiare il rilevamento delle azioni disallineate nei CUA, con una copertura completa sia delle azioni disallineate indotte esternamente che di quelle originate internamente. Identifichiamo inoltre tre categorie comuni nella distribuzione reale dei CUA e costruiamo MisActBench, un benchmark di traiettorie realistiche con etichette di allineamento a livello di azione annotate manualmente. Inoltre, proponiamo DeAction, una protezione pratica e universale che rileva le azioni disallineate prima della loro esecuzione e le corregge iterativamente attraverso feedback strutturato. DeAction supera tutte le baseline esistenti nelle valutazioni offline e online con un sovraccarico di latenza moderato: (1) Su MisActBench, supera le baseline di oltre il 15% assoluto nel punteggio F1; (2) Nella valutazione online, riduce il tasso di successo degli attacchi di oltre il 90% in contesti avversativi, preservando o addirittura migliorando il tasso di successo delle attività in ambienti benigni.
Nell'ultimo decennio, l'AI spiegabile si è concentrata principalmente sull'interpretazione delle previsioni individuali dei modelli, producendo spiegazioni post-hoc che mettono in relazione input e output in una struttura decisionale fissa. I recenti progressi nei grandi modelli linguistici (LLM) hanno consentito lo sviluppo di sistemi di AI agentivi, il cui comportamento si dispiega attraverso traiettorie a più fasi. In questi contesti, il successo e il fallimento sono determinati da sequenze di decisioni piuttosto che da un singolo output. Sebbene utili, non è chiaro come gli approcci esplicativi progettati per previsioni statiche si traducano in contesti agentivi in cui il comportamento emerge nel tempo. In questo lavoro, colmiamo il divario tra spiegabilità statica e agentiva confrontando spiegazioni basate sull'attribuzione con diagnosi basate sulla traccia in entrambi gli scenari. Per rendere esplicita questa distinzione, confrontiamo empiricamente le spiegazioni basate sull'attribuzione utilizzate in compiti di classificazione statica con le diagnosi basate sulla traccia utilizzate in benchmark agentivi (TAU-bench Airline e AssistantBench). I nostri risultati mostrano che, sebbene i metodi di attribuzione raggiungano classifiche delle feature stabili in contesti statici (Spearman ρ= 0,86), non possono essere applicati in modo affidabile per diagnosticare guasti a livello esecutivo nelle traiettorie agentive. Al contrario, la valutazione tramite rubriche ancorate alla traccia per contesti agentivi localizza in modo coerente i punti di rottura del comportamento e rivela che l'incoerenza nel tracciamento dello stato è 2,7 volte più prevalente nelle esecuzioni fallite e riduce la probabilità di successo del 49%. Questi risultati motivano un passaggio verso una spiegabilità a livello di traiettoria per i sistemi agentivi quando si valuta e si diagnostica il comportamento autonomo dell'AI. Risorse: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework
Il Federated Learning (FL) consente a più parti di addestrare modelli di machine learning in modo collaborativo senza condividere i dati grezzi. Tuttavia, prima dell'addestramento, i dati devono essere preprocessati per gestire valori mancanti, formati incoerenti e scale eterogenee delle feature. Questa fase di preprocessing è cruciale per le prestazioni del modello, ma è ampiamente trascurata nella ricerca sul FL. Nei sistemi FL pratici, i vincoli sulla privacy impediscono la centralizzazione dei dati grezzi, mentre l'efficienza delle comunicazione introduce ulteriori sfide per il preprocessing distribuito. Introduciamo FedPS, un framework unificato per il preprocessing dei dati federati basato su statistiche aggregate. FedPS sfrutta tecniche di data-sketching per riassumere efficientemente i dataset locali preservando le informazioni statistiche essenziali. Sulla base di questi riepiloghi, progettiamo algoritmi federati per il ridimensionamento delle feature, la codifica, la discretizzazione e l'imputazione dei valori mancanti, ed estendiamo modelli correlati al preprocessing come k-Means, k-Nearest Neighbors e Bayesian Linear Regression sia a impostazioni FL orizzontali che verticali. FedPS fornisce pipeline di preprocessing flessibili, efficienti nelle comunicazioni e consistenti per implementazioni FL pratiche.
La raccomandazione generativa tramite modelli autoregressivi ha unificato la fase di retrieval e quella di ranking in un unico framework di generazione condizionata. Tuttavia, il fine-tuning di questi modelli con l'Apprendimento per Rinforzo (RL) soffre spesso di un fondamentale disallineamento tra probabilità e ricompensa. La decodifica dominata dalla verosimiglianza convenzionale (ad esempio, la beam search) mostra una miopia verso prefissi localmente probabili, causando due fallimenti critici: (1) esplorazione insufficiente, dove item ad alta ricompensa in rami a bassa probabilità vengono potati prematuramente e raramente campionati, e (2) compressione del vantaggio, dove traiettorie che condividono prefissi ad alta probabilità ricevono ricompense altamente correlate con bassa varianza intra-gruppo, producendo un segnale comparativo debole per l'RL. Per affrontare queste sfide, proponiamo V-STAR, un framework di Apprendimento per Rinforzo con Campionamento Guidato dal Valore e Vantaggio ad Albero. V-STAR forma un ciclo auto-evolutivo tramite due componenti sinergiche. In primo luogo, viene sviluppata una Decodifica Efficace Guidata dal Valore (VED) per identificare nodi decisivi e approfondire selettivamente i prefissi ad alto potenziale. Ciò migliora l'efficienza dell'esplorazione senza una ricerca esaustiva ad albero. In secondo luogo, proponiamo Sibling-GRPO, che sfrutta la topologia ad albero indotta per calcolare vantaggi relativi tra nodi fratelli e concentra i segnali di apprendimento sulle decisioni di ramificazione decisive. Esperimenti estesi su dataset offline e online dimostrano che V-STAR supera i baseline state-of-the-art, offrendo un'accuratezza superiore e una maggiore diversità dell'insieme di candidati sotto stringenti vincoli di latenza.
Il problema di schedulazione su macchine parallele non correlate (UPMSP) con date di rilascio, setup e vincoli di idoneità rappresenta una sfida multi-obiettivo significativa. I metodi tradizionali faticano a bilanciare la minimizzazione del Ritardo Ponderato Totale (TWT) e del Tempo di Setup Totale (TST). Questo articolo propone un framework di Apprendimento per Rinforzo Profondo che utilizza l'Ottimizzazione delle Politiche Prossimali (PPO) e una Rete Neurale Grafo (GNN). La GNN rappresenta efficacemente lo stato complesso di lavorazioni, macchine e setup, consentendo all'agente PPO di apprendere una politica di schedulazione diretta. Guidato da una funzione di ricompensa multi-obiettivo, l'agente minimizza simultaneamente TWT e TST. I risultati sperimentali su istanze benchmark dimostrano che il nostro agente PPO-GNN supera significativamente una regola di dispacciamento standard e una meta-euristica, raggiungendo un compromesso superiore tra entrambi gli obiettivi. Ciò fornisce una soluzione robusta e scalabile per la schedulazione manifatturiera complessa.
I rilevatori di testo AI affrontano una sfida critica di robustezza: attacchi parafrasanti avversari che preservano la semantica mentre eludono il rilevamento. Introduciamo StealthRL, un framework di reinforcement learning che stressa la robustezza dei rilevatori in condizioni avversarie realistiche. StealthRL addestra una politica di parafrasi contro un ensemble multi-rilevatore utilizzando Group Relative Policy Optimization (GRPO) con adattatori LoRA su Qwen3-4B, ottimizzando una ricompensa composita che bilancia l'elusione del rilevatore con la preservazione semantica. Valutiamo sei impostazioni di attacco (M0-M5) contro tre famiglie di rilevatori (RoBERTa, FastDetectGPT e Binoculars) al punto operativo rilevante per la sicurezza dell'1% di tasso di falsi positivi. StealthRL raggiunge un rilevamento quasi nullo (TPR medio@1%FPR = 0.001), riduce l'AUROC medio da 0.74 a 0.27 e ottiene un tasso di successo dell'attacco del 99.9%. Criticamente, gli attacchi si trasferiscono a una famiglia di rilevatori tenuta da parte non vista durante l'addestramento, rivelando vulnerabilità architetturali condivise piuttosto che fragilità specifiche del rilevatore. Inoltre, conduciamo una valutazione della qualità basata su LLM tramite punteggio Likert, analizziamo le distribuzioni dei punteggi dei rilevatori per spiegare perché l'elusione ha successo e forniamo l'AUROC per rilevatore con intervalli di confidenza bootstrap. I nostri risultati espongono significativi gap di robustezza nell'attuale rilevamento di testo AI e stabiliscono StealthRL come un protocollo di valutazione avversaria principiato. Il codice e la pipeline di valutazione sono pubblicamente disponibili su https://github.com/suraj-ranganath/StealthRL.