Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli del mondo hanno attirato notevole attenzione come promettente direzione di ricerca nell'intelligenza artificiale, ma manca ancora una definizione chiara e unificata. In questo articolo, presentiamo OpenWorldLib, un framework di inferenza standardizzato e completo per Modelli del Mundo Avanzati. Basandoci sull'evoluzione dei modelli del mondo, proponiamo una definizione chiara: un modello del mondo è un modello o framework incentrato sulla percezione, dotato di capacità di interazione e memoria a lungo termine, per comprendere e prevedere il mondo complesso. Classifichiamo ulteriormente in modo sistematico le capacità essenziali dei modelli del mondo. Sulla base di questa definizione, OpenWorldLib integra modelli di diversi compiti all'interno di un framework unificato, consentendo un riutilizzo efficiente e un'inferenza collaborativa. Infine, presentiamo ulteriori riflessioni e analisi sulle potenziali direzioni future della ricerca sui modelli del mondo. Link al codice: https://github.com/OpenDCAI/OpenWorldLib
Gli attuali metodi di analisi documentale competono principalmente sull'innovazione architetturale dei modelli, mentre l'ingegnerizzazione sistematica dei dati di addestramento rimane poco esplorata. Tuttavia, i modelli state-of-the-art di diverse architetture e scale parametriche mostrano pattern di errore altamente coerenti sullo stesso insieme di campioni difficili, suggerendo che il collo di bottiglia prestazionale origini da carenze condivise nei dati di addestramento piuttosto che dall'architettura stessa. Basandoci su questa osservazione, presentiamo \minerupro, che avanza lo stato dell'arte esclusivamente attraverso l'ingegnerizzazione dei dati e l'ottimizzazione della strategia di addestramento, mantenendo completamente invariata l'architettura da 1,2 miliardi di parametri di \mineru. Il suo cuore è un Motore dei Dati co-progettato su copertura, informatività e accuratezza delle annotazioni: il Campionamento Consapevole di Diversità e Difficoltà espande i dati da meno di 10M a 65,5M di campioni correggendo lo shift distributivo; la Verifica di Coerenza Incrociata tra Modelli sfrutta l'accordo tra output di modelli eterogenei per valutare la difficoltà dei campioni e generare annotazioni affidabili; la pipeline Giudizio-e-Affinamento migliora la qualità delle annotazioni per i campioni difficili attraverso correzioni iterative di rendering e verifica. Una strategia di addestramento progressivo in tre fasi - pre-addestramento su larga scala, fine-tuning su campioni difficili e allineamento GRPO - sfrutta sequenzialmente questi dati a diversi livelli qualitativi. Sul fronte valutativo, correggiamo i bias di corrispondenza degli elementi in OmniDocBench~v1.5 e introduciamo un sottoinsieme Difficile, stabilendo il protocollo più discriminativo OmniDocBench~v1.6. Senza alcuna modifica architetturale, \minerupro raggiunge 95,69 su OmniDocBench~v1.6, migliorando di 2,71 punti la baseline a pari architettura e superando tutti i metodi esistenti inclusi modelli con oltre 200 volte i parametri.
I modelli Vision-Language-Action (VLA) raggiungono prestazioni elevate nella manipolazione robotica sfruttando backbone visione-linguaggio pre-addestrati. Tuttavia, nelle applicazioni robotiche downstream, vengono tipicamente messi a punto con dati limitati, portando a un overfitting verso formulazioni specifiche delle istruzioni e lasciando inesplorata la robustezza rispetto a istruzioni parafrasate. Per studiare questa lacuna, introduciamo LIBERO-Para, un benchmark controllato che varia indipendentemente le espressioni d'azione e i riferimenti agli oggetti per un'analisi granulare della generalizzazione linguistica. Attraverso sette configurazioni VLA (0.6B-7.5B), osserviamo un consistente degrado delle prestazioni del 22-52 pp in caso di parafrasi. Questo degrado è principalmente guidato dalla variazione lessicale a livello di oggetto: anche semplici sostituzioni di sinonimi causano forti cali, indicando una dipendenza dalla corrispondenza superficiale piuttosto che dalla comprensione semantica. Inoltre, l'80-96% degli errori deriva da una divergenza a livello di pianificazione della traiettoria piuttosto che da errori di esecuzione, mostrando che la parafrasi altera l'identificazione del compito. Il tasso di successo binario tratta tutte le parafrasi allo stesso modo, oscurando se i modelli performino in modo coerente attraverso i livelli di difficoltà o si affidino ai casi più facili. Per affrontare questo problema, proponiamo PRIDE, una metrica che quantifica la difficoltà della parafrasi utilizzando fattori semantici e sintattici. Il nostro benchmark e il codice corrispondente sono disponibili su: https://github.com/cau-hai-lab/LIBERO-Para
Il ragionamento esteso nei grandi modelli linguistici (LLM) crea severi colli di bottiglia della memoria KV cache. I principali metodi di compressione della KV cache stimano l'importanza delle chiavi utilizzando i punteggi di attenzione provenienti da query recenti post-RoPE. Tuttavia, le query ruotano con la posizione durante il RoPE, rendendo le query rappresentative molto poche, il che porta a una scarsa selezione delle chiavi più importanti e a un ragionamento instabile. Per evitare questo problema, ci rivolgiamo allo spazio pre-RoPE, dove osserviamo che i vettori Q e K sono altamente concentrati attorno a centri fissi non nulli e rimangono stabili attraverso le posizioni — un fenomeno che chiamiamo Concentrazione Q/K. Dimostriamo che questa concentrazione fa sì che le query prestino attenzione preferenziale alle chiavi a distanze specifiche (ad esempio, le chiavi più vicine), con i centri che determinano quali distanze sono preferite tramite una serie trigonometrica. Sulla base di ciò, proponiamo TriAttention per stimare l'importanza delle chiavi sfruttando questi centri. Attraverso la serie trigonometrica, utilizziamo la preferenza di distanza caratterizzata da questi centri per assegnare un punteggio alle chiavi in base alle loro posizioni, e sfruttiamo anche le norme Q/K come segnale aggiuntivo per la stima dell'importanza. Su AIME25 con generazione di token di 32K, TriAttention eguaglia l'accuratezza di ragionamento della Full Attention raggiungendo un throughput 2,5 volte superiore o una riduzione della memoria KV di 10,7 volte, mentre i principali baseline raggiungono solo circa la metà dell'accuratezza alla stessa efficienza. TriAttention consente la distribuzione di OpenClaw su una singola GPU consumer, dove contesti lunghi causerebbero altrimenti un esaurimento della memoria con la Full Attention.
Sebbene la frequenza testuale sia stata validata come rilevante per la cognizione umana nella velocità di lettura, la sua relazione con i Large Language Model (LLM) è raramente studiata. Proponiamo una nuova direzione di ricerca incentrata sulla frequenza dei dati testuali, un argomento poco esplorato, per quanto a nostra conoscenza. Il nostro framework è composto da tre unità. Innanzitutto, questo articolo propone la Legge della Frequenza Testuale (TFL), la quale indica che i dati testuali frequenti dovrebbero essere preferiti per gli LLM sia nel prompting che nel fine-tuning. Poiché molti LLM hanno dati di addestramento closed-source, proponiamo di utilizzare risorse online per stimare la frequenza a livello di frase. Utilizziamo quindi un parafrasatore di input per riformulare l'input in un'espressione testuale più frequente. Successivamente, proponiamo la Distillazione della Frequenza Testuale (TFD) interrogando gli LLM per completare storie estendendo ulteriormente le frasi nei dataset, e i corpora risultanti vengono utilizzati per perfezionare la stima iniziale. Infine, proponiamo l'Addestramento Curriculare per Frequenza Testuale (CTFT) che effettua il fine-tuning degli LLM in ordine crescente di frequenza a livello di frase. Gli esperimenti sono condotti sul nostro dataset curato, il Textual Frequency Paired Dataset (TFPD), su ragionamento matematico, traduzione automatica, ragionamento di senso comune e chiamate di strumenti agentici. I risultati dimostrano l'efficacia del nostro framework.
I modelli linguistici di grandi dimensioni per video (VideoLLM) hanno ottenuto prestazioni elevate in numerosi compiti di comprensione video, ma la maggior parte dei sistemi esistenti rimane offline e non è adatta per flussi video in diretta che richiedono un'osservazione continua e una risposta tempestiva. I VideoLLM in streaming recenti hanno compiuto progressi, ma gli approcci attuali spesso si basano su pipeline di attivazione-risposta disaccoppiate o sono limitati a narrazioni di tipo descrittivo, riducendo la loro efficacia per risposte a domande aperte e interazioni a lungo termine. Proponiamo AURA (Always-On Understanding and Real-Time Assistance), un framework di interazione visiva in streaming end-to-end che consente a un VideoLLM unificato di elaborare continuamente flussi video e supportare sia risposte in tempo reale che reazioni proattive. AURA integra la gestione del contesto, la costruzione dei dati, gli obiettivi di addestramento e l'ottimizzazione del deployment per un'interazione stabile in streaming a lungo termine. Raggiunge prestazioni all'avanguardia su benchmark di streaming e supporta un sistema demo in tempo reale con riconoscimento vocale (ASR) e sintesi vocale (TTS) funzionante a 2 FPS su due acceleratori da 80G. Rilasciamo il modello AURA insieme a un framework di inferenza in tempo reale per facilitare la ricerca futura.
L'editing spaziale delle immagini esegue trasformazioni guidate dalla geometria, consentendo un controllo preciso sul layout degli oggetti e sui punti di vista della telecamera. I modelli attuali sono insufficienti per manipolazioni spaziali granulari, motivando la creazione di una suite di valutazione dedicata. I nostri contributi sono i seguenti: (i) Introduciamo SpatialEdit-Bench, un benchmark completo che valuta l'editing spaziale misurando congiuntamente la plausibilità percettiva e la fedeltà geometrica attraverso la ricostruzione del punto di vista e l'analisi dell'inquadratura. (ii) Per affrontare il collo di bottiglia dei dati per l'addestramento scalabile, costruiamo SpatialEdit-500k, un dataset sintetico generato con una pipeline controllabile in Blender che renderizza oggetti su sfondi diversi e lungo traiettorie sistematiche della telecamera, fornendo trasformazioni di ground-truth precise per operazioni sia centrate sull'oggetto che sulla telecamera. (iii) Basandoci su questi dati, sviluppiamo SpatialEdit-16B, un modello di riferimento per l'editing spaziale granulare. Il nostro metodo raggiunge prestazioni competitive nell'editing generale superando sostanzialmente i metodi precedenti nei compiti di manipolazione spaziale. Tutte le risorse saranno rese pubbliche su https://github.com/EasonXiao-888/SpatialEdit.
Gli agenti di IA impiegati come assistenti persistenti devono mantenere credenze corrette man mano che il loro ambiente informativo evolve. Nella pratica, le evidenze sono sparse tra fonti eterogenee che spesso si contraddicono, nuove informazioni possono invalidare conclusioni precedenti e le preferenze degli utenti emergono attraverso correzioni piuttosto che istruzioni esplicite. I benchmark esistenti assumono per lo più contesti statici e a singola autorità e non valutano se gli agenti siano in grado di tenere il passo con questa complessità. Introduciamo ClawArena, un benchmark per valutare gli agenti di IA in ambienti informativi in evoluzione. Ogni scenario mantiene una verità di base completa ma nascosta, esponendo l'agente solo a tracce rumorose, parziali e a volte contraddittorie attraverso sessioni multi-canale, file di lavoro e aggiornamenti pianificati. La valutazione è organizzata attorno a tre sfide accoppiate: ragionamento su conflitti multi-sorgente, revisione dinamica delle credenze e personalizzazione implicita, le cui interazioni generano una tassonomia di domande a 14 categorie. Due formati di domanda, a scelta multipla (selezione di insiemi) e controlli eseguibili basati su shell, testano sia il ragionamento che l'ancoraggio al workspace. L'attuale release contiene 64 scenari in 8 domini professionali, per un totale di 1.879 round di valutazione e 365 aggiornamenti dinamici. Esperimenti su cinque framework di agenti e cinque modelli linguistici mostrano che sia le capacità del modello (intervallo del 15,4%) che il design del framework (9,2%) influiscono sostanzialmente sulle prestazioni, che i framework di abilità auto-evolutivi possono parzialmente colmare i divari di capacità dei modelli e che la difficoltà di revisione delle credenze è determinata dalla strategia di progettazione degli aggiornamenti piuttosto che dalla mera presenza di aggiornamenti. Il codice è disponibile all'indirizzo https://github.com/aiming-lab/ClawArena.
Gli agenti di intelligenza artificiale collaborativi che operano all'interno di file system locali stanno emergendo rapidamente come paradigma nell'interazione uomo-IA; tuttavia, l'efficace personalizzazione rimane limitata da severe restrizioni sui dati, poiché le barriere privacy stringenti e la difficoltà di raccogliere congiuntamente tracce multimodali del mondo reale impediscono un addestramento e una valutazione scalabili, e i metodi esistenti rimangono incentrati sull'interazione trascurando le dense tracce comportamentali nelle operazioni del file system; per colmare questa lacuna, proponiamo FileGram, un framework completo che fonda la memoria e la personalizzazione dell'agente sulle tracce comportamentali del file system, comprendente tre componenti fondamentali: (1) FileGramEngine, un motore di dati scalabile guidato dalle persona che simula flussi di lavoro realistici e genera sequenze di azioni multimodali granulari su larga scala; (2) FileGramBench, un benchmark diagnostico basato su tracce comportamentali del file system per valutare i sistemi di memoria sulla ricostruzione del profilo, la districazione delle tracce, il rilevamento della deriva della persona e il grounding multimodale; e (3) FileGramOS, un'architettura di memoria bottom-up che costruisce profili utente direttamente da azioni atomiche e delta di contenuto anziché da riepiloghi dialogici, codificando queste tracce in canali procedurali, semantici ed episodici con astrazione al momento della query; esperimenti estensivi mostrano che FileGramBench rimane impegnativo per i sistemi di memoria all'avanguardia e che FileGramEngine e FileGramOS sono efficaci, e aprendo il framework open-source, speriamo di supportare la futura ricerca su agenti di file system personalizzati e centrati sulla memoria.
I grandi modelli linguistici (LLM) eccellono nel ragionamento complesso, ma la loro efficienza è limitata dal crescente sovraccarico cognitivo delle lunghe tracce di pensiero. In questo articolo, proponiamo LightThinker, un metodo che consente agli LLM di comprimere dinamicamente i pensieri intermedi in rappresentazioni semantiche compatte. Tuttavia, la compressione statica spesso incontra difficoltà con il ragionamento complesso, dove la perdita irreversibile dei dettagli intermedi può portare a colli di bottiglia logici. Per affrontare questo problema, evolviamo il framework in LightThinker++, introducendo la Gestione Esplicita Adattativa della Memoria. Questo paradigma passa a una gestione a livello comportamentale incorporando primitive di memoria esplicite, supportate da una pipeline specializzata di sintesi delle traiettorie per addestrare una pianificazione della memoria finalizzata. Esperimenti estesi dimostrano la versatilità del framework lungo tre dimensioni. (1) LightThinker riduce l'utilizzo massimo di token del 70% e il tempo di inferenza del 26% con una perdita di accuratezza minima. (2) Nel ragionamento standard, LightThinker++ riduce l'utilizzo massimo di token del 69,9% producendo al contempo un guadagno di accuratezza del +2,42% a parità di budget di contesto per le massime prestazioni. (3) Soprattutto, nei compiti agentivi a lungo termine, mantiene un'impronta stabile oltre 80 round (una riduzione del 60%-70%), raggiungendo un guadagno prestazionale medio del 14,8% in diversi scenari complessi. Nel complesso, il nostro lavoro fornisce una direzione scalabile per sostenere il ragionamento profondo degli LLM su orizzonti estesi con un sovraccarico minimo.
L’apprendimento per rinforzo con ricompense verificabili (RLVR) è diventato un paradigma standard per il post-addestramento di grandi modelli linguistici. Sebbene l’Ottimizzazione della Politica con Relatività di Gruppo (GRPO) sia ampiamente adottata, la sua assegnazione del credito approssimativa penalizza uniformemente i rollout falliti, mancando della focalizzazione a livello di token necessaria per affrontare efficientemente deviazioni specifiche. L’Ottimizzazione della Politica con Auto-Distillazione (SDPO) affronta questo problema fornendo una supervisione più densa e mirata a livello di logit, che facilita un miglioramento rapido nelle fasi iniziali, ma collassa frequentemente durante l'addestramento prolungato. Riconduciamo questa instabilità nelle fasi avanzate a due difetti intrinseci: l'auto-distillazione su campioni già corretti introduce ambiguità di ottimizzazione e l'affidabilità del segnale dell'auto-teacher si degrada progressivamente. Per risolvere questi problemi, proponiamo l’Ottimizzazione della Politica con Instradamento dei Campioni (SRPO), un framework on-policy unificato che instrada i campioni corretti verso il rinforzo allineato alla ricompensa di GRPO e i campioni falliti verso la correzione mirata a livello di logit di SDPO. SRPO incorpora inoltre un meccanismo di ponderazione dinamica consapevole dell'entropia per sopprimere i target di distillazione inaffidabili ad alta entropia, enfatizzando al contempo quelli più confidenti. Valutato su cinque benchmark e due scale di modelli, SRPO raggiunge sia il rapido miglioramento iniziale di SDPO che la stabilità a lungo termine di GRPO. Supera costantemente le prestazioni di picco di entrambe le baseline, aumentando la media su cinque benchmark su Qwen3-8B del 3,4% rispetto a GRPO e del 6,3% rispetto a SDPO, producendo al contempo lunghezze di risposta moderate e riducendo il costo computazionale per passo fino al 17,2%.
Una promettente direzione di ricerca per consentire agli LLM di generare codice costantemente corretto riguarda l'incapacità di questi modelli di stimare adeguatamente l'esecuzione dei programmi, in particolare per il codice che generano. In questo lavoro, dimostriamo che i Code LLM possono essere addestrati a simulare l'esecuzione dei programmi in modo graduale e che questa capacità può essere sfruttata per migliorare le prestazioni nella programmazione competitiva. Il nostro approccio combina un fine-tuning supervisionato su tracce di esecuzione in linguaggio naturale, ovvero spiegazioni testuali ancorate all'esecuzione reale, con l'apprendimento per rinforzo che utilizza ricompense verificabili. Introduciamo due obiettivi complementari: la previsione dell'output dato il codice e gli input, e la risoluzione di problemi di programmazione competitiva con feedback di esecuzione basati sulla realtà o auto-predetti. Questi obiettivi consentono ai modelli di effettuare auto-verifiche su più soluzioni candidate e auto-correzioni iterative simulando l'esecuzione dei test. Su molteplici benchmark di programmazione competitiva, il nostro metodo produce miglioramenti consistenti rispetto agli approcci di ragionamento standard. Presentiamo inoltre studi di ablazione e analisi per chiarire il ruolo della simulazione dell'esecuzione e i suoi limiti.
L'apprendimento dall'esperienza è fondamentale per costruire agenti di grandi modelli linguistici (LLM) capaci, eppure i paradigmi di auto-evoluzione prevalenti rimangono inefficienti: gli agenti apprendono in isolamento, riscoprono ripetutamente comportamenti simili da esperienze limitate, con conseguente esplorazione ridondante e scarsa generalizzazione. Per affrontare questo problema, proponiamo SkillX, un framework completamente automatizzato per costruire una base di conoscenza di skill plug-and-play riutilizzabile tra agenti e ambienti. SkillX opera attraverso una pipeline completamente automatizzata basata su tre innovazioni sinergiche: (i) Progettazione di Skill Multi-Livello, che distilla le traiettorie grezze in una gerarchia a tre livelli di piani strategici, skill funzionali e skill atomiche; (ii) Raffinamento Iterativo delle Skill, che revisiona automaticamente le skill basandosi sul feedback di esecuzione per migliorare continuamente la qualità della libreria; e (iii) Espansione Esplorativa delle Skill, che genera e convalida proattivamente skill nuove per espandere la copertura oltre i dati di addestramento iniziali. Utilizzando un agente backbone robusto (GLM-4.6), costruiamo automaticamente una libreria di skill riutilizzabile e ne valutiamo la trasferibilità su benchmark impegnativi a lungo orizzonte e interattivi per l'utente, tra cui AppWorld, BFCL-v3 e τ^2-Bench. Gli esperimenti mostrano che SkillKB migliora costantemente il successo del compito e l'efficienza di esecuzione quando integrato in agenti base più deboli, evidenziando l'importanza di rappresentazioni dell'esperienza strutturate e gerarchiche per l'apprendimento generalizzabile degli agenti. Il nostro codice sarà presto pubblicamente disponibile su https://github.com/zjunlp/SkillX.
Cosa serve per costruire un sistema di ragionamento visivo che funzioni attraverso grafici, ambiti scientifici, comprensione spaziale e compiti aperti? I modelli visione-linguaggio (VLM) più potenti dimostrano che un ragionamento visivo così ampio è a portata di mano, ma la ricetta alla loro base rimane poco chiara, nascosta da pipeline proprietarie di apprendimento per rinforzo (RL) che utilizzano dati non pubblici. Presentiamo Vero, una famiglia di VLM completamente open che eguaglia o supera i modelli open-weight esistenti in una vasta gamma di compiti di ragionamento visivo. Scaliamo i dati e i reward dell'RL attraverso sei ampie categorie di compiti, costruendo Vero-600K, un dataset di 600.000 campioni provenienti da 59 dataset, e progettando reward instradati per compito che gestiscono formati di risposta eterogenei. Vero raggiunge prestazioni allo stato dell'arte, migliorando quattro modelli di base di 3,7-5,5 punti in media attraverso VeroEval, la nostra suite di 30 benchmark impegnativi. Partendo da Qwen3-VL-8B-Instruct, Vero supera Qwen3-VL-8B-Thinking in 23 dei 30 benchmark senza l'utilizzo di dati proprietari aggiuntivi per il "pensiero". Quando addestrato a partire dallo stesso modello base, Vero-600K supera i dataset di RL esistenti in tutte le categorie di compiti. Ablazioni sistematiche rivelano che diverse categorie di compiti suscitano pattern di ragionamento qualitativamente distinti che si trasferiscono poco se considerati in isolamento, suggerendo che la copertura dati ampia sia il fattore primario alla base di una forte scalabilità dell'RL. Tutti i dati, il codice e i modelli sono rilasciati pubblicamente.
OpenClaw, l'agente IA personale più diffuso all'inizio del 2026, opera con accesso completo al sistema locale e si integra con servizi sensibili come Gmail, Stripe e il filesystem. Sebbene questi ampi privilegi consentano alti livelli di automazione e una potente personalizzazione, espongono anche una superficie di attacco sostanziale che le valutazioni esistenti in ambiente sandbox non riescono a cogliere. Per colmare questa lacuna, presentiamo la prima valutazione di sicurezza in scenari reali di OpenClaw e introduciamo la tassonomia CIK, che unifica lo stato persistente di un agente in tre dimensioni, ovvero Capacità, Identità e Conoscenza, per l'analisi della sicurezza. Le nostre valutazioni coprono 12 scenari di attacco su un'istanza live di OpenClaw utilizzando quattro modelli backbone (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro e GPT-5.4). I risultati mostrano che l'avvelenamento di qualsiasi singola dimensione CIK aumenta il tasso medio di successo degli attacchi dal 24,6% al 64-74%, con anche il modello più robusto che mostra un aumento di oltre tre volte rispetto alla sua vulnerabilità baseline. Valutiamo inoltre tre strategie di difesa allineate alla CIK insieme a un meccanismo di protezione dei file; tuttavia, la difesa più forte registra comunque un tasso di successo del 63,8% sotto attacchi mirati alle Capacità, mentre la protezione dei file blocca il 97% delle iniezioni malevole ma impedisce anche aggiornamenti legittimi. Nel complesso, questi risultati dimostrano che le vulnerabilità sono intrinseche all'architettura dell'agente, rendendo necessarie salvaguardie più sistematiche per proteggere gli agenti IA personali. La nostra pagina del progetto è https://ucsc-vlaa.github.io/CIK-Bench.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) addestra efficacemente modelli di ragionamento che dipendono da abbondanti etichette perfette, ma la sua vulnerabilità alle inevitabili etichette rumorose dovute alla carenza di esperti rimane criticamente poco esplorata. In questo lavoro, compiamo il primo passo verso un'analisi sistematica dei meccanismi delle etichette rumorose in RLVR. A differenza della classificazione supervisionata, la maggior parte degli algoritmi RLVR incorpora una condizione basata su rollout: l'influenza di un'etichetta sull'addestramento è subordinata alla capacità della politica corrente di generare rollout che la realizzino, una proprietà che si estende naturalmente alle etichette rumorose. Sulla base di questa osservazione, distinguiamo due tipi di rumore: etichette rumorose inattive, che riducono l'efficienza dei dati, ed etichette rumorose attive, che vengono rinforzate e rischiano di distorcere il modello verso distribuzioni errate. Dagli esperimenti sull'addestramento con campioni rumorosi, identifichiamo un fenomeno di Coerenza della Correttezza Iniziale: sebbene i campioni rumorosi inizino a rimanere indietro nelle fasi successive, l'accuratezza su campioni sia puliti che rumorosi aumenta in modo simile nelle prime fasi dell'addestramento. Motivati da questa dinamica, proponiamo l'Affinamento Online delle Etichette (OLR), che corregge progressivamente le etichette potenzialmente rumorose con risorse determinate a maggioranza quando due condizioni sono soddisfatte: una pendenza positiva nel tasso di superamento dei rollout della risposta maggioritaria e una stabile coerenza storica tra gli aggiornamenti, consentendo un'autocorrezione graduale con il miglioramento della politica. Valutiamo OLR su sei benchmark di ragionamento matematico in-distribuzione (AIME24/25, AMC, MATH-500, Minerva e Olimpiadi) e tre task out-of-distribuzione (ARC-c, GPQA-diamond e MMLU-pro). Con rapporti di rumore da 0,1 a 0,9, OLR migliora costantemente la robustezza in contesti sia di etichette rumorose inattive che attive, ottenendo guadagni medi dal 3,6% al 3,9% sui benchmark in-distribuzione e dal 3,3% al 4,6% sulle valutazioni out-of-distribuzione.
L'incorporamento multimodale universale (UME) mappa input eterogenei in uno spazio di recupero condiviso mediante un singolo modello. Gli approcci recenti migliorano l'UME generando ragionamenti a catena del pensiero (CoT) espliciti prima di estrarre gli incorporamenti, consentendo ai grandi modelli linguistici multimodali di inferire meglio l'intento complesso delle query. Tuttavia, il CoT esplicito comporta un sovraccarico computazionale sostanziale e può comprimere ricche evidenze multimodali in un collo di bottiglia testuale ristretto. Proponiamo PLUME, un framework di ragionamento latente che avanza l'UME sostituendo il CoT verbalizzato con una breve sequenza autoregressiva di stati latenti continui. Per supportare query multimodali diverse, PLUME introduce inoltre un adattatore di transizione guidato da ancore semantiche che orienta l'evoluzione latente lungo diverse traiettorie di ragionamento mantenendo lo stesso budget computazionale fisso. Per stabilizzare l'addestramento, PLUME adotta un curriculum progressivo da esplicito a latente che utilizza il ragionamento verbalizzato solo come impalcatura temporanea e trasferisce gradualmente questo comportamento nel calcolo degli stati nascosti, eliminando il CoT esplicito durante l'inferenza. Sul benchmark MMEB-v2 di 78 task, PLUME supera solide baseline UME con CoT esplicito riducendo il ragionamento da centinaia di token generati a meno di 10 passi latenti, garantendo un'inferenza oltre 30 volte più veloce. PLUME è particolarmente adatto per contesti di retrieval dove l'evidenza rilevante è densa, strutturalmente complessa e difficile da organizzare attraverso ragionamenti intermedi verbalizzati, come il recupero di video e documenti visivi. Questi risultati dimostrano che il calcolo latente strutturato può preservare i vantaggi del ragionamento intermedio senza il sovraccarico della generazione esplicita di ragionamenti, fornendo un paradigma più forte ed efficiente per i sistemi di retrieval pratici.
I recenti progressi nei Modelli di Base Video (VFMs) hanno rivoluzionato la sintesi video incentrata sull'umano, tuttavia l'editing granulare e indipendente di soggetti e scene rimane una sfida critica. I recenti tentativi di incorporare un controllo ambientale più ricco attraverso composizioni geometriche 3D rigide incontrano spesso un netto compromesso tra controllo preciso e flessibilità generativa. Inoltre, l'oneroso pre-processing 3D limita ancora la scalabilità pratica. In questo articolo, proponiamo ONE-SHOT, un framework efficiente in parametri per la generazione video composizionale umano-ambiente. La nostra intuizione chiave è di fattorizzare il processo generativo in segnali disaccoppiati. Nello specifico, introduciamo un meccanismo di iniezione nello spazio canonico che disaccoppia la dinamica umana dai segnali ambientali tramite cross-attention. Proponiamo anche Dynamic-Grounded-RoPE, una nuova strategia di embedding posizionale che stabilisce corrispondenze spaziali tra domini spaziali disparati senza alcun allineamento 3D euristico. Per supportare la sintesi a lungo orizzonte, introduciamo un meccanismo di Integrazione Ibrida del Contesto per mantenere la coerenza del soggetto e della scena attraverso generazioni a livello di minuto. Gli esperimenti dimostrano che il nostro metodo supera significamente gli stati dell'arte, offrendo un controllo strutturale superiore e una diversità creativa per la sintesi video. Il nostro progetto è disponibile su: https://martayang.github.io/ONE-SHOT/.
Gli agenti di ricerca approfondita (DRA) integrano il ragionamento dei LLM con strumenti esterni. I sistemi di memoria consentono ai DRA di sfruttare esperienze storiche, essenziali per un ragionamento efficiente e un'evoluzione autonoma. I metodi esistenti si basano sul recupero di traiettorie simili dalla memoria per supportare il ragionamento, ma soffrono di limitazioni chiave relative all'inefficace evoluzione della memoria e ai costi crescenti di archiviazione e recupero. Per affrontare questi problemi, proponiamo un nuovo framework di Agente con Memoria Intelligente (MIA), composto da un'architettura Manager-Planner-Esecutore. Il Memory Manager è un sistema di memoria non parametrico in grado di memorizzare traiettorie di ricerca storiche compresse. Il Planner è un agente di memoria parametrico in grado di produrre piani di ricerca per le domande. L'Esecutore è un altro agente che può cercare e analizzare informazioni guidato dal piano di ricerca. Per costruire il framework MIA, adottiamo innanzitutto un paradigma di apprendimento per rinforzo alternato per migliorare la cooperazione tra Planner ed Esecutore. Inoltre, permettiamo al Planner di evolversi continuamente durante l'apprendimento in fase di test, con aggiornamenti eseguiti on-the-fly insieme all'inferenza senza interrompere il processo di ragionamento. Ulteriormente, stabiliamo un ciclo di conversione bidirezionale tra memorie parametriche e non parametriche per ottenere un'efficiente evoluzione della memoria. Infine, incorporiamo meccanismi di riflessione e giudizio non supervisionato per potenziare il ragionamento e l'auto-evoluzione in ambiente aperto. Esperimenti estesi su undici benchmark dimostrano la superiorità di MIA.
I recenti progressi nei Modelli Visione-Linguaggio (VLM) hanno significativamente spinto in avanti i limiti del Visual Question Answering (VQA). Tuttavia, i dettagli ad alta risoluzione possono talvolta diventare rumore che porta ad allucinazioni o errori di ragionamento. In questo articolo, proponiamo il *Degradation-Driven Prompting* (DDP), un nuovo framework che migliora le prestazioni del VQA riducendo strategicamente la fedeltà dell'immagine per costringere i modelli a concentrarsi sulle informazioni strutturali essenziali. Valutiamo il DDP su due compiti distinti. *Attributi fisici* riguarda immagini soggette a giudizi errati umani, dove il DDP impiega una combinazione di downsampling all'80p, aiuti visivi strutturali (maschere con sfondo bianco e linee ortometriche) e In-Context Learning (ICL) per calibrare il focus del modello. *Fenomeni percettivi* affronta varie anomalie visive e illusioni a cui le macchine sono suscettibili, incluse Anomalie Visive (VA), Illusioni di Colore (CI), Illusioni di Movimento (MI), Illusioni Gestalt (GI), Illusioni Geometriche (GSI) e Illusioni Visive (VI). Per questo compito, il DDP integra una fase di classificazione del task con strumenti specializzati come maschere di sfocatura e miglioramento del contrasto insieme al downsampling. I nostri risultati sperimentali dimostrano che *less is more*: degradando intenzionalmente gli input visivi e fornendo prompt strutturali mirati, il DDP consente ai VLM di bypassare le texture distraenti e ottenere una precisione di ragionamento superiore su benchmark visivi complessi.
L'apprendimento al momento del test (Test-Time Learning, TTL) consente agli agenti linguistici di affinare iterativamente le proprie prestazioni attraverso interazioni ripetute con l'ambiente durante l'inferenza. Il cuore del TTL è una politica di adattamento che aggiorna la politica dell'attore sulla base dell'esperienza acquisita negli episodi precedenti, migliorando così il comportamento futuro. I metodi esistenti si basano su politiche di adattamento fisse e progettate manualmente, anziché ottimizzarle per un miglioramento a valle. Sosteniamo che le politiche di adattamento ottimali dovrebbero essere apprese dagli ambienti di compito, non ingegnerizzate manualmente sulla base dell'intuizione umana. Per raggiungere questo obiettivo, introduciamo Meta-TTL, un framework che formula la scoperta di politiche di adattamento efficaci come un problema di ottimizzazione a due livelli. All'interno di questo framework, il ciclo interno esegue il processo TTL standard, misurando quanto efficacemente una politica di adattamento candidata aiuta un agente a correggere gli errori attraverso episodi sequenziali. Guidato dalle prestazioni dell'agente, il ciclo esterno utilizza una ricerca evolutiva su una distribuzione diversificata di compiti di addestramento per affinare iterativamente la politica di adattamento. Valutiamo Meta-TTL su Jericho e WebArena-Lite sia in contesti in-distribuzione (ID) che out-of-distribuzione (OOD), utilizzando multiple architetture di meta-agenti. I risultati su entrambi i benchmark mostrano che Meta-TTL supera costantemente i baseline progettati manualmente, suggerendo che la politica di adattamento ottimizzata codifica strategie trasferibili che si generalizzano oltre la distribuzione dei compiti di addestramento.
Il degrado delle immagini dovuto a sfocatura, rumore, compressione e scarsa illuminazione compromette gravemente la comprensione multimodale in contesti reali. I modelli multimodali unificati, che combinano comprensione e generazione in un'unica architettura, sono naturalmente adatti a questa sfida, poiché il loro percorso generativo può modellare la struttura visiva fine che il degrado distrugge. Tuttavia, questi modelli non riescono a sfruttare la propria capacità generativa su input degradati. Riconduciamo questa disconnessione a due fattori concomitanti: i regimi di addestramento esistenti non richiedono mai al modello di invocare la generazione durante il ragionamento, e il percorso standard di decodifica-ricodifica non supporta un'ottimizzazione congiunta efficace. Presentiamo CLEAR, un framework che collega le due capacità attraverso tre passi progressivi: (1) fine-tuning supervisionato su un dataset consapevole del degrado per stabilire il modello di ragionamento "genera poi rispondi"; (2) un Ponte di Rappresentazione Latente che sostituisce la deviazione decodifica-ricodifica con una connessione diretta e ottimizzabile tra generazione e ragionamento; (3) Interleaved GRPO, un metodo di apprendimento per rinforzo che ottimizza congiuntamente il ragionamento testuale e la generazione visiva sotto ricompense di correttezza della risposta. Costruiamo MMD-Bench, che copre tre livelli di gravità del degrado su sei benchmark multimodali standard. Gli esperimenti mostrano che CLEAR migliora sostanzialmente la robustezza su input degradati preservando le prestazioni su immagini pulite. La nostra analisi rivela inoltre che rimuovere la supervisione della ricostruzione a livello di pixel porta a stati visivi intermedi con una qualità percettiva più elevata, suggerendo che l'ottimizzazione guidata dal compito e la qualità visiva siano naturalmente allineate.
Introduciamo AvatarPointillist, un nuovo framework per la generazione di avatar dinamici 4D in Gaussiana a partire da una singola immagine ritratto. Il cuore del nostro metodo è un Transformer di tipo decoder-only che genera in modo autoregressivo una nuvola di punti per il Gaussian Splatting 3D. Questo approccio sequenziale consente una costruzione precisa e adattiva, regolando dinamicamente la densità dei punti e il loro numero totale in base alla complessità del soggetto. Durante la generazione dei punti, il modello AR predice congiuntamente anche le informazioni di rigging per ogni punto, abilitando un'animazione realistica. Dopo la generazione, un decoder Gaussiano dedicato converte i punti in attributi Gaussiani completi e renderizzabili. Dimostriamo che il condizionamento del decoder sulle feature latenti del generatore AR permette un'interazione efficace tra gli stadi e migliora marcatamente la fedeltà. Esperimenti estensivi convalidano che AvatarPointillist produce avatar di alta qualità, fotorealistici e controllabili. Riteniamo che questa formulazione autoregressiva rappresenti un nuovo paradigma per la generazione di avatar, e renderemo pubblico il nostro codice per ispirare future ricerche.
Mentre gli agenti basati su grandi modelli linguistici progrediscono oltre i compiti di ingegneria del software (SWE) verso l'ingegneria del machine learning (MLE), la verifica del comportamento degli agenti diventa di ordini di grandezza più costosa: mentre i compiti SWE possono essere verificati tramite test unitari a esecuzione rapida, la verifica MLE richiede l'esecuzione di pipeline ML complete - preelaborazione dei dati, addestramento del modello e valutazione delle metriche - su grandi dataset a ogni passo del rollout, rendendo l'apprendimento per rinforzo (RL) on-policy lungo le traiettorie proibitivamente lento. Gli approcci esistenti ripiegano sul fine-tuning supervisionato (SFT) o su ricompense proxy offline, sacrificando i vantaggi di esplorazione e generalizzazione dell'RL on-policy. Osserviamo che la dimensione dei dati nel sandbox è la fonte primaria di questo collo di bottiglia. Basandoci su questa intuizione, introduciamo SandMLE, un framework multi-agente che genera ambienti MLE sintetici, diversificati e verificabili, a partire da un piccolo numero di task iniziali, preservando la complessità strutturale e tecnica dei problemi del mondo reale limitando però i dataset a micro-scala (ogni task è associato a soli 50-200 campioni di addestramento). Tramite esperimenti estesi, dimostriamo che SandMLE riduce il tempo di esecuzione di oltre 13 volte, abilitando per la prima volta nel dominio MLE un RL on-policy su larga scala e lungo le traiettorie. Su MLE-bench-lite, SandMLE produce guadagni significativi rispetto ai baseline SFT su Qwen3-8B, 14B e 30B-A3B, con miglioramenti relativi del tasso di medaglia compresi tra il 20,3% e il 66,9%. Inoltre, la politica addestrata generalizza attraverso scaffold agentistici non visti, raggiungendo fino al 32,4% in più di punteggio HumanRank su MLE-Dojo.
I modelli fondazionali per la biologia e la fisica ottimizzano l'accuratezza predittiva, ma le loro rappresentazioni interne falliscono sistematicamente nel preservare la geometria continua dei sistemi che modellano. Identifichiamo la causa principale: la Tassa di Allineamento Geometrico, un costo intrinseco del forzare varietà continue attraverso colli di bottiglia categorici discreti. Ablazioni controllate su sistemi dinamici sintetici dimostrano che sostituire l'entropia incrociata con un testa continua su un codificatore identico riduce la distorsione geometrica fino a 8,5 volte, mentre i codebook appresi mostrano un doppio vincolo non monotono in cui una quantizzazione più fine peggiora la geometria nonostante migliori la ricostruzione. Sotto obiettivi continui, tre architetture differiscono di 1,3 volte; sotto tokenizzazione discreta, divergono di 3000 volte. Valutando 14 modelli fondazionali biologici con la teoria rate-distortion e MINE, identifichiamo tre regimi di fallimento: Disaccoppiamento Locale-Globale, Compressione Rappresentazionale e Vacuità Geometrica. Un esperimento controllato conferma che la robustezza di Evo 2 al complemento inverso su DNA reale riflette una composizione sequenziale conservata, non una simmetria appresa. Nessun modello raggiunge simultaneamente bassa distorsione, alta informazione mutua e coerenza globale.
Il riconoscimento a coda lunga ha beneficiato di modelli di base e paradigmi di fine-tuning, tuttavia gli studi e i benchmark esistenti sono principalmente confinati a domini di immagini naturali, dove i dati di pre-addestramento e di fine-tuning condividono distribuzioni simili. Al contrario, le immagini scientifiche presentano caratteristiche visive e segnali di supervisione distinti, sollevando interrogativi sull'efficacia del fine-tuning di modelli di base in tali contesti. In questo lavoro, investigiamo il riconoscimento scientifico a coda lunga sotto un paradigma puramente visivo e di fine-tuning efficiente in parametri (PEFT). Esperimenti su tre benchmark scientifici dimostrano che il fine-tuning di modelli di base produce guadagni limitati e rivelano che le caratteristiche del penultimo strato svolgono un ruolo importante, in particolare per le classi di coda. Sulla scorta di questi risultati, proponiamo SciLT, un framework che sfrutta rappresentazioni multi-livello attraverso fusione adattiva delle caratteristiche e apprendimento a doppia supervisione. Sfruttando congiuntamente le caratteristiche del penultimo strato e dello strato finale, SciLT raggiunge prestazioni bilanciate tra classi testa e coda. Esperimenti estensivi dimostrano che SciLT supera costantemente i metodi esistenti, stabilendo una baseline solida e pratica per il riconoscimento scientifico a coda lunga e fornendo una guida preziosa per l'adattamento di modelli di base a dati scientifici con sostanziali cambiamenti di dominio.
I sistemi di IA agentici eseguono sempre più azioni consequenziali per conto di principi umani, delegando compiti attraverso catene multi-step di agenti autonomi. Nessuno standard esistente affronta un divario fondamentale di responsabilità: verificare che le azioni terminali in una catena di delega siano state autenticamente autorizzate da un principio umano, attraverso quale catena di delega e sotto quale ambito. Questo articolo presenta il protocollo Human Delegation Provenance (HDP), uno schema leggero basato su token che cattura e verifica crittograficamente il contesto di autorizzazione umana nei sistemi multi-agente. Un token HDP vincola un evento di autorizzazione umana a una sessione, registra l'azione di delega di ogni agente come un hop firmato in una catena append-only e consente a qualsiasi partecipante di verificare l'intero registro di provenienza utilizzando solo la chiave pubblica Ed25519 dell'emittente e l'identificatore di sessione corrente. La verifica è completamente offline, non richiedendo lookup di registri o anchor di fiducia di terze parti. Inquadriamo l'HDP nel panorama esistente dei protocolli di delega, identifichiamo il suo punto di progettazione distinto rispetto a OAuth 2.0 Token Exchange (RFC 8693), JSON Web Tokens (RFC 7519), UCAN e l'Intent Provenance Protocol (draft-haberkamp-ipp-00), e dimostriamo che gli standard esistenti non soddisfano i requisiti di provenienza umana, multi-hop e append-only dei sistemi agentici. L'HDP è stato pubblicato come Internet-Draft IETF (draft-helixar-hdp-agentic-delegation-00) ed un SDK di riferimento in TypeScript è pubblicamente disponibile.
Trasformare i modelli linguistici generativi causali in encoder bidirezionali offre una valida alternativa alle architetture di tipo BERT. Tuttavia, gli approcci attuali presentano limitazioni significative: mancano di un consenso sugli obiettivi di addestramento ottimali, soffrono di oblio catastrofico su larga scala e non riescono a integrare flessibilmente il vasto ecosistema di modelli generativi specializzati. In questo lavoro, attraverso ablation study sistematiche sulle famiglie Gemma3 e Qwen3, identifichiamo i fattori chiave che guidano un'adattamento efficace, evidenziando il ruolo cruciale di una fase di prior masking spesso omessa. Per scalare questo processo senza i dati di pre-addestramento originali, introduciamo una strategia duale che combina la fusione lineare dei pesi (linear weight merging) con un mixture di dati multi-dominio leggero, mitigando così l'oblio catastrofico. Infine, potenziamo i nostri encoder fondendoli con modelli causali specializzati, trasferendo seamless capacità specifiche per modalità e dominio. Questa ricetta open-source, progettata per qualsiasi LLM decoder causale, dà vita a BidirLM, una famiglia di cinque encoder che superano le alternative su benchmark di rappresentazione per testo, visione e audio.
Il ritmo crescente delle pubblicazioni scientifiche rende sempre più difficile per i ricercatori mantenersi aggiornati. Presentiamo Paper Espresso, una piattaforma open-source che scopre, riassume e analizza automaticamente i paper di tendenza su arXiv. Il sistema utilizza grandi modelli linguistici (LLM) per generare riassunti strutturati con etichette tematiche e parole chiave, e fornisce un'analisi delle tendenze a granularità multipla (giornaliera, settimanale e mensile) attraverso la consolidazione di argomenti guidata da LLM. In 35 mesi di deployment continuativo, Paper Espresso ha processato oltre 13.300 paper e rilasciato pubblicamente tutti i metadati strutturati, rivelando una dinamica ricca nel panorama della ricerca sull'IA: un picco a metà 2025 nell'apprendimento per rinforzo per il ragionamento degli LLM, un'emergenza di topic non saturante (6.673 topic unici), e una correlazione positiva tra la novità del topic e il coinvolgimento della comunità (2.0x il numero mediano di upvote per i paper più innovativi). Una demo live è disponibile all'indirizzo https://huggingface.co/spaces/Elfsong/Paper_Espresso.
I modelli linguistici di grandi dimensioni (LLM) sono in grado di comporre poesie, ma quanto sono distanti dai poeti umani? In questo articolo presentiamo POEMetric, il primo framework completo per la valutazione della poesia, che esamina 1) le capacità fondamentali di seguire istruzioni nel generare poesie secondo una determinata forma e tema, 2) le capacità avanzate di dimostrare creatività, diversità lessicale e idiosincrasia, evocare risonanza emotiva e utilizzare immagini e dispositivi letterari, e 3) la valutazione generale della qualità complessiva della poesia e la stima della paternità. Abbiamo curato un dataset di poesie umane - 203 poesie inglesi di 7 forme fisse annotate con metro, schemi di rima e temi - e abbiamo sperimentato 30 LLM per la generazione di poesie basate sulle stesse forme e temi dei dati umani, per un totale di 6.090 poesie generate da LLM. Basandoci su POEMetric, abbiamo valutato le prestazioni sia dei poeti umani che degli LLM attraverso valutazioni basate su regole e un approccio LLM-as-a-judge, i cui risultati sono stati convalidati da esperti umani. I risultati mostrano che, sebbene il modello migliore abbia raggiunto un'elevata accuratezza formale (4,26 su 5,00, con Gemini-2.5-Pro come giudice; stesso criterio in seguito) e allineamento tematico (4,99), tutti i modelli non sono riusciti a raggiungere lo stesso livello di capacità avanzate dei poeti umani, che hanno ottenuto risultati insuperati in creatività (4,02), idiosincrasia (3,95), risonanza emotiva (4,06) e uso abile di immagini (4,49) e dispositivi letterari (4,67). Gli umani hanno anche superato l'LLM dalle migliori prestazioni nella qualità complessiva della poesia (4,22 vs. 3,20). Pertanto, la generazione di poesie rimane una sfida formidabile per gli LLM. Dati e codici sono rilasciati su https://github.com/Bingru-Li/POEMetric.
I sistemi multi-agente basati su grandi modelli linguistici (LLM) possono scalare lungo due dimensioni distinte: aumentando il numero di agenti e migliorando attraverso l'esperienza accumulata nel tempo. Sebbene lavori precedenti abbiano studiato queste dimensioni separatamente, la loro interazione sotto vincoli di costo realistici rimane poco chiara. In questo articolo, introduciamo una visione concettuale della scalabilità dei sistemi multi-agente che considera congiuntamente la dimensione del team e la capacità di apprendimento continuo, e studiamo come la progettazione della memoria condivida questo panorama. A tal fine, proponiamo LLMA-Mem, un framework di memoria a lungo termine per sistemi multi-agente LLM basato su topologie di memoria flessibili. Valutiamo LLMA-Mem su MultiAgentBench in ambienti di programmazione, ricerca e database. Empiricamente, LLMA-Mem migliora costantemente le prestazioni a lungo termine rispetto ai baseline, riducendo al contempo i costi. La nostra analisi rivela inoltre un panorama di scalabilità non monotono: team più numerosi non producono sempre prestazioni migliori a lungo termine, e team più piccoli possono superare quelli più grandi quando la memoria supporta meglio il riutilizzo dell'esperienza. Questi risultati posizionano la progettazione della memoria come un percorso pratico per scalare i sistemi multi-agente in modo più efficace ed efficiente nel tempo.
La rapida evoluzione dell'intelligenza artificiale autonoma e agentica all'interno dei servizi finanziari ha introdotto una crisi architetturale esistenziale: i grandi modelli linguistici (LLM) sono sistemi probabilistici e non deterministici che operano in domini che richiedono garanzie di conformità assolute e matematicamente verificabili. Le soluzioni di guardrail esistenti – incluse NVIDIA NeMo Guardrails e Guardrails AI – si basano su classificatori probabilistici e validatori sintattici che sono fondamentalmente inadeguati per far rispettare i complessi vincoli normativi multi-variabile imposti dalla SEC, dalla FINRA e dall'OCC. Questo articolo presenta il Lean-Agent Protocol, una piattaforma di guardrail per l'IA basata sulla verifica formale che sfrutta il modello neuro-simbolico Aristotle sviluppato da Harmonic AI per auto-formalizzare le politiche istituzionali in codice Lean 4. Ogni azione agentica proposta viene trattata come una congettura matematica: l'esecuzione è consentita se e solo se il kernel Lean 4 dimostra che l'azione soddisfa assiomi normativi pre-compilati. Questa architettura fornisce una certezza di conformità di livello crittografico con latenza a microsecondi, soddisfacendo direttamente la SEC Rule 15c3-5, l'OCC Bulletin 2011-12, la FINRA Rule 3110 e i mandati di spiegabilità del CFPB. Viene fornita una roadmap di implementazione in tre fasi, dalla verifica in shadow mode fino al dispiegamento su scala enterprise.
La pressione comunicativa multi-agente può estrarre rappresentazioni discrete e compositive di proprietà fisiche invisibili da feature video congelate? Dimostriamo che agenti che comunicano attraverso un collo di bottiglia Gumbel-Softmax con apprendimento iterativo sviluppano protocolli posizionalmente disaccoppiati per proprietà latenti (elasticità, attrito, rapporto di massa) senza etichette delle proprietà o supervisione sulla struttura dei messaggi. Con 4 agenti, il 100% di 80 semi converge a una compositività quasi perfetta (PosDis=0.999, holdout 98.3%). I controlli confermano che la struttura multi-agente – non la larghezza di banda o la copertura temporale – guida questo effetto. L'intervento causale mostra una perturbazione chirurgica delle proprietà (~15% di calo sulla proprietà target, <3% sulle altre). Un confronto controllato dei backbone rivela che il priore percettivo determina ciò che è comunicabile: DINOv2 domina sulla fisica di rampa spazialmente visibile (98.3% vs 95.1%), mentre V-JEPA 2 domina sulla fisica di collisione solo dinamica (87.4% vs 77.7%, d=2.74). Controlli scale-matched (d=3.37) e frame-matched (d=6.53) attribuiscono completamente questo gap alla pre-addestramento nativo per video. Il protocollo congelato supporta pianificazione condizionata all'azione (91.5%) con ragionamento controfattuale sulla velocità (r=0.780). La validazione su filmati reali di Physics 101 conferma un'accuratezza del 85.6% nel confronto di massa su oggetti non visti, con le dinamiche temporali che contribuiscono per un +11.2% oltre l'aspetto statico, la scalabilità degli agenti che replica la compositività al 90% per 4 agenti, e l'intervento causale che si estende a video reali (d=1.87, p=0.022).
I modelli linguistici di grandi dimensioni audiovisivi (AVLLM) stanno emergendo come interfacce unificate per la percezione multimodale. Presentiamo il primo studio di interpretabilità meccanicistica sugli AVLLM, analizzando come le caratteristiche audio e visive evolvono e si fondono attraverso i diversi strati di un AVLLM per produrre gli output testuali finali. Scopriamo che, sebbene gli AVLLM codifichino una ricca semantica audio negli strati intermedi, queste capacità in gran parte non emergono nella generazione del testo finale quando l'audio è in conflitto con la visione. Analisi di probing mostrano che sono presenti utili informazioni audio latenti, ma gli strati di fusione più profondi privilegiano sproporzionatamente le rappresentazioni visive, che tendono a sopprimere gli indizi audio. Rintracciamo ulteriormente questo squilibrio nell'addestramento: il comportamento audio dell'AVLLM corrisponde fortemente al suo modello base visione-linguaggio, indicando un limitato allineamento aggiuntivo alla supervisione audio. I nostri risultati rivelano un bias modale fondamentale negli AVLLM e forniscono nuove intuizioni meccanicistiche su come i modelli linguistici multimodali integrano audio e visione.
L'apprendimento per rinforzo da ricompense verificabili (RLVR) ha migliorato le capacità di ragionamento dei LLM, ma rimane una limitazione fondamentale: i modelli non possono apprendere da problemi troppo difficili da risolvere con la loro politica corrente, poiché questi non forniscono alcun segnale di ricompensa significativo. Proponiamo una soluzione semplice ma efficace basata sulla riformulazione del compito. Trasformiamo problemi complessi a risposta aperta in varianti cognitive più semplici – come formati a scelta multipla e cloze – che preservano la risposta originale riducendo lo spazio di ricerca effettivo e fornendo segnali di apprendimento più densi. Queste riformulazioni coprono uno spettro che va da compiti discriminativi a generativi, che sfruttiamo per avviare l'apprendimento: i modelli apprendono prima da formati strutturati e più facili, e questa conoscenza si trasferisce per migliorare le prestazioni sui problemi aperti originali. Sulla base di questa intuizione, introduciamo Cog-DRIFT, un framework che costruisce varianti riformulate e le organizza in un curriculum adattivo basato sulla difficoltà. L'addestramento procede da formati più facili a più difficili, consentendo al modello di apprendere da problemi che in precedenza fornivano segnale zero sotto il post-addestramento RL standard. Cog-DRIFT non solo migliora sui problemi difficili originariamente irrisolvibili (+10.11% assoluto per Qwen e +8.64% per Llama) ma generalizza bene anche su altri dataset tenuti da parte. Attraverso 2 modelli e 6 benchmark di ragionamento, il nostro metodo supera costantemente il GRPO standard e baseline forti di esplorazione guidata. In media, Cog-DRIFT mostra miglioramenti del +4.72% (Qwen) e del +3.23% (Llama) rispetto alla seconda migliore baseline. Mostriamo inoltre che Cog-DRIFT migliora la pass@k al momento del test e che il curriculum migliora l'efficienza campionaria. Nel complesso, i nostri risultati evidenziano la riformulazione del compito e l'apprendimento per curriculum come un paradigma efficace per superare la barriera esplorativa nel post-addestramento dei LLM.
I modelli linguistici di diffusione (dLLM) consentono teoricamente la decodifica dei token in un ordine arbitrario, una flessibilità che potrebbe permettere un'esplorazione più ricca dei percorsi di ragionamento rispetto ai modelli linguistici autoregressivi (AR). Tuttavia, nella pratica, la decodifica con ordine casuale spesso compromette la qualità della generazione. Per mitigare questo problema, la rimascheramento a bassa confidenza migliora la qualità del singolo campione (ad esempio, Pass@1) dando priorità ai token più confidenti, ma sopprime anche l'esplorazione e limita i guadagni su più campioni (ad esempio, Pass@k), creando un fondamentale dilemma qualità-esplorazione. In questo articolo, forniamo una spiegazione unificata di questo dilemma. Dimostriamo che la rimascheramento a bassa confidenza migliora un proxy miope per la qualità, limitando al contempo in modo dimostrabile l'entropia della distribuzione di sequenza indotta. Per superare questa limitazione, caratterizziamo la distribuzione ottimale che bilancia esplicitamente qualità ed esplorazione, e sviluppiamo un semplice campionatore Independent Metropolis-Hastings che mira approssimativamente a questa distribuzione durante la decodifica. Esperimenti su una serie di benchmark di ragionamento, tra cui MATH500, AIME24/25, HumanEval e MBPP, mostrano che il nostro approccio produce un miglior compromesso tra esplorazione e qualità rispetto sia alla rimascheramento casuale che a quella a bassa confidenza.