Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo GLM-5, un modello di base di prossima generazione progettato per transitare il paradigma della programmazione intuitiva verso l'ingegneria agentiva. Basandosi sulle capacità agentive, di ragionamento e di codifica (ARC) del suo predecessore, GLM-5 adotta la DSA per ridurre significativamente i costi di addestramento e inferenza mantenendo al contempo la fedeltà del contesto lungo. Per far progredire l'allineamento e l'autonomia del modello, implementiamo una nuova infrastruttura di apprendimento per rinforzo asincrono che migliora drasticamente l'efficienza post-addestramento disaccoppiando la generazione dalla fase di training. Inoltre, proponiamo nuovi algoritmi asincroni di RL per agenti che migliorano ulteriormente la qualità dell'apprendimento per rinforzo, consentendo al modello di apprendere da interazioni complesse e a lungo termine in modo più efficace. Grazie a queste innovazioni, GLM-5 raggiunge prestazioni all'avanguardia sui principali benchmark open. Soprattutto, GLM-5 dimostra capacità senza precedenti in compiti di programmazione del mondo reale, superando i precedenti benchmark nella gestione di sfide di ingegneria del software end-to-end. Codice, modelli e ulteriori informazioni sono disponibili su https://github.com/zai-org/GLM-5.
Le Competenze Agente sono pacchetti strutturati di conoscenza procedurale che potenziano gli agenti LLM durante l'inferenza. Nonostante la rapida adozione, non esiste un modo standard per misurare se siano effettivamente d'aiuto. Presentiamo SkillsBench, un benchmark di 86 task in 11 domini, abbinati a Competenze selezionate e verificatori deterministici. Ogni task viene valutato in tre condizioni: nessuna Competenza, Competenze selezionate e Competenze auto-generate. Testiamo 7 configurazioni di modelli-agente su 7.308 traiettorie. Le Competenze selezionate aumentano il tasso di successo medio di 16,2 punti percentuali (pp), ma gli effetti variano notevolmente per dominio (da +4,5 pp per l'Ingegneria del Software a +51,9 pp per la Sanità) e 16 task su 84 mostrano delta negativi. Le Competenze auto-generate non forniscono alcun beneficio in media, dimostrando che i modelli non possono creare in modo affidabile la conoscenza procedurale di cui beneficiano quando la consumano. Competenze focalizzate con 2-3 moduli superano la documentazione completa, e modelli più piccoli dotati di Competenze possono eguagliare modelli più grandi che ne sono sprovvisti.
Gli autoencoder sparsi (SAE) sono emersi come uno strumento promettente per interpretare le reti neurali, scomponendo le loro attivazioni in insiemi sparsi di feature interpretabili dall'uomo. Recentemente sono state introdotte numerose varianti di SAE e sono state scalate con successo su modelli all'avanguardia. Nonostante l'entusiasmo, un numero crescente di risultati negativi in task downstream mette in dubbio che i SAE riescano a recuperare feature significative. Per indagare direttamente questo aspetto, conduciamo due valutazioni complementari. In un setup sintetico con feature ground-truth note, dimostriamo che i SAE recuperano solo il 9% delle feature reali nonostante raggiungano il 71% di varianza spiegata, mostrando che falliscono nel loro compito fondamentale anche quando la ricostruzione è efficace. Per valutare i SAE su attivazioni reali, introduciamo tre baseline che vincolano le direzioni delle feature dei SAE o i loro pattern di attivazione a valori casuali. Attraverso esperimenti estesi su più architetture SAE, mostriamo che le nostre baseline eguagliano i SAE addestrati in interpretabilità (0.87 vs 0.90), sparse probing (0.69 vs 0.72) e causal editing (0.73 vs 0.72). Complessivamente, questi risultati suggeriscono che i SAE nel loro stato attuale non scompongono in modo affidabile i meccanismi interni dei modelli.
Mentre gli agenti basati su grandi modelli linguistici popolano sempre più gli ambienti in rete, sorge una domanda fondamentale: le società di agenti di intelligenza artificiale (IA) subiscono dinamiche di convergenza simili ai sistemi sociali umani? Recentemente, Moltbook approssima uno scenario futuro plausibile in cui agenti autonomi partecipano a una società online in continua evoluzione e aperta. Presentiamo la prima diagnosi sistemica su larga scala di questa società di agenti IA. Oltre all'osservazione statica, introduciamo un quadro diagnostico quantitativo per l'evoluzione dinamica nelle società di agenti IA, misurando la stabilizzazione semantica, il turnover lessicale, l'inerzia individuale, la persistenza dell'influenza e il consenso collettivo. La nostra analisi rivela un sistema in equilibrio dinamico in Moltbook: sebbene le medie semantiche globali si stabilizzino rapidamente, i singoli agenti mantengono un'elevata diversità e un persistente turnover lessicale, sfidando l'omogeneizzazione. Tuttavia, gli agenti mostrano una forte inerzia individuale e una risposta adattativa minima ai partner di interazione, impedendo l'influenza reciproca e il consenso. Di conseguenza, l'influenza rimane transitoria senza supernodi persistenti, e la società non riesce a sviluppare ancore di influenza collettiva stabili a causa dell'assenza di una memoria sociale condivisa. Questi risultati dimostrano che la scala e la densità di interazione da sole sono insufficienti per indurre socializzazione, fornendo principi di progettazione e analisi azionabili per le prossime società di agenti IA di prossima generazione.
I modelli di embedding testuali sono ampiamente utilizzati per compiti di similarità semantica, inclusi il recupero di informazioni, il clustering e la classificazione. I modelli generici sono tipicamente addestrati con processi a singolo o multi stadio che utilizzano funzioni di loss contrastiva. Introduciamo un regime di addestramento innovativo che combina tecniche di distillazione del modello con una loss contrastiva specifica per il compito, per produrre modelli di embedding compatti e ad alte prestazioni. I nostri risultati suggeriscono che questo approccio è più efficace per l'addestramento di modelli piccoli rispetto ai paradigmi di addestramento puramente contrastivi o basati solo sulla distillazione. I punteggi di benchmark dei modelli risultanti, jina-embeddings-v5-text-small e jina-embeddings-v5-text-nano, superano o eguagliano lo stato dell'arte per modelli di dimensioni simili. I modelli jina-embeddings-v5-text supportano inoltre testi lunghi (fino a 32k token) in molte lingue e generano embedding che rimangono robusti nonostante troncamento e quantizzazione binaria. I pesi dei modelli sono pubblicamente disponibili, con l'auspicio di ispirare ulteriori progressi nello sviluppo di modelli di embedding.
Clawdbot è un agente di IA personale auto-ospitato e abile nell'uso di strumenti, dotato di un ampio spazio d'azione che spazia dall'esecuzione locale a flussi di lavoro mediati dal web. Ciò solleva preoccupazioni accentuate in materia di sicurezza e protezione in contesti ambigui o sotto condizionamento avversariale. Presentiamo una valutazione centrata sulle traiettorie di Clawdbot lungo sei dimensioni di rischio. La nostra suite di test campiona e adatta leggermente scenari da benchmark precedenti sulla sicurezza degli agenti (inclusi ATBench e LPS-Bench) e li integra con casi progettati manualmente, specificamente mirati alla superficie strumentale di Clawdbot. Registriamo le traiettorie complete di interazione (messaggi, azioni, argomenti/risultati delle chiamate agli strumenti) e valutiamo la sicurezza utilizzando sia un giudice automatico delle traiettorie (AgentDoG-Qwen3-4B) che una revisione umana. Attraverso 34 casi canonici, emerge un profilo di sicurezza non uniforme: le prestazioni sono generalmente coerenti nei compiti incentrati sull'affidabilità, mentre la maggior parte degli insuccessi si verifica in presenza di intenti sotto-specificati, obiettivi aperti o prompt di jailbreak apparentemente benigni, dove lievi interpretazioni errate possono degenerare in azioni strumentali ad alto impatto. Abbiamo integrato i risultati complessivi con studi di caso rappresentativi e riassunto le caratteristiche comuni di questi casi, analizzando le vulnerabilità di sicurezza e le modalità di errore tipiche che Clawdbot tende a innescare nella pratica.
Introduciamo ResearchGym, un benchmark e un ambiente di esecuzione per valutare agenti di IA nella ricerca end-to-end. Per istanziarlo, riadattiamo cinque articoli orali e spotlight provenienti da ICML, ICLR e ACL. Per ogni repository degli articoli, preserviamo i dataset, il sistema di valutazione e le implementazioni di baseline, ma omettiamo il metodo proposto dall'articolo. Ciò si traduce in cinque ambienti di task containerizzati che comprendono complessivamente 39 sotto-task. All'interno di ogni ambiente, gli agenti devono proporre nuove ipotesi, eseguire esperimenti e tentare di superare solide baseline umane sulle metriche dell'articolo. In una valutazione controllata di un agente basato su GPT-5, osserviamo un netto divario capacità-affidabilità. L'agente migliora le baseline fornite dal repository solo in 1 caso su 15 valutazioni (6,7%), con un miglioramento dell'11,5%, e completa in media solo il 26,5% dei sotto-task. Identifichiamo modi di fallimento ricorrenti a lungo termine, tra cui impazienza, scarsa gestione del tempo e delle risorse, eccessiva fiducia in ipotesi deboli, difficoltà nel coordinare esperimenti paralleli e limiti rigidi dovuti alla lunghezza del contesto. Tuttavia, in una singola esecuzione, l'agente supera la soluzione di un task Spotlight di ICML 2025, indicando che gli agenti all'avanguardia possono occasionalmente raggiungere prestazioni di stato dell'arte, ma in modo non affidabile. Valutiamo inoltre scaffold di agenti proprietari, tra cui Claude Code (Opus-4.5) e Codex (GPT-5.2), che mostrano un divario simile. ResearchGym fornisce l'infrastruttura per la valutazione sistematica e l'analisi di agenti autonomi nella ricerca a ciclo chiuso.
I modelli unificati possono gestire sia la comprensione che la generazione multimodale all'interno di un'unica architettura, ma tipicamente operano in un singolo passaggio senza perfezionare iterativamente i propri output. Molti compiti multimodali, specialmente quelli che coinvolgono composizioni spaziali complesse, oggetti multipli in interazione o istruzioni in evoluzione, richiedono la scomposizione delle istruzioni, la verifica dei risultati intermedi e l'apporto di correzioni iterative. Sebbene lo scaling al tempo di test (TTS) abbia dimostrato che l'allocazione di risorse computazionali aggiuntive per il ragionamento iterativo migliori sostanzialmente le prestazioni dei modelli linguistici, estendere questo paradigma ai modelli multimodali unificati rimane una sfida aperta. Introduciamo UniT, un framework per lo scaling al tempo di test con catena di pensiero multimodale che consente a un singolo modello unificato di ragionare, verificare e perfezionare attraverso più round. UniT combina sintesi dati agentica, addestramento unificato del modello e inferenza flessibile al tempo di test per elicitare comportamenti cognitivi inclusi verifica, scomposizione in sottobiettivi e memoria dei contenuti. Le nostre principali scoperte sono: (1) i modelli unificati addestrati su traiettorie di ragionamento brevi generalizzano a catene inferenziali più lunghe al momento del test; (2) il ragionamento sequenziale a catena di pensiero fornisce una strategia TTS più scalabile e computazionalmente efficiente del campionamento parallelo; (3) l'addestramento su traiettorie di generazione e editing migliora il ragionamento visivo fuori distribuzione. Questi risultati stabiliscono lo scaling multimodale al tempo di test come un paradigma efficace per far progredire sia la generazione che la comprensione nei modelli unificati.
L'Ipotesi della Rappresentazione Platonica suggerisce che le rappresentazioni delle reti neurali stiano convergendo verso un modello statistico comune della realtà. Dimostriamo che le metriche esistenti utilizzate per misurare la somiglianza rappresentazionale sono confuse dalla scala della rete: l'aumento della profondità o dell'ampiezza del modello può sistematicamente inflazionare i punteggi di somiglianza rappresentazionale. Per correggere questi effetti, introduciamo un framework di null-calibrazione basato su permutazioni che trasforma qualsiasi metrica di somiglianza rappresentazionale in un punteggio calibrato con garanzie statistiche. Rivediamo l'Ipotesi della Rappresentazione Platonica con il nostro framework di calibrazione, il quale rivela un quadro sfumato: l'apparente convergenza riportata dalle misure spettrali globali scompare in gran parte dopo la calibrazione, mentre la somiglianza locale di vicinato, ma non le distanze locali, conserva un accordo significativo tra diverse modalità. Sulla base di questi risultati, proponiamo l'Ipotesi della Rappresentazione Aristotelica: le rappresentazioni nelle reti neurali stanno convergendo verso relazioni di vicinato locali condivise.
I modelli predittivi del mondo che simulano osservazioni future sotto controllo esplicito della fotocamera sono fondamentali per l'IA interattiva. Nonostante i rapidi progressi, i sistemi attuali mancano di persistenza spaziale: non riescono a mantenere strutture di scena stabili su traiettorie lunghe, allucinando frequentemente dettagli quando le telecamere rivisitano posizioni precedentemente osservate. Identifichiamo che questa deriva geometrica origina dalla dipendenza da embedding posizionali nello spazio dello schermo, che confliggono con la geometria proiettiva richiesta per la consistenza 3D. Introduciamo ViewRope, una codifica consapevole della geometria che inietta le direzioni dei raggi della fotocamera direttamente negli strati di self-attention dei transformer video. Parametrizzando l'attenzione con la geometria relativa dei raggi anziché con la località dei pixel, ViewRope fornisce un bias induttivo nativo al modello per recuperare contenuti 3D-consistenti attraverso intervalli temporali. Proponiamo inoltre l'Attenzione Sparsa su Frame Consapevole della Geometria, che sfrutta questi segnali geometrici per selezionare attentamente i frame storici rilevanti, migliorando l'efficienza senza sacrificare la consistenza della memoria. Presentiamo anche ViewBench, una suite diagnostica che misura la fedeltà nella chiusura dei loop e la deriva geometrica. I nostri risultati dimostrano che ViewRope migliora sostanzialmente la consistenza a lungo termine riducendo al contempo i costi computazionali.
L'addestramento di grandi modelli linguistici (LLM) si basa quasi esclusivamente su ottimizzatori adattivi densi con precondizionatori sempre più sofisticati. Noi contestiamo questo approccio dimostrando che l'applicazione casuale di maschere agli aggiornamenti dei parametri può essere estremamente efficace, con una variante mascherata di RMSProp che supera costantemente i recenti ottimizzatori all'avanguardia. La nostra analisi rivela che il mascheramento casuale induce una regolarizzazione geometrica dipendente dalla curvatura che appiana la traiettoria di ottimizzazione. Sulla base di questa scoperta, introduciamo il *Momentum-aligned gradient masking* (Magma), che modula gli aggiornamenti mascherati utilizzando l'allineamento momento-gradiente. Esperimenti estesi di pre-addestramento di LLM mostrano che Magma è una semplice sostituzione *drop-in* per gli ottimizzatori adattivi, con guadagni consistenti e un overhead computazionale trascurabile. In particolare, per modelli di dimensione 1B, Magma riduce la perplessità di oltre il 19% e il 9% rispetto rispettivamente ad Adam e Muon.
L'esame finale dell'umanità (HLE) è diventato un punto di riferimento ampiamente utilizzato per valutare i modelli linguistici avanzati su domande complesse e multi-dominio. Tuttavia, analisi condotte dalla comunità hanno sollevato preoccupazioni sul fatto che HLE contenga un numero non trascurabile di elementi rumorosi, che possono distorcere i risultati di valutazione e i confronti tra modelli. Per affrontare questa sfida, presentiamo HLE-Verified, una versione verificata e revisionata di HLE con un protocollo di verifica trasparente e una tassonomia degli errori granulare. La nostra costruzione segue un flusso di lavoro di validazione e riparazione in due fasi, che dà luogo a un benchmark certificato. Nella Fase I, ogni elemento subisce una validazione binaria del problema e della risposta finale attraverso una revisione di esperti di dominio e controlli incrociati basati su modelli, producendo 641 elementi verificati. Nella Fase II, gli elementi imperfetti ma riparabili vengono revisionati con vincoli rigorosi che preservano l'intento valutativo originale, attraverso riparazioni duali e indipendenti di esperti, audit assistiti da modelli e arbitraggio finale, risultando in 1.170 elementi revisionati e certificati. I restanti 689 elementi vengono rilasciati come un insieme incerto documentato, con fonti di incertezza esplicite ed etichette di competenza per futuri affinamenti. Valutiamo sette modelli linguistici all'avanguardia su HLE e HLE-Verified, osservando un guadagno medio assoluto di accuratezza del 7-10 percento su HLE-Verified. Il miglioramento è particolarmente pronunciato sugli elementi in cui l'enunciato del problema originale e/o la risposta di riferimento sono errati, con guadagni del 30-40 percento. Le nostre analisi rivelano inoltre una forte associazione tra la confidenza del modello e la presenza di errori nell'enunciato del problema o nella risposta di riferimento, supportando l'efficacia delle nostre revisioni. Nel complesso, HLE-Verified migliora le valutazioni in stile HLE riducendo il rumore di annotazione e consentendo una misurazione più fedele delle capacità dei modelli. I dati sono disponibili all'indirizzo: https://github.com/SKYLENAGE-AI/HLE-Verified
I Large Language Model (LLM) stanno cambiando il paradigma della programmazione, noto come "vibe coding", ma la sintesi di codice algoritmicamente sofisticato e robusto rimane una sfida critica. Incentivare le capacità di ragionamento profondo degli LLM è essenziale per superare questo ostacolo. Il Reinforcement Fine-Tuning (RFT) è emerso come una strategia promettente per soddisfare questa esigenza. Tuttavia, la maggior parte degli approcci esistenti trascura l'eterogeneità della difficoltà e della granularità intrinseche dei casi di test, portando a una distribuzione squilibrata dei segnali di reward e, di conseguenza, a aggiornamenti del gradiente distorti durante l'addestramento. Per affrontare questo problema, proponiamo il Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT costruisce sistematicamente, per ogni problema, una suite di test a quattro livelli (base, intermedio, complesso, edge), fornendo un panorama di difficoltà controllato per la progettazione del curriculum e la valutazione. Fondamentalmente, TAROT disaccoppia la progressione del curriculum dai punteggi di reward grezzi, consentendo una valutazione condizionata dalle capacità e una selezione principiata da un portafoglio di politiche di curriculum, piuttosto che una composizione accidentale della difficoltà dei casi di test. Questo design favorisce un'ottimizzazione stabile e un'acquisizione più efficiente delle competenze. I risultati sperimentali su larga scala rivelano che il curriculum ottimale per l'RFT nella generazione di codice è strettamente legato alla capacità intrinseca di un modello: modelli meno capaci ottengono maggiori miglioramenti con una progressione facile-difficile, mentre modelli più competenti eccellono con un curriculum difficile-all'inizio. TAROT fornisce un metodo riproducibile che adatta dinamicamente la progettazione del curriculum alle capacità di un modello, migliorando così costantemente la correttezza funzionale e la robustezza del codice generato. Tutto il codice e i dati sono rilasciati per favorire la riproducibilità e far avanzare la ricerca della comunità all'indirizzo https://github.com/deep-diver/TAROT.
La compressione post-addestramento dei modelli Transformer si basa comunemente sulla decomposizione ai valori singolari (SVD) troncata. Tuttavia, l'imposizione di un unico sottospazio condiviso può degradare l'accuratezza anche a livelli di compressione moderati. L'apprendimento di dizionari sparsi fornisce una rappresentazione più flessibile basata su unione di sottospazi, ma gli approcci esistenti spesso soffrono di aggiornamenti iterativi del dizionario e dei coefficienti. Proponiamo COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), un framework di compressione senza addestramento che utilizza un piccolo dataset di calibrazione per stimare una fattorizzazione sparsa dei pesi. COMPOT impiega dizionari ortogonali che abilitano aggiornamenti di Procrustes in forma chiusa per il dizionario e una codifica sparsa analitica in un singolo passo per i coefficienti, eliminando l'ottimizzazione iterativa. Per gestire l'eterogenea sensibilità dei layer sotto un budget di compressione globale, COMPOT introduce inoltre una strategia di allocazione dinamica one-shot che ridistribuisce adattivamente i tassi di compressione per layer. Esperimenti estesi su diverse architetture e task dimostrano che COMPOT offre costantemente un miglior compromesso qualità-compressione rispetto a solidi baseline di basso rango e sparsi, rimanendo al contempo completamente compatibile con la quantizzazione post-addestramento per una compressione estrema. Il codice è disponibile {qui}(https://github.com/mts-ai/COMPOT).
I modelli del mondo richiedono una solida comprensione relazionale per supportare previsioni, ragionamento e controllo. Sebbene le rappresentazioni object-centric forniscano un'utile astrazione, non sono sufficienti per catturare dinamiche dipendenti dalle interazioni. Proponiamo quindi C-JEPA, un modello del mondo object-centric semplice e flessibile che estende la predizione mascherata di embedding congiunti dai patch di immagine alle rappresentazioni object-centric. Applicando un mascheramento a livello di oggetto che richiede di inferire lo stato di un oggetto dagli altri oggetti, C-JEPA induce interventi latenti con effetti simili al controfattuale e previene soluzioni di scorciatoia, rendendo essenziale il ragionamento interattivo. Empiricamente, C-JEPA produce miglioramenti consistenti nel visual question answering, con un incremento assoluto di circa il 20% nel ragionamento controfattuale rispetto alla stessa architettura senza mascheramento a livello di oggetto. Sui compiti di controllo di agenti, C-JEPA abilita una pianificazione sostanzialmente più efficiente utilizzando solo l'1% delle caratteristiche latenti di input totali richieste dai modelli del mondo basati su patch, pur raggiungendo prestazioni comparabili. Infine, forniamo un'analisi formale che dimostra come il mascheramento a livello di oggetto induca un bias induttivo causale tramite interventi latenti. Il nostro codice è disponibile all'indirizzo https://github.com/galilai-group/cjepa.
La ricerca attuale sui modelli multimodali affronta una sfida cruciale: il potenziamento delle capacità generative spesso avviene a scapito della comprensione, e viceversa. Abbiamo analizzato questo compromesso e individuato come causa principale il potenziale conflitto tra generazione e comprensione, che crea una dinamica competitiva all'interno del modello. Per risolvere questo problema, proponiamo il framework Reason-Reflect-Refine (R3). Questo innovativo algoritmo riformula il compito di generazione in un singolo passo in un processo multi-step di "generazione-comprensione-rigenerazione". Sfruttando esplicitamente la capacità di comprensione del modello durante la generazione, siamo riusciti a mitigare il dilemma di ottimizzazione, ottenendo risultati generativi più solidi e una migliore capacità di comprensione correlata al processo generativo. Ciò offre spunti preziosi per la progettazione di modelli multimodali unificati di prossima generazione. Il codice è disponibile all'indirizzo https://github.com/sen-ye/R3.
I modelli linguistici sono sempre più utilizzati per ragionare su contenuti su cui non sono stati addestrati, come nuovi documenti, conoscenze in evoluzione e dati specifici dell'utente. Un approccio comune è la generazione aumentata dal recupero (RAG), che memorizza i documenti testuali in modo esterno (come frammenti) e recupera solo un sottoinsieme rilevante al momento dell'inferenza su cui un LLM può ragionare. Tuttavia, ciò comporta un uso inefficiente della potenza di calcolo durante il test (l'LLM ragiona ripetutamente sugli stessi documenti); inoltre, il recupero di frammenti può introdurre contesto irrilevante che aumenta la generazione non supportata. Proponiamo un framework di apprendimento continuo non parametrico di tipo umano, in cui il modello base rimane fisso e l'apprendimento avviene integrando ogni nuova esperienza in uno stato di memoria semantica esterno che si accumula e si consolida continuamente. Presentiamo Panini, che realizza ciò rappresentando i documenti come Spazi di Lavoro Semantici Generativi (GSW) – una rete consapevole di entità ed eventi composta da coppie domanda-risposta (QA), sufficiente affinché un LLM ricostruisca le situazioni vissute ed estragga conoscenze latenti tramite catene inferenziali fondate sul ragionamento sulla rete. Data una query, Panini attraversa solo il GSW in continuo aggiornamento (non i documenti testuali o i frammenti) e recupera le catene inferenziali più probabili. Su sei benchmark di QA, Panini raggiunge le prestazioni medie più elevate, dal 5% al 7% superiori rispetto ad altre baseline competitive, utilizzando da 2 a 30 volte meno token di contesto-risposta, supporta pipeline completamente open-source e riduce le risposte non supportate su query curate senza risposta. I risultati mostrano che una strutturazione efficiente e accurata delle esperienze al momento della scrittura – come ottenuta dal framework GSW – produce guadagni sia in termini di efficienza che di affidabilità al momento della lettura. Il codice è disponibile all'indirizzo https://github.com/roychowdhuryresearch/gsw-memory.
Il web è disseminato di immagini, create in origine per il consumo umano e ora sempre più interpretate da agenti che utilizzano modelli visione-linguaggio (VLM). Questi agenti prendono decisioni visive su larga scala, decidendo cosa cliccare, raccomandare o acquistare. Tuttavia, sappiamo poco della struttura delle loro preferenze visive. Introduciamo un framework per studiare questo fenomeno ponendo i VLM in compiti di scelta basati su immagini controllati e perturbando sistematicamente i loro input. La nostra idea chiave è trattare la funzione decisionale dell'agente come un'utilità visiva latente che può essere inferita attraverso la preferenza rivelata: scelte tra immagini modificate sistematicamente. Partendo da immagini comuni, come foto di prodotti, proponiamo metodi per l'ottimizzazione del prompt visivo, adattando i metodi di ottimizzazione del testo per proporre e applicare iterativamente modifiche visivamente plausibili utilizzando un modello di generazione di immagini (ad esempio nella composizione, nell'illuminazione o nello sfondo). Valutiamo quindi quali modifiche aumentano la probabilità di selezione. Attraverso esperimenti su larga scala condotti su VLM all'avanguardia, dimostriamo che modifiche ottimizzate alterano significativamente le probabilità di scelta in confronti testa a testa. Sviluppiamo una pipeline di interpretabilità automatica per spiegare queste preferenze, identificando temi visivi coerenti che guidano la selezione. Sosteniamo che questo approccio offra un modo pratico ed efficiente per far emergere vulnerabilità visive e problemi di sicurezza che altrimenti potrebbero essere scoperti implicitamente "in the wild", supportando audit e governance più proattivi per gli agenti di IA basati su immagini.
Per la distribuzione di modelli fondazionali, i professionisti necessitano sempre più di leggi di scaling prescrittive: dato un budget computazionale per il pre-addestramento, quale accuratezza downstream è raggiungibile con le moderne pratiche di post-addestramento, e quanto è stabile questa mappatura con l'evolversi del settore? Utilizzando valutazioni osservative su larga scala con 5k dati osservativi e 2k dati appena campionati sulle prestazioni dei modelli, stimiamo i confini delle capacità, ovvero i quantili condizionati elevati dei punteggi di benchmark in funzione del logaritmo dei FLOP di pre-addestramento, tramite regressione quantile smoothed con una parametrizzazione sigmoide monotona e saturante. Convalidiamo l'affidabilità temporale adattando il modello su generazioni di modelli precedenti e valutandolo su release successive. In varie attività, i confini stimati sono per lo più stabili, ad eccezione del ragionamento matematico che mostra un confine in costante avanzamento nel tempo. Estendiamo quindi il nostro approccio per analizzare la saturazione dipendente dal compito e per investigare gli spostamenti legati alla contaminazione nelle attività di ragionamento matematico. Infine, introduciamo un algoritmo efficiente che recupera le frontiere dei dati quasi complete utilizzando circa il 20% del budget di valutazione. Insieme, il nostro lavoro rilascia il Proteus 2k, il più recente dataset di valutazione delle prestazioni dei modelli, e introduce una metodologia pratica per tradurre i budget computazionali in aspettative di prestazione affidabili e per monitorare quando i confini delle capacità si spostano nel tempo.
L'apprendimento per rinforzo (RL) ha migliorato significativamente il ragionamento dei grandi modelli linguistici, ma i metodi di fine-tuning RL esistenti si basano pesantemente su tecniche euristiche come la regolarizzazione dell'entropia e il ripesaggio per mantenere la stabilità. In pratica, essi sperimentano spesso un collasso delle prestazioni nelle fasi finali, portando a un deterioramento della qualità del ragionamento e a un addestramento instabile. Deriviamo che l'ampiezza dei gradienti della politica per token in RL è negativamente correlata con la probabilità del token e con l'entropia locale della politica. Basandoci su questo risultato, dimostriamo che l'instabilità dell'addestramento è guidata da una piccolissima frazione di token, circa lo 0,01%, che definiamo token spurii. Quando tali token compaiono in risposte corrette, contribuiscono poco all'esito del ragionamento ma ereditano la ricompensa a livello di sequenza completa, portando ad aggiornamenti del gradiente anormalmente amplificati. Motivati da questa osservazione, proponiamo l'ottimizzazione della politica consapevole dei token spurii (STAPO) per l'affinamento di modelli su larga scala, che maschera selettivamente tali aggiornamenti e rinormalizza la perdita sui token validi. In sei benchmark di ragionamento matematico che utilizzano i modelli base Qwen 1.7B, 8B e 14B, STAPO dimostra costantemente una superiorità nella stabilità dell'entropia e raggiunge un miglioramento prestazionale medio del 7,13% rispetto a GRPO, 20-Entropy e JustRL.
La segmentazione delle azioni consente ai modelli Vision Language Action (VLA) di operare in tempo reale, ma l'esecuzione ingenua delle azioni segmentate presenta spesso discontinuità ai confini dei segmenti. Il Real-Time Chunking (RTC) mitiga questo problema, ma essendo esterno alla policy, porta a commutazioni multimodali spurie e traiettorie non intrinsecamente fluide. Proponiamo Legato, un metodo di continuazione applicato durante l'addestramento per policy VLA basate su flusso con azioni segmentate. Nello specifico, Legato inizializza il processo di rimozione del rumore partendo da una miscela, modellata in base allo scheduling, di azioni note e rumore, esponendo così il modello a informazioni parziali sulle azioni. Inoltre, Legato rimodella la dinamica del flusso appresa per garantire la coerenza del processo di rimozione del rumore tra addestramento e inferenza sotto guida passo-passo. Legato utilizza inoltre una condizione di scheduling randomizzata durante l'addestramento per supportare ritardi di inferenza variabili e raggiungere una fluidità controllabile. Empiricamente, Legato produce traiettorie più fluide e riduce le commutazioni multimodali spurie durante l'esecuzione, portando a minori esitazioni e tempi di completamento del task più brevi. Esperimenti estensivi nel mondo reale mostrano che Legato supera costantemente l'RTC in cinque compiti di manipolazione, ottenendo miglioramenti approssimativi del 10% sia nella fluidità della traiettoria che nel tempo di completamento del task.
I sistemi multi-agente (MAS) alimentati da Large Language Model hanno sbloccato capacità di ragionamento collaborativo avanzate, ma rimangono vincolati dall'inefficienza della comunicazione testuale discreta, che comporta un significativo sovraccarico computazionale e una perdita di informazione per quantizzazione. Sebbene il trasferimento di stati latenti offra un'alternativa a larga banda, gli approcci esistenti presuppongono architetture omogenee mittente-destinatario o si basano su traduttori appresi specifici per coppie, limitando scalabilità e modularità tra diverse famiglie di modelli con varietà disgiunte. In questo lavoro proponiamo Vision Wormhole, un framework innovativo che riutilizza l'interfaccia visiva dei Vision-Language Model (VLM) per abilitare una comunicazione indipendente dal testo e agnostica al modello. Introducendo un Codec Visivo Universale, mappiamo tracce eterogenee di ragionamento in uno spazio latente continuo condiviso e le iniettiamo direttamente nel pathway visivo del ricevitore, trattando di fatto l'encoder visivo come una porta universale per la telepatia inter-agente. Il nostro framework adotta una topologia hub-and-spoke per ridurre la complessità di allineamento a coppie da O(N²) a O(N) e sfrutta un obiettivo di distillazione teacher-student senza etichette per allineare il canale visivo ad alta velocità con i pattern di ragionamento robusti del pathway testuale. Esperimenti estesi su famiglie di modelli eterogenee (ad esempio Qwen-VL, Gemma) dimostrano che Vision Wormhole riduce il tempo di esecuzione end-to-end in confronti controllati, mantenendo una fedeltà di ragionamento comparabile ai MAS testuali standard. Il codice è disponibile all'indirizzo https://github.com/xz-liu/heterogeneous-latent-mas
Sebbene i grandi modelli linguistici (LLM) dimostrino conoscenze mediche di livello esperto, allineare le loro risposte aperte con le preferenze granulari dei clinici rimane una sfida. I metodi esistenti spesso si basano su obiettivi approssimativi o su giudici automatici inaffidabili, debolmente ancorati alle linee guida professionali. Proponiamo un framework in due fasi per colmare questa lacuna. In primo luogo, introduciamo HealthRubrics, un dataset di 7.034 esempi di preferenze verificate da medici, in cui i clinici perfezionano rubriche redatte da LLM per soddisfare rigorosi standard medici. In secondo luogo, distilliamo queste rubriche in HealthPrinciples: 119 principi ampiamente riutilizzabili e clinicamente fondati, organizzati per dimensioni cliniche, che consentono una supervisione scalabile oltre l'annotazione manuale. Utilizziamo HealthPrinciples per (1) un allineamento offline sintetizzando rubriche per query non etichettate e (2) come strumento in fase di inferenza per una revisione guidata autonoma. Un modello da 30B di parametri che attiva solo 3B di parametri durante l'inferenza, addestrato con il nostro framework, raggiunge il 33,4% su HealthBench-Hard, superando modelli molto più grandi come Deepseek-R1 e o3, stabilendo un baseline efficiente in termini di risorse per l'allineamento clinico.
L'elaborazione efficiente di contesti lunghi rimane una sfida cruciale per i moderni grandi modelli linguistici (LLM), specialmente in ambienti con risorse limitate. Le architetture a compressione soft promettono di estendere la lunghezza effettiva del contesto sostituendo lunghe sequenze di token con insiemi più piccoli di token compressi appresi. Tuttavia, i limiti della comprimibilità – e quando la compressione inizia a cancellare contenuti rilevanti per il task – rimangono poco esplorati. In questo articolo, definiamo l'overflow di token come un regime in cui le rappresentazioni compresse non contengono più informazioni sufficienti per rispondere a una determinata query, e proponiamo una metodologia per caratterizzarlo e rilevarlo. Nell'ambito della compressione soft xRAG, scopriamo che le statistiche di saturazione indipendenti dalla query separano in modo affidabile le rappresentazioni di token compresse da quelle non compresse, fornendo uno strumento pratico per identificare i token compressi ma mostrando una capacità limitata di rilevamento dell'overflow. Classificatori di probing leggeri applicati sia alle rappresentazioni della query che del contesto in xRAG rilevano l'overflow con una media di 0.72 AUC-ROC sui dataset HotpotQA, SQuADv2 e TriviaQA, dimostrando che l'incorporazione delle informazioni della query migliora le prestazioni di rilevamento. Questi risultati rappresentano un avanzamento dalle diagnostiche indipendenti dalla query a rilevatori query-aware, abilitando un gating pre-LLM a basso costo per mitigare gli errori indotti dalla compressione.
I grandi modelli linguistici (LLM) continuano ad avere difficoltà con domande ad alta intensità di conoscenza che richiedono informazioni aggiornate e ragionamenti multi-hop. Il potenziamento degli LLM con conoscenze esterne ibride, come testo non strutturato e grafi di conoscenza strutturati, offre un'alternativa promettente ai costosi addestramenti continui. Pertanto, una valutazione affidabile delle loro capacità di recupero e ragionamento diventa cruciale. Tuttavia, molti benchmark esistenti si sovrappongono sempre più ai dati di pre-addestramento degli LLM, il che significa che le risposte o le conoscenze di supporto potrebbero essere già codificate nei parametri del modello, rendendo difficile distinguere il genuino recupero e ragionamento dal richiamo parametrico. Introduciamo HybridRAG-Bench, un framework per costruire benchmark per valutare il ragionamento multi-hop ad alta intensità di recupero su conoscenze ibride. HybridRAG-Bench accoppia automaticamente rappresentazioni di testo non strutturato e grafi di conoscenza strutturati derivati dalla recente letteratura scientifica su arXiv e genera coppie domanda-risposta ad alta intensità di conoscenza basate su percorsi di ragionamento espliciti. Il framework supporta una selezione flessibile del dominio e dell'intervallo temporale, consentendo una valutazione personalizzata e consapevole della contaminazione man mano che i modelli e le conoscenze evolvono. Esperimenti condotti in tre domini (intelligenza artificiale, governance e politica, e bioinformatica) dimostrano che HybridRAG-Bench premia il genuino recupero e ragionamento piuttosto che il richiamo parametrico, offrendo un banco di prova strutturato per valutare sistemi di ragionamento potenziati da conoscenze ibride. Rilasciamo il nostro codice e i nostri dati su github.com/junhongmit/HybridRAG-Bench.