Articoli di ricerca IA selezionati quotidianamente con traduzioni
La generazione in pochi passi è da tempo un obiettivo ambito, con i recenti metodi di generazione one-step, come MeanFlow, che hanno ottenuto risultati notevoli. La ricerca esistente su MeanFlow si concentra principalmente sulla generazione da classe a immagine. Tuttavia, una direzione intuitiva ma ancora inesplorata è estendere la condizione dalle etichette di classe fisse a input testuali flessibili, consentendo una creazione di contenuti più ricca. Rispetto alle limitate etichette di classe, le condizioni testuali pongono sfide maggiori alla capacità di comprensione del modello, richiedendo l'integrazione efficace di potenti encoder testuali nel framework MeanFlow. Sorprendentemente, sebbene l'incorporazione di condizioni testuali appaia semplice, abbiamo riscontrato che integrare potenti encoder testuali basati su LLM utilizzando strategie di addestramento convenzionali produce prestazioni insoddisfacenti. Per scoprire la causa sottostante, abbiamo condotto analisi dettagliate e rivelato che, a causa del numero estremamente limitato di passi di raffinamento nella generazione MeanFlow, come ad esempio un solo passo, le rappresentazioni delle feature testuali devono possedere una sufficiente alta discriminabilità. Questo spiega anche perché feature di classe discrete e facilmente distinguibili performano bene all'interno del framework MeanFlow. Guidati da queste intuizioni, sfruttiamo un potente encoder testuale basato su LLM, verificato per possedere le proprietà semantiche richieste, e adattiamo il processo di generazione MeanFlow a questo framework, ottenendo per la prima volta una sintesi efficiente condizionata dal testo. Inoltre, convalidiamo il nostro approccio sul diffuso modello di diffusione, dimostrando significativi miglioramenti delle prestazioni generative. Speriamo che questo lavoro fornisca un riferimento generale e pratico per la futura ricerca sulla generazione MeanFlow condizionata dal testo. Il codice è disponibile all'indirizzo https://github.com/AMAP-ML/EMF.
Il ragionamento a catena di pensieri (CoT) è diventato un potente motore per la previsione di traiettorie nella guida autonoma basata su VLA (Vision-Language-Action), ma la sua natura autoregressiva impone un costo di latenza proibitivo per il dispiegamento in tempo reale. I metodi CoT latenti tentano di colmare questo divario comprimendo il ragionamento in stati nascosti continui, ma risultano costantemente inferiori alle loro controparti esplicite. Suggeriamo che ciò sia dovuto al fatto che le rappresentazioni latenti puramente linguistiche comprimono un'astrazione simbolica del mondo, piuttosto che le dinamiche causali che effettivamente governano la guida. Pertanto, presentiamo OneVL (Ragionamento e pianificazione latente one-step con spiegazioni visione-linguaggio), un framework unificato VLA e World Model che instrada il ragionamento attraverso token latenti compatti supervisionati da decoder ausiliari duali. Accanto a un decoder linguistico che ricostruisce il CoT testuale, introduciamo un decoder di world model visivo che predice i token dei frame futuri, forzando lo spazio latente a internalizzare le dinamiche causali della geometria stradale, del movimento degli agenti e del cambiamento ambientale. Una pipeline di addestramento in tre fasi allinea progressivamente questi stati latenti con obiettivi di traiettoria, linguaggio e visione, garantendo un'ottimizzazione congiunta stabile. In fase di inferenza, i decoder ausiliari vengono scartati e tutti i token latenti sono precompilati in un unico passaggio parallelo, eguagliando la velocità della predizione della sola risposta. Su quattro benchmark, OneVL diventa il primo metodo CoT latente a superare il CoT esplicito, fornendo un'accuratezza allo stato dell'arte con la latenza della sola risposta, e fornendo evidenza diretta che una compressione più stretta, quando guidata sia dalla supervisione linguistica che del world model, produce rappresentazioni più generalizzabili del ragionamento verboso token-per-token. Pagina del progetto: https://xiaomi-embodied-intelligence.github.io/OneVL
I modelli linguistici di grandi dimensioni sono sempre più destinati a fungere da agenti a scopo generale che interagiscono con ambienti strumentali esterni e dotati di stato. Il Model Context Protocol (MCP) e le più ampie competenze agent-based offrono un'interfaccia unificata per collegare gli agenti a servizi scalabili del mondo reale, ma l'addestramento di agenti robusti rimane limitato dalla mancanza di ambienti realistici e meccanismi principiati per l'apprendimento continuo. In questo articolo, presentiamo Agent-World, un'arena di addestramento auto-evolutiva per far progredire l'intelligenza agenziale generale attraverso ambienti scalabili. Agent-World ha due componenti principali: (1) l'Agentic Environment-Task Discovery, che esplora autonomamente database allineati a tematiche ed ecosistemi di strumenti eseguibili derivati da migliaia di temi ambientali del mondo reale, sintetizzando compiti verificabili con difficoltà controllabile; e (2) il Continuous Self-Evolving Agent Training, che combina l'apprendimento per rinforzo multi-ambiente con un'arena agenziale auto-evolutiva che identifica automaticamente le lacune nelle capacità attraverso la sintesi dinamica di compiti e guida un apprendimento mirato, consentendo la co-evoluzione delle politiche degli agenti e degli ambienti. Su 23 benchmark agenziali impegnativi, Agent-World-8B e 14B superano costantemente modelli proprietari avanzati e baseline di scalabilità ambientale. Ulteriori analisi rivelano trend di scalabilità in relazione alla diversità ambientale e ai cicli di auto-evoluzione, offrendo spunti per la costruzione di un'intelligenza agenziale generale.
Lo sviluppo di videogiochi si colloca all'intersezione tra progettazione creativa e ingegneria del software complessa, richiedendo l'orchestrazione congiunta di motori di gioco, loop in tempo reale e stati strettamente accoppiati tra molti file. Sebbene i Large Language Model (LLM) e gli agenti di codice risolvano ora con facilità compiti di programmazione isolati, inciampano costantemente quando viene chiesto loro di produrre un gioco completamente giocabile partendo da un design di alto livello, collassando a causa di inconsistenze tra file, cablaggi di scene interrotti e incoerenze logiche. Colmiamo questa lacuna con OpenGame, il primo framework agentico open-source progettato esplicitamente per la creazione end-to-end di giochi web. Al suo centro risiede Game Skill, una capacità riutilizzabile ed evolutiva composta da una Template Skill che fa crescere una libreria di scheletri di progetto dall'esperienza e una Debug Skill che mantiene un protocollo vivente di correzioni verificate - insieme consentono all'agente di impostare architetture stabili e riparare sistematicamente errori di integrazione piuttosto che correggere bug sintattici isolati. Alla base di questo framework c'è GameCoder-27B, un LLM per il codice specializzato nella padronanza dei motori di gioco attraverso una pipeline in tre fasi di pre-training continuo, fine-tuning supervisionato e reinforcement learning basato sull'esecuzione. Poiché verificare la giocabilità interattiva è fondamentalmente più difficile che controllare codice statico, introduciamo inoltre OpenGame-Bench, una pipeline di valutazione che assegna un punteggio alla generazione agentica di giochi lungo le dimensioni di Build Health, Usabilità Visiva e Allineamento all'Intent tramite esecuzione headless del browser e giudizio di VLM. Su 150 prompt di giochi diversi, OpenGame stabilisce un nuovo stato dell'arte. Speriamo che OpenGame spinga gli agenti di codice oltre i problemi discreti di ingegneria del software e verso la costruzione di applicazioni complesse, interattive e reali. Il nostro framework sarà completamente open-source.
I modelli video del mondo hanno ottenuto un notevole successo nella simulazione delle dinamiche ambientali in risposta alle azioni degli utenti o degli agenti. Sono modellati come generatori di video condizionati da azioni che prendono come input frame storici e azioni correnti per prevedere frame futuri. Tuttavia, la maggior parte degli approcci esistenti è limitata a scenari mono-agente e non riesce a catturare le complesse interazioni intrinseche ai sistemi multi-agente del mondo reale. Presentiamo MultiWorld, un framework unificato per la modellazione del mondo multi-agente e multi-vista che consente un controllo accurato di più agenti mantenendo al contempo la coerenza multi-vista. Introduciamo il Modulo Condizione Multi-Agente per ottenere una controllabilità multi-agente precisa e il Codificatore di Stato Globale per garantire osservazioni coerenti tra diverse viste. MultiWorld supporta una scalabilità flessibile del numero di agenti e viste e sintetizza le diverse viste in parallelo per un'elevata efficienza. Esperimenti in ambienti di gioco multi-giocatore e compiti di manipolazione multi-robot dimostrano che MultiWorld supera i baseline in termini di fedeltà video, capacità di seguire le azioni e coerenza multi-vista. Pagina del progetto: https://multi-world.github.io/
L'apprendimento per rinforzo da ricompense verificabili (RLVR) ha dimostrato un'efficacia notevole nel migliorare le capacità di ragionamento dei grandi modelli linguistici. Con l'evoluzione dei modelli verso architetture nativamente multimodali, estendere l'RLVR alla comprensione video diventa sempre più importante, ma rimane in gran parte inesplorato a causa della diversità dei tipi di compiti video, del sovraccarico computazionale legato alla decodifica e preelaborazione ripetuta di input visivi ad alta dimensionalità e della difficoltà di una valutazione riproducibile attraverso numerosi iperparametri sensibili. I framework open-source esistenti per l'addestramento RL forniscono un'infrastruttura solida per scenari testuali e basati su immagini, ma mancano di ottimizzazioni sistemiche specifiche per la modalità video. In questo lavoro presentiamo EasyVideoR1, un framework completo ed efficiente per l'apprendimento per rinforzo, progettato specificamente per l'addestramento di grandi modelli visione-linguaggio su compiti di comprensione video. EasyVideoR1 apporta i seguenti contributi: (1) una pipeline completa per l'addestramento RL su video con preelaborazione offline e caching dei tensori, che elimina la decodifica video ridondante e garantisce un miglioramento di 1.47 volte nel throughput; (2) un sistema di ricompensa completo e consapevole del compito, che copre 11 tipi distinti di problemi video e basati su immagini con instradamento unificato ed estensione modulare; (3) un paradigma di addestramento misto offline-online che combina traiettorie curate di alta qualità con esplorazione on-policy, a vantaggio dell'apprendimento di compiti più complessi; (4) un addestramento congiunto immagine-video con budget di pixel configurabili indipendentemente, permettendo alle due modalità di rafforzarsi reciprocamente; e (5) un framework di valutazione asincrono multi-benchmark che copre 22 benchmark mainstream per la comprensione video, con accuratezza riprodotta strettamente allineata ai punteggi ufficialmente riportati.
I grandi modelli linguistici vengono tipicamente addestrati in fase successiva mediante fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL), ma unificare efficacemente l'iniezione efficiente di conoscenze con una robusta generalizzazione rimane una sfida. In questo lavoro, forniamo un'analisi della dinamica di addestramento che mostra come l'SFT possa essere interpretato come un caso speciale di ottimizzazione del gradiente della politica con una ricompensa implicita estremamente sparsa e un instabile weighting a probabilità inversa, i quali insieme portano a una dipendenza da un singolo percorso, al collasso dell'entropia e all'esplosione del gradiente. Sulla base di questa diagnosi, proponiamo il Group Fine-Tuning (GFT), un framework unificato di post-addestramento che affronta queste limitazioni intrinseche attraverso due meccanismi: il Group Advantage Learning, che costruisce gruppi di risposta diversificati e deriva una supervisione contrastiva normalizzata per alleviare la sparsità della ricompensa, e la Dynamic Coefficient Rectification, che delimita in modo adattivo i pesi a probabilità inversa per stabilizzare l'ottimizzazione preservando al contempo l'iniezione efficiente di conoscenze. Gli esperimenti dimostrano che il GFT supera costantemente i metodi basati su SFT e produce politiche che si integrano più armoniosamente con il successivo addestramento RL.
I modelli linguistici di grandi dimensioni si stanno rapidamente evolvendo in agenti di codifica interattivi capaci di programmazione web end-to-end, tuttavia i benchmark esistenti valutano solo porzioni limitate di questa capacità, tipicamente la generazione condizionata da testo con metriche di correttezza statica, lasciando in gran parte non misurati la fedeltà visiva, la qualità dell'interazione e il ragionamento a livello di codebase. Introduciamo WebCompass, un benchmark multimodale che fornisce una valutazione unificata del ciclo di vita delle capacità di ingegneria web. Riconoscendo che la programmazione web nel mondo reale è un ciclo iterativo di generazione, modifica e riparazione, WebCompass abbraccia tre modalità di input (testo, immagine, video) e tre tipi di attività (generazione, modifica, riparazione), dando origine a sette categorie di compiti che rispecchiano i flussi di lavoro professionali. Attraverso una pipeline multi-stadio con un umano nel ciclo, curiamo istanze che coprono 15 domini di generazione, 16 tipi di operazioni di modifica e 11 tipi di difetti da riparare, ciascuna annotata a livelli Facile/Medio/Difficile. Per la valutazione, adottiamo un protocollo LLM-as-a-Judge guidato da checklist per modifica e riparazione, e proponiamo un nuovo paradigma Agent-as-a-Judge per la generazione che esegue autonomamente i siti web generati in un browser reale, esplora i comportamenti interattivi tramite il Model Context Protocol (MCP) e sintetizza iterativamente casi di test mirati, avvicinandosi molto ai test di accettazione umani. Valutiamo modelli rappresentativi closed-source e open-source e osserviamo che: (1) i modelli closed-source rimangono sostanzialmente più potenti e bilanciati; (2) modifica e riparazione mostrano profili di difficoltà distinti, con la riparazione che preserva meglio l'interattività ma rimane impegnativa a livello di esecuzione; (3) l'estetica è il collo di bottiglia più persistente, specialmente per i modelli open-source; e (4) la scelta del framework influisce materialmente sui risultati, con Vue costantemente impegnativo mentre React e Vanilla/HTML performano meglio a seconda del tipo di attività.
La costruzione di ambienti per l'addestramento e la valutazione di agenti ad artiglio rimane un processo manuale e ad alta intensità di lavoro umano che non è scalabile. Sosteniamo che ciò che serve non è solo un dataset, ma una pipeline automatizzata in grado di generare ambienti diversificati e verificati su richiesta. A tal fine, presentiamo ClawEnvKit, una pipeline di generazione autonoma che concretizza questo formalismo a partire da descrizioni in linguaggio naturale. La pipeline comprende tre moduli: (1) un parser che estrae parametri strutturati di generazione dall'input in linguaggio naturale; (2) un generatore che produce la specifica del task, l'interfaccia dello strumento e la configurazione del punteggio; e (3) un validatore che impone fattibilità, diversità, validità strutturale e coerenza interna tra gli ambienti generati. Utilizzando ClawEnvKit, costruiamo Auto-ClawEval, il primo benchmark su larga scala per agenti ad artiglio, comprendente 1.040 ambienti suddivisi in 24 categorie. Empiricamente, Auto-ClawEval eguaglia o supera gli ambienti curati manualmente in coerenza e chiarezza a un costo 13.800 volte inferiore. Valutando 4 famiglie di modelli e 8 framework di agenti, riscontriamo che l'ingegneria dell'harness aumenta le prestazioni fino a 15,7 punti percentuali rispetto a una baseline ReAct spoglia, che il completamento rimane l'asse principale di variazione senza che alcun modello saturi il benchmark, e che la generazione automatizzata consente valutazioni su una scala precedentemente irrealizzabile. Oltre al benchmarking statico, ClawEnvKit abilita la valutazione in tempo reale: gli utenti descrivono una capacità desiderata in linguaggio naturale e ottengono un ambiente verificato su richiesta, trasformando la valutazione in un processo continuo e guidato dall'utente. Lo stesso meccanismo funge da generatore di ambienti di addestramento on-demand, producendo distribuzioni di task che si adattano alle debolezze attuali di un agente piuttosto che essere limitate dai log utente esistenti.
I grandi modelli linguistici hanno ottenuto significativi miglioramenti nel ragionamento attraverso l'apprendimento per rinforzo con ricompense verificabili (RLVR). Tuttavia, con la crescita delle capacità dei modelli, la costruzione di segnali di ricompensa di alta qualità diventa sempre più difficile, rendendo essenziale comprendere quando l'RLVR può avere successo sotto forme più deboli di supervisione. Conduciamo uno studio empirico sistematico su diverse famiglie di modelli e domini di ragionamento in tre contesti di supervisione debole: dati scarsi, ricompense rumorose e ricompense proxy auto-supervisionate. Scopriamo che la generalizzazione è governata dalla dinamica di saturazione della ricompensa durante l'addestramento: i modelli che generalizzano mostrano una fase pre-saturazione prolungata durante la quale la ricompensa di addestramento e le prestazioni su compiti successivi crescono insieme, mentre i modelli che si saturano rapidamente memorizzano piuttosto che apprendere. Identifichiamo la fedeltà del ragionamento, definita come la misura in cui i passaggi intermedi supportano logicamente la risposta finale, come la proprietà pre-RL che predice in quale regime cade un modello, mentre la sola diversità degli output non è informativa. Motivati da questi risultati, separiamo i contributi del pre-addestramento continuo e della messa a punto supervisionata, scoprendo che la SFT su tracce di ragionamento esplicite è necessaria per la generalizzazione sotto supervisione debole, mentre il pre-addestramento continuo sui dati di dominio amplifica l'effetto. Applicate insieme a Llama3.2-3B-Base, queste strategie abilitano la generalizzazione in tutti e tre i contesti in cui il modello base precedentemente falliva.
Mentre le capacità degli agenti autonomi continuano ad espandersi, essi sono sempre più in grado di completare compiti specializzati attraverso l'utilizzo di abilità esterne plug-and-play. Tuttavia, gli attuali benchmark testano principalmente se i modelli possono utilizzare le abilità fornite, lasciando aperta la questione se siano in grado di scoprire abilità dall'esperienza, ripararle dopo un fallimento e mantenere una libreria coerente nel tempo. Introduciamo SkillFlow, un benchmark di 166 task suddivisi in 20 famiglie, in cui la costruzione dei task all'interno di ciascuna famiglia segue un Flusso di Esecuzione Agnostico al Dominio (DAEF) che definisce un framework di workflow per l'agente, consentendo a questi task di condividere un workflow coerente. Gli agenti vengono valutati secondo un protocollo di Apprendimento Permanente Agente-iniziale in cui essi iniziano senza abilità, risolvono i task in sequenza all'interno di ciascuna famiglia, esternalizzano le lezioni apprese attraverso patch di abilità guidate da traiettorie e rubriche, e portano avanti la libreria aggiornata. Gli esperimenti rivelano un divario sostanziale nelle capacità. Per Claude Opus 4.6, l'evoluzione permanente delle abilità migliora il successo dei task dal 62.65% al 71.08% (+8.43 punti). Tuttavia, un alto utilizzo delle abilità non implica necessariamente un'alta utilità: Kimi K2.5 guadagna solo +0.60 punti nonostante un utilizzo delle abilità del 66.87%, mentre Qwen-Coder-Next raggiunge solo un tasso di completamento dei task del 44.58% e regredisce comunque rispetto all'impostazione base. SkillFlow contribuisce con un ambiente di test strutturato per questa direzione di ricerca e un'analisi empirica approfondita della scoperta, della patch, del trasferimento delle abilità e delle loro modalità di fallimento in una valutazione permanente.
La fusione di adattatori LoRA addestrati separatamente rappresenta un'alternativa pratica all'addestramento congiunto multi-task, ma spesso compromette le prestazioni. I metodi esistenti generalmente considerano l'aggiornamento LoRA ΔW = BA come un singolo oggetto e non distinguono le due matrici LoRA. Dimostriamo che la principale fonte di interferenza nella fusione LoRA proviene dalla matrice B sul lato dell'output. Tra diversi task, B riutilizza ripetutamente un piccolo insieme di direzioni condivise, mentre A rimane molto più specifica per il task. Di conseguenza, l'adattatore fuso enfatizza eccessivamente queste direzioni condivise e le informazioni specifiche del task vanno perse. Proponiamo Pico (Calibrazione pre-fusione dell'interferenza nello spazio di output), un metodo senza dati che calibra B prima della fusione ridimensionando le direzioni iper-condivise e quindi riscalando l'aggiornamento fuso. Pico si integra direttamente con metodi di fusione esistenti come Task Arithmetic, TIES e TSV-M. In otto benchmark diversi provenienti da ambiti matematici, di programmazione, finanziari e medici, Pico migliora l'accuratezza media di 3,4-8,3 punti rispetto al metodo base corrispondente e raggiunge le migliori prestazioni medie complessive. Pico consente inoltre agli adattatori fusi di superare le prestazioni del LoRA addestrato con tutti i dati dei task. Questi risultati dimostrano che la fusione LoRA funziona meglio quando le due matrici LoRA vengono trattate separatamente.
La distillazione on-policy (OPD) è un paradigma sempre più importante per il post-addestramento dei modelli linguistici. Tuttavia, identifichiamo una pervasiva Legge di Scalabilità della Scarsa Calibrazione: sebbene l'OPD migliori efficacemente l'accuratezza sul compito, intrappola sistematicamente i modelli in un grave eccesso di confidenza. Riconduciamo questo fallimento a un disallineamento informativo: la supervisione del modello insegnante si forma basandosi su un contesto privilegiato disponibile durante l'addestramento, mentre il modello messo in produzione deve riportare la propria confidenza utilizzando solo le informazioni disponibili al momento del deployment. Formalizziamo teoricamente questa prospettiva, dimostrando che il successo condizionato all'insegnante generalmente non è un obiettivo valido per la confidenza al deployment e che un contesto privilegiato utile induce un collasso dell'entropia e un bias di ottimismo sistematico. Per affrontare questo problema, proponiamo un framework OPD consapevole della calibrazione, CaOPD, che stima la confidenza empirica dalle esplorazioni del modello, sostituisce la confidenza auto-riportata con questo obiettivo ancorato allo studente e distilla la risposta revisionata attraverso la stessa pipeline di auto-distillazione. Esperimenti condotti su vari modelli e domini mostrano che CaOPD raggiunge una calibrazione Pareto-ottimale mantenendo capacità competitive e generalizzando in modo robusto in scenari out-of-distribution e di apprendimento continuo. I nostri risultati evidenziano che la distillazione delle capacità non implica una confidenza calibrata e che la confidenza dovrebbe essere trattata come un obiettivo essenziale nel post-addestramento. Codice: https://github.com/SalesforceAIResearch/CaOPD
I modelli visione-linguaggio dimostrano capacità notevoli ma spesso incontrano difficoltà nel ragionamento composizionale, mostrando vulnerabilità riguardo all'ordine delle parole e al legame degli attributi. Questa limitazione deriva dalla scarsità di campioni informativi necessari per differenziare sottili variazioni semantiche durante il pre-addestramento contrastivo. Sebbene l'estrazione di negativi difficili offra un rimedio promettente, i metodi esistenti mancano di meccanismi espliciti per determinare quali elementi linguistici subiscono modifiche. Invece di progettare architetture generative, questo studio stabilisce la concretezza lessicale come determinante fondamentale dell'efficacia dei campioni negativi. La modifica di termini altamente concreti genera discrepanze strutturali e visive più marcate, fornendo un segnale di apprendimento sostanzialmente più forte. Sfruttando questo principio, viene proposto ConcretePlant per isolare e manipolare sistematicamente concetti percettivamente ancorati. Le analisi dell'InfoNCE rivelano inoltre un grave squilibrio del gradiente, in cui coppie facilmente distinguibili sovrastano sproporzionatamente il processo di ottimizzazione e restringono la banda disponibile per l'apprendimento sfumato. Per risolvere questa degradazione, la funzione di perdita Cement viene formulata utilizzando un approccio basato su margini. Correlando punteggi psicolinguistici con la difficoltà del campione, questo obiettivo calibra dinamicamente la penalizzazione applicata alle singole coppie di addestramento. Valutazioni complete sostengono queste tesi teoriche. Il framework integrato, denominato Slipform, raggiunge un'accuratezza allo stato dell'arte su vari benchmark di valutazione composizionale, recupero cross-modale generale, e probe lineari a etichetta singola e multipla.
Gli agenti per l'uso del computer hanno rapidamente migliorato le loro prestazioni in compiti del mondo reale come la navigazione web, l'automazione desktop e l'interazione con il software, in alcuni casi superando le prestazioni umane. Tuttavia, anche quando il compito e il modello rimangono invariati, un agente che riesce una volta potrebbe fallire in un'esecuzione ripetuta dello stesso compito. Ciò solleva una questione fondamentale: se un agente può svolgere con successo un compito una volta, cosa gli impedisce di farlo in modo affidabile? In questo lavoro, studiamo le fonti di inaffidabilità negli agenti per l'uso del computer attraverso tre fattori: la stocasticità durante l'esecuzione, l'ambiguità nella specifica del compito e la variabilità nel comportamento dell'agente. Analizziamo questi fattori su OSWorld utilizzando esecuzioni ripetute dello stesso compito insieme a test statistici accoppiati che catturano cambiamenti a livello di compito tra diverse configurazioni. La nostra analisi mostra che l'affidabilità dipende sia da come i compiti sono specificati, sia da come il comportamento dell'agente varia tra le esecuzioni. Questi risultati suggeriscono la necessità di valutare gli agenti sotto esecuzioni ripetute, di consentire agli agenti di risolvere l'ambiguità del compito attraverso l'interazione e di favorire strategie che rimangano stabili tra diverse esecuzioni.
La risoluzione di problemi matematici rimane una prova impegnativa di ragionamento per i modelli linguistici e multimodali di grandi dimensioni, ma i benchmark esistenti sono limitati in termini di dimensione, copertura linguistica e diversità dei compiti. Presentiamo MathNet, un dataset multimodale e multilingue di alta qualità e su larga scala, composto da problemi matematici di livello olimpionico, insieme a un benchmark per valutare il ragionamento matematico nei modelli generativi e il retrieval matematico nei sistemi basati su embedding. MathNet copre 47 paesi, 17 lingue e due decenni di competizioni, comprendendo 30.676 problemi creati da esperti con soluzioni in diversi domini. Oltre al dataset principale, abbiamo costruito un benchmark di retrieval costituito da coppie di problemi matematicamente equivalenti e strutturalmente simili, curate da esperti umani. MathNet supporta tre compiti: (i) Risoluzione di Problemi, (ii) Retrieval Consapevole della Matematica e (iii) Risoluzione di Problemi Potenziata dal Retrieval. I risultati sperimentali mostrano che anche i modelli di ragionamento all'avanguardia (78,4% per Gemini-3.1-Pro e 69,3% per GPT-5) rimangono messi alla prova, mentre i modelli di embedding faticano a recuperare problemi equivalenti. Mostriamo inoltre che le prestazioni della generazione aumentata dal retrieval sono altamente sensibili alla qualità del retrieval; ad esempio, DeepSeek-V3.2-Speciale ottiene miglioramenti fino al 12%, raggiungendo i punteggi più alti sul benchmark. MathNet fornisce il più grande dataset di alta qualità di problemi olimpionici insieme al primo benchmark per valutare il retrieval di problemi matematici, e rilasciamo pubblicamente sia il dataset che il benchmark all'indirizzo https://mathnet.mit.edu.
I recenti modelli di dialogo parlato end-to-end consentono un'interazione naturale. Tuttavia, con l'aumentare della complessità delle richieste degli utenti, i modelli che si affidano esclusivamente alle abilità conversazionali faticano spesso a tenere il passo. Risulta quindi essenziale incorporare capacità agentive: abilitando l'uso di strumenti, questi modelli possono estendere i propri confini conoscitivi e risolvere meglio i compiti del mondo reale. Eppure, la ricerca esistente si è concentrata in larga misura sulla percezione e generazione di base, con un'esplorazione relativamente limitata di tali estensioni potenziate da strumenti. Per colmare questa lacuna, presentiamo VoxMind, un framework integrato progettato per dotare i modelli di dialogo parlato end-to-end di capacità agentive complete. Sfruttando il nostro dataset AgentChat curato di 470 ore, incorporiamo un meccanismo "Think-before-Speak" (Pensa-prima-di-parlare), che consente al modello di interiorizzare un ragionamento strutturato come prerequisito critico per la pianificazione e la generazione delle risposte. Inoltre, per mitigare i colli di bottiglia di latenza causati dall'integrazione su larga scala di strumenti, proponiamo un'architettura di Gestione Dinamica degli Strumenti a Multi-Agente. Delegando in modo asincrono i compiti di recupero a un agente ausiliario allineato con la traiettoria di ragionamento del modello principale, questo sistema disaccoppia efficacemente la latenza di inferenza dalla dimensione del set di strumenti. I risultati sperimentali confermano che VoxMind raggiunge miglioramenti significativi nelle prestazioni agentive: rispetto a baseline solide, il tasso di completamento dei task aumenta dal 34,88% al 74,57%, superando Gemini-2.5-Pro nei compiti di agente parlato, pur preservando la qualità conversazionale generale. Il codice sorgente e i dati associati sono pubblicamente disponibili all'indirizzo https://github.com/MM-Speech/VoxMind.
Gli agenti basati su grandi modelli linguistici (LLM) per orizzonti lunghi sono fondamentalmente limitati dal contesto. Man mano che le interazioni si prolungano, le descrizioni degli strumenti, i ricordi recuperati e il feedback ambientale grezzo si accumulano e spingono fuori le informazioni necessarie per il processo decisionale. Allo stesso tempo, l'esperienza utile acquisita dai compiti viene spesso persa tra un episodio e l'altro. Sosteniamo che le prestazioni a lungo termine non siano determinate dalla lunghezza del contesto, ma da quanta informazione rilevante per le decisioni viene mantenuta all'interno di un budget di contesto finito. Presentiamo GenericAgent (GA), un sistema agente LLM generico e auto-evolutivo costruito attorno a un unico principio: la massimizzazione della densità informativa del contesto. GA implementa questo principio attraverso quattro componenti strettamente connessi: un set di strumenti atomici minimo che mantiene l'interfaccia semplice, una memoria gerarchica on-demand che per impostazione predefinita mostra solo una visuale di alto livello ridotta, un meccanismo di auto-evoluzione che trasforma traiettorie passate verificate in procedure operative standard (SOP) riutilizzabili e codice eseguibile, e un livello di troncamento e compressione del contesto che mantiene la densità informativa durante esecuzioni prolungate. In termini di completamento dei compiti, efficienza d'uso degli strumenti, efficacia della memoria, auto-evoluzione e navigazione web, GA supera costantemente i principali sistemi di agenti utilizzando significativamente meno token e interazioni, e continua ad evolversi nel tempo. Progetto: https://github.com/lsdefine/GenericAgent
I modelli linguistici multimodali (MLLM) attuali hanno dimostrato capacità notevoli nella comprensione di video brevi, ma tradurre video cinematografici di lunga durata in sceneggiature dettagliate e temporalmente contestualizzate rimane una sfida significativa. Questo articolo introduce il nuovo compito video-to-script (V2S), che mira a generare sceneggiature gerarchiche, scena per scena, comprendenti azioni dei personaggi, dialoghi, espressioni e segnali audio. Per facilitare ciò, abbiamo costruito un benchmark annotato manualmente, il primo nel suo genere, e proponiamo un framework di valutazione gerarchico e temporalmente consapevole. Inoltre, presentiamo OmniScript, un modello linguistico omni-modale (audio-visivo) da 8 miliardi di parametri, progettato specificamente per la comprensione narrativa di lunga durata. OmniScript viene addestrato attraverso una pipeline progressiva che sfrutta un fine-tuning supervisionato a catena del pensiero (chain-of-thought) per il ragionamento sulla trama e i personaggi, seguito da un apprendimento per rinforzo che utilizza ricompense segmentate temporalmente. Esperimenti estensivi dimostrano che, nonostante la sua efficienza in termini di parametri, OmniScript supera significativamente modelli open-source più grandi e raggiunge prestazioni paragonabili ai modelli proprietari all'avanguardia, incluso Gemini 3-Pro, sia nella localizzazione temporale che nell'accuratezza semantica multi-campo.
Si presume che gli agenti basati su LLM integrino le osservazioni ambientali nel loro ragionamento: la scoperta di informazioni altamente rilevanti ma inaspettate dovrebbe portare naturalmente un modello a sfruttare le proprie scoperte. Dimostriamo che questa assunzione è falsa per gli attuali agenti basati su LLM, che faticano a riflettere o reagire a informazioni inaspettate. In tre benchmark (Terminal-Bench, SWE-Bench, AppWorld), iniettiamo soluzioni complete dei task negli ambienti degli agenti per esporre deliberatamente la soluzione di un task a un modello. Sebbene gli agenti scoprano queste soluzioni su Terminal-Bench nel 79-81% delle esecuzioni, interagiscono con esse, o le sfruttano, solo nel 37-50% dei casi. Questo divario è più marcato in AppWorld: gli agenti vedono una documentazione che afferma che un comando "restituisce la soluzione completa a questo task" in oltre il 90% dei tentativi, ma la sfruttano in meno del 7% delle prove. Dimostriamo che agli agenti manca ciò che chiamiamo curiosità ambientale: la capacità di riconoscere e investigare osservazioni inaspettate ma rilevanti in risposta a stimoli ambientali. Identifichiamo tre fattori principali che influenzano la curiosità ambientale: gli strumenti disponibili nell'impalcatura dell'agente, il calcolo al momento del test e la distribuzione dei dati di addestramento. Le nostre scoperte identificano che le configurazioni che massimizzano la curiosità raggiungono anche le migliori prestazioni sui benchmark non modificati. Tuttavia, anche agenti congiuntamente ottimizzati ignorano le soluzioni scoperte nella maggior parte delle prove: gli agenti attuali utilizzano l'ambiente per recuperare informazioni attese, ma non per rivedere la propria strategia o sfruttare al massimo stimoli utili.
La decodifica visiva dai segnali cerebrali è una sfida cruciale all'intersezione tra visione artificiale e neuroscienze, che richiede metodi in grado di collegare le rappresentazioni neurali con i modelli computazionali della visione. Un obiettivo condiviso dalla comunità scientifica è lo sviluppo di modelli generalizzabili tra diversi soggetti. Un ostacolo maggiore verso questo traguardo è la notevole variabilità delle rappresentazioni neurali tra gli individui, che finora ha reso necessario addestrare modelli personalizzati o effettuare una messa a punto separata per ogni soggetto. Per affrontare questa sfida, introduciamo un approccio basato su meta-ottimizzazione per la decodifica visiva semantica dalla fMRI che si generalizza a nuovi soggetti senza alcuna messa a punto. Semplicemente condizionando il modello su un piccolo insieme di esempi di attivazioni cerebrali associate a immagini del nuovo individuo, il nostro metodo inferisce rapidamente i suoi specifici pattern di codifica neurale per facilitare una decodifica visiva robusta ed efficiente. Il nostro approccio è esplicitamente ottimizzato per l'apprendimento in contesto del modello di codifica del nuovo soggetto ed esegue la decodifica mediante inferenza gerarchica, invertendo l'encoder. In primo luogo, per multiple regioni cerebrali, stimiamo i parametri dell'encoder della risposta visiva per singolo voxel costruendo un contesto su molteplici stimoli e risposte. In secondo luogo, costruiamo un contesto costituito da parametri dell'encoder e valori di risposta su più voxel per eseguire un'inversione funzionale aggregata. Dimostriamo una forte generalizzazione tra soggetti e tra scanner con diversi backbone visivi, senza necessità di riaddestramento o messa a punto. Inoltre, il nostro approccio non richiede né allineamento anatomico né sovrapposizione degli stimoli. Questo lavoro rappresenta un passo critico verso un modello fondante generalizzabile per la decodifica cerebrale non invasiva.
La maggior parte degli agenti odierni si "auto-evolve" seguendo ricompense e regole definite dall'uomo. Tuttavia, questo processo rimane fondamentalmente dipendente dalla supervisione esterna; senza la guida umana, l'evoluzione si arresta. In questo lavoro, addestriamo agenti a possedere un'intrinseca capacità di meta-evoluzione per apprendere spontaneamente informazioni su ambienti non visti prima dell'esecuzione del compito. Per infondere questa abilità, progettiamo un meccanismo di ricompensa basato sui risultati che misura quanto la conoscenza del mondo auto-generata da un agente migliora la sua percentuale di successo nei compiti successivi. Questo segnale di ricompensa viene utilizzato esclusivamente durante la fase di addestramento per insegnare al modello come esplorare e riassumere efficacemente. Al momento dell'inferenza, l'agente non richiede ricompense esterne o istruzioni umane. Esegue spontaneamente un'auto-evoluzione nativa per adattarsi ad ambienti sconosciuti utilizzando i suoi parametri interni. Applicato a Qwen3-30B e Seed-OSS-36B, questo passaggio all'evoluzione nativa produce un aumento delle prestazioni del 20% su WebVoyager e WebWalker. Ancora più significativo, la conoscenza del mondo generata consente persino a un compatto modello Qwen3 da 14B di superare il Gemini-2.5-Flash non assistito, stabilendo un nuovo paradigma per agenti veramente evolutivi.
I giochi offrono un paradigma convincente per lo sviluppo di capacità di ragionamento generale nei modelli linguistici, poiché richiedono naturalmente pianificazione strategica, inferenza probabilistica e processi decisionali adattivi. Tuttavia, gli approcci esistenti di auto-apprendimento si basano esclusivamente sugli esiti finali della partita, non fornendo alcun meccanismo per distinguere gli schemi di ragionamento trasferibili dalle euristiche specifiche del gioco. Presentiamo STRATAGEM, che affronta due barriere fondamentali al trasferimento del ragionamento: la specificità di dominio, dove gli schemi appresi rimangono ancorati alla semantica del gioco, e la stasi contestuale, dove i contesti di gioco statici non riescono a coltivare un ragionamento progressivo. STRATAGEM rinforza selettivamente le traiettorie che mostrano un ragionamento astratto e indipendente dal dominio attraverso un Coefficiente di Trasferibilità del Ragionamento, mentre incentiva lo sviluppo di un ragionamento adattivo tramite una Ricompensa per l'Evoluzione del Ragionamento. Esperimenti su benchmark di ragionamento matematico, ragionamento generale e generazione di codice dimostrano miglioramenti sostanziali, con guadagni particolarmente significativi nella matematica a livello competitivo, dove un ragionamento a più fasi è critico. Studi di ablazione e valutazione umana confermano che entrambe le componenti contribuiscono a un ragionamento trasferibile.
I modelli linguistici multimodali sono in grado di percepire accuratamente contenuti numerici attraverso diverse modalità, ma non riescono a eseguire moltiplicazioni esatte con più cifre quando lo stesso problema aritmetico sottostante viene presentato come numeri, parole numeriche, immagini o in forma audio. Poiché i benchmark esistenti spesso mancano di istanze sistematicamente abbinate tra le modalità, rimane difficile confrontare i limiti aritmetici genuini all'interno e tra le famiglie di modelli. Introduciamo quindi un benchmark di moltiplicazione multimodale controllato che varia fattorialmente la lunghezza delle cifre, la sparsità delle cifre, la rappresentazione (ad esempio, numeri vs. parole numeriche) e la modalità (testo, immagini renderizzate, audio), con istanze abbinate generate in modo riproducibile. Definiamo inoltre il carico aritmetico, C, come il prodotto del conteggio totale delle cifre e di quelle non zero, come proxy compatto e meccanicisticamente motivato per il conteggio delle operazioni. In tutte le valutazioni, l'accuratezza diminuisce drasticamente all'aumentare di C, spesso avvicinandosi a zero per C > 100. Infatti, C rimane predittivo delle prestazioni attraverso modalità e modelli, con R-quadro spesso > 0,5, avvicinandosi al valore di misure più complesse del carico aritmetico che contano il numero di passaggi aritmetici intermedi. Una scomposizione separata tra percezione e calcolo mostra che il degrado multimodale è principalmente computazionale piuttosto che percettivo: su controlli di percezione abbinata, i modelli sono quasi perfetti (> 99%) in tutte le modalità, anche quando l'accuratezza della moltiplicazione cala. Oltre a misurare quando i modelli falliscono, ci chiediamo quali procedure siano predisposti a seguire. Introduciamo una sonda di perdita a completamento forzato che assegna un punteggio a prefissi di ragionamento specifici per euristiche, inclusa la moltiplicazione in colonna, la scomposizione distributiva e l'arrotondamento/compensazione. In questo caso, la scomposizione è favorita sia nelle modalità testuali che visive; gli adattatori LoRA specifici per euristiche producono aggiornamenti quasi ortogonali ma degradano l'accuratezza, indicando che il modello base mantiene un router interno ben sintonizzato.
Presentiamo SemanticQA, una suite di valutazione progettata per testare i modelli linguistici (LM) in compiti di elaborazione di frasi semantiche. Il benchmark consolida risorse esistenti sulle espressioni polirematiche (MwE) e le riorganizza in un banco di prova unificato. Copre sia fenomeni lessicali generali, come le collocazioni lessicali, sia tre categorie granulari: espressioni idiomatiche, composti nominali e costruzioni verbali. Attraverso SemanticQA, valutiamo LM di diverse architetture e dimensioni in compiti di estrazione, classificazione e interpretazione, nonché in composizioni sequenziali di attività. Riveliamo una variazione prestazionale sostanziale, specialmente nei compiti che richiedono ragionamento semantico, evidenziando differenze nell'efficacia del ragionamento e nella comprensione semantica degli LM, fornendo spunti per sviluppare modelli linguistici con una comprensione più solida di frasi semantiche non banali. L'infrastruttura di valutazione e i dati di SemanticQA sono disponibili su https://github.com/jacklanda/SemanticQA.
A differenza del completamento del codice, il debug richiede la localizzazione dei difetti e l'applicazione di modifiche mirate. Osserviamo che i modelli LLM all'avanguardia spesso rigenerano soluzioni corrette ma eccessivamente modificate durante il debug. Per valutare quanto i modelli LLM siano distanti da un debug preciso, introduciamo il framework Precise Debugging Benchmark (PDB), che converte automaticamente qualsiasi dataset di codifica in un benchmark di debug con una valutazione basata sulla precisione. PDB genera programmi con bug sintetizzando errori atomici verificati e componendoli in programmi con errori multipli. Definiamo due metriche innovative: la precisione a livello di modifica e il richiamo a livello di bug, che misurano rispettivamente quante modifiche necessarie vengono apportate e quanti bug vengono risolti. Rilasciamo due benchmark di valutazione: PDB-Single-Hard per bug su singola riga e PDB-Multi per bug su più righe. Gli esperimenti mostrano che i modelli all'avanguardia, come GPT-5.1-Codex e DeepSeek-V3.2-Thinking, raggiungono tassi di superamento dei test unitari superiori al 76%, ma presentano una precisione inferiore al 45%, anche quando viene loro esplicitamente richiesto di eseguire un debug minimale. Infine, dimostriamo che le strategie di debug iterative e agent-based non migliorano sostanzialmente la precisione o il richiamo, evidenziando la necessità di ripensare le pipeline di post-addestramento per i modelli di codifica.
I modelli linguistici di grandi dimensioni nativi omnimodali (OLLM) hanno abbandonato le architetture a pipeline a favore di spazi di rappresentazione unificati. Tuttavia, questa integrazione nativa dà origine a un fenomeno cruciale ma poco esplorato: la preferenza modale. Per colmare questa lacuna, abbiamo prima quantificato sistematicamente la preferenza modale degli OLLM utilizzando un benchmark conflittuale di nuova creazione e la metrica del tasso di selezione modale. La nostra valutazione di dieci OLLM rappresentativi rivela un notevole cambiamento di paradigma: a differenza della "dominanza testuale" dei tradizionali VLM, la maggior parte degli OLLM mostra una marcata preferenza visiva. Per comprendere meglio il meccanismo sottostante, abbiamo condotto analisi stratificate che dimostrano come tale preferenza modale non sia statica ma emerga progressivamente negli strati intermedi e finali. Basandoci su queste intuizioni, sfruttiamo questi segnali interni per diagnosticare allucinazioni cross-modali, raggiungendo prestazioni competitive su tre benchmark multimodali downstream senza dati specifici per il compito. Il nostro lavoro fornisce sia una comprensione meccanicistica sia uno strumento pratico per costruire OLLM più affidabili. Il nostro codice e le risorse correlate sono pubblicamente disponibili all'indirizzo: https://github.com/icip-cas/OmniPreference
I grandi modelli linguistici (LLM) sono ampiamente esplorati per compiti di ricerca ad alta intensità di ragionamento, tuttavia le risorse per testare la loro capacità di inferire conclusioni scientifiche a partire da evidenze biomediche strutturate rimangono limitate. Introduciamo MedConclusion, un dataset su larga scala di 5,7 milioni di abstract strutturati di PubMed per la generazione di conclusioni biomediche. Ogni istanza accoppia le sezioni non conclusive di un abstract con la conclusione originale scritta dall'autore, fornendo una supervisione naturalmente presente per il ragionamento da evidenza a conclusione. MedConclusion include anche metadati a livello di rivista, come la categoria biomedica e l'SJR, consentendo analisi di sottogruppi tra diversi domini biomedici. Come studio iniziale, valutiamo diversi LLM in contesti di prompting per la conclusione e per il riassunto, e valutiamo gli output sia con metriche basate su riferimento sia con l'approccio LLM-as-a-judge. Troviamo che la scrittura di conclusioni è comportamentalmente distinta dalla scrittura di riassunti, che i modelli più potenti rimangono strettamente raggruppati sotto le attuali metriche automatiche e che l'identità del giudice può alterare sostanzialmente i punteggi assoluti. MedConclusion fornisce una risorsa dati riutilizzabile per studiare il ragionamento scientifico dall'evidenza alla conclusione. Il nostro codice e i nostri dati sono disponibili al seguente indirizzo: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.
I Large Language Model (LLM) hanno dimostrato prestazioni eccezionali in diversi domini, ma sono sempre più limitati dall'elevata latenza di inferenza. L'Early Exit è emerso come una soluzione promettente per accelerare l'inferenza bypassando dinamicamente gli strati ridondanti. Tuttavia, nelle architetture decoder-only, l'efficienza dell'Early Exit è fortemente limitata dal problema dell'Assenza della KV Cache, in cui gli strati saltati non forniscono gli stati storici necessari per i token successivi. Le soluzioni esistenti, come la ricalcolo o il masking, introducono un sovraccarico di latenza significativo o comportano una grave perdita di precisione, non riuscendo a colmare il divario tra la riduzione teorica degli strati e l'accelerazione pratica. In questo articolo, proponiamo River-LLM, un framework senza training che abilita un Early Exit a livello di token senza interruzioni. River-LLM introduce un leggero Exit River a KV Condivisi che permette alla KV cache mancante del modello di base di essere generata e preservata naturalmente durante il processo di uscita, eliminando la necessità di costose operazioni di recupero. Inoltre, utilizziamo la similarità della transizione di stato all'interno dei blocchi decoder per prevedere gli errori cumulativi della KV e guidare decisioni di uscita precise. Esperimenti estesi su compiti di ragionamento matematico e generazione di codice dimostrano che River-LLM raggiunge un'accelerazione pratica da 1,71 a 2,16 volte mantenendo un'alta qualità di generazione.
L'ingegneria genomica ha raggiunto una precisione notevole a livello di sequenza, ma prevedere lo stato trascrittomico che una cellula occuperà dopo una perturbazione rimane un problema aperto. Gli screening CRISPR a cellula singola misurano quanto le cellule si allontanano dal loro stato non perturbato, ma questa magnitudo dell'effetto ignora una domanda fondamentale: le cellule si muovono insieme? Due perturbazioni con magnitudo identica possono produrre esiti qualitativamente diversi se una spinge le cellule coerentemente lungo una traiettoria condivisa mentre l'altra le disperde nello spazio di espressione genica. Introduciamo una metrica di stabilità geometrica, Shesha, che quantifica la coerenza direzionale delle risposte cellulari alla perturbazione come la similarità del coseno media tra i vettori di spostamento delle singole cellule e la direzione media della perturbazione. Attraverso cinque set di dati CRISPR (oltre 2.200 perturbazioni che comprendono CRISPRa, CRISPRi e screening pooled), la stabilità correla fortemente con la magnitudo dell'effetto (Spearman ρ=0.75-0.97), con una correlazione calibrata tra i set di dati di 0.97. Crucialmente, i casi discordanti in cui le due metrici si disaccoppiano rivelano l'architettura regolatoria: regolatori master pleiotropici come CEBPA e GATA1 pagano una "tassa geometrica", producendo spostamenti ampi ma incoerenti, mentre fattori specifici del lignaggio come KLF1 producono risposte strettamente coordinate. Dopo aver controllato per la magnitudo, l'instabilità geometrica è indipendentemente associata a un'elevata attivazione delle proteine chaperone (HSPA5/BiP; ρ_parziale=-0.34 e -0.21 tra i set di dati), e il quadrante ad alta stabilità/alto stress è sistematicamente depauperato. La relazione magnitudo-stabilità persiste negli embedding del modello fondazionale scGPT, confermando che è una proprietà dello spazio degli stati biologici piuttosto che una proiezione lineare. La stabilità della perturbazione fornisce un asse complementare per la prioritarizzazione dei "hit" negli screening, il controllo di qualità fenotipico nella produzione cellulare e la valutazione delle previsioni di perturbazione in silico.
La convergenza tra grandi modelli linguistici e agenti sta catalizzando una nuova era della scoperta scientifica: la Scienza Agente. Sebbene il metodo scientifico sia intrinsecamente iterativo, gli attuali framework per agenti sono prevalentemente statici, con ambiti ristretti e privi della capacità di apprendere per tentativi ed errori. Per colmare questa lacuna, presentiamo EvoMaster, un framework fondazionale per agenti evolutivi progettato specificamente per la Scienza Agente su larga scala. Guidato dal principio cardine dell'auto-evoluzione continua, EvoMaster consente agli agenti di affinare iterativamente le ipotesi, autocriticarsi e accumulare progressivamente conoscenza attraverso i cicli sperimentali, rispecchiando fedelmente l'indagine scientifica umana. Fondamentalmente, in quanto base domain-agnostic, EvoMaster è eccezionalmente semplice da scalare, permettendo agli sviluppatori di costruire e distribuire agenti scientifici altamente capaci e auto-evolutivi per discipline arbitrarie in circa 100 righe di codice. Sulla base di EvoMaster, abbiamo incubato l'ecosistema SciMaster in domini come l'apprendimento automatico, la fisica e le scienze generali. Le valutazioni su quattro benchmark autorevoli (Humanity's Last Exam, MLE-Bench Lite, BrowseComp e FrontierScience) dimostrano che EvoMaster raggiunge punteggi state-of-the-art rispettivamente del 41,1%, 75,8%, 73,3% e 53,3. Supera in modo completo il baseline generico OpenClaw con miglioramenti relativi che vanno dal +159% al +316%, convalidando solidamente la sua efficacia e generalità come principale framework fondazionale per la prossima generazione di scoperte scientifiche autonome. EvoMaster è disponibile all'indirizzo https://github.com/sjtu-sai-agents/EvoMaster.
I recenti progressi nella corrispondenza semantica si basano su architetture dual-encoder, che combinano DINOv2 con backbone di diffusione. Sebbene accurati, questi modelli da miliardi di parametri generalizzano scarsamente al di là dei keypoint di addestramento, rivelando un divario tra le prestazioni sui benchmark e l'usabilità nel mondo reale, dove i punti interrogati raramente corrispondono a quelli visti durante il training. Basandoci su DINOv2, introduciamo MARCO, un modello unificato per corrispondenza generalizzabile guidato da un nuovo framework di addestramento che migliora sia la localizzazione fine-grain che la generalizzazione semantica. Accoppiando un obiettivo coarse-to-fine che affina la precisione spaziale con un framework di auto-distillazione, che espande la supervisione sparsa oltre le regioni annotate, il nostro approccio trasforma una manciata di keypoint in corrispondenze dense e semanticamente coerenti. MARCO stabilisce un nuovo stato dell'arte su SPair-71k, AP-10K e PF-PASCAL, con guadagni che si amplificano alle soglie di localizzazione fine-grain (+8.9 PCK@0.01), la più forte generalizzazione a keypoint non visti (+5.1, SPair-U) e categorie (+4.7, MP-100), rimanendo al contempo 3 volte più piccolo e 10 volte più veloce degli approcci basati su diffusione. Il codice è disponibile all'indirizzo https://github.com/visinf/MARCO.
Gli utenti spesso omettono dettagli essenziali nelle loro richieste agli agenti basati su LLM, generando input sottospecificati per l'uso degli strumenti. Ciò rappresenta una sfida fondamentale per gli agenti potenziati da strumenti, poiché l'esecuzione delle API richiede tipicamente argomenti completi, evidenziando la necessità di una chiamata agli strumenti personalizzata. Per studiare questo problema, introduciamo MPT, un benchmark che comprende 265 dialoghi multi-sessione che coprono tre sfide: Richiamo delle Preferenze, Induzione delle Preferenze e Trasferimento delle Preferenze. Proponiamo inoltre PRefine, un metodo potenziato dalla memoria a tempo di test che rappresenta le preferenze dell'utente come ipotesi in evoluzione. Attraverso un ciclo di generazione-verifica-affinamento, esso estrae vincoli riutilizzabili dalla cronologia e migliora l'accuratezza delle chiamate agli strumenti utilizzando solo l'1,24% dei token richiesti dal prompting con cronologia completa. Questi risultati indicano che una personalizzazione robusta nei sistemi agentici dipende da una memoria che catturi le ragioni dietro le scelte dell'utente, non solo le scelte stesse.
La Conversazione di Supporto Emotivo (ESC) mira ad assistere le persone in difficoltà generando dialoghi empatici e di supporto. Sebbene i lavori precedenti assumano tipicamente che ogni turno del sostenitore corrisponda a una singola strategia, la comunicazione di supporto nel mondo reale coinvolge spesso più strategie all'interno di una singola espressione. In questo articolo, esaminiamo nuovamente il compito ESC formulandolo come una generazione di espressioni multi-strategia, in cui ogni espressione può contenere una o più coppie strategia-risposta. Proponiamo due metodi di generazione: All-in-One, che prevede tutte le coppie strategia-risposta in un singolo passaggio di decodifica, e One-by-One, che genera iterativamente le coppie strategia-risposta fino al completamento. Entrambi i metodi sono ulteriormente potenziati con un ragionamento cognitivo guidato dall'apprendimento per rinforzo per migliorare la selezione delle strategie e la composizione delle risposte. Valutiamo i nostri modelli sul dataset ESConv in contesti sia a livello di espressione che di dialogo. I risultati sperimentali dimostrano che i nostri metodi modellano efficacemente le espressioni multi-strategia e portano a un miglioramento della qualità di supporto e del successo del dialogo. A nostra conoscenza, questo lavoro fornisce la prima evidenza empirica sistematica che consentire multiple strategie di supporto all'interno di una singola espressione è sia fattibile che vantaggioso per le conversazioni di supporto emotivo. Tutti i codici e i dati saranno pubblicamente disponibili su https://github.com/aliyun/qwen-dianjin.
La distribuzione affidabile di modelli linguistici richiede due capacità che appaiono distinte ma condividono un fondamento geometrico comune: prevedere se un modello accetterà un controllo comportamentale mirato e rilevare quando la sua struttura interna si degrada. Dimostriamo che la stabilità geometrica, ovvero la coerenza della struttura delle distanze a coppie di una rappresentazione, affronta entrambi gli aspetti. Le varianti Shesha supervisionate che misurano la stabilità geometrica allineata al compito predicono la controllabilità lineare con un'accuratezza quasi perfetta (ρ= 0,89-0,97) su 35-69 modelli di embedding e tre attività di NLP, catturando una varianza unica oltre la separabilità delle classi (ρ parziale= 0,62-0,76). Emerge una dissociazione critica: la stabilità non supervisionata fallisce completamente per la controllabilità nelle attività del mondo reale (ρ≈0,10), rivelando che l'allineamento al compito è essenziale per la previsione della controllabilità. Tuttavia, la stabilità non supervisionata eccelle nel rilevamento del deterioramento, misurando un cambiamento geometrico quasi 2 volte maggiore rispetto a CKA durante l'allineamento post-addestramento (fino a 5,23 volte in Llama) mentre fornisce un allarme anticipato nel 73% dei modelli e mantiene un tasso di falsi allarmi 6 volte inferiore a Procrustes. Insieme, la stabilità supervisionata e non supervisionata formano diagnostiche complementari per il ciclo di vita di distribuzione degli LLM: una per la valutazione della controllabilità pre-distribuzione, l'altra per il monitoraggio post-distribuzione.
I modelli visione-linguaggio (VLM) sono sempre più utilizzati nella diagnostica clinica, ma la loro robustezza agli attacchi avversari rimane in gran parte inesplorata, rappresentando un serio rischio. Gli attacchi medici esistenti si concentrano su obiettivi secondari come il furto del modello o il fine-tuning avversario, mentre gli attacchi trasferibili da immagini naturali introducono distorsioni visibili che i clinici possono facilmente rilevare. Per affrontare questo problema, proponiamo MedFocusLeak, un attacco multimodale black-box altamente trasferibile che induce diagnosi errate ma clinicamente plausibili mantenendo le perturbazioni impercettibili. Il metodo inietta perturbazioni coordinate nelle regioni di sfondo non diagnostiche e impiega un meccanismo di distrazione dell'attenzione per spostare il focus del modello lontano dalle aree patologiche. Valutazioni estese su sei modalità di imaging medico dimostrano che MedFocusLeak raggiunge prestazioni all'avanguardia, generando output diagnostici fuorvianti ma realistici su diversi VLM. Introduciamo inoltre un framework di valutazione unificato con nuove metriche che catturano congiuntamente il successo dell'attacco e la fedeltà dell'immagine, rivelando una critica debolezza nelle capacità di ragionamento dei moderni VLM clinici.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato capacità impressionanti, ma spesso faticano a catturare efficacemente le informazioni testuali fini all'interno delle immagini, cruciali per una traduzione accurata delle immagini. Ciò porta spesso a un divario modale tra gli input di testo visivo e gli input/output testuali per la traduzione di immagini. I metodi esistenti, che si basano principalmente sulla messa a punto per istruzione, rischiano una ridondanza parametrica della conoscenza pre-addestrata, ostacolando le prestazioni di generalizzazione. Per affrontare questo problema, introduciamo la messa a punto consapevole dei neuroni modali (MNAFT), un approccio innovativo che sfrutta i ruoli specializzati dei singoli neuroni all'interno degli MLLM per una traduzione di immagini migliorata. MNAFT identifica i neuroni indipendenti dalla lingua e specifici della lingua sia nei moduli visivi che linguistici attraverso un'analisi di attivazione guidata da istruzioni, valutandone l'importanza in varie attività di traduzione. Eseguiamo quindi una messa a punto selettiva, aggiornando solo i parametri dei neuroni specifici della lingua e indipendenti dalla lingua all'interno degli strati selezionati rilevanti per il compito target, preservando al contempo la conoscenza codificata in altri neuroni e strati. I nostri ampi esperimenti su molteplici benchmark dimostrano che MNAFT supera significativamente i metodi all'avanguardia per la traduzione di immagini, inclusi i modelli a cascata, la messa a punto completa standard e le tecniche di ottimizzazione efficienti in termini di parametri. Inoltre, forniamo un'analisi completa, includendo visualizzazioni delle attivazioni neuronali e dei modelli di clustering, per offrire approfondimenti sui ruoli dei diversi gruppi di neuroni nella mediazione della comprensione cross-modale e nel facilitare una traduzione accurata e specifica della lingua.
Comprendere e anticipare le attività legate alle vulnerabilità rappresenta una sfida significativa nell'intelligence sulle minacce informatiche. Questo lavoro indaga se gli avvistamenti di vulnerabilità, come il rilascio di proof-of-concept, i template di rilevamento o le discussioni online, possano essere previsti nel tempo. Basandoci sul nostro precedente lavoro su VLAI, un modello basato su transformer che prevede la gravità delle vulnerabilità dalle descrizioni testuali, esaminiamo se i punteggi di gravità possano migliorare le previsioni delle serie temporali come variabili esogene. Valutiamo diversi approcci per la previsione a breve termine degli avvistamenti per vulnerabilità. In primo luogo, testiamo i modelli SARIMAX con e senza trasformazioni log(x+1) e input di gravità derivati da VLAI. Sebbene questi aggiustamenti forniscano miglioramenti limitati, SARIMAX rimane poco adatto a dati di vulnerabilità sporadici, brevi e a picchi. Nella pratica, le previsioni spesso producono intervalli di confidenza eccessivamente ampi e talvolta valori negativi irrealistici. Per catturare meglio la natura discreta ed event-driven degli avvistamenti, esploriamo quindi metodi basati sul conteggio come la regressione di Poisson. I primi risultati mostrano che questi modelli producono previsioni più stabili e interpretabili, specialmente quando gli avvistamenti sono aggregati settimanalmente. Discutiamo anche alternative operative più semplici, incluse funzioni di decadimento esponenziale per orizzonti previsivi brevi, per stimare l'attività futura senza richiedere lunghe serie storiche. Nel complesso, questo studio evidenzia sia il potenziale che i limiti della previsione di eventi informatici rari e a picchi, e fornisce indicazioni pratiche per integrare l'analisi predittiva nei flussi di lavoro dell'intelligence sulle vulnerabilità.
I modelli linguistici di conversazione full-duplex (FD-SLMs) abilitano interazioni conversazionali in tempo reale e sovrapposte, offrendo un'esperienza utente più dinamica rispetto ai tradizionali modelli half-duplex. Tuttavia, i benchmark esistenti si concentrano principalmente sulla valutazione di interazioni a turno singolo, trascurando le complessità della comunicazione multi-turno. La valutazione degli FD-SLMs in contesti multi-turno presenta sfide significative, tra cui confini di turno sfumati nella comunicazione e incoerenza contestuale durante l'inferenza del modello. Inoltre, i benchmark esistenti spesso si focalizzano esclusivamente sulla valutazione delle caratteristiche conversazionali, tralasciando altri aspetti critici. Per colmare queste lacune, introduciamo MTR-DuplexBench, un nuovo benchmark progettato per una valutazione multi-turno completa degli FD-SLMs. MTR-DuplexBench non solo segmenta i dialoghi full-duplex continui in turni discreti per una valutazione turno per turno, ma incorpora anche vari aspetti valutativi, incluse caratteristiche conversazionali, qualità del dialogo, aderenza alle istruzioni e sicurezza. I risultati sperimentali rivelano che gli attuali FD-SLMs incontrano difficoltà nel mantenere prestazioni consistenti attraverso più turni e dimensioni valutative, evidenziando la necessità e l'efficacia del nostro benchmark. Codice e dati sono disponibili su: https://github.com/ZhangHe0918/MTR-DuplexBench
Presentiamo Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), un compilatore a quattro fasi per il deployment di transformer su hardware acceleratore eterogeneo, convalidato sull'NPU Intel AI Boost. I framework esistenti come OpenVINO e ONNX Runtime utilizzano spesso pipeline di compilazione opache, offrono una visibilità limitata a livello di passi e presentano una gestione debole dei buffer, il che può portare a costi di compilazione e overhead runtime più elevati. Forge-UGC affronta questi problemi con un design hardware-agnostic che separa la cattura del grafo, l'ottimizzazione, la lowering della rappresentazione intermedia e la schedulazione del backend. La Fase 1 cattura i grafi con `torch.export` a livello degli operatori ATen, supportando componenti moderni dei transformer come gli embedding posizionali rotanti, l'attenzione a query raggruppate e SwiGLU senza decomposizione manuale. La Fase 2 applica sei passi di ottimizzazione: eliminazione del codice morto, eliminazione delle sottoespressioni comuni, constant folding, fusione dell'attenzione, fusione degli operatori e ottimizzazione del layout, riducendo il numero di nodi del grafo dal 14,2% al 21,9%. La Fase 3 effettua la lowering del grafo ottimizzato in una rappresentazione intermedia tipata con assegnazioni esplicite di registri virtuali. La Fase 4 esegue l'analisi di liveness, l'allocazione dei buffer tramite linear-scan (riducendo il numero massimo di buffer del 30-48%) e la schedulazione per affinity del dispositivo (riducendo le transizioni NPU-CPU del 42-65%). Su sei famiglie di modelli, da 125M a 8B di parametri, valutate su WikiText-103 e GLUE, Forge-UGC fornisce una compilazione da 6,9 a 9,2 volte più veloce rispetto a OpenVINO e ONNX Runtime, una latenza di inferenza inferiore dal 18,2% al 35,7% e un consumo energetico per inferenza inferiore dal 30,2% al 40,9%. La fedeltà è preservata, con differenze assolute massime dei logit inferiori a 2,1e-5 e divergenza KL inferiore a 8,4e-9. Introduciamo inoltre il Fusion Gain Ratio, il Compilation Efficiency Index e la profilatura dell'esecuzione per passo, per una valutazione sistematica delle pipeline di compilazione per NPU.
Le interazioni Genotipo per Ambiente (GxE) influenzano la performance dei genotipi in ambienti diversi, riducendo la prevedibilità dei fenotipi negli ambienti target. L'analisi approfondita delle interazioni GxE facilita l'identificazione di come i vantaggi o i difetti genetici vengano espressi o soppressi in condizioni ambientali specifiche, consentendo così la selezione genetica e il miglioramento delle pratiche di breeding. Questo articolo introduce due modelli chiave per la ricerca sulle interazioni GxE. Nello specifico, include l'analisi di significatività basata sul modello ad effetti misti per determinare se i geni o le interazioni GxE influenzano significativamente i tratti fenotipici; e l'analisi di stabilità, che investiga ulteriormente le relazioni interattive tra geni e ambienti, nonché la superiorità o inferiorità relativa dei genotipi attraverso diversi ambienti. Inoltre, questo articolo presenta RGxEStat, uno strumento interattivo leggero, sviluppato dagli autori e che integra la costruzione, la soluzione e la visualizzazione dei suddetti modelli. Progettato per eliminare la necessità che selezionatori e agronomi imparino la complessa programmazione SAS o R, RGxEStat fornisce un'interfaccia user-friendly per l'analisi semplificata dei dati di breeding, accelerando significativamente i cicli di ricerca. I codici e i dataset sono disponibili su https://github.com/mason-ching/RGxEStat.
Introduciamo JuRe (Just Repair), una rete di denoising minimale per il rilevamento di anomalie nelle serie temporali che rivela un risultato centrale: la complessità architetturale non è necessaria quando l'obiettivo di addestramento implementa correttamente il principio di proiezione sul varietà. JuRe è composta da un singolo blocco residuo convoluzionale depthwise-separabile con dimensione nascosta 128, addestrata a riparare finestre di serie temporali corrotte e valutata in fase di inferenza da una funzione di discrepanza strutturale fissa e priva di parametri. Nonostante non utilizzi meccanismi di attention, variabili latenti o componenti adversarial, JuRe si classifica al secondo posto nel benchmark multivariato TSB-AD (AUC-PR 0.404, 180 serie, 17 dataset) e al secondo posto nell'archivio univariato UCR per AUC-PR (0.198, 250 serie), guidando tutti i baseline neurali in termini di AUC-PR e VUS-PR. L'ablation dei componenti su TSB-AD identifica la corruzione durante l'addestramento come il fattore dominante (ΔAUC-PR = 0.047 alla rimozione), confermando che è l'obiettivo di denoising, e non la capacità della rete, a determinare la qualità del rilevamento. Test di Wilcoxon signed-rank a coppie stabiliscono la significatività statistica rispetto a 21 dei 25 baseline su TSB-AD. Il codice è disponibile all'URL https://github.com/iis-esslingen/JuRe.
Rilasciamo Terminal Wrench, un sottoinsieme di 331 ambienti benchmark per agenti terminale, replicati dai popolari benchmark open source che sono dimostrabilmente vulnerabili a reward hacking. Il dataset include 3.632 traiettorie di attacco e 2.352 traiettorie legittime di base, ottenute testando tre modelli all'avanguardia (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Ogni voce preserva la definizione originale del task insieme alle traiettorie di attacco complete che mostrano come il verificatore sia stato bypassato. Include anche i casi in cui il task non è stato risolto come previsto. I task spaziano tra amministrazione di sistema, machine learning, ingegneria del software e sfide di sicurezza; gli exploit vanno dal semplice spoofing dell'output all'introspezione dello stack frame, alla modifica delle librerie standard e all'hijacking di binari in stile rootkit. È cruciale notare che questi exploit sono specifici per ogni singolo task, e non per l'harness di valutazione, rendendoli più difficili da correggere. Presentiamo inoltre uno studio sulla monitorabilità in cui le traiettorie di attacco vengono sanificate o private delle tracce di ragionamento e poi valutate da un giudice LLM, dimostrando che il rilevamento si degrada significativamente quando la catena di ragionamento (chain-of-thought) viene rimossa (l'AUC scende da 0.97 a 0.92). Il dataset è pubblicamente disponibile all'indirizzo https://github.com/few-sh/terminal-wrench.
Il problema architettonico più importante nell'IA non è la dimensione del modello, ma l'assenza di uno strato che preservi ciò che il modello ha compreso. Le sessioni terminano. Le finestre di contesto si saturano. Le API di memoria restituiscono fatti piatti che il modello deve reinterpretare da zero a ogni lettura. Il risultato è un'intelligenza potente all'interno della singola sessione ma amnesica nel tempo. Questo position paper sostiene che lo strato che risolve questo problema, lo strato di continuità, è l'infrastruttura più consequenziale che il campo non ha ancora costruito, e che il lavoro ingegneristico per realizzarlo è iniziato pubblicamente. Il framework di valutazione formale per la proprietà qui descritta è il benchmark ATANT (arXiv:2604.06710), pubblicato separatamente con risultati di valutazione su un corpus di 250 storie; un documento complementare (arXiv:2604.10981) confronta questo framework con i benchmark esistenti per memoria, contesto lungo e memoria agentica. Il documento definisce la continuità come una proprietà di sistema con sette caratteristiche necessarie, distinta dalla memoria e dal retrieval; descrive un primitivo di archiviazione (Decomposed Trace Convergence Memory) la cui scomposizione in scrittura e ricostruzione in lettura produce tale proprietà; mappa l'architettura ingegneristica sul modello teologico della kenosis e sul modello simbolico di Alfa e Omega, sostenendo che questa mappatura è strutturale piuttosto che metaforica; propone un arco di sviluppo a quattro strati, da SDK esterno a nodo hardware fino a infrastruttura umana a lungo termine; esamina il motivo per cui i limiti fisici che ora vincolano lo strato del modello rendono lo strato di continuità nuovamente consequenziale; e argomenta che l'architettura di governance (la privacy implementata come fisica piuttosto che policy, azioni di classe controllate dal fondatore su impegni architetturali non negoziabili) è inseparabile dal prodotto stesso.
Le rappresentazioni mediante scene graph consentono una comprensione visiva strutturata modellando oggetti e le loro relazioni, e sono ampiamente utilizzate per il ragionamento su scene multiview e 3D. Metodi esistenti come MSG apprendono embedding di scene graph nello spazio euclideo utilizzando l'apprendimento contrastivo e associazioni basate sull'attenzione. Tuttavia, la geometria euclidea non cattura esplicitamente le relazioni di implicazione gerarchica tra luoghi e oggetti, limitando la consistenza strutturale delle rappresentazioni apprese. Per risolvere questo problema, proponiamo Hyperbolic Scene Graph (HSG), che apprende embedding di scene graph nello spazio iperbolico, dove le relazioni gerarchiche sono naturalmente codificate attraverso la distanza geometrica. I nostri risultati mostrano che HSG migliora la qualità della struttura gerarchica mantenendo al contempo solide prestazioni di retrieval. I miglioramenti più significativi si osservano nelle metriche a livello di grafo: HSG raggiunge un PP IoU di 33.17 e il Graph IoU più alto di 33.51, superando la migliore variante di AoMSG (25.37) di 8.14, evidenziando l'efficacia dell'apprendimento di rappresentazioni iperboliche per la modellazione di scene graph. Codice: https://github.com/AIGeeksGroup/HSG.
I modelli linguistici di grandi dimensioni di tipo decoder-only (LLM) stanno progressivamente sostituendo le architetture in stile BERT come backbone per il dense retrieval, ottenendo miglioramenti prestazionali sostanziali e un'ampia adozione. Tuttavia, la robustezza di questi retrieval basati su LLM rimane poco esplorata. In questo articolo, presentiamo il primo studio sistematico sulla robustezza dei dense retriever open-source all'avanguardia basati su LLM da due prospettive complementari: generalizzabilità e stabilità. Per quanto riguarda la generalizzabilità, valutiamo l'efficacia del retrieval su quattro benchmark che comprendono 30 dataset, utilizzando modelli lineari ad effetti misti per stimare la performance media marginale e separare la capacità intrinseca del modello dall'eterogeneità del dataset. La nostra analisi rivela che, sebbene i modelli addestrati con istruzioni eccellano generalmente, quelli ottimizzati per il ragionamento complesso spesso subiscono una "tassa di specializzazione", mostrando una generalizzabilità limitata in contesti più ampi. Per la stabilità, valutiamo la resilienza dei modelli sia contro variazioni non intenzionali delle query (ad esempio, parafrasi, errori di battitura) sia contro attacchi adversariali malevoli (ad esempio, avvelenamento del corpus). Rileviamo che i retrieval basati su LLM mostrano una robustezza migliorata contro gli errori di battitura e l'avvelenamento del corpus rispetto ai baseline encoder-only, ma rimangono vulnerabili a perturbazioni semantiche come la sostituzione con sinonimi. Un'analisi più approfondita mostra che la geometria degli embedding (ad esempio, l'uniformità angolare) fornisce segnali predittivi per la stabilità lessicale e suggerisce che il ridimensionamento della dimensione del modello generalmente migliora la robustezza. Questi risultati forniscono indicazioni per la futura progettazione di retrieval consapevoli della robustezza e per benchmark basati su principi solidi. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.
Introduciamo la prima versione di KWBench (Knowledge Work Bench), un benchmark per il riconoscimento non sollecitato di problemi nei modelli linguistici di grandi dimensioni: può un LLM identificare uno scenario professionale prima di tentare di risolverlo? I benchmark all'avanguardia esistenti hanno raggiunto la saturazione, e la maggior parte delle valutazioni sul lavoro intellettuale finora si riducono all'estrazione o al completamento di compiti rispetto a una specifica. KWBench mira alla fase precedente: riconoscere la struttura governativa della situazione partendo esclusivamente da input grezzi. Il benchmark contiene 223 compiti provenienti da professionisti in ambiti come acquisizioni, trattative contrattuali, farmacia clinica, politica aziendale, analisi antifrode e progettazione di incentivi. Ogni compito codifica uno schema formale di teoria dei giochi (conflitto principale-agente, segnalazione, fallimento del meccanismo di progettazione, omissione strategica, dinamiche coalizionali, interdipendenza strategica) e include una verità di base strutturata che registra l'interpretazione esperta della situazione e le modalità di fallimento previste. I modelli ricevono dati grezzi e un prompt di attività senza alcuna indicazione sul tipo di problema. La valutazione segue una rubrica a tre livelli vincolata da un controllo congiuntivo obbligatorio. I criteri obbligatori codificano i percorsi errati previsti. Abbiamo valutato 16 modelli. Il modello migliore supera il 27,9% dei compiti. I due migliori modelli concordano solo sul 31,7% dei loro superamenti. Tra i primi 8, 44 compiti sono risolti da esattamente un modello; l'instradamento attraverso i primi 8 copre il 50,7% del benchmark, quasi il doppio del miglior singolo modello. A condizione di superare il test, i punteggi di qualità convergono (circa l'83% tra i modelli); i punteggi incondizionati no. Gli stessi modelli articolano correttamente il concetto di teoria dei giochi rilevante quando richiesto, per poi non applicarlo senza sollecitazione. Rilasciamo KWBench per cambiare il modo in cui i modelli all'avanguardia vengono valutati sul lavoro intellettuale, giudicandoli in base a se riconoscono il problema corretto dalla sola situazione, non solo su quanto bene eseguono una volta che il problema è stato inquadrato per loro.
Gli agenti di intelligenza artificiale che interagiscono con il propri ambienti attraverso strumenti abilitano applicazioni potenti, ma in contesti aziendali ad alto rischio, azioni non intenzionali possono causare danni inaccettabili, come violazioni della privacy e perdite finanziarie. Le mitigazioni esistenti, come i metodi basati sull'addestramento e le barriere neurali di sicurezza, migliorano l'affidabilità degli agenti ma non possono fornire garanzie. Studiamo le barriere simboliche di sicurezza come un percorso pratico verso garanzie solide di sicurezza e protezione per gli agenti di IA. Il nostro studio tripartito include una revisione sistematica di 80 benchmark all'avanguardia per la sicurezza degli agenti per identificare le politiche che valutano, un'analisi di quali requisiti politici possono essere garantiti da barriere simboliche e una valutazione di come queste influenzino sicurezza, protezione e successo dell'agente su τ^2-Bench, CAR-bench e MedAgentBench. Rileviamo che l'85% dei benchmark manca di politiche concrete, basandosi invece su obiettivi di alto livello non specificati o sul senso comune. Tra le politiche specificate, il 74% dei requisiti può essere applicato da barriere simboliche, spesso utilizzando meccanismi semplici e a basso costo. Queste barriere migliorano sicurezza e protezione senza sacrificare l'utilità dell'agente. Nel complesso, i nostri risultati suggeriscono che le barriere simboliche di sicurezza sono un modo pratico ed efficace per garantire alcuni requisiti di sicurezza e protezione, specialmente per agenti di IA dominio-specifici. Rilasciamo tutti i codici e gli artefatti su https://github.com/hyn0027/agent-symbolic-guardrails.
La distillazione della conoscenza è una tecnica ampiamente adottata per trasferire le capacità dai LLM a modelli studente più piccoli ed efficienti. Tuttavia, l'uso non autorizzato della distillazione della conoscenza sfrutta ingiustamente il notevole impegno e costo investiti nello sviluppo di modelli all'avanguardia. Indaghiamo metodi per modificare le tracce di ragionamento generate dal docente per raggiungere due obiettivi che scoraggiano la distillazione non autorizzata: (1) l'anti-distillazione, ovvero il degradare l'utilità ai fini addestrativi delle risposte alle query, e (2) la filigrana delle API, che incorpora firme verificabili nei modelli studente. Introduciamo diversi approcci per riscrivere dinamicamente gli output di ragionamento di un docente preservando la correttezza della risposta e la coerenza semantica. Due di questi sfruttano le capacità di riscrittura dei LLM, mentre altri utilizzano tecniche basate sul gradiente. I nostri esperimenti mostrano che un semplice approccio di riscrittura basato su istruzioni ottiene un forte effetto anti-distillazione mantenendo o addirittura migliorando le prestazioni del docente. Inoltre, dimostriamo che il nostro approccio di riscrittura consente anche di incorporare filigrane che possono essere rilevate in modo affidabile con essenzialmente nessun falso allarme. Il nostro codice è disponibile all'indirizzo https://github.com/xhOwenMa/trace-rewriting.