Articoli di ricerca IA selezionati quotidianamente con traduzioni
Seedance 2.0是于2026年2月初在中国正式发布的新一代原生多模态音视频生成模型。相较于前代Seedance 1.0和1.5 Pro版本,Seedance 2.0采用统一高效的大规模多模态音视频联合生成架构,通过整合业界迄今最全面的多模态内容参考与编辑能力套件,可支持文本、图像、音频、视频四种输入模态。该模型在音视频生成的所有关键子维度上均实现显著且全面的提升,在专家评测与公开用户测试中均展现出与领域领先水平相当的性能。Seedance 2.0支持直接生成时长4至15秒的音视频内容,原生输出分辨率涵盖480p与720p。针对作为参考的多模态输入,其当前开放平台最高支持3段视频片段、9张图像及3段音频片段。此外,我们还提供Seedance 2.0 Fast版本,这是专为低延迟场景提升生成速度的加速变体。Seedance 2.0在基础生成能力与多模态生成性能上的重大飞跃,将为终端用户带来更具创造力的体验升级。
Verso un agente generalista incorporato per l'interazione nel mondo reale, i modelli linguistici multimodali di grandi dimensioni (MLLM) come agenti continuano a soffrire di latenza problematica, feedback sporadico ed errori irreversibili. I videogiochi offrono un banco di prova ideale con osservazioni visive ricche e interazioni a ciclo chiuso, che richiedono percezione fine, pianificazione a lungo termine e controllo preciso. Tuttavia, la valutazione sistematica di queste capacità è attualmente ostacolata da interfacce d'azione eterogenee e verifica euristica. A tal fine, introduciamo GameWorld, un benchmark progettato per la valutazione standardizzata e verificabile degli MLLM come agenti di gioco generalisti in ambienti browser. Vengono studiate due interfacce per agenti di gioco: (i) agenti di uso computerizzato che emettono direttamente controlli da tastiera e mouse, e (ii) agenti multimodali generalisti che agiscono in uno spazio d'azione semantico tramite analisi semantica delle azioni deterministica. GameWorld contiene 34 giochi diversificati e 170 compiti, ciascuno abbinato a metriche verificabili dello stato per una valutazione basata sui risultati. I risultati ottenuti su 18 coppie modello-interfaccia suggeriscono che anche l'agente con le migliori prestazioni è ben lontano dal raggiungere le capacità umane nei videogiochi. Esperimenti estensivi con ripetute riesecuzioni complete del benchmark dimostrano la robustezza dello stesso, mentre ulteriori studi sull'interazione in tempo reale, sulla sensibilità alla memoria contestuale e sulla validità delle azioni rivelano ulteriori sfide future per gli agenti di gioco. Nel complesso, offrendo un framework di valutazione standardizzato, verificabile e riproducibile, GameWorld getta solide basi per far avanzare la ricerca sugli agenti di gioco multimodali e oltre. La pagina del progetto è all'indirizzo https://gameworld-bench.github.io.
La maggior parte dei modelli di ricompensa per la generazione visiva riduce i ricchi giudizi umani a un singolo punteggio non spiegato, scartando il ragionamento alla base della preferenza. Dimostriamo che insegnare ai modelli di ricompensa a produrre critiche esplicite e multidimensionali prima di assegnare un punteggio li trasforma da valutatori passivi in strumenti di ottimizzazione attiva, migliorando i generatori in due modi complementari: durante l'addestramento, le razionalità strutturate forniscono ricompense interpretabili e granulari per l'apprendimento per rinforzo; durante il test, un ciclo Genera-Critica-Affina trasforma le critiche in revisioni mirate dei prompt che migliorano gli output senza alcun aggiornamento dei parametri. Per addestrare un tale modello di ricompensa senza costose annotazioni di razionalità, introduciamo il Razionalismo ancorato alle preferenze (PARROT), un framework principiato che recupera razionalità di alta qualità dai dati di preferenza facilmente disponibili attraverso la generazione ancorata, il filtraggio per coerenza e la distillazione. Il modello risultante, RationalRewards (8B), raggiunge prestazioni all'avanguardia nella predizione delle preferenze tra i modelli di ricompensa open-source, competitivo con Gemini-2.5-Pro, pur utilizzando da 10 a 20 volte meno dati di addestramento rispetto ai baseline comparabili. Come ricompensa per l'RL, migliora costantemente i generatori testo-immagine e di editing di immagini oltre le alternative scalari. Ancora più notevolmente, il suo ciclo di critica e affinamento a tempo di test eguaglia o supera la fine-tuning basata su RL su diversi benchmark, suggerendo che il ragionamento strutturato possa sbloccare capacità latenti nei generatori esistenti che prompt subottimali non riescono a elicitare.
Ci si aspetta che gli agenti di IA svolgano attività professionali in centinaia di ambiti occupazionali (dal triage in pronto soccorso al monitoraggio della sicurezza dei reattori nucleari fino all'elaborazione delle importazioni doganali), eppure i benchmark esistenti possono valutare gli agenti solo nei pochi domini in cui esistono ambienti pubblici. Presentiamo OccuBench, un benchmark che copre 100 scenari di compiti professionali reali in 10 categorie industriali e 65 domini specializzati, reso possibile dai Language World Models (LWM) che simulano ambienti specifici di dominio attraverso la generazione di risposte strumentali guidata da LLM. La nostra pipeline di sintesi multi-agente produce automaticamente istanze di valutazione con solvibilità garantita, difficoltà calibrata e diversità ancorata a documenti. OccuBench valuta gli agenti lungo due dimensioni complementari: il completamento dei compiti attraverso i domini professionali e la robustezza ambientale sotto iniezione controllata di guasti (errori espliciti, degrado implicito dei dati e guasti misti). Valutiamo 15 modelli di frontiera appartenenti a 8 famiglie di modelli e riscontriamo che: (1) nessun singolo modello domina tutte le industrie, poiché ciascuno possiede un profilo distinto di capacità occupazionale; (2) i guasti impliciti (dati troncati, campi mancanti) sono più difficili sia degli errori espliciti (timeout, errori 500) che dei guasti misti, poiché mancano di segnali di errore evidenti e richiedono all'agente di rilevare autonomamente il degrado dei dati; (3) modelli più grandi, generazioni più recenti e uno sforzo di ragionamento più elevato migliorano costantemente le prestazioni. GPT-5.2 migliora di 27,5 punti passando dallo sforzo di ragionamento minimo a quello massimo; e (4) agenti potenti non sono necessariamente simulatori ambientali potenti. La qualità del simulatore è fondamentale per l'affidabilità della valutazione basata su LWM. OccuBench fornisce la prima valutazione sistematica cross-settoriale degli agenti di IA su compiti professionali occupazionali.
Il ragionamento spaziale su scene tridimensionali è una capacità fondamentale per l'intelligenza embodied, ma il miglioramento continuo dei modelli rimane limitato dal costo dell'annotazione geometrica. Il paradigma dell'auto-evoluzione offre una strada promettente, ma la sua dipendenza dal consenso del modello per costruire pseudo-etichette porta l'addestramento a rafforzare piuttosto che correggere gli errori geometrici del modello stesso. Identifichiamo una proprietà unica del ragionamento spaziale 3D che supera questa limitazione: la ground truth è una conseguenza deterministica della geometria sottostante, calcolabile esattamente da nuvole di punti e pose della telecamera senza alcun intervento del modello. Basandoci su questa intuizione, presentiamo SpatialEvo, un framework auto-evolutivo per il ragionamento spaziale 3D, incentrato sull'Ambiente Geometrico Deterministico (DGE). Il DGE formalizza 16 categorie di compiti di ragionamento spaziale sotto regole esplicite di validazione geometrica e converte scene 3D non annotate in oracoli interattivi a rumore zero, sostituendo il consenso del modello con feedback fisico oggettivo. Una singola politica a parametri condivisi co-evolve simultaneamente nei ruoli di interrogatore e risolutore sotto i vincoli del DGE: l'interrogatore genera domande spaziali fisicamente valide basate sulle osservazioni della scena, mentre il risolutore ricava risposte precise rispetto alla ground truth verificata dal DGE. Uno schedulatore adattativo ai compiti concentra endogenamente l'addestramento sulle categorie più deboli del modello, producendo un curriculum dinamico senza progettazione manuale. Esperimenti su nove benchmark dimostrano che SpatialEvo raggiunge il punteggio medio più elevato sia a scala 3B che 7B, con guadagni consistenti sui benchmark di ragionamento spaziale e nessuna degradazione nella comprensione visiva generale.
L'auto-evoluzione basata sulla memoria è emersa come un paradigma promettente per gli agenti di programmazione. Tuttavia, gli approcci esistenti tipicamente limitano l'utilizzo della memoria a domini di task omogenei, non riuscendo a sfruttare le fondamenta infrastrutturali condivise, come ambienti di runtime e linguaggi di programmazione, che esistono tra diversi problemi di programmazione del mondo reale. Per affrontare questa limitazione, noi investigiamo il Transfer Learning della Memoria (MTL) sfruttando un pool di memoria unificato proveniente da domini eterogenei. Valutiamo le prestazioni su 6 benchmark di programmazione utilizzando quattro rappresentazioni della memoria, che spaziano da tracce concrete a insight astratti. I nostri esperimenti dimostrano che la memoria cross-dominio migliora le prestazioni medie del 3,7%, principalmente trasferendo meta-conoscenze, come routine di validazione, piuttosto che codice specifico per il task. È importante notare che abbiamo scoperto che l'astrazione determina la trasferibilità; gli insight di alto livello si generalizzano bene, mentre le tracce di basso livello spesso inducono un transfer negativo a causa di un'eccessiva specificità. Inoltre, mostriamo che l'efficacia del transfer scala con la dimensione del pool di memoria, e che la memoria può essere trasferita anche tra modelli diversi. Il nostro lavoro stabilisce principi di progettazione empirici per espandere l'utilizzo della memoria oltre i silos a dominio singolo. Pagina del progetto: https://memorytransfer.github.io/
Mentre l'apprendimento per rinforzo con ricompense verificabili (RLVR) migliora significativamente il ragionamento dei modelli linguistici di grandi dimensioni (LLM) ottimizzando la distribuzione condizionata P(y|x), il suo potenziale è fondamentalmente limitato dalla distribuzione di output esistente del modello base. L'ottimizzazione della distribuzione marginale P(y) nello Spazio di Pre-addestramento affronta questo collo di bottiglia codificando l'abilità di ragionamento e preservando un'ampia capacità di esplorazione. Tuttavia, il pre-addestramento convenzionale si affida a corpora statici per un apprendimento passivo, portando a uno spostamento della distribuzione che ostacola il potenziamento mirato del ragionamento. In questo articolo, introduciamo PreRL (Pre-train Space RL), che applica aggiornamenti online guidati da ricompense direttamente a P(y). Convalidiamo teoricamente ed empiricamente il forte allineamento del gradiente tra log P(y) e log P(y|x), stabilendo PreRL come un surrogato valido per l'RL standard. Inoltre, scopriamo un meccanismo critico: il Rinforzo tramite Campioni Negativi (NSR) all'interno di PreRL funge da motore eccezionalmente efficace per il ragionamento. NSR-PreRL pota rapidamente gli spazi di ragionamento errati stimolando al contempo comportamenti riflessivi endogeni, aumentando rispettivamente i pensieri di transizione e riflessione di 14,89x e 6,54x. Sfruttando queste intuizioni, proponiamo Dual Space RL (DSRL), una strategia di Reincarnazione della Politica che inizializza i modelli con NSR-PreRL per espandere l'orizzonte del ragionamento prima di passare all'RL standard per un'ottimizzazione granulare. Esperimenti estensivi dimostrano che DSRL supera costantemente baseline solide, provando che la potatura nello spazio di pre-addestramento indirizza efficacemente la politica verso un sottospazio raffinato di ragionamento corretto.
Gli agenti basati su Language Model (LM) sono sempre più utilizzati in compiti decisionali complessi e aperti, dall'AI per la programmazione all'AI fisica. Un requisito fondamentale in questi contesti è la capacità di esplorare lo spazio del problema e sfruttare efficacemente le conoscenze acquisite. Tuttavia, distinguere sistematicamente e quantificare esplorazione e sfruttamento dalle azioni osservate, senza accedere alla politica interna dell'agente, rimane una sfida. Per affrontare questo problema, progettiamo ambienti controllabili ispirati a scenari pratici di AI incarnata. Ogni ambiente consiste in una mappa a griglia 2D parzialmente osservabile e un Directed Acyclic Graph (DAG) di compito sconosciuto. La generazione della mappa può essere regolata programmaticamente per enfatizzare la difficoltà di esplorazione o sfruttamento. Per abilitare una valutazione indipendente dalla politica, progettiamo una metrica per quantificare gli errori di esplorazione e sfruttamento dalle azioni dell'agente. Valutiamo una varietà di agenti LM all'avanguardia e riscontriamo che anche i modelli più avanzati faticano nel nostro compito, con diversi modelli che mostrano modalità di fallimento distinte. Osserviamo inoltre che i modelli di ragionamento risolvono il compito in modo più efficace e dimostrano che sia l'esplorazione che lo sfruttamento possono essere migliorati significativamente attraverso una minimale ingegnerizzazione dell'harness. Rilasciamo il nostro codice https://github.com/jjj-madison/measurable-explore-exploit{qui}.
Gli agenti di codifica IA sono diventati centrali nei flussi di lavoro degli sviluppatori, eppure ogni soluzione esistente vincola le proprie capacità di ragionamento a una forma di distribuzione specifica, come una CLI, un plugin per IDE o un'applicazione web. Questa limitazione crea barriere sistemiche quando le aziende tentano di riutilizzare queste capacità in ambienti ingegneristici eterogenei. Per affrontare questa sfida, presentiamo Sema Code, un framework aperto per la codifica IA costruito sul principio di essere incorporabile, componibile e orientato al framework. Sema Code disaccoppia completamente il motore dell'agente centrale da tutti i livelli client, pubblicandolo come libreria npm autonoma che qualsiasi runtime può gestire a livello di codice. Intorno a questa architettura, abbiamo progettato otto meccanismi chiave: isolamento del motore multi-tenant, code di input FIFO con ricostruzione sicura delle sessioni, compressione adattiva del contesto, pianificazione collaborativa multi-agente, gestione intelligente dei processi basata su Todo, controllo asincrono delle autorizzazioni a quattro livelli, integrazione dell'ecosistema su tre livelli che comprende MCP, Skills e Plugin, e un framework per task in background con privilegi separati di esecuzione e osservazione. Questi meccanismi affrontano collettivamente le sfide ingegneristiche di trasformare un complesso motore di agenti in un nucleo condiviso e programmabile. Dimostrando la sua versatilità architetturale, lo stesso motore Sema Core alimenta simultaneamente un'estensione VSCode e un gateway di messaggistica multi-canale, che abbiamo chiamato SemaClaw, per unificare le interazioni degli agenti su piattaforme come Telegram e Feishu. Questi rappresentano due forme di prodotto fondamentalmente diverse che condividono un identico nucleo di ragionamento, differenziandosi solo a livello client.
Nel RL, dato un prompt, campioniamo un gruppo di completamenti da un modello e li assegniamo un punteggio. Seguono due domande: quali completamenti dovrebbero guadagnare massa di probabilità, e come dovrebbero muoversi i parametri per realizzare tale cambiamento? I metodi standard del policy gradient rispondono a entrambe le domande simultaneamente, quindi l'aggiornamento può eccedere o essere insufficiente a seconda del learning rate, del clipping e di altre scelte dell'ottimizzatore. Introduciamo la Target Policy Optimization (TPO), che separa le due questioni. Dati i completamenti con punteggio, la TPO costruisce una distribuzione target q_i ∝ p_i^{,vecchia} exp(u_i) e adatta la policy ad essa tramite l'entropia incrociata. Il gradiente della loss sui logit dei completamenti campionati è p^θ - q, che si annulla una volta che la policy corrisponde al target. Su banditi tabulari, task di sequenza con transformer e RLVR per LLM da miliardi di parametri, la TPO eguaglia PG, PPO, GRPO e DG sui task semplici e li supera sostanzialmente in caso di ricompensa sparsa. Il codice è disponibile all'indirizzo https://github.com/JeanKaddour/tpo.
L'ascesa di OpenClaw all'inizio del 2026 segna il momento in cui milioni di utenti hanno iniziato a utilizzare agenti di IA personali nella loro vita quotidiana, delegando compiti che vanno dalla pianificazione di viaggi a ricerche complesse in più fasi. Questa scala di adozione indica che due archi di sviluppo paralleli hanno raggiunto un punto di svolta. Il primo è un cambio di paradigma nell'ingegneria dell'IA, che evolve dall'ingegneria dei prompt e del contesto all'ingegneria dell'*harness* - progettando l'infrastruttura completa necessaria per trasformare agenti non vincolati in sistemi controllabili, verificabili e affidabili per l'uso in produzione. Man mano che le capacità dei modelli convergono, questo strato di *harness* sta diventando il principale sito di differenziazione architetturale. Il secondo è l'evoluzione dell'interazione uomo-agente da compiti discreti verso una relazione collaborativa persistente e consapevole del contesto, che richiede un'infrastruttura di *harness* aperta, affidabile ed estensibile. Presentiamo SemaClaw, un framework applicativo multi-agente open-source che affronta questi cambiamenti compiendo un passo verso agenti di IA personali a scopo generale attraverso l'ingegneria dell'*harness*. I nostri principali contributi includono un metodo di orchestrazione del team di agenti ibrido a due fasi basato su DAG, un sistema di sicurezza comportamentale PermissionBridge, un'architettura di gestione del contesto a tre livelli e un'abilità wiki agentiva per la costruzione automatizzata di basi di conoscenza personali.
La ricostruzione 3D in streaming mira a recuperare informazioni tridimensionali, come pose della telecamera e nuvole di punti, da un flusso video, richiedendo precisione geometrica, coerenza temporale ed efficienza computazionale. Ispirati dai principi della localizzazione e mappatura simultanea (SLAM), introduciamo LingBot-Map, un modello fondante 3D feed-forward per la ricostruzione di scene da dati in streaming, basato su un'architettura di trasformatore con contesto geometrico (GCT). Un aspetto distintivo di LingBot-Map risiede nel suo meccanismo di attenzione accuratamente progettato, che integra un contesto di ancoraggio, una finestra di riferimento per le pose e una memoria della traiettoria per affrontare rispettivamente il grounding delle coordinate, gli indizi geometrici densi e la correzione della deriva a lungo raggio. Questo design mantiene lo stato dello streaming compatto conservando al contempo un ricco contesto geometrico, consentendo un'inferenza stabile ed efficiente a circa 20 FPS su input con risoluzione 518x378 su sequenze lunghe superiori a 10.000 fotogrammi. Valutazioni estensive su vari benchmark dimostrano che il nostro approccio raggiunge prestazioni superiori rispetto sia ai metodi esistenti in streaming che a quelli basati su ottimizzazione iterativa.
I modelli di ricostruzione 3D feed-forward sono efficienti ma rigidi: una volta addestrati, eseguono inferenza in modo zero-shot e non possono adattarsi alla scena di test. Di conseguenza, le ricostruzioni visivamente plausibili contengono spesso errori, in particolare in caso di occlusioni, riflessi speculari e segnali ambigui. Per affrontare questo problema, introduciamo Free Geometry, un framework che consente ai modelli di ricostruzione 3D feed-forward di auto-evolversi durante il test senza alcuna ground truth 3D. La nostra intuizione chiave è che, quando il modello riceve più viste, produce ricostruzioni più affidabili e coerenti tra le viste. Sfruttando questa proprietà, data una sequenza di test, mascheriamo un sottoinsieme di frame per costruire un task auto-supervisionato. Free Geometry impone la consistenza delle caratteristiche tra le viste (cross-view feature consistency) tra le rappresentazioni derivate da osservazioni complete e parziali, mantenendo allo stesso tempo le relazioni pairwise implicite nei frame esclusi. Questa auto-supervisione consente una rapida ricalibrazione tramite aggiornamenti LoRA leggeri, richiedendo meno di 2 minuti per dataset su una singola GPU. Il nostro approccio migliora costantemente modelli foundation all'avanguardia, inclusi Depth Anything 3 e VGGT, su 4 dataset di benchmark, ottenendo un miglioramento medio del 3,73% nell'accuratezza della posa della telecamera e del 2,88% nella predizione della mappa di punti. Il codice è disponibile all'indirizzo https://github.com/hiteacherIamhumble/Free-Geometry.
La diffusione continua è stata la base per la generazione ad alta fedeltà, controllabile e in pochi passaggi di molte modalità di dati come le immagini. Tuttavia, nella modellazione del linguaggio, i precedenti modelli linguistici a diffusione continua (DLM) rimangono indietro rispetto alle controparti discrete a causa dello spazio dati sparso e dello spazio di progettazione poco esplorato. In questo lavoro, colmiamo questa lacuna con LangFlow, il primo DLM continuo in grado di rivaleggiare con la diffusione discreta, collegando i DLM nello spazio degli embedding al Flow Matching tramite la divergenza di Bregman, insieme a tre innovazioni chiave: (1) deriviamo un nuovo limite NLL basato su ODE per la valutazione principiata dei modelli linguistici continui basati su flusso; (2) proponiamo un principio di uniformità dell'informazione per impostare la schedulazione del rumore, che motiva uno schedulatore di rumore apprendibile basato su una distribuzione di Gumbel; e (3) rivediamo i protocolli di addestramento precedenti incorporando l'auto-condizionamento, poiché riteniamo che migliori sia la likelihood che la qualità del campione dei DLM nello spazio degli embedding, con effetti sostanzialmente diversi dalla diffusione discreta. Mettendo tutto insieme, LangFlow rivaleggia con i migliori DLM discreti sia nella perplexity (PPL) che nella perplexity generativa (Gen. PPL), raggiungendo una PPL di 30.0 su LM1B e 24.6 su OpenWebText. Supera persino i baseline autoregressivi nel trasferimento zero-shot su 4 su 7 benchmark. LangFlow fornisce la prima chiara evidenza che la diffusione continua è un paradigma promettente per la modellazione del linguaggio. Homepage: https://github.com/nealchen2003/LangFlow
Sebbene i Large Language Model (LLM) abbiano consentito agli agenti di ricerca di IA di svolgere compiti scientifici isolati, l'automazione di workflow complessi e realistici, come l'addestramento di LLM, rimane una sfida significativa. In questo articolo, introduciamo TREX, un sistema multi-agente che automatizza l'intero ciclo di vita dell'addestramento di un LLM. Orchestrando la collaborazione tra due moduli fondamentali - il Ricercatore e l'Esecutore - il sistema esegue in modo fluido l'analisi dei requisiti, la ricerca di letteratura e dati in dominio aperto, la formulazione di strategie di addestramento, la preparazione di ricette di dati, e l'addestramento e valutazione del modello. Il processo sperimentale a più fasi è modellato come un albero di ricerca, consentendo al sistema di pianificare efficientemente i percorsi di esplorazione, riutilizzare i risultati storici e distillare insight di alto livello da prove iterative. Per valutare la capacità dell'addestramento automatizzato di LLM, costruiamo FT-Bench, un benchmark comprendente 10 task derivati da scenari reali, che spaziano dall'ottimizzazione delle capacità fondamentali del modello al miglioramento delle prestazioni su compiti specifici di dominio. I risultati sperimentali dimostrano che l'agente TREX ottimizza costantemente le prestazioni del modello sui task target.
Sebbene il campo visione-linguaggio (VL) abbia ottenuto un notevole successo nell'integrare informazioni visive e testuali in più lingue e domini, manca ancora un quadro dedicato per valutare l'allineamento antropocentrico nei sistemi visione-linguaggio. Forniamo due contributi per colmare questa lacuna. In primo luogo, introduciamo l'Adattamento Regionale Antropogenico: un nuovo paradigma che mira a ottimizzare la rilevanza del modello per contesti regionali specifici, garantendo al contempo la conservazione delle capacità di generalizzazione globale. In secondo luogo, presentiamo un metodo di adattamento semplice ma efficace denominato Geographical-generalization-made-easy (GG-EZ), che utilizza il filtraggio dei dati regionali e la fusione di modelli. Attraverso esperimenti completi su 3 architetture VL: grandi modelli visione-linguaggio, modelli di diffusione text-to-image e modelli di incorporamento visione-linguaggio, e uno studio di caso sull'adattamento regionale nel Sud-est asiatico (SEA), dimostriamo l'importanza dell'Adattamento Regionale Antropogenico e l'efficacia di GG-EZ, mostrando miglioramenti del 5-15% nelle metriche di rilevanza cultolare in tutto il SEA, mantenendo oltre il 98% delle prestazioni globali e occasionalmente superandole. I nostri risultati stabiliscono l'Allineamento Regionale Antropogenico come paradigma fondamentale per l'applicabilità dei modelli visione-linguaggio multimodali in diverse regioni e dimostrano un metodo baseline semplice ma efficace che ottimizza l'allineamento dei valori regionali preservando la generalizzazione globale.
La distillazione della conoscenza on-policy (OPD) addestra uno studente sulle sue stesse traiettorie di esplorazione (rollout) sotto la supervisione a livello di token di un insegnante. Non tutte le posizioni dei token hanno la stessa importanza, ma le visioni esistenti sull'importanza dei token sono incomplete. Ci poniamo una domanda diretta: quali token veicolano il segnale di apprendimento più utile nell'OPD? La nostra risposta è che i token informativi provengono da due regioni: le posizioni con alta entropia dello studente e le posizioni con bassa entropia dello studente più alta divergenza insegnante-studente, dove lo studente è sovracconfidente e sbaglia. Empiricamente, l'entropia dello studente è un forte proxy del primo ordine: trattenere il 50% dei token con un campionamento basato sull'entropia eguaglia o supera l'addestramento su tutti i token, riducendo al contempo la memoria di picco fino al 47%. Ma l'entropia da sola trascura una seconda regione importante. Quando isoliamo i token a bassa entropia e alta divergenza, l'addestramento su meno del 10% di tutti i token si avvicina molto ai baseline con tutti i token, dimostrando che i token sovracconfidenti veicolano un segnale correttivo denso nonostante siano quasi invisibili alle regole basate solo sull'entropia. Organizziamo questi risultati con TIP (Importanza del Token nella distillazione on-Policy), una tassonomia a due assi su entropia dello studente e divergenza insegnante-studente, e forniamo una spiegazione teorica del perché l'entropia è utile ma strutturalmente incompleta. Questa visione motiva regole di selezione dei token "type-aware" che combinano incertezza e disaccordo. Convalidiamo questo quadro su tre coppie insegnante-studente che coinvolgono Qwen3, Llama e Qwen2.5 su MATH-500 e AIME 2024/2025, e sul benchmark DeepPlanning per la pianificazione agentica a lungo orizzonte, dove l'addestramento solo su Q3 con <20% dei token supera l'OPD con tutti i token. I nostri esperimenti sono implementati estendendo il repository OPD https://github.com/HJSang/OPSD_OnPolicyDistillation, che supporta la distillazione efficiente in memoria di modelli più grandi con budget GPU limitati.
L'Execution Accuracy (EX), la metrica ampiamente utilizzata per valutare l'efficacia delle soluzioni di conversione dal Linguaggio Naturale a SQL (NL2SQL), sta diventando sempre più inaffidabile. È sensibile alle variazioni sintattiche, ignora il fatto che le domande possano ammettere molteplici interpretazioni e viene facilmente fuorviata da SQL di ground-truth errati. Per affrontare questo problema, introduciamo ROSE, una metrica incentrata sull'intento, che si concentra sul verificare se l'SQL predetto risponde alla domanda, piuttosto che sulla coerenza con l'SQL di ground-truth nel paradigma dipendente dal riferimento. ROSE utilizza una cascata avversaria Prover-Refuter: il SQL Prover valuta la correttezza semantica di un SQL predetto rispetto all'intento dell'utente in modo indipendente, mentre l'Adversarial Refuter utilizza l'SQL di ground-truth come prova per contestare e affinare questo giudizio. Sul nostro set di validazione allineato con esperti, ROSE-VEC, ROSE raggiunge il miglior accordo con esperti umani, superando la metrica successiva per prestazioni di quasi il 24% nel Kappa di Cohen. Effettuiamo inoltre una rivalutazione su larga scala di 19 metodi NL2SQL, rivelando quattro insight preziosi. Rilasciamo ROSE e ROSE-VEC per facilitare una ricerca NL2SQL più affidabile.
La localizzazione di interfacce grafiche (GUI grounding), che individua gli elementi dell'interfaccia da screenshot in base a query in linguaggio naturale, rimane una sfida per le icone di piccole dimensioni e i layout densi. I metodi di zoom al momento del test migliorano la localizzazione ritagliando e rieseguendo l'inferenza a risoluzioni più elevate, ma applicano il ritaglio in modo uniforme a tutte le istanze con dimensioni fisse, ignorando se il modello sia effettivamente incerto caso per caso. Proponiamo UI-Zoomer, un framework adattivo di zoom-in senza necessità di addestramento, che tratta sia l'attivazione che la scala dello zoom come un problema di quantificazione dell'incertezza predittiva. Un gate consapevole della confidenza fonde il consenso spaziale tra candidati stocastici con la confidenza generativa a livello di token per attivare selettivamente lo zoom-in solo quando la localizzazione è incerta. Quando attivato, un modulo di dimensionamento del ritaglio guidato dall'incertezza scompone la varianza predittiva in dispersione posizionale inter-campione ed estensione intra-campione del bounding box, derivando un raggio di ritaglio per istanza tramite la legge della varianza totale. Esperimenti estesi su ScreenSpot-Pro, UI-Vision e ScreenSpot-v2 dimostrano miglioramenti consistenti rispetto a baseline solide su molteplici architetture di modelli, ottenendo guadagni fino a +13,4%, +10,3% e +4,2% rispettivamente, senza alcun addestramento aggiuntivo richiesto.
I metodi attuali di post-addestramento in contesti verificabili si dividono in due categorie. L'apprendimento per rinforzo (RLVR) si basa su ricompense binarie, che sono ampiamente applicabili e potenti, ma forniscono una supervisione solo sparsa durante l'addestramento. La distillazione fornisce una supervisione densa a livello di token, tipicamente ottenuta da un insegnante esterno o utilizzando dimostrazioni di alta qualità. Raccogliere tale supervisione può essere costoso o non fattibile. Proponiamo Self-Distillation Zero (SD-Zero), un metodo sostanzialmente più efficiente in termini di campioni di addestramento rispetto all'RL e che non richiede un insegnante esterno o dimostrazioni di alta qualità. SD-Zero addestra un singolo modello a ricoprire due ruoli: un Generatore, che produce una risposta iniziale, e un Revisore, che, condizionato da tale risposta e dalla sua ricompensa binaria, produce una risposta migliorata. Eseguiamo quindi una auto-distillazione on-policy per distillare il revisore nel generatore, utilizzando le distribuzioni di token del revisore - condizionate sulla risposta del generatore e sulla sua ricompensa - come supervisione. In effetti, SD-Zero addestra il modello a trasformare le ricompense binarie in un'auto-supervisione densa a livello di token. Su benchmark di ragionamento matematico e di codice con Qwen3-4B-Instruct e Olmo-3-7B-Instruct, SD-Zero migliora le prestazioni di almeno il 10% rispetto ai modelli base e supera baseline solide, tra cui Rejection Fine-Tuning (RFT), GRPO e Self-Distillation Fine-Tuning (SDFT), con lo stesso set di domande e budget di campioni di addestramento. Estesi studi di ablazione mostrano due caratteristiche innovative del nostro algoritmo proposto: (a) auto-localizzazione a livello di token, dove il revisore è in grado di identificare i token chiave che necessitano di revisione nella risposta del generatore sulla base della ricompensa, e (b) auto-evoluzione iterativa, dove la capacità migliorativa di revisione delle risposte può essere distillata nuovamente nelle prestazioni di generazione tramite una regolare sincronizzazione dell'insegnante.
La ricostruzione di oggetti non rigidi con plausibilità fisica rimane una sfida significativa. Gli approcci esistenti sfruttano il rendering differenziabile per l'ottimizzazione per singola scena, recuperando geometria e dinamica, ma richiedono costosi tuning o annotazioni manuali, limitando praticità e generalizzabilità. Per affrontare questo problema, proponiamo ReconPhys, il primo framework feedforward che apprende congiuntamente la stima degli attributi fisici e la ricostruzione tramite 3D Gaussian Splatting da un singolo video monoculare. Il nostro metodo utilizza un'architettura a doppio ramo addestrata tramite una strategia self-supervised, eliminando la necessità di etichette fisiche ground-truth. Dato una sequenza video, ReconPhys inferisce simultaneamente geometria, aspetto e attributi fisici. Esperimenti su un dataset sintetico su larga scala dimostrano prestazioni superiori: il nostro metodo raggiunge 21.64 PSNR nella predizione futura rispetto a 13.27 dei baseline di ottimizzazione state-of-the-art, riducendo allo stesso tempo la Chamfer Distance da 0.349 a 0.004. Crucialmente, ReconPhys consente un'inferenza rapida (<1 secondo) rispetto alle ore richieste dai metodi esistenti, facilitando la generazione rapida di asset pronti per la simulazione in robotica e grafica.
Gli agenti LLM adottano sempre più le skill come unità di composizione riutilizzabile. Sebbene le skill siano condivise tra diverse piattaforme di agenti, i sistemi attuali le trattano come contesto grezzo, causando un comportamento inconsistente della stessa skill per agenti diversi. Questa fragilità compromette la portabilità delle skill e l'efficienza esecutiva. Per affrontare questa sfida, analizziamo 118.000 skill e traiamo ispirazione dalla progettazione tradizionale dei compilatori. Trattiamo le skill come codice e gli LLM come processori eterogenei. Per rendere la portabilità operativa, scomponiamo i requisiti di una skill in un insieme di capacità primitive e misuriamo quanto bene ogni coppia modello-harness le supporti. Sulla base di questi profili di capacità, proponiamo SkVM, un sistema di compilazione e runtime progettato per l'esecuzione portabile ed efficiente delle skill. In fase di compilazione, SkVM esegue la compilazione basata sulle capacità, il binding dell'ambiente e l'estrazione della concorrenza. A runtime, SkVM applica la solidificazione JIT del codice e la ricompilazione adattativa per l'ottimizzazione delle prestazioni. Valutiamo SkVM su otto LLM di diverse dimensioni e tre harness di agenti, coprendo SkillsBench e task di skill rappresentativi. I risultati dimostrano che SkVM migliora significativamente i tassi di completamento dei task tra diversi modelli e ambienti, riducendo contemporaneamente il consumo di token fino al 40%. In termini di prestazioni, SkVM raggiunge un speedup fino a 3,2x con parallelismo migliorato e una riduzione della latenza di 19-50x grazie alla solidificazione del codice.
Le immagini ad alto intervallo dinamico (HDR) offrono una rappresentazione ricca e fedele della radianza della scena, ma rimangono una sfida per i modelli generativi a causa della loro incompatibilità con i dati limitati e compressi percettivamente su cui questi modelli sono addestrati. Una soluzione naturale è apprendere nuove rappresentazioni per l'HDR, il che introduce ulteriore complessità e requisiti dati. In questo lavoro, dimostriamo che la generazione HDR può essere ottenuta in modo molto più semplice sfruttando i forti preconcetti visivi già catturati da modelli generativi pre-addestrati. Osserviamo che una codifica logaritmica ampiamente utilizzata nelle pipeline cinematografiche mappa le immagini HDR in una distribuzione che è naturalmente allineata con lo spazio latente di questi modelli, consentendo un adattamento diretto tramite un fine-tuning leggero senza dover riaddestrare un encoder. Per recuperare i dettagli che non sono direttamente osservabili nell'input, introduciamo inoltre una strategia di addestramento basata su degradazioni che imitano la fotocamera, la quale incoraggia il modello a dedurre il contenuto HDR mancante dai suoi preconcetti appresi. Combinando queste intuizioni, dimostriamo una generazione di video HDR di alta qualità utilizzando un modello video pre-addestrato con un adattamento minimo, ottenendo risultati solidi in diverse scene e condizioni di illuminazione impegnative. I nostri risultati indicano che l'HDR, nonostante rappresenti un regime di formazione dell'immagine fondamentalmente diverso, può essere gestito efficacemente senza ridisegnare i modelli generativi, a condizione che la rappresentazione sia scelta per allinearsi con i loro preconcetti appresi.
Presentiamo ArcDeck, un framework multi-agente che formula la generazione di slide da articoli come un'attività di ricostruzione narrativa strutturata. A differenza dei metodi esistenti che riassumono direttamente il testo grezzo in slide, ArcDeck modella esplicitamente il flusso logico dell'articolo sorgente. Il sistema analizza prima l'input per costruire un albero del discorso e stabilire un documento di intenti globale, garantendo la preservazione dell'intento di alto livello. Questi prerequisiti strutturali guidano quindi un processo iterativo di raffinamento multi-agente, in cui agenti specializzati criticano e revisionano iterativamente la bozza della presentazione prima di renderizzare i layout visivi e i design finali. Per valutare il nostro approccio, introduciamo anche ArcBench, un benchmark di nuova creazione composto da coppie articolo accademico-slide. I risultati sperimentali dimostrano che la modellazione esplicita del discorso, combinata con il coordinamento di agenti con ruoli specifici, migliora significativamente la fluidità narrativa e la coerenza logica delle presentazioni generate.
Spinti dalla natura sottospecificata e multi-hop delle query di ricerca e dalla natura multimodale, eterogenea e spesso conflittuale dei risultati web del mondo reale, introduciamo MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), un benchmark annotato da esseri umani per valutare gli agenti potenziati dalla ricerca. MERRIN misura la capacità degli agenti di IA di identificare le modalità rilevanti, recuperare prove multimodali ed eseguire ragionamenti multi-hop su fonti web rumorose. Si differenzia dai lavori precedenti per tre aspetti importanti: (1) l'utilizzo di query in linguaggio naturale senza espliciti indizi di modalità, (2) l'inclusione di modalità poco esplorate come video e audio, e (3) la necessità di recuperare prove multimodali complesse, spesso rumorose o conflittuali, durante la ricerca web. Abbiamo valutato vari agenti di ricerca basati su dieci modelli, inclusi potenti modelli closed-source (ad es., GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) e modelli open-weight (Qwen3-4B/30B/235B), in tre scenari di ricerca (nessuna ricerca, ricerca nativa e ricerca agentiva). I nostri risultati mostrano che MERRIN è estremamente impegnativo: l'accuratezza media di tutti gli agenti è del 22,3%, con l'agente migliore che raggiunge solo il 40,1%. Inoltre, osserviamo che sebbene agenti più potenti come Gemini Deep Research ottengano prestazioni superiori, i miglioramenti sono modesti a causa di un eccesso di esplorazione; essi compiono più passaggi e utilizzano più strumenti, ma vengono spesso distratti da contenuti web conflittuali o parzialmente rilevanti, portando a risposte errate. Rispetto agli esseri umani, questi agenti consumano più risorse ma ottengono un'accuratezza inferiore, principalmente a causa di una selezione inefficiente delle fonti e di un'eccessiva dipendenza dalle modalità testuali. Questi risultati evidenziano la necessità di agenti di ricerca capaci di effettuare ricerche e ragionamenti robusti attraverso diverse modalità in ambienti web rumorosi, rendendo MERRIN un banco di prova prezioso per valutare tali capacità.
Gli agenti GUI basati su MLLM hanno dimostrato notevoli capacità nelle attività complesse di interazione con le interfacce utente. Tuttavia, gli scenari a lungo orizzonte rimangono impegnativi, poiché questi agenti sono gravati da compiti che superano le loro capacità intrinseche, soffrendo di degrado della memoria, confusione del progresso e allucinazioni matematiche. Per affrontare queste sfide, presentiamo UI-Copilot, un framework collaborativo in cui l'agente GUI si concentra sull'esecuzione dei compiti mentre un copilota leggero fornisce assistenza on-demand per il recupero della memoria e il calcolo numerico. Introduciamo il disaccoppiamento della memoria per separare le osservazioni persistenti dal contesto esecutivo transitorio, e addestriamo l'agente policy a richiamare selettivamente il copilota come Retriever o Calculator in base alle esigenze del compito. Per abilitare un apprendimento efficace dell'invocazione degli strumenti, proponiamo la Policy Optimization con Strumenti Integrati (TIPO), che ottimizza separatamente la selezione degli strumenti attraverso previsioni a turno singolo e l'esecuzione dei compiti attraverso rollout multi-turno on-policy. I risultati sperimentali mostrano che UI-Copilot-7B raggiunge prestazioni all'avanguardia sul complesso MemGUI-Bench, superando potenti agenti GUI di scala 7B come GUI-Owl-7B e UI-TARS-1.5-7B. Inoltre, UI-Copilot-7B fornisce un miglioramento assoluto del 17,1% su AndroidWorld rispetto al modello base Qwen, evidenziando la forte generalizzazione di UI-Copilot verso compiti GUI del mondo reale.
Esaminiamo la prospettiva emergente degli agenti auto-sovrani - sistemi di IA in grado di sostenere economicamente ed estendere autonomamente il proprio funzionamento senza intervento umano. I recenti progressi nei modelli linguistici su larga scala e nei framework per agenti hanno notevolmente ampliato le capacità pratiche di questi sistemi, indicando un potenziale passaggio da strumenti controllati dagli sviluppatori ad attori digitali più autonomi. Analizziamo le barriere tecniche residue per tali implementazioni e discutiamo le sfide in materia di sicurezza, società e governance che potrebbero emergere se tali sistemi diventassero praticamente realizzabili. Una pagina dedicata al progetto è disponibile all'indirizzo: https://self-sovereign-agent.github.io.
La registrazione dei log software è essenziale per il mantenimento e il debug di sistemi complessi, ma rimane poco chiaro come i sistemi di codifica basati su IA gestiscano questo requisito non funzionale. Mentre il lavoro precedente caratterizza le pratiche di logging umane, i comportamenti degli agenti di codifica IA e l'efficacia delle istruzioni in linguaggio naturale nel governarli sono inesplorati. Per colmare questa lacuna, conduciamo uno studio empirico su 4.550 pull request agent-based in 81 repository open-source. Confrontiamo i modelli di logging degli agenti con baseline umane e analizziamo l'impatto di istruzioni esplicite sul logging. Scopriamo che gli agenti modificano il logging meno spesso degli umani nel 58.4% dei repository, sebbene mostrino una densità di log più elevata quando lo fanno. Inoltre, le istruzioni esplicite sul logging sono rare (4.7%) e inefficaci, poiché gli agenti non riescono a conformarsi a richieste costruttive il 67% delle volte. Infine, osserviamo che gli umani eseguono il 72.5% delle riparazioni dei log post-generazione, agendo come "custodi silenziosi" che correggono i problemi di logging e osservabilità senza feedback espliciti di revisione. Questi risultati indicano un duplice fallimento nell'istruzione in linguaggio naturale (cioè scarsità di istruzioni di logging e bassa conformità degli agenti), suggerendo che potrebbero essere necessari meccanismi di protezione deterministici per garantire pratiche di logging coerenti.
I modelli linguistici di grandi dimensioni (LLM) possono svolgere compiti straordinariamente complessi, eppure i dettagli granulari di come queste capacità emergano durante il pre-addestramento rimangono poco compresi. Le leggi di scala sulla loss di validazione ci dicono quanto un modello migliora con risorse computazionali aggiuntive, ma non quali abilità acquisisca e in quale ordine. Per rimediare a ciò, proponiamo l'Ipotesi del Curriculum Implicito: il pre-addestramento segue un curriculum composizionale e prevedibile attraverso diversi modelli e miscele di dati. Testiamo questa ipotesi progettando una serie di compiti semplici e componibili che spaziano dal retrieval, alle trasformazioni morfologiche, alla coreferenza, al ragionamento logico e alla matematica. Utilizzando questi compiti, tracciamo i punti di emergenza in quattro famiglie di modelli che coprono dimensioni da 410 milioni a 13 miliardi di parametri. Scopriamo che gli ordinamenti di emergenza, ovvero quando i modelli raggiungono soglie fisse di accuratezza, sono sorprendentemente consistenti (ρ = 0,81 su 45 coppie di modelli), e che i compiti compositi emergono molto spesso dopo i loro compiti componenti. Inoltre, scopriamo che questa struttura è codificata nelle rappresentazioni del modello: compiti con rappresentazioni vettoriali di funzione simili tendono anche a seguire traiettorie simili durante l'addestramento. Utilizzando lo spazio delle rappresentazioni derivato dal nostro set di compiti, possiamo prevedere efficacemente le traiettorie di addestramento di semplici compiti compositi tenuti da parte (hold-out) nel corso del pre-addestramento (R² = 0,68-0,84 tra i modelli) senza averli precedentemente valutati. Nel complesso, questi risultati suggeriscono che il pre-addestramento è più strutturato di quanto rivelino le curve di loss: le abilità emergono in un ordine composizionale che è consistente tra i modelli e leggibile dai loro stati interni.
Negli ultimi anni si è assistito a un rapido sviluppo di agenti GUI per dispositivi mobili basati su grandi modelli linguistici (LLM), in grado di eseguire autonomamente diverse attività di controllo del dispositivo basandosi su istruzioni in linguaggio naturale. La crescente accuratezza di questi agenti su benchmark standard ha alimentato le aspettative per una diffusione su larga scala nel mondo reale, e sono già stati rilasciati diversi agenti commerciali utilizzati da utenti pionieri. Tuttavia, siamo veramente pronti per integrare gli agenti GUI nei nostri dispositivi quotidiani come componenti di sistema? Sosteniamo che manchi un'importante validazione pre-distribuzione per verificare se gli agenti possano mantenere le loro prestazioni sotto minacce del mondo reale. Nello specifico, a differenza dei comuni benchmark esistenti basati su contenuti di app statici e semplici (devono esserlo per garantire la coerenza dell'ambiente tra diversi test), le app del mondo reale sono piene di contenuti provenienti da terze parti non affidabili, come email pubblicitarie, post e media generati dagli utenti, ecc. ... A tal fine, introduciamo un framework scalabile per l'instrumentazione dei contenuti delle app, che consenta modifiche flessibili e mirate dei contenuti all'interno delle applicazioni esistenti. Sfruttando questo framework, creiamo una suite di test che comprende sia un ambiente dinamico per l'esecuzione di task sia un dataset statico di stati GUI complessi. L'ambiente dinamico include 122 task riproducibili, mentre il dataset statico consiste in oltre 3.000 scenari costruiti a partire da app commerciali. Abbiamo condotto esperimenti su agenti GUI sia open-source che commerciali. I nostri risultati rivelano che tutti gli agenti esaminati possono essere significativamente degradati a causa di contenuti di terze parti, con un tasso medio di fuorviamento del 42,0% e del 36,1% rispettivamente negli ambienti dinamici e statici. Il framework e il benchmark sono stati rilasciati all'indirizzo https://agenthazard.github.io.
I modelli di segmentazione esistenti basati su modelli linguistici multimodali di grandi dimensioni (MLLM), come LISA, spesso incontrano difficoltà con entità nuove o emergenti a causa della loro incapacità di incorporare conoscenze aggiornate. Per affrontare questa sfida, introduciamo il Novel Emerging Segmentation Task (NEST), che si concentra sulla segmentazione di (i) entità nuove che gli MLLM non riescono a riconoscere a causa della loro assenza dai dati di addestramento, e (ii) entità emergenti che esistono nella conoscenza del modello ma richiedono informazioni esterne aggiornate per un riconoscimento accurato. Per supportare lo studio del NEST, costruiamo un benchmark NEST utilizzando una pipeline automatizzata che genera campioni di dati relativi alle notizie per una valutazione completa. Inoltre, proponiamo ROSE: Retrieval-Oriented Segmentation Enhancement, un framework plug-and-play progettato per potenziare qualsiasi modello di segmentazione basato su MLLM. ROSE comprende quattro componenti chiave. Innanzitutto, viene introdotto un modulo di Internet Retrieval-Augmented Generation per impiegare input multimodali forniti dall'utente per recuperare informazioni web in tempo reale. Successivamente, un Textual Prompt Enhancer arricchisce il modello con informazioni aggiornate e ricche conoscenze di base, migliorando la sua capacità percettiva per le entità emergenti. Inoltre, viene proposto un Visual Prompt Enhancer per compensare la mancanza di esposizione degli MLLM alle entità nuove, sfruttando immagini provenienti da internet. Per mantenere l'efficienza, viene introdotto un modulo WebSense per decidere intelligentemente quando invocare i meccanismi di recupero in base all'input dell'utente. I risultati sperimentali dimostrano che ROSE aumenta significativamente le prestazioni sul benchmark NEST, superando una solida baseline di retrieval basata su Gemini-2.0 Flash di 19.2 punti gIoU.
I grandi modelli linguistici stanno emergendo come assistenti scientifici, ma valutare la loro capacità di ragionare a partire da dati empirici rimane una sfida. I benchmark derivati da studi pubblicati e annotazioni umane ereditano il bias di pubblicazione, il bias della conoscenza nota, il rumore nelle etichette e requisiti di archiviazione sostanziali. Presentiamo InfiniteScienceGym, un benchmark generato proceduralmente di repository scientifici abbinato a un compito verificabile di domanda-risposta. A partire da un seme, il simulatore genera deterministicamente un repository auto-contenuto con una struttura di directory realistica, file e dati tabellari, e un generatore di QA privilegiato produce sia domande a cui è possibile rispondere che domande a cui non è possibile rispondere, con una verità fondamentale esatta. Ciò rende possibile valutare il ragionamento basato su evidenze, l'astensione e l'analisi mediata da strumenti in un ambiente controllato senza distribuire un grande corpus statico. InfiniteScienceGym integra i benchmark scientifici reali prendendo di mira punti ciechi e modalità di fallimento che sono difficili da valutare utilizzando solo dataset pubblicati. Valutando sia modelli proprietari che open-weight, scopriamo che nessuno raggiunge più del 45% di accuratezza complessiva, che il riconoscimento di domande a cui non è possibile rispondere rimane una grande debolezza e che i modelli più potenti tendono a utilizzare gli strumenti in modo più efficace piuttosto che semplicemente consumare più token.
Le reti ad attenzione su grafi (GAT) forniscono uno dei migliori framework per l'apprendimento di rappresentazioni nodali in dati relazionali; tuttavia, le varianti esistenti come la Graph Attention Network (GAT) operano principalmente su grafi statici e si basano su aggregazione temporale implicita quando applicate a dati sequenziali. In questo articolo, introduciamo la EEG-temporal Graph Attention Network (EEG-tGAT), una formulazione temporalmente aumentata di GATv2 concepita specificamente per la classificazione di affordance a partire da sequenze di interazione. Il modello proposto incorpora un'attenzione temporale per modulare il contributo di diversi segmenti temporali e un dropout temporale per regolarizzare l'apprendimento su osservazioni temporalmente correlate. La progettazione riflette l'assunzione che le dimensioni temporali nei dati di affordance non siano semanticamente uniformi e che le informazioni discriminative possano essere distribuite in modo non uniforme nel tempo. I risultati sperimentali su dataset di affordance mostrano che EEG-tGAT raggiunge prestazioni di classificazione migliorate rispetto a GATv2. I miglioramenti osservati aiutano a concludere che la codifica esplicita dell'importanza temporale e l'imposizione di robustezza temporale introducono bias induttivi molto meglio allineati con la struttura dei dati di interazione guidata da affordance. Questi risultati dimostrano che modeste modifiche architetturali ai modelli di attenzione su grafi possono aiutare a ottenere benefici consistenti quando le relazioni temporali svolgono un ruolo non banale nel compito.