Articoli di ricerca IA selezionati quotidianamente con traduzioni
Con il rapido avanzamento della comprensione video, i benchmark esistenti stanno diventando sempre più saturi, rivelando una discrepanza critica tra i punteggi gonfiati delle classifiche e le capacità reali dei modelli. Per affrontare questo divario crescente, introduciamo Video-MME-v2, un benchmark completo progettato per valutare rigorosamente la robustezza e l'affidabilità della comprensione video. Per valutare sistematicamente le capacità dei modelli, abbiamo progettato una gerarchia progressiva a tre livelli che incrementa gradualmente la complessità della comprensione video, spaziando dall'aggregazione di informazioni visive multi-punto, alla modellazione delle dinamiche temporali, fino al ragionamento multimodale complesso. Inoltre, a differenza della tradizionale accuratezza per domanda, proponiamo una strategia di valutazione non lineare basata su gruppi che impone sia la coerenza tra query correlate sia la coerenza nel ragionamento a più passi. Questa penalizza la correttezza frammentata o basata su congetture e attribuisce merito solo alle risposte supportate da un ragionamento valido. Per garantire la qualità dei dati, Video-MME-v2 è costruito attraverso una pipeline di annotazione umana rigorosamente controllata, che coinvolge 12 annotatori e 50 revisori indipendenti. Supportato da 3.300 ore uomo e fino a 5 round di controllo qualità, Video-MME-v2 mira a diventare uno dei benchmark video più autorevoli. Esperimenti estensivi rivelano un divario sostanziale tra l'attuale miglior modello (Gemini-3-Pro) e gli esperti umani, e individuano un chiaro collo di bottiglia gerarchico in cui gli errori nell'aggregazione delle informazioni visive e nella modellazione temporale si propagano limitando il ragionamento di alto livello. Scopriamo inoltre che il ragionamento basato sul pensiero è fortemente dipendente dagli indizi testuali, migliorando le prestazioni con i sottotitoli ma a volte peggiorandole in contesti puramente visivi. Mettendo in luce queste limitazioni, Video-MME-v2 stabilisce un nuovo e impegnativo banco di prova per lo sviluppo di MLLM video di prossima generazione.
I modelli linguistici di grandi dimensioni sono sempre più impiegati come agenti autonomi che eseguono flussi di lavoro multi-step in ambienti software reali. Tuttavia, i benchmark esistenti per agenti presentano tre limitazioni critiche: (1) valutazione opaca delle traiettorie che verifica solo gli output finali, (2) valutazione della sicurezza e della robustezza sotto-specificata, e (3) copertura modale e paradigmi di interazione limitati. Introduciamo Claw-Eval, una suite di valutazione end-to-end che affronta tutte e tre le lacune. Essa comprende 300 task verificati da esseri umani, suddivisi in 9 categorie appartenenti a tre gruppi (orchestrazione generale dei servizi, percezione e generazione multimodale, e dialogo professionale multi-turn). Ogni azione dell'agente viene registrata attraverso tre canali di evidenza indipendenti (tracce di esecuzione, log di audit e snapshot dell'ambiente), consentendo una valutazione consapevole della traiettoria su 2.159 criteri di giudizio granulari. Il protocollo di punteggio valuta Completamento, Sicurezza e Robustezza, riportando Punteggio Medio, Pass@k e Pass^k su tre prove per distinguere le capacità genuine dai risultati fortunati. Esperimenti su 14 modelli all'avanguardia rivelano che: (1) la valutazione opaca della traiettoria è sistematicamente inaffidabile, poiché non rileva il 44% delle violazioni di sicurezza e il 13% dei fallimenti di robustezza che la nostra pipeline ibrida intercetta; (2) l'iniezione controllata di errori degrada principalmente la consistenza piuttosto che la capacità di picco, con Pass^3 che cala fino al 24% mentre Pass@3 rimane stabile; (3) le prestazioni multimodali variano drasticamente, con la maggior parte dei modelli che performa peggio sui video rispetto a documenti o immagini, e nessun singolo modello domina in tutte le modalità. Oltre al benchmarking, Claw-Eval evidenzia direzioni operative per lo sviluppo di agenti, chiarendo cosa serve per costruire agenti non solo capaci, ma anche affidabili da distribuire.
I sistemi di information retrieval (IR) sono stati tradizionalmente progettati e addestrati per utenti umani, con i metodi di apprendimento del ranking che si basano fortemente su log di interazione umana su larga scala, come i clic e il tempo di permanenza. Tuttavia, con la rapida emergenza di agenti di ricerca basati su grandi modelli linguistici (LLM), la fase di retrieval è sempre più consumata da agenti piuttosto che da esseri umani, ed è incorporata come componente centrale all'interno di cicli di ragionamento e azione multi-turn. In questo contesto, i modelli di retrieval addestrati secondo assunzioni antropocentriche mostrano una fondamentale discrepanza con il modo in cui gli agenti formulano le query e consumano i risultati. In questo lavoro, sosteniamo che i modelli di retrieval per la ricerca agent-based dovrebbero essere addestrati direttamente dai dati di interazione degli agenti. Introduciamo l'apprendimento del retrieval dalle traiettorie degli agenti come un nuovo paradigma di addestramento, in cui la supervisione è derivata da interazioni multi-step degli agenti. Attraverso un'analisi sistematica delle traiettorie degli agenti di ricerca, identifichiamo segnali comportamentali chiave che rivelano l'utilità dei documenti, incluse le azioni di navigazione, i rifiuti senza navigazione e le tracce di ragionamento post-navigazione. Guidati da queste intuizioni, proponiamo LRAT, un framework semplice ma efficace che estrae una supervisione di retrieval di alta qualità dalle traiettorie degli agenti e incorpora l'intensità di rilevanza attraverso un'ottimizzazione pesata. Esperimenti estesi su benchmark di ricerca approfondita, sia in-dominio che out-of-dominio, dimostrano che i retrieval addestrati con LRAT migliorano costantemente il richiamo delle evidenze, il successo end-to-end del task e l'efficienza esecutiva attraverso diverse architetture e scale di agenti. I nostri risultati evidenziano le traiettorie degli agenti come una fonte di supervisione pratica e scalabile, indicando una direzione promettente per il retrieval nell'era della ricerca agent-based.
La selezione di candidati di codice generati da LLM utilizzando test generati da LLM è complessa poiché i test stessi potrebbero essere errati. I metodi esistenti trattano tutti i test allo stesso modo o si basano su euristiche ad-hoc per filtrare i test inaffidabili. Tuttavia, determinare la correttezza di un test richiede di sapere quali codici sono corretti, creando una dipendenza circolare. La nostra intuizione chiave è che non è necessario determinare la correttezza del test: i "voti" dei test dovrebbero classificare, non solo contare. Ciò che conta non è quanti codici superano un test, ma se il test è in grado di distinguere il codice corretto da quello errato. Rompiamo la dipendenza circolare tramite una valutazione leave-one-out: si esclude un test, si classificano i codici in base ai loro punteggi aggregati su tutti i test rimanenti e si valuta se il pattern di superamento/fallimento del test escluso sia coerente con questa classifica. Formalizziamo questa coerenza come AUC leave-one-out (LOO-AUC) e dimostriamo che il valore atteso di LOO-AUC è proporzionale alla capacità di ciascun test di separare il codice corretto da quello errato. Su questa base, proponiamo ACES (AUC ConsistEncy Scoring) con due varianti complementari: ACES-C fornisce pesi in forma chiusa che approssimano provabilmente l'oracolo in valore atteso sotto una lieve assunzione sulla qualità media dei test; ACES-O rimuove questa assunzione e ottimizza iterativamente un obiettivo LOO-AUC differenziabile. Entrambi operano esclusivamente sulla matrice binaria di superamento con un overhead trascurabile e raggiungono risultati state-of-the-art in termini di Pass@k su molteplici benchmark di generazione di codice.
La scoperta autonoma di bug rimane una sfida significativa nello sviluppo software moderno. Rispetto alla generazione di codice, la complessità degli ambienti di runtime dinamici rende la scoperta di bug considerevolmente più difficile per i grandi modelli linguistici (LLM). In questo articolo, prendiamo lo sviluppo di giochi come dominio rappresentativo e introduciamo il Benchmark per Giochi per l'Assicurazione della Qualità (GBQA), un benchmark che contiene 30 giochi e 124 bug verificati da esseri umani su tre livelli di difficoltà, per valutare se gli LLM possono rilevare autonomamente i bug software. Il benchmark è costruito utilizzando un sistema multi-agente che sviluppa giochi e inietta bug in modo scalabile, con esperti umani nel ciclo per garantire la correttezza. Inoltre, forniamo un agente interattivo di base dotato di un ciclo ReAct multi-round e di un meccanismo di memoria, che consente un'esplorazione a lungo orizzonte degli ambienti di gioco per il rilevamento di bug su diversi LLM. Esperimenti estesi su LLM all'avanguardia dimostrano che la scoperta autonoma di bug rimane estremamente impegnativa: il modello con le migliori prestazioni, Claude-4.6-Opus in modalità thinking, identifica solo il 48,39% dei bug verificati. Riteniamo che GBQA fornisca un adeguato banco di prova e criterio di valutazione, e che ulteriori progressi su di esso aiuteranno a colmare il divario nell'ingegneria del software autonoma.
Introduciamo ThinkTwice, un semplice framework a due fasi che ottimizza congiuntamente gli LLM per risolvere problemi di ragionamento e perfezionare le risposte, basandosi sull'ottimizzazione della politica relativa di gruppo (GRPO). In ogni coppia di passi di addestramento, ThinkTwice ottimizza prima il modello sulla risoluzione di problemi di ragionamento, per poi ottimizzarlo sul perfezionamento delle proprie soluzioni agli stessi problemi, utilizzando la stessa ricompensa binaria di correttezza in entrambe le fasi, senza segnali di correttezza o annotazioni di critica. Attraverso cinque benchmark di ragionamento matematico e due famiglie di modelli, tra cui Qwen3-4B e Olmo3-7B, ThinkTwice migliora sostanzialmente sia le prestazioni di ragionamento che di raffinamento rispetto a baseline competitive di ottimizzazione della politica online. In particolare, su Qwen3-4B, ThinkTwice supera il GRPO su AIME di 5 punti percentuali prima del perfezionamento e di 11,5 punti dopo un passo di auto-perfezionamento, misurato con pass@4. L'analisi della dinamica di addestramento di ThinkTwice rivela un curriculum implicito di correzione-e-rafforzamento: il perfezionamento corregge prevalentemente gli errori all'inizio dell'addestramento e si sposta naturalmente verso la conservazione delle soluzioni già corrette man mano che il modello migliora, producendo un segnale di ricompensa più rettificato. Il nostro lavoro stabilisce l'addestramento congiunto del ragionamento e dell'auto-perfezionamento come una metodologia principiata ed efficace per il RLVR.
Presentiamo Vanast, un framework unificato che genera video di animazione umana con trasferimento di indumenti direttamente da una singola immagine umana, immagini di indumenti e un video guida delle pose. Le pipeline convenzionali a due stadi trattano il virtual try-on basato su immagini e l'animazione guidata dalle pose come processi separati, il che spesso si traduce in deriva dell'identità, distorsione degli indumenti e incoerenza anteriore-posteriore. Il nostro modello affronta questi problemi eseguendo l'intero processo in un unico passo unificato per ottenere una sintesi coerente. Per abilitare questa impostazione, costruiamo una supervisione triplet su larga scala. La nostra pipeline di generazione dei dati include la generazione di immagini umane che preservano l'identità con outfit alternativi diversi dalle immagini del catalogo degli indumenti, la cattura di triplette complete di indumenti superiori e inferiori per superare la limitazione delle coppie video-posa a singolo indumento, e l'assemblaggio di triplette diversificate in contesti reali senza richiedere immagini da catalogo. Introduciamo inoltre un'architettura a Modulo Duale per i transformer di diffusione video per stabilizzare l'addestramento, preservare la qualità generativa pre-addestrata e migliorare l'accuratezza degli indumenti, l'aderenza alle pose e la preservazione dell'identità, supportando allo stesso tempo l'interpolazione zero-shot degli indumenti. Insieme, questi contributi consentono a Vanast di produrre animazioni ad alta fedeltà e consistenti nell'identità per un'ampia gamma di tipi di indumenti.
Negli scenari reali di Ragionamento con Integrazione di Strumenti (TIR), in cui i LLM alternano il ragionamento a chiamate di strumenti esterni, una delle principali fonti di inefficienza è rappresentata dal fatto che queste chiamate creano pause tra le richieste al LLM e causano l'evizione della KV-Cache, costringendo a ricalcoli. Inoltre, la risposta lunga e non filtrata restituita dagli strumenti esterni gonfia la KV-Cache, pertanto ogni fase di decodifica impiega più tempo a caricare la cache in crescita, diventando progressivamente più lenta all'aumentare della lunghezza del contesto. Tuttavia, le metriche di efficienza esistenti, come il conteggio dei token e il numero di chiamate a strumenti, non riescono a cogliere la latenza effettiva dell'inferenza del modello. Per affrontare questo problema, introduciamo il PTE (Prefill Token Equivalents), una metrica di efficienza per il TIR consapevole dell'hardware che unifica i costi del ragionamento interno e dell'uso di strumenti esterni, tenendo conto esplicitamente degli scenari di KV-Cache non riutilizzabile e di risposte lunghe dagli strumenti. La validazione in un ambiente industriale ad alta concorrenza indica che il PTE si allinea in modo significativamente migliore alla latenza wall-clock rispetto ai conteggi standard dei token, mantenendo al contempo classifiche di efficienza consistenti su diversi profili hardware. Abbiamo condotto esperimenti estesi su cinque benchmark TIR, quantificato i loro costi in PTE e identificato quattro modelli di inefficienza che si manifestano nel TIR. Abbiamo anche scoperto che le traiettorie con costi PTE più elevati tendono ad avere una correttezza del ragionamento inferiore, indicando che semplicemente utilizzare più strumenti non migliora la qualità della risposta.
Presentiamo MegaTrain, un sistema di tipo memory-centric che addestra efficientemente modelli linguistici di grandi dimensioni da 100+ miliardi di parametri in precisione completa su una singola GPU. A differenza dei sistemi tradizionali di tipo GPU-centric, MegaTrain memorizza i parametri e gli stati dell'ottimizzatore nella memoria host (memoria della CPU) e tratta le GPU come motori di calcolo transitori. Per ogni livello, trasferiamo i parametri in entrata e calcoliamo i gradienti in uscita, minimizzando lo stato persistente sul dispositivo. Per contrastare il collo di bottiglia della larghezza di banda CPU-GPU, adottiamo due ottimizzazioni chiave. 1) Introduciamo un motore di esecuzione pipeline con doppio buffer che sovrappone il precaricamento dei parametri, il calcolo e lo scaricamento dei gradienti su più stream CUDA, consentendo un'esecuzione GPU continua. 2) Sostituiamo i persistenti grafi di autograd con template di livello stateless, associando i pesi dinamicamente man mano che vengono trasferiti, eliminando così i metadati persistenti del grafo e fornendo al contempo flessibilità nella schedulazione. Su una singola GPU H200 con 1,5 TB di memoria host, MegaTrain addestra in modo affidabile modelli fino a 120 miliardi di parametri. Raggiunge anche una velocità di addestramento 1,84 volte superiore a quella di DeepSpeed ZeRO-3 con offload su CPU quando addestra modelli da 14B. MegaTrain consente inoltre l'addestramento di modelli da 7B con un contesto di 512k token su una singola GH200.
È fondamentale che i modelli visione-linguaggio (VLM) comprendano in modo completo gli indizi visivi, temporali e testuali. Tuttavia, nonostante i rapidi progressi nella modellazione multimodale, le prestazioni nella comprensione video rimangono inferiori rispetto al ragionamento basato sul testo. In questo lavoro, scopriamo che i progressi sono persino peggiori di quanto precedentemente ipotizzato: i benchmark comunemente riportati per la comprensione di video lunghi contengono il 40-60% di domande a cui è possibile rispondere utilizzando solo indizi testuali. Inoltre, riscontriamo che questi problemi sono pervasivi anche nei dataset di post-training ampiamente utilizzati, potenzialmente compromettendo la capacità del post-training di migliorare le prestazioni di comprensione video dei VLM. Guidati da questa osservazione, introduciamo VidGround come soluzione semplice ma efficace: utilizzando solo le domande effettivamente ancorate al visivo, senza alcun bias linguistico, per il post-training. Quando utilizzata in tandem con algoritmi di post-training basati su RL, questa semplice tecnica migliora le prestazioni fino a 6,2 punti rispetto all'utilizzo del dataset completo, pur impiegando solo il 69,1% dei dati originali di post-training. Inoltre, dimostriamo che la cura dei dati abbinata a un semplice algoritmo di post-training supera diverse tecniche di post-training più complesse, evidenziando come la qualità dei dati sia un collo di bottiglia principale per migliorare la comprensione video nei VLM. Questi risultati sottolineano l'importanza di curare i dati di post-training e i benchmark di valutazione che richiedono veramente un ancoraggio visivo per favorire lo sviluppo di VLM più capaci. Pagina del progetto: http://vidground.etuagi.com.
Le abilità di agente, che sono artefatti di conoscenza riutilizzabili e specifici per dominio, sono diventati un meccanismo popolare per estendere gli agenti basati su LLM, ma la valutazione formale delle prestazioni di utilizzo delle abilità rimane scarsa. Gli attuali sforzi di benchmarking si concentrano su condizioni eccessivamente idealizzate, in cui gli LLM ricevono direttamente abilità specifiche per ogni compito, create manualmente e strettamente adattate, mentre in molti contesti realistici, l'agente LLM potrebbe dover cercare e selezionare autonomamente le abilità rilevanti, e persino le abilità più vicine potrebbero non essere ben adattate al compito. In questo articolo, conduciamo il primo studio completo sull'utilità delle abilità in contesti realistici progressivamente più impegnativi, dove gli agenti devono recuperare abilità da una vasta collezione di 34k abilità del mondo reale e potrebbero non avere accesso ad alcuna abilità curata manualmente. Le nostre scoperte rivelano che i benefici delle abilità sono fragili: i guadagni di prestazione si degradano costantemente man mano che i contesti diventano più realistici, con tassi di successo che si avvicinano ai baseline senza abilità negli scenari più difficili. Per colmare questo divario, studiamo strategie di raffinamento delle abilità, inclusi approcci specifici per query e indipendenti dalla query, e mostriamo che il raffinamento specifico per query recupera sostanzialmente le prestazioni perdute quando le abilità iniziali hanno una rilevanza e una qualità ragionevoli. Dimostriamo inoltre la generalità del recupero e del raffinamento su Terminal-Bench 2.0, dove migliorano il tasso di successo di Claude Opus 4.6 dal 57.7% al 65.5%. I nostri risultati, coerenti su più modelli, evidenziano sia le promesse che le attuali limitazioni delle abilità per gli agenti basati su LLM. Il nostro codice è disponibile all'indirizzo https://github.com/UCSB-NLP-Chang/Skill-Usage.
La rapida crescita della letteratura scientifica ha reso sempre più difficile per i ricercatori scoprire, valutare e sintetizzare in modo efficiente i lavori rilevanti. I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) multi-agente hanno dimostrato un forte potenziale nella comprensione dell'intento dell'utente e vengono addestrati per utilizzare vari strumenti. In questo articolo, presentiamo Paper Circle, un sistema multi-agente per la scoperta e l'analisi della ricerca, progettato per ridurre lo sforzo necessario per trovare, valutare, organizzare e comprendere la letteratura accademica. Il sistema comprende due pipeline complementari: (1) una Pipeline di Scoperta che integra il recupero offline e online da più fonti, la valutazione multi-criterio, il ranking consapevole della diversità e output strutturati; e (2) una Pipeline di Analisi che trasforma singoli articoli in grafi della conoscenza strutturati con nodi tipizzati come concetti, metodi, esperimenti e figure, abilitando risposte a domande e verifiche di copertura basate sul grafo. Entrambe le pipeline sono implementate all'interno di un framework di orchestrazione multi-agente basato su LLM codificatore e producono output completamente riproducibili e sincronizzati, tra cui JSON, CSV, BibTeX, Markdown e HTML, ad ogni passo dell'agente. Questo articolo descrive l'architettura del sistema, i ruoli degli agenti, i metodi di recupero e valutazione, lo schema del grafo della conoscenza e le interfacce di valutazione che insieme formano il flusso di lavoro di ricerca di Paper Circle. Valutiamo Paper Circle sia sul recupero di articoli che sulla generazione di recensioni, riportando hit rate, MRR e Recall@K. I risultati mostrano miglioramenti consistenti con modelli di agente più potenti. Abbiamo rilasciato pubblicamente il sito web all'indirizzo https://papercircle.vercel.app/ e il codice all'indirizzo https://github.com/MAXNORM8650/papercircle.
L'evoluzione è un motore straordinario per la diversità enzimatica, eppure la chimica che ha esplorato rappresenta solo una piccola porzione di ciò che il DNA può codificare. I modelli generativi profondi possono progettare nuove proteine che legano ligandi, ma nessuno ha creato enzimi senza pre-specificare i residui catalitici. Introduciamo DISCO (DIffusion for Sequence-structure CO-design), un modello multimodale che co-progetta la sequenza proteica e la struttura 3D attorno a biomolecole arbitrarie, insieme a metodi di scaling durante l'inferenza che ottimizzano gli obiettivi attraverso entrambe le modalità. Condizionato unicamente su intermedi reattivi, DISCO progetta emoenzimi diversificati con geometrie del sito attivo nuove. Questi enzimi catalizzano reazioni di trasferimento di carbene nuove per la natura, incluse ciclopropanazioni di alcheni, spirociclopropanazioni, inserzioni B-H e C(sp³)-H, con attività elevate che superano quelle di enzimi ingegnerizzati. La mutagenesi casuale di un progetto selezionato ha ulteriormente confermato che l'attività enzimatica può essere migliorata attraverso l'evoluzione diretta. Fornendo una via scalabile per enzimi evolvibili, DISCO amplia il potenziale ambito delle trasformazioni geneticamente codificabili. Il codice è disponibile all'indirizzo https://github.com/DISCO-design/DISCO.
I modelli linguistici basati su diffusione (dLLM) stanno emergendo come una valida alternativa ai modelli autoregressivi dominanti, sostituendo la generazione strettamente sequenziale di token con dinamiche di generazione parallela e denoising iterativo. Tuttavia, il loro ecosistema open-source rimane frammentato tra le diverse famiglie di modelli e, in particolare, tra le pipeline di post-training, dove obiettivi di reinforcement learning, implementazioni di rollout e script di valutazione vengono spesso rilasciati come codebase specifiche per singoli articoli. Questa frammentazione rallenta l'iter della ricerca, aumenta il carico ingegneristico per la riproduzione e rende difficile un confronto equo tra gli algoritmi. Presentiamo DARE (dLLMs Alignment and Reinforcement Executor), un framework open per il post-training e la valutazione dei dLLM. Costruito su verl~sheng2024hybridflow e OpenCompass~2023opencompass, DARE unisce fine-tuning supervisionato, fine-tuning efficiente parametrico, ottimizzazione delle preferenze e reinforcement learning specifico per dLLM sotto uno stack di esecuzione condiviso, valido sia per modelli linguistici a diffusione mascherata che a blocchi. Attraverso famiglie di modelli rappresentative come LLaDA, Dream, SDAR e LLaDA2.x, DARE fornisce un'ampia copertura algoritmica, valutazione benchmark riproducibile e accelerazione pratica. I risultati empirici su vasta scala dimostrano che DARE funge da substrato di ricerca riutilizzabile per sviluppare, confrontare e implementare metodi di post-training per i dLLM attuali ed emergenti.
Gli agenti basati su grandi modelli linguistici (LLM) sono sempre più impiegati per automatizzare compiti di produttività (ad esempio, email, pianificazione, gestione documenti), ma valutarli su servizi reali è rischioso a causa di potenziali modifiche irreversibili. I benchmark esistenti si basano su ambienti semplificati e non riescono a cogliere flussi di lavoro realistici, con stato e multi-servizio. Introduciamo ClawsBench, un benchmark per valutare e migliorare gli agenti LLM in contesti produttivi realistici. Include cinque servizi mock fedeli (Gmail, Slack, Google Calendar, Google Docs, Google Drive) con gestione completa dello stato e funzionalità deterministiche di snapshot/ripristino, insieme a 44 task strutturati che coprono scenari single-service, cross-service e critici per la sicurezza. Scomponiamo l'impalcatura dell'agente in due leve indipendenti (competenze di dominio che iniettano conoscenza delle API tramite disclosure progressivo, e un meta-prompt che coordina il comportamento tra i servizi) e le variamo entrambe per misurarne gli effetti separati e combinati. Esperimenti su 6 modelli, 4 harness di agenti e 33 condizioni mostrano che, con l'impalcatura completa, gli agenti raggiungono tassi di successo del task tra il 39% e il 64%, ma presentano tassi di azioni non sicure tra il 7% e il 33%. Su OpenClaw, i primi cinque modelli rientrano in una fascia di 10 punti percentuali sul successo del task (53-63%), con tassi di azioni non sicure dal 7% al 23% e nessun ordinamento coerente tra le due metriche. Identifichiamo otto pattern ricorrenti di comportamento non sicuro, inclusi escalation multi-step del sandbox e modifica silente del contratto.
Il paradigma statico "addestra poi distribuisci" limita fondamentalmente la capacità dei Large Language Model (LLM) di adattare dinamicamente i propri pesi in risposta ai flussi continui di nuove informazioni intrinsechi ai compiti del mondo reale. Il Test-Time Training (TTT) offre un'alternativa convincente aggiornando un sottoinsieme dei parametri del modello (pesi veloci) durante l'inferenza, tuttavia il suo potenziale nell'attuale ecosistema degli LLM è ostacolato da barriere critiche, tra cui incompatibilità architetturale, inefficienza computazionale e obiettivi dei pesi veloci disallineati per la modellazione linguistica. In questo lavoro, introduciamo In-Place Test-Time Training (In-Place TTT), un framework che conferisce perfettamente agli LLM la capacità di Test-Time Training. In-Place TTT tratta la matrice di proiezione finale degli onnipresenti blocchi MLP come i propri pesi veloci adattabili, consentendo un potenziamento "drop-in" per gli LLM senza costosi riaddestramenti da zero. Inoltre, sostituiamo l'obiettivo generico di ricostruzione del TTT con un obiettivo mirato e teoricamente fondato, esplicitamente allineato con il compito di Next-Token-Prediction che governa la modellazione linguistica autoregressiva. Questo obiettivo principiato, combinato con un efficiente meccanismo di aggiornamento chunk-wise, dà luogo a un algoritmo altamente scalabile e compatibile con il parallelismo contestuale. Esperimenti estensivi convalidano l'efficacia del nostro framework: come potenziamento in-place, consente a un modello da 4B di parametri di ottenere prestazioni superiori su compiti con contesti fino a 128k, e quando preaddestrato da zero, supera costantemente approcci competitivi correlati al TTT. I risultati dello studio di ablazione forniscono ulteriori approfondimenti sulle nostre scelte progettuali. Collettivamente, i nostri risultati stabiliscono In-Place TTT come un passo promettente verso un paradigma di apprendimento continuo negli LLM.
La potatura di rete, che rimuove parametri o architetture meno importanti, è spesso considerata un metodo per migliorare l'efficienza preservando le prestazioni. Tuttavia, questa aspettativa non si mantiene costantemente tra i diversi compiti linguistici: i modelli potati possono performare bene in attività non generative, ma falliscono frequentemente in contesti generativi. Per comprendere questa discrepanza, analizziamo la potatura di rete da una prospettiva di gerarchia delle rappresentazioni, scomponendo il calcolo interno dei modelli linguistici in tre spazi sequenziali: embedding (rappresentazioni latenti), logit (output pre-softmax) e probabilità (distribuzioni post-softmax). Scopriamo che le rappresentazioni negli spazi di embedding e logit sono largamente robuste alle perturbazioni indotte dalla potatura. Tuttavia, la trasformazione non lineare dai logit alle probabilità amplifica queste deviazioni, che si accumulano attraverso i time step e portano a un degrado sostanziale durante la generazione. Al contrario, la stabilità del sottospazio probabilistico categorico dei token, unitamente alla robustezza dello spazio di embedding, supporta l'efficacia della potatura per compiti non generativi come retrieval e selezione a scelta multipla. La nostra analisi distingue gli effetti della potatura tra diversi compiti e fornisce indicazioni pratiche per la sua applicazione. Il codice è disponibile all'indirizzo https://github.com/CASE-Lab-UMD/Pruning-on-Representations.
Presentiamo MedGemma 1.5 4B, il modello più recente della collezione MedGemma. MedGemma 1.5 si espande su MedGemma 1 integrando capacità aggiuntive: imaging medico ad alta dimensionalità (volumi TC/RMN e immagini di interi vetrini di istopatologia), localizzazione anatomica tramite riquadri di delimitazione (bounding box), analisi di radiografie del torace a più punti temporali e una migliore comprensione dei documenti medici (referti di laboratorio, cartelle cliniche elettroniche). Descriviamo nel dettaglio le innovazioni necessarie per abilitare queste modalità all'interno di un'unica architettura, inclusi nuovi dati di addestramento, sezionamento di volumi 3D a contesto lungo e campionamento di interi vetrini per patologia. Rispetto a MedGemma 1 4B, MedGemma 1.5 4B dimostra miglioramenti significativi in queste nuove aree, aumentando l'accuratezza nella classificazione delle condizioni da RMN 3D dell'11% e nella classificazione delle condizioni da TC 3D del 3% (miglioramenti assoluti). Nell'imaging patologico di interi vetrini, MedGemma 1.5 4B raggiunge un guadagno del 47% nell'F1 macro. Inoltre, migliora la localizzazione anatomica con un aumento del 35% nell'Intersection over Union sulle radiografie del torace e raggiunge un'accuratezza macro del 4% per l'analisi longitudinale (a più punti temporali) delle radiografie del torace. Oltre alle prestazioni multimodali migliorate rispetto a MedGemma 1, MedGemma 1.5 mostra progressi nella conoscenza clinica e nel ragionamento basati su testo, migliorando del 5% l'accuratezza su MedQA e del 22% su EHRQA. Raggiunge inoltre una media del 18% di F1 macro su 4 diversi dataset di estrazione di informazioni da referti di laboratorio (EHR Dataset 2, 3, 4 e Mendeley Clinical Laboratory Test Reports). Nel complesso, MedGemma 1.5 si propone come una risorsa aperta e robusta per la comunità, concepita come una base migliorata sulla quale gli sviluppatori possono creare la prossima generazione di sistemi di intelligenza artificiale medica. Risorse e tutorial per costruire su MedGemma 1.5 sono disponibili all'indirizzo https://goo.gle/MedGemma.
I modelli di azione mondiale (WAM) sono emersi come una direzione promettente per l'apprendimento delle politiche robotiche, poiché possono sfruttare potenti modelli di base video per modellare gli stati futuri. Tuttavia, gli approcci esistenti spesso si basano su moduli di azione separati o utilizzano rappresentazioni delle azioni che non sono ancorate ai pixel, rendendo difficile sfruttare appieno la conoscenza pre-addestrata dei modelli video e limitando il trasferimento tra punti di vista e ambienti. In questo lavoro, presentiamo Action Images, un modello di azione mondiale unificato che formula l'apprendimento delle politiche come generazione di video multiview. Invece di codificare il controllo come token a bassa dimensionalità, traduciamo le azioni robotiche a 7 gradi di libertà in action image interpretabili: video d'azione multiview che sono ancorati ai pixel 2D e tracciano esplicitamente il movimento del braccio robotico. Questa rappresentazione dell'azione ancorata ai pixel consente al modello video stesso di fungere da politica zero-shot, senza una testa di politica separata o un modulo di azione. Oltre al controllo, lo stesso modello unificato supporta la generazione congiunta video-azione, la generazione di video condizionata all'azione e l'etichettatura delle azioni sotto una rappresentazione condivisa. Su RLBench e sulle valutazioni nel mondo reale, il nostro modello raggiunge i tassi di successo zero-shot più elevati e migliora la qualità della generazione congiunta video-azione rispetto ai precedenti modelli mondiali nello spazio video, suggerendo che le action image interpretabili sono una strada promettente per l'apprendimento delle politiche.
I modelli linguistici multimodali (MLLM) sono stati applicati con successo a compiti di embedding multimodale, ma le loro capacità di ragionamento generativo rimangono sottoutilizzate. L'incorporazione diretta del ragionamento a catena di pensieri nell'apprendimento di embedding introduce due sfide fondamentali. In primo luogo, il disallineamento strutturale tra il ragionamento a livello di istanza e la supervisione contrastiva a coppie può portare a comportamenti di scorciatoia, dove il modello apprende semplicemente il formato superficiale del ragionamento. In secondo luogo, il ragionamento non è universalmente vantaggioso per i compiti di embedding. Forzare il ragionamento per tutti gli input può introdurre calcoli e latenze non necessari, e può persino oscurare i segnali semantici salienti per casi semplici. Per affrontare questi problemi, proponiamo MMEmb-R1, un framework di embedding multimodale adattivo basato sul ragionamento. Formuliamo il ragionamento come una variabile latente e introduciamo una selezione di ragionamento consapevole delle coppie che utilizza l'intervento controfattuale per identificare i percorsi di ragionamento vantaggiosi per l'allineamento query-bersaglio. Inoltre, adottiamo l'apprendimento per rinforzo per richiamare selettivamente il ragionamento solo quando necessario. Esperimenti sul benchmark MMEB-V2 dimostrano che il nostro modello raggiunge un punteggio di 71,2 con soli 4B di parametri, stabilendo un nuovo stato dell'arte mentre riduce significativamente l'overhead di ragionamento e la latenza di inferenza.
Gli agenti LLM multimodali che operano in ambienti di gioco complessi devono riutilizzare continuamente l'esperienza passata per risolvere nuovi compiti in modo efficiente. In questo lavoro proponiamo Echo, un framework di memoria orientato al trasferimento che consente agli agenti di derivare conoscenza azionabile da interazioni precedenti, invece di trattare la memoria come un repository passivo di record statici. Per rendere esplicito il trasferimento, Echo scompone la conoscenza riutilizzabile in cinque dimensioni: struttura, attributo, processo, funzione e interazione. Questa formulazione permette all'agente di identificare modelli ricorrenti condivisi tra diversi compiti e inferire quale esperienza precedente rimanga applicabile in nuove situazioni. Basandosi su questa formulazione, Echo sfrutta l'Apprendimento per Analogia Contestuale (In-Context Analogy Learning - ICAL) per recuperare esperienze rilevanti e adattarle a compiti non visti attraverso esempi contestuali. Esperimenti in Minecraft dimostrano che, in uno scenario di apprendimento da zero, Echo raggiunge un'accelerazione di 1,3x-1,7x nei compiti di sblocco oggetti. Inoltre, Echo mostra un fenomeno di sblocco a catena di tipo esplosivo, sbloccando rapidamente multiple oggetti simili in un breve intervallo temporale dopo aver acquisito esperienza trasferibile. Questi risultati suggeriscono che il trasferimento di esperienza sia una direzione promettente per migliorare l'efficienza e l'adattabilità degli agenti LLM multimodali in ambienti interattivi complessi.
La revisione tra pari nell'apprendimento automatico è sottoposta a una crescente pressione dovuta all'aumento dei volumi di sottomissione e al tempo limitato dei revisori. La maggior parte dei sistemi di revisione basati su LLM legge solo il manoscritto e genera commenti basandosi esclusivamente sulla narrazione del documento. Ciò rende i loro output sensibili alla qualità della presentazione e li rende deboli quando le evidenze necessarie per la revisione risiedono nella letteratura correlata o nel codice rilasciato. Presentiamo FactReview, un sistema di revisione basato su evidenze che combina estrazione di affermazioni, posizionamento nella letteratura e verifica delle affermazioni basata sull'esecuzione. Dato un documento, FactReview identifica le affermazioni principali e i risultati riportati, recupera lavori affini per chiarire la posizione tecnica del documento e, quando il codice è disponibile, esegue il repository rilasciato con budget limitati per testare le affermazioni empiriche centrali. Produce quindi una revisione concisa e un report evidenziale che assegna a ogni affermazione principale una di cinque etichette: Supportata, Supportata dal documento, Parzialmente supportata, In conflitto o Non conclusiva. In uno studio di caso su CompGCN, FactReview riproduce risultati che corrispondono strettamente a quelli riportati per la predizione di link e la classificazione di nodi, ma mostra anche che l'affermazione più ampia del documento sulle prestazioni tra i task non è pienamente sostenuta: sulla classificazione di grafi MUTAG, il risultato riprodotto è 88,4%, mentre il baseline più forte riportato nel documento rimane 92,6%. L'affermazione è quindi solo parzialmente supportata. Più in generale, questo caso suggerisce che l'IA è più utile nella revisione tra pari non come decisore finale, ma come strumento per raccogliere evidenze e aiutare i revisori a produrre valutazioni più fondate su prove concrete. Il codice è pubblico all'indirizzo https://github.com/DEFENSE-SEU/Review-Assistant.
Gli agenti di codifica consumano ripetutamente osservazioni lunghe degli strumenti, anche se solo una piccola frazione di ciascuna osservazione è rilevante per il passo successivo. Studiamo la potatura condizionata al task degli output degli strumenti: dato un query focalizzato e un output di uno strumento, restituire il più piccolo blocco di evidenza testuale che l'agente dovrebbe ispezionare successivamente. Introduciamo un benchmark di 11.477 esempi costruito da interazioni del repository SWE-bench e output sintetici di strumenti multi-ecosistema, con un set di test di 618 esempi curato manualmente. Addestriamo Qwen 3.5 2B con LoRA e lo confrontiamo con modelli zero-shot più grandi e baseline euristiche di potatura. Il nostro modello raggiunge 0.86 di recall e 0.80 di F1 rimuovendo il 92% dei token di input, superando Qwen 3.5 35B A3B zero-shot di 11 punti di recall e tutte le baseline euristiche di un ampio margine.
I Large Language Model (LLM) ottengono ottime prestazioni nella riparazione di programmi, ma spesso soffrono di sovra-modifica, dove modifiche eccessive sovrascrivono codice corretto e ostacolano la localizzazione dei bug. Quantifichiamo sistematicamente il suo impatto e introduciamo il compito di riparazione precisa, che massimizza il riutilizzo del codice corretto correggendo solo le parti difettose. Basandoci su questa intuizione, proponiamo PRepair, un framework che mitiga la sovra-modifica e migliora l'accuratezza della riparazione. PRepair ha due componenti: Self-Breaking, che genera programmi difettosi diversificati tramite iniezione controllata di bug e campionamento min-max, e Self-Repairing, che addestra i modelli con l'Edit-Aware Group Relative Policy Optimization (EA-GRPO) utilizzando una ricompensa "edit-aware" per incoraggiare modifiche minime ma corrette. Gli esperimenti mostrano che PRepair migliora la precisione di riparazione fino al 31,4% secondo fix_1@1, una metrica che considera congiuntamente la correttezza e l'estensione della riparazione, e aumenta significativamente il throughput di decodifica se combinato con l'editing speculativo, dimostrando il suo potenziale per una riparazione del codice precisa e pratica.
La sintesi grafica programmatica è fondamentale per interpretare e modificare dati visivi, facilitando efficacemente il reverse engineering di elementi visivi statici in codice TikZ modificabile. Sebbene TikZ sia lo standard de facto per gli schemi scientifici grazie alla sua flessibilità programmatica, il suo requisito di rigida precisione spaziale rappresenta una sfida significativa per i Modelli Linguistici Multimodali di Grande Dimensione. Il progresso è attualmente ostacolato da due lacune primarie: (1) Lacuna nella Qualità dei Dati: i corpora esistenti immagine-TikZ spesso mancano di eseguibilità rigorosa e di un allineamento visivo affidabile; (2) Lacuna nella Valutazione: carenza di benchmark per la fedeltà sia strutturale che visiva. Per affrontare questi problemi, presentiamo un framework a ciclo chiuso che include: SciTikZ-230K, un dataset su larga scala e di alta qualità proveniente dal nostro Execution-Centric Data Engine che copre 11 discipline scientifiche diverse; SciTikZ-Bench, un benchmark multifacciale che spazia da costrutti geometrici di base a schemi gerarchici intricati per valutare sia la fedeltà visiva che la logica strutturale. Per ampliare ulteriormente la metodologia di ottimizzazione del codice visivo, introduciamo un nuovo paradigma di ottimizzazione basato sul Dual Self-Consistency Reinforcement Learning, che utilizza la Round-Trip Verification per penalizzare il codice degenerato e potenziare l'auto-consistenza complessiva. Grazie a questi elementi, il nostro modello addestrato SciTikZer-8B raggiunge prestazioni all'avanguardia, superando costantemente colossi proprietari come Gemini-2.5-Pro e modelli massicci come Qwen3-VL-235B-A22B-Instruct.
I modelli linguistici di grandi dimensioni (LLM) hanno mostrato potenzialità nella simulazione del comportamento umano, tuttavia gli agenti esistenti spesso presentano una rigidità comportamentale, un difetto frequentemente mascherato dal bias autoreferenziale delle attuali valutazioni "LLM come giudice". Valutando rispetto a una verità empirica di riferimento, riveliamo un fenomeno contro-intuitivo: aumentare l'intensità del ragionamento guidato dai prompt non migliora la fedeltà, ma piuttosto esacerba la polarizzazione valoriale, facendo collassare la diversità della popolazione. Per affrontare questo problema, proponiamo l'architettura Contesto-Valore-Azione (CVA), basata sul modello Stimolo-Organismo-Risposta (S-O-R) e sulla Teoria dei Valori Umani Fondamentali di Schwartz. A differenza dei metodi che si affidano all'auto-verifica, la CVA disaccoppia la generazione dell'azione dal ragionamento cognitivo attraverso un innovativo Verificatore di Valori, addestrato su dati umani autentici per modellare esplicitamente l'attivazione dinamica dei valori. Esperimenti su CVABench, che comprende oltre 1,1 milioni di tracce di interazione del mondo reale, dimostrano che la CVA supera significativamente i metodi di riferimento. Il nostro approccio mitiga efficacemente la polarizzazione offrendo al contempo una fedeltà comportamentale e un'interpretabilità superiori.
I modelli linguistici di grandi dimensioni (LLM) a Mistura di Esperti (MoE) sono tra le architetture con le migliori prestazioni. I modelli più grandi, spesso con centinaia di miliardi di parametri, pongono sfide significative per la memoria durante la distribuzione. Gli approcci tradizionali per ridurre i requisiti di memoria includono la potatura dei pesi e la quantizzazione. Prendendo spunto dal Router-weighted Expert Activation Pruning (REAP) che pota gli esperti, proponiamo un nuovo metodo, il Router-weighted Expert Activation Merging (REAM). Invece di rimuovere gli esperti, REAM li raggruppa e ne fonde i pesi, preservando meglio le prestazioni originali. Valutiamo REAM rispetto a REAP e ad altri metodi di riferimento su molteplici LLM MoE, utilizzando diversi benchmark di question answering a scelta multipla (MC) e generativi (GEN). I nostri risultati rivelano un compromesso tra le prestazioni MC e GEN che dipende dalla composizione dei dati di calibrazione. Controllando il mix di dati generici, matematici e di programmazione, esaminiamo la frontiera di Pareto di questo compromesso e dimostriamo che REAM spesso supera i metodi di riferimento e in molti casi è paragonabile ai modelli originali non compressi.
Man mano che i modelli linguistici evolvono dalla generazione di risposte "single-shot" verso ragionamenti multi-step che recuperano e consumano evidenze durante l'inferenza, la valutazione del ruolo dei singoli elementi recuperati diventa più importante. Le valutazioni RAG esistenti si concentrano tipicamente sulla qualità della risposta finale, sulla fedeltà delle citazioni o sull'attribuzione a livello di risposta, ma nessuna di queste affronta direttamente la prospettiva basata su interventi e sull'utilità per singola evidenza che studiamo qui. Introduciamo CUE-R, un framework leggero basato su interventi per misurare l'utilità operativa per singola evidenza in RAG single-shot utilizzando tracce osservabili e superficiali di utilizzo del retrieval. CUE-R perturba i singoli elementi di evidenza tramite operatori di RIMOZIONE, SOSTITUZIONE e DUPLICAZIONE, quindi misura i cambiamenti lungo tre assi di utilità (correttezza, fedeltà del grounding basata su proxy ed errore di confidenza) più un segnale di divergenza delle tracce. Delineiamo inoltre una tassonomia operativa dei ruoli delle evidenze per interpretare i risultati degli interventi. Esperimenti su HotpotQA e 2WikiMultihopQA con Qwen-3 8B e GPT-5.2 rivelano uno schema coerente: RIMOZIONE e SOSTITUZIONE compromettono sostanzialmente correttezza e grounding producendo al contempo grandi spostamenti nelle tracce, mentre la DUPLICAZIONE è spesso ridondante per la risposta ma non completamente neutra dal punto di vista comportamentale. Un controllo a retrieval zero conferma che questi effetti derivano dal degrado di un retrieval significativo. Un'ablazione a due supporti mostra inoltre che gli elementi di evidenza multi-hop possono interagire in modo non additivo: rimuovere entrambi i supporti danneggia le prestazioni molto più della rimozione singola. I nostri risultati suggeriscono che la valutazione basata solo sulla risposta trascura effetti importanti delle evidenze e che l'analisi di utilità basata su interventi è un complemento pratico per la valutazione RAG.
La modellazione delle dinamiche spazio-temporali a lungo raggio nella risonanza magnetica funzionale (fMRI) rimane una sfida chiave a causa dell'elevata dimensionalità dei segnali quadridimensionali. I precedenti modelli basati sui voxel, sebbene abbiano dimostrato prestazioni eccellenti e capacità interpretative, sono limitati da richieste di memoria proibitive e quindi possono catturare solo finestre temporali limitate. Per affrontare questo problema, proponiamo TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), un approccio innovativo che tokenizza i volumi fMRI utilizzando un autoencoder pre-addestrato per immagini naturali 2D. Ogni volume fMRI 3D viene compresso in un insieme compatto di token continui, consentendo la modellazione di sequenze lunghe con un semplice encoder Transformer con VRAM limitata. Su benchmark su larga scala, tra cui UK-Biobank (UKB), Human Connectome Project (HCP) e dataset ADHD-200, TABLeT supera i modelli esistenti in molteplici compiti, dimostrando al contempo sostanziali vantaggi in termini di efficienza computazionale e di memoria rispetto allo stato dell'arte dei metodi basati sui voxel, a parità di input. Inoltre, sviluppiamo un approccio di modellazione self-supervised con token mascherati per pre-addestrare TABLeT, che migliora le prestazioni del modello per vari compiti downstream. I nostri risultati suggeriscono un approccio promettente per la modellazione spazio-temporale scalabile e interpretabile dell'attività cerebrale. Il nostro codice è disponibile all'indirizzo https://github.com/beotborry/TABLeT.
I modelli linguistici di diffusione (DLM) abilitano la generazione di testo parallela e non autoregressiva, tuttavia gli esistenti modelli DLM con miscela di esperti (MoE) ereditano l'instradamento basato sulla scelta del token (TC) dai sistemi autoregressivi, causando squilibrio di carico e allocazione rigida del calcolo. Dimostriamo che l'instradamento a scelta dell'esperto (EC) è più adatto ai DLM: fornisce per progettazione un bilanciamento deterministico del carico, producendo una maggiore velocità di elaborazione e una convergenza più rapida rispetto al TC. Basandoci sulla proprietà per cui la capacità EC è esternamente controllabile, introduciamo una capacità esperto dipendente dal passo temporale, che varia l'allocazione degli esperti in base allo step di denoising. Rileviamo che allocare maggiore capacità ai passi con basso rapporto di mascheramento raggiunge costantemente le migliori prestazioni a parità di FLOP, e forniamo una spiegazione meccanicistica: i token in contesti con basso rapporto di mascheramento mostrano un'efficienza di apprendimento di un ordine di grandezza superiore, quindi concentrare il calcolo su questi passi produce il rendimento marginale maggiore. Infine, dimostriamo che i DLM TC preaddestrati esistenti possono essere adattati all'EC sostituendo solo il router, raggiungendo una convergenza più rapida e una precisione migliorata in varie attività downstream. Complessivamente, questi risultati stabiliscono l'instradamento EC come paradigma superiore per i modelli DLM MoE e dimostrano che il calcolo nei DLM può essere trattato come una politica adattiva piuttosto che una costante architetturale fissa. Il codice è disponibile all'indirizzo https://github.com/zhangshuibai/EC-DLM.