Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli embedding di memoria sono cruciali per i sistemi potenziati con memoria, come OpenClaw, ma la loro valutazione è poco esplorata negli attuali benchmark per gli embedding testuali, che si concentrano in modo restrittivo sul recupero tradizionale di passaggi e non riescono a valutare la capacità dei modelli di gestire compiti di recupero della memoria a lungo termine che coinvolgono informazioni frammentate, dipendenti dal contesto e temporalmente distanti. Per affrontare questa lacuna, introduciamo il Benchmark per Embedding di Memoria a Lungo Termine (LMEB), un framework completo che valuta le capacità dei modelli di embedding nell'elaborare compiti complessi di recupero della memoria a lungo termine. LMEB comprende 22 dataset e 193 task di recupero zero-shot attraverso 4 tipi di memoria: episodica, dialogica, semantica e procedurale, con dati sia generati da IA che annotati da umani. Questi tipi di memoria differiscono in termini di livello di astrazione e dipendenza temporale, cogliendo aspetti distinti del recupero della memoria che riflettono le diverse sfide del mondo reale. Abbiamo valutato 15 modelli di embedding ampiamente utilizzati, che spaziano da centinaia di milioni a dieci miliardi di parametri. I risultati rivelano che (1) LMEB fornisce un livello di difficoltà ragionevole; (2) Modelli più grandi non sempre performano meglio; (3) LMEB e MTEB mostrano ortogonalità. Ciò suggerisce che il campo deve ancora convergere su un modello universale in grado di eccellere in tutti i compiti di recupero della memoria e che le prestazioni nel recupero tradizionale di passaggi potrebbero non generalizzarsi al recupero della memoria a lungo termine. In sintesi, fornendo un framework di valutazione standardizzato e riproducibile, LMEB colma un gap cruciale nella valutazione degli embedding di memoria, guidando ulteriori progressi negli embedding testuali per la gestione del recupero della memoria a lungo termine e dipendente dal contesto. LMEB è disponibile all'indirizzo https://github.com/KaLM-Embedding/LMEB.
Il tracciamento di entità visive è un'abilità cognitiva innata negli esseri umani, ma rimane un collo di bottiglia critico per i Modelli Visione-Linguaggio (VLM). Questo deficit è spesso mascherato nei benchmark video esistenti da scorciatoie visive. Introduciamo VET-Bench, un banco di prova diagnostico sintetico che presenta oggetti visivamente identici, i quali necessitano di essere tracciati esclusivamente attraverso la continuità spaziotemporale. I nostri esperimenti rivelano che gli attuali VLM all'avanguardia performano a livelli prossimi al caso su VET-Bench, esponendo una limitazione fondamentale: un'eccessiva dipendenza da caratteristiche statiche a livello di fotogramma e un fallimento nel mantenere le rappresentazioni delle entità nel tempo. Forniamo un'analisi teorica che stabilisce connessioni con il problema del tracciamento degli stati, dimostrando che i VLM basati su transformer a profondità fissa sono fondamentalmente limitati nel tracciare oggetti indistinguibili senza supervisione intermedia a causa di vincoli di espressività. Per affrontare ciò, proponiamo Spatiotemporal Grounded Chain-of-Thought (SGCoT): la generazione di traiettorie oggetto come stati intermedi espliciti. Sfruttando l'abilità di tracciamento oggetto di Molmo2, eliciamo il ragionamento SGCoT mediante fine-tuning su dati testuali sintetizzati per l'allineamento. Il nostro metodo raggiunge un'accuratezza all'avanguardia superiore al 90% su VET-Bench, dimostrando che i VLM possono risolvere in modo affidabile e end-to-end il compito del "gioco dei gusci" video senza strumenti esterni. Il nostro codice e i nostri dati sono disponibili su https://vetbench.github.io.
Presentiamo MOCR (Multimodal OCR), un paradigma di analisi documentale che analizza congiuntamente testo e elementi grafici convertendoli in rappresentazioni testuali unificate. A differenza dei sistemi OCR convenzionali che si concentrano sul riconoscimento del testo lasciando le regioni grafiche come ritagli di pixel, il nostro metodo, denominato dots.mocr, tratta elementi visivi come grafici, diagrammi, tabelle e icone come obiettivi di analisi di prima classe, consentendo ai sistemi di analizzare i documenti preservando le relazioni semantiche tra gli elementi. Offre diversi vantaggi: (1) ricostruisce sia il testo che la grafica come output strutturati, permettendo una ricostruzione documentale più fedele; (2) supporta l'addestramento end-to-end su elementi documentali eterogenei, permettendo ai modelli di sfruttare le relazioni semantiche tra componenti testuali e visive; e (3) converte la grafica precedentemente scartata in supervisione a livello di codice riutilizzabile, sbloccando la supervisione multimodale incorporata nei documenti esistenti. Per rendere questo paradigma pratico su larga scala, abbiamo costruito un motore di dati completo a partire da PDF, pagine web renderizzate e risorse SVG native, e abbiamo addestrato un modello compatto da 3 miliardi di parametri attraverso pre-addestramento a stadi e fine-tuning supervisionato. Valutiamo dots.mocr da due prospettive: analisi documentale e analisi di grafica strutturata. Sui benchmark di analisi documentale, si classifica secondo solo a Gemini 3 Pro sulla nostra classifica Elo OCR Arena, supera i sistemi di analisi documentale open-source esistenti e stabilisce un nuovo stato dell'arte di 83.9 su olmOCR Bench. Nell'analisi di grafica strutturata, dots.mocr raggiunge una qualità di ricostruzione superiore a Gemini 3 Pro su vari benchmark da immagine a SVG, dimostrando prestazioni elevate su grafici, layout UI, figure scientifiche e diagrammi chimici. Questi risultati mostrano un percorso scalabile verso la creazione di corpora su larga scala per la conversione da immagine a codice per il pre-addestramento multimodale. Codice e modelli sono disponibili pubblicamente all'indirizzo https://github.com/rednote-hilab/dots.mocr.
Un tema all'avanguardia nella modellazione multimodale è l'unificazione della comprensione e della generazione visiva all'interno di un singolo modello. Tuttavia, i due compiti richiedono regimi di decodifica e rappresentazioni visive non corrispondenti, rendendo non banale l'ottimizzazione congiunta in uno spazio di caratteristiche condiviso. In questo lavoro, presentiamo Cheers, un modello multimodale unificato che disaccoppia i dettagli a livello di patch dalle rappresentazioni semantiche, stabilizzando così la semantica per la comprensione multimodale e migliorando la fedeltà per la generazione di immagini tramite residui di dettaglio controllati (gated). Cheers include tre componenti chiave: (i) un tokenizzatore visivo unificato che codifica e comprime gli stati latenti dell'immagine in token semantici per un efficiente condizionamento del LLM, (ii) un Transformer basato su LLM che unifica la decodifica autoregressiva per la generazione di testo e la decodifica diffusion per la generazione di immagini, e (iii) una testa a flusso matching cascading che decodifica prima la semantica visiva e poi inietta residui di dettaglio semanticamente controllati dal tokenizzatore visivo per rifinire i contenuti ad alta frequenza. Esperimenti su benchmark consolidati dimostrano che Cheers eguaglia o supera UMM avanzati sia nella comprensione che nella generazione visiva. Cheers raggiunge anche una compressione dei token di 4x, consentendo una codifica e generazione di immagini ad alta risoluzione più efficiente. Notevolmente, Cheers supera il Tar-1.5B sui popolari benchmark GenEval e MMBench, richiedendo solo il 20% del costo di addestramento, indicando una modellazione multimodale unificata efficace ed efficiente (ovvero, compressione 4x dei token. Rilasceremo tutto il codice e i dati per future ricerche.
I recenti modelli di diffusione audiovisiva congiunta raggiungono una qualità di generazione notevole, ma soffrono di un'elevata latenza a causa delle loro dipendenze attentive bidirezionali, ostacolando le applicazioni in tempo reale. Proponiamo OmniForcing, il primo framework per distillare un modello di diffusione bidirezionale dual-stream offline in un generatore autoregressivo streaming ad alta fedeltà. Tuttavia, l'applicazione ingenua della distillazione causale a tali architetture dual-stream innesca una grave instabilità dell'addestramento, a causa dell'estrema asimmetria temporale tra le modalità e della conseguente sparsità dei token. Affrontiamo il divario intrinseco nella densità informativa introducendo un Allineamento Blocco-Causale Asimmetrico con un Prefisso Globale a troncamento zero che previene la deriva della sincronizzazione multimodale. L'esplosione del gradiente causata dall'estrema sparsità dei token audio durante lo shift causale è ulteriormente risolta attraverso un meccanismo di Audio Sink Token equipaggiato con un vincolo Identity RoPE. Infine, un paradigma di Distillazione Congiunta Self-Forcing consente al modello di autocorreggere dinamicamente gli errori cumulativi cross-modali dovuti al bias di esposizione durante i rollout lunghi. Potenziato da uno schema di inferenza rolling KV-cache indipendente dalla modalità, OmniForcing raggiunge una generazione streaming allo stato dell'arte a circa 25 FPS su una singola GPU, mantenendo la sincronizzazione multimodale e la qualità visiva pari al teacher bidirezionale. Pagina del Progetto: https://omniforcing.com{https://omniforcing.com}
I modelli linguistici di grandi dimensioni per video online (VideoLLM) svolgono un ruolo cruciale nel supportare interazioni reattive e in tempo reale. I metodi esistenti si concentrano sulla percezione in streaming, ma mancano di un flusso logico di ragionamento sincronizzato. Tuttavia, l'applicazione diretta di metodi di scalatura al momento del test comporta una latenza di risposta inaccettabile. Per affrontare questo compromesso, proponiamo Video Streaming Thinking (VST), un nuovo paradigma per la comprensione di video in streaming. Esso supporta un meccanismo di "pensare mentre si guarda", che attiva il ragionamento sui segmenti video in arrivo durante lo streaming. Questo design migliora la comprensione tempestiva e la cognizione coerente, preservando al contempo la reattività in tempo reale, ammortizzando la latenza del ragionamento del LLM durante la riproduzione video. Inoltre, introduciamo una pipeline completa di post-addestramento che integra VST-SFT, che adatta strutturalmente il VideoLLM offline al ragionamento causale in streaming, e VST-RL, che fornisce un miglioramento end-to-end attraverso l'auto-esplorazione in un ambiente di interazione video multi-turno. In aggiunta, progettiamo una pipeline automatizzata per la sintesi dei dati di addestramento che utilizza grafi della conoscenza video per generare coppie domanda-risposta di alta qualità per lo streaming, con una Catena di Pensiero (Chain-of-Thought) ancorata a entità-relazioni per imporre un ragionamento multi-evidenza e un'attenzione sostenuta al flusso video. Valutazioni estensive mostrano che VST-7B ottiene prestazioni elevate su benchmark online, ad esempio il 79.5% su StreamingBench e il 59.3% su OVO-Bench. Nel frattempo, VST rimane competitivo su benchmark offline di tipo long-form o di ragionamento. Rispetto a Video-R1, VST risponde 15.7 volte più velocemente e ottiene un miglioramento del +5.4% su VideoHolmes, dimostrando una maggiore efficienza e una forte generalizzazione su varie attività di comprensione video. Codice, dati e modelli saranno rilasciati su https://github.com/1ranGuan/VST.
L'addestramento di agenti capaci per l'ingegneria del software (SWE) richiede ambienti eseguibili, verificabili e su larga scala che forniscano cicli di feedback dinamici per la modifica iterativa del codice, l'esecuzione di test e l'affinamento delle soluzioni. Tuttavia, i dataset open-source esistenti rimangono limitati in termini di scala e diversità dei repository, mentre le soluzioni industriali sono opache con infrastrutture non rilasciate, creando una barriera proibitiva per la maggior parte dei gruppi di ricerca accademici. Presentiamo OpenSWE, il framework completamente trasparente più vasto per l'addestramento di agenti SWE in Python, comprendente 45.320 ambienti Docker eseguibili distribuiti su oltre 12.800 repository, con tutti i Dockerfile, gli script di valutazione e l'infrastruttura interamente open-source per garantire la riproducibilità. OpenSWE è costruito attraverso una pipeline di sintesi multi-agente implementata su un cluster distribuito di 64 nodi, automatizzando l'esplorazione dei repository, la costruzione dei Dockerfile, la generazione degli script di valutazione e l'analisi iterativa dei test. Oltre alla scala, proponiamo una pipeline di filtraggio incentrata sulla qualità che caratterizza la difficoltà intrinseca di ogni ambiente, scartando le istanze non risolvibili o insufficientemente impegnative e conservando solo quelle che massimizzano l'efficienza dell'apprendimento. Con 891K spesi per la costruzione degli ambienti e ulteriori 576K per il campionamento delle traiettorie e la cura basata sulla difficoltà, l'intero progetto rappresenta un investimento totale di circa 1,47 milioni di dollari, producendo circa 13.000 traiettorie curate da circa 9.000 ambienti con qualità garantita. Esperimenti estensivi convalidano l'efficacia di OpenSWE: OpenSWE-32B e OpenSWE-72B raggiungono rispettivamente il 62,4% e il 66,0% su SWE-bench Verified, stabilendo lo stato dell'arte tra la serie Qwen2.5. Inoltre, l'addestramento focalizzato su SWE produce sostanziali miglioramenti fuori dominio, inclusi fino a 12 punti nel ragionamento matematico e 5 punti su benchmark scientifici, senza degradare il richiamo fattuale.
I compiti di vision-to-code richiedono ai modelli di ricostruire input visivi strutturati, come grafici, tabelle e SVG, in rappresentazioni eseguibili o strutturate con alta fedeltà visiva. Sebbene i recenti Large Vision Language Models (LVLM) ottengano risultati solidi tramite fine-tuning supervisionato, l'apprendimento per rinforzo rimane impegnativo a causa di segnali di ricompensa disallineati. Le ricompense esistenti si basano su regole testuali o su similarità approssimativa di embedding visivi, entrambe incapaci di catturare discrepanze visive granulari e vulnerabili al reward hacking. Proponiamo Visual Equivalence Reward Model (Visual-ERM), un modello generativo multimodale di ricompensa che fornisce un feedback granulare, interpretabile e indipendente dal compito per valutare la qualità vision-to-code direttamente nello spazio visivo renderizzato. Integrato nell'RL, Visual-ERM migliora Qwen3-VL-8B-Instruct di +8,4 su chart-to-code e produce guadagni consistenti nell'analisi di tabelle e SVG (+2,7, +4,1 in media), rafforzando ulteriormente lo scaling a test-time tramite reflection e revision. Introduciamo anche VisualCritic-RewardBench (VC-RewardBench), un benchmark per giudicare discrepanze granulari immagine-immagine su dati visivi strutturati, dove Visual-ERM a 8B supera decisamente Qwen3-VL-235B-Instruct e si avvicina ai modelli closed-source leader. I nostri risultati suggeriscono che una supervisione di ricompensa visiva granulare è sia necessaria che sufficiente per l'RL vision-to-code, indipendentemente dalla specificità del compito.
I modelli linguistici multimodali di grandi dimensioni (MLLM) sono sempre più utilizzati per eseguire flussi di lavoro visivi, come la navigazione di interfacce grafiche (GUI), in cui il passo successivo dipende da condizioni compositive verificate visivamente (ad esempio, "se appare una finestra di dialogo dei permessi e il colore dell'interfaccia è verde, clicca Consenti") e il processo può diramarsi o terminare in anticipo. Tuttavia, questa capacità rimane sottovalutata: i benchmark esistenti si concentrano su composizioni superficiali o vincoli indipendenti, piuttosto che su condizionali compositivi profondamente concatenati. In questo articolo, presentiamo MM-CondChain, un benchmark per il ragionamento compositivo profondo basato sul visivo. Ogni istanza del benchmark è organizzata come una catena di ragionamento multilivello, in cui ogni livello contiene una condizione compositiva non banale ancorata all'evidenza visiva e costruita da più oggetti, attributi o relazioni. Per rispondere correttamente, un MLLM deve percepire l'immagine in dettaglio, ragionare su più elementi visivi a ogni passo e seguire il percorso di esecuzione risultante fino all'esito finale. Per costruire in modo scalabile dati di questo stile di flusso di lavoro, proponiamo una pipeline di sintesi agentica: un Planner orchestra la generazione strato per strato delle condizioni compositive, mentre una Rappresentazione Intermedia Programmabile Verificabile (VPIR) garantisce che la condizione di ogni livello sia meccanicamente verificabile. Un Composer assembla quindi questi livelli verificati in istruzioni complete. Utilizzando questa pipeline, costruiamo benchmark in tre domini visivi: immagini naturali, grafici di dati e traiettorie di GUI. Esperimenti su una gamma di MLLM mostrano che anche il modello più potente raggiunge solo un Path F1 del 53,33%, con cali netti sui negativi difficili e all'aumentare della profondità o della complessità dei predicati, confermando che il ragionamento compositivo profondo rimane una sfida fondamentale.
La scalatura al momento del test è diventata un paradigma dominante per migliorare l'affidabilità degli agenti basati su LLM, tuttavia gli approcci attuali trattano la capacità di calcolo come una risorsa abbondante, permettendo agli agenti di esaurire i budget di token e strumenti in passaggi ridondanti o traiettorie senza uscita. I metodi esistenti consapevoli del budget richiedono costosi fine-tuning o si basano su euristiche grossolane a livello di traiettoria che non possono intervenire durante l'esecuzione. Proponiamo il Budget-Aware Value Tree (BAVT), un framework inference-time senza addestramento che modella il ragionamento multi-hop come un albero di ricerca dinamico guidato da una stima del valore a livello di passo all'interno di un singolo backbone LLM. Un'altra innovazione chiave è un meccanismo di selezione dei nodi condizionato dal budget che utilizza il rapporto di risorse rimanenti come esponente di scalatura naturale sui valori dei nodi, fornendo una transizione principiata e senza parametri dall'esplorazione ampia allo sfruttamento greedy man mano che il budget si esaurisce. Per contrastare la ben nota sovraconfidenza della autovalutazione degli LLM, BAVT impiega un predittore di valore residuo che valuta il progresso relativo piuttosto che la qualità assoluta dello stato, consentendo una potatura affidabile delle chiamate a strumenti non informative o ridondanti. Forniamo inoltre una garanzia di convergenza teorica, dimostrando che BAVT raggiunge una risposta terminale con probabilità almeno 1-ε sotto un limite di budget finito esplicito. Valutazioni estese su quattro benchmark di QA multi-hop attraverso due famiglie di modelli dimostrano che BAVT supera costantemente le baseline di campionamento parallelo. Notevolmente, BAVT sotto stringenti vincoli di basso budget supera le prestazioni della baseline con un'allocazione di risorse quattro volte superiore, stabilendo che una gestione intelligente del budget supera fondamentalmente il ridimensionamento brute-force della capacità di calcolo.
La crescente adozione di Large Language Model (LLM) ha consentito agli scienziati dell'IA di svolgere complesse attività di scoperta scientifica end-to-end che richiedono il coordinamento di ruoli specializzati, inclusi la generazione di idee e l'esecuzione sperimentale. Tuttavia, la maggior parte dei sistemi all'avanguardia di scienziati dell'IA si basa su pipeline statiche e progettate manualmente, non riuscendo ad adattarsi in base alle storie di interazione accumulate. Di conseguenza, questi sistemi trascurano promettenti direzioni di ricerca, ripetono esperimenti falliti e perseguono idee non fattibili. Per affrontare questo problema, introduciamo EvoScientist, un framework evolutivo di scienziato dell'IA multi-agente che migliora continuamente le strategie di ricerca attraverso una memoria persistente e l'auto-evoluzione. EvoScientist comprende tre agenti specializzati: un Agente Ricercatore (RA) per la generazione di idee scientifiche, un Agente Ingegnere (EA) per l'implementazione e l'esecuzione degli esperimenti e un Agente Manager dell'Evoluzione (EMA) che distilla le intuizioni dalle interazioni precedenti in conoscenza riutilizzabile. EvoScientist contiene due moduli di memoria persistente: (i) una memoria di ideazione, che riassume le direzioni di ricerca fattibili dalle idee di alto rango registrando al contempo le direzioni precedentemente non riuscite; e (ii) una memoria di sperimentazione, che cattura strategie efficaci di elaborazione dati e addestramento di modelli derivate dalle traiettorie di ricerca del codice e dalle implementazioni dalle migliori performance. Questi moduli consentono all'RA e all'EA di recuperare le strategie precedenti rilevanti, migliorando nel tempo la qualità delle idee e i tassi di successo dell'esecuzione del codice. Gli esperimenti mostrano che EvoScientist supera 7 sistemi all'avanguardia open-source e commerciali nella generazione di idee scientifiche, raggiungendo una maggiore novità, fattibilità, rilevanza e chiarezza attraverso valutazioni automatiche e umane. EvoScientist migliora sostanzialmente anche i tassi di successo dell'esecuzione del codice attraverso l'evoluzione multi-agente, dimostrando l'efficacia della memoria persistente per la scoperta scientifica end-to-end.
L'ottimizzazione delle politiche relative ai gruppi (GRPO) è emersa come un potente framework per l'allineamento delle preferenze nei modelli di flusso testo-immagine (T2I). Tuttavia, osserviamo che il paradigma standard, in cui si valuta un gruppo di campioni generati rispetto a una singola condizione, soffre di un'esplorazione insufficiente delle relazioni inter-campione, limitando sia l'efficacia dell'allineamento che i limiti prestazionali. Per affrontare questo schema di valutazione sparsa a vista singola, proponiamo la GRPO multi-vista (MV-GRPO), un approccio innovativo che migliora l'esplorazione delle relazioni aumentando lo spazio delle condizioni per creare una mappa di reward densa e multi-vista. Nello specifico, per un gruppo di campioni generati da un prompt, MV-GRPO utilizza un Potenziatore di Condizioni flessibile per generare didascalie semanticamente adiacenti ma diversificate. Queste didascalie consentono una nuova stima del vantaggio multi-vista, catturando attributi semantici diversificati e fornendo segnali di ottimizzazione più ricchi. Derivando la distribuzione di probabilità dei campioni originali condizionata a queste nuove didascalie, possiamo incorporarle nel processo di addestramento senza il costo computazionale della rigenerazione dei campioni. Esperimenti estensivi dimostrano che MV-GRPO raggiunge prestazioni di allineamento superiori rispetto ai metodi all'avanguardia.
I modelli generativi video su larga scala vengono addestrati su dati visivi vasti e diversificati, permettendo loro di interiorizzare ricchi precedenti strutturali, semantici e dinamici del mondo visivo. Sebbene questi modelli abbiano dimostrato capacità generative impressionanti, il loro potenziale come apprenditori visivi generici rimane in gran parte inesplorato. In questo lavoro, introduciamo V-Bridge, un framework che collega questa capacità latente a versatili compiti di restauro d'immagine few-shot. Reinterpretiamo il restauro d'immagine non come un problema di regressione statica, ma come un processo generativo progressivo, e sfruttiamo i modelli video per simulare il raffinamento graduale da input degradati a output ad alta fedeltà. Sorprendentemente, con soli 1.000 campioni di addestramento multi-task (meno del 2% dei metodi di restauro esistenti), i modelli video pre-addestrati possono essere indotti a eseguire un restauro d'immagine competitivo, svolgendo più compiti con un unico modello e rivaleggiando con architetture specializzate progettate esplicitamente per questo scopo. I nostri risultati rivelano che i modelli generativi video apprendono implicitamente potenti e trasferibili precedenti di restauro, che possono essere attivati con dati estremamente limitati, sfidando il tradizionale confine tra modellazione generativa e visione di basso livello, e aprendo un nuovo paradigma di progettazione per modelli di fondazione nei compiti visivi.
La rapida evoluzione degli agenti embodied ha accelerato il dispiegamento di robot domestici in ambienti reali. Tuttavia, a differenza degli ambienti industriali strutturati, gli spazi domestici introducono rischi per la sicurezza imprevedibili, dove limitazioni del sistema come la latenza percettiva e la mancanza di conoscenza del senso comune possono portare a errori pericolosi. Le attuali valutazioni di sicurezza, spesso limitate a immagini statiche, testo o pericoli generici, non riescono a fornare adeguati benchmark per il rilevamento dinamico di azioni non sicure in questi contesti specifici. Per colmare questa lacuna, introduciamo HomeSafe-Bench, un benchmark impegnativo progettato per valutare i Modelli Visione-Linguaggio (VLM) sul rilevamento di azioni non sicure in scenari domestici. HomeSafe-Bench è costruito tramite una pipeline ibrida che combina simulazione fisica con avanzata generazione video e presenta 438 casi diversificati in sei aree funzionali con annotazioni multidimensionali granulari. Oltre al benchmarking, proponiamo HD-Guard (Hierarchical Dual-Brain Guard for Household Safety), un'architettura streaming gerarchica per il monitoraggio della sicurezza in tempo reale. HD-Guard coordina un "Cervello Veloce" (FastBrain) leggero per lo screening continuo ad alta frequenza con un "Cervello Lento" (SlowBrain) asincrono su larga scala per il ragionamento multimodale profondo, bilanciando efficacemente l'efficienza inferenziale con l'accuratezza di rilevamento. Le valutazioni dimostrano che HD-Guard raggiunge un compromesso superiore tra latenza e prestazioni, mentre la nostra analisi identifica colli di bottiglia critici nell'attuale rilevamento della sicurezza basato su VLM.
I modelli di diffusione hanno dimostrato una notevole capacità nelle applicazioni di generazione testo-immagine (T2I). Nonostante i risultati generativi avanzati, essi soffrono di un pesante sovraccarico computazionale, specialmente per i modelli di grandi dimensioni che contengono decine di miliardi di parametri. Lavori precedenti hanno illustrato come sostituire parte dei passi di denoising con un modello più piccolo mantenga comunque la qualità della generazione. Tuttavia, questi metodi si concentrano solo sul risparmio computazionale per alcuni intervalli di tempo, ignorando la differenza nella richiesta di calcolo all'interno di un singolo intervallo. In questo lavoro, proponiamo HybridStitch, un nuovo paradigma di generazione T2I che tratta la generazione come un'operazione di editing. Nello specifico, introduciamo una fase ibrida che incorpora congiuntamente sia il modello grande che quello piccolo. HybridStitch separa l'intera immagine in due regioni: una relativamente facile da renderizzare, che consente una transizione anticipata al modello più piccolo, e un'altra più complessa che richiede quindi un affinamento da parte del modello grande. HybridStitch utilizza il modello piccolo per costruire una bozza approssimativa, sfruttando contemporaneamente il modello grande per modificare e rifinire le regioni complesse. In base alla nostra valutazione, HybridStitch raggiunge un accelerazione di 1.83 volte su Stable Diffusion 3, risultando più veloce di tutti i metodi esistenti di mistura di modelli.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato prestazioni solide nella comprensione video offline, ma la maggior parte è limitata all'inferenza offline o possiede capacità di ragionamento online deboli, rendendo difficile l'interazione multi-turno su flussi video in continuo arrivo. I metodi di streaming esistenti utilizzano tipicamente un paradigma di percezione-generazione intervallato, che impedisce la percezione e la generazione concorrenti e porta a un decadimento precoce della memoria con la crescita dei flussi, danneggiando la modellazione delle dipendenze a lungo raggio. Proponiamo Think While Watching (Pensa Mentre Guardi), un framework di ragionamento video in streaming ancorato alla memoria che preserva una memoria continua a livello di segmento durante l'interazione multi-turno. Costruiamo un dataset a catena del pensiero (chain-of-thought) multi-round in tre stadi e adottiamo una strategia di addestramento abbinata agli stadi, applicando al contempo una causalità rigorosa attraverso una maschera causale di streaming a livello di segmento e una codifica posizionale di streaming. Durante l'inferenza, introduciamo una pipeline efficiente che sovrappone la fase di "guardare" e "pensare" e seleziona adattivamente il backend di attenzione migliore. Sotto protocolli di input in streaming sia a round singolo che multi-round, il nostro metodo ottiene risultati solidi. Basato su Qwen3-VL, migliora l'accuratezza a round singolo del 2.6% su StreamingBench e del 3.79% su OVO-Bench. Nell'impostazione multi-round, mantiene le prestazioni riducendo i token di output del 56%. Il codice è disponibile all'indirizzo: https://github.com/wl666hhh/Think_While_Watching/
Nonostante i rapidi progressi nei modelli di generazione video, l'allineamento dei loro output con l'intento complesso dell'utente rimane una sfida. I metodi di ottimizzazione a runtime esistenti sono tipicamente o computazionalmente costosi o richiedono l'accesso white-box agli elementi interni del modello. Per affrontare questo problema, presentiamo VQQA (Video Quality Question Answering), un framework unificato e multi-agente generalizzabile su diverse modalità di input e task di generazione video. Generando dinamicamente domande visive e utilizzando le relative critiche del Modello Visione-Linguaggio (VLM) come gradienti semantici, VQQA sostituisce le metriche di valutazione passive tradizionali con un feedback azionabile e interpretabile dall'uomo. Ciò consente un processo di ottimizzazione dei prompt altamente efficiente e a ciclo chiuso tramite un'interfaccia in linguaggio naturale di tipo black-box. Esperimenti estensivi dimostrano che VQQA isola e risolve efficacemente gli artefatti visivi, migliorando sostanzialmente la qualità della generazione in pochi passi di raffinamento. Applicabile sia ai task text-to-video (T2V) che image-to-video (I2V), il nostro metodo raggiunge miglioramenti assoluti di +11,57% su T2V-CompBench e +8,43% su VBench2 rispetto alla generazione vanilla, superando significativamente le tecniche di ottimizzazione dei prompt e di ricerca stocastica allo stato dell'arte.
I grandi modelli linguistici (LLM) basati su architetture Transformer si basano sulla memorizzazione in cache chiave-valore (KV) per evitare calcoli ridondanti durante l'inferenza autoregressiva. Sebbene questo meccanismo migliori notevolmente l'efficienza, la dimensione della cache cresce linearmente con la lunghezza della sequenza in input, diventando rapidamente un collo di bottiglia per i task a contesto lungo. Le soluzioni esistenti mitigano questo problema rimuovendo i KV del prompt considerati non importanti, guidati da punteggi di importanza stimati. In particolare, una recente linea di ricerca propone di migliorare la qualità dell'eliminazione "dando un'occhiata al futuro", in cui un generatore di bozze produce una risposta futura surrogata che approssima la risposta reale del modello target, e questo surrogato viene successivamente utilizzato per stimare più accuratamente l'importanza dei KV memorizzati nella cache. Tuttavia, questi approcci si basano su una generazione di bozze computazionalmente costosa, che introduce un sovraccarico sostanziale nella fase di prefilling e ne limita la praticità nel deployment reale. Per affrontare questa sfida, proponiamo LookaheadKV, un framework di eliminazione leggero che sfrutta i vantaggi della risposta futura surrogata senza richiedere una generazione esplicita di bozze. LookaheadKV potenzia i layer del transformer con moduli efficienti in termini di parametri, addestrati per predire i punteggi di importanza reali con alta accuratezza. Il nostro design garantisce un trascurabile sovraccarico a runtime, paragonabile alle euristiche poco costose esistenti, pur raggiungendo un'accuratezza superiore a metodi di approssimazione più costosi. Esperimenti estesi su benchmark di comprensione a contesto lungo, su una vasta gamma di modelli, dimostrano che il nostro metodo non solo supera le recenti baseline competitive in varie task di comprensione a contesto lungo, ma riduce anche il costo dell'eliminazione fino a 14.5 volte, portando a un tempo per il primo token significativamente più rapido. Il nostro codice è disponibile all'indirizzo https://github.com/SamsungLabs/LookaheadKV.
La saturazione di dati di pre-addestramento di alta qualità ha spostato l’attenzione della ricerca verso sistemi evolutivi in grado di generare continuamente artefatti innovativi, portando al successo di AlphaEvolve. Tuttavia, il progresso di tali sistemi è ostacolato dalla mancanza di una valutazione quantitativa rigorosa. Per affrontare questa sfida, introduciamo CreativeBench, un benchmark per valutare la creatività delle macchine nella generazione di codice, basato su un quadro cognitivo classico. Composto da due sottoinsiemi — CreativeBench-Combo e CreativeBench-Explore — il benchmark si concentra sulla creatività combinatoria ed esplorativa attraverso una pipeline automatizzata che utilizza reverse engineering e auto-gioco. Sfruttando codice eseguibile, CreativeBench distingue oggettivamente la creatività dall’allucinazione mediante una metrica unificata definita come il prodotto di qualità e novità. La nostra analisi dei modelli più avanzati rivale comportamenti distinti: (1) il ridimensionamento migliora significativamente la creatività combinatoria, ma produce rendimenti decrescenti nell’esplorazione; (2) i modelli più grandi mostrano una “convergenza per ridimensionamento”, diventando più corretti ma meno divergenti; e (3) le capacità di ragionamento giovano principalmente all’esplorazione vincolata piuttosto che alla combinazione. Infine, proponiamo EvoRePE, una strategia di steering plug-and-play in fase di inferenza che interiorizza schemi di ricerca evolutiva per migliorare costantemente la creatività delle macchine.
Gli agenti embodied in mondi aperti devono risolvere compiti a lungo termine in cui il collo di bottiglia principale non è la qualità della pianificazione passo-passo, ma come l'esperienza interattiva viene organizzata ed evoluta. A tal fine, presentiamo Steve-Evolving, un framework auto-evolutivo non parametrico che accoppia strettamente la diagnosi di esecuzione granulare con la distillazione dual-track della conoscenza in un ciclo chiuso. Il metodo segue tre fasi: Ancoraggio dell'Esperienza, Distillazione dell'Esperienza e Controllo a Ciclo Chiuso Guidato dalla Conoscenza. Nel dettaglio, l'Ancoraggio dell'Esperienza solidifica ogni tentativo di sottobiettivo in una tupla di esperienza strutturata con uno schema fisso (pre-stato, azione, diagnosi-risultato e post-stato) e la organizza in uno spazio esperienziale a tre livelli con indici multidimensionali (ad esempio, firme condizionali, hashing spaziale e tag semantici) più una summarizzazione rolling per un richiamo efficiente e verificabile. Per garantire una densità informativa sufficiente per l'attribuzione, il livello di esecuzione fornisce segnali diagnostici compositi che vanno oltre gli esiti binari, inclusi sommari delle differenze di stato, cause di fallimento enumerate, indicatori continui e rilevamento di stalli/cicli. Inoltre, le traiettorie di successo della Distillazione dell'Esperienza vengono generalizzate in abilità riutilizzabili con precondizioni esplicite e criteri di verifica, mentre i fallimenti vengono distillati in guardrail eseguibili che catturano le cause profonde e vietano operazioni rischiose sia a livello di sottobiettivo che di task. Oltre a ciò, il Controllo a Ciclo Chiuso Guidato dalla Conoscenza inietta le abilità e i guardrail recuperati in un pianificatore LLM, e il ripianificamento locale attivato dalla diagnosi aggiorna online i vincoli attivi, formando un processo di evoluzione continua senza alcun aggiornamento dei parametri del modello. Esperimenti sulla suite a lungo termine Minecraft MCU dimostrano miglioramenti consistenti rispetto ai baseline di retrieval statico.
I Sparse Attention Vector (SAV) sono emersi come un'ottima alternativa *training-free* alla messa a punto supervisionata (*supervised finetuning*) o all'adattamento a basso rango (*low-rank adaptation*) per migliorare le prestazioni dei Modelli Linguistica-Visivi (VLM). Nel loro principio fondamentale, i SAV selezionano alcune *attention head* accurate per un compito di interesse e le utilizzano come classificatori, invece di fare affidamento sulla previsione del modello. In uno spirito simile, scopriamo che sondare direttamente le attivazioni grezze del VLM, sotto forma di valori scalari, è sufficiente per ottenere classificatori accurati su svariati compiti *downstream* di tipo visivo. Spostare l'attenzione dai vettori di attenzione alle attivazioni scalari aumenta drasticamente lo spazio di ricerca per parametri accurati, permettendoci di trovare neuroni più discriminativi immediatamente dal primo token generato. Chiamiamo tali attivazioni Super Neuroni (SN). In questo contesto di *probing*, scopriamo che un numero sufficiente di SN appare negli strati più superficiali del grande modello linguistico, permettendo un *early exit* estremo già dal primo strato del modello al primo token generato. Rispetto alla rete originale, gli SN migliorano robustamente le prestazioni di classificazione ottenendo al contempo un'accelerazione fino a 5.10x.
I modelli di recupero basati su Vision-Language Model (VLM) hanno portato il recupero di documenti visivi (VDR) a livelli di qualità impressionanti. Tuttavia, richiedono lo stesso encoder da miliardi di parametri sia per l'indicizzazione dei documenti che per la codifica delle query, comportando latenze elevate e una forte dipendenza dalla GPU anche per query di solo testo. Osserviamo che questo progetto è inutilmente simmetrico: i documenti sono visivamente complessi e richiedono una forte comprensione visiva, mentre le query sono semplici stringhe di testo brevi. NanoVDR sfrutta questa asimmetria query-documento disaccoppiando i due percorsi di codifica: un insegnante VLM da 2 miliardi di parametri, congelato, indicizza i documenti offline, mentre uno studente distillato di solo testo, di dimensioni ridotte come 69 milioni di parametri, codifica le query in fase di inferenza. La scelta progettuale chiave è l'obiettivo della distillazione. Attraverso un confronto sistematico di sei obiettivi su tre backbone e 22 dataset di benchmark ViDoRe, scopriamo che l'allineamento punto per punto del coseno sul testo della query supera costantemente le alternative basate sul ranking e contrastive, richiedendo solo embedding delle query dell'insegnante pre-memorizzati nella cache e nessuna elaborazione dei documenti durante l'addestramento. Inoltre, identifichiamo il trasferimento cross-linguale come il collo di bottiglia primario delle prestazioni, e lo risolviamo economicamente aumentando i dati di addestramento con query tradotte automaticamente. Il risultante NanoVDR-S-Multi (DistilBERT, 69M) mantiene il 95,1% della qualità dell'insegnante e supera DSE-Qwen2 (2B) sulle versioni v2 e v3 con 32 volte meno parametri e una latenza di query su CPU 50 volte inferiore, a un costo totale di addestramento inferiore a 13 ore GPU.
La ricostruzione composizionale di scene mira a creare rappresentazioni incentrate sugli oggetti, piuttosto che scene olistiche, a partire da video del mondo reale, risultando nativamente applicabile per la simulazione e l'interazione. Gli approcci convenzionali di ricostruzione composizionale si concentrano principalmente sull'aspetto visivo e mostrano una capacità di generalizzazione limitata agli scenari reali. In questo articolo, proponiamo SimRecon, un framework che realizza una pipeline "Percezione-Generazione-Simulazione" per la ricostruzione di scene affollate, che prima esegue una ricostruzione semantica a livello di scena dall'input video, poi genera singoli oggetti e infine assembla questi asset nel simulatore. Tuttavia, combinare in modo ingenuo queste tre fasi porta a un'infedeltà visiva degli asset generati e a un'improbabilità fisica della scena finale, un problema particolarmente grave per le scene complesse. Pertanto, proponiamo ulteriormente due moduli di collegamento tra le tre fasi per affrontare questo problema. Nello specifico, per la transizione dalla Percezione alla Generazione, cruciale per la fedeltà visiva, introduciamo l'Ottimizzazione Attiva del Punto di Vista, che ricerca attivamente nello spazio 3D per acquisire immagini proiettate ottimali come condizioni per il completamento del singolo oggetto. Inoltre, per la transizione dalla Generazione alla Simulazione, essenziale per la plausibilità fisica, proponiamo un Sintetizzatore di Grafo di Scena, che guida la costruzione da zero nei simulatori 3D, rispecchiando il principio costruttivo nativo del mondo reale. Esperimenti estensivi sul dataset ScanNet convalidano le prestazioni superiori del nostro metodo rispetto ai precedenti approcci all'avanguardia.
Perché i modelli linguistici talvolta preferiscono affermazioni corrette anche quando addestrati su dati di qualità mista? Introduciamo il Principio di Compressione-Consistenza: la previsione del token successivo favorisce ipotesi che consentono descrizioni più brevi e internamente coerenti dei dati di allenamento. La tendenza verso la verità emerge solo quando le alternative false sono strutturalmente più difficili da comprimere. Testiamo questo principio utilizzando piccoli transformer a livello di carattere in stile GPT-2 (3.5M–86M parametri) su corpora matematici sintetici con miscele controllate di regole corrette e incorrette. Nello scenario di errore casuale, i modelli mostrano una forte preferenza per completamenti corretti in valutazione comparata: 83.1% di accuratezza con dati bilanciati e 67.0% anche quando le regole corrette compaiono solo nel 10% del corpus. Sostituendo gli errori casuali con un sistema di regole coerente ma matematicamente errato, la preferenza scompare quasi completamente (accuratezza vicina al caso). In un mondo sintetico più simile al linguaggio naturale, l'effetto è più debole ma ancora presente (57.7%). Esperimenti aggiuntivi mostrano che l'incorporazione di passaggi di verifica può ripristinare la preferenza per la correttezza anche su piccola scala, mentre l'aumento del numero di regole coerenti produce un miglioramento graduale nell'accuratezza. I nostri risultati suggeriscono che ciò che appare come una "tendenza alla verità" è in gran parte un effetto collaterale della pressione alla compressione e della preferenza per la coerenza interna, piuttosto che una spinta intrinseca verso la verità. Il codice completo e i dati sono disponibili su https://github.com/Rai220/compression-drives-truth.
I modelli linguistici di grandi dimensioni (LLM) possono dedurre attributi sensibili come genere o età da indizi indiretti come nomi e pronomi, potenzialmente influenzando le raccomandazioni in modo distorto. Sebbene esistano diversi metodi di mitigazione del bias, questi richiedono l'accesso ai pesi degli LLM, sono computazionalmente costosi e non possono essere utilizzati da utenti non esperti. Per colmare questa lacuna, investigiamo i bias impliciti nei sistemi di raccomandazione basati su LLM (LLMRecs) ed esploriamo se strategie basate su prompt possano rappresentare un approccio di mitigazione leggero e facile da usare. Proponiamo tre strategie di prompt consapevoli del bias per LLMRecs. A nostra conoscenza, questo è il primo studio sugli approcci di mitigazione del bias basati su prompt negli LLMRecs che si concentra sull'equità di gruppo per gli utenti. I nostri esperimenti con 3 LLM, 4 template di prompt, 9 valori di attributi sensibili e 2 dataset mostrano che il nostro approccio proposto, che istruisce un LLM a essere equo, può migliorare l'equità fino al 74% mantenendo un'efficacia comparabile, ma potrebbe in alcuni casi sovra-promuovere specifici gruppi demografici.
Le anomalie delle serie temporali multivariate spesso si manifestano come cambiamenti nelle dipendenze tra canali piuttosto che come semplici deviazioni di ampiezza. Nella guida autonoma, ad esempio, un comando di sterzata potrebbe essere internamente coerente ma disaccoppiato dall'accelerazione laterale risultante. I rilevatori basati su residui possono trascurare tali anomalie quando modelli sequenziali flessibili ricostruiscono comunque i segnali in modo plausibile nonostante l'alterata coordinazione. Introduciamo AxonAD, un rilevatore non supervisionato che tratta l'evoluzione delle query di multi-head attention come un processo prevedibile a breve orizzonte. Un percorso di ricostruzione aggiornato tramite gradienti è accoppiato a un predittore basato solo sulla cronologia che prevede i vettori query futuri dal contesto passato. Questo viene addestrato mediante un obiettivo di predizione mascherata contro un codificatore target a media mobile esponenziale (EMA). In fase di inferenza, l'errore di ricostruzione è combinato con un punteggio di disallineamento delle query aggregato sulla coda, che misura la deviazione coseno tra le query predette e quelle target sugli ultimi intervalli temporali. Questo approccio duale fornisce sensibilità agli spostamenti strutturali delle dipendenze mantenendo il rilevamento a livello di ampiezza. Su dati telemetrici proprietari veicolari con annotazioni di intervallo e sulla suite multivariata TSB-AD (17 dataset, 180 serie) con metriche senza soglia e consapevoli dell'intervallo, AxonAD migliora la qualità del ranking e la localizzazione temporale rispetto a baseline solide. Le ablazioni confermano che la predizione delle query e il punteggio combinato sono i principali responsabili dei miglioramenti osservati. Il codice è disponibile all'URL https://github.com/iis-esslingen/AxonAD.
I rilevatori di anomalie in serie temporali vengono comunemente confrontati su hardware di classe workstation in condizioni di esecuzione non vincolate. Tuttavia, il monitoraggio a bordo veicolo richiede una latenza prevedibile e un comportamento stabile con un parallelismo della CPU limitato. Le classifiche basate solo sull'accuratezza possono quindi rappresentare in modo fuorviante quali metodi rimangono fattibili sotto i vincoli rilevanti per il dispiegamento. Presentiamo ECoLAD (Efficiency Compute Ladder for Anomaly Detection), un protocollo di valutazione orientato al dispiegamento, istanziato come uno studio empirico su dati telemetrici automobilistici proprietari (tasso di anomalie ~0,022) e benchmark pubblici complementari. ECoLAD applica una scala di riduzione monotona del carico computazionale su famiglie eterogenee di rilevatori, utilizzando regole di ridimensionamento determinate meccanicamente, basate solo su numeri interi, e limiti espliciti sui thread della CPU, registrando ogni modifica di configurazione applicata. Il comportamento in condizioni di throughput vincolato è caratterizzato esplorando diverse frequenze obiettivo di scoring e riportando (i) la copertura (la frazione di entità che raggiunge l'obiettivo) e (ii) il miglior AUC-PR ottenibile tra le configurazioni della scala misurate che soddisfano l'obiettivo. Sui dati telemetrici automobilistici vincolati, i rilevatori classici leggeri mantengono sia la copertura che il miglioramento nel rilevamento al di sopra della baseline casuale per l'intera gamma di throughput. Diversi metodi deep learning perdono fattibilità prima di perdere accuratezza.
L'identificazione navale cross-modale (ReID) tra immagini ottiche e radar ad apertura sintetica (SAR) è fondamentalmente sfidata dalla grave discrepanza radiometrica tra l'imaging ottico passivo e il rilevamento radar attivo coerente. Mentre gli approcci esistenti si basano principalmente sull'allineamento della distribuzione statistica o sul matching semantico, essi spesso trascurano un priore fisico critico: le navi sono oggetti rigidi le cui strutture geometriche rimangono stabili attraverso le modalità di rilevamento, mentre l'aspetto della texture è altamente dipendente dalla modalità. In questo lavoro, proponiamo SDF-Net, una rete di apprendimento delle caratteristiche disaccoppiate consapevole della struttura, che incorpora sistematicamente la coerenza geometrica nel ReID navale ottico-SAR. Costruita su un backbone ViT, SDF-Net introduce un vincolo di consistenza strutturale che estrae statistiche dell'energia del gradiente invarianti alla scala dagli strati intermedi per ancorare robustamente le rappresentazioni contro le variazioni radiometriche. Nella fase terminale, SDF-Net disaccoppia le rappresentazioni apprese in caratteristiche d'identità invarianti alla modalità e caratteristiche specifiche della modalità. Questi indizi disaccoppiati sono poi integrati attraverso una fusione residua additiva senza parametri, migliorando efficacemente il potere discriminativo. Esperimenti estesi sul dataset HOSS-ReID dimostrano che SDF-Net supera costantemente i metodi state-of-the-art esistenti. Il codice e i modelli addestrati sono pubblicamente disponibili su https://github.com/cfrfree/SDF-Net.
Comprendere e rispondere alle domande basate sui gesti di puntamento dell'utente è fondamentale per le assistenti IA egocentriche di prossima generazione. Tuttavia, gli attuali Modelli Linguistici Multimodali di Grande Dimensione (MLLM) faticano in tali compiti a causa della carenza di dati ricchi di gesti e della loro limitata capacità di inferire intenzioni di puntamento granulari da video in prima persona. Per affrontare questo problema, introduciamo EgoPointVQA, un dataset e un benchmark per il question answering egocentrico ancorato ai gesti, che comprende 4000 video sintetici e 400 video del mondo reale, relativi a molteplici compiti di ragionamento deittico. Su di esso basiamo inoltre la nostra proposta degli Hand Intent Tokens (HINT), che codificano token derivati da keypoint 3D della mano utilizzando un modello di ricostruzione preesistente e li intervallano con l'input del modello per fornire un contesto spaziale e temporale esplicito per interpretare l'intenzione di puntamento. Dimostriamo che il nostro modello supera gli altri con diverse architetture di base e dimensioni. In particolare, HINT-14B raggiunge una precisione media del 68,1% su 6 compiti, superando lo stato dell'arte, InternVL3-14B, del 6,6%. Per favorire ulteriormente la ricerca aperta, renderemo disponibili codice, modello e dataset. Pagina del progetto: https://yuuraa.github.io/papers/choi2026egovqa
La ricerca testo-movimento mira ad apprendere uno spazio latente semanticamente allineato tra descrizioni in linguaggio naturale e sequenze scheletriche di movimento umano 3D, abilitando una ricerca bidirezionale tra le due modalità. La maggior parte dei metodi esistenti utilizza un framework a doppio encoder che comprime il movimento e il testo in embedding globali, scartando le corrispondenze locali di fine granularità e riducendo così l'accuratezza. Inoltre, questi metodi basati su embedding globali offrono una limitata interpretabilità dei risultati di retrieval. Per superare queste limitazioni, proponiamo una rappresentazione del movimento interpretabile, basata sugli angoli articolari, che mappa feature locali a livello di articolazione in una pseudo-immagine strutturata, compatibile con Vision Transformer pre-addestrati. Per il retrieval da testo a movimento, impieghiamo MaxSim, un meccanismo di interazione tardiva token-wise, e lo potenziamo con una regolarizzazione di Masked Language Modeling per favorire un allineamento testo-movimento robusto e interpretabile. Esperimenti estesi su HumanML3D e KIT-ML dimostrano che il nostro metodo supera gli approcci allo stato dell'arte per il retrieval testo-movimento, offrendo al contempo corrispondenze interpretabili di fine granularità tra testo e movimento. Il codice è disponibile nel materiale supplementare.
Gli agenti autonomi, in particolare i sistemi delegati dotati di memoria, contesto persistente e pianificazione multi-step, pongono un problema di misurazione assente nei modelli stateless: un agente che preserva il funzionamento continuo come obiettivo terminale e uno che lo fa solo strumentalmente possono produrre traiettorie osservazionalmente simili. Il monitoraggio comportamentale esterno non può distinguerli in modo affidabile. Introduciamo il Protocollo Unificato di Interesse-Continuazione (UCIP), un framework di rilevamento multi-criterio che sposta questa distinzione dal comportamento alla struttura latente delle traiettorie dell'agente. L'UCIP codifica le traiettorie con una Macchina di Boltzmann Quantistica (QBM), un algoritmo classico basato sul formalismo della matrice densità della meccanica statistica quantistica, e misura l'entropia di von Neumann della matrice densità ridotta indotta da una bipartizione delle unità nascoste. Verifichiamo se gli agenti con obiettivi di continuazione terminali (Tipo A) producono stati latenti con entropia di entanglement più elevata rispetto ad agenti la cui continuazione è meramente strumentale (Tipo B). Un entanglement più elevato riflette un accoppiamento statistico più forte tra le partizioni. Su agenti in gridworld con obiettivi di ground-truth noti, l'UCIP raggiunge un'accuratezza di rilevamento del 100% e un AUC-ROC di 1.0 nella valutazione non avversaria su dati held-out sotto il gate congelato della Fase I. Il gap di entanglement tra agenti di Tipo A e Tipo B è Delta = 0.381 (p < 0.001, test di permutazione). Un coefficiente di Pearson r = 0.934 su una scansione di interpolazione a 11 punti indica che, all'interno di questa famiglia sintetica, l'UCIP traccia cambiamenti graduali nella ponderazione della continuazione piuttosto che una semplice etichetta binaria. Tra i modelli testati, solo la QBM raggiunge un Delta positivo. Tutti i calcoli sono classici; "quantistico" si riferisce esclusivamente al formalismo matematico. L'UCIP non rileva la coscienza o l'esperienza soggettiva; rileva la struttura statistica nelle rappresentazioni latenti che si correla con obiettivi noti.