Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni sbloccano opportunità senza precedenti per l'automazione delle interfacce grafiche (GUI). Tuttavia, rimane una sfida fondamentale: come acquisire efficientemente dati di addestramento di alta qualità mantenendo l'affidabilità delle annotazioni? Introduciamo una pipeline di addestramento auto-evolutiva alimentata dal Calibrated Step Reward System, che converte le traiettorie generate dal modello in segnali di addestramento affidabili attraverso una calibrazione a livello di traiettoria, raggiungendo un'accuratezza di annotazione >90% con un costo 10-100 volte inferiore. Sfruttando questa pipeline, presentiamo Step-GUI, una famiglia di modelli (4B/8B) che raggiunge prestazioni all'avanguardia nelle GUI (8B: 80.2% AndroidWorld, 48.5% OSWorld, 62.6% ScreenShot-Pro) mantenendo solide capacità generali. Mentre le capacità degli agenti GUI migliorano, la distribuzione pratica richiede interfacce standardizzate su dispositivi eterogenei proteggendo al contempo la privacy dell'utente. A tal fine, proponiamo GUI-MCP, il primo Model Context Protocol per l'automazione GUI con un'architettura gerarchica che combina operazioni atomiche di basso livello e la delega di compiti di alto livello a modelli specialistici locali, abilitando un'esecuzione ad alta privacy in cui i dati sensibili rimangono sul dispositivo. Infine, per valutare se gli agenti possono gestire un utilizzo quotidiano autentico, introduciamo AndroidDaily, un benchmark basato su modelli di utilizzo mobile del mondo reale con 3146 azioni statiche e 235 task end-to-end in scenari quotidiani ad alta frequenza (8B: statiche 89.91%, end-to-end 52.50%). Il nostro lavoro avanza lo sviluppo di agenti GUI pratici e dimostra un forte potenziale per la distribuzione nel mondo reale nelle interazioni digitali quotidiane.
L'efficienza, come sfida pratica cruciale per i sistemi agentivi e di ragionamento basati su LLM, è sempre più limitata dalla latenza intrinseca della decodifica autoregressiva (AR). La decodifica speculativa mitiga questo costo attraverso uno schema di bozza-verifica, tuttavia gli approcci esistenti si basano su modelli di bozza AR (detti "drafters"), che introducono due problemi fondamentali: (1) l'accumulo di incertezza passo-passo porta a un collasso progressivo della fiducia tra il modello target e il drafter, e (2) la decodifica intrinsecamente sequenziale dei drafters AR. Insieme, questi fattori causano accelerazioni limitate. In questo articolo, dimostriamo che un drafter basato su un modello di linguaggio di grandi dimensioni a diffusione (dLLM) può superare naturalmente questi problemi grazie alla sua modellazione probabilistica fondamentalmente diversa e alla sua strategia di decodifica parallela efficiente. Basandoci su questa intuizione, introduciamo DEER, un framework efficiente di decodifica speculativa che genera bozze con la diffusione e verifica con modelli AR. Per abilitare una generazione di bozze di alta qualità, DEER impiega una pipeline di addestramento in due fasi per allineare i drafters basati su dLLM con il modello AR target, e adotta ulteriormente una decodifica a singolo passo per generare segmenti di bozza lunghi. Gli esperimenti mostrano che DEER raggiunge lunghezze di accettazione della bozza fino a 32 token, superando di gran lunga i 10 token ottenuti da EAGLE-3. Inoltre, su HumanEval con Qwen3-30B-A3B, DEER raggiunge un'accelerazione di 5.54x, mentre EAGLE-3 ne raggiunge solo 2.41x. Codice, modello, demo, ecc. saranno disponibili su https://czc726.github.io/DEER/
La generazione multi-token è emersa come un paradigma promettente per accelerare l'inferenza di grandi modelli basati su transformer. Gli sforzi recenti esplorano principalmente modelli linguistici di grandi dimensioni di tipo diffusivo (dLLM) per il decoding parallelo, al fine di ridurre la latenza di inferenza. Per raggiungere una qualità di generazione paragonabile ai modelli autoregressivi (AR), molte tecniche adattano modelli AR in dLLM per abilitare il decoding parallelo. Tuttavia, queste tecniche soffrono di un limitato guadagno in velocità rispetto ai modelli AR a causa di una discrepanza tra pre-addestramento e post-addestramento. Nello specifico, la distribuzione dei dati mascherati nel post-addestramento si discosta significativamente dalla distribuzione dei dati del mondo reale osservata durante il pre-addestramento, e i dLLM si basano su un'attenzione bidirezionale, che confligge con il principio causale appreso durante il pre-addestramento e ostacola l'integrazione del riutilizzo esatto della cache KV. Per affrontare questo problema, introduciamo Jacobi Forcing, un paradigma di distillazione progressiva in cui i modelli vengono addestrati sulle proprie traiettorie di decoding parallelo generate, trasformando gradualmente i modelli AR in decoder paralleli efficienti preservando al contempo la loro proprietà di inferenza causale pre-addestrata. I modelli addestrati sotto questo paradigma, denominati Jacobi Forcing Model, raggiungono un'accelerazione in tempo reale di 3.8x su benchmark di codifica e matematica con una perdita minima di prestazioni. Sulla base delle caratteristiche della traiettoria dei Jacobi Forcing Models, introduciamo il multi-block decoding con rejection recycling, che consente fino a 4.5x token accettati in più per iterazione e un'accelerazione in tempo reale di quasi 4.0x, scambiando efficacemente potenza di calcolo aggiuntiva per una minore latenza di inferenza. Il nostro codice è disponibile all'indirizzo https://github.com/hao-ai-lab/JacobiForcing.
Gli attuali modelli linguistici multimodali di grandi dimensioni possiedono forti capacità percettive e di ragionamento, tuttavia gli elevati requisiti computazionali e di memoria ne rendono difficile il deployment diretto su ambienti embedded. Sebbene i modelli con pochi parametri stiano progressivamente acquisendo solide capacità generali, gli encoder Vision Transformer (ViT) standard rimangono un collo di bottiglia critico, soffrendo di latenza eccessiva e consumo di memoria elevato durante l'elaborazione di input ad alta risoluzione. Per affrontare queste sfide, presentiamo HyperVL, un modello linguistico multimodale efficiente ottimizzato per l'inferenza on-device. HyperVL adotta una strategia di image-tiling per limitare il picco di utilizzo della memoria e incorpora due tecniche innovative: (1) un Visual Resolution Compressor (VRC) che predice adattivamente le risoluzioni di codifica ottimali per eliminare il calcolo ridondante, e (2) il Dual Consistency Learning (DCL), che allinea encoder ViT multi-scala in un framework unificato, consentendo commutazione dinamica tra branch visivi sotto un unico LLM condiviso. Esperimenti estensivi dimostrano che HyperVL raggiunge prestazioni state-of-the-art tra modelli di dimensioni comparabili su molteplici benchmark. Inoltre, riduce significativamente la latenza e il consumo energetico su dispositivi mobili reali, dimostrandone la praticità per l'inferenza multimodale on-device.
Approcci recenti di apprendimento per rinforzo (RL) come il GRPO supervisionato dagli outcome hanno fatto progredire il ragionamento a catena del pensiero nei Modelli Linguaggio-Visione (VLM), ma permangono problemi chiave: (i) la dipendenza da annotazioni manuali costose e rumorose o da verificatori esterni; (ii) schemi di ricompensa piatti e sparsi nel GRPO; e (iii) l'incoerenza logica tra il ragionamento di una catena e la sua risposta finale. Presentiamo Puzzle Curriculum GRPO (PC-GRPO), una ricetta senza supervisione per il RL con Ricompense Verificabili (RLVR) che potenzia il ragionamento visivo nei VLM senza annotazioni o verificatori esterni. PC-GRPO sostituisce le etichette con tre ambienti puzzle auto-supervisionati: PatchFit, Rotazione (con ricompense binarie) e Puzzle (con crediti parziali graduati che mitigano la sparsità delle ricompense). Per contrastare le ricompense piatte e i vantaggi relativi di gruppo evanescenti, introduciamo un curriculum consapevole della difficoltà che pondera dinamicamente i campioni e raggiunge il picco a difficoltà media. Monitoriamo inoltre la Coerenza Ragionamento-Risposta (RAC) durante il post-addestramento: riflettendo i risultati riportati per il GRPO standard negli LLM, la RAC tipicamente aumenta inizialmente per poi degradare; il nostro curriculum ritarda questo declino, e schemi di ricompensa che impongono coerenza aumentano ulteriormente la RAC. La RAC è correlata con l'accuratezza a valle. Su diversi benchmark e su architetture Qwen-7B e Qwen-3B, PC-GRPO migliora la qualità del ragionamento, la stabilità dell'addestramento e l'accuratezza sul compito finale, offrendo un percorso pratico verso un post-addestramento RL scalabile, verificabile e interpretabile per i VLM.
I transformer universali (UT) sono ampiamente utilizzati per compiti di ragionamento complesso come ARC-AGI e Sudoku, ma le fonti specifiche dei loro miglioramenti prestazionali rimangono poco esplorate. In questo lavoro, analizziamo sistematicamente le varianti degli UT e dimostriamo che i miglioramenti su ARC-AGI derivano principalmente dal bias induttivo ricorrente e dalle forti componenti non lineari del Transformer, piuttosto che da elaborati design architetturali. Sulla base di questa scoperta, proponiamo il Modello di Ragionamento Universale (URM), che potenzia l'UT con convoluzioni corte e backpropagation troncata. Il nostro approccio migliora sostanzialmente le prestazioni di ragionamento, raggiungendo lo stato dell'arte del 53,8% pass@1 su ARC-AGI 1 e del 16,0% pass@1 su ARC-AGI 2. Il nostro codice è disponibile all'indirizzo https://github.com/zitian-gao/URM.
I recenti modelli generativi visivi spesso incontrano difficoltà nel mantenere la coerenza durante l'editing delle immagini a causa della natura intrinsecamente vincolata delle immagini raster, dove tutti gli elementi visivi sono fusi in un'unica superficie. Al contrario, gli strumenti di progettazione professionale utilizzano rappresentazioni a livelli, consentendo modifiche isolate preservando la coerenza. Motivati da questo approccio, proponiamo Qwen-Image-Layered, un modello diffusion end-to-end che scompone un'immagine RGB singola in multipli livelli RGBA semanticamente separati, abilitando un'editabilità intrinseca in cui ogni livello RGBA può essere manipolato indipendentemente senza influenzare gli altri contenuti. Per supportare la scomposizione con numero variabile di livelli, introduciamo tre componenti chiave: (1) un RGBA-VAE per unificare le rappresentazioni latenti di immagini RGB e RGBA; (2) un'architettura VLD-MMDiT (Variable Layers Decomposition MMDiT) in grado di decomporre un numero variabile di livelli immagine; e (3) una strategia di Addestramento Multi-fase per adattare un modello preaddestrato di generazione di immagini a un decompositore di immagini multistrato. Inoltre, per ovviare alla carenza di immagini multistrato di alta qualità per l'addestramento, abbiamo sviluppato una pipeline per estrarre e annotare immagini multistrato da documenti Photoshop (PSD). Gli esperimenti dimostrano che il nostro metodo supera significativamente gli approcci esistenti in termini di qualità della scomposizione e stabilisce un nuovo paradigma per l'editing coerente delle immagini. Il nostro codice e i modelli sono rilasciati su https://github.com/QwenLM/Qwen-Image-Layered.
Proponiamo IC-Effect, un framework basato su DiT e guidato da istruzioni per l'editing VFX video few-shot, che sintetizza effetti complessi (ad es. fiamme, particelle e personaggi cartoon) preservando rigorosamente la coerenza spaziale e temporale. L'editing VFX video è estremamente impegnativo poiché gli effetti iniettati devono fondersi perfettamente con lo sfondo, lo sfondo deve rimanere completamente invariato e i pattern degli effetti devono essere appresi efficientemente da dati accoppiati limitati. Tuttavia, i modelli di editing video esistenti non soddisfano questi requisiti. IC-Effect utilizza il video sorgente come condizione contestuale pulita, sfruttando la capacità di apprendimento contestuale dei modelli DiT per ottenere una preservazione precisa dello sfondo e un'iniezione naturale degli effetti. Una strategia di addestramento in due stadi, composta da un'adattamento generale all'editing seguito da un apprendimento specifico per effetto tramite Effect-LoRA, garantisce un forte rispetto delle istruzioni e una modellazione robusta degli effetti. Per migliorare ulteriormente l'efficienza, introduciamo una tokenizzazione spaziotemporale sparsa, che consente alta fedeltà con un calcolo sostanzialmente ridotto. Rilasciamo inoltre un dataset di editing VFX accoppiato che copre 15 stili visivi di alta qualità. Esperimenti estensivi mostrano che IC-Effect fornisce un editing VFX di alta qualità, controllabile e temporalmente coerente, aprendo nuove possibilità per la creazione video.
La comprensione spaziale su input visivo continuo è cruciale affinché i MLLM evolvano in assistenti generici per ambienti fisici. Tuttavia, manca ancora un benchmark completo che valuti in modo olistico i progressi verso questo obiettivo. In questo lavoro presentiamo MMSI-Video-Bench, un benchmark completamente annotato da esseri umani per l'intelligenza spaziale basata su video nei MLLM. Esso opera attraverso un framework a quattro livelli - Percezione, Pianificazione, Previsione e Ragionamento Cross-Video - mediante 1.106 quesiti basati su 1.278 clip provenienti da 25 dataset e video interni. Ogni elemento è stato progettato e revisionato con cura da esperti di visione 3D, corredato da ragionamenti esplicativi per garantire un ancoraggio preciso e non ambiguo. Sfruttando le sue fonti dati diversificate e la copertura olistica dei compiti, MMSI-Video-Bench supporta anche tre sotto-benchmark orientati al dominio (Bench di Percezione di Scene Indoor, Bench Robotico e Bench di Grounding) per valutazioni mirate delle capacità. Abbiamo valutato 25 MLLM open-source e proprietari di alto livello, rivelando un divario sorprendente uomo-IA: molti modelli performano quasi a livello casuale, e il miglior modello di ragionamento è in ritardo di quasi il 60% rispetto agli umani. Inoltre, abbiamo riscontrato che i modelli ottimizzati spazialmente non generalizzano efficacemente sul nostro benchmark. L'analisi granulare degli errori rivela fallimenti sistematici nel ragionamento geometrico, nel grounding del movimento, nella previsione a lungo termine e nella corrispondenza cross-video. Dimostriamo inoltre che le tipiche strategie di campionamento di frame si trasferiscono scarsamente sul nostro benchmark intensivo di ragionamento, e che né gli indizi spaziali 3D né il prompting a catena di pensiero producono miglioramenti significativi. Ci aspettiamo che il nostro benchmark costituisca un solido banco di prova per far avanzare l'intelligenza spaziale basata su video.
L'uso improprio delle tecnologie di generazione video basate sull'intelligenza artificiale ha sollevato serie preoccupazioni sociali, evidenziando l'urgente necessità di rilevatori affidabili per video generati da IA. Tuttavia, la maggior parte dei metodi esistenti si limita alla classificazione binaria e manca delle spiegazioni necessarie per l'interpretazione umana. In questo articolo presentiamo Skyra, un modello linguistico multimodale di grandi dimensioni (MLLM) specializzato, che identifica gli artefatti visivi percepibili dall'uomo nei video generati da IA e li utilizza come evidenza concreta sia per il rilevamento che per la spiegazione. Per supportare questo obiettivo, abbiamo costruito ViF-CoT-4K per l'addestramento supervisionato fine (SFT), che rappresenta il primo dataset su larga scala di artefatti di video generati da IA con annotazioni umane granulari. Successivamente sviluppiamo una strategia di addestramento in due fasi che migliora sistematicamente la percezione spazio-temporale degli artefatti, la capacità esplicativa e l'accuratezza di rilevamento del nostro modello. Per valutare in modo completo Skyra, introduciamo ViF-Bench, un benchmark comprendente 3.000 campioni di alta qualità generati da oltre dieci generatori video all'avanguardia. Esperimenti estensivi dimostrano che Skyra supera i metodi esistenti su molteplici benchmark, mentre la nostra valutazione fornisce spunti preziosi per far progredire il rilevamento spiegabile dei video generati da IA.
I modelli generativi possono sintetizzare contenuti altamente realistici, i cosiddetti deepfake, che vengono già utilizzati su larga scala per minare l'autenticità dei media digitali. I metodi attuali di rilevamento dei deepfake sono inaffidabili per due ragioni: (i) distinguere i contenuti non autentici a posteriori è spesso impossibile (ad esempio, con campioni memorizzati), portando a un tasso di falsi positivi (FPR) illimitato; e (ii) il rilevamento manca di robustezza, poiché gli avversari possono adattarsi ai rilevatori noti con un'accuratezza quasi perfetta utilizzando risorse computazionali minime. Per affrontare queste limitazioni, proponiamo un framework di risintesi per determinare se un campione è autentico o se la sua autenticità può essere plausibilmente negata. Forniamo due contributi chiave concentrandoci sull'impostazione ad alta precisione e basso richiamo contro avversari efficienti (cioè con risorse computazionali limitate). In primo luogo, dimostriamo che il nostro metodo di risintesi calibrato è l'approccio più affidabile per verificare i campioni autentici mantenendo FPR bassi e controllabili. In secondo luogo, mostriamo che il nostro metodo raggiunge una robustezza adversarial contro avversari efficienti, mentre i metodi precedenti sono facilmente elusi con budget computazionali identici. Il nostro approccio supporta multiple modalità e sfrutta tecniche di inversione all'avanguardia.
In quanto esseri umani, siamo ragionatori naturali a orizzonte variabile, ovvero possiamo decidere se scorrere iterativamente video lunghi o guardarne di brevi per intero quando necessario per un dato compito. Con questo in mente, ci si aspetterebbe che i modelli di ragionamento video ragionino flessibilmente su diverse durate. Tuttavia, i modelli allo stato dell'arte sono ancora addestrati a prevedere le risposte in un unico passaggio mentre elaborano un gran numero di fotogrammi, analogamente a guardare un intero video lungo, richiedendo risorse significative. Ciò solleva la questione: è possibile sviluppare sistemi di ragionamento video a orizzonte variabile performanti? Ispirati dal comportamento umano, proponiamo innanzitutto SAGE, un sistema agente che esegue ragionamenti a più passaggi su video lunghi gestendo al contempo problemi più semplici in un unico turno. In secondo luogo, introduciamo una pipeline semplificata per la generazione di dati sintetici utilizzando Gemini-2.5-Flash per addestrare l'orchestratore, SAGE-MM, che è il cuore di SAGE. Proponiamo inoltre un'efficace ricetta di post-addestramento con RL essenziale per infondere la capacità di ragionamento a orizzonte variabile in SAGE-MM. In terzo luogo, curiamo SAGE-Bench con una durata media superiore a 700 secondi per valutare la capacità di ragionamento video in casi d'uso reali dell'intrattenimento. Infine, convalidiamo empiricamente l'efficacia del nostro sistema, dei dati e della ricetta RL, osservando miglioramenti notevoli fino al 6,1% su compiti di ragionamento video a risposta aperta, nonché un impressionante miglioramento dell'8,2% su video più lunghi di 10 minuti.
Nella recente ricerca multimodale, il paradigma diffusion è emerso come una valida alternativa al paradigma autoregressivo (AR), grazie ai suoi vantaggi unici nel processo di decodifica. Tuttavia, a causa delle limitazioni intrinseche del modello linguistico diffusion di base, le prestazioni del modello di linguaggio visivo diffusion (dVLM) rimangono significativamente inferiori rispetto a quelle dei modelli mainstream. Ciò solleva una domanda semplice ma fondamentale: è possibile costruire dVLM basandosi su potenti modelli AR esistenti? In risposta, proponiamo DiffusionVL, una famiglia di dVLM che può essere tradotta da qualsiasi potente modello AR. Attraverso una semplice messa a punto, adattiamo con successo modelli pre-addestrati AR al paradigma diffusion. Questo approccio porta a due osservazioni chiave: (1) Il cambio di paradigma dai modelli multimodali basati su AR alla diffusion è straordinariamente efficace. (2) Anche la conversione diretta di un modello linguistico AR in un dVLM è fattibile, raggiungendo prestazioni competitive con la sintonizzazione su istruzioni visive di tipo LLaVA. Inoltre, introduciamo nei dVLM una progettazione a decodifica a blocchi che supporta generazione di lunghezza arbitraria e il riutilizzo della cache KV, ottenendo un significativo aumento della velocità di inferenza. Abbiamo condotto un ampio numero di esperimenti. Nonostante l'addestramento con meno del 5% dei dati richiesti dai metodi precedenti, DiffusionVL raggiunge un miglioramento completo delle prestazioni – un guadagno del 34.4% sul benchmark MMMU-Pro (vision) e del 37.5% sul benchmark MME (Cog.) – unito a un raddoppio della velocità di inferenza. Il modello e il codice sono rilasciati su https://github.com/hustvl/DiffusionVL.
L'apprendimento per rinforzo è diventato essenziale per potenziare le capacità di ragionamento dei grandi modelli linguistici, tuttavia gli attuali meccanismi di esplorazione rimangono fondamentalmente disallineati rispetto a come questi modelli apprendono realmente. I bonus entropici e i comparatori semantici esterni incoraggiano una variazione superficiale ma non offrono alcuna garanzia che i percorsi campionati differiscano nelle direzioni di aggiornamento che plasmano l'ottimizzazione. Proponiamo G2RL, un framework di apprendimento per rinforzo guidato dal gradiente in cui l'esplorazione è guidata non da euristiche esterne, ma dalla geometria di aggiornamento del primo ordine del modello stesso. Per ogni risposta, G2RL costruisce una caratteristica a livello di sequenza dalla sensibilità dello strato finale del modello, ottenibile a costo trascurabile da un passaggio in avanti standard, e misura come ogni traiettoria ridisegnerebbe la policy confrontando queste caratteristiche all'interno di un gruppo campionato. I percorsi che introducono direzioni di gradiente nuove ricevono un moltiplicatore di ricompensa limitato, mentre gli aggiornamenti ridondanti o fuori dal manifold vengono sminuiti, producendo un segnale di esplorazione auto-referenziale che è naturalmente allineato con la stabilità di tipo PPO e il controllo KL. Su benchmark di matematica e ragionamento generale (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) sui modelli Qwen3 base da 1.7B e 4B, G2RL migliora costantemente le metriche pass@1, maj@16 e pass@k rispetto ai metodi GRPO basati sull'entropia e ai metodi basati su embedding esterni. Analizzando la geometria indotta, scopriamo che G2RL espande l'esplorazione in direzioni di gradiente sostanzialmente più ortogonali e spesso opposte, mantenendo al contempo la coerenza semantica, rivelando che lo spazio di aggiornamento intrinseco di una policy fornisce una base di gran lunga più fedele ed efficace per guidare l'esplorazione nell'apprendimento per rinforzo dei grandi modelli linguistici.
I recenti lavori sul riconoscimento di entità nominate (NER) multilingue hanno dimostrato che i grandi modelli linguistici (LLM) possono fornire una supervisione sintetica efficace, tuttavia tali dataset sono per lo più apparsi come sottoprodotti di esperimenti più ampi piuttosto che come risorse sistematiche e riutilizzabili. Introduciamo FiNERweb, una pipeline per la creazione di dataset che scala il paradigma insegnante-studente a 91 lingue e 25 sistemi di scrittura. Basandoci su FineWeb-Edu, il nostro approccio addestra modelli di regressione per identificare passaggi rilevanti per il NER e li annota con LLM multilingue, producendo circa 225.000 passaggi con 235.000 etichette di entità distinte. I nostri esperimenti mostrano che il modello di regressione raggiunge un punteggio F1 superiore a 84 e che i modelli addestrati su FiNERweb ottengono prestazioni comparabili o migliori in contesti di trasferimento zero-shot per inglese, thailandese e swahili, nonostante siano addestrati su 19 volte meno dati rispetto a baseline solide. Inoltre, valutiamo la qualità dell'annotazione utilizzando LLM come giudice e osserviamo punteggi costantemente elevati sia per la fedeltà (3,99 su 5) che per la completezza (4,05 su 5), indicando annotazioni affidabili e informative. Inoltre, rilasciamo il dataset con etichette in inglese e set di etichette tradotte nelle rispettive lingue target, poiché osserviamo che le prestazioni dei modelli allo stato dell'arte attuali diminuiscono da 0,02 a 0,09 punti F1 quando valutati utilizzando etichette nella lingua target invece che in inglese. Rilasciamo FiNERweb insieme a tutti gli artefatti correlati alla comunità di ricerca per facilitare un addestramento insegnante-studente più efficace per il riconoscimento di entità nominate multilingue.
I modelli linguistici di grandi dimensioni (LLM) vengono sempre più utilizzati per generare dataset sintetici per la valutazione e l'addestramento di modelli downstream. Tuttavia, lavori precedenti hanno osservato che tali dati generati mancano di diversità. In questo articolo, proponiamo Voyager, un nuovo approccio principiato per generare dataset diversificati. Il nostro approccio è iterativo e ottimizza direttamente una quantità matematica che massimizza la diversità del dataset utilizzando il formalismo dei processi puntuali determinantal. Inoltre, il nostro metodo non richiede addestramento, è applicabile a modelli closed-source e scalabile. Oltre a fornire una giustificazione teorica del funzionamento del nostro metodo, dimostriamo anche attraverso esperimenti completi che Voyager supera significativamente i popoli approcci baseline, fornendo un miglioramento della diversità di 1,5-3 volte.
I modelli di diffusione video autoregressivi mostrano potenziale per la simulazione del mondo, ma sono vulnerabili al bias di esposizione derivante dalla discrepanza tra addestramento e test. Sebbene lavori recenti affrontino il problema mediante post-addestramento, questi generalmente si basano su un modello insegnante bidirezionale o su un discriminatore online. Per ottenere una soluzione end-to-end, introduciamo Resampling Forcing, un framework senza insegnante che consente l'addestramento di modelli video autoregressivi da zero e su larga scala. Elemento centrale del nostro approccio è uno schema di auto-ricampionamento che simula gli errori del modello al momento dell'inferenza sui frame storici durante l'addestramento. Condizionato da questi frame storici degradati, una maschera causale sparsa impone la causalità temporale consentendo al contempo un addestramento parallelo con una loss di diffusione a livello di frame. Per facilitare una generazione efficiente di sequenze lunghe, introduciamo inoltre l'instradamento della cronologia (history routing), un meccanismo privo di parametri che recupera dinamicamente i k frame storici più rilevanti per ogni query. Gli esperimenti dimostrano che il nostro approccio raggiunge prestazioni comparabili ai baseline basati sulla distillazione, mostrando al contempo una superiore coerenza temporale su video più lunghi grazie all'addestramento su sequenze di lunghezza nativa.
La guida autonoma si è a lungo basata su pipeline modulari "Percezione-Decisione-Azione", in cui interfacce progettate manualmente e componenti basati su regole spesso falliscono in scenari complessi o a coda lunga. Il loro design a cascata propaga ulteriormente gli errori di percezione, degradando la pianificazione e il controllo a valle. I modelli Vision-Action (VA) affrontano alcune limitazioni apprendendo mappature dirette dagli input visivi alle azioni, ma rimangono opachi, sensibili agli shift di distribuzione e privi di ragionamenti strutturati o capacità di seguire istruzioni. I recenti progressi nei Large Language Model (LLM) e nell'apprendimento multimodale hanno motivato l'emergere di framework Vision-Language-Action (VLA), che integrano la percezione con processi decisionali basati sul linguaggio. Unificando la comprensione visiva, il ragionamento linguistico e output azionabili, i VLA offrono un percorso verso politiche di guida più interpretabili, generalizzabili e allineate con l'umano. Questo lavoro fornisce una caratterizzazione strutturata del panorama VLA emergente per la guida autonoma. Tracciamo l'evoluzione dai primi approcci VA ai moderni framework VLA e organizziamo i metodi esistenti in due paradigmi principali: VLA End-to-End, che integra percezione, ragionamento e pianificazione in un unico modello, e VLA Dual-System, che separa la deliberazione lenta (tramite VLM) dall'esecuzione rapida e critica per la sicurezza (tramite pianificatori). All'interno di questi paradigmi, distinguiamo ulteriormente sottoclassi come generatori di azioni testuali vs. numerici e meccanismi di guida espliciti vs. impliciti. Riassumiamo inoltre i dataset e i benchmark rappresentativi per valutare i sistemi di guida basati su VLA e evidenziamo le principali sfide e direzioni aperte, inclusi robustezza, interpretabilità e fedeltà alle istruzioni. Nel complesso, questo lavoro mira a stabilire una base coerente per far avanzare sistemi di guida autonoma compatibili con l'umano.
I recenti progressi nella generazione video sono stati notevoli, consentendo ai modelli di produrre video visivamente accattivanti con audio sincronizzato. Sebbene i benchmark esistenti per la generazione video forniscano metriche complete per la qualità visiva, mancano di valutazioni convincenti per la generazione audio-video, specialmente per i modelli che mirano a generare output audio-video sincronizzati. Per colmare questa lacuna, introduciamo VABench, un framework di benchmark completo e multidimensionale progettato per valutare sistematicamente le capacità della generazione audio-video sincrona. VABench comprende tre tipologie principali di task: testo-audio-video (T2AV), immagine-audio-video (I2AV) e generazione audio-video stereo. Stabilisce inoltre due moduli di valutazione principali che coprono 15 dimensioni. Queste dimensioni valutano specificamente le similarità a coppie (testo-video, testo-audio, video-audio), la sincronizzazione audio-video, la coerenza labiale-voce e coppie di domande e risposte (QA) audio e video accuratamente selezionate, tra gli altri aspetti. Inoltre, VABench copre sette categorie di contenuto principali: animali, suoni umani, musica, suoni ambientali, suoni fisici sincroni, scene complesse e mondi virtuali. Forniamo un'analisi sistematica e una visualizzazione dei risultati della valutazione, con l'obiettivo di stabilire un nuovo standard per valutare i modelli di generazione video con capacità audio sincrone e promuovere il progresso completo del settore.
A livello più elementare, i pixel sono la fonte delle informazioni visive attraverso cui percepiamo il mondo. I pixel contengono informazioni a tutti i livelli, che spaziano da attributi di basso livello a concetti di alto livello. Gli autoencoder rappresentano un paradigma classico e di lunga data per l'apprendimento di rappresentazioni a partire da pixel o altri input grezzi. In questo lavoro, dimostriamo che l'apprendimento auto-supervisionato basato su autoencoder rimane competitivo oggi e può produrre rappresentazioni solide per task a valle, pur rimanendo semplice, stabile ed efficiente. Il nostro modello, denominato in codice "Pixio", è un autoencoder mascherato (MAE) potenziato con task di pre-addestramento più impegnativi e architetture più capaci. Il modello è addestrato su 2 miliardi di immagini raccolte dal web con una strategia di auto-curation che richiede una curatela umana minima. Pixio fornisce prestazioni competitive su un'ampia gamma di task a valle in contesti reali, tra cui stima della profondità monoculare (ad esempio, Depth Anything), ricostruzione 3D feed-forward (ovvero, MapAnything), segmentazione semantica e apprendimento robotico, superando o eguagliando DINOv3 addestrato su scale simili. I nostri risultati suggeriscono che l'apprendimento auto-supervisionato nello spazio dei pixel può rappresentare un'alternativa promettente e un complemento agli approcci nello spazio latente.
La rapida evoluzione dei modelli di generazione testo-immagine ha rivoluzionato la creazione di contenuti visivi. Sebbene prodotti commerciali come Nano Banana Pro abbiano attirato notevole attenzione, il loro potenziale come risolutori generalisti per le tradizionali sfide di visione artificiale di basso livello rimane in gran parte inesplorato. In questo studio, indaghiamo la questione cruciale: Nano Banana Pro è un tuttofare per la visione di basso livello? Abbiamo condotto una valutazione zero-shot completa su 14 diverse attività di basso livello, coprendo 40 dataset diversificati. Utilizzando semplici prompt testuali senza ottimizzazione fine, abbiamo confrontato Nano Banana Pro con modelli specialisti all'avanguardia. La nostra analisi estensiva rivela una netta dicotomia prestazionale: sebbene Nano Banana Pro dimostri una qualità visiva soggettiva superiore, spesso allucinando dettagli plausibili ad alta frequenza che superano i modelli specialisti, rimane indietro nelle metriche quantitative tradizionali basate su riferimento. Attribuiamo questa discrepanza all'intrinseca stocasticità dei modelli generativi, che faticano a mantenere la rigorosa coerenza a livello di pixel richiesta dalle metriche convenzionali. Questo rapporto identifica Nano Banana Pro come un valido contendente zero-shot per le attività di visione di basso livello, sottolineando però che raggiungere l'alta fedeltà dei specialisti di dominio rimane un ostacolo significativo.
Introduciamo FrontierCS, un benchmark di 156 problemi aperti in diverse aree dell'informatica, progettato e revisionato da esperti, inclusi dottorandi in informatica e partecipanti e creatori di problemi di alto livello nel competitive programming. A differenza dei benchmark esistenti che si concentrano su compiti con soluzioni ottimali note, FrontierCS mira a problemi per i quali la soluzione ottimale è sconosciuta, ma la qualità di una soluzione può essere valutata oggettivamente. I modelli risolvono questi compiti implementando programmi eseguibili anziché fornendo una risposta diretta. FrontierCS include problemi algoritmici, spesso varianti NP-difficili di problemi di competitive programming con valutazione parziale oggettiva, e problemi di ricerca con la stessa caratteristica. Per ogni problema forniamo una soluzione di riferimento esperta e un valutatore automatico. Combinando progettazione aperta, progresso misurabile e curatela esperta, FrontierCS fornisce un benchmark all'avanguardia nella difficoltà informatica. Empiricamente, rileviamo che i modelli di ragionamento di frontiera sono ancora molto indietro rispetto agli esperti umani sia nelle tracce algoritmiche che in quelle di ricerca, che l'aumentare del budget computazionale di ragionamento da solo non colma questo divario, e che i modelli spesso sovra-ottimizzano la generazione di codice semplicemente funzionante invece di scoprire algoritmi e progettazioni di sistema di alta qualità.
I costi computazionali e di memoria associati all'espansione della finestra contestuale degli LLM ne limitano severamente la scalabilità. Una soluzione degna di nota è la compressione visivo-testuale (VTC), esemplificata da framework come DeepSeek-OCR e Glyph, che convertono testi lunghi in dense rappresentazioni visive 2D, ottenendo così rapporti di compressione dei token di 3x-20x. Tuttavia, l'impatto di questa elevata densità informativa sulle capacità fondamentali di comprensione del contesto lungo dei modelli visione-linguaggio (VLM) rimane poco indagato. Per colmare questa lacuna, introduciamo il primo benchmark per la VTC e valutiamo sistematicamente le prestazioni dei VLM in tre scenari di comprensione del contesto lungo: VTC-Retrieval, che valuta la capacità del modello di recuperare e aggregare informazioni; VTC-Reasoning, che richiede ai modelli di inferire associazioni latenti per localizzare fatti con sovrapposizione lessicale minima; e VTC-Memory, che misura la capacità di risposta a domande all'interno di una memoria dialogica a lungo termine. Inoltre, istituiamo il VTCBench-Wild per simulare scenari di input diversificati. Valutiamo in modo completo i principali modelli open-source e proprietari sui nostri benchmark. I risultati indicano che, nonostante siano in grado di decodificare bene le informazioni testuali (ad es., OCR), la maggior parte dei VLM mostra una sorprendentemente scarsa capacità di comprensione del contesto lungo con informazioni compresse tramite VTC, fallendo nel cogliere associazioni o dipendenze lunghe nel contesto. Questo studio fornisce una comprensione approfondita della VTC e funge da base per la progettazione di VLM più efficienti e scalabili.
Gli agenti basati su Large Language Model (LLM) vengono sempre più impiegati in ambienti che generano contesti massivi e dinamici. Tuttavia, rimane un collo di bottiglia critico: sebbene gli agenti abbiano accesso a questo contesto, i loro prompt statici mancano dei meccanismi per gestirlo efficacemente, portando a ricorrenti fallimenti Correttivi e di Miglioramento. Per colmare questa lacuna capacitiva, introduciamo SCOPE (Self-evolving Context Optimization via Prompt Evolution). SCOPE inquadra la gestione del contesto come un problema di ottimizzazione online, sintetizzando linee guida dalle tracce di esecuzione per far evolvere automaticamente il prompt dell'agente. Proponiamo un meccanismo a Doppio Flusso (Dual-Stream) che bilancia la specificità tattica (risolvere errori immediati) con la generalità strategica (far evolvere principi a lungo termine). Inoltre, introduciamo l'Esplorazione Guidata dalla Prospettiva (Perspective-Driven Exploration) per massimizzare la copertura strategica, aumentando la probabilità che l'agente possieda la strategia corretta per qualsiasi compito assegnato. Esperimenti sul benchmark HLE mostrano che SCOPE migliora i tassi di successo dei task dal 14,23% al 38,64% senza intervento umano. Rendiamo pubblico il nostro codice all'indirizzo https://github.com/JarvisPei/SCOPE.
L'Automatic Identification System (AIS) consente una sorveglianza marittima basata sui dati, ma soffre di problemi di affidabilità e di intervalli irregolari. Affrontiamo la stima della destinazione delle navi utilizzando dati AIS a scala globale proponendo un approccio differenziato che riformula le lunghe traiettorie porto-porto come una struttura sequenziale annidata. Utilizzando griglie spaziali, questo metodo mitiga il bias spazio-temporale preservando al contempo una risoluzione dettagliata. Introduciamo una nuova architettura di deep learning, WAY, progettata per elaborare queste traiettorie riformulate per la stima della destinazione a lungo termine, con giorni o settimane di anticipo. WAY comprende uno strato di rappresentazione della traiettoria e blocchi di Elaborazione Sequenziale con Aggregazione di Canale (CASP). Lo strato di rappresentazione genera sequenze vettoriali multicanale a partire da caratteristiche cinematiche e non cinematiche. I blocchi CASP utilizzano un meccanismo di attention multi-testa sui canali e self-attention per l'aggregazione e l'elaborazione delle informazioni sequenziali. Inoltre, proponiamo una tecnica specializzata per il task, il Gradient Dropout (GD), per abilitare un addestramento many-to-many su singole etichette, prevenendo picchi di feedback distorti bloccando stochasticamente il flusso del gradiente in base alla lunghezza del campione. Esperimenti su dati AIS di 5 anni dimostrano la superiorità di WAY rispetto agli approcci convenzionali basati su griglie spaziali, indipendentemente dalla progressione della traiettoria. I risultati confermano ulteriormente che l'adozione del GD porta a miglioramenti delle prestazioni. Infine, esploriamo il potenziale di WAY per applicazioni nel mondo reale attraverso l'apprendimento multitask per la stima dell'ETA.
Le prestazioni degli agenti di apprendimento per rinforzo (RL) dipendono in modo cruciale dalla qualità delle rappresentazioni di feature sottostanti. Gli spazi iperbolici delle feature sono particolarmente adatti a questo scopo, poiché catturano naturalmente la struttura gerarchica e relazionale spesso presente in ambienti complessi di RL. Tuttavia, lo sfruttamento di questi spazi incontra comunemente sfide di ottimizzazione a causa della non stazionarietà dell'RL. In questo lavoro, identifichiamo i fattori chiave che determinano il successo o il fallimento dell'addestramento di agenti di RL profondo iperbolici. Analizzando i gradienti delle operazioni fondamentali nei modelli della Palla di Poincaré e dell'Iperboloide della geometria iperbolica, dimostriamo che embedding con norma elevata destabilizzano l'addestramento basato sui gradienti, portando a violazioni della regione di fiducia nell'ottimizzazione prossimale delle politiche (PPO). Sulla base di queste intuizioni, introduciamo Hyper++, un nuovo agente PPO iperbolico che consiste di tre componenti: (i) addestramento stabile del critico attraverso una loss di valore categorica invece della regressione; (ii) regolarizzazione delle feature che garantisce norme limitate evitando al contempo la maledizione della dimensionalità derivante dal clipping; e (iii) l'utilizzo di una formulazione più favorevole all'ottimizzazione per i layer di rete iperbolici. Negli esperimenti su ProcGen, mostriamo che Hyper++ garantisce un apprendimento stabile, supera gli agenti iperbolici precedenti e riduce il tempo di calcolo effettivo di circa il 30%. Su Atari-5 con Double DQN, Hyper++ supera nettamente i baseline euclidei e iperbolici. Rilasciamo il nostro codice all'indirizzo https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.
I modelli linguistici di piccole dimensioni (SLM) sono ampiamente utilizzati in compiti che richiedono bassa latenza e distribuzione leggera, in particolare per la classificazione. Con l'aumentare dell'importanza dell'interpretabilità e della robustezza, l'apprendimento guidato dalle spiegazioni è emerso come una cornice efficace introducendo una supervisione basata sull'attribuzione durante l'addestramento; tuttavia, derivare prior di attribuzione generali e affidabili rimane una sfida significativa. Attraverso un'analisi dei metodi di attribuzione rappresentativi in contesti di classificazione, scopriamo che sebbene questi metodi possano evidenziare in modo affidabile i token rilevanti per la classe, spesso si concentrano su parole chiave comuni condivise da classi semanticamente simili. Poiché tali classi sono già difficili da distinguere con l'addestramento standard, queste attribuzioni forniscono indizi discriminatori insufficienti, limitando la loro capacità di migliorare la differenziazione del modello. Per superare questa limitazione, proponiamo Class-Aware Attribution Prior (CAP), una nuova cornice per l'estrazione di prior di attribuzione che guida i modelli linguistici verso la cattura di distinzioni fini tra le classi e la produzione di prior di attribuzione più salienti e discriminatori. Basandoci su questa idea, introduciamo ulteriormente CAP Hybrid, che combina i prior di CAP con quelli delle tecniche di attribuzione esistenti per formare un segnale di supervisione più completo e bilanciato. Allineando l'auto-attribuzione di un modello con questi prior arricchiti, il nostro approccio incoraggia l'apprendimento di caratteristiche diverse e rilevanti per la decisione. Esperimenti estensivi in scenari con dati completi, few-shot e avversari dimostrano che il nostro metodo migliora costantemente sia l'interpretabilità che la robustezza.
I modelli Mixture of Experts (MoE) sono emersi come l'architettura di fatto per scalare i modelli linguistici senza aumentare significativamente il costo computazionale. I modelli MoE recenti dimostrano una chiara tendenza verso un'alta granularità degli esperti (dimensione intermedia degli esperti più piccola) e una maggiore sparsità (numero costante di esperti attivati con un numero maggiore di esperti totali), che migliorano la qualità del modello per FLOP. Tuttavia, i MoE a granularità fine soffrono di un aumento dell'ingombro di memoria delle attivazioni e di una ridotta efficienza hardware a causa dei maggiori costi di I/O, mentre i MoE più sparsi soffrono di calcoli sprecati a causa del padding nei kernel Grouped GEMM. In risposta, proponiamo un algoritmo efficiente in memoria per calcolare i passi in avanti e indietro dei MoE con una memorizzazione minima delle attivazioni per il passaggio all'indietro. Progettiamo anche kernel GPU che sovrappongono l'I/O di memoria con il calcolo, a vantaggio di tutte le architetture MoE. Infine, proponiamo un nuovo metodo di "arrotondamento dei token" che minimizza il calcolo sprecato a causa del padding nei kernel Grouped GEMM. Di conseguenza, il nostro metodo SonicMoE riduce la memoria di attivazione del 45% e raggiunge un miglioramento del throughput computazionale di 1.86x sulle GPU Hopper rispetto al kernel MoE BF16 di ScatterMoE per un MoE a granularità fine da 7B. Nello specifico, SonicMoE su 64 H100 raggiunge un throughput di addestramento di 213 miliardi di token al giorno, paragonabile ai 225 miliardi di token al giorno di ScatterMoE su 96 H100 per l'addestramento di un modello MoE da 7B con FSDP-2 utilizzando il codebase lm-engine. In contesti di elevata sparsità MoE, il nostro algoritmo di arrotondamento dei token "tile-aware" produce un ulteriore speedup di 1.16x sul tempo di esecuzione del kernel rispetto al routing top-K standard, mantenendo prestazioni downstream simili. Rilasciamo come open source tutti i nostri kernel per consentire un addestramento più veloce dei modelli MoE.
Un LLM personalizzato dovrebbe ricordare i fatti dell'utente, applicarli correttamente e adattarsi nel tempo per fornire risposte che l'utente preferisce. Gli attuali benchmark di personalizzazione dei LLM si concentrano principalmente su due assi: ricordare accuratamente le informazioni dell'utente e applicare accuratamente le informazioni ricordate in compiti downstream. Sosteniamo che un terzo asse, la *piacevolezza* (likability), sia sia soggettivo che centrale per l'esperienza utente, ma sia sottovalutato dagli attuali benchmark. Per misurare la piacevolezza in modo olistico, introduciamo LikeBench, un framework di valutazione dinamico e multi-sessione che misura la piacevolezza lungo molteplici dimensioni, valutando quanto un LLM possa adattarsi nel tempo alle preferenze dell'utente per fornire risposte più apprezzabili. In LikeBench, i LLM conversano con un utente simulato e apprendono le preferenze esclusivamente dal dialogo in corso. Man mano che l'interazione procede, i modelli tentano di adattare le loro risposte, e dopo ogni turno vengono valutati per la piacevolezza lungo sette dimensioni dallo stesso utente simulato. Per quanto a nostra conoscenza, siamo i primi a scomporre la piacevolezza in metriche diagnostiche multiple: adattamento emotivo, corrispondenza della formalità, adattamento della conoscenza, comprensione dei riferimenti, adeguatezza della lunghezza della conversazione, adeguatezza dell'umorismo e richiami al contesto (callback), il che rende più semplice identificare dove un modello è carente. Per rendere l'utente simulato più realistico e discriminante, LikeBench utilizza descrittori di persona granulari e psicologicamente fondati, piuttosto che i descrittori basati su tratti generici (alto/basso) utilizzati in lavori precedenti. Il nostro benchmark mostra che una forte performance mnemonica non garantisce un'alta piacevolezza: DeepSeek R1, con una minore accuratezza di memoria (86%, 17 fatti/profilo), ha superato Qwen3 del 28% sul punteggio di piacevolezza nonostante la maggiore accuratezza mnemonica di Qwen3 (93%, 43 fatti/profilo). Anche modelli all'avanguardia come GPT-5 si adattano bene in scambi brevi, ma mostrano una robustezza limitata in interazioni più lunghe e rumorose.
La manipolazione robotica richiede sia una ricca percezione multimodale che framework di apprendimento efficaci per gestire compiti complessi nel mondo reale. I sensori "see-through-skin" (STS), che combinano percezione tattile e visiva, offrono capacità di sensing promettenti, mentre l'apprendimento per imitazione moderno fornisce strumenti potenti per l'acquisizione di politiche di controllo. Tuttavia, i progetti STS esistenti mancano di una percezione multimodale simultanea e soffrono di un tracciamento tattile inaffidabile. Inoltre, integrare questi ricchi segnali multimodali in pipeline di manipolazione basate sull'apprendimento rimane una sfida aperta. Introduciamo TacThru, un sensore STS che abilita una percezione visiva simultanea e un'estrazione robusta di segnali tattili, e TacThru-UMI, un framework di apprendimento per imitazione che sfrutta questi segnali multimodali per la manipolazione. Il nostro sensore presenta un elastomero completamente trasparente, un'illuminazione persistente, marcatori "keyline" innovativi e un tracciamento efficiente, mentre il nostro sistema di apprendimento integra questi segnali attraverso una Diffusion Policy basata su Transformer. Esperimenti su cinque compiti reali e impegnativi mostrano che TacThru-UMI raggiunge un tasso di successo medio dell'85,5%, superando significativamente i baseline tattile-visivo alternato (66,3%) e solo visione (55,4%). Il sistema eccelle in scenari critici, inclusi il rilevamento del contatto con oggetti sottili e morbidi e la manipolazione di precisione che richiede coordinazione multimodale. Questo lavoro dimostra che combinare una percezione multimodale simultanea con framework di apprendimento moderni abilita una manipolazione robotica più precisa e adattabile.
La conversazione umana coinvolge scambi continui di linguaggio verbale e segnali non verbali come cenni del capo, spostamenti dello sguardo ed espressioni facciali che trasmettono attenzione ed emozione. Modellare queste dinamiche bidirezionali in 3D è essenziale per creare avatar espressivi e robot interattivi. Tuttavia, i framework esistenti spesso trattano il parlare e l'ascoltare come processi indipendenti o si basano su modellazioni non causali dell'intera sequenza, compromettendo la coerenza temporale tra i turni. Presentiamo TIMAR (Turn-level Interleaved Masked AutoRegression), un framework causale per la generazione di teste conversazionali 3D che modella il dialogo come contesti audiovisivi intervallati. Esso fonde le informazioni multimodali all'interno di ogni turno e applica un'attenzione causale a livello di turno per accumulare la storia conversazionale, mentre un modulo di diffusione leggero predice le dinamiche 3D continue del capo che catturano sia la coordinazione che la variabilità espressiva. Gli esperimenti sul benchmark DualTalk mostrano che TIMAR riduce la Distanza di Fréchet e l'MSE del 15-30% sul set di test e raggiunge miglioramenti simili su dati fuori distribuzione. Il codice sorgente sarà rilasciato nel repository GitHub https://github.com/CoderChen01/towards-seamleass-interaction.