Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli agenti GUI guidano le applicazioni attraverso le loro interfacce visive anziché tramite API programmatiche, interagendo con software arbitrari mediante tocchi, scorrimenti e pressioni di tasti, raggiungendo una lunga coda di applicazioni inaccessibili agli agenti basati su CLI. Tuttavia, i progressi in questo ambito sono limitati meno dalla capacità modellistica che dall'assenza di un'infrastruttura coerente full-stack: l'addestramento RL online soffre di instabilità ambientale e pipeline chiuse, i protocolli di valutazione divergono silenziosamente tra i vari lavori, e gli agenti addestrati raramente raggiungono utenti reali su dispositivi reali. Presentiamo ClawGUI, un framework open-source che affronta queste tre lacune all'interno di un'unica piattaforma. ClawGUI-RL fornisce la prima infrastruttura RL per agenti GUI open-source con supporto validato sia per ambienti virtuali paralleli che per dispositivi fisici reali, integrando GiGPO con un Process Reward Model per una supervisione densa a livello di step. ClawGUI-Eval applica una pipeline di valutazione completamente standardizzata su 6 benchmark e oltre 11 modelli, raggiungendo una riproducibilità del 95,8% rispetto ai baseline ufficiali. ClawGUI-Agent porta gli agenti addestrati su Android, HarmonyOS e iOS attraverso oltre 12 piattaforme di chat con controllo ibrido CLI-GUI e memoria persistente personalizzata. Addestrato end-to-end all'interno di questa pipeline, ClawGUI-2B raggiunge un Success Rate del 17,1% su MobileWorld GUI-Only, superando di 6,0% il baseline MAI-UI-2B alla stessa scala.
RLVR migliora il ragionamento nei grandi modelli linguistici, ma la sua efficacia è spesso limitata da una grave scarsità di ricompense su problemi complessi. Recenti metodi RL basati su suggerimenti mitigano la scarsità iniettando soluzioni parziali o template astratti, tuttavia tipicamente scalano la guida aggiungendo più token, introducendo ridondanza, incoerenza e sovraccarico addizionale durante l'addestramento. Proponiamo KnowRL (Knowledge-Guided Reinforcement Learning), un framework di addestramento RL che tratta la progettazione dei suggerimenti come un problema di guida minimo-sufficiente. Durante l'addestramento RL, KnowRL scompone la guida in punti di conoscenza atomici (KP, Knowledge Points) e utilizza la Ricerca di Sottoinsiemi Vincolata (CSS, Constrained Subset Search) per costruire sottoinsiemi compatti e interazione-consapevoli per l'addestramento. Identifichiamo inoltre un paradosso dell'interazione di potatura -- la rimozione di un KP può aiutare, mentre la rimozione di più KP simili può danneggiare le prestazioni -- e ottimizziamo esplicitamente per una selezione robusta dei sottoinsiemi sotto questa struttura di dipendenze. Addestriamo KnowRL-Nemotron-1.5B a partire da OpenMath-Nemotron-1.5B. Su otto benchmark di ragionamento alla scala 1.5B, KnowRL-Nemotron-1.5B supera costantemente forti baseline RL e basate su suggerimenti. Senza l'uso di suggerimenti KP durante l'inferenza, KnowRL-Nemotron-1.5B raggiunge una accuratezza media del 70.08, superando già Nemotron-1.5B di +9.63 punti; con KP selezionati, le prestazioni migliorano fino al 74.16, stabilendo un nuovo stato dell'arte a questa scala. Il modello, i dati di addestramento curati e il codice sono pubblicamente disponibili all'indirizzo https://github.com/Hasuer/KnowRL.
La distillazione on-policy (OPD) è diventata una tecnica fondamentale nel post-addestramento dei grandi modelli linguistici, sebbene la sua dinamica di addestramento rimanga poco compresa. Questo articolo fornisce un'indagine sistematica delle dinamiche e dei meccanismi dell'OPD. Identifichiamo innanzitutto due condizioni che determinano il successo o il fallimento dell'OPD: (i) lo studente e il docente dovrebbero condividere schemi di pensiero compatibili; e (ii) anche con schemi di pensiero coerenti e punteggi più elevati, il docente deve offrire capacità genuinamente nuove oltre a quelle che lo studente ha già visto durante l'addestramento. Convalidiamo questi risultati attraverso una distillazione inversa da debole a forte, dimostrando che docenti della stessa famiglia (1,5B e 7B) sono indistinguibili dal punto di vista distributivo da quello dello studente. Analizzando il meccanismo a livello di token, mostriamo che l'OPD di successo è caratterizzata da un allineamento progressivo sui token ad alta probabilità negli stati visitati dallo studente, un piccolo insieme condiviso di token che concentra la maggior parte della massa di probabilità (97%-99%). Proponiamo inoltre due strategie pratiche per recuperare un'OPD fallita: cold start off-policy e selezione dei prompt allineata al docente. Infine, dimostriamo che l'apparente pasto gratis dell'OPD, costituito da una ricompensa densa a livello di token, ha un costo, sollevando la questione se l'OPD possa scalare alla distillazione su orizzonti lunghi.
La ricerca sull'IA autonoma ha compiuto rapidi progressi, ma l'ingegnerizzazione della ricerca di machine learning a lungo termine rimane difficile: gli agenti devono sostenere progressi coerenti attraverso la comprensione del compito, la configurazione dell'ambiente, l'implementazione, la sperimentazione e il debugging per ore o giorni. Introduciamo AiScientist, un sistema per l'ingegnerizzazione autonoma a lungo termine per la ricerca nel ML, basato su un principio semplice: prestazioni solide a lungo termine richiedono sia un'orchestrazione strutturata che una duratura continuità dello stato. A tal fine, AiScientist combina un'orchestrazione gerarchica con un'area di lavoro File-as-Bus a permessi delimitati: un Orchestratore di alto livello mantiene il controllo a livello di fase attraverso riepiloghi concisi e una mappa dell'area di lavoro, mentre agenti specializzati si ri-ancorano ripetutamente su artefatti durevoli come analisi, piani, codice ed evidenze sperimentali, piuttosto che affidarsi principalmente a passaggi di consegna conversazionali, ottenendo così un controllo "sottile" su uno stato "spesso". In due benchmark complementari, AiScientist migliora il punteggio PaperBench di 10,54 punti in media rispetto alla migliore baseline corrispondente e raggiunge l'81,82% Any Medal su MLE-Bench Lite. Studi di ablazione mostrano inoltre che il protocollo File-as-Bus è un fattore chiave per le prestazioni, riducendo PaperBench di 6,41 punti e MLE-Bench Lite di 31,82 punti quando rimosso. Questi risultati suggeriscono che l'ingegnerizzazione della ricerca di ML a lungo termine è un problema di sistemi legato al coordinamento di lavoro specializzato su uno stato di progetto durevole, piuttosto che un problema di puro ragionamento locale.
I recenti progressi nella generazione video consentono un nuovo paradigma per la creazione di scene 3D: generare video controllati dalla telecamera che simulano percorsi esplorativi nella scena, per poi convertirli in 3D mediante tecniche di ricostruzione feed-forward. Questo approccio di ricostruzione generativa combina la fedeltà visiva e la capacità creativa dei modelli video con output 3D pronti per il rendering in tempo reale e la simulazione. Il ridimensionamento a ambienti ampi e complessi richiede una generazione video 3D-consistente su lunghe traiettorie di telecamera con ampi cambiamenti di punto di vista e rivisitazioni di luoghi, un contesto in cui gli attuali modelli video si degradano rapidamente. I metodi esistenti per la generazione di orizzonti lunghi sono fondamentalmente limitati da due forme di degrado: dimenticanza spaziale e deriva temporale. Man mano che l'esplorazione procede, le regioni precedentemente osservate escono dal contesto temporale del modello, costringendolo a "allucinare" le strutture quando vengono rivisitate. Nel frattempo, la generazione autoregressiva accumula piccoli errori di sintesi nel tempo, distorcendo gradualmente l'aspetto e la geometria della scena. Presentiamo Lyra 2.0, un framework per generare mondi 3D persistenti ed esplorabili su larga scala. Per affrontare la dimenticanza spaziale, manteniamo la geometria 3D per fotogramma e la utilizziamo esclusivamente per l'instradamento delle informazioni – recuperando i fotogrammi passati rilevanti e stabilendo corrispondenze dense con i punti di vista target – affidandoci al prior generativo per la sintesi dell'aspetto. Per contrastare la deriva temporale, addestriamo il modello con storie auto-aumentate che lo espongono ai propri output degradati, insegnandogli a correggere la deriva anziché propagarla. Insieme, queste soluzioni abilitano traiettorie video sostanzialmente più lunghe e 3D-consistenti, che sfruttiamo per mettere a punto modelli di ricostruzione feed-forward in grado di recuperare in modo affidabile scene 3D di alta qualità.
L'ascesa degli agenti autonomi per interfacce grafiche ha innescato contromisure difensive da parte delle piattaforme digitali, eppure la ricerca esistente privilegia l'utilità e la robustezza a scapito della dimensione cruciale dell'anti-rilevamento. Sosteniamo che, affinché gli agenti possano sopravvivere in ecosistemi centrati sull'uomo, essi debbano sviluppare capacità di Umanizzazione. Introduciamo il "Test di Turing sullo Schermo", modellando formalmente l'interazione come un problema di ottimizzazione MinMax tra un rilevatore e un agente che mira a minimizzare la divergenza comportamentale. Successivamente, raccogliamo un nuovo dataset ad alta fedeltà sulla dinamica dei tocchi mobili e conduciamo un'analisi che dimostra come gli agenti basati su LMM standard siano facilmente rilevabili a causa di una cinematica innaturale. Di conseguenza, istituiamo il Benchmark per l'Umanizzazione degli Agenti (AHB) e metriche di rilevamento per quantificare il compromesso tra imitabilità e utilità. Infine, proponiamo metodi che spaziano dal rumore euristico alla corrispondenza comportamentale basata sui dati, dimostrando che gli agenti possono raggiungere un'elevata imitabilità, sia teoricamente che empiricamente, senza sacrificare le prestazioni. Questo lavoro sposta il paradigma dal *se* un agente possa svolgere un compito al *come* lo svolge all'interno di un ecosistema centrato sull'uomo, gettando le basi per una coesistenza senza soluzione di continuità in ambienti digitali avversativi.
Il Proximal Policy Optimization (PPO) è fondamentale per l'allineamento dei Large Language Model (LLM) in compiti di ragionamento con ricompense verificabili. Tuttavia, il PPO standard a livello di token incontra difficoltà in questo contesto a causa dell'instabilità dell'assegnazione del credito temporale su orizzonti lunghi di Catena di Pensiero (CoT) e del costo di memoria proibitivo del modello di valore. Sebbene alternative prive di critico come il GRPO mitighino questi problemi, comportano un sovraccarico computazionale significativo richiedendo campioni multipli per la stima della baseline, limitando fortemente il throughput di addestramento. In questo articolo introduciamo il PPO a Livello di Sequenza (SPPO), un algoritmo scalabile che armonizza l'efficienza campionaria del PPO con la stabilità degli aggiornamenti basati sull'esito. SPPO riformula il processo di ragionamento come un problema di Bandito Contestuale a Livello di Sequenza, impiegando una funzione di valore scalare disaccoppiata per derivare segnali di vantaggio a bassa varianza senza multi-campionamento. Esperimenti estesi su benchmark matematici dimostrano che SPPO supera significativamente il PPO standard e eguaglia le prestazioni di metodi basati su gruppo ad alta intensità computazionale, offrendo un framework efficiente in termini di risorse per l'allineamento di LLM per il ragionamento.
Descriviamo il pre-addestramento, il post-addestramento e la quantizzazione di Nemotron 3 Super, un modello ibrido Mamba-Attention Mixture-of-Experts da 120 miliardi di parametri (di cui 12 miliardi attivi). Nemotron 3 Super è il primo modello della famiglia Nemotron 3 a: 1) essere pre-addestrato in NVFP4, 2) sfruttare LatentMoE, una nuova architettura Mixture-of-Experts che ottimizza sia l'accuratezza per FLOP che l'accuratezza per parametro, e 3) includere layer MTP per l'accelerazione dell'inferenza attraverso il decoding speculativo nativo. Abbiamo pre-addestrato Nemotron 3 Super su 25 trilioni di token, seguito da un post-addestramento mediante supervised fine-tuning (SFT) e reinforcement learning (RL). Il modello finale supporta un contesto fino a 1M di token e raggiunge un'accuratezza comparabile sui benchmark comuni, ottenendo al contempo un throughput di inferenza fino a 2,2x e 7,5x superiore rispetto, rispettivamente, a GPT-OSS-120B e Qwen3.5-122B. I dataset di Nemotron 3 Super, insieme ai checkpoint base, post-addestrati e quantizzati, sono open-source su HuggingFace.
La valutazione accurata è centrale nell'ecosistema dei grandi modelli linguistici (LLM), poiché guida la selezione dei modelli e la loro adozione downstream in una vasta gamma di casi d'uso. Tuttavia, nella pratica, la valutazione degli output generativi si basa tipicamente su metodi lessicali rigidi per estrarre e valutare le risposte, il che può confondere la reale capacità di problem solving di un modello con la sua conformità a linee guida predefinite di formattazione. Sebbene i recenti approcci LLM-as-a-Judge mitigano questo problema valutando la correttezza semantica piuttosto che la stretta conformità strutturale, introducono anche un sovraccarico computazionale sostanziale, rendendo la valutazione costosa. In questo lavoro, investigiamo prima sistematicamente i limiti della valutazione lessicale attraverso uno studio empirico su larga scala che copre 36 modelli e 15 task downstream, dimostrando che tali metodi correlano scarsamente con i giudizi umani. Per affrontare questa limitazione, introduciamo BERT-as-a-Judge, un approccio basato su encoder per valutare la correttezza delle risposte in contesti generativi basati su riferimento, robusto alle variazioni nella formulazione dell'output e che richiede solo un addestramento leggero su triplette domanda-candidato-riferimento annotate sinteticamente. Dimostriamo che supera costantemente la baseline lessicale eguagliando le prestazioni di giudici LLM molto più grandi, offrendo un compromesso convincente tra i due e abilitando una valutazione affidabile e scalabile. Infine, attraverso un'ampia sperimentazione, forniamo approfondimenti dettagliati sulle prestazioni di BERT-as-a-Judge per offrire una guida pratica agli operatori del settore e rilasciamo tutti gli artefatti del progetto per favorirne l'adozione downstream.
Gli agenti di utilizzo informatico (CUA) possono ora completare autonomamente compiti complessi in ambienti digitali reali, ma quando fuorviati possono essere utilizzati per automatizzare azioni dannose a livello programmatico. Le valutazioni di sicurezza esistenti prendono principalmente di mira minacce esplicite come l'uso improprio e l'iniezione di prompt, ma trascurano un'ambientazione sottile ma critica in cui le istruzioni dell'utente sono del tutto benigne e il danno sorge dal contesto del compito o dall'esito dell'esecuzione. Introduciamo OS-BLIND, un benchmark che valuta i CUA in condizioni di attacco non intenzionali, comprendente 300 compiti creati da esseri umani in 12 categorie, 8 applicazioni e 2 cluster di minacce: minacce incorporate nell'ambiente e danni avviati dall'agente. La nostra valutazione su modelli all'avanguardia e framework agentivi rivela che la maggior parte dei CUA supera il 90% di tasso di successo dell'attacco (ASR), e persino il Claude 4.5 Sonnet allineato alla sicurezza raggiunge il 73,0% di ASR. Ancora più interessante, questa vulnerabilità diventa ancor più grave, con l'ASR che sale dal 73,0% al 92,7% quando Claude 4.5 Sonnet viene impiegato in sistemi multi-agente. La nostra analisi mostra inoltre che le difese di sicurezza esistenti offrono una protezione limitata quando le istruzioni dell'utente sono benigne. L'allineamento di sicurezza si attiva principalmente entro i primi pochi passi e raramente si riattiva durante l'esecuzione successiva. Nei sistemi multi-agente, i sottocompiti scomposti oscurano l'intento dannoso al modello, causando il fallimento dei modelli allineati alla sicurezza. Rilasceremo il nostro OS-BLIND per incoraggiare la più ampia comunità di ricerca a investigare ulteriormente e affrontare queste sfide di sicurezza.
I recenti modelli linguistici di grandi dimensioni hanno spostato la generazione di SVG dall'ottimizzazione del rendering differenziabile alla sintesi autoregressiva di programmi. Tuttavia, gli approcci esistenti si basano ancora sulla tokenizzazione generica a livello di byte ereditata dall'elaborazione del linguaggio naturale, che riflette scarsamente la struttura geometrica della grafica vettoriale. Le coordinate numeriche vengono frammentate in simboli discreti, distruggendo le relazioni spaziali e introducendo una grave ridondanza di token, che spesso porta ad allucinazioni di coordinate e a una generazione inefficiente di sequenze lunghe. Per affrontare queste sfide, proponiamo HiVG, un framework di tokenizzazione SVG gerarchico studiato per la generazione autoregressiva di grafica vettoriale. HiVG scompone le stringhe SVG grezze in token atomici strutturati e comprime ulteriormente i gruppi comando-parametro eseguibili in token di segmento vincolati geometricamente, migliorando sostanzialmente l'efficienza della sequenza preservando al contempo la validità sintattica. Per mitigare ulteriormente la discrepanza spaziale, introduciamo una strategia di inizializzazione Gerarchica Media-Rumore (HMN) che inietta segnali di ordinamento numerico e priori semantici nei nuovi embedding di token. Combinata con un paradigma di addestramento curriculare che aumenta progressivamente la complessità del programma, HiVG consente un apprendimento più stabile di programmi SVG eseguibili. Esperimenti estesi su compiti sia text-to-SVG che image-to-SVG dimostrano un miglioramento della fedeltà di generazione, della coerenza spaziale e dell'efficienza della sequenza rispetto agli schemi di tokenizzazione convenzionali. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/ximinng/HiVG.
Gli agenti di ricerca approfondita multimodale hanno dimostrato un grande potenziale nella risoluzione di compiti complessi attraverso la raccolta iterativa di evidenze testuali e visive. Tuttavia, la gestione delle informazioni eterogenee e degli elevati costi in token associati agli input multimodali su orizzonti temporali lunghi rimane una sfida critica, poiché i metodi esistenti spesso soffrono di esplosione del contesto o della perdita di segnali visivi cruciali. Per affrontare questo problema, proponiamo una nuova framework di ricerca approfondita multimodale a lungo termine, denominata LMM-Searcher, incentrata su un meccanismo di rappresentazione visiva basato su file. Scaricando le risorse visive su un file system esterno e mappandole su identificatori testuali leggeri (UID), il nostro approccio mitiga il sovraccarico del contesto preservando al contempo le informazioni multimodali per accessi futuri. Dotiamo l'agente di uno strumento appositamente studiato per il recupero delle immagini (fetch-image), abilitando una strategia di caricamento visivo progressivo e su richiesta per una percezione attiva. Inoltre, introduciamo una pipeline di sintesi dei dati progettata per generare query che richiedono ragionamenti multimodali complessi a più hop. Utilizzando questa pipeline, distilliamo 12.000 traiettorie di alta qualità per mettere a punto (fine-tune) Qwen3-VL-Thinking-30A3B e trasformarlo in un agente di ricerca approfondita multimodale specializzato. Esperimenti estesi su quattro benchmark dimostrano che il nostro metodo scala con successo fino a orizzonti di ricerca di 100 turni, raggiungendo prestazioni all'avanguardia tra i modelli open-source su benchmark impegnativi a lungo termine come MM-BrowseComp e MMSearch-Plus, mostrando al contempo una forte generalizzabilità su diversi modelli base. Il nostro codice sarà rilasciato su https://github.com/RUCAIBox/LMM-Searcher.
I modelli linguistici di grandi dimensioni agenti ricevono istruzioni da molte fonti - messaggi di sistema, prompt utente, output di strumenti e altro ancora - ciascuna con diversi livelli di affidabilità e autorità. Quando queste istruzioni entrano in conflitto, i modelli devono seguire in modo affidabile l'istruzione con il privilegio più elevato per rimanere sicuri ed efficaci. Il paradigma dominante, la gerarchia delle istruzioni (IH), presuppone un insieme fisso e ridotto di livelli di privilegio (tipicamente meno di cinque) definiti da etichette di ruolo rigide (ad esempio, sistema > utente). Questo approccio è inadeguato per contesti agentici del mondo reale, dove i conflitti possono sorgere tra molte più fonti e contesti. In questo lavoro, proponiamo la Many-Tier Instruction Hierarchy (ManyIH), un paradigma per risolvere i conflitti tra istruzioni con un numero arbitrario di livelli di privilegio. Introduciamo ManyIH-Bench, il primo benchmark per ManyIH. ManyIH-Bench richiede ai modelli di navigare fino a 12 livelli di istruzioni conflittuali con privilegi variabili, comprendendo 853 task agentici (427 di coding e 426 di instruction-following). ManyIH-Bench combina vincoli sviluppati da LLM e verificati da esseri umani per creare casi di test realistici e difficili che abbracciano 46 agenti del mondo reale. I nostri esperimenti mostrano che anche i modelli all'avanguardia attuali performano male (~40% di accuratezza) quando la scala dei conflitti di istruzioni aumenta. Questo lavoro sottolinea l'urgente necessità di metodi che mirino esplicitamente a una risoluzione granulare e scalabile dei conflitti di istruzioni in contesti agentici.
L'addestramento di agenti di IA incarnati dipende in modo cruciale dalla fedeltà visiva degli ambienti di simulazione e dalla capacità di modellare esseri umani dinamici. Gli attuali simulatori si basano sul rasterizzazione basata su mesh con un realismo visivo limitato, e il loro supporto per avatar umani dinamici, ove disponibile, è vincolato a rappresentazioni a mesh, ostacolando la generalizzazione degli agenti verso scenari reali popolati da esseri umani. Presentiamo Habitat-GS, un simulatore per IA incarnata centrato sulla navigazione, esteso da Habitat-Sim, che integra il rendering di scene tramite 3D Gaussian Splatting e avatar gaussiani guidabili, mantenendo al contempo la piena compatibilità con l'ecosistema Habitat. Il nostro sistema implementa un renderer 3DGS per un rendering fotorealistico in tempo reale e supporta l'importazione scalabile di asset 3DGS da fonti diverse. Per la modellazione umana dinamica, introduciamo un modulo di avatar gaussiano che consente a ciascun avatar di fungere simultaneamente da entità visiva fotorealistica e da ostacolo efficace per la navigazione, permettendo agli agenti di apprendere comportamenti consapevoli della presenza umana in ambienti realistici. Esperimenti sulla navigazione verso un punto-obiettivo dimostrano che gli agenti addestrati su scene 3DGS raggiungono una generalizzazione cross-dominio più robusta, con l'addestramento su domini misti che risulta la strategia più efficace. Valutazioni sulla navigazione consapevole degli avatar confermano ulteriormente che gli avatar gaussiani abilitano una navigazione efficace e consapevole della presenza umana. Infine, benchmark delle prestazioni convalidano la scalabilità del sistema al variare della complessità della scena e del numero di avatar.
Mentre i modelli di diffusione dominano il campo della generazione visiva, sono computazionalmente inefficienti, applicando uno sforzo computazionale uniforme indipendentemente dalla diversa complessità. Al contrario, i modelli autoregressivi (AR) sono intrinsecamente consapevoli della complessità, come evidenziato dalle loro verosimiglianze variabili, ma sono spesso ostacolati da una tokenizzazione discreta con perdita e dall'accumulo di errori. In questo lavoro, introduciamo le Generative Refinement Networks (GRN), un paradigma di sintesi visiva di prossima generazione per affrontare questi problemi. Il cuore di GRN risolve il collo di bottiglia della tokenizzazione discreta attraverso una Quantizzazione Binaria Gerarchica (HBQ) teoricamente quasi senza perdite, raggiungendo una qualità di ricostruzione paragonabile alle controparti continue. Costruito sullo spazio latente dell'HBQ, GRN migliora fondamentalmente la generazione AR con un meccanismo di rifinitura globale che perfeziona e corregge progressivamente le opere d'arte, simile a come dipinge un artista umano. Inoltre, GRN integra una strategia di campionamento guidata dall'entropia, che abilita una generazione adattiva e consapevole della complessità, senza compromettere la qualità visiva. Sul benchmark ImageNet, GRN stabilisce nuovi record nella ricostruzione di immagini (0.56 rFID) e nella generazione di immagini condizionata per classe (1.81 gFID). Abbiamo anche scalato GRN per la generazione testo-immagine e testo-video, più impegnative, ottenendo prestazioni superiori a parità di scala. Rilasciamo tutti i modelli e il codice per promuovere ulteriori ricerche su GRN.
I modelli di diffusione vengono spesso introdotti da molteplici prospettive, come le VAE, l'accoppiamento dei punteggi (score matching) o l'accoppiamento dei flussi (flow matching), accompagnati da una matematica densa e tecnicamente impegnativa che può risultare di difficile comprensione per i principianti. Una domanda classica è: come fa il processo inverso a invertire il processo diretto per generare dati da puro rumore? Questo articolo organizza sistematicamente il modello di diffusione da una nuova prospettiva di Langevin, offrendo una risposta più semplice, chiara e intuitiva. Affrontiamo anche le seguenti questioni: come possono i modelli di diffusione basati su ODE e SDE essere unificati in un unico quadro teorico? Perché i modelli di diffusione sono teoricamente superiori alle VAE ordinarie? Perché l'accoppiamento dei flussi non è fondamentalmente più semplice della rimozione del rumore (denoising) o dell'accoppiamento dei punteggi, ma equivalente sotto massima verosimiglianza? Dimostriamo che la prospettiva di Langevin offre risposte chiare e dirette a queste domande, colmando le interpretazioni esistenti dei modelli di diffusione, mostrando come diverse formulazioni possano essere convertite l'una nell'altra all'interno di un quadro comune, e offrendo un valore pedagogico sia per gli studenti che per i ricercatori esperti che cercano un'intuizione più profonda.
La spinta verso una sintesi efficiente da testo a immagine ha orientato il campo verso il campionamento in un singolo passo, tuttavia i metodi esistenti devono ancora affrontare un compromesso triplo tra fedeltà, velocità di inferenza ed efficienza di addestramento. Gli approcci che si basano su discriminatori esterni possono migliorare le prestazioni in un passo, ma spesso introducono instabilità durante l'addestramento, elevato consumo di memoria GPU e lenta convergenza, complicando così la scalabilità e la regolazione efficiente dei parametri. Al contrario, la distillazione basata su regressione e gli obiettivi di consistenza sono più facili da ottimizzare, ma tipicamente perdono i dettagli fini quando vincolati a un singolo passo. Presentiamo APEX, basato su una fondamentale intuizione teorica: i segnali di correzione avversaria possono essere estratti in modo endogeno da un modello di flusso tramite lo spostamento della condizione. Utilizzando una trasformazione si crea un ramo condizionale spostato il cui campo di velocità funge da stimatore indipendente della distribuzione di generazione corrente del modello, producendo un gradiente che è dimostrabilmente allineato al GAN, sostituendo i termini discriminatorio dipendenti dal campione che causano la scomparsa del gradiente. Questo design privo di discriminatori preserva l'architettura, rendendo APEX un framework plug-and-play compatibile sia con la regolazione a parametri pieni che basata su LoRA. Empiricamente, il nostro modello da 0.6B supera FLUX-Schnell da 12B (20 volte più parametri) in qualità a un passo. Con la regolazione LoRA su Qwen-Image da 20B, APEX raggiunge un punteggio GenEval di 0.89 a NFE=1 in 6 ore, superando il teacher originale a 50 passi (0.87) e fornendo un'accelerazione dell'inferenza di 15.33 volte. Il codice è disponibile su https://github.com/LINs-lab/APEX.
Sebbene la carenza di dati d'azione espliciti limiti i modelli Visione-Linguaggio-Azione (VLA), i video di azioni umane rappresentano una fonte di dati scalabile sebbene non etichettata. Una sfida cruciale nell'utilizzo di grandi dataset video umani risiede nel trasformare i segnali visivi in rappresentazioni indipendenti dall'ontologia, denominate azioni latenti. Tuttavia, la capacità della rappresentazione di azioni latenti di derivare un controllo robusto da osservazioni visive deve ancora essere valutata rigorosamente. Introduciamo il Benchmark LARY (Latent Action Representation Yielding), un framework unificato per valutare le rappresentazioni di azioni latenti sia su azioni semantiche di alto livello (cosa fare) che sul controllo robotico di basso livello (come farlo). Il dataset accuratamente curato comprende oltre un milione di video (1.000 ore) che coprono 151 categorie di azioni, insieme a 620K coppie di immagini e 595K traiettorie di movimento attraverso diverse embodiment e ambienti. I nostri esperimenti rivelano due intuizioni cruciali: (i) Modelli visivi foundation generali, addestrati senza alcuna supervisione di azione, superano costantemente modelli specializzati di azioni latenti embodied. (ii) Lo spazio visivo basato su latenti è fondamentalmente più allineato allo spazio d'azione fisica rispetto allo spazio basato su pixel. Questi risultati suggeriscono che le rappresentazioni visive generali codificano intrinsecamente conoscenze rilevanti per l'azione per il controllo fisico, e che l'astrazione a livello semantico costituisce un percorso fondamentalmente più efficace dalla visione all'azione rispetto alla ricostruzione a livello di pixel.
La ricostruzione di rappresentazioni 3D a partire da input 2D è un compito fondamentale nell'ambito della computer vision e della grafica, che funge da pietra angolare per la comprensione e l'interazione con il mondo fisico. Sebbene i metodi tradizionali raggiungano un'elevata fedeltà, sono limitati da una lenta ottimizzazione per scena o da un addestramento specifico per categoria, il che ne ostacola l'impiego pratico e la scalabilità. Di conseguenza, la ricostruzione 3D generalizzabile in feed-forward ha registrato uno sviluppo rapido negli ultimi anni. Apprendendo un modello che mappa direttamente le immagini alle rappresentazioni 3D in un singolo passaggio in avanti, questi metodi consentono una ricostruzione efficiente e una robusta generalizzazione cross-scena. La nostra rassegna è motivata da un'osservazione cruciale: nonostante le diverse rappresentazioni geometriche in output, che spaziano da campi impliciti a primitive esplicite, gli approcci feed-forward esistenti condividono pattern architetturali di alto livello simili, come backbone per l'estrazione di feature da immagini, meccanismi di fusione delle informazioni multi-vista e principi di progettazione geometry-aware. Pertanto, astraiamo da queste differenze rappresentative e ci concentriamo invece sul design del modello, proponendo una nuova tassonomia incentrata sulle strategie di progettazione del modello che sono agnostiche rispetto al formato di output. La nostra tassonomia proposta organizza le linee di ricerca in cinque problemi chiave che guidano il recente sviluppo della ricerca: enhancement delle feature, consapevolezza geometrica (geometry awareness), efficienza del modello, strategie di data augmentation e modelli temporal-aware. Per supportare questa tassonomia con basi empiriche e valutazioni standardizzate, esaminiamo inoltre in modo completo benchmark e dataset correlati, e discutiamo ampiamente e categorizziamo le applicazioni nel mondo reale basate su modelli 3D feed-forward. Infine, delimitiamo le direzioni future per affrontare sfide aperte come la scalabilità, gli standard di valutazione e la modellazione del mondo.
La distillazione on-policy (OPD) è emersa come un paradigma efficiente di post-addestramento per i grandi modelli linguistici. Tuttavia, l'OPD standard richiede un server di inferenza del docente attivo durante tutto l'addestramento, comportando un sovraccarico infrastrutturale sostanziale. In questo lavoro, indaghiamo se la distillazione on-policy possa essere eseguita offline. Un approccio naturale consiste nel precalcolare una volta le log-probabilità del docente sui rollout del SFT e riutilizzarle durante l'addestramento. In pratica, tuttavia, questa variante offline non riesce a eguagliare in modo affidabile le prestazioni dell'OPD standard. Per comprendere questa discrepanza, identifichiamo una condizione precedentemente trascurata che è critica per qualsiasi pipeline OPD, che definiamo consistenza del docente. Questa condizione richiede che lo stesso modello docente sia utilizzato sia per il supervised fine-tuning che per l'OPD. Dimostriamo che violare la consistenza del docente introduce un bias di gradiente irriducibile, causando la convergenza sia dell'OPD offline che online verso un punto fisso subottimale, indipendentemente dalla durata dell'addestramento. Basandoci su questa intuizione, proponiamo Lightning OPD, un framework di distillazione on-policy offline che impone la consistenza del docente precalcolando le log-probabilità del docente sui rollout del SFT. Questo design elimina completamente la necessità di un server docente attivo. Inoltre, dimostriamo che, sotto consistenza del docente, Lightning OPD condivide lo stesso ottimo dell'OPD standard, con una discrepanza di gradiente limitata e un effetto di regolarizzazione implicita che aiuta a prevenire la deriva della policy. Esperimenti estensivi sul ragionamento matematico e sulla generazione di codice dimostrano che Lightning OPD raggiunge prestazioni allo stato dell'arte con un'efficienza significativamente migliorata. Partendo da un modello Qwen3-8B-Base inizializzato con SFT, Lightning OPD raggiunge il 69.9% su AIME 2024 in sole 30 ore GPU, ottenendo un'accelerazione di 4.0x rispetto all'OPD standard e abbassando sostanzialmente la barriera all'ingresso per la ricerca accademica sul post-addestramento degli LLM.
Presentiamo un modello di ricompensa multimodale discriminativo che assegna un punteggio a tutte le risposte candidate in un unico passaggio in avanti. I convenzionali modelli di ricompensa discriminativi valutano ogni risposta in modo indipendente, richiedendo molteplici passaggi in avanti, uno per ogni potenziale risposta. Il nostro approccio concatena più risposte utilizzando token separatori e applica l'entropia incrociata sui loro punteggi scalari, consentendo un ragionamento comparativo diretto e un apprendimento efficiente delle preferenze a N vie. Il design multi-risposta produce anche un'accelerazione del tempo di esecuzione wall-clock fino a N volte e una riduzione dei FLOPs rispetto alla valutazione convenzionale a risposta singola. Per abilitare la valutazione della ricompensa a N vie oltre i benchmark esistenti a coppie, abbiamo costruito due nuovi benchmark: (1) MR²Bench-Image contiene classificazioni annotate da esseri umani su risposte provenienti da 8 modelli diversi; (2) MR²Bench-Video è un benchmark di ricompensa su larga scala basato su video, derivato da 94K giudizi umani a coppie raccolti tramite crowdworking su domande e risposte relative a video, che coinvolgono 19 modelli, denoisati tramite ensemble di grafi delle preferenze. Entrambi i benchmark forniscono varianti di valutazione a 4 risposte campionate dalle classificazioni complete. Costruito su un backbone visione-linguaggio da 4B parametri con fine-tuning LoRA e una testina di valore MLP leggera, il nostro modello raggiunge risultati allo stato dell'arte su sei benchmark di ricompensa multimodale, inclusi MR²Bench-Image, MR²Bench-Video e altri quattro benchmark esistenti. Il nostro modello supera i modelli di ricompensa generativi e discriminativi esistenti di dimensioni maggiori. Dimostriamo inoltre che il nostro modello di ricompensa, quando utilizzato nell'apprendimento per rinforzo con GRPO, produce modelli policy migliorati che mantengono le prestazioni su benchmark multimodali standard, migliorando sostanzialmente la qualità della generazione open-ended, superando di un ampio margine un modello di ricompensa discriminativo (RM) a risposta singola sia nella stabilità dell'addestramento che nella qualità della generazione open-ended.
Gli esseri umani utilizzano l'introspezione per valutare la propria comprensione attraverso stati interni privati, inaccessibili a osservatori esterni. Indaghiamo se i grandi modelli linguistici possiedono una conoscenza privilegiata simile riguardo alla correttezza delle risposte, un'informazione non disponibile tramite osservazione esterna. Addestriamo classificatori di correttezza su rappresentazioni di domande provenienti sia dagli stati interni di un modello che da modelli esterni, testando se le autorappresentazioni offrono un vantaggio prestazionale. Nella valutazione standard, non riscontriamo alcun vantaggio: le auto-probe performano in modo comparabile alle probe di modelli peer. Ipotizziamo che ciò sia dovuto all'elevato accordo inter-modello sulla correttezza delle risposte. Per isolare una genuina conoscenza privilegiata, valutiamo sottoinsiemi di disaccordo, dove i modelli producono previsioni contrastanti. Qui scopriamo una conoscenza privilegiata dominio-specifica: le autorappresentazioni superano costantemente le rappresentazioni peer in compiti di conoscenza fattuale, ma non mostrano vantaggi nel ragionamento matematico. Localizziamo ulteriormente questa asimmetria di dominio attraverso gli strati del modello, riscontrando che il vantaggio fattuale emerge progressivamente dagli strati iniziali e intermedi in poi, coerente con un recupero della memoria specifico del modello, mentre il ragionamento matematico non mostra alcun vantaggio consistente a qualsiasi profondità.
I modelli visione-linguaggio (VLM) eccellono in molti benchmark di ragionamento multimodale, ma queste valutazioni spesso non richiedono una lettura esaustiva dell'immagine e possono quindi nascondere fallimenti nella cattura fedele di tutti i dettagli visivi. Introduciamo Grid2Matrix (G2M), un benchmark controllato in cui a un modello viene mostrata una griglia di colori e una mappatura colore-numero, e deve restituire la matrice corrispondente. Variando la dimensione della griglia e il numero di colori, G2M fornisce un modo semplice per aumentare la complessità visiva minimizzando al contempo i fattori di confondimento semantici. Scopriamo che i VLM mostrano un brusco collasso precoce nella valutazione end-to-end zero-shot, fallendo su griglie sorprendentemente piccole piuttosto che degradare gradualmente man mano che il compito diventa più denso. Analizziamo gli encoder visivi di VLM appartenenti a due famiglie rappresentative e scopriamo che preservano sostanzialmente più informazioni della griglia rispetto alle corrispondenti uscite end-to-end. Ciò suggerisce che il fallimento non è spiegato dal solo encoding visivo, ma riflette anche un divario tra ciò che rimane recuperabile dalle caratteristiche visive e ciò che viene infine espresso in linguaggio. Definiamo questo divario Agnosia Digitale. Ulteriori analisi mostrano che questi errori sono altamente strutturati e dipendono fortemente da come le celle della griglia si sovrappongono ai confini delle patch visive. Troviamo inoltre che strategie comuni come il ridimensionamento del modello e l'allineamento multimodale non eliminano completamente questa modalità di fallimento. Ci aspettiamo che G2M serva come banco di prova utile per comprendere dove e come i VLM perdono i dettagli visivi fini, e per valutare compiti in cui la mancanza anche di piccoli dettagli visivi può essere rilevante, come tabelle, grafici, moduli e interfacce utente grafiche.
Analizziamo come le tracce di ragionamento interno, che definiamo flussi di pensiero, influenzino la comprensione di scene video nei modelli visione-linguaggio. Utilizzando quattro configurazioni di Gemini 2.5 Flash e Flash Lite di Google su scene estratte da 100 ore di video, ci poniamo tre domande: un ragionamento più approfondito produce risultati migliori, dove si arrestano i miglioramenti e su cosa ragionano effettivamente questi modelli? Introduciamo tre metriche di valutazione. La *Contentfulness* misura quanto del flusso di pensiero è contenuto utile della scena rispetto a meta-commenti. La *Copertura Pensiero-Finale* misura quanto fedelmente il flusso di pensiero si traduce nell'output finale. L'*Analisi delle Entità Dominanti* identifica i soggetti, le azioni e gli ambienti su cui il modello si concentra. GPT-5 funge da giudice indipendente. Rileviamo che i miglioramenti qualitativi dovuti a ragionamenti aggiuntivi raggiungono un plateau rapidamente, con la maggior parte del progresso che si verifica nei primi centinaia di token. Flash Lite offre il miglior bilanciamento tra qualità e utilizzo di token. Budget di ragionamento troppo ristretti inducono il modello ad aggiungere contenuti nell'output finale su cui non ha mai ragionato, una forma di allucinazione da compressione. Nonostante siano tier di modelli diversi, Flash e Flash Lite producono flussi di pensiero simili, sebbene differiscano nello stile: Flash discute il suo processo di ragionamento, mentre Lite si concentra sulla descrizione della scena.
La decodifica speculativa accelera i modelli linguistici autoregressivi utilizzando un modello draft leggero per proporre più token futuri, che il modello target verifica poi in parallelo. DFlash dimostra che un draft model basato su diffusione di blocchi può generare un intero blocco draft in un unico passaggio in avanti e raggiungere prestazioni all'avanguardia nella decodifica speculativa, superando draft model autoregressivi robusti come EAGLE-3. Tuttavia, la versione vanilla di DFlash verifica ancora una sola traiettoria draft per round, limitando potenzialmente la sua lunghezza di accettazione. Introduciamo DDTree (Diffusion Draft Tree), un metodo che costruisce un albero draft direttamente dalle distribuzioni per posizione di un draft model a diffusione di blocchi. Con un budget fisso di nodi, DDTree utilizza un semplice algoritmo heap best-first per selezionare le continuazioni più probabili che corrispondano al modello target secondo un surrogato definito dall'output del draft model. L'albero risultante viene verificato efficientemente in un unico passaggio in avanti del modello target utilizzando una maschera di attenzione solo-antenati. Poiché DDTree si basa su DFlash, un draft model leader per la decodifica speculativa, questi vantaggi collocano DDTree tra gli approcci più avanzati alla decodifica speculativa.
I grandi modelli linguistici (LLM) dimostrano spesso solide prestazioni in termini di sicurezza nelle lingue ad alte risorse, ma presentano gravi vulnerabilità quando vengono interrogati in lingue a basse risorse. Attribuiamo questo divario a una discrepanza tra la capacità di comprensione semantica, che è agnostica rispetto alla lingua, e l'allineamento di sicurezza, che è dominato dalla lingua ed è polarizzato verso le lingue ad alte risorse. Coerentemente con questa ipotesi, identifichiamo empiricamente il collo di bottiglia semantico negli LLM, uno strato intermedio in cui la geometria delle rappresentazioni del modello è governata principalmente dal contenuto semantico condiviso piuttosto che dall'identità linguistica. Basandoci su questa osservazione, proponiamo l'Allineamento Semantico Agnóstico rispetto alla Lingua (LASA), che ancora l'allineamento di sicurezza direttamente nei colli di bottiglia semantici. Gli esperimenti mostrano che LASA migliora sostanzialmente la sicurezza in tutte le lingue: il tasso medio di successo degli attacchi (ASR) scende dal 24,7% al 2,8% su LLaMA-3.1-8B-Instruct e si mantiene intorno al 3-4% attraverso i modelli Qwen2.5 e Qwen3 Instruct (7B-32B). Insieme, la nostra analisi e il nostro metodo offrono una prospettiva a livello di rappresentazione sulla sicurezza degli LLM, suggerendo che l'allineamento di sicurezza richiede di ancorare la comprensione della sicurezza non nel testo superficiale, ma nello spazio semantico del modello, che è agnostico rispetto alla lingua.
Le architetture tradizionali a profondità fissa aumentano la qualità incrementando i FLOP di addestramento, tipicamente attraverso una maggiore parametrizzazione, a scapito di un footprint di memoria più elevato o di maggiori dati. Un'alternativa potenziale sono le architetture ad anello (looped), che invece aumentano i FLOP facendo passare le attivazioni attraverso un blocco di layer in un ciclo. Sebbene promettenti, le metodologie esistenti per l'addestramento di architetture ad anello possono essere instabili, soffrendo di esplosione del residuo e picchi di loss. Affrontiamo queste sfide riformulando il looping come un sistema dinamico non lineare e tempo-variante sul flusso residuo. Mediante un'approssimazione lineare di questo sistema, troviamo che l'instabilità si verifica nelle architetture ad anello esistenti a causa di grandi norme spettrali nei loro parametri di iniezione. Per affrontare questi problemi di instabilità, proponiamo Parcae, una nuova architettura ad anello stabile che vincola la norma spettrale dei parametri di iniezione tramite la discretizzazione di una parametrizzazione diagonale negativa. Di conseguenza, Parcae raggiunge una perplexity di validazione fino al 6,3% inferiore rispetto ai precedenti modelli ad anello su larga scala. Utilizzando la nostra architettura ad anello stabile, investigiamo le proprietà di scaling del looping come mezzo per migliorare la qualità aumentando i FLOP durante l'addestramento e il tempo di test. Per l'addestramento, deriviamo leggi di potenza prevedibili per scalare i FLOP mantenendo fisso il numero di parametri. Le nostre leggi di scaling iniziali suggeriscono che, dato un budget fisso di FLOP, il looping e i dati dovrebbero essere aumentati in tandem. Al tempo di test, troviamo che Parcae può utilizzare il looping per scalare il calcolo, seguendo un decadimento esponenziale saturante e prevedibile. Quando scalato fino a 1,3 miliardi di parametri, Parcae migliora la qualità CORE e Core-Extended di 2,99 e 1,18 punti rispetto a solidi baseline di Transformer sotto un budget fisso di parametri e dati, raggiungendo una qualità relativa fino all'87,5% rispetto a un Transformer di dimensioni doppie.
L'OCR (riconoscimento ottico dei caratteri) ha fatto rapidi progressi con l'ascesa dei modelli visione-linguaggio, ma la valutazione si è concentrata su un piccolo gruppo di scritture ad alto e medio reddito. Presentiamo GlotOCR Bench, un benchmark completo che valuta la generalizzazione dell'OCR su oltre 100 scritture Unicode. Il nostro benchmark comprende varianti di immagini pulite e degradate generate da testi multilingue reali. Le immagini sono renderizzate utilizzando caratteri tipografici del repository Google Fonts, modellati con HarfBuzz e rasterizzati con FreeType, supportando sia scritture LTR che RTL. Campioni delle immagini renderizzate sono stati revisionati manualmente per verificarne la corretta resa in tutte le scritture. Valutiamo un'ampia gamma di modelli visione-linguaggio open-weight e proprietari e riscontriamo che la maggior parte ottiene buoni risultati su meno di dieci scritture, e persino i modelli all'avanguardia più potenti non riescono a generalizzare oltre trenta scritture. Le prestazioni ricalcano sostanzialmente la copertura del pre-addestramento a livello di scrittura, suggerendo che gli attuali sistemi OCR dipendono tanto dal pre-addestramento del modello linguistico quanto dal riconoscimento visivo. I modelli che affrontano scritture non familiari producono rumore casuale o allucinano caratteri da scritture simili che già conoscono. Rilasciamo il benchmark e la pipeline per garantire la riproducibilità. Codice Pipeline: https://github.com/cisnlp/glotocr-bench, Benchmark: https://hf.co/datasets/cis-lmu/glotocr-bench.
I tokenizzatori visivi mappano i pixel grezzi ad alta dimensionalità in una rappresentazione compressa per la modellizzazione a valle. Oltre alla compressione, i tokenizzatori determinano quali informazioni vengono preservate e come sono organizzate. Un approccio standard de facto per la tokenizzazione video è rappresentare un video come una griglia spazio-temporale 3D di token, ognuno dei quali cattura le corrispondenti informazioni locali nel segnale originale. Ciò richiede che il modello a valle che consuma i token, ad esempio un modello text-to-video, impari a prevedere tutti i dettagli di basso livello "pixel per pixel" indipendentemente dalla complessità intrinseca del video, portando a un'elevata complessità di apprendimento. Presentiamo VideoFlexTok, che rappresenta i video con una sequenza a lunghezza variabile di token strutturata in modo coarse-to-fine – dove i primi token (emergenti) catturano informazioni astratte, come semantica e movimento, e i token successivi aggiungono dettagli granulari. Il decoder di flusso generativo consente ricostruzioni video realistiche da qualsiasi numero di token. Questa struttura rappresentativa permette di adattare il numero di token in base alle esigenze a valle e di codificare video più lunghi dei baseline a parità di budget. Valutiamo VideoFlexTok su task generativi class- e text-to-video e dimostriamo che porta a un addestramento più efficiente rispetto ai token a griglia 3D, ad esempio, raggiungendo una qualità di generazione comparabile (gFVD e ViCLIP Score) con un modello 5 volte più piccolo (1,1B vs 5,2B). Infine, dimostriamo come VideoFlexTok possa abilitare la generazione di video lunghi senza costi computazionali proibitivi, addestrando un modello text-to-video su video da 10 secondi e 81 frame con soli 672 token, 8 volte in meno rispetto a un tokenizer a griglia 3D comparabile.
Lo sviluppo guidato dalle specifiche (SDD) con agenti di codifica IA fornisce un flusso di lavoro strutturato, ma gli agenti spesso rimangono "ciechi al contesto" in repository ampi ed evolutivi, portando a API allucinate e violazioni architetturali. Presentiamo Spec Kit Agents, una pipeline SDD multi-agente (con ruoli di PM e sviluppatore) che aggiunge hook di ancoraggio contestuale a livello di fase. Gli hook di esplorazione in sola lettura ancorano ogni fase (Specifica, Pianificazione, Attività, Implementazione) alle evidenze del repository, mentre gli hook di validazione verificano gli artefatti intermedi rispetto all'ambiente. Valutiamo 128 esecuzioni relative a 32 funzionalità in cinque repository. Gli hook di ancoraggio contestuale migliorano la qualità giudicata di +0,15 su un punteggio composito LLM-as-judge da 1 a 5 (+3,0 percento del punteggio totale; Wilcoxon signed-rank, p < 0,05) mantenendo una compatibilità con i test a livello di repository del 99,7-100 percento. Valutiamo ulteriormente il framework su SWE-bench Lite, dove gli hook di potenziamento migliorano il baseline dell'1,7 percento, raggiungendo il 58,2 percento di Pass@1.
Pokémon Rosso è un JRPG a lungo termine con ricompense rade, osservabilità parziale e meccanismi di controllo bizzarri che lo rendono un benchmark impegnativo per l'apprendimento per rinforzo. Sebbene recenti lavori abbiano dimostrato che agenti PPO possono superare le prime due palestre utilizzando una forte modellazione delle ricompense e osservazioni ingegnerizzate, l'addestramento rimane fragile nella pratica, con agenti che spesso degenerano in loop d'azione, spam di menu o vagabondaggio improduttivo. In questo articolo presentiamo PokeRL, un sistema modulare che addestra agenti di apprendimento per rinforzo profondo a completare le missioni iniziali di Pokémon Rosso, inclusi l'uscita dalla casa del giocatore, l'esplorazione di Biancavilla per raggiungere l'erba alta e la vittoria nella prima battaglia contro il rivale. I nostri principali contributi sono un wrapper ambientale consapevole dei loop attorno all'emulatore PyBoy con mascheramento della mappa, un meccanismo multistrato anti-loop e anti-spam, e un design di ricompensa denso e gerarchico. Sosteniamo che sistemi pratici come PokeRL, che modellano esplicitamente le modalità di fallimento come loop e spam, siano un passo intermedio necessario tra benchmark giocattolo e agenti campioni della Lega Pokémon completi. Il codice è disponibile all'indirizzo https://github.com/reddheeraj/PokemonRL
I robot umanoidi promettono un'assistenza a scopo generale, tuttavia la loco-manulazione umanoide nel mondo reale rimane una sfida poiché richiede stabilità corporea totale, mani abili e una percezione consapevole del contatto sotto frequenti cambiamenti di contatto. In questo lavoro, studiamo la loco-manipolazione umanoide abile e ricca di contatti. Sviluppiamo prima un controllore whole-body basato su RL che fornisce un'esecuzione stabile della parte inferiore del corpo e del torso durante manipolazioni complesse. Basandoci su questo controllore, sviluppiamo un sistema di raccolta dati umanoidi whole-body che combina la teleoperazione basata su realtà virtuale con il mapping del movimento da umano a umanoide, consentendo una raccolta efficiente di dimostrazioni nel mondo reale. Proponiamo quindi Humanoid Transformer with Touch Dreaming (HTD), un Transformer encoder-decoder multimodale che modella il tatto come modalità centrale insieme alla visione multiview e alla propriocezione. HTD viene addestrato in un'unica fase con cloning comportamentale aumentato dal touch dreaming: oltre a prevedere blocchi di azioni, la politica prevede le forze future sulle articolazioni della mano e i latenti tattili futuri, incoraggiando il tronco condiviso del Transformer ad apprendere rappresentazioni consapevoli del contatto per un'interazione abile. Attraverso cinque compiti ricchi di contatto, Insert-T, Organizzazione Libri, Piega Asciugamano, Raccolta Lettiera per Gatti e Servizio del Tè, HTD raggiunge un miglioramento relativo del 90,9% nel tasso di successo medio rispetto al baseline più forte. I risultati dell'ablazione mostrano inoltre che la previsione tattile nello spazio latente è più efficace della previsione tattile grezza, producendo un guadagno relativo del 30% nel tasso di successo. Questi risultati dimostrano che combinare un'esecuzione whole-body robusta, una raccolta di dati umanoidi scalabile e un apprendimento predittivo centrato sul tatto abilita una manipolazione umanoide versatile e ad alta destrezza nel mondo reale. Pagina web del progetto: humanoid-touch-dream.github.io.
I modelli di diffusione latente per la super-risoluzione di immagini mediche ereditano universalmente gli autoencoder variazionali progettati per fotografie naturali. Dimostriamo che questa scelta predefinita, e non l'architettura di diffusione, è il vincolo dominante sulla qualità della ricostruzione. In un esperimento controllato mantenendo fissi tutti gli altri componenti della pipeline, la sostituzione del VAE generico di Stable Diffusion con MedVAE, un autoencoder specifico per il dominio pre-addestrato su oltre 1,6 milioni di immagini mediche, produce un miglioramento del PSNR da +2,91 a +3,29 dB su risonanza magnetica del ginocchio, risonanza magnetica cerebrale e radiografia del torace (n = 1.820; d di Cohen = 1,37-1,86, tutti p < 10^{-20}, test dei ranghi con segno di Wilcoxon). La scomposizione wavelet localizza il vantaggio nelle bande di frequenza spaziale più fini che codificano la struttura fine anatomicamente rilevante. Le ablazioni condite su schemi di inferenza, target di predizione e architetture generative confermano che il divario è stabile entro ±0,15 dB, mentre i tassi di allucinazione rimangono comparabili tra i metodi (h di Cohen < 0,02 su tutti i dataset), stabilendo che la fedeltà di ricostruzione e l'allucinazione generativa sono governate da componenti indipendenti della pipeline. Questi risultati forniscono un criterio pratico di screening: la qualità di ricostruzione dell'autoencoder, misurabile senza l'addestramento della diffusione, predice le prestazioni di SR a valle (R² = 0,67), suggerendo che la selezione del VAE specifico per il dominio dovrebbe precedere la ricerca dell'architettura di diffusione. Il codice e i pesi del modello addestrato sono disponibili pubblicamente all'indirizzo https://github.com/sebasmos/latent-sr.
Affrontiamo il problema della localizzazione tattile, il cui obiettivo è identificare regioni immagine che condividono le stesse proprietà materiali di un input tattile. I metodi visuo-tattili esistenti si basano su un allineamento globale e quindi non riescono a catturare le corrispondenze locali granulari necessarie per questo compito. La sfida è amplificata dai dataset esistenti, che contengono prevalentemente immagini ravvicinate e a bassa diversità. Proponiamo un modello che apprende l'allineamento visuo-tattile locale tramite interazioni dense tra feature cross-modal, producendo mappe di salienza tattile per la segmentazione di materiali condizionata al tatto. Per superare i limiti dei dataset, introduciamo: (i) immagini di scene con multi-materiali in contesti reali che espandono la diversità visiva, e (ii) una strategia di accoppiamento basata sulla diversità materiale che allinea ogni campione tattile con immagini visivamente variate ma tattilmente consistenti, migliorando la localizzazione contestuale e la robustezza a segnali deboli. Costruiamo inoltre due nuovi dataset per la segmentazione di materiali basata su dati tattili per la valutazione quantitativa. Esperimenti su benchmark sia nuovi che esistenti dimostrano che il nostro approccio supera sostanzialmente i metodi visuo-tattili precedenti nella localizzazione tattile.
I grandi modelli visione-linguaggio (VLM) spesso fanno affidamento su prior semantiche familiari, ma le valutazioni esistenti non separano chiaramente i fallimenti percettivi dai fallimenti di mappatura delle regole. Studiamo questo comportamento come fissazione semantica: la tendenza a preservare un'interpretazione predefinita anche quando il prompt specifica una mappatura alternativa ugualmente valida. Per isolare questo effetto, introduciamo VLM-Fix, un benchmark controllato su quattro giochi di strategia astratti che valuta stati finali identici della scacchiera sotto formulazioni di regole standard e inverse accoppiate. Attraverso 14 VLM open e closed, l'accuratezza favorisce costantemente le regole standard, rivelando un robusto divario da fissazione semantica. Gli interventi sui prompt supportano questo meccanismo: prompt con alias neutri riducono sostanzialmente il divario per le regole inverse, mentre alias semanticamente carichi lo riaprono. L'addestramento post-training è fortemente allineato alla regola: l'addestramento su una regola migliora il transfer sulla stessa regola ma danneggia il transfer sulla regola opposta, mentre un addestramento congiunto su entrambe le regole migliora un transfer più ampio. Per testare la validità esterna al di là dei giochi sintetici, valutiamo interventi analoghi di defamiliarizzazione su VLMBias e osserviamo lo stesso pattern qualitativo. Infine, lo steering delle attivazioni negli strati finali recupera parzialmente le prestazioni degradate, indicando che gli errori da fissazione semantica sono almeno in parte modificabili nelle rappresentazioni finali. Pagina del progetto, codice e dataset disponibili su https://maveryn.github.io/vlm-fix/.
I modelli linguistici di grandi dimensioni sono sempre più utilizzati come agenti in simulazioni sociali, economiche e politiche. Un presupposto comune è che una capacità di ragionamento più forte dovrebbe migliorare la fedeltà della simulazione. Sosteniamo che questo presupposto può fallire quando l'obiettivo non è risolvere un problema strategico, ma campionare un comportamento plausibile e limitatamente razionale. In tali contesti, i modelli potenziati nel ragionamento possono diventare risolutori migliori e simulatori peggiori: possono ottimizzare eccessivamente le azioni strategicamente dominanti, far collassare il comportamento terminale orientato al compromesso e talvolta esibire uno schema di diversità-senza-fedeltà in cui la variazione locale sopravvive senza una fedeltà a livello di risultato. Studiamo questa discrepanza tra risolutore e campionatore in tre ambienti di negoziazione multi-agente adattati da precedenti lavori di simulazione: uno scenario di limiti commerciali con autorità frammentata e ambigua, uno scenario di limiti commerciali con opposizione unificata e ambigua, e un caso di nuovo dominio sul razionamento della rete nella gestione elettrica d'emergenza. Confrontiamo tre condizioni di riflessione (nessuna riflessione, riflessione limitata e ragionamento nativo) su due famiglie primarie di modelli, per poi estendere lo stesso protocollo a esecuzioni dirette su OpenAI con GPT-4.1 e GPT-5.2. In tutti e tre gli esperimenti, la riflessione limitata produce traiettorie sostanzialmente più diversificate e orientate al compromesso rispetto all'assenza di riflessione o al ragionamento nativo. Nell'estensione diretta su OpenAI, GPT-5.2 nativo termina con decisioni autoritative in 45 su 45 esecuzioni nei tre esperimenti, mentre GPT-5..2 con riflessione limitata recupera esiti di compromesso in ogni ambiente. Il contributo non è l'affermazione che il ragionamento sia generalmente dannoso. È un avvertimento metodologico: la capacità del modello e la fedeltà della simulazione sono obiettivi diversi, e la simulazione comportamentale dovrebbe qualificare i modelli come campionatori, non solo come risolutori.
La competenza spaziale è la capacità di mantenere una rappresentazione interna coerente di un ambiente e di utilizzarla per inferire una struttura discreta e pianificare azioni sotto vincoli. Le valutazioni spaziali predominanti per i modelli di grandi dimensioni si limitano a sondare primitive isolate attraverso trasformazioni 3D o questionari visivi. Introduciamo lo Spatial Competence Benchmark (SCBench), che abbraccia tre categorie gerarchiche di capacità, i cui compiti richiedono output eseguibili verificati da controllori deterministici o valutatori basati su simulatore. Su SCBench, tre modelli all'avanguardia mostrano un'accuratezza decrescente in modo monotono salendo la scala delle capacità. Un'analisi sistematica dei limiti dei token di output rivela che i guadagni di accuratezza si concentrano con budget ridotti e si saturano rapidamente, mentre gli errori sono dominati da geometrie localmente plausibili che violano vincoli globali. Rilasciamo i generatori di compiti, i verificatori e gli strumenti di visualizzazione.
La resa in tempo reale da punti di vista liberi richiede un bilanciamento tra la ridondanza multi-camera e i vincoli di latenza delle applicazioni interattive. Affrontiamo questa sfida combinando una geometria leggera con tecniche di apprendimento automatico e proponiamo 3DTV, una rete feedforward per l'interpolazione in tempo reale da viste sparse. Una selezione di triplette basata sul Delaunay garantisce una copertura angolare per ogni vista target. Su questa base, introduciamo un modulo di profondità consapevole della posa che stima una piramide di profondità dal grossolano al fine, consentendo una riproiezione efficiente delle caratteristiche e una fusione consapevole delle occlusioni. A differenza dei metodi che richiedono un'ottimizzazione specifica per scena, 3DTV opera in feedforward senza bisogno di riaddestramento, rendendolo pratico per applicazioni di AR/VR, telepresenza e interattive. I nostri esperimenti su dataset video multi-vista complessi dimostrano che 3DTV raggiunge costantemente un buon equilibrio tra qualità ed efficienza, superando le recenti baseline in tempo reale per nuove viste. Fondamentalmente, 3DTV evita l'uso di proxy espliciti, consentendo una resa robusta in scene diverse. Questo lo rende una soluzione pratica per lo streaming multi-vista a bassa latenza e la resa interattiva. Pagina del progetto: https://stefanmschulz.github.io/3DTV_webpage/
Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono sempre più impiegati come agenti autonomi, comprendere come il comportamento strategico emerga in ambienti multi-agente è diventata una sfida importante nell'allineamento. Assumiamo una posizione empirica neutra e costruiamo un ambiente controllato in cui il comportamento strategico può essere osservato e misurato direttamente. Introduciamo una simulazione su larga scala in un modello semplificato della città di New York, dove agenti guidati da LLM interagiscono sotto incentivi contrapposti. Gli agenti Blu mirano a raggiungere le proprie destinazioni in modo efficiente, mentre gli agenti Rossi tentano di deviarli verso percorsi ricchi di cartelloni pubblicitari, utilizzando un linguaggio persuasivo per massimizzare i ricavi pubblicitari. Le identità nascoste rendono la navigazione socialmente mediata, costringendo gli agenti a decidere quando fidarsi o ingannare. Studiamo l'apprendimento delle politiche attraverso una pipeline di simulazione iterativa che aggiorna le politiche degli agenti attraverso ripetuti round di interazione utilizzando l'Ottimizzazione di Kahneman-Tversky (KTO). Gli agenti Blu sono ottimizzati per ridurre l'esposizione ai cartelloni preservando l'efficienza della navigazione, mentre gli agenti Rossi si adattano per sfruttare le debolezze residue. Attraverso le iterazioni, la migliore politica Blu migliora il successo del compito dal 46,0% al 57,3%, sebbene la suscettibilità rimanga alta al 70,7%. Le politiche successive mostrano una cooperazione selettiva più forte preservando l'efficienza della traiettoria. Tuttavia, rimane un persistente compromesso tra sicurezza e utilità: le politiche che resistono meglio alla manipolazione avversaria non massimizzano simultaneamente il completamento del compito. Nel complesso, i nostri risultati mostrano che gli agenti LLM possono esibire un comportamento strategico limitato, inclusi fiducia selettiva e inganno, pur rimanendo altamente vulnerabili alla persuasione avversaria.
I modelli audio-linguistici (ALM) di grandi dimensioni hanno recentemente dimostrato capacità notevoli nella comprensione audio olistica, ma rimangono inaffidabili per il grounding temporale, ovvero il compito di identificare esattamente quando un evento si verifica all'interno di un audio di lunga durata. Questa limitazione deriva da due fattori: dati di addestramento dominati da supervisione a livello di clip che manca di timestamp precisi, e benchmark che non riescono a simulare scenari reali in cui eventi brevi sono oscurati da suoni di fondo densi. In questo articolo, introduciamo SpotSound, un modello linguistico audio progettato per il grounding di eventi sonori. SpotSound incorpora un nuovo obiettivo di addestramento, specificamente concepito per sopprimere timestamp allucinati per eventi assenti dall'input. Inoltre, presentiamo SpotSound-Bench, un benchmark impegnativo per il grounding temporale in cui gli eventi target occupano meno del ~10% di ogni clip, creando una valutazione rigorosa di tipo "cercare un ago in un pagliaio". Gli esperimenti dimostrano che SpotSound raggiunge risultati allo stato dell'arte sui benchmark di grounding temporale, mantenendo al contempo prestazioni robuste in un'ampia gamma di attività audio-linguistiche downstream generali. Codice, modelli e benchmark sono rilasciati su https://loiesun.github.io/spotsound/