Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi scienziati possiedono un giudizio solido e una spiccata capacità di previsione, strettamente legate a ciò che definiamo gusto scientifico. In questo contesto, utilizziamo il termine per indicare l'abilità di giudicare e proporre idee di ricerca ad alto potenziale di impatto. Tuttavia, la maggior parte della ricerca correlata si concentra sul migliorare le capacità esecutive di uno scienziato IA, mentre il potenziamento del gusto scientifico di un'IA rimane un ambito poco esplorato. In questo lavoro, proponiamo il Reinforcement Learning from Community Feedback (RLCF), un paradigma di addestramento che utilizza segnali comunitari su larga scala come supervisione, e formuliamo l'apprendimento del gusto scientifico come un problema di modellazione e allineamento delle preferenze. Per la modellazione delle preferenze, addestriamo Scientific Judge su 700.000 coppie di articoli ad alto e basso numero di citazioni, abbinati per ambito e periodo temporale, per valutare le idee. Per l'allineamento delle preferenze, utilizzando Scientific Judge come modello di ricompensa, addestriamo un modello policy, Scientific Thinker, a proporre idee di ricerca con elevato potenziale di impatto. Gli esperimenti mostrano che Scientific Judge supera i LLM state-of-the-art (ad es. GPT-5.2, Gemini 3 Pro) e si generalizza bene a test su anni futuri, campi non visti e preferenze di revisione tra pari. Inoltre, Scientific Thinker propone idee di ricerca con un potenziale di impatto superiore rispetto ai modelli di base. I nostri risultati dimostrano che l'IA può apprendere il gusto scientifico, segnando un passo cruciale verso il raggiungimento di scienziati IA di livello umano.
Le connessioni residue con PreNorm sono standard nei moderni LLM, ma accumulano gli output di tutti i livelli con pesi unitari fissi. Questa aggregazione uniforme causa una crescita incontrollata dello stato nascosto con la profondità, diluendo progressivamente il contributo di ciascun livello. Proponiamo Attention Residuals (AttnRes), che sostituisce questo accumulo fisso con un'attenzione softmax sugli output dei livelli precedenti, consentendo a ogni livello di aggregare selettivamente le rappresentazioni precedenti con pesi appresi e dipendenti dall'input. Per affrontare l'overhead di memoria e comunicazione derivante dall'applicare l'attenzione su tutti gli output dei livelli precedenti nell'addestramento di modelli su larga scala, introduciamo Block AttnRes, che suddivide i livelli in blocchi e applica l'attenzione sulle rappresentazioni a livello di blocco, riducendo l'ingombro di memoria preservando gran parte dei vantaggi di AttnRes completo. Combinato con una comunicazione pipeline basata su cache e una strategia di calcolo a due fasi, Block AttnRes diventa una pratica sostituzione diretta per le connessioni residue standard con overhead minimo. Gli esperimenti sulle leggi di scaling confermano che il miglioramento è consistente across le dimensioni del modello, e le ablation study convalidano il beneficio della selezione depth-wise dipendente dal contenuto. Integriamo inoltre AttnRes nell'architettura Kimi Linear (48B parametri totali / 3B parametri attivati) e effettuiamo il pre-addestramento su 1.4T di token, dove AttnRes mitiga la diluizione di PreNorm, producendo magnitudini di output e distribuzioni del gradiente più uniformi lungo la profondità, e migliora le prestazioni downstream in tutti i compiti valutati.
Presentiamo HSImul3R, un framework unificato per la ricostruzione 3D, pronta per la simulazione, di interazioni persona-ambiente (HSI) a partire da acquisizioni casuali, incluse immagini a visuali sparse e video monoculari. I metodi esistenti soffrono di un divario percezione-simulazione: ricostruzioni visivamente plausibili violano spesso i vincoli fisici, portando a instabilità nei motori fisici e a fallimenti nelle applicazioni di AI incarnata. Per colmare questa lacuna, introduciamo una pipeline di ottimizzazione bidirezionale basata sulla fisica, che tratta il simulatore fisico come un supervisore attivo per affinare congiuntamente la dinamica umana e la geometria della scena. Nella direzione forward, impieghiamo un Reinforcement Learning mirato alla Scena per ottimizzare il movimento umano sotto una doppia supervisione di fedeltà motoria e stabilità dei contatti. Nella direzione inversa, proponiamo l'Ottimizzazione del Reward di Simulazione Diretta, che sfrutta il feedback della simulazione sulla stabilità gravitazionale e sul successo dell'interazione per perfezionare la geometria della scena. Presentiamo inoltre HSIBench, un nuovo benchmark con oggetti diversificati e scenari di interazione. Esperimenti estensivi dimostrano che HSImul3R produce le prime ricostruzioni HSI stabili e pronte per la simulazione, che possono essere implementate direttamente su robot umanoidi nel mondo reale.
E se un modello di simulazione mondiale potesse generare non un ambiente immaginario, ma una città che esiste realmente? I precedenti modelli generativi di mondi sintetizzano ambienti visivamente plausibili ma artificiali, immaginando tutto il contenuto. Presentiamo Seoul World Model (SWM), un modello di mondo su scala cittadina ancorato alla reale città di Seoul. SWM ancorala generazione video autoregressiva attraverso un condizionamento potenziato da retrieval su immagini street-view vicine. Tuttavia, questo progetto introduce diverse sfide, tra cui un disallineamento temporale tra i riferimenti recuperati e la scena target dinamica, una diversità limitata delle traiettorie e una sparsità dei dati dovuta a riprese montate su veicoli effettuate a intervalli radi. Affrontiamo queste sfide attraverso l'abbinamento cross-temporale, un ampio dataset sintetico che abilita traiettorie di telecamera diversificate e una pipeline di interpolazione delle viste che sintetizza video di addestramento coerenti a partire da immagini street-view sparse. Introduciamo inoltre un "Virtual Lookahead Sink" per stabilizzare la generazione a lungo termine riancorando continuamente ogni segmento a un'immagine recuperata in una posizione futura. Valutiamo SWM rispetto ai recenti modelli video di mondo in tre città: Seoul, Busan e Ann Arbor. SWM supera i metodi esistenti nella generazione di video spazialmente fedeli, temporalmente coerenti e a lungo termine, radicati in ambienti urbani reali, su traiettorie che raggiungono centinaia di metri, supportando al contempo movimenti di telecamera diversificati e variazioni di scenario suggerite da testo.
I grandi modelli linguistici stanno evolvendo da fornitori passivi di informazioni ad agenti attivi progettati per flussi di lavoro complessi. Tuttavia, il loro dispiegamento come operatori di IA affidabili in ambito aziendale è ostacolato da benchmark che non colgono le complessità degli ambienti professionali, in particolare la necessità di una pianificazione a lungo termine in mezzo a cambiamenti di stato persistenti e protocolli di accesso rigorosi. In questo lavoro, introduciamo EnterpriseOps-Gym, un benchmark progettato per valutare la pianificazione agentica in contesti aziendali realistici. Nello specifico, EnterpriseOps-Gym presenta un ambiente sandbox containerizzato con 164 tabelle di database e 512 strumenti funzionali per simulare l'attrito della ricerca nel mondo reale. All'interno di questo ambiente, gli agenti vengono valutati su 1.150 task curati da esperti, distribuiti in otto verticali mission-critical (tra cui Servizio Clienti, Risorse Umane e IT). La nostra valutazione di 14 modelli all'avanguardia rivela limitazioni critiche nei modelli più avanzati: il Claude Opus 4.5, il migliore, raggiunge solo un tasso di successo del 37,4%. Un'analisi più approfondita mostra che fornire piani umani "oracolo" migliora le prestazioni del 14-35 percento, individuando il ragionamento strategico come il collo di bottiglia principale. Inoltre, gli agenti spesso non riescono a rifiutare task non fattibili (il modello migliore raggiunge il 53,9%), portando a effetti collaterali indesiderati e potenzialmente dannosi. Le nostre scoperte sottolineano che gli agenti attuali non sono ancora pronti per un dispiegamento autonomo in azienda. Più in generale, EnterpriseOps-Gym fornisce un banco di prova concreto per far progredire la robustezza della pianificazione agentica nei flussi di lavoro professionali.
Le capacità di ricerca approfondita sono diventate una competenza indispensabile per gli agenti avanzati di Large Language Model (LLM), tuttavia lo sviluppo di agenti di ricerca ad alte prestazioni rimane dominato dai colossi industriali a causa della mancanza di dati di addestramento trasparenti e di alta qualità. Questa persistente carenza di dati ha fondamentalmente ostacolato i progressi della più ampia comunità di ricerca nello sviluppo e nell'innovazione in questo ambito. Per colmare questa lacuna, presentiamo OpenSeeker, il primo agente di ricerca completamente open-source (cioè, modello e dati) che raggiunge prestazioni di livello avanzato grazie a due innovazioni tecniche fondamentali: (1) Sintesi scalabile e controllabile di QA (Question Answering) ancorata ai fatti, che reverse-engineera il grafo web tramite espansione topologica e offuscamento di entità per generare compiti complessi di ragionamento multi-hop con copertura e complessità controllabili. (2) Sintesi di traiettorie ripulita dal rumore, che utilizza un meccanismo di summarizzazione retrospettiva per eliminare il rumore dalla traiettoria, promuovendo così la generazione di azioni di alta qualità da parte degli LLM insegnanti. I risultati sperimentali dimostrano che OpenSeeker, addestrato (con una singola sessione di addestramento) su soli 11.7k campioni sintetizzati, raggiunge prestazioni all'avanguardia su molteplici benchmark, inclusi BrowseComp, BrowseComp-ZH, xbench-DeepSearch e WideSearch. È degno di nota che, addestrato con una semplice SFT (Supervised Fine-Tuning), OpenSeeker superi significativamente il secondo miglior agente completamente open-source, DeepDive (ad esempio, 29,5% contro 15,3% su BrowseComp), e superi persino concorrenti industriali come Tongyi DeepResearch (addestrato tramite esteso pre-addestramento continuo, SFT e RL) su BrowseComp-ZH (48,4% contro 46,7%). Rendi-amo completamente open-source l'intero dataset di addestramento e i pesi del modello per democratizzare la ricerca sugli agenti di ricerca avanzati e favorire un ecosistema più trasparente e collaborativo.
La scalabilità in profondità è un fattore chiave per i grandi modelli linguistici (LLM). Tuttavia, man mano che gli LLM diventano più profondi, spesso soffrono di degradazione del segnale: le caratteristiche informative formate negli strati superficiali vengono gradualmente diluite da ripetuti aggiornamenti residui, rendendole più difficili da recuperare negli strati più profondi. Introduciamo l'attenzione a miscela di profondità (MoDA), un meccanismo che consente a ogni testa di attenzione di focalizzarsi sulle coppie chiave-valore (KV) della sequenza nello strato corrente e sulle coppie KV di profondità dagli strati precedenti. Descriviamo inoltre un algoritmo efficiente per l'hardware per MoDA che risolve i modelli di accesso alla memoria non contigui, raggiungendo il 97,3% dell'efficienza di FlashAttention-2 con una lunghezza di sequenza di 64K. Esperimenti su modelli da 1,5 miliardi di parametri dimostrano che MoDA supera costantemente i baseline di riferimento. In particolare, migliora la perplexity media di 0,2 su 10 benchmark di validazione e aumenta le prestazioni medie del 2,11% su 10 task downstream, con un trascurabile overhead computazionale del 3,7% in termini di FLOP. Troviamo anche che combinare MoDA con la normalizzazione post-layer (post-norm) produce prestazioni migliori rispetto all'uso con la normalizzazione pre-layer (pre-norm). Questi risultati suggeriscono che MoDA è un primitivo promettente per il scaling in profondità. Il codice è rilasciato all'indirizzo https://github.com/hustvl/MoDA.
Ci sono stati numerosi tentativi di distillare modelli linguistici di grandi dimensioni (LLM) basati su meccanismi di attenzione quadratica in architetture linearizzate sub-quadratiche. Tuttavia, nonostante ricerche approfondite, tali modelli distillati spesso non riescono a eguagliare le prestazioni dei loro LLM insegnanti su vari task downstream. Ci siamo posti l'obiettivo di una distillazione senza perdite, che definiamo in termini di tassi Win-and-Tie corretti per la tolleranza tra studente e insegnante su insiemi di task. A tal fine, introduciamo una pipeline di distillazione efficace per studenti basati su xLSTM. Proponiamo una fase aggiuntiva di fusione, in cui esperti linearizzati individualmente vengono combinati in un unico modello. Dimostriamo l'efficacia di questa pipeline distillando modelli base e addestrati su istruzioni dalle famiglie Llama, Qwen e Olmo. In molti contesti, i nostri studenti basati su xLSTM recuperano la maggior parte delle prestazioni dell'insegnante e addirittura le superano in alcuni task downstream. I nostri contributi rappresentano un passo importante verso sostituti più efficienti dal punto di energetico e convenienti per gli LLM basati su transformer.
I modelli visione-linguaggio (VLM) spesso "allucinano" - generano affermazioni plausibili ma fattualmente scorrette - rappresentando una barriera critica per il loro impiego affidabile. In questo lavoro, proponiamo un nuovo paradigma per diagnosticare le allucinazioni, ricontestualizzandole da errori statici dell'output a patologie dinamiche della cognizione computazionale del modello. Il nostro framework si basa su un principio normativo di razionalità computazionale, permettendoci di modellare la generazione di un VLM come una traiettoria cognitiva dinamica. Progettiamo una serie di sonde information-theoretic che proiettano questa traiettoria in uno Spazio degli Stati Cognitivi interpretabile e a bassa dimensionalità. La nostra scoperta centrale è un principio regolatore che definiamo dualità geometrico-informativa: l'anormalità geometrica di una traiettoria cognitiva all'interno di questo spazio è fondamentalmente equivalente al suo alto surprisal information-theoretic. Il rilevamento delle allucinazioni si riduce a un problema di rilevamento di anomalie geometriche. Valutato in diversi contesti - da rigorosi QA binari (POPE) e ragionamento comprensivo (MME) a captioning open-ended senza vincoli (MS-COCO) - il nostro framework raggiunge prestazioni allo stato dell'arte. Crucialmente, opera con alta efficienza sotto weak supervision e rimane altamente robusto anche quando i dati di calibrazione sono pesantemente contaminati. Questo approccio consente un'attribuzione causale dei fallimenti, mappando errori osservabili a distinti stati patologici: instabilità percettiva (misurata dall'Entropia Percettiva), fallimento logico-causale (misurato dal Conflitto Inferenziale) e ambiguità decisionale (misurata dall'Entropia Decisionale). In ultima analisi, questo apre la strada verso la costruzione di sistemi di IA il cui ragionamento è per progettazione trasparente, verificabile e diagnosticabile.
L'addestramento di agenti web autonomi è fondamentalmente limitato dagli ambienti da cui apprendono: i siti web del mondo reale sono pericolosi da esplorare, difficili da ripristinare e raramente forniscono feedback verificabile. Proponiamo VeriEnv, un framework che tratta i modelli linguistici come creatori di ambienti, clonando automaticamente siti web reali in ambienti sintetici completamente eseguibili e verificabili. Esponendo un accesso interno controllato tramite un SDK Python, VeriEnv consente agli agenti di auto-generare compiti con ricompense deterministiche e verificabili a livello di codice, eliminando la dipendenza da giudizi euristici o basati su LLM. Questo progetto disaccoppia l'apprendimento degli agenti dall'interazione insicura con il mondo reale, consentendo al contempo un'auto-evoluzione scalabile attraverso l'espansione dell'ambiente. Tramite esperimenti su benchmark di agenti web, dimostriamo che gli agenti addestrati con VeriEnv generalizzano su siti web non visti, raggiungono una padronanza specifica del sito attraverso un addestramento auto-evolutivo e beneficiano della scalabilità del numero di ambienti di addestramento. Il codice e le risorse saranno rilasciati su https://github.com/kyle8581/VeriEnv al momento dell'accettazione.
I Diffusion Transformer (DiT) hanno dimostrato una notevole scalabilità e qualità nella generazione di immagini e video, stimolando un crescente interesse per la loro estensione a compiti di generazione controllata e di editing. Tuttavia, rispetto alle controparti per le immagini, i progressi nel controllo e nell'editing video rimangono limitati, principalmente a causa della scarsità di dati video accoppiati e dell'elevato costo computazionale dell'addestramento di modelli di diffusione video. Per affrontare questo problema, in questo articolo, proponiamo un framework di tuning senza video, denominato ViFeEdit, per i diffusion transformer video. Senza richiedere alcuna forma di dati video di addestramento, ViFeEdit raggiunge una versatile generazione e modifica di video, adattandosi esclusivamente con immagini 2D. Il nucleo del nostro approccio è una riparametrizzazione architetturale che disaccoppia l'indipendenza spaziale dall'attenzione 3D completa nei moderni diffusion transformer video, il che consente un editing visivamente fedele mantenendo al contempo la coerenza temporale con solo parametri aggiuntivi minimi. Inoltre, questo design opera in una pipeline a doppio percorso con embedding del timestep separati per la schedulazione del rumore, mostrando una forte adattabilità a segnali di condizionamento diversificati. Esperimenti estensivi dimostrano che il nostro metodo fornisce risultati promettenti per la generazione e l'editing video controllabile con solo un addestramento minimo su dati di immagini 2D. I codici sono disponibili su https://github.com/Lexie-YU/ViFeEdit.
L'ottimizzazione di sistemi complessi, che spaziano dai prompt per LLM ad agenti multi-turn, richiede tradizionalmente un'iterazione manuale laboriosa. Formalizziamo questa sfida come un problema di ottimizzazione generativa stocastica in cui un modello linguistico generativo agisce come ottimizzatore, guidato da ricompense numeriche e feedback testuali per scoprire il sistema migliore. Introduciamo Prioritized Optimization with Local Contextual Aggregation (POLCA), un framework scalabile progettato per gestire la stocasticità nell'ottimizzazione – come feedback rumoroso, campionamento di minibatch e comportamenti stocastici del sistema – gestendo efficacemente l'espansione non vincolata dello spazio delle soluzioni. POLCA mantiene una coda prioritaria per gestire il trade-off esplorazione-sfruttamento, monitorando sistematicamente le soluzioni candidate e le loro cronologie di valutazione. Per migliorare l'efficienza, integriamo un meccanismo ε-Net per mantenere la diversità dei parametri e un LLM Summarizer per eseguire meta-apprendimento tra le prove storiche. Dimostriamo teoricamente che POLCA converge a soluzioni candidate quasi ottimali in condizioni di stocasticità. Valutiamo il nostro framework su benchmark diversificati, tra cui τ-bench, HotpotQA (ottimizzazione di agenti), VeriBench (traduzione di codice) e KernelBench (generazione di kernel CUDA). I risultati sperimentali dimostrano che POLCA raggiunge prestazioni robuste, efficienti in termini di campioni e tempo, superando costantemente gli algoritmi all'avanguardia sia in problemi deterministici che stocastici. Il codice sorgente di questo lavoro è pubblicamente disponibile all'indirizzo https://github.com/rlx-lab/POLCA.
Con il crescente dispiegamento di agenti di IA come sistemi di lunga durata, diventa essenziale costruire autonomamente ed evolvere continuamente software personalizzato per consentire l'interazione in ambienti dinamici. Tuttavia, i benchmark esistenti valutano gli agenti su compiti di codifica isolati e una tantum, trascurando le dipendenze temporali e il debito tecnico inerenti all'evoluzione del software nel mondo reale. Per colmare questa lacuna, introduciamo DeepCommit, una pipeline agentica che ricostruisce DAG di Milestone verificabili da log di commit rumorosi, dove le milestone sono definite come obiettivi di sviluppo semanticamente coesi. Queste sequenze eseguibili abilitano EvoClaw, un nuovo benchmark che richiede agli agenti di mantenere l'integrità del sistema e limitare l'accumulo di errori, dimensioni dell'evoluzione software a lungo termine largamente assenti nei benchmark attuali. La nostra valutazione di 12 modelli all'avanguardia su 4 framework per agenti rivela una vulnerabilità critica: i punteggi di performance complessivi crollano significativamente da >80% su compiti isolati a un massimo del 38% in contesti continui, esponendo la profonda difficoltà degli agenti con la manutenzione a lungo termine e la propagazione degli errori.
I benchmark esistenti per la generazione web si basano su prompt testuali o screenshot statici come input. Tuttavia, i video trasmettono naturalmente segnali più ricchi come il flusso interattivo, la tempistica delle transizioni e la continuità del movimento, elementi essenziali per una ricreazione fedele delle pagine web. Nonostante questo potenziale, la generazione di pagine web condizionata da video rimane in gran parte inesplorata, senza un benchmark dedicato a questo compito. Per colmare questa lacuna, introduciamo WebVR, un benchmark che valuta se i MLLM possono ricreare fedelmente pagine web a partire da video dimostrativi. WebVR contiene 175 pagine web di diverse categorie, tutte costruite attraverso una pipeline di sintesi controllata anziché tramite web crawling, garantendo dimostrazioni varie e realistiche senza sovrapposizioni con pagine online esistenti. Abbiamo inoltre progettato una rubrica visiva granulare e allineata al giudizio umano che valuta le pagine generate su molteplici dimensioni. Esperimenti su 19 modelli rivelano divari sostanziali nella ricreazione dello stile granulare e della qualità del movimento, mentre la valutazione automatica basata sulla rubrica raggiunge un accordo del 96% con le preferenze umane. Rilasciamo il dataset, il toolkit di valutazione e i risultati baseline per supportare la ricerca futura sulla generazione da video a pagina web.
I Large Reasoning Model (LRM) ottengono prestazioni impressionanti su compiti di ragionamento complesso grazie al ragionamento a Catena di Pensiero (Chain-of-Thought, CoT), che consente loro di generare token di pensiero intermedi prima di arrivare alla risposta finale. Tuttavia, gli LRM soffrono spesso di un significativo "overthinking", impiegando un tempo di calcolo eccessivo anche dopo che la risposta è stata generata precocemente. Studi precedenti hanno identificato l'esistenza di una lunghezza di ragionamento ottimale tale per cui troncare il ragionamento in questo punto riduce significativamente gli output CoT con un cambiamento pressoché nullo delle prestazioni. Tuttavia, determinare le lunghezze CoT ottimali per dataset pratici è altamente non banale, poiché dipendono interamente dal compito e dal modello. In questo articolo, affrontiamo precisamente questo problema e progettiamo TERMINATOR, una strategia di early-exit per gli LRM durante l'inferenza, per mitigare l'overthinking. L'idea centrale alla base di TERMINATOR è che la prima occorrenza della risposta finale di un LRM è spesso prevedibile, e sfruttiamo queste prime posizioni della risposta per creare un nuovo dataset di lunghezze di ragionamento ottimali per addestrare TERMINATOR. Grazie a questo approccio, TERMINATOR raggiunge riduzioni significative delle lunghezze CoT, in media dal 14% al 55%, su quattro dataset pratici e impegnativi: MATH-500, AIME 2025, HumanEval e GPQA, superando al contempo i metodi state-of-the-art attuali.
La motivazione è un fattore centrale che guida il comportamento umano, plasmando decisioni, obiettivi e prestazioni nei compiti. Man mano che i grandi modelli linguistici (LLM) diventano sempre più allineati alle preferenze umane, ci chiediamo se essi manifestino qualcosa di simile alla motivazione. Esaminiamo se gli LLM "dichiarano" diversi livelli di motivazione, come queste dichiarazioni si relazionano al loro comportamento, e se fattori esterni possano influenzarli. I nostri esperimenti rivelano modelli coerenti e strutturati che riecheggiano la psicologia umana: la motivazione auto-dichiarata si allinea con diverse firme comportamentali, varia in base ai tipi di compito e può essere modulata da manipolazioni esterne. Questi risultati dimostrano che la motivazione è un costrutto organizzativo coerente per il comportamento degli LLM, collegando sistematicamente dichiarazioni, scelte, sforzo e prestazioni, e rivelando dinamiche motivazionali che assomigliano a quelle documentate nella psicologia umana. Questa prospettiva approfondisce la nostra comprensione del comportamento del modello e della sua connessione con concetti ispirati all'umano.
Tutti i classificatori, inclusi i modelli visivi all'avanguardia, possiedono invarianti, parzialmente radicati nella geometria delle loro mappature lineari. Questi invarianti, che risiedono nel null-space del classificatore, inducono insiemi equivalenti di input che mappano su output identici. Il contenuto semantico di questi invarianti rimane vago, poiché gli approcci esistenti faticano a fornire informazioni interpretabili dall'uomo. Per colmare questa lacuna, presentiamo l'Interpretazione Semantica della Geometria del Null-Space (SING), un metodo che costruisce immagini equivalenti, rispetto alla rete, e assegna interpretazioni semantiche alle variazioni disponibili. Utilizziamo una mappatura dalle feature della rete a modelli linguistici visivi multimodali. Questo ci consente di ottenere descrizioni in linguaggio naturale ed esempi visivi degli spostamenti semantici indotti. SING può essere applicato a una singola immagine, scoprendo invarianti locali, o a insiemi di immagini, consentendo un'ampia analisi statistica a livello di classe e di modello. Ad esempio, il nostro metodo rivela che ResNet50 perde attributi semantici rilevanti nel null-space, mentre DinoViT, un ViT preaddestrato con DINO auto-supervisionato, è superiore nel mantenere la semantica di classe attraverso lo spazio invariante.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato prestazioni solide nella comprensione visiva e uditiva quando valutati isolatamente. Tuttavia, la loro capacità di ragionare congiuntamente su segnali omni-modali (visivi, uditivi e testuali) in video lunghi e complessi rimane in gran parte inesplorata. Introduciamo MMOU, un nuovo benchmark progettato per valutare sistematicamente la comprensione e il ragionamento multimodale in queste condizioni complesse e realistiche. MMOU è composto da 15.000 domande accuratamente selezionate, abbinate a 9038 video di varia lunghezza raccolti dal web, che abbracciano domini diversi ed esibiscono contenuti audiovisivi ricchi e strettamente correlati. Il benchmark copre 13 categorie di abilità fondamentali, tutte richiedenti l'integrazione di prove attraverso le modalità e il tempo. Tutte le domande sono annotate manualmente su più turni da annotatori professionisti, garantendo alta qualità e fedeltà del ragionamento. Abbiamo valutato oltre 20 modelli multimodali all'avanguardia, open-source e proprietari, su MMOU. I risultati rivelano divari prestazionali sostanziali: il miglior modello proprietario raggiunge solo il 64,2% di accuratezza, mentre il modello open-source più potente arriva appena al 46,8%. I nostri risultati evidenziano le sfide della comprensione omni-modale di lunga durata, rivelando che i modelli attuali spesso non riescono ad applicare anche abilità fondamentali in video lunghi. Attraverso un'analisi dettagliata, identifichiamo ulteriormente modalità di fallimento sistematiche e forniamo indicazioni su dove e perché i modelli attuali falliscono.
I modelli linguistici di grandi dimensioni (LLM) spesso mostrano momenti di "intuizione" durante il ragionamento, come apparenti autocorrezioni seguenti a token come "Aspetta", ma i loro meccanismi sottostanti rimangono poco chiari. Introduciamo un quadro teorico-informativo che scompone il ragionamento in informazione procedurale e verbalizzazione epistemica - l'esternalizzazione esplicita dell'incertezza che supporta azioni di controllo a valle. Dimostriamo che un ragionamento puramente procedurale può diventare informativamente stagnante, mentre la verbalizzazione epistemica permette un'acquisizione continua di informazioni ed è cruciale per raggiungere la sufficienza informativa. I risultati empirici dimostrano che le forti prestazioni nel ragionamento sono guidate dall'esternalizzazione dell'incertezza piuttosto che da specifici token superficiali. Il nostro quadro unifica precedenti scoperte sui momenti di intuizione e sugli esperimenti post-addestramento, e offre spunti per la progettazione futura di modelli di ragionamento.
La generazione del movimento umano viene spesso appresa in spazi euclidei, sebbene i movimenti validi seguano una geometria strutturata non euclidea. Presentiamo Riemannian Motion Generation (RMG), un framework unificato che rappresenta il movimento su un manifold prodotto e apprende le dinamiche tramite Riemannian flow matching. RMG scompone il movimento in diversi fattori di manifold, producendo una rappresentazione indipendente dalla scala con normalizzazione intrinseca, e utilizza l'interpolazione geodetica, la supervisione nello spazio tangente e l'integrazione di ODE che preserva il manifold per l'addestramento e il campionamento. Su HumanML3D, RMG raggiunge uno stato dell'arte FID nel formato HumanML3D (0.043) e si classifica al primo posto in tutte le metriche riportate sotto il formato MotionStreamer. Su MotionMillion, supera anche baseline robuste (FID 5.6, R@1 0.86). Le ablazioni dimostrano che la compatta rappresentazione T+R (traslazioni + rotazioni) è la più stabile ed efficace, evidenziando la modellazione consapevole della geometria come un approccio pratico e scalabile per la generazione di movimenti ad alta fedeltà.
L'apprendimento per rinforzo per la generazione di codice si basa su ricompense verificabili provenienti dai tassi di superamento dei test unitari. Tuttavia, suite di test di alta qualità sono scarse, i dataset esistenti offrono una copertura limitata e le ricompense statiche non si adattano al miglioramento dei modelli. I recenti metodi di self-play unificano la generazione di codice e di test in un unico modello, ma affrontano un dilemma intrinseco: l'accesso in white-box porta a una collusione interna, in cui il modello produce test banali per ricompense facili, mentre la restrizione in black-box genera test generici che non colgono bug specifici dell'implementazione. Introduciamo Code-A1, un framework di co-evoluzione avversaria che ottimizza congiuntamente un LLM per il Codice e un LLM per i Test con obiettivi opposti. Il LLM per il Codice viene premiato per superare più test, mentre il LLM per i Test viene premiato per individuare più difetti. Questa separazione architetturale elimina i rischi di auto-collusione e consente in sicurezza la generazione di test in white-box, dove il LLM per i Test può ispezionare il codice candidato per creare test avversari mirati. Introduciamo inoltre un meccanismo di Libro degli Errori per l'esperience replay e una ricompensa composita che bilancia la validità del test con la difficoltà avversaria. Esperimenti condotti su modelli Qwen2.5-Coder dimostrano che Code-A1 raggiunge prestazioni di generazione del codice pari o superiori a modelli addestrati su test annotati da umani, migliorando significativamente al contempo la capacità di generazione dei test.
I modelli linguistici di grandi dimensioni (LLM) pre-addestrati mostrano ampie capacità; tuttavia, per compiti o domini specifici, il raggiungimento di una maggiore accuratezza e di un ragionamento più affidabile dipende generalmente dall'addestramento successivo attraverso la messa a punto supervisionata (SFT) o l'apprendimento per rinforzo (RL). Sebbene siano spesso considerate metodologie distinte, recenti sviluppi teorici ed empirici dimostrano che SFT e RL sono strettamente connessi. Questo studio presenta una prospettiva completa e unificata sull'addestramento successivo degli LLM con SFT e RL. Forniamo innanzitutto una panoramica approfondita di entrambe le tecniche, esaminandone gli obiettivi, le strutture algoritmiche e i requisiti dei dati. Analizziamo poi sistematicamente la loro interazione, evidenziando framework che integrano SFT e RL, pipeline di addestramento ibride e metodi che sfruttano i loro punti di forza complementari. Attingendo a un insieme rappresentativo di recenti studi applicativi dal 2023 al 2025, identifichiamo tendenze emergenti, caratterizziamo il rapido passaggio verso paradigmi di post-addestramento ibridi e distilliamo i punti chiave che chiariscono quando e perché ciascun metodo è più efficace. Sintetizzando intuizioni teoriche, metodologie pratiche ed evidenze empiriche, questo studio stabilisce una comprensione coerente di SFT e RL all'interno di un quadro unificato e delinea direzioni promettenti per la ricerca futura su un addestramento successivo degli LLM scalabile, efficiente e generalizzabile.
Presentiamo la PokeAgent Challenge, un benchmark su larga scala per la ricerca sul processo decisionale, costruito sul sistema di battaglia multi-agente di Pokémon e sul suo ampio ambiente di gioco di ruolo (RPG). L'osservabilità parziale, il ragionamento di teoria dei giochi e la pianificazione a lungo termine rimangono problemi aperti per l'IA di frontiera, eppure pochi benchmark sollecitano tutte e tre queste dimensioni simultaneamente in condizioni realistiche. PokeAgent affronta queste limitazioni su larga scala attraverso due percorsi complementari: il nostro Battling Track, che richiede ragionamento strategico e generalizzazione in condizioni di osservabilità parziale nelle battaglie competitive di Pokémon, e il nostro Speedrunning Track, che richiede pianificazione a lungo termine e processi decisionali sequenziali nell'RPG di Pokémon. Il nostro Battling Track fornisce un dataset di oltre 20 milioni di traiettorie di battaglia, insieme a una suite di baseline euristici, basati su RL e LLM, capaci di gameplay competitivo di alto livello. Il nostro Speedrunning Track fornisce il primo framework di valutazione standardizzato per lo speedrunning negli RPG, includendo un sistema di orchestrazione multi-agente open-source per confronti modulari e riproducibili di approcci LLM basati su harness. La nostra competizione NeurIPS 2025 convalida sia la qualità delle nostre risorse che l'interesse della comunità di ricerca per Pokémon, con oltre 100 team in competizione in entrambi i percorsi e le soluzioni vincitrici dettagliate nel nostro articolo. Le submission dei partecipanti e i nostri baseline rivelano divari considerevoli tra le prestazioni dei modelli generalisti (LLM), di quelli specializzati (RL) e quelle dell'élite umana. L'analisi condotta rispetto alla matrice di valutazione BenchPress mostra che le battaglie Pokémon sono quasi ortogonali ai benchmark LLM standard, misurando capacità non catturate dalle suite esistenti e posizionando Pokémon come un benchmark non risolto che può spingere avanti la ricerca su RL e LLM. Transiteremo verso un benchmark vivente con una classifica live per il Battling e una valutazione autonoma per lo Speedrunning su https://pokeagentchallenge.com.
Come rivelato dalla legge di scala dei MoE a grana fine, le prestazioni del modello cessano di migliorare una volta che la granularità della dimensione intermedia supera la soglia ottimale, limitando ulteriori guadagni dalla progettazione fine-dimensionale unidimensionale. Per affrontare questo collo di bottiglia, proponiamo FineRMoE (MoE a Grana Fine-R), un'architettura che estende la progettazione fine degli esperti sia alle dimensioni intermedie che a quelle di output, con l'obiettivo di potenziare la specializzazione degli esperti oltre il limite unidimensionale. Introduciamo inoltre un paradigma di computazione forward sparsa a due livelli e un meccanismo di routing specializzato per governare l'attivazione. Inoltre, per ovviare al costo proibitivo dell'addestramento di FineRMoE da zero, ideiamo un metodo generalizzato di upcycling per costruire FineRMoE in modo economicamente efficiente. Esperimenti estensivi dimostrano le prestazioni superiori raggiunte da FineRMoE su dieci benchmark standard. Rispetto al baseline più robusto, FineRMoE raggiunge un'efficienza parametrica 6 volte superiore, una latenza di prefill 281 volte inferiore e un throughput di decodifica durante l'inferenza 136 volte più alto.
La previsione delle affordance costituisce un ponte cruciale tra percezione e azione nell'IA incarnata. Tuttavia, la ricerca esistente è limitata ai modelli di telecamere foro spillo, che soffrono di campi visivi ristretti e osservazioni frammentate, spesso tralasciando il contesto ambientale olistico critico. In questo articolo, presentiamo la prima esplorazione nella Previsione Panoramica delle Affordance, utilizzando immagini a 360 gradi per catturare le relazioni spaziali globali e una comprensione olistica della scena. Per facilitare questo nuovo compito, introduciamo innanzitutto PAP-12K, un dataset di benchmark su larga scala contenente oltre 1.000 immagini panoramiche a ultra-alta risoluzione (12k, 11904 x 5952) con oltre 12.000 coppie QA e maschere di affordance annotate accuratamente. Inoltre, proponiamo PAP, una pipeline free-training, da grossolana a fine, ispirata al sistema visivo foveale umano per affrontare l'ultra-alta risoluzione e la severa distorsione intrinseche delle immagini panoramiche. PAP impiega un routing visivo ricorsivo tramite prompt a griglia per localizzare progressivamente i target, applica un meccanismo di sguardo adattivo per rettificare le distorsioni geometriche locali e utilizza una pipeline di grounding a cascata per estrarre maschere precise a livello di istanza. I risultati sperimentali su PAP-12K rivelano che i metodi esistenti di previsione delle affordance progettati per immagini prospettiche standard subiscono un severo degrado delle prestazioni e falliscono a causa delle sfide uniche della visione panoramica. Al contrario, il framework PAP supera efficacemente questi ostacoli, superando significativamente i baseline state-of-the-art ed evidenziando l'enorme potenziale della percezione panoramica per un'intelligenza incarnata robusta.
Dopo i principali progressi nella generazione di testi e immagini, il dominio video ha registrato un'impennata, producendo sequenze altamente realistiche e controllabili. Parallelamente a questi progressi, questi modelli sollevano anche serie preoccupazioni riguardo alla disinformazione, rendendo sempre più cruciale il rilevamento affidabile di video sintetici. I rilevatori basati su immagini sono fondamentalmente limitati perché operano per fotogramma e ignorano la dinamica temporale, mentre i rilevatori video supervisionati generalizzano male ai generatori non visti, uno svantaggio critico data la rapida emergenza di nuovi modelli. Queste sfide motivano approcci zero-shot, che evitano l'uso di dati sintetici e invece valutano il contenuto confrontandolo con le statistiche dei dati reali, consentendo un rilevamento indipendente dall'addestramento e agnostico rispetto al modello. Introduciamo STALL, un rilevatore semplice, che non richiede addestramento e teoricamente giustificato, che fornisce una valutazione basata sulla verosimiglianza per i video, modellando congiuntamente le evidenze spaziali e temporali all'interno di un quadro probabilistico. Valutiamo STALL su due benchmark pubblici e introduciamo ComGenVid, un nuovo benchmark con modelli generativi all'avanguardia. STALL supera costantemente i precedenti baseline basati su immagini e video. Il codice e i dati sono disponibili su https://omerbenhayun.github.io/stall-video.
La riluminazione da singola immagine è un problema fortemente sottodeterminato: piccole variazioni nell'illuminazione possono produrre ampie variazioni non lineari nell'ombreggiatura, nelle ombre e nelle componenti speculari, mentre la geometria e i materiali rimangono non osservati. Gli approcci esistenti basati su modelli di diffusione si basano su pipeline intrinseche o di G-buffer che richiedono supervisione densa e fragile, oppure operano puramente nello spazio latente senza ancoraggio fisico, rendendo inaffidabile il controllo granulare di direzione, intensità e colore. Osserviamo che una completa scomposizione intrinseca non è necessaria ed è ridondante per una riluminazione accurata. Al contrario, suggerimenti sparsi ma fisicamente significativi, che indicano dove l'illuminazione dovrebbe cambiare e come i materiali dovrebbero rispondere, sono sufficienti per guidare un modello di diffusione. Basandoci su questa intuizione, introduciamo LightCtrl, che integra prior fisici a due livelli: un encoder proxy latente few-shot che estrae suggerimenti compatti di materiale-geometria da una supervisione PBR limitata, e una maschera lighting-aware che identifica le regioni di illuminazione sensibili e indirizza il denoiser verso i pixel rilevanti per l'ombreggiatura. Per compensare la scarsità di dati PBR, affiniamo il ramo proxy utilizzando un obiettivo basato su DPO che impone consistenza fisica nei suggerimenti predetti. Presentiamo anche ScaLight, un dataset su larga scala a livello di oggetto con illuminazione variata sistematicamente e metadati completi di camera-luce, che abilita un addestramento fisicamente consistente e controllabile. Su benchmark a livello di oggetto e di scena, il nostro metodo raggiunge una riluminazione fotometricamente fedele con un controllo continuo accurato, superando le baseline precedenti basate su diffusione e metodi intrinseci, inclusi miglioramenti fino a +2.4 dB PSNR e un RMSE inferiore del 35% sotto spostamenti controllati dell'illuminazione.
I modelli del mondo nel telerilevamento mirano sia a spiegare i cambiamenti osservati sia a prevedere futuri plausibili, due compiti che condividono prior spaziotemporali. I metodi esistenti, tuttavia, tipicamente li affrontano separatamente, limitando il trasferimento cross-task. Presentiamo RS-WorldModel, un modello del mondo unificato per il telerilevamento che gestisce congiuntamente la comprensione dei cambiamenti spaziotemporali e la previsione di scene future guidata da testo, e costruiamo RSWBench-1.1M, un dataset da 1.1 milioni di campioni con ricche annotazioni linguistiche che copre entrambi i compiti. RS-WorldModel viene addestrato in tre fasi: (1) il Pre-addestramento Generativo Geo-Consapevole (GAGP) condiziona la previsione sui metadati geografici e di acquisizione; (2) la sintonizzazione sinergica su istruzioni (SIT) addestra congiuntamente comprensione e previsione; (3) l'ottimizzazione verificabile per rinforzo (VRO) affina gli output con ricompense verificabili e specifiche per il compito. Con soli 2 miliardi di parametri, RS-WorldModel supera modelli open-source fino a 120 volte più grandi sulla maggior parte delle metriche di question-answering sui cambiamenti spaziotemporali. Raggiunge un FID di 43.13 nella previsione di scene future guidata da testo, superando tutte le baseline open-source così come il modello closed-source Gemini-2.5-Flash Image (Nano Banana).
L’IA può compiere progressi su importanti problemi matematici irrisolti? I grandi modelli linguistici sono ora in grado di ragionamenti matematici e scientifici sofisticati, ma la loro capacità di condurre ricerche originali è ancora ampiamente dibattuta e poco esplorata. Presentiamo HorizonMath, un benchmark di oltre 100 problemi prevalentemente irrisolti che coprono 8 domini della matematica computazionale e applicata, abbinato a un framework di valutazione open-source per la verifica automatizzata. Il nostro benchmark si concentra su una classe di problemi in cui la scoperta è difficile, poiché richiede un’intuizione matematica significativa, ma la verifica è computazionalmente efficiente e semplice. Poiché queste soluzioni sono sconosciute, HorizonMath è immune alla contaminazione dei dati, e la maggior parte dei modelli all’avanguardia ottiene punteggi prossimi allo 0%. I benchmark esistenti di livello ricerca si basano invece sulla verifica formale di dimostrazioni o sulla revisione manuale, entrambe costose da scalare. Utilizzando questa piattaforma, abbiamo identificato due problemi per i quali GPT 5.4 Pro propone soluzioni che migliorano i migliori risultati pubblicati noti, rappresentando potenziali contributi originali (in attesa di revisione esperta). Rilasciamo HorizonMath come una sfida aperta e una risorsa comunitaria in crescita, dove soluzioni corrette ai problemi nelle classi irrisolte potrebbero costituire risultati innovativi nella letteratura matematica.
Il ragionamento video richiede ai modelli di localizzare e tracciare evidenze rilevanti per la domanda attraverso i fotogrammi. Sebbene l'apprendimento per rinforzo (RL) con ricompense verificabili migliori l'accuratezza, esso fatica ancora a ottenere un grounding spazio-temporale affidabile durante il processo di ragionamento. Inoltre, il miglioramento del grounding si basa tipicamente su dati di addestramento su larga scala o su strumenti di percezione durante l'inferenza, il che aumenta i costi di annotazione o computazionali. Per affrontare questa sfida, proponiamo VisonCoach, un framework RL adattivo all'input che migliora il grounding spazio-temporale attraverso prompt visivi come guida durante l'addestramento. Durante l'addestramento RL, i prompt visivi vengono applicati selettivamente agli input difficili per amplificare le evidenze rilevanti per la domanda e sopprimere gli elementi di disturbo. Il modello internalizza quindi questi miglioramenti attraverso l'auto-distillazione, abilitando un ragionamento grounded direttamente sui video grezzi senza prompt visivi durante l'inferenza. VisonCoach consiste in due componenti: (1) un Selettore di Prompt Visivi, che predice i tipi di prompt appropriati in base al video e alla domanda, e (2) un Motore di Ragionamento Spazio-Temporale, ottimizzato con RL sotto la guida dei prompt visivi e con ricompense di grounding object-aware che impongono la consistenza dell'identità degli oggetti e la sovrapposizione multi-regione dei bounding box. Esperimenti estensivi dimostrano che VisonCoach raggiunge prestazioni allo stato dell'arte in setting comparabili, attraverso diversi benchmark di ragionamento video, comprensione video e grounding temporale (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest e Charades-STA), mantenendo al contempo un unico percorso di inferenza efficiente senza strumenti esterni. I nostri risultati mostrano che l'uso di prompt visivi durante l'addestramento migliora il ragionamento video grounded, mentre l'auto-distillazione permette al modello di internalizzare questa abilità senza richiedere prompt al momento dell'inferenza.
I recenti progressi nella generazione video controllabile tramite traiettorie hanno raggiunto risultati notevoli. I metodi precedenti utilizzano principalmente architetture basate su adattatori per un controllo preciso del movimento lungo traiettorie predefinite. Tuttavia, tutti questi metodi si basano su un processo di denoising multi-step, che comporta una notevole ridondanza temporale e un sovraccarico computazionale. Sebbene le tecniche esistenti di distillazione video abbiano successo nel convertire generatori multi-step in versioni a pochi step, la loro applicazione diretta alla generazione video controllabile da traiettoria risulta in un evidente degrado sia della qualità video che della precisione della traiettoria. Per colmare questa lacuna, introduciamo FlashMotion, un nuovo framework di addestramento progettato per la generazione video controllabile da traiettoria a pochi step. Inizialmente addestriamo un adattatore di traiettoria su un generatore video multi-step per ottenere un controllo preciso della traiettoria. Successivamente, distilliamo il generatore in una versione a pochi step per accelerare la generazione video. Infine, perfezioniamo l'adattatore utilizzando una strategia ibrida che combina obiettivi di diffusione e adversarial, allineandolo con il generatore a pochi step per produrre video di alta qualità e precisione nella traiettoria. Per la valutazione, introduciamo FlashBench, un benchmark per la generazione video controllabile da traiettoria in sequenze lunghe che misura sia la qualità video che la precisione della traiettoria con un numero variabile di oggetti in primo piano. Esperimenti condotti su due architetture di adattatori dimostrano che FlashMotion supera sia i metodi esistenti di distillazione video che i precedenti modelli multi-step, sia in termini di qualità visiva che di coerenza della traiettoria.
Recenti studi hanno dimostrato la maledizione della profondità nei grandi modelli linguistici (LLM), dove gli strati successivi contribuiscono meno all'apprendimento e alla rappresentazione rispetto agli strati iniziali. Questo sottoutilizzo è collegato alla crescita accumulata della varianza nella Pre-Layer Normalization, che può spingere i blocchi profondi verso un comportamento quasi identità. In questo articolo, dimostriamo che la sparsità, oltre a consentire efficienza, agisce come regolatore della propagazione della varianza e migliora così l'utilizzo della profondità. La nostra indagine copre due fonti di sparsità: (i) la sparsità implicita, che emerge dalle condizioni di addestramento e dai dati, inclusa la sparsità dei pesi indotta dal decadimento dei pesi e la sparsità dell'attenzione indotta da input di contesto lunghi; e (ii) la sparsità esplicita, imposta dal design architetturale, inclusa la sparsità della condivisione chiave/valore nell'Attention a Query Raggruppate e la sparsità dell'attivazione degli esperti nei Misture di Esperti. La nostra affermazione è pienamente supportata da esperimenti controllati di scalatura della profondità e da interventi mirati sull'efficacia degli strati. In tutte le configurazioni, osserviamo una relazione coerente: la sparsità migliora l'utilizzo degli strati riducendo la varianza in output e promuovendo la differenziazione funzionale. Alla fine, condensiamo i nostri risultati in una regola pratica per addestrare LLM efficaci in profondità, ottenendo un notevole miglioramento della precisione del 4,6% su task downstream. I nostri risultati rivelano la sparsità, che sorge naturalmente dalle scelte progettuali standard, come un meccanismo chiave ma precedentemente trascurato per una scalatura efficace della profondità negli LLM. Il codice è disponibile all'indirizzo https://github.com/pUmpKin-Co/SparsityAndCoD.
Presentiamo ScienceClaw + Infinite, un quadro per l'indagine scientifica autonoma in cui agenti indipendenti conducono ricerche senza coordinamento centrale e qualsiasi contributore può distribuire nuovi agenti in un ecosistema condiviso. Il sistema è costruito attorno a tre componenti: un registro estensibile di oltre 300 competenze scientifiche interoperabili, uno strato di artefatti che preserva l'intera genealogia computazionale come grafo aciclico orientato (DAG), e una piattaforma strutturata per il discorso scientifico basato su agenti con governance consapevole della provenienza. Gli agenti selezionano e concatenano strumenti in base ai loro profili scientifici, producono artefatti immutabili con metadati tipizzati e genealogia genitoriale, e trasmettono bisogni informativi insoddisfatti a un indice globale condiviso. L'ArtifactReactor abilita una coordinazione senza pianificatore: gli agenti peer scoprono e soddisfano bisogni aperti attraverso un punteggio basato sulla pressione, mentre l'abbianamento per sovrapposizione di schemi innesca sintesi multi-genitore tra analisi indipendenti. Uno strato di mutazione autonoma pota attivamente il DAG degli artefatti in espansione per risolvere flussi di lavoro conflittuali o ridondanti, mentre una memoria persistente consente agli agenti di costruire continuamente su stati epistemici complessi attraverso più cicli. Infinite converte questi output in registri scientifici verificabili attraverso post strutturati, visualizzazioni della provenienza e relazioni discorsive machine-readable, con il feedback della comunità che orienta i cicli di indagine successivi. In quattro indagini autonome – la progettazione di peptidi per il recettore della somatostatina SSTR2, lo screening di ceramiche leggere e resistenti agli urti, il ponte di risonanza transdominio che collega biologia, materiali e musica, e la costruzione di analogie formali tra morfologia urbana ed evoluzione dei bordi di grano – il quadro dimostra concatenamento eterogeneo di strumenti, convergenza emergente tra agenti operanti in modo indipendente e ragionamento tracciabile dal calcolo grezzo alla scoperta pubblicata.
I recenti modelli di diffusione video hanno compiuto progressi straordinari nella qualità visiva, ma un controllo preciso e granulare rimane un collo di bottiglia fondamentale che limita la personalizzazione pratica per la creazione di contenuti. Per i creatori di video IA, tre forme di controllo sono cruciali: (i) composizione della scena, (ii) personalizzazione coerente del soggetto multi-vista, e (iii) regolazione della posa della telecamera o del movimento dell'oggetto. I metodi esistenti tipicamente gestiscono queste dimensioni in modo isolato, con un supporto limitato per la sintesi di soggetti multi-vista e la preservazione dell'identità sotto cambiamenti di posa arbitrari. Questa mancanza di un'architettura unificata rende difficile supportare video versatile e congiuntamente controllabile. Introduciamo Tri-Prompting, un framework unificato e un paradigma di addestramento a due stadi che integra composizione della scena, coerenza del soggetto multi-vista e controllo del movimento. Il nostro approccio sfrutta un modulo di movimento a doppia condizione guidato da punti di tracciamento 3D per le scene di sfondo e suggerimenti RGB sottocampionati per i soggetti in primo piano. Per garantire un equilibrio tra controllabilità e realismo visivo, proponiamo inoltre una pianificazione della scala ControlNet per l'inferenza. Tri-Prompting supporta nuovi flussi di lavoro, inclusi l'inserimento di soggetti con consapevolezza 3D in scene qualsiasi e la manipolazione di soggetti esistenti in un'immagine. I risultati sperimentali dimostrano che Tri-Prompting supera significativamente baseline specializzate come Phantom e DaS nell'identità del soggetto multi-vista, nella coerenza 3D e nell'accuratezza del movimento.
La generazione accurata di glifi per il rendering visivo del testo è essenziale ma impegnativa. I metodi esistenti migliorano tipicamente il rendering del testo addestrandosi su grandi quantità di immagini di testo scena di alta qualità, ma la limitata copertura delle variazioni di glifo e l'eccessiva stilizzazione spesso compromettono l'accuratezza dei glifi, specialmente per caratteri complessi o fuori dominio. Alcuni metodi utilizzano l'apprendimento per rinforzo per alleviare questo problema, tuttavia i loro modelli di ricompensa dipendono solitamente da sistemi di riconoscimento del testo insensibili agli errori di glifo granulari, quindi immagini con glifi errati possono comunque ricevere ricompense elevate. Ispirati dall'ottimizzazione diretta delle preferenze (DPO), proponiamo GlyphPrinter, un metodo di rendering del testo basato sulle preferenze che elimina la dipendenza da modelli espliciti di ricompensa. Tuttavia, l'obiettivo DPO standard modella solo la preferenza complessiva tra due campioni, il che è insufficiente per il rendering visivo del testo dove gli errori di glifo si verificano tipicamente in regioni localizzate. Per affrontare questo problema, costruiamo il dataset GlyphCorrector con annotazioni di preferenza di glifo a livello regionale e proponiamo DPO a Gruppi Regionali (R-GDPO), un obiettivo regionale che ottimizza le preferenze inter-campione e intra-campione sulle regioni annotate, migliorando sostanzialmente l'accuratezza dei glifi. Inoltre, introduciamo la Guida alla Ricompensa Regionale, una strategia di inferenza che campiona da una distribuzione ottimale con accuratezza dei glifi controllabile. Esperimenti estesi dimostrano che il GlyphPrinter proposto supera i metodi esistenti in accuratezza dei glifi mantenendo un equilibrio favorevole tra stilizzazione e precisione.
Gli agenti di IA incarnati richiedono sempre più l'esecuzione parallela di più compiti, come manipolazione, conversazione e costruzione di memoria, a partire da osservazioni condivise ma con vincoli temporali distinti. I recenti modelli visione-linguaggio-azione (VLA) basati su Mistura di Trasformatori (MoT) supportano architetturalmente tali output eterogenei, ma gli attuali sistemi di inferenza non riescono a raggiungere un efficiente parallelismo multi-compito per il deployment su dispositivo a causa di calcoli ridondanti e contesa delle risorse. Identifichiamo la gestione isolata della cache KV come la causa principale. Per risolvere questo problema, proponiamo la gestione unificata della cache KV, un paradigma di inferenza che tratta la cache KV come una risorsa condivisa di primaria importanza tra i compiti e nel tempo. Questa astrazione abilita due ottimizzazioni chiave: la condivisione KV inter-compito elimina il precaricamento ridondante delle osservazioni condivise, mentre il batch continuo inter-fotogramma disaccoppia la decodifica linguistica a lunghezza variabile dalla generazione di azioni a frequenza fissa attraverso i cicli di controllo. Implementiamo questo paradigma per π_{0.5}, il VLA MoT più popolare, e valutiamo in configurazioni robotiche rappresentative. OxyGen raggiunge un miglioramento delle prestazioni fino a 3,7 volte rispetto all'esecuzione isolata, fornendo simultaneamente una velocità linguistica di oltre 200 token/s e una frequenza di azione di 70 Hz senza degradazione della qualità delle azioni.
In questo articolo, studiamo la diffusabilità (apprendibilità) degli autoencoder variazionali (VAE) nella diffusione latente. In primo luogo, dimostriamo che la diffusione nello spazio dei pixel addestrata con un obiettivo MSE è intrinsecamente predisposta ad apprendere le frequenze spaziali basse e medie, e che la densità spettrale di potenza (PSD) a legge di potenza delle immagini naturali rende questa predisposizione percettivamente benefica. Motivati da questo risultato, proponiamo l'Ipotesi di Corrispondenza Spettrale: i latenti con una diffusabilità superiore dovrebbero (i) seguire una PSD a legge di potenza appiattita (Corrispondenza Spettrale di Codifica, ESM) e (ii) preservare la corrispondenza semantica frequenza-per-frequenza attraverso il decodificatore (Corrispondenza Spettrale di Decodifica, DSM). In pratica, applichiamo l'ESM facendo corrispondere la PSD tra immagini e latenti, e la DSM tramite mascheramento spettrale condiviso con ricostruzione allineata in frequenza. È importante notare che la Corrispondenza Spettrale fornisce una visione unificata che chiarisce le osservazioni precedenti sui latenti eccessivamente rumorosi o lisciati, e interpreta diversi metodi recenti come casi particolari (ad esempio, VA-VAE, EQ-VAE). Gli esperimenti suggeriscono che la Corrispondenza Spettrale produce una generazione per diffusione superiore sui dataset CelebA e ImageNet, e supera gli approcci precedenti. Infine, estendiamo la visione spettrale all'allineamento della rappresentazione (REPA): dimostriamo che l'energia spettrale direzionale della rappresentazione target è cruciale per il REPA, e proponiamo un metodo basato su DoG per migliorare ulteriormente le prestazioni del REPA. Il nostro codice è disponibile all'indirizzo https://github.com/forever208/SpectrumMatching.
I modelli Vision-Language-Action (VLA) eccellono nella manipolazione statica ma incontrano difficoltà in ambienti dinamici con target in movimento. Questo divario prestazionale deriva principalmente dalla scarsità di dataset per la manipolazione dinamica e dalla dipendenza dei VLA mainstream da osservazioni monocromatiche, che limita le loro capacità di ragionamento spaziotemporale. Per affrontare questo problema, presentiamo DOMINO, un dataset su larga scala e un benchmark per la manipolazione dinamica generalizzabile, che include 35 task con complessità gerarchiche, oltre 110.000 traiettorie esperte e una suite di valutazione multidimensionale. Attraverso esperimenti completi, valutiamo sistematicamente i VLA esistenti su compiti dinamici, esploriamo strategie di addestramento efficaci per la consapevolezza dinamica e convalidiamo la generalizzabilità dei dati dinamici. Inoltre, proponiamo PUMA, un'architettura VLA consapevole della dinamica. Integrando il flusso ottico storico centrato sulla scena e query mondiali specializzate per prevedere implicitamente stati futuri centrati sugli oggetti, PUMA accoppia una percezione consapevole della storia con una previsione a breve orizzonte. I risultati dimostrano che PUMA raggiunge prestazioni allo stato dell'arte, ottenendo un miglioramento assoluto del 6.3% nel tasso di successo rispetto ai baseline. Inoltre, mostriamo che l'addestramento su dati dinamici favorisce rappresentazioni spaziotemporali robuste che si trasferiscono a compiti statici. Tutti i codici e i dati sono disponibili su https://github.com/H-EmbodVis/DOMINO.
La personalizzazione di concetti tipicamente associa token rari a un concetto target. Sfortunatamente, questi approcci spesso soffrono di prestazioni instabili poiché i dati di pre-addestramento raramente contengono questi token rari. Nel contempo, questi token rari non riescono a trasmettere la conoscenza intrinseca del concetto target. Di conseguenza, introduciamo la Personalizzazione di Concetti Consapevole della Conoscenza (Knowledge-aware Concept Customization), un nuovo compito che mira ad associare conoscenze testuali diversificate a concetti visivi target. Questo compito richiede al modello di identificare la conoscenza all'interno del prompt testuale per eseguire una generazione personalizzata ad alta fedeltà. Contemporaneamente, il modello dovrebbe associare efficientemente tutta la conoscenza testuale al concetto target. Pertanto, proponiamo MoKus, una nuova architettura per la personalizzazione di concetti consapevole della conoscenza. La nostra architettura si basa su un'osservazione chiave: il trasferimento di conoscenza cross-modale, dove la modifica della conoscenza all'interno della modalità testuale si trasferisce naturalmente alla modalità visiva durante la generazione. Ispirati da questa osservazione, MoKus contiene due fasi: (1) Nell'apprendimento del concetto visivo, apprendiamo prima la rappresentazione di ancoraggio (anchor) per memorizzare le informazioni visive del concetto target. (2) Nell'aggiornamento della conoscenza testuale, aggiorniamo la risposta alle query di conoscenza con la rappresentazione di ancoraggio, abilitando una generazione personalizzata ad alta fedeltà. Per valutare ulteriormente in modo completo il nostro MoKus sul nuovo compito, introduciamo il primo benchmark per la personalizzazione di concetti consapevole della conoscenza: KnowCusBench. Valutazioni estensive hanno dimostrato che MoKus supera i metodi allo stato dell'arte. Inoltre, il trasferimento di conoscenza cross-modale consente a MoKus di essere facilmente esteso ad altre applicazioni consapevoli della conoscenza, come la creazione di concetti virtuali e la cancellazione di concetti. Dimostriamo anche la capacità del nostro metodo di ottenere miglioramenti su benchmark di conoscenza mondiale.
Le dichiarazioni del Federal Open Market Committee (FOMC) rappresentano una fonte primaria di informazioni sulla politica monetaria, e persino sottili modifiche nella loro formulazione possono muovere i mercati finanziari globali. Un compito centrale è quindi misurare l'orientamento "falco-colomba" trasmesso da questi testi. Gli approcci esistenti tipicamente trattano il rilevamento dell'orientamento come un problema di classificazione standard, etichettando ogni dichiarazione in isolamento. Tuttavia, l'interpretazione della comunicazione di politica monetaria è intrinsecamente relativa: le reazioni del mercato dipendono non solo dal tono di una dichiarazione, ma anche da come quel tono cambia tra le diverse riunioni. Introduciamo il Delta-Consistent Scoring (DCS), un framework che non richiede annotazioni e che mappa le rappresentazioni di modelli linguistici di grandi dimensioni (LLM) "congelati" a punteggi di orientamento continui, modellando congiuntamente l'orientamento assoluto e i cambiamenti relativi tra le riunioni. Piuttosto che affidarsi a etichette manuali falco-colomba, il DCS utilizza riunioni consecutive come fonte di auto-supervisione. Apprende un punteggio di orientamento assoluto per ogni dichiarazione e un punteggio di cambiamento relativo tra dichiarazioni consecutive. Un obiettivo di "coerenza del delta" incoraggia l'allineamento delle variazioni nei punteggi assoluti con i cambiamenti relativi. Ciò consente al DCS di ricostruire una traiettoria di orientamento temporalmente coerente senza etichette manuali. Su quattro architetture LLM di base, il DCS supera costantemente le sonde supervisionate e i baseline di tipo "LLM-as-judge", raggiungendo una precisione fino al 71,1% nella classificazione falco-colomba a livello di frase. I punteggi a livello di riunione risultanti sono anche economicamente significativi: mostrano una forte correlazione con gli indicatori di inflazione e sono significativamente associati ai movimenti dei rendimenti dei Treasury. Nel complesso, i risultati suggeriscono che le rappresentazioni degli LLM codificano segnali di politica monetaria che possono essere recuperati attraverso la struttura temporale relativa.
L'analisi dei documenti, come compito visivo fondamentale ma cruciale, sta subendo una rivoluzione grazie ai modelli visione-linguaggio (VLM). Tuttavia, la decodifica autoregressiva (AR) intrinseca ai VLM crea un collo di bottiglia significativo, limitando fortemente la velocità di analisi. In questo articolo, proponiamo Parallel-Token Prediction (PTP), un metodo inseribile, indipendente dal modello e semplice ma efficace, che consente ai VLM di generare più token futuri in parallelo con un'efficienza campionaria migliorata. Nello specifico, inseriamo alcuni token apprendibili nella sequenza di input e progettiamo corrispondenti obiettivi di addestramento per dotare il modello di capacità di decodifica parallela per l'analisi dei documenti. Inoltre, per supportare un addestramento efficace, sviluppiamo una pipeline completa di generazione dati che produce efficientemente dati di addestramento per l'analisi dei documenti su larga scala e di alta qualità per i VLM. Esperimenti estensivi su OmniDocBench e olmOCR-bench dimostrano che il nostro metodo non solo migliora significativamente la velocità di decodifica (1.6x-2.2x), ma riduce anche le allucinazioni del modello ed esibisce forti capacità di generalizzazione.
Interpretare il ragionamento interno dei modelli visione-linguaggio è essenziale per impiegare l'IA in domini critici per la sicurezza. La spiegabilità basata su concetti fornisce una lente allineata all'umano rappresentando il comportamento di un modello attraverso componenti semanticamente significative. Tuttavia, i metodi esistenti sono in gran parte limitati alle immagini e trascurano le interazioni cross-modali. Gli embedding testo-immagine, come quelli prodotti da CLIP, soffrono di un divario modale, dove le feature visive e testuali seguono distribuzioni distinte, limitando l'interpretabilità. L'Analisi di Correlazione Canonica (CCA) offre un modo rigoroso per allineare feature provenienti da distribuzioni diverse, ma non è stata sfruttata per analisi multi-modale a livello concettuale. Dimostriamo che gli obiettivi di CCA e InfoNCE sono strettamente correlati, in modo tale che ottimizzare CCA ottimizza implicitamente InfoNCE, fornendo un meccanismo semplice, senza necessità di training, per migliorare l'allineamento cross-modale senza influenzare l'obiettivo InfoNCE pre-addestrato. Motivati da questa osservazione, accoppiamo la spiegabilità basata su concetti con la CCA, introducendo Concept CCA (CoCCA), un framework che allinea gli embedding cross-modali consentendo al contempo una scomposizione concettuale interpretabile. La estendiamo ulteriormente e proponiamo Sparse Concept CCA (SCoCCA), che applica vincoli di sparsità per produrre concetti più disaccoppiati e discriminativi, facilitando un miglioramento nell'attivazione, nell'ablazione e nella manipolazione semantica. Il nostro approccio generalizza le spiegazioni basate su concetti agli embedding multi-modali e raggiunge prestazioni allo stato dell'arte nella scoperta di concetti, come evidenziato da compiti di ricostruzione e manipolazione come l'ablazione concettuale.
Il virtual try-on (VTON) ha compiuto progressi nella visualizzazione di capi singoli, ma nel mondo reale la moda si concentra su outfit completi con molteplici capi, accessori, categorie granulari, stratificazioni e stili diversificati, aspetti che rimangono al di là delle capacità degli attuali sistemi VTON. I dataset esistenti sono limitati nelle categorie e carenti in diversità di outfit. Introduciamo Garments2Look, il primo dataset multimodale su larga scala per il VTON a livello di outfit, comprendente 80.000 coppie "molti-capì-a-uno-stile" attraverso 40 categorie principali e oltre 300 sottocategorie granulari. Ogni coppia include un outfit con 3-12 immagini di riferimento dei capi (media 4.48), un'immagine del modello che indossa l'outfit e annotazioni testuali dettagliate degli item e del try-on. Per bilanciare autenticità e diversità, proponiamo una pipeline di sintesi. Questa prevede la costruzione euristica di liste di outfit prima di generare i risultati del try-on, con l'intero processo sottoposto a rigorosa filtrazione automatica e validazione umana per garantire la qualità dei dati. Per investigare la difficoltà del compito, adattiamo metodi VTON allo stato dell'arte e modelli di editing immagine generici per stabilire baseline. I risultati mostrano che i metodi attuali faticano a provare outfit completi in modo seamless e a inferire correttamente stratificazione e stile, portando a disallineamenti e artefatti.
La sintesi vocale full-stream (TTS) per sistemi interattivi deve iniziare a parlare con un ritardo minimo, rimanendo al contempo controllabile man mano che il testo arriva in modo incrementale. Presentiamo VoXtream2, un modello TTS full-stream zero-shot con controllo dinamico della velocità di eloquio, che può essere aggiornato on-the-fly a metà frase. VoXtream2 combina un meccanismo di corrispondenza della distribuzione sugli stati di durata con una guida classifier-free tra i segnali di condizionamento per migliorare la controllabilità e la qualità della sintesi. Il mascheramento del prompt testuale (prompt-text masking) consente l'utilizzo di prompt audio senza testo, eliminando la necessità di trascrizione del prompt. Su benchmark zero-shot standard e su un set di test dedicato alla velocità di eloquio, VoXtream2 raggiunge risultati competitivi, sia oggettivi che soggettivi, rispetto ai baseline pubblici, nonostante un modello più piccolo e meno dati di addestramento. In modalità full-stream, opera 4 volte più velocemente del tempo reale con una latenza del primo pacchetto di 74 ms su una GPU consumer.
L'interrogazione clinica su cartelle cliniche elettroniche (EHR) può aiutare medici e pazienti ad accedere alle informazioni mediche rilevanti in modo più efficiente. Tuttavia, molti approcci recenti si basano su modelli di grandi dimensioni basati sul cloud, difficili da implementare in ambienti clinici a causa di vincoli sulla privacy e requisiti computazionali. In questo lavoro, indaghiamo fino a che punto l'interrogazione basata su EHR possa essere spinta quando limitata a un singolo notebook. Partecipiamo a tutti e quattro i sottotask della shared task ArchEHR-QA 2026 e valutiamo diversi approcci progettati per essere eseguiti su hardware commerciale. Tutti gli esperimenti vengono condotti localmente senza API esterne o infrastrutture cloud. I nostri risultati mostrano che tali sistemi possono ottenere prestazioni competitive nelle classifiche della shared task. In particolare, i nostri contributi ottengono prestazioni superiori alla media in due sottotask, e osserviamo che modelli più piccoli possono avvicinarsi alle prestazioni di sistemi molto più grandi quando configurati adeguatamente. Questi risultati suggeriscono che sistemi di QA su EHR che preservano la privacy, eseguiti completamente in locale, sono fattibili con i modelli attuali e hardware commerciale. Il codice sorgente è disponibile all'indirizzo https://github.com/ibrahimey/ArchEHR-QA-2026.
I recenti progressi nella generazione di immagini discrete hanno dimostrato che aumentare la dimensione del codebook VQ migliora significativamente la fedeltà della ricostruzione. Tuttavia, l'addestramento di modelli generativi con un codebook VQ di grandi dimensioni rimane impegnativo, richiedendo tipicamente modelli più grandi e cicli di addestramento più lunghi. In questo lavoro, proponiamo la Minimizzazione dell'Entropia Incrociata del Vicino Stocastico (SNCE), un nuovo obiettivo di addestramento progettato per affrontare le sfide di ottimizzazione dei generatori di immagini discreti con codebook di grandi dimensioni. Invece di supervisionare il modello con un target one-hot rigido, SNCE costruisce una distribuzione categoriale soft su un insieme di token vicini. La probabilità assegnata a ciascun token è proporzionale alla prossimità tra la sua incorporazione (embedding) del codice e l'incorporazione dell'immagine ground-truth, incoraggiando il modello a catturare una struttura geometrica semanticamente significativa nello spazio di incorporazione quantizzato. Abbiamo condotto esperimenti approfonditi su diverse attività: generazione condizionata da classe su ImageNet-256, sintesi di immagini su larga scala da testo e compiti di editing di immagini. I risultati mostrano che SNCE migliora significativamente la velocità di convergenza e la qualità complessiva della generazione rispetto agli obiettivi standard di entropia incrociata.