Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici (LLM) hanno trasformato radicalmente lo sviluppo software automatizzato, consentendo la traduzione diretta di descrizioni in linguaggio naturale in codice funzionale, guidando l'adozione commerciale attraverso strumenti come Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance) e Claude Code (Anthropic). Sebbene il campo si sia evoluto in modo drammatico dai sistemi basati su regole alle architetture basate su Transformer, raggiungendo miglioramenti delle prestazioni da tassi di successo a una cifra a oltre il 95% su benchmark come HumanEval. In questo lavoro, forniamo una sintesi completa e una guida pratica (una serie di esperimenti analitici e investigativi) sugli LLM per il codice, esaminando sistematicamente l'intero ciclo di vita del modello, dalla curatela dei dati al post-addestramento, attraverso paradigmi avanzati di prompt, pre-addestramento sul codice, fine-tuning supervisionato, apprendimento per rinforzo e agenti di codifica autonomi. Analizziamo le capacità di codice degli LLM generali (GPT-4, Claude, LLaMA) e degli LLM specializzati in codice (StarCoder, Code LLaMA, DeepSeek-Coder e QwenCoder), esaminando criticamente le tecniche, le decisioni progettuali e i compromessi. Inoltre, articoliamo il divario tra ricerca e pratica, tra la ricerca accademica (ad esempio, benchmark e task) e la deployment nel mondo reale (ad esempio, task di codice relativi al software), includendo la correttezza del codice, la sicurezza, la consapevolezza contestuale di grandi codebase e l'integrazione con i flussi di lavoro di sviluppo, e mappiamo le direzioni di ricerca promettenti ai bisogni pratici. Infine, conduciamo una serie di esperimenti per fornire un'analisi completa del pre-addestramento sul codice, del fine-tuning supervisionato e dell'apprendimento per rinforzo, coprendo le leggi di scaling, la selezione del framework, la sensibilità degli iperparametri, le architetture dei modelli e i confronti tra dataset.
I grandi modelli multimodali (LMM) hanno dimostrato un grande potenziale per il ragionamento video tramite Catena di Pensiero testuale. Tuttavia, rimangono vulnerabili ad allucinazioni, specialmente quando elaborano video di lunga durata in cui le evidenze sono scarse e temporalmente disperse. Ispirati dal modo in cui gli esseri umani comprendono video lunghi - prima sfogliando globalmente e poi esaminando clip rilevanti per i dettagli - introduciamo LongVT, un framework agentico end-to-end che abilita il "Pensare con Video Lunghi" tramite una Catena di Pensiero-Strumento Multimodale intervallata. Nello specifico, sfruttiamo l'innata capacità di grounding temporale degli LMM come strumento nativo di ritaglio video per zoomare su uno specifico clip video e ricampionare fotogrammi video a granularità più fine. Questo ciclo di ragionamento da globale a locale continua finché le risposte non sono ancorate all'evidenza visiva recuperata. Data la scarsità di dati di domanda-risposta (QA) a granularità fine per il compito di ragionamento su video lunghi, abbiamo curato e renderemo disponibile una suite di dati denominata VideoSIAH per facilitare sia l'addestramento che la valutazione. Nello specifico, il nostro dataset di addestramento è composto rispettivamente da 247.9K campioni per il fine-tuning supervisionato a freddo con strumenti integrati, 1.6K campioni per l'apprendimento per rinforzo agentico e 15.4K campioni per il fine-tuning con rinforzo agentico. Il nostro benchmark di valutazione consiste di 1.280 coppie QA che sono state accuratamente curate attraverso una pipeline di dati semi-automatica con validazione umana in the loop. Con una strategia di addestramento in tre fasi meticolosamente progettata e una vasta validazione empirica, LongVT supera costantemente i solidi baseline esistenti in quattro impegnativi benchmark di comprensione e ragionamento su video lunghi. I nostri codici, dati e checkpoint del modello sono pubblicamente disponibili all'indirizzo https://github.com/EvolvingLMMs-Lab/LongVT.
I modelli multimodali attuali mirano a superare le limitazioni delle rappresentazioni unimodali unificando comprensione e generazione, utilizzando spesso compiti text-to-image (T2I) per calibrare la coerenza semantica. Tuttavia, la loro dipendenza dalla generazione di immagini statiche e singole nell'addestramento e nella valutazione porta a un overfitting verso il pattern matching statico e la fusione semantica, limitando fondamentalmente la loro capacità di modellare processi dinamici che si svolgono nel tempo. Per affrontare questi vincoli, proponiamo Envision, un benchmark causale di progressione eventi per la generazione concatenata di testo a immagini multiple. Basato sulla conoscenza del mondo e strutturato dalla causalità spaziotemporale, riorganizza le dimensioni valutative esistenti e include 1.000 prompt a quattro fasi che abbracciano sei domini scientifici e umanistici. Per spostare la valutazione da immagini singole a frame sequenziali e valutare se i modelli interiorizzano veramente la conoscenza del mondo rispettando i vincoli causali-temporali, introduciamo Envision-Score, una metrica olistica che integra coerenza multidimensionale, fisicità ed estetica. La valutazione completa di 15 modelli (10 modelli T2I specializzati, 5 modelli unificati) rivela: i modelli T2I specializzati dimostrano competenza nel rendering estetico ma mancano di conoscenza intrinseca del mondo. I modelli multimodali unificati colmano questa lacuna, superando costantemente le controparti specializzate nella coerenza narrativa causale. Tuttavia, anche queste architetture unificate rimangono subordinate ai modelli closed-source e faticano a superare la sfida principale della coerenza spaziotemporale. Ciò dimostra che un focus su immagini singole causalmente isolate ostacola il ragionamento e la generazione multi-frame, promuovendo il pattern matching statico rispetto alla modellazione dinamica del mondo, limitando in definitiva l'interiorizzazione della conoscenza mondiale e la generazione.
Questo articolo propone una nuova formulazione per l'apprendimento per rinforzo (RL) con modelli linguistici di grandi dimensioni, spiegando il motivo e le condizioni in cui la ricompensa reale a livello di sequenza può essere ottimizzata tramite un obiettivo surrogato a livello di token in metodi di policy gradient come REINFORCE. Nello specifico, attraverso un'approssimazione del primo ordine, dimostriamo che questo surrogato diventa sempre più valido solo quando vengono minimizzati sia la discrepanza addestramento-inferenza che l'obsolescenza della policy. Questa intuizione fornisce una spiegazione principiata per il ruolo cruciale di diverse tecniche ampiamente adottate per stabilizzare l'addestramento RL, inclusi la correzione tramite importance sampling, il clipping e in particolare il Routing Replay per modelli Mixture-of-Experts (MoE). Attraverso esperimenti estesi con un modello MoE da 30B per un totale di centinaia di migliaia di ore di GPU, dimostriamo che per l'addestramento on-policy, l'algoritmo di base di policy gradient con correzione tramite importance sampling raggiunge la massima stabilità di addestramento. Quando vengono introdotti aggiornamenti off-policy per accelerare la convergenza, la combinazione di clipping e Routing Replay diventa essenziale per mitigare l'instabilità causata dall'obsolescenza della policy. È importante notare che una volta stabilizzato l'addestramento, un'ottimizzazione prolungata produce costantemente prestazioni finali comparabili, indipendentemente dall'inizializzazione da cold-start. Confidiamo che le intuizioni condivise e le ricette sviluppate per un addestramento RL stabile possano facilitare la ricerca futura.
I Deep Research Agent (DRA) mirano a produrre automaticamente report di livello analitico attraverso un processo iterativo di recupero e sintesi delle informazioni. Tuttavia, la maggior parte dei DRA esistenti è stata validata su benchmark di domanda-risposta, mentre la ricerca sulla generazione di report completi rimane trascurata. Peggio ancora, gli attuali benchmark per la sintesi di report soffrono di complessità del compito e metriche soggettive, il che non riflette le esigenze degli utenti e limita l'utilità pratica dei report generati. Per colmare queste lacune, presentiamo Fine-grained DEepResearch bench (FINDER), un benchmark potenziato costituito da 100 task di ricerca curati da esseri umani con 419 elementi di checklist strutturati che standardizzano la struttura del report, la profondità analitica e il fondamento fattuale. Sulla base di circa 1.000 report prodotti da DRA mainstream, proponiamo inoltre Deep rEsearch Failure Taxonomy (DEFT), la prima tassonomia dei fallimenti per gli agenti di deep research. DEFT contiene 14 modalità di fallimento granulari relative a ragionamento, recupero e generazione, ed è costruita sulla grounded theory con co-annotazione umana-LLM e validazione dell'affidabilità inter-annotatore. I nostri risultati sperimentali rivelano che gli attuali DRA non hanno difficoltà nella comprensione del compito, ma nell'integrazione delle evidenze, nella verifica e nella pianificazione resiliente al ragionamento.
I recenti modelli di diffusione video sono in grado di sintetizzare clip visivamente accattivanti, ma spesso violano le leggi fisiche fondamentali: gli oggetti fluttuano, le accelerazioni divergono e le collisioni si comportano in modo incoerente, rivelando un divario persistente tra realismo visivo e realismo fisico. Proponiamo NewtonRewards, il primo framework di post-training basato sulla fisica per la generazione video, fondato su ricompense verificabili. Invece di affidarsi a feedback umani o di modelli linguistici visivi (VLM), NewtonRewards estrae proxy misurabili dai video generati utilizzando modelli di utilità congelati: il flusso ottico funge da proxy per la velocità, mentre le caratteristiche di aspetto di alto livello servono come proxy per la massa. Questi proxy consentono l'applicazione esplicita della struttura newtoniana attraverso due ricompense complementari: un vincolo cinematico newtoniano che impone dinamiche ad accelerazione costante e una ricompensa di conservazione della massa che previene soluzioni banali e degeneri. Valutiamo NewtonRewards su cinque Primitive di Moto Newtoniane (caduta libera, lancio orizzontale/parabolico e scivolamento lungo un piano inclinato verso il basso/l'alto) utilizzando il nostro nuovo benchmark su larga scala, NewtonBench-60K. Attraverso tutte le primitive, sia nelle metriche visive che fisiche, NewtonRewards migliora costantemente la plausibilità fisica, la fluidità del movimento e la coerenza temporale rispetto ai precedenti metodi di post-training. Inoltre, mantiene prestazioni solide sotto variazioni out-of-distribution di altezza, velocità e attrito. I nostri risultati dimostrano che le ricompense verificabili basate sulla fisica offrono un percorso scalabile verso la generazione video consapevole della fisica.
I lavori precedenti hanno esplorato varie attività di generazione personalizzata a partire da un'immagine di riferimento, ma continuano a presentare limitazioni nella generazione di dettagli fine-granulari consistenti. In questo articolo, il nostro obiettivo è risolvere il problema dell'incoerenza delle immagini generate applicando un approccio di post-editing guidato dal riferimento e presentiamo il nostro ImageCritic. Inizialmente costruiamo un dataset di triplette riferimento-degradato-bersaglio ottenute tramite selezione basata su VLM e degradazione esplicita, che simula efficacemente le comuni imprecisioni o incoerenze osservate nei modelli di generazione esistenti. Inoltre, basandoci su un esame approfondito dei meccanismi di attenzione e delle rappresentazioni intrinseche del modello, ideiamo di conseguenza una loss di allineamento dell'attenzione e un codificatore di dettagli per rettificare con precisione le incoerenze. ImageCritic può essere integrato in un framework ad agente per rilevare automaticamente le incoerenze e correggerle tramite editing multiplo e locale in scenari complessi. Esperimenti estensivi dimostrano che ImageCritic può risolvere efficacemente i problemi legati ai dettagli in vari scenari di generazione personalizzata, apportando miglioramenti significativi rispetto ai metodi esistenti.
Gli attuali modelli di diffusione video autoregressivi sono limitati da tre colli di bottiglia fondamentali: (i) l'orizzonte temporale finito imposto dall'Embedding Posizionale Rotatorio 3D (3D-RoPE) del modello base, (ii) la lenta reattività ai prompt nel mantenere un controllo granulare delle azioni durante generazioni di lunga durata, e (iii) l'incapacità di realizzare transizioni cinematografiche discontinue all'interno di un unico flusso generativo. Introduciamo infty-RoPE, un framework unificato per l'inferenza che affronta tutti e tre i limiti attraverso tre componenti interconnesse: RoPE Blocco-Relativistico, KV Flush e RoPE Cut. Il RoPE Blocco-Relativistico riformula la codifica temporale come un sistema di riferimento locale in movimento, in cui ogni nuovo blocco latente generato viene ruotato rispetto all'orizzonte massimo di frame del modello base, mentre i blocchi precedenti vengono ruotati all'indietro per preservare la geometria temporale relativa. Questa formulazione relativistico elimina le posizioni temporali fisse, abilitando una generazione video continua ben oltre i limiti posizionali base. Per ottenere un controllo granulare delle azioni senza ricodifiche, KV Flush rinnova la cache KV conservando solo due frame latenti, il sink globale e l'ultimo frame latente generato, garantendo così una reattività immediata al prompt. Infine, RoPE Cut introduce discontinuità controllate nelle coordinate RoPE temporali, permettendo transizioni di scena multi-cut all'interno di una singola generazione continua. Insieme, queste componenti stabiliscono infty-RoPE come base training-free per la diffusione video a orizzonte infinito, controllabile e cinematografica. Esperimenti completi dimostrano che infty-RoPE supera costantemente i precedenti modelli autoregressivi nei punteggi complessivi di VBench.
I modelli multimodali unificati (UMM) mirano a svolgere congiuntamente la comprensione e la generazione multimodale all'interno di un unico framework. Presentiamo TUNA, un UMM nativo che costruisce una rappresentazione visiva continua e unificata concatenando in cascata un codificatore VAE con un codificatore di rappresentazione. Questo spazio di rappresentazione unificato consente l'elaborazione end-to-end di immagini e video sia per compiti di comprensione che di generazione. Rispetto ai precedenti UMM con rappresentazioni disaccoppiate, lo spazio visivo unificato di TUNA evita le discrepanze di formato di rappresentazione introdotte da encoder separati, superando le alternative disaccoppiate sia nella comprensione che nella generazione. Inoltre, osserviamo che codificatori di rappresentazione pre-addestrati più potenti producono costantemente prestazioni migliori in tutti i compiti multimodali, sottolineando l'importanza del codificatore di rappresentazione. Infine, in questa configurazione unificata, l'addestramento congiunto su dati di comprensione e generazione permette ai due compiti di trarre beneficio reciproco anziché interferire. I nostri ampi esperimenti sui benchmark di comprensione e generazione multimodale mostrano che TUNA raggiunge risultati allo stato dell'arte nella comprensione di immagini e video, nella generazione di immagini e video, e nell'editing di immagini, dimostrando l'efficacia e la scalabilità del suo design a rappresentazione unificata.
Presentiamo LFM2, una famiglia di Liquid Foundation Models progettati per un'implementazione efficiente su dispositivo e solide capacità operative. Utilizzando una ricerca architetturale hardware-in-the-loop sotto vincoli di latenza edge e memoria, otteniamo un'architettura ibrida compatta che combina convoluzioni corte con gate con un numero ridotto di blocchi di attenzione a query raggruppate, garantendo fino a 2 volte più velocità in fase di prefill e decode su CPU rispetto a modelli di dimensioni simili. La famiglia LFM2 copre un range di 350M-8.3B di parametri, inclusi modelli densi (350M, 700M, 1.2B, 2.6B) e una variante mixture-of-experts (8.3B totali, 1.5B attivi), tutti con lunghezza del contesto di 32K. La pipeline di addestramento di LFM2 include un obiettivo di distillazione della conoscenza Top-K temperata e disaccoppiata che evita mismatch di supporto; un curriculum learning con dati ordinati per difficoltà; e una ricetta post-addestramento in tre fasi: fine-tuning supervisionato, ottimizzazione delle preferenze con lunghezza normalizzata e fusione di modelli. Pre-addestrati su 10-12T di token, i modelli LFM2 raggiungono risultati solidi su benchmark diversificati; ad esempio, LFM2-2.6B raggiunge il 79.56% su IFEval e l'82.41% su GSM8K. Abbiamo inoltre sviluppato varianti multimodali e per retrieval: LFM2-VL per compiti visione-linguaggio, LFM2-Audio per l'audio e LFM2-ColBERT per il retrieval. LFM2-VL supporta compromessi regolabili accuratezza-latenza tramite elaborazione visiva efficiente nei token, mentre LFM2-Audio separa i percorsi di input e output audio per abilitare interazioni speech-to-speech in tempo reale competitive con modelli 3 volte più grandi. LFM2-ColBERT fornisce un encoder a bassa latenza per query e documenti, abilitando retrieval ad alte prestazioni in più lingue. Tutti i modelli sono rilasciati con pesi aperti e pacchetti di deployment per ExecuTorch, llama.cpp e vLLM, rendendo LFM2 una base pratica per applicazioni edge che richiedono inferenza veloce, efficiente in memoria e solide capacità operative.
I grafi della conoscenza (KG) forniscono una base strutturata e verificabile per i grandi modelli linguistici (LLM), ma i sistemi attuali basati su LLM utilizzano comunemente i KG come strutture ausiliarie per il recupero di testo, lasciando la loro qualità intrinseca poco esplorata. In questo lavoro, proponiamo Wikontic, una pipeline multi-stadio che costruisce KG da testo open-domain estraendo triplette candidate con qualificatori, applicando vincoli di tipo e relazione basati su Wikidata, e normalizzando le entità per ridurre la duplicazione. I KG risultanti sono compatti, coerenti con l'ontologia e ben connessi; su MuSiQue, l'entità della risposta corretta appare nel 96% delle triplette generate. Su HotpotQA, la nostra configurazione che utilizza solo triplette raggiunge un F1 del 76.0, e su MuSiQue un F1 del 59.8, eguagliando o superando diverse baseline di generazione aumentata per recupero che richiedono ancora il contesto testuale. Inoltre, Wikontic raggiunge prestazioni all'avanguardia nella ritenzione delle informazioni sul benchmark MINE-1 (86%), superando i metodi precedenti di costruzione di KG. Wikontic è anche efficiente in fase di costruzione: la generazione del KG utilizza meno di 1.000 token di output, circa 3 volte in meno rispetto ad AriGraph e <1/20 di GraphRAG. La pipeline proposta migliora la qualità del KG generato e offre una soluzione scalabile per sfruttare la conoscenza strutturata negli LLM.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) sono stati guidati dalle loro capacità di ragionamento emergente, in particolare attraverso il prompting a catena di pensiero (CoT) estesa, che consente un'esplorazione e una deliberazione approfondite. Nonostante questi progressi, gli LLM con CoT lunga spesso mostrano comportamenti di ragionamento subottimali, come il sovrapensiero e catene di ragionamento eccessivamente prolungate, che possono compromettere le prestazioni. In questo articolo, analizziamo i processi di ragionamento attraverso una lente ottimizzativa, inquadrando il CoT come una procedura di discesa del gradiente in cui ogni passo di ragionamento costituisce un aggiornamento verso la risoluzione del problema. Basandoci su questa prospettiva, introduciamo RePro (Rectifying Process-level Reward), un nuovo approccio per affinare il ragionamento degli LLM durante il post-addestramento. RePro definisce una funzione obiettivo surrogata per valutare il processo di ottimizzazione sottostante al CoT, utilizzando un meccanismo di punteggio duale per quantificarne l'intensità e la stabilità. Questi punteggi vengono aggregati in una ricompensa composita a livello di processo, integrata perfettamente nelle pipeline di apprendimento per rinforzo con ricompense verificabili (RLVR) per ottimizzare gli LLM. Esperimenti estesi su più algoritmi di apprendimento per rinforzo e vari LLM, valutati su benchmark che spaziano dalla matematica alle scienze e alla programmazione, dimostrano che RePro migliora costantemente le prestazioni di ragionamento e mitiga i comportamenti di ragionamento subottimali.
I modelli di diffusione sono emersi come una classe leader di modelli generativi, ma il loro processo di campionamento iterativo rimane computazionalmente costoso. La distillazione dei timestep è una tecnica promettente per accelerare la generazione, ma richiede spesso un addestramento esteso e porta a un degrado della qualità dell'immagine. Inoltre, l'addestramento di precisione (fine-tuning) di questi modelli distillati per obiettivi specifici, come l'attrattiva estetica o le preferenze dell'utente, utilizzando l'Apprendimento per Rinforzo (RL), è notoriamente instabile e facilmente soggetto a reward hacking. In questo lavoro, introduciamo Flash-DMD, un nuovo framework che consente una convergenza rapida con la distillazione e un affinamento congiunto basato su RL. Nello specifico, proponiamo innanzitutto una strategia di distillazione efficiente e consapevole del timestep che riduce significativamente il costo di addestramento migliorando il realismo, superando DMD2 con solo il 2.1% del suo costo di addestramento. In secondo luogo, introduciamo uno schema di addestramento congiunto in cui il modello viene raffinato con un obiettivo RL mentre l'addestramento della distillazione dei timestep continua simultaneamente. Dimostriamo che la perdita stabile e ben definita derivante dalla distillazione in corso agisce come un potente regolarizzatore, stabilizzando efficacemente il processo di addestramento RL e prevenendo il collasso della policy. Esperimenti estesi su modelli basati su score e su flow matching mostrano che il nostro Flash-DMD proposto non solo converge significativamente più velocemente, ma raggiunge anche una qualità di generazione allo stato dell'arte nel regime di campionamento a pochi passi, superando i metodi esistenti in termini di qualità visiva, preferenza umana e metriche di allineamento testo-immagine. Il nostro lavoro presenta un paradigma efficace per l'addestramento di modelli generativi efficienti, ad alta fedeltà e stabili. I codici saranno disponibili a breve.
I modelli Vision-Language-Action (VLA) stanno diventando sempre più capaci in una vasta gamma di compiti robotici. Tuttavia, il loro dispiegamento nel mondo reale rimane lento e inefficiente: i video dimostrativi sono spesso accelerati di 5-10x per apparire fluidi, con evidenti pause nelle azioni e reazioni ritardate ai cambiamenti ambientali. L'inferenza asincrona offre una soluzione promettente per ottenere un controllo continuo e a bassa latenza, permettendo ai robot di eseguire azioni e compiere inferenze simultaneamente. Tuttavia, poiché il robot e l'ambiente continuano a evolversi durante l'inferenza, si crea un disallineamento temporale tra l'intervallo di predizione e quello di esecuzione. Ciò porta a una significativa instabilità delle azioni, mentre i metodi esistenti o degradano l'accuratezza o introducono un sovraccarico computazionale per mitigarla. Proponiamo VLASH, un framework generale per l'inferenza asincrona dei VLA che fornisce un controllo di reazione fluido, accurato e veloce senza sovraccarichi aggiuntivi o modifiche architetturali. VLASH stima lo stato futuro al momento dell'esecuzione facendo avanzare lo stato del robot con il chunk d'azione generato in precedenza, colmando così il divario tra predizione ed esecuzione. Gli esperimenti mostrano che VLASH raggiunge un speedup fino a 2.03x e riduce la latenza di reazione fino a 17.4x rispetto all'inferenza sincrona, preservando completamente l'accuratezza originale. Inoltre, permette ai VLA di gestire compiti che richiedono reazioni rapide e alta precisione, come giocare a ping-pong o a whack-a-mole, dove l'inferenza sincrona tradizionale fallisce. Il codice è disponibile all'indirizzo https://github.com/mit-han-lab/vlash
Presentiamo GR-RL, un framework di apprendimento robotico che trasforma una politica generalista visione-linguaggio-azione (VLA) in uno specialista altamente capace per la manipolazione destra di lungo orizzonte. L'assunzione dell'optimalità delle dimostrazioni umane è centrale nelle politiche VLA esistenti. Tuttavia, sosteniamo che in compiti di manipolazione altamente destri e precisi, le dimostrazioni umane sono rumorose e subottimali. GR-RL propone una pipeline di addestramento multi-stadio che filtra, aumenta e rinforza le dimostrazioni tramite apprendimento per rinforzo. In primo luogo, GR-RL apprende una funzione di avanzamento del task condizionata da visione e linguaggio, filtra le traiettorie dimostrative e conserva solo le transizioni che contribuiscono positivamente al progresso. Nello specifico, dimostriamo che applicando direttamente l'RL offline con ricompensa sparsa, i valori-Q risultanti possono essere trattati come una robusta funzione di progresso. Successivamente, introduciamo un aumento basato sulla simmetria morfologica che migliora notevolmente la generalizzazione e le prestazioni di GR-RL. Infine, per allineare meglio la politica VLA con i suoi comportamenti in fase di deploy per un controllo ad alta precisione, eseguiamo RL online apprendendo un predittore del rumore nello spazio latente. Con questa pipeline, GR-RL è, a nostra conoscenza, la prima politica basata su apprendimento in grado di allacciare autonomamente una scarpa facendo passare i lacci attraverso multiple asole con un tasso di successo dell'83.3%, un compito che richiede ragionamento a lungo orizzonte, precisione a livello millimetrico e interazione compliant con corpi soffici. Speriamo che GR-RL rappresenti un passo verso l'abilitazione di modelli di fondazione robotici generalisti a specializzarsi in esperti affidabili per il mondo reale.
Il pre-addestramento su larga scala video-testo ottiene prestazioni elevate, ma dipende da didascalie sintetiche e rumorose con una copertura semantica limitata, trascurando spesso la conoscenza implicita del mondo come il movimento degli oggetti, la geometria 3D e i segnali fisici. Al contrario, la modellazione video mascherata (MVM) sfrutta direttamente le strutture spaziotemporali, ma rimane indietro rispetto ai metodi supervisionati da testo in compiti generali. Riteniamo che questo divario derivi da problemi architetturali trascurati: la ricostruzione a livello di pixel fatica a convergere e la sua esigenza di basso livello spesso confligge con la semantica, mentre la predizione latente spesso incoraggia l'apprendimento di scorciatoie. Per affrontare ciò, separiamo il tradizionale design encoder-decoder in un framework Encoder-Predictor-Decoder (EPD), in cui il predictor funge da modello latente del mondo, e proponiamo InternVideo-Next, uno schema di pre-addestramento in due fasi che costruisce uno spazio latente semanticamente coerente ma che preserva i dettagli per questo modello mondiale. In primo luogo, il decodificatore lineare convenzionale nella MVM a pixel impone che l'output latente del predictor sia proiettato linearmente, e quindi separabile nello spazio dei pixel, causando il conflitto con l'astrazione semantica. La nostra Fase 1 propone un decodificatore diffusion condizionale e inietta prior semantici affidabili a livello di immagine per potenziare la semantica e la convergenza, colmando così la fedeltà a livello di pixel con l'astrazione semantica di alto livello. La Fase 2 apprende ulteriormente la conoscenza del mondo predicendo i target congelati della Fase 1 all'interno di questo spazio, mitigando l'apprendimento per scorciatoia. Addestrato su video pubblici non etichettati, InternVideo-Next raggiunge risultati all'avanguardia in vari benchmark e fornisce un percorso scalabile verso l'apprendimento di rappresentazioni video generali.
I modelli generativi basati su flusso hanno recentemente dimostrato prestazioni elevate, ma il campionamento si basa tipicamente sulla costosa integrazione numerica di equazioni differenziali ordinarie (ODE). Rectified Flow consente un campionamento in un singolo passo apprendendo traiettorie di probabilità quasi rettilinee, ma il raggiungimento di tale linearità richiede multiple iterazioni di reflow computazionalmente intensive. MeanFlow realizza la generazione in un passo modellando direttamente la velocità media nel tempo; tuttavia, quando addestrato su flussi altamente curvati, soffre di convergenza lenta e supervisione rumorosa. Per affrontare queste limitazioni, proponiamo Rectified MeanFlow, un framework che modella il campo di velocità media lungo la traiettoria rettificata utilizzando un solo passo di reflow. Ciò elimina la necessità di traiettorie perfettamente raddrizzate consentendo al contempo un addestramento efficiente. Inoltre, introduciamo un'euristica di troncamento semplice ma efficace che mira a ridurre la curvatura residua e a migliorare ulteriormente le prestazioni. Esperimenti estensivi su ImageNet a risoluzioni 64, 256 e 512 mostrano che Re-MeanFlow supera costantemente i precedenti metodi di distillazione di flusso a un passo e Rectified Flow sia nella qualità del campione che nell'efficienza dell'addestramento. Il codice è disponibile all'indirizzo https://github.com/Xinxi-Zhang/Re-MeanFlow.
In questo articolo, evidenziamo come l'obiettivo degli algoritmi di retrieval sia allinearsi con l'LLM, obiettivo simile a quello della distillazione della conoscenza negli LLM. Analizziamo la similarità nella focalizzazione dell'informazione tra il modello linguistico distillato (DLM) e l'LLM originale dalla prospettiva della teoria dell'informazione, e proponiamo quindi un nuovo paradigma che utilizza un DLM come algoritmo di retrieval. Sulla base di questa intuizione, presentiamo SpeContext, una progettazione congiunta di algoritmo e sistema per il ragionamento a contesto lungo. (1) A livello algoritmico, SpeContext propone un modulo di retrieval leggero basato sui pesi di attenzione a livello di head del DLM, ottenendo una riduzione dei parametri >90% attraverso la potatura della ridondanza. (2) A livello di sistema, SpeContext progetta un flusso di dati di prelettura asincrono tramite una strategia di caricamento elastico, sovrapponendo efficacemente il retrieval della KV cache con il calcolo dell'LLM. (3) A livello di compilazione, SpeContext costruisce un modello di memoria teorico e implementa un sistema di gestione della memoria adattativo per ottenere accelerazione massimizzando l'utilizzo della memoria GPU. Distribuiamo e valutiamo SpeContext in due ambienti con risorse limitate, cloud e edge. Esperimenti estesi dimostrano che, rispetto al framework Huggingface, SpeContext raggiunge un miglioramento di throughput fino a 24.89x nel cloud e un'accelerazione di 10.06x nell'edge con una perdita di accuratezza trascurabile, spostando in avanti la frontiera di Pareto tra accuratezza e throughput.
I modelli linguistici di grandi dimensioni per video in streaming (VideoLLM) hanno dimostrato prestazioni impressionanti in varie attività di comprensione video, ma affrontano sfide significative nella distribuzione in tempo reale a causa dell'elevato costo computazionale dell'elaborazione di token visivi densi da flussi video continui. Negli scenari di video in streaming, il collo di bottiglia principale risiede nella fase di codifica del Vision Transformer (ViT), dove l'elaborazione ridondante di frame temporalmente simili porta a inefficienze. Inoltre, le sequenze di token gonfiate durante il pre-riempimento del LLM aggravano ulteriormente la latenza e l'overhead di memoria. Per affrontare queste sfide, proponiamo Streaming Token Compression (STC), un framework gerarchico plug-and-play che si integra perfettamente negli esistenti VideoLLM in streaming, ottimizzando sia la fase di codifica ViT che quella di pre-riempimento del LLM per accelerare l'elaborazione. STC introduce due acceleratori a livello di token: STC-Cacher, che riduce l'overhead della codifica ViT memorizzando nella cache e riutilizzando le feature di frame temporalmente simili, e STC-Pruner, che comprime la sequenza di token visivi prima che essa entri nel LLM, preservando solo i token più salienti in base alla rilevanza sia spaziale che temporale. Esperimenti estesi su quattro VideoLLM in streaming di base attraverso cinque benchmark dimostrano che STC supera altri metodi di compressione. In particolare, STC mantiene fino al 99% dell'accuratezza sul framework ReKV riducendo contemporaneamente la latenza di codifica ViT e la latenza di pre-riempimento del LLM rispettivamente del 24,5% e del 45,3%.
I grandi modelli linguistici (LLM) sono alla base di applicazioni nella generazione di codice, nel ragionamento matematico e in flussi di lavoro basati su agenti. Nella pratica, i sistemi accedono agli LLM tramite API commerciali o deployment open-source, e il panorama dei modelli (ad es., GPT, Claude, Llama) evolve rapidamente. Questa rapida evoluzione costringe a frequenti cambi di modello, guidati da capacità, costo, vincoli di deployment e privacy. Tuttavia, i prompt sono altamente sensibili al modello: riutilizzare un prompt progettato per un modello su un altro spesso produce prestazioni sostanzialmente peggiori rispetto a un prompt ottimizzato per il modello target. Noi definiamo questo fenomeno *Model Drifting* (Deriva del Modello). Attraverso un'ampia analisi empirica su diverse configurazioni di LLM, dimostriamo che la deriva del modello è sia comune che severa. Per affrontare questa sfida, introduciamo PromptBridge, un framework *training-free* che preserva l'efficacia del prompt durante i cambi di modello, abilitando il trasferimento di prompt tra modelli senza costose ri-ottimizzazioni per-task o per-modello. PromptBridge richiede solo un piccolo insieme di task di allineamento per la calibrazione. Applica prima l'*Model-Adaptive Reflective Prompt Evolution* (MAP-RPE) per ottenere prompt ottimali specifici per task e modello tramite un raffinamento riflessivo iterativo e una valutazione quantitativa. Utilizzando le coppie di prompt calibrate risultanti per i modelli sorgente e target, PromptBridge apprende una mappatura di prompt cross-model. Al momento del test, cioè per un task non visto, dato un prompt per il modello sorgente, questa mappatura produce direttamente un prompt ottimizzato per il modello target. Esperimenti in contesti ad agente singolo e multi-agente mostrano che PromptBridge migliora costantemente l'accuratezza a valle riducendo al contempo lo sforzo di migrazione. Il codice sarà presto disponibile.
Lo scaling del calcolo al momento del test è emerso come un paradigma potente per potenziare il ragionamento matematico nei grandi modelli linguistici (LLM) allocando risorse computazionali aggiuntive durante l'inferenza. Tuttavia, i metodi attuali impiegano una distribuzione uniforme delle risorse su tutti i sotto-problemi di ragionamento, creando colli di bottiglia fondamentali in cui i sotto-problemi complessi ricevono attenzione insufficiente mentre le operazioni di routine consumano risorse sproporzionate. Questa allocazione uniforme crea colli di bottiglia prestazionali in cui risorse computazionali aggiuntive producono rendimenti decrescenti. Ispirati dalla teoria del doppio processo, proponiamo SCALE (Selective Resource Allocation), un framework che alloca selettivamente le risorse computazionali in base alla difficoltà del sotto-problema. SCALE opera attraverso quattro fasi: (1) scomposizione del problema in sotto-problemi di ragionamento sequenziali, (2) valutazione della difficoltà di ciascun sotto-problema per distinguere tra operazioni di routine e sotto-problemi computazionalmente impegnativi, (3) assegnazione selettiva della modalità di elaborazione tra Sistema 1 per i sotto-problemi semplici e Sistema 2 per quelli complessi, e (4) esecuzione sequenziale con propagazione del contesto. Concentrando le risorse sui sotto-problemi complessi mentre si elaborano efficientemente le operazioni di routine, SCALE raggiunge miglioramenti prestazionali sostanziali con un utilizzo superiore delle risorse. Esperimenti estensivi dimostrano che SCALE supera significativamente i baseline di scaling uniforme, raggiungendo miglioramenti di accuratezza fino a 13,75 punti percentuali (dal 57,50% al 71,25% su AIME25) riducendo simultaneamente i costi computazionali del 33%-53%, rappresentando un avanzamento significativo nello scaling al momento del test che affronta le limitazioni fondamentali degli approcci attuali.
I modelli multilingue text-to-image (T2I) hanno fatto rapidi progressi in termini di realismo visivo e allineamento semantico, e sono oggi ampiamente utilizzati. Tuttavia, i risultati variano a seconda dei contesti culturali: poiché la lingua veicola connotazioni culturali, le immagini sintetizzate a partire da prompt multilingue dovrebbero preservare una coerenza culturale cross-linguale. Conduciamo un'analisi completa che dimostra come gli attuali modelli T2I producano spesso risultati culturalmente neutri o influenzati dalla lingua inglese quando sollecitati con prompt multilingue. L'analisi di due modelli rappresentativi indica che il problema non origina da una mancanza di conoscenza culturale, ma da un'attivazione insufficiente delle rappresentazioni correlate alla cultura. Proponiamo un metodo di probing che localizza i segnali sensibili alla cultura in un piccolo insieme di neuroni situati in alcuni layer fissi. Guidati da questa scoperta, introduciamo due strategie di allineamento complementari: (1) un'attivazione culturale al momento dell'inferenza che amplifica i neuroni identificati senza fine-tuning della backbone; e (2) un potenziamento culturale mirato ai layer che aggiorna solo gli strati culturalmente rilevanti. Esperimenti sul nostro CultureBench dimostrano miglioramenti consistenti rispetto a baseline solide nella coerenza culturale, preservando al contempo fedeltà e diversità.
La rapida crescita dei token visivi nei modelli linguistici multimodali di grandi dimensioni (MLLM) comporta un consumo eccessivo di memoria e una latenza di inferenza elevata, specialmente durante l'elaborazione di immagini e video ad alta risoluzione. La potatura dei token è una tecnica utilizzata per mitigare questo problema rimuovendo la ridondanza, ma i metodi esistenti spesso ignorano la rilevanza rispetto alla query dell'utente o soffrono delle limitazioni dei meccanismi di attenzione, riducendo la loro adattabilità ed efficacia. Per affrontare queste sfide, proponiamo Script, un metodo di potatura plug-and-play che non richiede riaddestramento e si generalizza su diversi MLLM. Script comprende due moduli: un modulo di potatura a struttura grafica che rimuove i token visivi ridondanti e un modulo di potatura semantica condizionato dalla query che preserva le informazioni visive rilevanti per la query. Insieme, essi migliorano le prestazioni sui compiti multimodali. Esperimenti su quattordici benchmark relativi a compiti di comprensione di immagini e video mostrano che Script raggiunge costantemente un'efficienza del modello e un'accuratezza predittiva superiori rispetto ai metodi di potatura esistenti. Su LLaVA-NeXT-7B, raggiunge un accelerazione nella fase di prefill fino a 6,8x e una riduzione dei FLOP di 10x, mantenendo il 96,88% delle prestazioni originali.
Il recupero di proprietà geometriche a livello di pixel da una singola immagine è fondamentalmente mal posto a causa dell'ambiguità dell'aspetto e delle mappature non iniettive tra osservazioni 2D e strutture 3D. Sebbene i modelli di regressione discriminativa raggiungano prestazioni elevate attraverso una supervisione su larga scala, il loro successo è limitato dalla scala, qualità e diversità dei dati disponibili e da un ragionamento fisico limitato. I recenti modelli di diffusione mostrano potenti prior mondiali che codificano geometria e semantica apprese da enormi dati immagine-testo, ma il riutilizzo diretto della loro formulazione generativa stocastica è subottimale per l'inferenza geometrica deterministica: la prima è ottimizzata per una generazione di immagini diversificata e ad alta fedeltà, mentre la seconda richiede previsioni stabili e accurate. In questo lavoro, proponiamo Lotus-2, un framework deterministico a due stadi per una predizione densa geometrica stabile, accurata e granulare, con l'obiettivo di fornire un protocollo di adattamento ottimale per sfruttare appieno le prior generative pre-addestrate. Nello specifico, nella prima fase, il predittore principale impiega una formulazione deterministica a singolo passo con un obiettivo di dati puliti e un modulo leggero di continuità locale (LCM) per generare strutture globalmente coerenti senza artefatti a griglia. Nella seconda fase, l'affinatore di dettagli esegue una raffinatura a flusso rettificato multi-passo e vincolata all'interno del manifold definito dal predittore principale, migliorando la geometria fine attraverso un flusso deterministico senza rumore. Utilizzando solo 59K campioni di addestramento, meno dell'1% dei dataset su larga scala esistenti, Lotus-2 stabilisce nuovi risultati all'avanguardia nella stima della profondità monoculare e in una previsione della normale di superficie altamente competitiva. Questi risultati dimostrano che i modelli di diffusione possono fungere da prior mondiali deterministiche, abilitando un ragionamento geometrico di alta qualità al di là dei paradigmi tradizionali discriminativi e generativi.
La comprensione di video in streaming richiede ai modelli non solo di elaborare fotogrammi in ingresso temporalmente, ma anche di anticipare l'intenzione dell'utente per applicazioni realistiche come gli occhiali per la realtà aumentata. Mentre i benchmark di streaming precedenti valutano il ragionamento temporale, nessuno misura se i Modelli Linguistici Multimodali (MLLM) possono interpretare o sfruttare i segnali dello sguardo umano in un contesto di streaming. Per colmare questa lacuna, introduciamo StreamGaze, il primo benchmark progettato per valutare quanto efficacemente gli MLLM utilizzano lo sguardo per il ragionamento temporale e proattivo in video in streaming. StreamGaze introduce compiti proattivi, presenti e passati guidati dallo sguardo che valutano in modo completo la comprensione dei video in streaming. Questi compiti valutano se i modelli possono utilizzare lo sguardo in tempo reale per seguire l'attenzione che si sposta e dedurre le intenzioni dell'utente partendo solo dai fotogrammi passati e attualmente osservati. Per costruire StreamGaze, sviluppiamo una pipeline di generazione di Domande e Risposte (QA) per video-sguardo che allinea video in prima persona con traiettorie grezze dello sguardo tramite estrazione delle fissazioni, prompt visivi specifici per regione e costruzione di scanpath. Questa pipeline produce coppie QA ancorate spazio-temporalmente che riflettono fedelmente le dinamiche percettive umane. In tutti i compiti di StreamGaze, osserviamo divari prestazionali sostanziali tra gli MLLM all'avanguardia e le prestazioni umane, rivelando limitazioni fondamentali nel ragionamento temporale basato sullo sguardo, nella modellazione delle intenzioni e nella previsione proattiva. Forniamo inoltre analisi dettagliate delle strategie di prompting dello sguardo, dei comportamenti di ragionamento e delle modalità di errore specifiche per compito, offrendo una comprensione più profonda del perché gli attuali MLLM facciano fatica e di quali capacità i modelli futuri debbano sviluppare. Tutti i dati e il codice saranno rilasciati pubblicamente per supportare la ricerca continua nella comprensione dei video in streaming guidata dallo sguardo.
I recenti modelli di ragionamento multimodale, ispirati a DeepSeek-R1, hanno fatto progredire significativamente i sistemi visione-linguaggio. Tuttavia, nei compiti di telerilevamento (RS), osserviamo un diffuso pseudo-ragionamento: i modelli narrano il processo di ragionamento piuttosto che ragionare genuinamente verso la risposta corretta basandosi sull'evidenza visiva. Attribuiamo ciò all'Effetto Sguardo (Glance Effect), dove una singola percezione approssimativa di immagini RS su larga scala risulta in una comprensione incompleta e in un ragionamento basato sull'auto-consistenza linguistica invece che sull'evidenza visiva. Per affrontare questo problema, proponiamo RS-EoT (Remote Sensing Evidence-of-Thought), un paradigma iterativo guidato dal linguaggio per la ricerca di evidenza visiva. Per instillar questo paradigma, proponiamo SocraticAgent, un sistema multi-agente a gioco autonomo che sintetizza tracce di ragionamento attraverso cicli alternati di ragionamento e ispezione visiva. Per potenziare e generalizzare questi pattern, proponiamo una strategia RL progressiva in due fasi: prima, RL su compiti di Grounding granulari per potenziare le capacità RS-EoT, seguita da RL su RS VQA per generalizzare a scenari di comprensione più ampi. Gli esperimenti mostrano che RS-EoT raggiunge prestazioni state-of-the-art su molteplici benchmark di RS VQA e grounding. Le analisi rivelano chiari cicli iterativi di ragionamento e ricerca di evidenza, confermando che RS-EoT mitiga l'Effetto Sguardo e abilita un ragionamento genuinamente fondato sull'evidenza. Il nostro codice, dati e modelli sono disponibili su https://geox-lab.github.io/Asking_like_Socrates.
Gli agenti per interfacce grafiche (GUI) richiedono un uso efficace del contesto storico per eseguire compiti di navigazione sequenziale. Sebbene l'incorporazione di azioni e osservazioni passate possa migliorare il processo decisionale, l'uso ingenuo dell'intera cronologia comporta un eccessivo sovraccarico computazionale e distrazione da informazioni irrilevanti. Per affrontare questo problema, presentiamo HiconAgent, un agente GUI addestrato con History Context-aware Policy Optimization (HCPO) per un utilizzo efficiente ed efficace delle informazioni storiche. HCPO ottimizza l'uso della cronologia sia nel campionamento che negli aggiornamenti della policy attraverso due componenti complementari: (1) il Dynamic Context Sampling (DCS) presenta all'agente cronologie di lunghezza variabile durante il campionamento, consentendo un uso adattativo del contesto più rilevante; (2) l'Anchor-guided History Compression (AHC) perfeziona la fase di aggiornamento della policy con una strategia a doppio ramo in cui il ramo compresso rimuove le osservazioni storiche mantenendo le azioni storiche come ancoraggi del flusso informativo. I rami compresso e non compresso sono accoppiati tramite una funzione di perdita di allineamento potenziata dalla cronologia per impiegare un utilizzo coerente della storia mantenendo l'efficienza. Esperimenti sui principali benchmark di navigazione GUI dimostrano prestazioni solide. Nonostante le dimensioni ridotte, HiconAgent-3B supera GUI-R1-7B di +8,46% in accuratezza di grounding e +11,32% in tasso di successo per step su GUI-Odyssey, ottenendo risultati comparabili su AndroidControl e AITW con un accelerazione computazionale fino a 2,47x e una riduzione del 60% delle operazioni in virgola mobile (FLOP).
I Large Reasoning Model (LRM) ottengono prestazioni eccellenti in matematica, generazione di codice e pianificazione di compiti, ma la loro dipendenza da lunghe catene di token di "ragionamento" verbosi comporta alta latenza, ridondanza e percorsi di ragionamento incoerenti. Ispirati dalla Teoria del Linguaggio del Pensiero, che postula che il ragionamento umano operi su un linguaggio mentale simbolico e composizionale chiamato Mentalese, introduciamo un framework che addestra i modelli a ragionare in uno stile altrettanto compatto. Il Mentalese codifica il ragionamento astratto come token ultra-compressi e strutturati, permettendo ai modelli di risolvere problemi complessi con un numero di passaggi di gran lunga inferiore. Per migliorare sia l'efficienza che l'accuratezza, proponiamo lo SHORTER LENGTH PREFERENCE OPTIMIZATION (SLPO), un metodo di apprendimento per rinforzo che premia soluzioni concise ma corrette, pur consentendo ragionamenti più lunghi quando necessario. Applicato a modelli allineati al Mentalese, SLPO produce tassi di compressione significativamente più alti, abilitando un ragionamento conciso che preserva i vantaggi del pensiero dettagliato senza il sovraccarico computazionale. Su benchmark come AIME 2024 e 2025, MinervaMath, OlympiadBench, Math500 e AMC, i nostri modelli ORION producono tracce di ragionamento con 4-16 volte meno token, raggiungono una latenza inferiore fino a 5 volte e riducono i costi di addestramento di 7-9 volte rispetto al modello DeepSeek R1 Distilled, mantenendo il 90-98% della sua accuratezza. ORION supera anche Claude e ChatGPT-4o fino al 5% in accuratezza, mantenendo una compressione di 2 volte. Questi risultati dimostrano che il ragionamento compresso in stile Mentalese rappresenta un passo verso l'efficienza cognitiva simile a quella umana, consentendo un ragionamento in tempo reale e conveniente senza sacrificare l'accuratezza.
Il paradigma Inversion-Denoising, basato sui modelli di diffusione, eccelle in varie attività di editing e restauro di immagini. Rivediamo il suo meccanismo e riveliamo un fattore critico e trascurato nel degrado della ricostruzione: l'errore di approssimazione del rumore. Questo errore deriva dall'approssimazione del rumore al passo t con la predizione al passo t-1, risultando in una grave accumulazione di errore durante l'intero processo di inversione. Introduciamo Projection-Orthogonal Least Squares for Robust and Adaptive Inversion (POLARIS), che riformula l'inversione da un problema di compensazione dell'errore a un problema di origine dell'errore. Invece di ottimizzare embedding o codici latenti per compensare la deriva accumulata, POLARIS tratta il parametro di guida ω come una variabile step-wise e deriva una formula matematicamente fondata per minimizzare l'errore di inversione a ogni passo. Notevolmente, POLARIS migliora la qualità del latente di inversione con una sola riga di codice. Con un overhead prestazionale trascurabile, mitiga sostanzialmente gli errori di approssimazione del rumore e migliora costantemente l'accuratezza dei task downstream.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha potenziato le capacità di ragionamento dei grandi modelli linguistici (LLM), abilitando agenti autonomi in grado di condurre ragionamenti efficaci multi-turno e integrati con strumenti. Sebbene le istruzioni costituiscano il protocollo principale per definire gli agenti, l'RLVR si basa tipicamente su istruzioni statiche e progettate manualmente. Tuttavia, tali istruzioni possono essere subottimali per il modello base, e l'istruzione ottimale può cambiare man mano che la politica dell'agente migliora ed esplora l'interazione con l'ambiente. Per colmare questa lacuna, introduciamo INSPO, un innovativo framework di co-evoluzione Istruzione-Politica che integra l'ottimizzazione delle istruzioni come componente dinamica del ciclo di apprendimento per rinforzo (RL). INSPO mantiene una popolazione dinamica di candidati istruzione che vengono campionati insieme alle domande, dove i segnali di ricompensa nei cicli RL vengono automaticamente attribuiti a ciascuna istruzione, e le candidate con basse prestazioni vengono periodicamente eliminate. Nuove istruzioni vengono generate e verificate attraverso un meccanismo di riflessione on-policy, in cui un ottimizzatore basato su LLM analizza le esperienze passate da un replay buffer ed evolve strategie più efficaci data la politica corrente. Condividiamo esperimenti estesi su compiti di retrieval e ragionamento multi-turno, dimostrando che INSPO supera sostanzialmente solidi baseline che fanno affidamento su istruzioni statiche. INSPO scopre istruzioni innovative che guidano l'agente verso percorsi di ragionamento più strategici, ottenendo guadagni prestazionali sostanziali con solo un margine minimo di sovraccarico computazionale.
Gli assistenti clinici specializzati in IA stanno rapidamente entrando nella pratica medica, spesso presentati come più sicuri o affidabili rispetto ai modelli linguistici di grandi dimensioni (LLM) a scopo generale. Tuttavia, a differenza dei modelli all'avanguardia, questi strumenti clinici sono raramente sottoposti a valutazioni quantitative indipendenti, creando un divario critico nelle evidenze nonostante la loro crescente influenza su diagnosi, triage e interpretazione delle linee guida. Abbiamo valutato due sistemi di IA clinica ampiamente utilizzati (OpenEvidence e UpToDate Expert AI) confrontandoli con tre LLM generalisti all'avanguardia (GPT-5, Gemini 3 Pro e Claude Sonnet 4.5) utilizzando un mini-benchmark di 1.000 elementi che combina i task di MedQA (conoscenza medica) e HealthBench (allineamento clinico). I modelli generalisti hanno costantemente superato gli strumenti clinici, con GPT-5 che ha ottenuto i punteggi più alti, mentre OpenEvidence e UpToDate hanno mostrato carenze in completezza, qualità della comunicazione, consapevolezza del contesto e ragionamento sulla sicurezza basato sui sistemi. Questi risultati rivelano che gli strumenti commercializzati per il supporto alle decisioni cliniche potrebbero spesso essere inferiori rispetto agli LLM all'avanguardia, sottolineando l'urgente necessità di una valutazione trasparente e indipendente prima del loro dispiegamento nei flussi di lavoro a contatto con i pazienti.
Il test-time scaling (TTS) – l'allocazione dinamica della potenza di calcolo durante l'inferenza – rappresenta una direzione promettente per migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, manca un confronto sistematico delle strategie TTS più note in condizioni identiche, e l'influenza del tipo di modello e della difficoltà del problema sulle prestazioni rimane poco chiara. Per colmare queste lacune, conduciamo il primo studio su larga scala sul TTS, analizzando oltre trenta miliardi di token generati da otto LLM open-source (da 7 a 235 miliardi di parametri) attraverso quattro dataset di ragionamento. Osserviamo tre trend consistenti: (1) nessuna singola strategia TTS domina universalmente; (2) i modelli di ragionamento mostrano pattern distinti di qualità della traccia in base alla difficoltà del problema e alla lunghezza della traccia, formando categorie di orizzonte breve e lungo; e (3) per un dato tipo di modello, le prestazioni TTS ottimali scalano monotonicamente con il budget computazionale. Sulla base di queste intuizioni, forniamo una ricetta pratica per selezionare la migliore strategia TTS, tenendo conto della difficoltà del problema, del tipo di modello e del budget computazionale, offrendo una guida pratica per uno scaling efficace al momento dell'inferenza.
I recenti modelli di editing di immagini vantano capacità intelligenti di livello superiore, facilitando la modifica delle immagini basata su cognizione e creatività. Tuttavia, gli attuali benchmark forniscono un ambito di valutazione troppo ristretto, non riuscendo a valutare in modo olistico queste capacità avanzate. Per affrontare questa lacuna, introduciamo WiseEdit, un benchmark a elevata intensità di conoscenza per la valutazione completa dell'editing di immagini informato da cognizione e creatività, caratterizzato da una profonda profondità dei compiti e da un'ampia ampiezza di conoscenze. Traendo un'analogia con la creazione cognitiva umana, WiseEdit scompone l'editing di immagini in tre passaggi a cascata: Consapevolezza, Interpretazione e Immaginazione, ciascuno corrispondente a un compito che rappresenta una sfida per i modelli da completare in quella fase specifica. Include anche compiti complessi, in cui nessuno dei tre passaggi può essere completato facilmente. Inoltre, WiseEdit incorpora tre tipi fondamentali di conoscenza: conoscenza Dichiarativa, Procedurale e Metacognitiva. In definitiva, WiseEdit comprende 1.220 casi di test, rivelando oggettivamente i limiti dei modelli di editing di immagini allo stato dell'arte nelle capacità di ragionamento cognitivo basato sulla conoscenza e di composizione creativa. Il benchmark, il codice di valutazione e le immagini generate da ciascun modello saranno presto resi pubblicamente disponibili. Pagina del progetto: https://qnancy.github.io/wiseedit_project_page/.
Sebbene i modelli di generazione video controllati da telecamera predominanti possano produrre risultati cinematografici, elevarli direttamente alla generazione di video multi-vista ad alta fedeltà, temporalmente sincronizzati e 3D-consistenti rimane una sfida, capacità fondamentale per dominare mondi 4D. Alcuni lavori ricorrono a data augmentation o ottimizzazione al momento del test, ma queste strategie sono limitate da una generalizzazione del modello insufficiente e da problemi di scalabilità. A tal fine, proponiamo ChronosObserver, un metodo *training-free* che include l'Iperspazio dello Stato Mondiale per rappresentare i vincoli spazio-temporali di una scena di un mondo 4D, e il Campionamento Guidato dall'Iperspazio per sincronizzare le traiettorie di campionamento *diffusion* di viste multiple utilizzando l'iperspazio. I risultati sperimentali dimostrano che il nostro metodo raggiunge la generazione di video multi-vista ad alta fedeltà, 3D-consistenti e temporalmente sincronizzati, senza addestramento o *fine-tuning* per i modelli *diffusion*.
Introduciamo un framework innovativo che apprende direttamente una base spettrale per l'analisi di forme e varietà da dati non strutturati, eliminando la necessità della tradizionale selezione dell'operatore, discretizzazione e risolutori agli autovalori. Basandoci sulla teoria dell'approssimazione ottimale, addestriamo una rete a decomporre un operatore di approssimazione implicita minimizzando l'errore di ricostruzione nella base appresa su una distribuzione scelta di funzioni di prova. Per distribuzioni appropriate, queste possono essere viste come un'approssimazione dell'operatore di Laplace e della sua autodecomposizione, che sono fondamentali nell'elaborazione geometrica. Inoltre, il nostro metodo recupera in maniera unificata non solo la base spettrale, ma anche la densità di campionamento della metrica implicita e gli autovalori dell'operatore sottostante. Notevolmente, il nostro metodo non supervisionato non fa assunzioni sulla varietà dei dati, come una mesh o la dimensionalità della varietà, permettendogli di scalare a dataset arbitrari di qualsiasi dimensione. Su nuvole di punti giacenti su superfici in 3D e varietà di immagini ad alta dimensionalità, il nostro approccio produce basi spettrali significative, che possono assomigliare a quelle del Laplaciano, senza la costruzione esplicita di un operatore. Sostituendo la tradizionale selezione, costruzione e autodecomposizione dell'operatore con un approccio basato sull'apprendimento, il nostro framework offre un'alternativa principiata e guidata dai dati alle pipeline convenzionali. Questo apre nuove possibilità nell'elaborazione geometrica per dati non strutturati, specialmente in spazi ad alta dimensionalità.
Un obiettivo di lunga data nella visione artificiale è modellare i movimenti dai video, mentre le rappresentazioni alla base dei moti, ovvero le interazioni fisiche invisibili che causano la deformazione e lo spostamento degli oggetti, rimangono in gran parte inesplorate. In questo articolo, studiamo come recuperare le forze invisibili da osservazioni visive, ad esempio stimando il campo del vento osservando una foglia che cade a terra. La nostra innovazione chiave è un framework di inverse graphics end-to-end differenziabile, che modella congiuntamente la geometria degli oggetti, le proprietà fisiche e le interazioni direttamente dai video. Attraverso la retropropagazione, il nostro approccio consente il recupero delle rappresentazioni delle forze a partire dai movimenti degli oggetti. Convalidiamo il nostro metodo su scenari sia sintetici che del mondo reale, e i risultati ne dimostrano la capacità di inferire campi di forza plausibili dai video. Inoltre, mostriamo le potenziali applicazioni del nostro approccio, inclusa la generazione e modifica di video basati sulla fisica. Speriamo che il nostro approccio faccia luce sulla comprensione e modellazione del processo fisico dietro i pixel, colmando il divario tra visione e fisica. Per ulteriori risultati video, consultare la nostra {pagina del progetto} all'indirizzo https://chaoren2357.github.io/seeingthewind/.
Sebbene i grandi modelli linguistici eccellano in attività multilingue ad alta disponibilità di risorse, le lingue indiche a bassa e bassissima risorsa rimangono gravemente sottovalutate. Presentiamo IndicParam, un benchmark curato manualmente composto da oltre 13.000 domande a scelta multipla che copre 11 di queste lingue (Nepali, Gujarati, Marathi, Odia come a bassa risorsa; Dogri, Maithili, Rajasthani, Sanscrito, Bodo, Santali, Konkani come a bassissima risorsa) più un set di codice misto Sanscrito-Inglese. Abbiamo valutato 19 LLM, sia proprietari che open-weights, il che rivela che anche il miglior modello, GPT-5, raggiunge solo una precisione media del 45,0%, seguito da DeepSeek-3.2 (43,1) e Claude-4.5 (42,7). Inoltre, abbiamo classificato ogni domanda come orientata alla conoscenza o puramente linguistica per distinguere il richiamo fattuale dalla competenza grammaticale. Inoltre, valutiamo la capacità degli LLM di gestire diversi formati di domanda - come l'abbinamento basato su elenchi, coppie asserzione-ragionamento e ordinamento di sequenze - insieme alle tradizionali domande a scelta multipla. IndicParam fornisce spunti sulle limitazioni del trasferimento cross-linguale e stabilisce un benchmark impegnativo per le lingue indiche. Il dataset è disponibile all'indirizzo https://huggingface.co/datasets/bharatgenai/IndicParam. Gli script per eseguire il benchmark sono presenti all'indirizzo https://github.com/ayushbits/IndicParam.
I metodi attuali di visualizzazione narrativa tendono a posizionare i soggetti unicamente tramite testo e incontrano difficoltà nel mantenere la coerenza artistica. Per affrontare queste limitazioni, introduciamo DreamingComics, un framework di visualizzazione narrativa consapevole del layout. Partiamo da un modello preaddestrato di video diffusion-transformer (DiT), sfruttando i suoi priori spazio-temporali per migliorare la coerenza dell'identità e dello stile. Per il controllo posizionale basato sul layout, proponiamo RegionalRoPE, uno schema di codifica posizionale consapevole della regione che re-indicizza gli embedding in base al layout target. Inoltre, introduciamo una masked condition loss per vincolare ulteriormente le caratteristiche visive di ogni soggetto alla rispettiva regione designata. Per dedurre i layout da script in linguaggio naturale, integriamo un generatore di layout basato su LLM, addestrato per produrre layout in stile fumetto, consentendo un condizionamento del layout flessibile e controllabile. Presentiamo una valutazione completa del nostro approccio, mostrando un aumento del 29,2% nella coerenza dei personaggi e del 36,2% nella similarità stilistica rispetto ai metodi precedenti, dimostrando al contempo un'elevata accuratezza spaziale. La nostra pagina progetto è disponibile all'indirizzo https://yj7082126.github.io/dreamingcomics/
Il pensiero causale consente agli esseri umani di comprendere non solo ciò che viene osservato, ma anche il perché accade. Per replicare questa capacità nei moderni sistemi di IA, introduciamo il compito della scoperta causale visiva. Esso richiede ai modelli di inferire relazioni di causa-effetto tra entità visive in scenari diversificati, anziché limitarsi a percepirne la presenza. A tal fine, abbiamo inizialmente costruito il dataset Visual Causal Graph (VCG-32K), una raccolta su larga scala di oltre 32.000 immagini annotate con grafi causali a livello di entità, e successivamente sviluppato CauSight, un innovativo modello visione-linguaggio progettato per effettuare scoperta causale visiva mediante ragionamento causalmente consapevole. La nostra metodologia di addestramento integra tre componenti: (1) curatela dei dati di training da VCG-32K, (2) Tree-of-Causal-Thought (ToCT) per sintetizzare traiettorie di ragionamento, e (3) apprendimento per rinforzo con una ricompensa causale progettata per affinare la politica di ragionamento. Gli esperimenti dimostrano che CauSight supera GPT-4.1 nella scoperta causale visiva, ottenendo un miglioramento prestazionale superiore al triplo (vantaggio assoluto del 21%). Il nostro codice, modello e dataset sono completamente open-source alla pagina del progetto: https://github.com/OpenCausaLab/CauSight.
Recentemente, le strategie di fine-tuning a due stadi, come l'acquisizione di conoscenze essenziali per la guida attraverso il fine-tuning supervisionato (SFT) e il potenziamento ulteriore delle capacità decisionali e di pianificazione tramite il fine-tuning per rinforzo (RFT), hanno dimostrato un forte potenziale nell'avanzare il paradigma della guida autonoma basata sulla conoscenza. Tuttavia, la natura intrinseca dell'apprendimento tramite SFT limita ancora la generalizzazione del ragionamento, vincolando così le potenzialità complete delle prestazioni di guida. Nel contempo, gli attuali approcci RFT sono principalmente applicati a compiti a valle, poiché la comprensione della scena è un problema aperto per il quale è difficile quantificare ricompense corrispondenti. Per affrontare queste limitazioni, proponiamo OpenREAD, un framework per la guida autonoma basato su modelli vision-language (VLM) che integra un ragionamento aperto e rinforzato, consentendo un RFT end-to-end che copre l'intero spettro, dal ragionamento di alto livello alla pianificazione di traiettorie di basso livello. Nello specifico, iniziamo costruendo annotazioni su larga scala di tipo Catena di Pensiero (CoT) su dataset open-source di conoscenze relative alla guida, e impieghiamo il potente modello linguistico di grandi dimensioni Qwen3 come critico nel RFT per quantificare la qualità del ragionamento per domande aperte durante la modellazione delle ricompense. Esperimenti estensivi confermano che un RFT end-to-end congiunto produce miglioramenti sostanziali sia nei compiti a monte che a valle, permettendo a OpenREAD di raggiungere prestazioni all'avanguardia sui benchmark di ragionamento e pianificazione.
Si è registrato un progresso significativo nei modelli linguistici di grandi dimensioni (LLM) open-source per la traduzione esclusivamente testuale, con una migliore copertura linguistica e qualità. Tuttavia, questi modelli possono essere utilizzati solo in pipeline a cascata per la traduzione vocale (ST), eseguendo prima il riconoscimento vocale automatico seguito dalla traduzione. Ciò introduce una latenza aggiuntiva, particolarmente critica nella traduzione vocale simultanea (SimulST), e impedisce al modello di sfruttare il contesto multimodale, come le immagini, che può aiutare nella disambiguazione. I modelli fondazionali multimodali preaddestrati (MMFM) possiedono già forti capacità percettive e di ragionamento su più modalità, ma generalmente mancano della copertura multilingue e delle prestazioni di traduzione specializzate degli LLM dedicati alla traduzione. Per costruire un sistema di traduzione multimodale efficace, proponiamo un approccio end-to-end che fonde gli MMFM con gli LLM per la traduzione. Introduciamo una strategia di fusione innovativa che collega gli stati nascosti di più livelli di un MMFM preaddestrato a un LLM per la traduzione, consentendo un addestramento congiunto end-to-end. Il modello risultante, OmniFusion, basato su Omni 2.5-7B come MMFM e SeedX PPO-7B come LLM per la traduzione, può eseguire traduzioni da voce a testo, da voce-e-immagine a testo e da testo-e-immagine a testo. Gli esperimenti dimostrano che OmniFusion sfrutta efficacemente sia gli input audio che visivi, raggiunge una riduzione della latenza di 1 secondo nella SimulST rispetto alle pipeline a cascata e migliora anche la qualità complessiva della traduzione. Il codice è disponibile all'indirizzo https://github.com/saikoneru/OmniFusion.
I movimenti della telecamera e degli oggetti sono centrali per la narrazione di un video. Tuttavia, modificare con precisione questi movimenti catturati rimane una sfida significativa, specialmente in presenza di movimenti complessi degli oggetti. Gli attuali approcci image-to-video (I2V) controllati dal movimento spesso mancano del contesto completo della scena per un editing video coerente, mentre i metodi video-to-video (V2V) forniscono cambiamenti di punto di vista o traslazioni basilari degli oggetti, ma offrono un controllo limitato sul movimento granulare degli oggetti. Presentiamo un framework V2V condizionato da traiettorie che consente l'editing congiunto del movimento della telecamera e degli oggetti. Raggiungiamo questo risultato condizionando un modello di generazione video su un video sorgente e su tracce 3D di punti accoppiate che rappresentano i movimenti sorgente e target. Queste tracce 3D stabiliscono corrispondenze sparse che trasferiscono un ricco contesto dal video sorgente a nuovi movimenti, preservando al contempo la coerenza spaziotemporale. Crucialmente, rispetto alle tracce 2D, le tracce 3D forniscono indizi di profondità espliciti, permettendo al modello di risolvere l'ordine di profondità e gestire le occlusioni per un editing preciso del movimento. Addestrato in due fasi su dati sintetici e reali, il nostro modello supporta diverse modifiche al movimento, inclusa la manipolazione congiunta telecamera/oggetto, il trasferimento del movimento e la deformazione non rigida, sbloccando nuovo potenziale creativo nell'editing video.
La crescente prevalenza del carcinoma tiroideo a livello globale ha portato allo sviluppo di vari metodi computerizzati di rilevamento assistito. La segmentazione accurata dei noduli tiroidei rappresenta un passo critico iniziale nello sviluppo di sistemi di supporto alle decisioni cliniche assistiti dall'intelligenza artificiale. Questo studio si concentra sulla segmentazione di istanza dei noduli tiroidei utilizzando gli algoritmi YOLOv5 su immagini ecografiche. Abbiamo valutato multiple varianti di YOLOv5 (Nano, Small, Medium, Large e XLarge) su due versioni di dataset, con e senza immagini doppler. L'algoritmo YOLOv5-Large ha ottenuto le prestazioni più elevate con un punteggio dice del 91% e una mAP di 0,87 sul dataset che includeva le immagini doppler. È importante notare che i nostri risultati dimostrano come le immagini doppler, solitamente escluse dai medici, possano migliorare significativamente le prestazioni di segmentazione. Il modello YOLOv5-Small ha raggiunto un punteggio dice del 79% quando le immagini doppler erano escluse, mentre la loro inclusione ha migliorato le prestazioni in tutte le varianti del modello. Questi risultati suggeriscono che la segmentazione di istanza con YOLOv5 fornisce un approccio efficace in tempo reale per il rilevamento dei noduli tiroidei, con potenziali applicazioni cliniche nei sistemi diagnostici automatizzati.
Presentiamo decoder basati su Conformer per la competizione LibriBrain 2025 PNPL, mirati a due compiti fondamentali nel campo MEG: Rilevamento del Discorso e Classificazione dei Fonemi. Il nostro approccio adatta un Conformer compatto ai segnali MEG grezzi a 306 canali, utilizzando uno strato di proiezione convoluzionale leggero e teste specifiche per ogni compito. Per il Rilevamento del Discorso, una versione di SpecAugment orientata al MEG ha fornito una prima esplorazione dell'aumento dei dati specifico per il MEG. Per la Classificazione dei Fonemi, abbiamo utilizzato una ponderazione delle classi inversa alla radice quadrata e un caricatore dinamico di gruppi per gestire esempi mediati su 100 campioni. Inoltre, una semplice normalizzazione a livello di istanza si è rivelata cruciale per mitigare gli spostamenti di distribuzione sulla suddivisione di holdout. Utilizzando le suddivisioni ufficiali della traccia Standard e l'F1-macro per la selezione del modello, i nostri sistemi migliori hanno raggiunto l'88,9% (Discorso) e il 65,8% (Fonemi) sulla classifica, superando i baseline della competizione e posizionandosi nella top-10 in entrambi i compiti. Per ulteriori dettagli implementativi, la documentazione tecnica, il codice sorgente e i checkpoint sono disponibili all'indirizzo https://github.com/neural2speech/libribrain-experiments.
La Business Process Model and Notation (BPMN) è uno standard ampiamente adottato per rappresentare flussi di lavoro aziendali complessi. Sebbene i diagrammi BPMN siano spesso scambiati come immagini visive, i metodi esistenti si basano principalmente su rappresentazioni XML per l'analisi computazionale. In questo lavoro, presentiamo una pipeline che sfrutta i Vision-Language Models (VLM) per estrarre rappresentazioni strutturate in JSON di diagrammi BPMN direttamente dalle immagini, senza richiedere file di modello sorgente o annotazioni testuali. Incorporiamo inoltre il riconoscimento ottico dei caratteri (OCR) per l'arricchimento testuale e valutiamo gli elenchi di elementi generati rispetto a dati di verità derivati dai file XML sorgente. Il nostro approccio consente un'estrazione robusta dei componenti negli scenari in cui i file sorgente originali non sono disponibili. Abbiamo confrontato le prestazioni di diversi VLM e osservato miglioramenti in diversi modelli quando viene utilizzato l'OCR per l'arricchimento testuale. Inoltre, abbiamo condotto ampie analisi statistiche sui metodi di arricchimento basati su OCR e studi di ablazione dei prompt, fornendo una comprensione più chiara del loro impatto sulle prestazioni del modello.