Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici sfruttano dati testuali su scala internet, mentre l'AI incarnata rimane limitata dai costi proibitivi della raccolta di traiettorie fisiche. Gli ambienti desktop, in particolare quelli di gioco, offrono un'alternativa convincente: forniscono interazioni sensorimotorie ricche su larga scala, mantenendo l'accoppiamento strutturato osservazione-azione essenziale per l'apprendimento incarnato. Presentiamo D2E (Desktop to Embodied AI), un framework che dimostra come le interazioni desktop possano servire come substrato efficace di pre-addestramento per i compiti di AI incarnata nella robotica. A differenza di lavori precedenti che rimanevano specifici per dominio (ad esempio, VPT per Minecraft) o mantenevano i dati proprietari (ad esempio, SIMA), D2E stabilisce una pipeline completa dalla raccolta scalabile di dati desktop al trasferimento verificato in domini incarnati. Il nostro framework comprende tre componenti: (1) il Toolkit OWA che unifica diverse interazioni desktop in un formato standardizzato con una compressione di 152x, (2) il Generalist-IDM che raggiunge una forte generalizzazione zero-shot su giochi non visti attraverso la previsione di eventi basata su timestamp, abilitando l'etichettatura pseudo-supervisionata su scala internet, e (3) VAPT che trasferisce rappresentazioni pre-addestrate su desktop alla manipolazione fisica e alla navigazione. Utilizzando 1.3K+ ore di dati (259 ore di dimostrazioni umane e 1K+ ore di gameplay pseudo-etichettato), raggiungiamo un tasso di successo totale del 96.6% sui benchmark di manipolazione LIBERO e dell'83.3% su quelli di navigazione CANVAS. Ciò conferma che i primitivi sensorimotori nelle interazioni digitali mostrano un'invarianza sufficiente per trasferirsi in modo significativo ai compiti fisici incarnati, stabilendo il pre-addestramento desktop come un paradigma pratico per la robotica. Renderemo pubblico tutto il nostro lavoro, incluso il toolkit OWA, i dataset raccolti da umani e pseudo-etichettati, e i modelli addestrati con VAPT, disponibili su https://worv-ai.github.io/d2e/.
La comprensione e la generazione centrate sulla fotocamera sono due pilastri dell'intelligenza spaziale, ma vengono tipicamente studiate in modo isolato. Presentiamo Puffin, un modello multimodale unificato centrato sulla fotocamera che estende la consapevolezza spaziale lungo la dimensione della fotocamera. Puffin integra la regressione linguistica e la generazione basata su diffusione per interpretare e creare scene da punti di vista arbitrari. Per colmare il divario modale tra fotocamere e linguaggio visivo, introduciamo un nuovo paradigma che tratta la fotocamera come linguaggio, consentendo di pensare con la fotocamera. Questo guida il modello ad allineare gli indizi visivi radicati spazialmente con la terminologia fotografica, ragionando attraverso il contesto geometrico. Puffin è addestrato su Puffin-4M, un ampio dataset di 4 milioni di triplette visione-linguaggio-fotocamera. Incorporiamo sia parametri globali della fotocamera che mappe fotografiche pixel-wise, ottenendo una generazione spaziale flessibile e affidabile. Gli esperimenti dimostrano la performance superiore di Puffin rispetto a modelli specializzati per la generazione e comprensione centrate sulla fotocamera. Con il tuning delle istruzioni, Puffin si generalizza a diverse attività cross-view come l'immaginazione spaziale, l'esplorazione del mondo e la guida fotografica. Rilasceremo il codice, i modelli, la pipeline del dataset e il benchmark per far avanzare la ricerca sull'intelligenza spaziale multimodale.
Questo lavoro presenta la prima indagine su larga scala per la costruzione di un modello linguistico di grandi dimensioni (LLM) bilingue completamente aperto per una lingua non inglese, nello specifico il coreano, addestrato prevalentemente su dati sintetici. Introduciamo KORMo-10B, un modello da 10,8 miliardi di parametri addestrato da zero su un corpus coreano-inglese in cui il 68,74% della porzione coreana è sintetica. Attraverso una sperimentazione sistematica, dimostriamo che i dati sintetici, quando accuratamente curati con una copertura linguistica bilanciata e stili di istruzione diversificati, non causano instabilità o degrado durante il pre-addestramento su larga scala. Inoltre, il modello raggiunge prestazioni comparabili a quelle dei benchmark multilingue open-weight contemporanei in un'ampia gamma di test di ragionamento, conoscenza e seguimento delle istruzioni. I nostri esperimenti rivelano due risultati chiave: (1) i dati sintetici possono sostenere in modo affidabile il pre-addestramento a lungo termine senza collasso del modello, e (2) il tuning bilingue delle istruzioni consente un ragionamento quasi nativo e una coerenza discorsiva in coreano. Rilasciando completamente tutti i componenti, inclusi dati, codice, ricette di addestramento e log, questo lavoro stabilisce un framework trasparente per lo sviluppo di modelli completamente aperti (FOM) guidati da dati sintetici in contesti a bassa risorsa e fissa un precedente riproducibile per la futura ricerca sugli LLM multilingue.
Con l'aumento esponenziale del volume di ricerche sottoposte a revisione paritaria, gli studiosi si affidano sempre più alle piattaforme social per la scoperta di nuovi lavori, mentre gli autori investono notevoli sforzi nella promozione delle proprie pubblicazioni per garantirne visibilità e citazioni. Per semplificare questo processo e ridurre la dipendenza dallo sforzo umano, introduciamo la Promozione Automatica (AutoPR), un nuovo compito che trasforma i lavori di ricerca in contenuti pubblici accurati, coinvolgenti e tempestivi. Per consentire una valutazione rigorosa, rilasciamo PRBench, un benchmark multimodale che collega 512 articoli sottoposti a revisione paritaria a post promozionali di alta qualità, valutando i sistemi lungo tre assi: Fedeltà (accuratezza e tono), Coinvolgimento (targeting del pubblico e appeal) e Allineamento (tempistica e ottimizzazione del canale). Introduciamo inoltre PRAgent, un framework multi-agente che automatizza AutoPR in tre fasi: estrazione dei contenuti con preparazione multimodale, sintesi collaborativa per output raffinati e adattamento specifico alla piattaforma per ottimizzare norme, tono e tagging per una massima portata. Rispetto alle pipeline dirette di LLM su PRBench, PRAgent dimostra miglioramenti sostanziali, tra cui un aumento del 604% del tempo totale di visualizzazione, un incremento del 438% dei "mi piace" e almeno un miglioramento di 2,9x nel coinvolgimento complessivo. Studi di ablazione mostrano che la modellazione della piattaforma e la promozione mirata contribuiscono maggiormente a questi guadagni. I nostri risultati posizionano AutoPR come un problema di ricerca trattabile e misurabile, fornendo una roadmap per una comunicazione accademica automatizzata scalabile e di impatto.
I modelli visione-linguaggio (VLMs) potrebbero alimentare assistenti in tempo reale e agenti autonomi, ma affrontano una sfida critica: comprendere flussi video quasi infiniti senza aumentare latenza e utilizzo di memoria. Elaborare interi video con attenzione completa comporta costi computazionali quadratici e prestazioni scadenti su video lunghi. Allo stesso tempo, i semplici metodi a finestra scorrevole sono anch'essi imperfetti, poiché rompono la coerenza o soffrono di alta latenza a causa di ricalcoli ridondanti. In questo articolo, introduciamo StreamingVLM, un modello progettato per la comprensione stabile e in tempo reale di input visivi infiniti. Il nostro approccio è un framework unificato che allinea l'addestramento con l'inferenza in streaming. Durante l'inferenza, manteniamo una cache KV compatta riutilizzando gli stati dei sink di attenzione, una breve finestra di token visivi recenti e una finestra lunga di token testuali recenti. Questa capacità di streaming viene instillata tramite una semplice strategia di fine-tuning supervisionato (SFT) che applica l'attenzione completa su brevi segmenti video sovrapposti, mimando efficacemente il pattern di attenzione al momento dell'inferenza senza addestramento su contesti eccessivamente lunghi. Per la valutazione, abbiamo costruito Inf-Streams-Eval, un nuovo benchmark con video della durata media di oltre due ore che richiede un allineamento denso, al secondo, tra frame e testo. Su Inf-Streams-Eval, StreamingVLM raggiunge un tasso di vittoria del 66,18% contro GPT-4O mini e mantiene prestazioni stabili e in tempo reale fino a 8 FPS su una singola NVIDIA H100. In particolare, la nostra strategia SFT migliora anche le capacità generali di VQA senza alcun fine-tuning specifico per VQA, aumentando le prestazioni su LongVideoBench di +4,30 e su OVOBench Realtime di +5,96. Il codice è disponibile all'indirizzo https://github.com/mit-han-lab/streaming-vlm.
I recenti modelli di diffusione raggiungono prestazioni all'avanguardia nella generazione di immagini, ma spesso soffrono di incoerenze semantiche o allucinazioni. Sebbene vari metodi di guida durante l'inferenza possano migliorare la generazione, essi spesso operano indirettamente basandosi su segnali esterni o modifiche architetturali, introducendo un sovraccarico computazionale aggiuntivo. In questo articolo, proponiamo la Tangential Amplifying Guidance (TAG), un metodo di guida più efficiente e diretto che opera esclusivamente sui segnali di traiettoria senza modificare il modello di diffusione sottostante. TAG sfrutta un campione intermedio come base di proiezione e amplifica le componenti tangenziali dei punteggi stimati rispetto a questa base per correggere la traiettoria di campionamento. Formalizziamo questo processo di guida sfruttando un'espansione di Taylor del primo ordine, che dimostra come l'amplificazione della componente tangenziale orienti lo stato verso regioni a più alta probabilità, riducendo così le incoerenze e migliorando la qualità del campione. TAG è un modulo plug-and-play, indipendente dall'architettura, che migliora la fedeltà del campionamento di diffusione con un'aggiunta computazionale minima, offrendo una nuova prospettiva sulla guida della diffusione.
I Modelli Linguistici di Grande Scala (LLM) hanno dimostrato un successo notevole, e le loro espansioni multimodali (MLLM) aprono ulteriori possibilità che spaziano oltre il testo, includendo immagini, video e altre modalità. Tuttavia, nonostante questo cambiamento, gli approcci di ottimizzazione dei prompt, progettati per ridurre il carico della creazione manuale dei prompt massimizzando le prestazioni, rimangono limitati al testo, limitando di fatto il pieno potenziale degli MLLM. Motivati da questa lacuna, introduciamo il nuovo problema dell'ottimizzazione multimodale dei prompt, che espande la definizione precedente di ottimizzazione dei prompt allo spazio multimodale definito dalle coppie di prompt testuali e non testuali. Per affrontare questo problema, proponiamo quindi l'Ottimizzatore Multimodale dei Prompt (MPO), un framework unificato che non solo esegue l'ottimizzazione congiunta dei prompt multimodali attraverso aggiornamenti che preservano l'allineamento, ma guida anche il processo di selezione dei prompt candidati sfruttando valutazioni precedenti come prior in una strategia di selezione basata su approcci bayesiani. Attraverso esperimenti estesi su diverse modalità che vanno oltre il testo, come immagini, video e persino molecole, dimostriamo che MPO supera i principali metodi di ottimizzazione limitati al testo, stabilendo l'ottimizzazione multimodale dei prompt come un passo cruciale per realizzare il potenziale degli MLLM.
Le capacità incarnate si riferiscono a un insieme di abilità fondamentali che consentono a un agente di percepire, comprendere e interagire con il mondo fisico. Sebbene i modelli linguistici multimodali di grandi dimensioni (MLLM) mostrino potenziale come agenti incarnati, una valutazione approfondita e sistematica delle loro capacità incarnate rimane poco esplorata, poiché i benchmark esistenti si concentrano principalmente su domini specifici come la pianificazione o la comprensione spaziale. Per colmare questa lacuna, introduciamo BEAR, un benchmark completo e granulare che valuta gli MLLM sulle capacità incarnate atomiche. BEAR comprende 4.469 voci intercalate di immagini-video-testo in 14 domini e 6 categorie, che includono compiti che vanno dal puntamento di basso livello, alla comprensione delle traiettorie, al ragionamento spaziale, fino alla pianificazione di alto livello. I risultati di valutazione estensiva di 20 MLLM rappresentativi rivelano le loro persistenti limitazioni in tutti i domini delle capacità incarnate. Per affrontare questa carenza, proponiamo BEAR-Agent, un agente conversazionale multimodale che integra modelli visivi pre-addestrati per rafforzare la percezione, la comprensione 3D e le capacità di pianificazione degli MLLM. Esso migliora sostanzialmente le prestazioni degli MLLM su diverse capacità incarnate in BEAR, ottenendo un guadagno assoluto del 9,12% e un miglioramento relativo del 17,5% su GPT-5. Inoltre, i nostri esperimenti indicano che il miglioramento delle capacità incarnate degli MLLM può beneficiare i compiti incarnati in ambienti simulati. Sito web del progetto: https://bear-official66.github.io/
I Large Language Model (LLM) hanno ottenuto un successo straordinario attraverso l'apprendimento per imitazione su vasti corpora testuali, ma questo paradigma crea un divario tra addestramento e generazione e limita il ragionamento robusto. L'apprendimento per rinforzo (RL) offre una soluzione più efficiente in termini di dati, capace di colmare questo divario, ma la sua applicazione è stata limitata da un collo di bottiglia critico: i dataset RL esistenti sono ordini di grandezza più piccoli e meno diversificati rispetto ai corpora di pre-addestramento su scala web. Per affrontare questo problema, introduciamo la pipeline Webscale-RL, un motore di dati scalabile che converte sistematicamente documenti di pre-addestramento su larga scala in milioni di coppie domanda-risposta diversificate e verificabili per il RL. Utilizzando questa pipeline, costruiamo il dataset Webscale-RL, contenente 1,2 milioni di esempi in più di 9 domini. I nostri esperimenti dimostrano che il modello addestrato su questo dataset supera significativamente il pre-addestramento continuo e forti baseline di raffinamento dei dati su una serie di benchmark. In particolare, l'addestramento RL con il nostro dataset si rivela sostanzialmente più efficiente, raggiungendo le prestazioni del pre-addestramento continuo con fino a 100 volte meno token. Il nostro lavoro presenta un percorso praticabile per scalare il RL ai livelli di pre-addestramento, consentendo modelli linguistici più capaci ed efficienti.
Le piattaforme di valutazione dei modelli basate sul crowdsourcing, come Chatbot Arena, consentono una valutazione in tempo reale da prospettive umane per giudicare la qualità delle risposte dei modelli. Nel dominio della programmazione, esaminare manualmente la qualità dei contenuti generati da LLM è estremamente impegnativo, poiché richiede la comprensione di lunghi blocchi di codice grezzo e la simulazione deliberata dell'esecuzione del codice. A tal fine, introduciamo BigCodeArena, una piattaforma aperta di valutazione umana per la generazione di codice, supportata da un ambiente di esecuzione completo e in tempo reale. Costruita su Chatbot Arena, BigCodeArena permette l'esecuzione del codice generato da LLM e consente agli esseri umani di interagire con il processo di esecuzione e i suoi risultati. Abbiamo raccolto oltre 14.000 sessioni di conversazione incentrate sul codice grezzo, utilizzando 10 LLM ampiamente diffusi, coprendo 10 linguaggi e 8 tipi di ambienti di esecuzione. Tra queste conversazioni, abbiamo identificato più di 4.700 campioni multi-turn con preferenze umane accoppiate. Un'ulteriore analisi rivela preferenze poco esplorate degli LLM in domini granulari caratterizzati da compiti, linguaggi e framework. Per esaminare sistematicamente le capacità di comprensione e generazione del codice degli LLM all'avanguardia, abbiamo curato due benchmark basati sui dati raccolti, ovvero BigCodeReward e AutoCodeArena. Per BigCodeReward, abbiamo post-elaborato le 4.700 conversazioni e valutato la coerenza tra i modelli di ricompensa e le preferenze umane. La valutazione mostra che la maggior parte degli LLM ha prestazioni superiori nel giudicare le preferenze di codifica quando i risultati dell'esecuzione sono disponibili. Ispirati da questi risultati, proponiamo AutoCodeArena, un benchmark automatico di valutazione Elo progettato per valutare la qualità del codice degli LLM senza il coinvolgimento umano. Scopriamo che LLM proprietari come GPT-5, Claude-Sonnet-4 e Claude-Opus-4 continuano a primeggiare nelle prestazioni di generazione del codice tra i modelli emergenti recenti.
Le recenti tendenze nel ridimensionamento al momento del test per i modelli di ragionamento (ad esempio, OpenAI o1, DeepSeek-R1) hanno portato a miglioramenti significativi attraverso lunghe catene di pensiero (Chain-of-Thought, CoT). Tuttavia, i benchmark esistenti si concentrano principalmente su compiti immediati e a singolo orizzonte, non riuscendo a valutare adeguatamente la capacità dei modelli di comprendere e rispondere a scenari complessi e a lungo orizzonte. Per affrontare questa valutazione incompleta dei Large Reasoning Models (LRM), proponiamo R-HORIZON, un metodo progettato per stimolare comportamenti di ragionamento a lungo orizzonte negli LRM attraverso la composizione di query. Basandoci su R-HORIZON, costruiamo un benchmark di ragionamento a lungo orizzonte, comprendente compiti complessi di ragionamento multi-step con problemi interdipendenti che si estendono su lunghi orizzonti di ragionamento. Attraverso una valutazione completa degli LRM utilizzando il benchmark R-HORIZON, scopriamo che anche i LRM più avanzati subiscono un significativo degrado delle prestazioni. La nostra analisi rivela che gli LRM mostrano una lunghezza effettiva di ragionamento limitata e faticano a distribuire il budget di pensiero su più problemi in modo appropriato. Riconoscendo queste limitazioni, utilizziamo R-HORIZON per costruire dati di ragionamento a lungo orizzonte per il reinforcement learning con ricompense verificate (RLVR). Rispetto all'addestramento con dati a singolo orizzonte, RLVR con R-HORIZON non solo migliora sostanzialmente le prestazioni nei compiti di ragionamento multi-orizzonte, ma promuove anche l'accuratezza nei compiti di ragionamento standard, con un aumento di 7,5 su AIME2024. Questi risultati posizionano R-HORIZON come un paradigma scalabile, controllabile e a basso costo per migliorare e valutare le capacità di ragionamento a lungo orizzonte degli LRM.
I modelli linguistici di grandi dimensioni dimostrano comportamenti di ragionamento complessi attraverso la generazione estesa di catene di pensiero, creando un sovraccarico senza precedenti della cache Key-Value (KV) durante la fase di decodifica. I metodi esistenti di compressione della cache KV si rivelano inefficaci sui modelli di ragionamento: i metodi di eliminazione dei token compromettono l'integrità del ragionamento scartando informazioni critiche, mentre i metodi di riallocazione delle head comprimono erroneamente le head cruciali per il ragionamento poiché sono progettati per task di recupero, portando a un significativo degrado delle prestazioni all'aumentare dei tassi di compressione. Ipotesizziamo che le head KV mostrino un'eterogeneità funzionale nei modelli di ragionamento: alcune head sono critiche per la coerenza della catena di pensiero, mentre altre sono comprimibili. Per validare e sfruttare questa intuizione, proponiamo RLKV, un nuovo framework di identificazione delle head critiche per il ragionamento, che utilizza l'apprendimento per rinforzo per ottimizzare direttamente la relazione tra l'uso della cache di ciascuna head e la qualità del ragionamento. Poiché RLKV genera ricompense da campioni effettivamente generati durante l'addestramento, identifica naturalmente le head rilevanti per i comportamenti di ragionamento. Assegniamo quindi la cache KV completa a queste head, applicando una cache KV costante e compressa alle altre per un'inferenza efficiente. I nostri esperimenti rivelano che solo una piccola frazione delle head di attenzione è essenziale per il ragionamento, consentendo al nostro approccio di compressione KV di superare i metodi di base e di ottenere una riduzione della cache del 20-50% con prestazioni quasi senza perdite rispetto ai risultati non compressi.
Con l'attuale impennata nelle esplorazioni del ragionamento spaziale, i ricercatori hanno compiuto progressi significativi nella comprensione delle scene indoor, ma continuano a lottare con applicazioni diversificate come la robotica e la guida autonoma. Questo articolo mira a far progredire il ragionamento spaziale su tutte le scale in scenari diversificati affrontando due sfide chiave: 1) la forte dipendenza dalle scansioni 3D indoor e dalle annotazioni manuali laboriose per la creazione di dataset; 2) l'assenza di una modellazione efficace delle scene su tutte le scale, che spesso porta a un overfitting su singole scene. In questo articolo, introduciamo una soluzione olistica che integra un sistema strutturato di conoscenza per il ragionamento spaziale, una modellazione consapevole della scala e un paradigma di addestramento progressivo, come primo tentativo di ampliare l'intelligenza spaziale su tutte le scale dei MLLM, a nostra conoscenza. Utilizzando una pipeline automatizzata specifica per il compito e guidata da specialisti, abbiamo curato oltre 38K scene video su 5 scale spaziali per creare SpaceVista-1M, un dataset composto da circa 1M coppie di domande e risposte spaziali che coprono 19 tipi di task diversi. Sebbene i modelli specialistici possano iniettare conoscenze utili del dominio, non sono affidabili per la valutazione. Abbiamo quindi costruito un benchmark su tutte le scale con annotazioni precise registrando, recuperando e assemblando manualmente dati basati su video. Tuttavia, un addestramento ingenuo con SpaceVista-1M spesso produce risultati subottimali a causa del potenziale conflitto di conoscenze. Di conseguenza, introduciamo SpaceVista-7B, un modello di ragionamento spaziale che accetta input densi oltre la semantica e utilizza la scala come ancoraggio per esperti consapevoli della scala e ricompense progressive. Infine, valutazioni estese su 5 benchmark, incluso il nostro SpaceVista-Bench, dimostrano prestazioni competitive, mostrando una forte generalizzazione su tutte le scale e scenari. Il nostro dataset, modello e benchmark saranno rilasciati su https://peiwensun2000.github.io/mm2km.
Valutare i moderni modelli di machine learning è diventato proibitivamente costoso. Benchmark come LMMs-Eval e HELM richiedono migliaia di ore di GPU per modello. Una valutazione costosa riduce l'inclusività, rallenta il ciclo dell'innovazione e peggiora l'impatto ambientale. L'approccio tipico segue due passaggi. Primo, selezionare un sottoinsieme di dati di ancoraggio. Secondo, addestrare una mappatura dall'accuratezza su questo sottoinsieme al risultato finale del test. Lo svantaggio è che la selezione dell'ancoraggio dipende dal clustering, che può essere complesso e sensibile alle scelte progettuali. Sosteniamo che promuovere la diversità tra i campioni non sia essenziale; ciò che conta è selezionare campioni che massimizzino la diversità nelle risposte del modello. Il nostro metodo, Diversifying Sample Condensation (DISCO), seleziona i top-k campioni con il maggior disaccordo tra i modelli. Questo utilizza statistiche campionarie greedy piuttosto che clustering globale. L'approccio è concettualmente più semplice. Da un punto di vista teorico, il disaccordo inter-modello fornisce una regola ottimale in termini di teoria dell'informazione per tale selezione greedy. DISCO mostra guadagni empirici rispetto ai metodi precedenti, raggiungendo risultati all'avanguardia nella previsione delle prestazioni su MMLU, Hellaswag, Winogrande e ARC. Il codice è disponibile qui: https://github.com/arubique/disco-public.
L'apprendimento per rinforzo con ricompense verificabili (RLVR) è diventato un approccio standard per migliorare i grandi modelli linguistici (LLM) nei compiti di ragionamento, con l'Ottimizzazione Relativa delle Politiche di Gruppo (GRPO) ampiamente utilizzata nella pratica. Tuttavia, GRPO spreca una quantità significativa di risorse computazionali sui gruppi negativi: gruppi in cui nessuna risposta campionata è corretta producono un vantaggio nullo e quindi nessun gradiente. Ci chiediamo se i gruppi negativi possano essere sfruttati senza supervisione aggiuntiva. Partendo da un obiettivo di massima verosimiglianza (MLE) nella modellazione delle ricompense, dimostriamo che il gradiente MLE è equivalente a un gradiente di politica per una funzione di valore modificata. Questa funzione di valore aggiunge una penalità ponderata dalla confidenza sulle risposte errate, imponendo penalità maggiori sugli errori più confidenti. Ci riferiamo a questo approccio come Stima della Verosimiglianza con Campioni Negativi (LENS). LENS modifica GRPO per assegnare ricompense non nulle e dipendenti dalla confidenza alle generazioni errate, rendendo informativi i gruppi negativi e convertendo i campioni precedentemente sprecati in aggiornamenti di gradiente utili. Sul benchmark MATH con Llama-3.1-8B e Qwen-2.5-3B, la variante proposta supera costantemente la baseline GRPO, con guadagni significativi sugli elementi più difficili. Questi risultati dimostrano un modo principiato e pratico per "recuperare" i gruppi negativi, migliorando l'efficienza e le prestazioni in RLVR.
I recenti progressi nei modelli di ragionamento multimodale su larga scala (MLRM) hanno migliorato significativamente la loro capacità di risolvere compiti complessi sia testuali che visivi. Tuttavia, questi modelli tendono a sovraccaricarsi su problemi semplici, producendo tracce di ragionamento eccessivamente lunghe, mentre esplorano in modo insufficiente quelli più complessi, portando a soluzioni mancate. Per affrontare questo squilibrio, proponiamo ARES, un framework open-source unificato per il ragionamento adattivo che assegna dinamicamente lo sforzo di esplorazione in base alla difficoltà del compito. Il nostro approccio è motivato da due risultati empirici chiave: (i) mentre l'entropia a singolo token è rumorosa, i token con alta entropia a finestra (HWE) (entropie a livello di token medie sotto una finestra scorrevole) possono catturare in modo affidabile i momenti critici del ragionamento; e (ii) ridurre l'uso di HWE beneficia i problemi semplici, mentre aumentarlo è essenziale per risolvere quelli difficili. Basandoci su queste intuizioni, ARES introduce una pipeline di addestramento in due fasi. Nella fase di Cold-Start Adattivo, curiamo dati multimodali e testuali accoppiati a tracce di ragionamento di lunghezza proporzionale alla difficoltà del problema, dotando il modello di una consapevolezza iniziale della difficoltà. Nella seconda fase, sviluppiamo l'Optimizzazione della Politica di Entropia Adattiva (AEPO), che utilizza i token HWE come trigger di esplorazione per decidere quando esplorare, e una ricompensa di entropia gerarchica con controllo dinamico di KL per decidere quanto esplorare. Esperimenti estensivi dimostrano che ARES raggiunge prestazioni superiori e un'efficienza di ragionamento su vari benchmark matematici, logici e multimodali, riducendo il divario rispetto ai principali sistemi commerciali con costi di inferenza significativamente inferiori.
La capacità di utilizzare, comprendere e creare strumenti è un tratto distintivo dell'intelligenza umana, che consente un'interazione sofisticata con il mondo fisico. Affinché un agente intelligente generico raggiunga una vera versatilità, deve padroneggiare anche queste abilità fondamentali. Sebbene i moderni Modelli Linguistici Multimodali di Grande Scala (MLLMs) sfruttino la loro vasta conoscenza comune per la pianificazione di alto livello nell'IA incarnata e nei modelli Visione-Linguaggio-Azione (VLA) a valle, l'estensione della loro vera comprensione degli strumenti fisici rimane non quantificata. Per colmare questa lacuna, presentiamo PhysToolBench, il primo benchmark dedicato alla valutazione della comprensione degli strumenti fisici da parte degli MLLMs. Il nostro benchmark è strutturato come un dataset di Risposte a Domande Visuali (VQA) composto da oltre 1.000 coppie immagine-testo. Valuta le capacità attraverso tre livelli di difficoltà distinti: (1) Riconoscimento dello Strumento: Richiede il riconoscimento della funzione principale di uno strumento. (2) Comprensione dello Strumento: Testa la capacità di cogliere i principi sottostanti al funzionamento di uno strumento. (3) Creazione dello Strumento: Sfida il modello a creare un nuovo strumento dagli oggetti circostanti quando le opzioni convenzionali non sono disponibili. La nostra valutazione completa di 32 MLLMs, che includono modelli proprietari, open-source, specializzati nell'IA incarnata e backbones nei VLA, rivela una significativa carenza nella comprensione degli strumenti. Inoltre, forniamo un'analisi approfondita e proponiamo soluzioni preliminari. Codice e dataset sono disponibili pubblicamente.
I recenti progressi hanno spinto le frontiere dell'IA dai compiti di riconoscimento di pattern verso problemi che richiedono un ragionamento passo dopo passo, di tipo System2, specialmente con i grandi modelli linguistici. Tuttavia, a differenza dell'apprendimento, dove i concetti di generalizzazione e valutazione fuori distribuzione (OoD) sono ben formalizzati, non esiste una definizione o metrica chiara e coerente per la capacità di ragionamento. Proponiamo la generalizzazione fuori distribuzione di complessità (Complexity OoD) come quadro e impostazione del problema per definire e misurare il ragionamento. Un modello mostra generalizzazione Complexity OoD quando mantiene le prestazioni su istanze di test la cui complessità minima richiesta per la soluzione, sia rappresentazionale (struttura della soluzione più ricca) che computazionale (più passi di ragionamento/lunghezza del programma), supera quella di tutti gli esempi di addestramento. Formalizziamo la complessità attraverso la complessità di Kolmogorov della descrizione della soluzione e proxy operativi (ad esempio, conteggi di oggetti/relazioni; conteggi di passi di ragionamento), chiarendo come Complexity OoD differisca dalla lunghezza e dalla composizione OoD. Questa lente unifica apprendimento e ragionamento: molti casi risolvibili con un'elaborazione di tipo System1 a bassa complessità diventano di tipo System2 sotto pressione di complessità, mentre System2 può essere visto come una generalizzazione sulle strutture delle soluzioni. Traduciamo questa prospettiva in pratica con raccomandazioni per operazionalizzare Complexity OoD in tutta la pila: incorporare la complessità nella progettazione di benchmark e metriche di valutazione, ripensare la supervisione per indirizzare le tracce delle soluzioni, cercare e progettare bias induttivi per la generalizzazione Complexity OoD, affrontare gli effetti collaterali dell'apprendimento del ragionamento come scorciatoie spurie, robustezza semantica, dimenticanza catastrofica e calibrazione passo-passo. Poiché Complexity OoD non può essere risolta semplicemente aumentando i dati, il progresso verso un ragionamento robusto richiederà architetture e regimi di addestramento che modellino e allocino esplicitamente il calcolo rispetto alla complessità.
Il compito di previsione dell'occupazione 3D ha registrato progressi significativi negli ultimi anni, svolgendo un ruolo cruciale nei sistemi di guida autonoma basati sulla visione. Mentre i metodi tradizionali sono limitati a categorie semantiche fisse, gli approcci recenti si sono orientati verso la previsione di caratteristiche allineate al testo per consentire query testuali a vocabolario aperto in scene del mondo reale. Tuttavia, esiste un compromesso nella modellazione di scene allineate al testo: la rappresentazione sparsa con Gaussiane fatica a catturare oggetti piccoli nella scena, mentre la rappresentazione densa comporta un significativo sovraccarico computazionale. Per affrontare queste limitazioni, presentiamo PG-Occ, un innovativo Progressive Gaussian Transformer Framework che consente la previsione dell'occupazione 3D a vocabolario aperto. Il nostro framework utilizza una densificazione progressiva online, una strategia feed-forward che migliora gradualmente la rappresentazione 3D con Gaussiane per catturare dettagli fini della scena. Migliorando iterativamente la rappresentazione, il framework raggiunge una comprensione della scena sempre più precisa e dettagliata. Un altro contributo chiave è l'introduzione di una strategia di campionamento consapevole dell'anisotropia con fusione spazio-temporale, che assegna in modo adattivo i campi recettivi alle Gaussiane a diverse scale e stadi, consentendo un'aggregazione delle caratteristiche più efficace e una cattura più ricca delle informazioni della scena. Attraverso valutazioni estensive, dimostriamo che PG-Occ raggiunge prestazioni all'avanguardia con un miglioramento relativo del 14,3% in mIoU rispetto al metodo precedentemente più performante. Il codice e i modelli pre-addestrati saranno rilasciati alla pubblicazione sulla nostra pagina del progetto: https://yanchi-3dv.github.io/PG-Occ
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato progressi significativi nel ragionamento, spesso attraverso il fine-tuning supervisionato (SFT). Tuttavia, il SFT è dispendioso in termini di risorse, poiché si basa su grandi dataset curati, dimostrazioni campionate per rifiuto e un'ottimizzazione uniforme su tutti i token, nonostante solo una frazione di essi abbia un reale valore di apprendimento. In questo lavoro, esploriamo un'idea controintuitiva: i modelli linguistici più piccoli (SLM) possono insegnare ai modelli linguistici più grandi (LLM) rivelando momenti di ragionamento ad alto valore che riflettono la forza unica di quest'ultimi? Proponiamo LightReasoner, un nuovo framework che sfrutta la divergenza comportamentale tra un modello esperto più forte (LLM) e un modello amatoriale più debole (SLM). LightReasoner opera in due fasi: (1) una fase di campionamento che individua i momenti critici di ragionamento e costruisce esempi di supervisione che catturano il vantaggio dell'esperto attraverso il contrasto esperto-amatoriale, e (2) una fase di fine-tuning che allinea il modello esperto con questi esempi distillati, amplificando le sue capacità di ragionamento. Su sette benchmark matematici, LightReasoner migliora l'accuratezza fino al 28,1%, riducendo il tempo di elaborazione del 90%, i problemi campionati dell'80% e l'uso di token ottimizzati del 99%, tutto senza fare affidamento su etichette di verità. Trasformando gli SLM più deboli in segnali di insegnamento efficaci, LightReasoner offre un approccio scalabile e efficiente in termini di risorse per migliorare il ragionamento degli LLM. Il codice è disponibile all'indirizzo: https://github.com/HKUDS/LightReasoner
I modelli di diffusione controllabili attuali si basano tipicamente su architetture fisse che modificano le attivazioni intermedie per iniettare una guida condizionata a una nuova modalità. Questo approccio utilizza una strategia di condizionamento statica per un processo di denoising dinamico e multi-stadio, limitando la capacità del modello di adattare la sua risposta man mano che la generazione evolve da una struttura grezza a dettagli fini. Introduciamo TC-LoRA (Temporally Modulated Conditional LoRA), un nuovo paradigma che consente un controllo dinamico e contestuale condizionando direttamente i pesi del modello. Il nostro framework utilizza un iper-rete per generare adattatori LoRA al volo, personalizzando le modifiche ai pesi per il backbone congelato a ogni passo di diffusione in base al tempo e alla condizione dell'utente. Questo meccanismo consente al modello di apprendere ed eseguire una strategia esplicita e adattiva per applicare la guida condizionale durante l'intero processo di generazione. Attraverso esperimenti su vari domini di dati, dimostriamo che questo controllo parametrico dinamico migliora significativamente la fedeltà generativa e l'aderenza alle condizioni spaziali rispetto ai metodi statici basati sulle attivazioni. TC-LoRA stabilisce un approccio alternativo in cui la strategia di condizionamento del modello viene modificata attraverso un adattamento funzionale più profondo dei suoi pesi, consentendo al controllo di allinearsi alle esigenze dinamiche del compito e dello stadio generativo.
Presentiamo MRMR, il primo benchmark multidisciplinare multimodale di recupero a livello esperto che richiede un ragionamento intensivo. MRMR contiene 1.502 query che coprono 23 domini, con documenti positivi attentamente verificati da esperti umani. Rispetto ai benchmark precedenti, MRMR introduce tre progressi chiave. Innanzitutto, mette alla prova i sistemi di recupero in diverse aree di competenza, consentendo un confronto granulare dei modelli tra i domini. In secondo luogo, le query sono intensive dal punto di vista del ragionamento, con immagini che richiedono un'interpretazione più profonda, come la diagnosi di vetrini microscopici. Introduciamo inoltre il Recupero per Contraddizione, un nuovo compito che richiede ai modelli di identificare concetti in conflitto. Infine, le query e i documenti sono costruiti come sequenze intervallate di immagini e testo. A differenza dei benchmark precedenti limitati a singole immagini o documenti unimodali, MRMR offre un contesto realistico con query multi-immagine e documenti del corpus a modalità mista. Abbiamo condotto una valutazione estensiva di 4 categorie di sistemi di recupero multimodale e 14 modelli all'avanguardia su MRMR. Il modello di embedding testuale Qwen3-Embedding con didascalie generate da LLM per le immagini raggiunge le prestazioni più elevate, evidenziando un ampio margine di miglioramento per i modelli di recupero multimodale. Sebbene i più recenti modelli multimodali come Ops-MM-Embedding si comportino in modo competitivo sulle query di dominio esperto, non riescono a soddisfare i compiti intensivi dal punto di vista del ragionamento. Crediamo che MRMR apra la strada al progresso del recupero multimodale in scenari più realistici e impegnativi.
I modelli di ragionamento hanno recentemente mostrato progressi significativi in domini come la matematica e la programmazione. Tuttavia, le loro abilità di livello esperto in matematica e programmazione contrastano nettamente con le loro prestazioni in compiti interattivi a lungo termine come la navigazione web e l'uso di computer/telefoni. Ispirati dalla letteratura sulla cognizione umana, sosteniamo che gli attuali agenti di intelligenza artificiale necessitano di "prove ed errori vicari" - la capacità di simulare mentalmente futuri alternativi prima di agire - per migliorare la loro comprensione e prestazioni in ambienti interattivi complessi. Introduciamo Dyna-Mind, un framework di addestramento in due fasi che insegna esplicitamente agli agenti (V)LM a integrare tale simulazione nel loro ragionamento. Nella fase 1, introduciamo il Ragionamento con Simulazioni (ReSim), che addestra l'agente a generare tracce di ragionamento strutturate da alberi di ricerca ampliati costruiti da esperienze reali raccolte attraverso interazioni con l'ambiente. ReSim quindi ancorail ragionamento dell'agente a dinamiche mondiali fedeli e lo equipaggia con la capacità di anticipare stati futuri nel suo ragionamento. Nella fase 2, proponiamo Dyna-GRPO, un metodo di apprendimento per rinforzo online per rafforzare ulteriormente la capacità di simulazione e decisione dell'agente utilizzando sia ricompense finali che stati intermedi come feedback da esecuzioni reali. Esperimenti su due benchmark sintetici (Sokoban e ALFWorld) e un benchmark realistico (AndroidWorld) dimostrano che (1) ReSim infonde efficacemente la capacità di simulazione negli agenti di intelligenza artificiale, e (2) Dyna-GRPO sfrutta segnali a livello di risultato e interazione per apprendere politiche migliori per compiti a lungo termine e intensivi di pianificazione. Insieme, questi risultati evidenziano il ruolo centrale della simulazione nel consentire agli agenti di intelligenza artificiale di ragionare, pianificare e agire in modo più efficace in ambienti sempre più impegnativi.
La sintesi dinamica di viste ha registrato progressi significativi, ma la ricostruzione di scene da video casuali e non calibrati rimane una sfida a causa dell'ottimizzazione lenta e della complessa stima dei parametri. In questo lavoro, presentiamo Instant4D, un sistema di ricostruzione monoculare che sfrutta una rappresentazione 4D nativa per elaborare in modo efficiente sequenze video casuali in pochi minuti, senza l'uso di telecamere calibrate o sensori di profondità. Il nostro metodo inizia con il recupero geometrico tramite SLAM visivo profondo, seguito da una potatura della griglia per ottimizzare la rappresentazione della scena. Il nostro design riduce significativamente la ridondanza mantenendo l'integrità geometrica, riducendo le dimensioni del modello a meno del 10% della sua dimensione originale. Per gestire in modo efficiente le dinamiche temporali, introduciamo una rappresentazione 4D semplificata basata su Gaussiane, ottenendo un'accelerazione di 30x e riducendo il tempo di addestramento a meno di due minuti, mantenendo prestazioni competitive su diversi benchmark. Il nostro metodo ricostruisce un singolo video in meno di 10 minuti sul dataset Dycheck o per un tipico video di 200 frame. Appliciamo ulteriormente il nostro modello a video in contesti reali, dimostrandone la generalizzabilità. Il sito web del progetto è pubblicato all'indirizzo https://instant4d.github.io/.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato progressi significativi nel ragionamento matematico e logico, tuttavia la statistica, come disciplina distinta e integrata, rimane poco esplorata negli sforzi di benchmarking. Per colmare questa lacuna, introduciamo StatEval, il primo benchmark completo dedicato alla statistica, che copre sia l'ampiezza che la profondità attraverso diversi livelli di difficoltà. StatEval è composto da 13.817 problemi di base che coprono i programmi universitari e di laurea magistrale, insieme a 2.374 compiti di dimostrazione di livello di ricerca estratti da riviste leader nel settore. Per costruire il benchmark, abbiamo progettato una pipeline scalabile multi-agente con validazione umana in loop che automatizza l'estrazione su larga scala dei problemi, la riscrittura e il controllo di qualità, garantendo al contempo il rigore accademico. Proponiamo inoltre un robusto framework di valutazione adattato sia ai compiti computazionali che a quelli basati su dimostrazioni, consentendo una valutazione granulare delle capacità di ragionamento. I risultati sperimentali rivelano che mentre i modelli closed-source come GPT5-mini ottengono meno del 57% sui problemi di livello di ricerca, i modelli open-source performano in modo significativamente inferiore. Questi risultati evidenziano le sfide uniche del ragionamento statistico e i limiti degli attuali LLM. Ci aspettiamo che StatEval serva come benchmark rigoroso per avanzare l'intelligenza statistica nei modelli linguistici di grandi dimensioni. Tutti i dati e il codice sono disponibili sulla nostra piattaforma web: https://stateval.github.io/.
La robustezza del riconoscimento vocale automatico (ASR) in caso di cambiamenti di dominio è cruciale, poiché i sistemi nel mondo reale si trovano ad affrontare accenti e domini non visti, con dati etichettati limitati. Sebbene l'etichettatura pseudo-supervisionata offra una soluzione pratica, spesso introduce errori sistematici specifici per l'accento che il filtraggio non riesce a correggere. Ci chiediamo: come possiamo correggere questi bias ricorrenti senza avere a disposizione la verità di riferimento del target? Proponiamo una semplice correzione nello spazio dei parametri: in un dominio sorgente contenente sia dati reali che pseudo-etichettati, due modelli ASR vengono affinati partendo dalla stessa inizializzazione, uno utilizzando etichette di verità di riferimento e l'altro utilizzando pseudo-etichette, e la differenza dei loro pesi forma un vettore di correzione che cattura i bias delle pseudo-etichette. Quando applicato a un modello target pseudo-etichettato, questo vettore migliora il riconoscimento, ottenendo una riduzione relativa del tasso di errore sulle parole (WER) fino al 35% su AfriSpeech-200 in dieci accenti africani con il modello Whisper tiny.
I tradizionali modelli multimodali trovano rappresentazioni unificate per compiti come il question answering visivo, ma si basano fortemente su dataset accoppiati. Tuttavia, una domanda trascurata ma potenzialmente potente è: è possibile sfruttare dati multimodali ausiliari non accoppiati per migliorare direttamente l'apprendimento delle rappresentazioni in una modalità target? Introduciamo UML: Unpaired Multimodal Learner, un paradigma di addestramento agnostico rispetto alla modalità in cui un singolo modello elabora alternativamente input provenienti da diverse modalità condividendo i parametri tra di esse. Questo design sfrutta l'assunzione che diverse modalità siano proiezioni di una realtà sottostante condivisa, consentendo al modello di beneficiare della struttura cross-modale senza richiedere coppie esplicite. Teoricamente, sotto ipotesi lineari di generazione dei dati, dimostriamo che i dati ausiliari non accoppiati possono produrre rappresentazioni strettamente più informative riguardo al processo di generazione dei dati rispetto all'addestramento unimodale. Empiricamente, mostriamo che l'uso di dati non accoppiati provenienti da modalità ausiliarie -- come testo, audio o immagini -- migliora costantemente le prestazioni downstream su obiettivi unimodali diversi come immagini e audio. La nostra pagina del progetto: https://unpaired-multimodal.github.io/
Gli agenti DeepResearch rappresentano un paradigma AI trasformativo, conducendo ricerche di livello esperto attraverso ragionamenti sofisticati e integrazione multi-strumentale. Tuttavia, valutare questi sistemi rimane una sfida critica a causa di scenari di ricerca aperti e benchmark esistenti che si concentrano su capacità isolate piuttosto che su prestazioni olistiche. A differenza dei tradizionali compiti LLM, i sistemi DeepResearch devono sintetizzare fonti diverse, generare intuizioni e presentare risultati coerenti, capacità che resistono a una verifica semplice. Per colmare questa lacuna, introduciamo DeepResearch-ReportEval, un framework completo progettato per valutare i sistemi DeepResearch attraverso i loro output più rappresentativi: i rapporti di ricerca. Il nostro approccio misura sistematicamente tre dimensioni: qualità, ridondanza e fattualità, utilizzando una metodologia innovativa LLM-as-a-Judge che raggiunge una forte concordanza con gli esperti. Contribuiamo con un benchmark standardizzato di 100 query curate che coprono 12 categorie del mondo reale, consentendo un confronto sistematico delle capacità. La nostra valutazione di quattro sistemi commerciali leader rivela filosofie di design distinte e compromessi prestazionali, stabilendo intuizioni fondamentali mentre DeepResearch evolve da assistenti informativi verso partner di ricerca intelligenti. Codice sorgente e dati sono disponibili su: https://github.com/HKUDS/DeepResearch-Eval.
I protocolli di controllo dell'IA fungono da meccanismo di difesa per impedire che agenti LLM non attendibili causino danni in contesti autonomi. Il lavoro precedente tratta questo problema come una questione di sicurezza, sottoponendo a stress test con exploit che utilizzano il contesto di distribuzione per completare sottilmente compiti dannosi, come l'inserimento di backdoor. Nella pratica, la maggior parte dei protocolli di controllo dell'IA si basa fondamentalmente su monitor LLM, che possono diventare un punto centrale di fallimento. Studiamo attacchi adattivi da parte di un modello non attendibile che conosce il protocollo e il modello di monitoraggio, scenario plausibile se il modello non attendibile è stato addestrato con un cutoff di conoscenza successivo o può cercare queste informazioni in modo autonomo. Istanziamo un semplice vettore di attacco adattivo in cui l'attaccante incorpora iniezioni di prompt pubblicamente note o zero-shot negli output del modello. Utilizzando questa tattica, i modelli di frontiera eludono costantemente monitor diversi e completano compiti dannosi su due principali benchmark di controllo dell'IA. L'attacco funziona universalmente contro i protocolli attuali che si affidano a un monitor. Inoltre, il recente protocollo Defer-to-Resample si rivela addirittura controproducente, poiché il suo ricampionamento amplifica l'iniezione di prompt e la riformula efficacemente come un attacco best-of-n. In generale, gli attacchi adattivi ai modelli di monitoraggio rappresentano un punto cieco significativo nei protocolli di controllo attuali e dovrebbero diventare un componente standard delle valutazioni per i futuri meccanismi di controllo dell'IA.
Il parallel test-time scaling (TTS) è un approccio fondamentale per migliorare i grandi modelli linguistici (LLMs), tipicamente campionando in parallelo più catene di pensiero basate su token e aggregando i risultati attraverso votazione o ricerca. I recenti progressi nel ragionamento latente, dove il ragionamento intermedio si svolge in spazi vettoriali continui, offrono un'alternativa più efficiente rispetto alla Chain-of-Thought esplicita, ma rimane aperta la questione se tali modelli latenti possano trarre vantaggio in modo simile dal parallel TTS, principalmente a causa dell'assenza di meccanismi di campionamento nello spazio continuo e della mancanza di segnali probabilistici per l'aggregazione avanzata delle traiettorie. \ Questo lavoro abilita il parallel TTS per i modelli di ragionamento latente affrontando le problematiche sopra citate. Per il campionamento, introduciamo due strategie stocastiche ispirate all'incertezza: Monte Carlo Dropout e Additive Gaussian Noise. Per l'aggregazione, progettiamo un Latent Reward Model (LatentRM) addestrato con un obiettivo contrastivo step-wise per valutare e guidare il ragionamento latente. Esperimenti estesi e analisi di visualizzazione dimostrano che entrambe le strategie di campionamento scalano efficacemente con il calcolo e mostrano dinamiche di esplorazione distinte, mentre LatentRM consente una selezione efficace delle traiettorie. Insieme, le nostre esplorazioni aprono una nuova direzione per l'inferenza scalabile in spazi continui. Il codice è disponibile all'indirizzo https://github.com/YRYangang/LatentTTS.
I modelli di captioning zero-shot sono proposte recenti che sfruttano rappresentazioni visivo-linguistiche in uno spazio comune per descrivere immagini senza fare affidamento su dati accoppiati immagine-testo. Per generare una descrizione, decodificano testualmente una caratteristica dell'immagine allineata al testo, ma limitano il loro ambito a rappresentazioni globali e descrizioni dell'intera immagine. Presentiamo un framework unificato per il captioning zero-shot che passa da un paradigma centrato sull'immagine a uno centrato sulle patch, consentendo la descrizione di regioni arbitrarie senza la necessità di supervisione a livello di regione. Invece di basarsi su rappresentazioni globali dell'immagine, trattiamo le singole patch come unità atomiche di captioning e le aggregiamo per descrivere regioni arbitrarie, dalle singole patch ad aree non contigue e intere immagini. Analizziamo gli elementi chiave che consentono ai modelli di captioning latenti di funzionare nel nostro nuovo framework proposto. Gli esperimenti dimostrano che modelli di base che producono caratteristiche visive dense e significative, come DINO, sono fondamentali per raggiungere prestazioni all'avanguardia in molteplici task di captioning basati su regioni. Rispetto ad altri baseline e competitor all'avanguardia, i nostri modelli ottengono prestazioni migliori in task di captioning zero-shot denso, su insiemi di regioni e in un nuovo task di captioning a traccia, evidenziando l'efficacia delle rappresentazioni semantiche basate su patch per la generazione scalabile di descrizioni. Pagina del progetto: https://paciosoft.com/Patch-ioner/.
La revisione tra pari è il pilastro della pubblicazione scientifica, ma soffre di inconsistenze, soggettività dei revisori e sfide di scalabilità. Presentiamo ReviewerToo, un framework modulare per studiare e implementare la revisione tra pari assistita dall'IA, al fine di integrare il giudizio umano con valutazioni sistematiche e coerenti. ReviewerToo supporta esperimenti sistematici con personaggi specializzati di revisori e criteri di valutazione strutturati, e può essere parzialmente o completamente integrato nei flussi di lavoro reali delle conferenze. Validiamo ReviewerToo su un dataset accuratamente curato di 1.963 sottomissioni di articoli provenienti da ICLR 2025, dove i nostri esperimenti con il modello gpt-oss-120b raggiungono un'accuratezza dell'81,8% nel compito di classificare un articolo come accettato/rifiutato, rispetto all'83,9% della media dei revisori umani. Inoltre, le recensioni generate da ReviewerToo sono valutate come di qualità superiore alla media umana da un giudice LLM, sebbene rimangano indietro rispetto ai contributi più forti degli esperti. La nostra analisi evidenzia i domini in cui i revisori IA eccellono (ad esempio, verifica dei fatti, copertura della letteratura) e quelli in cui faticano (ad esempio, valutazione della novità metodologica e dei contributi teorici), sottolineando la continua necessità dell'esperienza umana. Sulla base di questi risultati, proponiamo linee guida per integrare l'IA nei processi di revisione tra pari, mostrando come l'IA possa migliorare la coerenza, la copertura e l'equità, lasciando i giudizi valutativi complessi agli esperti del settore. Il nostro lavoro fornisce una base per sistemi di revisione tra pari ibridi e sistematici che scalano con la crescita della pubblicazione scientifica.
I grandi modelli di ragionamento (LRM) potenziati dall'Apprendimento per Rinforzo con Ricompensa da Verificatore (RLVR) hanno dimostrato una grande capacità nella risoluzione di problemi, ma spesso causano un eccesso di ragionamento: un ragionamento prolisso e dispersivo che aumenta il costo computazionale. I precedenti approcci di penalizzazione nell'RLVR sono riusciti a ridurre il consumo di token, ma spesso a scapito delle prestazioni del modello, a causa della semplicità eccessiva della supervisione a livello di token. In questo articolo, sosteniamo che la granularità della supervisione svolge un ruolo cruciale nel bilanciare efficienza e accuratezza, e proponiamo la Penalizzazione Relativa a Segmenti di Gruppo (GRSP), un metodo a livello di passi per regolarizzare il ragionamento. Poiché analisi preliminari mostrano che i segmenti di ragionamento sono fortemente correlati al consumo di token e alle prestazioni del modello, progettiamo un meccanismo di ponderazione basato sulla lunghezza applicato ai cluster di segmenti. Esperimenti estesi dimostrano che il GRSP raggiunge una superior efficienza nei token senza compromettere pesantemente l'accuratezza, mostrando particolari vantaggi con problemi più complessi. Inoltre, il GRSP stabilizza l'addestramento RL e scala efficacemente con le dimensioni del modello.
I modelli di linguaggio parlato in tempo reale (SLM) faticano a sfruttare il ragionamento a catena di pensiero (CoT) a causa della latenza proibitiva generata dalla produzione sequenziale dell'intero processo di pensiero. Abilitare gli SLM a pensare mentre parlano, in modo simile agli esseri umani, sta attirando un'attenzione crescente. Presentiamo, per la prima volta, Mind-Paced Speaking (MPS), un framework ispirato al cervello che consente un ragionamento ad alta fedeltà in tempo reale. Similmente a come gli esseri umani utilizzano distinte regioni cerebrali per pensare e rispondere, proponiamo un innovativo approccio a doppio cervello, impiegando un "Cervello di Formulazione" per il ragionamento di alto livello per guidare e regolare un separato "Cervello di Articolazione" per la generazione fluida del parlato. Questa divisione del lavoro elimina il cambio di modalità, preservando l'integrità del processo di ragionamento. Gli esperimenti dimostrano che MPS supera significativamente i metodi esistenti di pensare-mentre-parlare e raggiunge prestazioni di ragionamento comparabili a modelli che pre-calcolano l'intero CoT prima di parlare, riducendo drasticamente la latenza. In una configurazione a latenza zero, il metodo proposto raggiunge un'accuratezza del 92,8% nel compito di ragionamento matematico Spoken-MQA e ottiene un punteggio di 82,5 nel compito di conversazione parlata URO-Bench. Il nostro lavoro colma efficacemente il divario tra ragionamento di alta qualità e interazione in tempo reale.
Gli agenti basati su modelli linguistici di grandi dimensioni (LLM) faticano a gestire tentativi ed errori privi di logica e a generare azioni allucinatorie a causa della mancanza di una pianificazione globale in compiti a lungo termine. In questo articolo, introduciamo un framework di pianificazione ed esecuzione e proponiamo EAGLET, un metodo di addestramento del pianificatore efficiente ed efficace per potenziare le capacità di pianificazione dell'agente esecutore senza sforzo umano. Nello specifico, addestriamo un pianificatore globale plug-and-play attraverso un processo in due fasi: inizialmente sintetizziamo piani di alta qualità da un LLM avanzato utilizzando la nostra strategia di filtraggio del consenso omologo, e applichiamo il fine-tuning come avvio a freddo. Inoltre, miglioriamo ulteriormente il pianificatore con una fase di apprendimento per rinforzo basato su regole utilizzando una ricompensa basata sul guadagno di capacità dell'esecutore, garantendo che possa gestire istruzioni di compiti di varia difficoltà. Esperimenti su tre compiti di agenti a lungo termine dimostrano che gli agenti esecutori equipaggiati con il nostro pianificatore superano i metodi esistenti, raggiungendo nuove prestazioni all'avanguardia. Nel frattempo, EAGLET riduce i costi di addestramento di 8 volte rispetto ai baseline basati su RL, e non richiede sforzo manuale o dati di addestramento aggiuntivi, offrendo una soluzione efficiente ed efficace.
Come nuovo paradigma per la generazione di contenuti visivi, i modelli autoregressivi text-to-image soffrono di un'inferenza lenta a causa del loro processo di decodifica sequenziale token per token, che spesso richiede migliaia di passaggi in avanti del modello per generare una singola immagine. Per affrontare questa inefficienza, proponiamo lo Speculative Jacobi-Denoising Decoding (SJD2), un framework che incorpora il processo di denoising nelle iterazioni di Jacobi per abilitare la generazione parallela di token nei modelli autoregressivi. Il nostro metodo introduce un paradigma di previsione del prossimo token pulito che consente ai modelli autoregressivi pre-addestrati di accettare embedding di token perturbati dal rumore e prevedere i prossimi token puliti attraverso un fine-tuning a basso costo. Questo paradigma di denoising guida il modello verso traiettorie di Jacobi più stabili. Durante l'inferenza, il nostro metodo inizializza le sequenze di token con rumore gaussiano ed esegue iterativamente la previsione del prossimo token pulito nello spazio degli embedding. Utilizziamo un criterio probabilistico per verificare e accettare più token in parallelo, e perfezioniamo i token non accettati per la prossima iterazione con la traiettoria di denoising. Gli esperimenti dimostrano che il nostro metodo può accelerare la generazione riducendo i passaggi in avanti del modello mantenendo la qualità visiva delle immagini generate.
La Segmentazione di Oggetti Video con Riferimento (RVOS) mira a segmentare l'oggetto indicato dalla frase di query nel video. La maggior parte dei metodi esistenti richiede un addestramento end-to-end con annotazioni di maschere dense, che potrebbe essere computazionalmente oneroso e meno scalabile. In questo lavoro, ripensiamo al problema della RVOS e ci proponiamo di investigare gli aspetti chiave di questo compito. Basandoci su modelli di segmentazione di base esistenti, scomponiamo il compito della RVOS in fattori di riferimento, video e segmentazione, e proponiamo un framework di Generazione e Selezione di Prompt Temporali (Tenet) per affrontare i fattori di riferimento e video, lasciando il problema della segmentazione ai modelli di base. Per adattare in modo efficiente i modelli di segmentazione di base basati su immagini alla segmentazione di oggetti video con riferimento, sfruttiamo rilevatori e tracker di oggetti preesistenti per produrre prompt temporali associati alla frase di riferimento. Sebbene sia possibile produrre prompt temporali di alta qualità, questi non possono essere facilmente identificati dai punteggi di confidenza. Per affrontare questo problema, proponiamo l'Apprendimento della Preferenza dei Prompt per valutare la qualità dei prompt temporali prodotti. Utilizzando tali prompt per istruire i modelli di segmentazione di base basati su immagini, siamo in grado di produrre maschere di alta qualità per l'oggetto indicato, consentendo un adattamento efficiente del modello alla segmentazione di oggetti video con riferimento. Gli esperimenti sui benchmark RVOS dimostrano l'efficacia del framework Tenet.
I grandi modelli linguistici (LLM) e i framework agentici emergenti stanno iniziando a trasformare la biologia a singola cellula, abilitando il ragionamento in linguaggio naturale, l'annotazione generativa e l'integrazione di dati multimodali. Tuttavia, i progressi rimangono frammentati tra le diverse modalità di dati, architetture e standard di valutazione. LLM4Cell presenta la prima rassegna unificata di 58 modelli di base e agentici sviluppati per la ricerca a singola cellula, coprendo le modalità RNA, ATAC, multi-omiche e spaziali. Questi metodi vengono categorizzati in cinque famiglie—fondamentali, ponte-testo, spaziali, multimodali, epigenomici e agentici—e mappati su otto compiti analitici chiave, tra cui annotazione, modellazione di traiettorie e perturbazioni, e previsione della risposta ai farmaci. Utilizzando oltre 40 dataset pubblici, analizziamo l'idoneità dei benchmark, la diversità dei dati e i vincoli etici o di scalabilità, e valutiamo i modelli lungo 10 dimensioni di dominio che coprono il radicamento biologico, l'allineamento multi-omico, l'equità, la privacy e l'interpretabilità. Collegando dataset, modelli e domini di valutazione, LLM4Cell fornisce la prima visione integrata dell'intelligenza a singola cellula guidata dal linguaggio e delinea le sfide aperte in termini di interpretabilità, standardizzazione e sviluppo di modelli affidabili.
I modelli linguistici di grandi dimensioni (LLM) presentano significative sfide di implementazione a causa dei loro enormi requisiti computazionali e di memoria. Sebbene il pruning semi-strutturato, in particolare la sparsità 2:4, offra una via per l'accelerazione hardware pratica, i metodi esistenti spesso comportano un notevole degrado delle prestazioni. Per colmare questa lacuna, introduciamo ARMOR: (Adaptive Representation with Matrix-factORization), un nuovo algoritmo di pruning post-addestramento one-shot. Invece di potare direttamente i pesi, ARMOR fattorizza ogni matrice di pesi in un nucleo sparso 2:4 avvolto da due matrici diagonali a blocchi a basso sovraccarico. Questi involucri fungono da correttori di errore di pre e post-trasformazione efficienti, offrendo una maggiore flessibilità per preservare la qualità del modello rispetto alle tecniche di pruning 2:4 convenzionali. Il nucleo sparso e gli involucri diagonali a blocchi vengono scelti attraverso un algoritmo di discesa coordinata a blocchi che minimizza una perdita proxy a livello di strato. Dimostriamo teoricamente che questa ottimizzazione è garantita per convergere a una soluzione con una perdita proxy inferiore o uguale agli algoritmi di pruning all'avanguardia. Esperimenti sulle famiglie di modelli Llama (Touvron et al., 2023; Dubey et al., 2024) e Qwen (Yang et al., 2025) dimostrano che ARMOR supera costantemente e significativamente i metodi di pruning 2:4 all'avanguardia in un'ampia gamma di task downstream e valutazioni di perplessità. ARMOR raggiunge questa prestazione superiore mantenendo i miglioramenti della velocità di inferenza e le sostanziali riduzioni dell'uso di memoria del pruning 2:4, stabilendo un compromesso più efficace tra compressione del modello e accuratezza del task.
Gli agenti robotici nel mondo reale devono agire in condizioni di osservabilità parziale e orizzonti temporali lunghi, dove indizi cruciali possono apparire molto prima di influenzare il processo decisionale. Tuttavia, la maggior parte degli approcci moderni si basa esclusivamente su informazioni istantanee, senza incorporare intuizioni dal passato. I modelli ricorrenti o transformer standard faticano a mantenere e sfruttare dipendenze a lungo termine: le finestre di contesto troncano la storia, mentre estensioni naive della memoria falliscono su scala e in condizioni di sparsità. Proponiamo ELMUR (External Layer Memory with Update/Rewrite), un'architettura transformer con memoria esterna strutturata. Ogni livello mantiene embedding di memoria, interagisce con essi tramite cross-attenzione bidirezionale e li aggiorna attraverso un modulo di memoria Least Recently Used (LRU) utilizzando sostituzione o blending convesso. ELMUR estende gli orizzonti efficaci fino a 100.000 volte oltre la finestra di attenzione e raggiunge un tasso di successo del 100% su un compito sintetico T-Maze con corridoi fino a un milione di passi. In POPGym, supera i baseline in più della metà dei task. Sui task di manipolazione con ricompensa sparsa MIKASA-Robo e osservazioni visive, quasi raddoppia le prestazioni dei baseline forti. Questi risultati dimostrano che una memoria esterna strutturata e locale ai livelli offre un approccio semplice e scalabile al processo decisionale in condizioni di osservabilità parziale.
Come possiamo insegnare nuove abilità ai grandi modelli multimodali (LMM) senza cancellare le capacità precedenti? Studiamo il fine-tuning sequenziale su cinque abilità target mentre monitoriamo le capacità generali su otto benchmark tenuti da parte, attraverso tre famiglie di modelli. Osserviamo che l'apparente "dimenticanza" sui task tenuti da parte dopo un fine-tuning ristretto può parzialmente recuperare nelle fasi successive. Tracciamo questo comportamento a un cambiamento misurabile nella distribuzione dei token di output, manifestato attraverso una semplice sonda di bias di conteggio che co-varia con la dimenticanza. Guidati da questa prospettiva, identifichiamo due semplici e robuste ricette di tuning che apprendono efficacemente limitando la deriva: (i) aggiornare solo i livelli di proiezione del self-attention, e (ii) aggiornare solo il Gate&Up del MLP mentre si congela la proiezione Down. Attraverso modelli e task, queste scelte forniscono forti guadagni target preservando in gran parte le prestazioni sui benchmark tenuti da parte. Il codice è disponibile all'indirizzo https://github.com/jessemelpolio/LMM_CL.
I Large Language Model (LLM) hanno compiuto progressi significativi nel ragionamento, ma talvolta producono risposte subottimali per gli utenti in compiti come la scrittura, la ricerca di informazioni o la fornitura di indicazioni pratiche. Le pratiche convenzionali di allineamento presuppongono generalmente che massimizzare la ricompensa del modello equivalga a massimizzare il benessere dell'utente, ma questa ipotesi spesso fallisce nella pratica: i modelli possono chiarire eccessivamente o generare ragionamenti troppo prolissi quando gli utenti preferiscono risposte concise. Tali comportamenti ricordano il dilemma del prigioniero, dove scelte razionali individualmente portano a risultati socialmente subottimali. La sfida fondamentale è la mancanza di un meccanismo decisionale basato su principi che benefici reciprocamente sia il LLM che l'utente. Proponiamo il Game-Theoretic Alignment (GTAlign), un framework di allineamento che integra il processo decisionale basato sulla teoria dei giochi sia nel ragionamento che nell'addestramento. Durante il ragionamento, il modello tratta esplicitamente l'interazione utente-LLM come un gioco strategico: costruisce matrici di payoff all'interno della sua catena di ragionamento per stimare il benessere sia per sé stesso che per l'utente, e poi seleziona azioni reciprocamente vantaggiose. Durante l'addestramento, introduciamo una ricompensa di benessere reciproco che rafforza le risposte cooperative, allineando il comportamento del modello con risultati socialmente efficienti. Inoltre, introduciamo una tecnica di inferenza che sfrutta il ragionamento basato sulla teoria dei giochi per adattare dinamicamente la risposta del LLM quando cambiano le politiche di prezzo del servizio LLM. Esperimenti estensivi dimostrano che GTAlign migliora sostanzialmente l'efficienza del ragionamento, la qualità delle risposte e il benessere reciproco rispetto ai baseline in una vasta gamma di compiti. Il codice è disponibile su https://github.com/ulab-uiuc/GTAlign.
Le narrazioni personali sono storie che gli autori costruiscono per dare significato alle proprie esperienze. Lo stile, il modo distintivo in cui gli autori utilizzano il linguaggio per esprimersi, è fondamentale per come queste narrazioni trasmettono esperienze soggettive. Tuttavia, manca un quadro formale per analizzare sistematicamente queste scelte stilistiche. Presentiamo un approccio innovativo che formalizza lo stile nelle narrazioni personali come modelli nelle scelte linguistiche che gli autori compiono quando comunicano esperienze soggettive. Il nostro framework integra tre ambiti: la linguistica funzionale stabilisce il linguaggio come un sistema di scelte significative, l'informatica fornisce metodi per estrarre e analizzare automaticamente modelli sequenziali, e questi modelli sono collegati a osservazioni psicologiche. Utilizzando modelli linguistici, estraiamo automaticamente caratteristiche linguistiche come processi, partecipanti e circostanze. Applichiamo il nostro framework a centinaia di narrazioni di sogni, includendo uno studio su un veterano di guerra con disturbo da stress post-traumatico. L'analisi delle sue narrazioni rivela modelli distintivi, in particolare come i processi verbali dominino su quelli mentali, illustrando la relazione tra scelte linguistiche e stati psicologici.
Gli attuali approcci di stima della profondità monoculare auto-supervisionata (MDE) incontrano limitazioni di prestazioni dovute a un'estrazione insufficiente di conoscenza semantico-spaziale. Per affrontare questa sfida, proponiamo Hybrid-depth, un nuovo framework che integra sistematicamente modelli di base (ad esempio, CLIP e DINO) per estrarre prior visive e acquisire sufficienti informazioni contestuali per la MDE. Il nostro approccio introduce un framework di apprendimento progressivo da grossolano a fine: 1) In primo luogo, aggregiamo caratteristiche multi-granulari da CLIP (semantica globale) e DINO (dettagli spaziali locali) sotto la guida contrastiva del linguaggio. Un task proxy che confronta patch di immagini vicine e lontane è progettato per imporre un allineamento delle caratteristiche consapevole della profondità utilizzando prompt testuali; 2) Successivamente, basandoci sulle caratteristiche grossolane, integriamo informazioni sulla posa della fotocamera e un allineamento linguistico pixel-per-pixel per affinare le previsioni di profondità. Questo modulo si integra perfettamente con le pipeline esistenti di MDE auto-supervisionata (ad esempio, Monodepth2, ManyDepth) come un codificatore di profondità plug-and-play, migliorando la stima continua della profondità. Aggregando il contesto semantico di CLIP e i dettagli spaziali di DINO attraverso la guida del linguaggio, il nostro metodo affronta efficacemente le discrepanze di granularità delle caratteristiche. Esperimenti estensivi sul benchmark KITTI dimostrano che il nostro metodo supera significativamente i metodi SOTA in tutte le metriche, il che beneficia anche effettivamente task a valle come la percezione BEV. Il codice è disponibile all'indirizzo https://github.com/Zhangwenyao1/Hybrid-depth.
I modelli linguistici di grandi dimensioni (LLM) richiedono un'edizione efficiente della conoscenza (Knowledge Editing, KE) per aggiornare le informazioni fattuali, tuttavia i metodi esistenti mostrano un significativo decadimento delle prestazioni nel richiamo di fatti multi-hop. Questo fallimento è particolarmente evidente quando le modifiche coinvolgono soggetti intermedi impliciti all'interno delle catene di ragionamento. Attraverso un'analisi causale, riveliamo che questa limitazione deriva da una mancata considerazione di come la conoscenza concatenata sia rappresentata e utilizzata dinamicamente a livello neuronale. Scopriamo che durante il ragionamento multi-hop, i soggetti impliciti funzionano come neuroni di query, che attivano sequenzialmente i corrispondenti neuroni di valore attraverso i livelli del trasformatore per accumulare informazioni verso la risposta finale, un aspetto dinamico che il lavoro precedente di KE ha trascurato. Guidati da questa intuizione, proponiamo ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall, un framework che sfrutta l'attribuzione a livello neuronale per identificare e modificare questi percorsi critici query-valore (Q-V). ACE fornisce una soluzione meccanicamente fondata per il KE multi-hop, superando empiricamente i metodi all'avanguardia del 9,44% su GPT-J e del 37,46% su Qwen3-8B. La nostra analisi rivela inoltre schemi di attivazione più granulari in Qwen3 e dimostra che l'interpretabilità semantica dei neuroni di valore è orchestrata dall'accumulo guidato dalle query. Questi risultati stabiliscono una nuova via per avanzare le capacità di KE basandosi su una comprensione principiata dei meccanismi interni di ragionamento.
La personalizzazione dei modelli di diffusione consente agli utenti di generare nuove immagini che incorporano un determinato soggetto, offrendo un controllo maggiore rispetto a un semplice prompt testuale. Tuttavia, questi modelli spesso presentano delle limitazioni quando si limitano a ricreare l'immagine del soggetto, ignorando il prompt testuale. Osserviamo che un metodo popolare per la personalizzazione, l'IP-Adapter, genera automaticamente delle maschere che segmentano in modo definitivo il soggetto dallo sfondo durante l'inferenza. Proponiamo di utilizzare questa maschera generata automaticamente in un secondo passaggio per mascherare i token dell'immagine, limitandoli così al soggetto e non allo sfondo, permettendo al prompt testuale di concentrarsi sul resto dell'immagine. Per i prompt testuali che descrivono luoghi e ambientazioni, questo approccio produce immagini che rappresentano accuratamente il soggetto rispettando fedelmente il prompt. Confrontiamo il nostro metodo con altri metodi di personalizzazione in fase di test e riscontriamo che il nostro metodo mostra un elevato allineamento sia con il prompt che con l'immagine sorgente.