Articoli di ricerca IA selezionati quotidianamente con traduzioni
I benchmark esistenti per gli agenti basati su Large Language Model (LLM) si concentrano sul completamento dei compiti in contesti idealistici, ma trascurano l'affidabilità nelle applicazioni reali rivolte all'utente. In domini come gli assistenti vocali per auto, gli utenti spesso formulano richieste incomplete o ambigue, creando un'incertezza intrinseca che gli agenti devono gestire attraverso il dialogo, l'uso di strumenti e l'aderenza a politiche predefinite. Introduciamo CAR-bench, un benchmark per valutare la coerenza, la gestione dell'incertezza e la consapevolezza delle capacità negli agenti LLM che utilizzano strumenti in contesti multi-turn, specificamente nel dominio dell'assistente in auto. L'ambiente presenta un utente simulato da un LLM, politiche di dominio e 58 strumenti interconnessi che coprono navigazione, produttività, ricarica e controllo del veicolo. Oltre al completamento standard dei compiti, CAR-bench introduce i task di Allucinazione, che testano la consapevolezza dei limiti dell'agente in caso di strumenti o informazioni mancanti, e i task di Disambiguazione, che richiedono di risolvere l'incertezza attraverso chiarimenti o raccolta interna di informazioni. I risultati baseline rivelano ampi divari tra un successo occasionale e uno coerente in tutti i tipi di task. Anche gli LLM all'avanguardia per il ragionamento raggiungono meno del 50% di tasso di successo coerente nei task di Disambiguazione a causa di azioni premature e violano frequentemente le politiche o fabbricano informazioni per soddisfare le richieste dell'utente nei task di Allucinazione, sottolineando la necessità di agenti LLM più affidabili e consapevoli di sé in contesti reali.
Man mano che i modelli linguistici di grandi dimensioni (LLM) evolvono in agenti autonomi, la loro applicabilità nel mondo reale si è notevolmente ampliata, accompagnata da nuove sfide in materia di sicurezza. La maggior parte dei meccanismi di difesa esistenti per gli agenti adotta un paradigma di controllo obbligatorio, in cui la validazione della sicurezza viene attivata forzatamente in fasi predefinite del ciclo di vita dell'agente. In questo lavoro, sosteniamo che una sicurezza efficace per gli agenti debba essere intrinseca e selettiva, piuttosto che architetturalmente disaccoppiata e obbligatoria. Proponiamo il framework Spider-Sense, un framework di difesa guidato da eventi basato sul Rilevamento Intrinseco del Rischio (IRS, Intrinsic Risk Sensing), che consente agli agenti di mantenere una vigilanza latente e di attivare le difese solo in seguito alla percezione di un rischio. Una volta innescato, lo Spider-Sense invoca un meccanismo di difesa gerarchico che bilancia efficienza e precisione: risolve i pattern noti tramite un matching di similarità leggero, mentre escalation dei casi ambigui vengono deferiti a un ragionamento interno profondo, eliminando così la dipendenza da modelli esterni. Per facilitare una valutazione rigorosa, introduciamo S^2Bench, un benchmark consapevole del ciclo di vita che presenta esecuzioni realistiche di strumenti e attacchi multi-stadio. Esperimenti estensivi dimostrano che Spider-Sense raggiunge prestazioni di difesa competitive o superiori, ottenendo il più basso Tasso di Successo degli Attacchi (ASR, Attack Success Rate) e il più basso Tasso di Falsi Positivi (FPR, False Positive Rate), con un overhead di latenza marginale di solo l'8,3%.
Le recenti applicazioni del Reinforcement Learning con Ricompense Verificabili (RLVR) a Large Language Model (LLM) e Vision-Language Model (VLM) hanno dimostrato un successo significativo nel potenziare le capacità di ragionamento per compiti complessi. Durante l'addestramento RLVR, un aumento della lunghezza della risposta è spesso considerato un fattore chiave che contribuisce alla crescita dell'abilità di ragionamento. Tuttavia, gli andamenti della variazione della lunghezza della risposta differiscono in modo significativo tra i diversi algoritmi RLVR durante il processo di addestramento. Per fornire una spiegazione fondamentale di queste variazioni, questo articolo conduce un'analisi approfondita dei componenti degli algoritmi RLVR mainstream. Presentiamo un'analisi teorica dei fattori che influenzano la lunghezza della risposta e convalidiamo la nostra teoria attraverso un'ampia sperimentazione. Sulla base di questi risultati teorici, proponiamo l'algoritmo Length-Unbiased Sequence Policy Optimization (LUSPO). Nello specifico, correggiamo il bias di lunghezza insito nel Group Sequence Policy Optimization (GSPO), rendendo la sua funzione di loss unbiased rispetto alla lunghezza della risposta e risolvendo così il problema del collasso della lunghezza della risposta. Eseguiamo ampi esperimenti su benchmark di ragionamento matematico e scenari di ragionamento multimodale, in cui LUSPO raggiunge costantemente prestazioni superiori. I risultati empirici dimostrano che LUSPO rappresenta una strategia di ottimizzazione nuova e allo stato dell'arte rispetto a metodi esistenti come GRPO e GSPO.
La maggior parte dei sistemi di memoria per agenti basati su Large Language Model (LLM) si affida a un piccolo insieme di operazioni statiche e progettate manualmente per l'estrazione dei ricordi. Queste procedure fisse codificano rigidamente i preconcetti umani su cosa memorizzare e come revisionare la memoria, rendendole inflessibili sotto diversi pattern di interazione e inefficienti su cronologie lunghe. A tal fine, presentiamo MemSkill, che riformula queste operazioni come abilità di memoria apprendibili ed evolvibili, ovvero routine strutturate e riutilizzabili per estrarre, consolidare e sfoltire le informazioni dalle tracce di interazione. Ispirandosi alla filosofia progettuale delle abilità degli agenti, MemSkill impiega un controller che apprende a selezionare un piccolo insieme di abilità rilevanti, abbinato a un esecutore basato su LLM che produce ricordi guidati dalle abilità. Oltre ad apprendere la selezione delle abilità, MemSkill introduce un progettista che revisiona periodicamente i casi difficili in cui le abilità selezionate producono ricordi errati o incompleti, ed evolve l'insieme di abilità proponendo raffinamenti e nuove abilità. Insieme, MemSkill forma una procedura a ciclo chiuso che migliora sia la politica di selezione delle abilità che l'insieme di abilità stesso. Esperimenti su LoCoMo, LongMemEval, HotpotQA e ALFWorld dimostrano che MemSkill migliora le prestazioni dei compiti rispetto a baseline solide e generalizza bene across diverse impostazioni. Ulteriori analisi chiariscono come le abilità si evolvono, offrendo spunti verso una gestione della memoria più adattiva e auto-evolutiva per gli agenti LLM.
Gli approcci recenti per la generazione di video lunghi in tempo reale impiegano tipicamente strategie di tuning in streaming, tentando di addestrare uno studente a contesto lungo utilizzando un insegnante a contesto breve (privo di memoria). In questi framework, lo studente esegue generazioni lunghe ma riceve supervisione da un insegnante limitato a finestre brevi di 5 secondi. Questa discrepanza strutturale crea un disallineamento critico studente-insegnante: l'incapacità dell'insegnante di accedere alla cronologia a lungo termine gli impedisce di guidare lo studente sulle dipendenze temporali globali, limitando di fatto la lunghezza del contesto dello studente. Per risolvere questo problema, proponiamo Context Forcing, un framework innovativo che addestra uno studente a contesto lungo tramite un insegnante a contesto lungo. Garantendo che l'insegnante sia consapevole dell'intera cronologia di generazione, eliminiamo il disallineamento della supervisione, consentendo l'addestramento robusto di modelli capaci di coerenza a lungo termine. Per renderlo computazionalmente fattibile per durate estreme (ad esempio, 2 minuti), introduciamo un sistema di gestione del contesto che trasforma il contesto in crescita lineare in un'architettura di Memoria Lenta-Veloce, riducendo significativamente la ridondanza visiva. Risultati estensivi dimostrano che il nostro metodo consente lunghezze di contesto effettive superiori ai 20 secondi – da 2 a 10 volte più lunghe rispetto a metodi all'avanguardia come LongLive e Infinite-RoPE. Sfruttando questo contesto esteso, Context Forcing preserva una coerenza superiore per lunghe durate, superando i baseline all'avanguardia su varie metriche di valutazione per video lunghi.
Sebbene i modelli video generativi abbiano raggiunto una notevole fedeltà visiva, la loro capacità di interiorizzare e ragionare su regole implicite del mondo rimane una frontiera cruciale ma ancora poco esplorata. Per colmare questa lacuna, presentiamo RISE-Video, un benchmark pionieristicistico orientato al ragionamento per la sintesi Testo-Immagine-Video (TI2V) che sposta il focus valutativo dall'estetica di superficie al ragionamento cognitivo profondo. RISE-Video comprende 467 campioni meticolosamente annotati da esseri umani, che coprono otto categorie rigorose, fornendo un banco di prova strutturato per indagare l'intelligenza del modello attraverso dimensioni diverse, che vanno dal senso comune e dalla dinamica spaziale a domini soggettivi specializzati. Il nostro framework introduce un protocollo di valutazione multidimensionale costituito da quattro metriche: Allineamento del Ragionamento, Coerenza Temporale, Razionalità Fisica e Qualità Visiva. Per supportare ulteriormente una valutazione scalabile, proponiamo una pipeline automatizzata che sfrutta i Large Multimodal Models (LMM) per emulare una valutazione di tipo umano. Esperimenti estesi su 11 modelli TI2V all'avanguardia rivelano carenze pervasive nella simulazione di scenari complessi sotto vincoli impliciti, offrendo spunti critici per l'avanzamento dei futuri modelli generativi simulativi del mondo.
Gli interventi proattivi da parte di modelli critici basati su LLM sono spesso considerati un modo per migliorare l'affidabilità, ma i loro effetti al momento del deployment sono poco compresi. Dimostriamo che un critico binario per LLM con un'elevata accuratezza offline (AUROC 0,94) può comunque causare un grave degrado delle prestazioni, inducendo un crollo di 26 punti percentuali (pp) su un modello mentre ne influenza un altro di quasi zero pp. Questa variabilità dimostra che la sola accuratezza del critico LLM è insufficiente per determinare se l'intervento sia sicuro. Identifichiamo un tradeoff interruzione-recupero: gli interventi possono recuperare traiettorie in fallimento ma anche interrompere traiettorie che sarebbero riuscite. Sulla base di questa intuizione, proponiamo un test pre-deployment che utilizza un piccolo pilota di 50 task per stimare se l'intervento è probabile che aiuti o danneggi, senza richiedere un deployment completo. Su diversi benchmark, il test anticipa correttamente gli esiti: l'intervento degrada le prestazioni su task ad alto successo (da 0 a -26 pp), mentre produce un miglioramento modesto sul benchmark ALFWorld ad alto tasso di fallimento (+2,8 pp, p=0,014). Il valore primario del nostro framework è quindi identificare quando non intervenire, prevenendo gravi regressioni prima del deployment.
I modelli linguistici di grandi dimensioni (LLM) autoregressivi offrono prestazioni elevate ma richiedono un processo di decodifica intrinsecamente sequenziale, portando a un'elevata latenza nell'inferenza e a uno scarso utilizzo della GPU. La decodifica speculativa mitiga questo collo di bottiglia utilizzando un modello draft veloce le cui uscite vengono verificate in parallelo dall'LLM target; tuttavia, i metodi esistenti si basano ancora su un drafting autoregressivo, che rimane sequenziale e limita gli speedup pratici. I modelli Diffusion LLM offrono un'alternativa promettente grazie alla generazione parallela, ma gli attuali modelli di diffusione generalmente forniscono prestazioni inferiori rispetto ai modelli autoregressivi. In questo articolo, introduciamo DFlash, un framework di decodifica speculativa che impiega un modello di diffusione a blocchi leggero per il drafting parallelo. Generando i token draft in un unico passaggio in avanti e condizionando il modello draft su feature contestuali estratte dal modello target, DFlash consente un drafting efficiente con output di alta qualità e tassi di accettazione più elevati. Gli esperimenti mostrano che DFlash raggiunge un'accelerazione senza perdite superiore a 6x su una gamma di modelli e task, offrendo uno speedup fino a 2,5x superiore rispetto al metodo di decodifica speculativa allo stato dell'arte EAGLE-3.
Gli agenti basati su grandi modelli linguistici (LLM) esistenti mostrano difficoltà in ambienti interattivi che richiedono pianificazione a lungo termine, principalmente a causa dell'accumulo di errori durante la simulazione di stati futuri. Per affrontare questo problema, proponiamo ProAct, un framework che consente agli agenti di interiorizzare un ragionamento predittivo accurato attraverso un paradigma di addestramento a due stadi. In primo luogo, introduciamo la Grounded LookAhead Distillation (GLAD), in cui l'agente viene sottoposto a fine-tuning supervisionato su traiettorie derivate da ricerche basate sull'ambiente. Comprimendo alberi di ricerca complessi in catene di ragionamento causali e concise, l'agente impara la logica della previsione senza il sovraccarico computazionale della ricerca durante l'inferenza. In secondo luogo, per affinare ulteriormente l'accuratezza decisionale, proponiamo il Monte-Carlo Critic (MC-Critic), un estimatore di valore ausiliario plug-and-play progettato per potenziare algoritmi di policy gradient come PPO e GRPO. Sfruttando rollout leggeri dell'ambiente per calibrare le stime di valore, MC-Critic fornisce un segnale a bassa varianza che facilita un'ottimizzazione stabile della policy senza ricorrere a costose approssimazioni di valore basate su modelli. Esperimenti su ambienti sia stocastici (ad esempio, 2048) che deterministici (ad esempio, Sokoban) dimostrano che ProAct migliora significativamente l'accuratezza della pianificazione. È degno di nota che un modello da 4B di parametri addestrato con ProAct superi tutte le baseline open-source e rivaleggi con modelli closed-source all'avanguardia, dimostrando al contempo una robusta generalizzazione ad ambienti non visti. I codici e i modelli sono disponibili su https://github.com/GreatX3/ProAct.
Un kernel di alta qualità è fondamentale per sistemi di IA scalabili, e consentire agli LLM di generare tale codice farebbe avanzare lo sviluppo dell'IA. Tuttavia, addestrare LLM per questo compito richiede dati sufficienti, un ambiente robusto, e il processo è spesso vulnerabile a reward hacking e ottimizzazione pigra. In questi casi, i modelli possono manipolare i reward di addestramento e privilegiare una correttezza banale rispetto a un significativo miglioramento delle prestazioni. In questo articolo, studiamo sistematicamente il reinforcement learning (RL) per la generazione di kernel. Inizialmente progettiamo KernelGYM, un ambiente distribuito robusto su GPU che supporta il controllo del reward hacking, la raccolta di dati da interazioni multi-turno e l'addestramento RL a lungo termine. Basandoci su KernelGYM, investigiamo metodi RL multi-turno efficaci e identifichiamo un problema di policy gradient distorto causato dall'auto-inclusione in GRPO. Per risolverlo, proponiamo Turn-level Reinforce-Leave-One-Out (TRLOO) per fornire una stima unbiased del vantaggio per l'RL multi-turno. Per alleviare l'ottimizzazione pigra, incorporiamo una correzione del mismatch per la stabilità dell'addestramento e introduciamo Profiling-based Rewards (PR) e Profiling-based Rejection Sampling (PRS) per superare il problema. Il modello addestrato, Dr.Kernel-14B, raggiunge prestazioni competitive con Claude-4.5-Sonnet in Kernelbench. Infine, studiamo lo scaling sequenziale al test-time per Dr.Kernel-14B. Sul sottoinsieme KernelBench Level-2, il 31.6% dei kernel generati ottiene almeno un speedup di 1.2x rispetto al riferimento Torch, superando Claude-4.5-Sonnet (26.7%) e GPT-5 (28.6%). Selezionando il miglior candidato tra tutti i turni, questa percentuale di speedup di 1.2x aumenta ulteriormente al 47.8%. Tutte le risorse, inclusi ambiente, codice di addestramento, modelli e dataset, sono disponibili su https://www.github.com/hkust-nlp/KernelGYM.
Le informazioni privilegiate durante l'addestramento (PI) possono permettere ai modelli linguistici di riuscire in compiti che altrimenti fallirebbero, rendendole uno strumento potente per l'apprendimento per rinforzo in contesti difficili e a lungo termine. Tuttavia, trasferire le capacità apprese con le PI a politiche che devono agire senza di esse al momento dell'inferenza rimane una sfida fondamentale. Studiamo questo problema nel contesto della distillazione di modelli all'avanguardia per ambienti agentivi multi-turn, dove i sistemi closed-source tipicamente nascondono il loro ragionamento interno ed espongono solo traiettorie di azione. Ciò interrompe le pipeline standard di distillazione, poiché il comportamento di successo è osservabile ma il processo di ragionamento non lo è. Per questo, introduciamo π-Distill, un obiettivo congiunto insegnante-studente che addestra simultaneamente un insegnante condizionato dalle PI e uno studente non condizionato utilizzando lo stesso modello. Inoltre, introduciamo anche l'Auto-Distillazione su Politica (OPSD), un approccio alternativo che si addestra utilizzando l'Apprendimento per Rinforzo (RL) con una penalità di KL inversa tra lo studente e l'insegnante condizionato dalle PI. Dimostriamo che entrambi questi algoritmi distillano efficacemente agenti all'avanguardia utilizzando PI composte da sole azioni. In particolare, scopriamo che π-Distill e, in alcuni casi, OPSD, superano le pratiche standard del settore (fine-tuning supervisionato seguito da RL) che presuppongono l'accesso a una supervisione completa della Catena di Pensiero (Chain-of-Thought) su molteplici benchmark agentivi, modelli e forme di PI. Integriamo i nostri risultati con un'ampia analisi che caratterizza i fattori che abilitano un apprendimento efficace con le PI, concentrandoci principalmente su π-Distill e caratterizzando quando OPSD è competitiva.
La ricerca di risultati matematici rimane difficile: la maggior parte degli strumenti esistenti recupera interi articoli, mentre matematici e agenti di dimostrazione di teoremi spesso cercano un teorema, lemma o proposizione specifico che risponda a una query. Sebbene la ricerca semantica abbia fatto rapidi progressi, il suo comportamento su corpora ampi e altamente tecnici, come i teoremi matematici di livello di ricerca, rimane poco compreso. In questo lavoro, introduciamo e studiamo il recupero semantico di teoremi su larga scala su un corpus unificato di 9,2 milioni di enunciati di teoremi estratti da arXiv e da altre sette fonti, che rappresenta il più grande corpus pubblicamente disponibile di teoremi di livello di ricerca creati da esseri umani. Rappresentiamo ogni teorema con una breve descrizione in linguaggio naturale come rappresentazione per il recupero e analizziamo sistematicamente come il contesto della rappresentazione, la scelta del modello linguistico, il modello di embedding e la strategia di prompting influenzino la qualità del recupero. Su un set di valutazione curato di query di ricerca di teoremi scritte da matematici professionisti, il nostro approccio migliora sostanzialmente sia il recupero a livello di teorema che a livello di articolo rispetto ai baseline esistenti, dimostrando che la ricerca semantica di teoremi è fattibile ed efficace su scala web. Lo strumento di ricerca di teoremi è disponibile all'indirizzo https://huggingface.co/spaces/uw-math-ai/theorem-search, e il dataset è disponibile all'indirizzo https://huggingface.co/datasets/uw-math-ai/TheoremSearch.
Man mano che i Large Language Model automatizzano sempre più compiti complessi e a lungo termine come il vibe coding, è emerso un divario nella supervisione. Sebbene i modelli eccellano nell'esecuzione, gli utenti spesso faticano a guidarli efficacemente a causa di un'insufficiente competenza nel dominio, della difficoltà di esprimere un'intenzione precisa e dell'incapacità di convalidare in modo affidabile output complessi. Ciò presenta una sfida cruciale nella supervisione scalabile: consentire agli esseri umani di indirizzare responsabilmente i sistemi di IA su compiti che superano la loro stessa capacità di specificare o verificare. Per affrontare questo problema, proponiamo la Supervisione Interattiva Scalabile, un framework che scompone l'intento complesso in un albero ricorsivo di decisioni gestibili per amplificare la supervisione umana. Piuttosto che affidarsi a prompt aperti, il nostro sistema sollecita un feedback a basso carico in ogni nodo e aggrega ricorsivamente questi segnali in una guida globale precisa. Validato in un'attività di sviluppo web, il nostro framework consente a non esperti di produrre Documenti dei Requisiti di Prodotto di livello esperto, ottenendo un miglioramento del 54% nell'allineamento. Fondamentalmente, dimostriamo che questo framework può essere ottimizzato tramite Apprendimento per Rinforzo utilizzando solo il feedback online degli utenti, offrendo un percorso pratico per mantenere il controllo umano man mano che l'IA si espande.
Nonostante le prestazioni solide sui benchmark esistenti, rimane poco chiaro se i grandi modelli linguistici siano in grado di ragionare su informazioni scientifiche genuinamente nuove. La maggior parte delle valutazioni assegna punteggi a pipeline RAG end-to-end, dove il ragionamento è confuso con le scelte di retrieval e della toolchain, e il segnale è ulteriormente contaminato dalla memorizzazione parametrica e dalla volatilità del web aperto. Introduciamo DeR2, un sandbox controllato per la deep-research che isola il ragionamento basato su documenti, preservando al contempo le difficoltà fondamentali della ricerca approfondita: sintesi multi-step, denoising e formulazione di conclusioni basate su evidenze. DeR2 disaccoppia l'accesso alle evidenze dal ragionamento attraverso quattro regimi – Solo Istruzione, Concetti (concetti gold senza documenti), Solo Correlati (solo documenti rilevanti) e Set Completo (documenti rilevanti più distrattori tematicamente correlati) – producendo gap di regime interpretabili che operazionalizzano la perdita di retrieval rispetto alla perdita di ragionamento e consentono un'attribuzione degli errori granulare. Per prevenire la dispersione parametrica, applichiamo una validazione in due fasi che richiede il fallimento parametrico in assenza di evidenze, assicurando al contempo la risolvibilità con concetti oracolo. Per garantire la riproducibilità, ogni istanza fornisce una libreria documentale congelata (estratta da articoli teorici del 2023-2025) con concetti annotati da esperti e razionali validati. Esperimenti condotti su un insieme diversificato di modelli fondazionali all'avanguardia rivelano una variazione sostanziale e un margine di miglioramento significativo: alcuni modelli mostrano una fragilità di cambio di modalità, performando peggio con il Set Completo rispetto al Solo Istruzione, mentre altri mostrano un uso strutturalmente improprio dei concetti, nominandoli correttamente ma fallendo nell'eseguirli come procedure.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più valutati in ambienti interattivi per testare la loro intelligenza sociale. Tuttavia, i benchmark esistenti presuppongono spesso una comunicazione idealizzata tra agenti, limitando la nostra capacità di diagnosticare se gli LLM possono mantenere e riparare le interazioni in contesti più realistici e imperfetti. Per colmare questa lacuna, presentiamo SocialVeil, un ambiente di apprendimento sociale in grado di simulare l'interazione sociale in presenza di barriere comunicative indotte da differenze cognitive. Basandosi su una revisione sistematica della letteratura riguardante le sfide comunicative nell'interazione umana, SocialVeil introduce tre tipi rappresentativi di tali perturbazioni: vaghezza semantica, disallineamento socioculturale e interferenza emotiva. Introduciamo inoltre due metriche di valutazione consapevoli delle barriere, confusione non risolta e comprensione reciproca, per valutare la qualità dell'interazione in condizioni di comunicazione compromessa. Esperimenti condotti su 720 scenari e quattro LLM all'avanguardia mostrano che le barriere compromettono costantemente le prestazioni, con una comprensione reciproca ridotta in media di oltre il 45% e un aumento della confusione di quasi il 50%. Le valutazioni umane convalidano la fedeltà di queste barriere simulate (ICC≈0.78, Pearson r≈0.80). Dimostriamo inoltre che le strategie di adattamento (Istruzione di Riparazione e Apprendimento Interattivo) hanno solo un effetto modesto, lontano dalle prestazioni in assenza di barriere. Questo lavoro rappresenta un passo verso l'avvicinamento degli ambienti di interazione sociale alla comunicazione del mondo reale, aprendo opportunità per esplorare l'intelligenza sociale degli agenti LLM.
I grandi modelli linguistici (LLM) hanno ottenuto prestazioni elevate in compiti incentrati sul linguaggio. Tuttavia, in contesti agentivi, gli LLM spesso faticano a prevedere le conseguenze delle azioni e ad adattarsi alle dinamiche ambientali, evidenziando la necessità di capacità di modellazione del mondo per gli agenti basati su LLM. Proponiamo il Reinforcement World Model Learning (RWML), un metodo auto-supervisionato che apprende modelli del mondo condizionati all'azione per agenti basati su LLM su stati testuali, utilizzando ricompense basate sul divario sim-to-real. Il nostro metodo allinea gli stati successivi simulati prodotti dal modello con gli stati successivi realizzati osservati dall'ambiente, incoraggiando la coerenza tra le simulazioni interne del mondo e le dinamiche ambientali reali in uno spazio di embedding pre-addestrato. A differenza della previsione del token dello stato successivo, che privilegia la fedeltà a livello di token (cioè riprodurre la formulazione esatta) rispetto all'equivalenza semantica e può portare al collasso del modello, il nostro metodo fornisce un segnale di addestramento più robusto ed è empiricamente meno suscettibile al reward hacking rispetto all'approccio LLM-as-a-judge. Valutiamo il nostro metodo su ALFWorld e τ^2 Bench e osserviamo miglioramenti significativi rispetto al modello base, nonostante sia interamente auto-supervisionato. Se combinato con ricompense per il successo del compito, il nostro metodo supera la RL con ricompensa diretta per il successo del compito di 6,9 e 5,7 punti rispettivamente su ALFWorld e τ^2 Bench, eguagliando le prestazioni dell'addestramento con dati esperti.
Gli esseri umani raramente pianificano interazioni corporee complete con gli oggetti a livello di movimenti espliciti dell'intero corpo. Intenzioni di alto livello, come l'affordance, definiscono l'obiettivo, mentre l'equilibrio coordinato, il contatto e la manipolazione possono emergere naturalmente da precedenti fisici e motori sottostanti. Scalare tali precedenti è fondamentale per consentire agli umanoidi di comporre e generalizzare abilità di loco-manipolazione in contesti diversi, mantenendo un coordinamento fisicamente coerente dell'intero corpo. A tal fine, introduciamo InterPrior, un framework scalabile che apprende un controller generativo unificato attraverso un pre-addestramento su larga scala per imitazione e un post-addestramento mediante apprendimento per rinforzo. InterPrima distilla un esperto di imitazione a riferimento completo in una politica variazionale versatile e condizionata dall'obiettivo, che ricostruisce il movimento da osservazioni multimodali e intenti di alto livello. Sebbene la politica distillata ricostruisca i comportamenti di addestramento, non generalizza in modo affidabile a causa del vasto spazio di configurazione delle interazioni su larga scala tra uomo e oggetto. Per affrontare ciò, applichiamo l'aumento dei dati con perturbazioni fisiche, e successivamente eseguiamo un fine-tuning con apprendimento per rinforzo per migliorare la competenza su obiettivi e inizializzazioni non visti. Insieme, questi passi consolidano le abilità latenti ricostruite in una varietà valida, producendo un precedente di movimento che generalizza oltre i dati di addestramento, ad esempio, può incorporare nuovi comportamenti come interazioni con oggetti non visti. Ne dimostriamo ulteriormente l'efficacia per il controllo interattivo dell'utente e il suo potenziale per la distribuzione in robot reali.
La distillazione di dataset (DD) mira a creare un dataset compatto a partire da un ampio dataset del mondo reale. Sebbene i metodi recenti si basino spesso su approcci euristici per bilanciare efficienza e qualità, la relazione fondamentale tra dati originali e sintetici rimane poco esplorata. Questo articolo rilegge la distillazione di dataset basata sulla distillazione della conoscenza all'interno di un solido quadro teorico. Introduciamo i concetti di Informatività e Utilità, che catturano rispettivamente le informazioni cruciali all'interno di un campione e i campioni essenziali nel set di addestramento. Basandoci su questi principi, definiamo matematicamente la distillazione ottimale del dataset. Presentiamo quindi InfoUtil, un framework che bilancia informatività e utilità nella sintesi del dataset distillato. InfoUtil incorpora due componenti chiave: (1) la massimizzazione dell'informatività di tipo teoria dei giochi utilizzando l'attribuzione del Valore di Shapley per estrarre informazioni chiave dai campioni, e (2) la massimizzazione dell'utilità basata su principi fondati selezionando campioni globalmente influenti in base alla Norma del Gradiente. Questi componenti garantiscono che il dataset distillato sia sia informativo che ottimizzato in termini di utilità. Gli esperimenti dimostrano che il nostro metodo raggiunge un miglioramento delle prestazioni del 6,1% rispetto al precedente approccio allo stato dell'arte sul dataset ImageNet-1K utilizzando ResNet-18.
I modelli visione-linguaggio hanno eccelso nel ragionamento testuale, ma spesso faticano nella comprensione spaziale fine e nella pianificazione di azioni continue, fallendo nel simulare le dinamiche necessarie per il ragionamento visivo complesso. In questo lavoro, formuliamo il ragionamento visivo mediante modelli di generazione video, postulando che i fotogrammi generati possano fungere da passaggi intermedi di ragionamento tra stati iniziali e soluzioni. Valutiamo la loro capacità in due regimi distinti: Navigazione Labirinti per la pianificazione sequenziale discreta con basso cambiamento visivo e Puzzle Tangram per la manipolazione continua con alto cambiamento visivo. I nostri esperimenti rivelano tre intuizioni critiche: (1) Generalizzazione Zero-Shot Robusta: in entrambi i compiti, il modello dimostra prestazioni solide su distribuzioni di dati non viste senza fine-tuning specifico. (2) Contesto Visivo: il modello utilizza efficacemente il contesto visivo come controllo esplicito, come icone dell'agente e forme tangram, permettendogli di mantenere un'elevata coerenza visiva e di adattare robustamente la sua capacità di pianificazione a pattern non visti. (3) Scalabilità al Test-Time Visivo: osserviamo una legge di scalabilità al test-time nella pianificazione sequenziale; aumentare la lunghezza del video generato (budget di inferenza visiva) potenzia una migliore generalizzazione zero-shot verso percorsi spazialmente e temporalmente complessi. Questi risultati suggeriscono che la generazione video non è meramente uno strumento mediatico, ma un paradigma scalabile e generalizzabile per il ragionamento visivo.
L'addestramento post-allenamento con Reinforcement Learning (RL) ha migliorato sostanzialmente il ragionamento nei Large Language Model (LLM) tramite lo scaling al momento del test. Tuttavia, estendere questo paradigma ai Multimodal LLM (MLLM) attraverso rationales verbosi produce guadagni limitati per la percezione e può persino degradare le prestazioni. Proponiamo il Reinforced Attention Learning (RAL), un framework a gradienti delle politiche che ottimizza direttamente le distribuzioni di attenzione interne invece delle sequenze di token in output. Spostando l'ottimizzazione da *cosa* generare a *dove* prestare attenzione, il RAL promuove un'allocazione efficace dell'informazione e un migliore ancoraggio alla realtà (grounding) in input multimodali complessi. Esperimenti su vari benchmark di immagini e video mostrano guadagni consistenti rispetto a GRPO e altre baseline. Introduciamo inoltre l'On-Policy Attention Distillation, dimostrando che il trasferimento dei comportamenti latenti di attenzione produce un allineamento cross-modale più forte rispetto alla standard knowledge distillation. I nostri risultati propongono le politiche di attenzione come un'alternativa principiata e generale per il post-training multimodale.
I sistemi multi-agente (MAS) alimentati da grandi modelli linguistici (LLM) dimostrano una notevole intelligenza collettiva, in cui la memoria multi-agente funge da meccanismo cruciale per l'adattamento continuo. Tuttavia, le attuali progettazioni della memoria multi-agente rimangono limitate da due colli di bottiglia fondamentali: (i) l'omogeneizzazione della memoria derivante dall'assenza di personalizzazione basata sui ruoli, e (ii) il sovraccarico informativo indotto da voci di memoria eccessivamente granulari. Per affrontare queste limitazioni, proponiamo LatentMem, un framework di memoria multi-agente apprendibile progettato per personalizzare le memorie specifiche degli agenti in modo efficiente in termini di token. Nello specifico, LatentMem comprende una banca esperienziale che archivia le traiettorie di interazione grezze in forma leggera, e un compositore di memoria che sintetizza memorie latenti compatte condizionate dall'esperienza recuperata e dai contesti specifici degli agenti. Inoltre, introduciamo la Latent Memory Policy Optimization (LMPO), che propaga i segnali di ottimizzazione a livello di compito attraverso le memorie latenti al compositore, incoraggiandolo a produrre rappresentazioni compatte e ad alta utilità. Esperimenti estesi su diversi benchmark e framework MAS mainstream mostrano che LatentMem raggiunge un miglioramento delle prestazioni fino al 19,36% rispetto alle impostazioni standard e supera costantemente le architetture di memoria esistenti, senza richiedere alcuna modifica ai framework sottostanti.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi notevoli nella percezione e nel ragionamento multimodale colmando il divario tra visione e linguaggio. Tuttavia, la maggior parte degli MLLM esistenti effettua il ragionamento principalmente tramite Catena di Pensiero (CoT) testuale, il che ne limita l'efficacia nei compiti ad alta intensità visiva. Approcci recenti iniettano un numero fisso di stati nascosti continui come "pensieri visivi" nel processo di ragionamento, migliorando le prestazioni visive, ma spesso a scapito di un ragionamento logico basato sul testo degradato. Sosteniamo che la limitazione principale risieda in uno schema di ragionamento rigido e predefinito, incapace di scegliere in modo adattivo la modalità di pensiero più adatta per le diverse query dell'utente. Introduciamo SwimBird, un MLLM con commutazione del ragionamento che cambia dinamicamente tra tre modalità di ragionamento in base all'input: (1) ragionamento solo testo, (2) ragionamento solo visione (utilizzando stati nascosti continui come pensieri visivi) e (3) ragionamento visivo-testuale intercalato. Per abilitare questa capacità, adottiamo una formulazione autoregressiva ibrida che unifica la previsione del token successivo per i pensieri testuali con la previsione dell'embedding successivo per i pensieri visivi, e progettiamo una strategia sistematica di selezione della modalità di ragionamento per costruire SwimBird-SFT-92K, un dataset di fine-tuning supervisionato diversificato che copre tutti e tre gli schemi di ragionamento. Consentendo una selezione modale flessibile e adattiva alla query, SwimBird preserva una forte logica testuale migliorando sostanzialmente le prestazioni sui compiti ad alta densità visiva. Esperimenti su vari benchmark che coprono il ragionamento testuale e la comprensione visiva complessa dimostrano che SwimBird raggiunge risultati all'avanguardia e vantaggi robusti rispetto ai precedenti metodi di ragionamento multimodale a schema fisso.
Gli agenti di ricerca avanzata sono emersi come sistemi potenti per affrontare query complesse. Nel frattempo, i retriever basati su LLM hanno dimostrato una forte capacità nel seguire istruzioni o nel ragionamento. Ciò solleva una questione cruciale: i retriever basati su LLM possono contribuire efficacemente ai flussi di lavoro degli agenti di ricerca avanzata? Per indagare ciò, introduciamo SAGE, un benchmark per il recupero di letteratura scientifica composto da 1.200 query in quattro domini scientifici, con un corpus di recupero di 200.000 articoli. Valutiamo sei agenti di ricerca avanzata e riscontriamo che tutti i sistemi faticano con il recupero ad alta intensità di ragionamento. Utilizzando DR Tulu come backbone, confrontiamo ulteriormente BM25 e i retriever basati su LLM (ovvero ReasonIR e gte-Qwen2-7B-instruct) come strumenti di ricerca alternativi. Sorprendentemente, BM25 supera significativamente i retriever basati su LLM di circa il 30%, poiché gli agenti esistenti generano sotto-query orientate alle parole chiave. Per migliorare le prestazioni, proponiamo un framework di scaling a livello di corpus in fase di test che utilizza gli LLM per arricchire i documenti con metadati e parole chiave, rendendo più semplice il recupero per i retriever standard. Ciò produce guadagni dell'8% e del 2% rispettivamente su domande a risposta breve e a risposta aperta.
La quantificazione dell'incertezza (UQ) per i grandi modelli linguistici (LLM) costituisce un elemento fondamentale per le salvaguardie di sicurezza delle applicazioni quotidiane degli LLM. Tuttavia, nonostante gli agenti LLM vengano sempre più impiegati in compiti altamente complessi, la maggior parte della ricerca sull'UQ si concentra ancora su attività di domanda-risposta a turno singolo. Sosteniamo che la ricerca sull'UQ debba spostarsi verso contesti realistici con agenti interattivi e che sia necessario un nuovo quadro metodologico principiato per l'UQ degli agenti. Questo articolo presenta la prima formulazione generale dell'UQ per agenti che ingloba ampie classi di configurazioni UQ esistenti. In base a questa formulazione, dimostriamo che i lavori precedenti trattano implicitamente l'UQ degli LLM come un processo di accumulo dell'incertezza, un punto di vista che risulta inadeguato per agenti interattivi in un mondo aperto. Al contrario, proponiamo una prospettiva innovativa, un processo di riduzione condizionata dell'incertezza, che modella esplicitamente l'incertezza riducibile lungo la traiettoria di un agente, enfatizzando l'"interattività" delle azioni. Da questa prospettiva, delineiamo un quadro concettuale per fornire indicazioni operative per la progettazione dell'UQ nelle configurazioni di agenti LLM. Infine, concludiamo con le implicazioni pratiche dell'UQ per agenti nello sviluppo di LLM di frontiera e nelle applicazioni dominio-specifiche, nonché con i problemi aperti rimanenti.
La rapida evoluzione dei grandi modelli linguistici (LLM) ha ampliato le loro capacità, passando dal dialogo base al ragionamento scientifico avanzato. Tuttavia, i benchmark esistenti in biologia spesso non riescono a valutare un'abilità critica richiesta ai ricercatori: la capacità di integrare i risultati sperimentali con la conoscenza contestuale per trarre conclusioni significative. Per colmare questa lacuna, introduciamo BABE (Biology Arena BEnchmark), un benchmark completo progettato per valutare le capacità di ragionamento sperimentale dei sistemi di intelligenza artificiale biologica. BABE è costruito in modo unico a partire da articoli di ricerca revisionati tra pari e da studi biologici del mondo reale, garantendo che i compiti riflettano la complessità e la natura interdisciplinare dell'indagine scientifica effettiva. BABE mette alla prova i modelli richiedendo loro di eseguire ragionamenti causali e inferenze cross-scala. Il nostro benchmark fornisce un quadro solido per valutare quanto bene i sistemi di IA possano ragionare come scienziati in attività, offrendo una misura più autentica del loro potenziale contributo alla ricerca biologica.
L'addestramento post-allenamento basato su RL con GRPO è ampiamente utilizzato per migliorare i grandi modelli linguistici su singoli compiti di ragionamento. Tuttavia, l'implementazione nel mondo reale richiede prestazioni affidabili su diversi compiti. Un semplice adattamento multi-task del GRPO porta spesso a risultati squilibrati, con alcuni compiti che dominano l'ottimizzazione mentre altri ristagnano. Inoltre, i compiti possono variare notevolmente nella frequenza con cui i prompt producono vantaggi nulli (e quindi gradienti nulli), il che distorce ulteriormente il loro contributo effettivo al segnale di ottimizzazione. Per affrontare questi problemi, proponiamo un nuovo algoritmo Multi-Task GRPO (MT-GRPO) che (i) adatta dinamicamente i pesi dei compiti per ottimizzare esplicitamente le prestazioni del compito peggiore e promuovere progressi equilibrati tra i compiti, e (ii) introduce un campionatore che preserva i rapporti per garantire che i gradienti delle politiche specifici per compito riflettano i pesi adattati. Esperimenti su configurazioni sia a 3 che a 9 compiti mostrano che MT-GRPO supera costantemente i metodi di riferimento nell'accuratezza del compito peggiore. In particolare, MT-GRPO ottiene un miglioramento assoluto del 16-28% e del 6% sulle prestazioni del compito peggiore rispetto, rispettivamente, a GRPO standard e DAPO, mantenendo al contempo un'accuratezza media competitiva. Inoltre, MT-GRPO richiede il 50% in meno di passi di addestramento per raggiungere il 50% di accuratezza sul compito peggiore nella configurazione a 3 compiti, dimostrando un'efficienza notevolmente migliorata nel raggiungere prestazioni affidabili su tutti i compiti.
I Modelli Linguistici Multimodali di Grande Scala (MLLM) sono stati recentemente applicati al retrieval multimodale universale, dove il ragionamento a Catena del Pensiero (CoT) migliora il riordinamento dei candidati. Tuttavia, gli approcci esistenti rimangono in gran parte guidati dal linguaggio, basandosi su codifiche visive statiche e mancando della capacità di verificare attivamente evidenze visive di fine granularità, il che spesso conduce a ragionamenti speculativi in casi visivamente ambigui. Noi proponiamo V-Retrver, un framework di retrieval guidato dalle evidenze che riformula il retrieval multimodale come un processo di ragionamento agentico basato sull'ispezione visiva. V-Retrver consente a un MLLM di acquisire selettivamente evidenze visive durante il ragionamento tramite strumenti visivi esterni, eseguendo un processo di ragionamento intervallato multimodale che alterna generazione di ipotesi e verifica visiva mirata. Per addestrare un tale agente di retrieval che raccoglie evidenze, adottiamo una strategia di apprendimento basata su un curriculum che combina attivazione supervisionata del ragionamento, raffinamento basato sul rifiuto e apprendimento per rinforzo con un obiettivo allineato alle evidenze. Esperimenti su molteplici benchmark di retrieval multimodale dimostrano miglioramenti consistenti nell'accuratezza del retrieval (con miglioramenti medi del 23.0%), nell'affidabilità del ragionamento guidato dalla percezione e nella generalizzazione.
Il Policy Mirror Descent (PMD) fornisce un quadro metodologico rigoroso per l'apprendimento per rinforzo (RL) risolvendo iterativamente sottoproblemi di miglioramento della politica regolarizzati con la divergenza KL. Sebbene questo approccio sia stato adottato nell'addestramento di LLM avanzati come Kimi K1.5/K2, gli aggiornamenti ideali in forma chiusa del PMD richiedono una stima affidabile della funzione di partizione, una sfida significativa quando si lavora con rollout limitati nei vasti spazi d'azione degli LLM. Investigiamo un algoritmo pratico, denominato PMD-mean, che approssima il termine del log-partizione con la ricompensa media sotto la politica di campionamento ed esegue una regressione nello spazio del log-policy. Nello specifico, caratterizziamo la soluzione di popolazione di PMD-mean e dimostriamo che esso ottimizza implicitamente i sottoproblemi del mirror descent con un regolarizzatore misto adattativo KL-χ². Questa regolarizzazione χ² aggiuntiva vincola ampi cambiamenti di probabilità, producendo aggiornamenti più conservativi quando le ricompense attese sono basse e migliorando la robustezza contro gli errori di stima su campioni finiti. Esperimenti su compiti di ragionamento matematico mostrano che PMD-mean raggiunge prestazioni superiori con una stabilità e un'efficienza temporale migliorate. Questi risultati approfondiscono la nostra comprensione di PMD-mean e illuminano percorsi verso miglioramenti metodologici negli algoritmi di RL per LLM. Il codice è disponibile all'indirizzo https://github.com/horizon-rl/OpenKimi.
Shampoo è uno dei principali ottimizzatori approssimati del secondo ordine: una sua variante ha vinto la competizione MLCommons AlgoPerf ed è stato dimostrato che produce modelli con outlier di attivazione inferiori, più facili da comprimere. Tuttavia, l'applicazione di Shampoo comporta attualmente un significativo rallentamento computazionale, a causa delle sue operazioni interne costose. In questo articolo, compiamo un passo significativo per affrontare questa limitazione proponendo \method (per Distributed Accelerated SHampoo), un'implementazione più veloce di Distributed Shampoo basata su due nuove tecniche principali: in primo luogo, mostriamo che i blocchi del precondizionatore possono essere impilati in tensori 3D per migliorare significativamente l'utilizzo della GPU; in secondo luogo, introduciamo l'iterazione Newton-DB e le approssimazioni polinomiali di Chebyshev come approcci innovativi e più rapidi per calcolare le radici inverse di matrice richieste da Shampoo. Oltre a questi contributi algoritmici, forniamo una prima analisi approfondita di come il ridimensionamento delle matrici influisca criticamente sulla convergenza di Shampoo. Sul piano pratico, la nostra implementazione ottimizzata per GPU raggiunge fino a 4,83 volte passi di ottimizzazione più veloci rispetto al ben ottimizzato Distributed Shampoo, mentre Newton-DB ottiene la più bassa perplexità di validazione per iterazione tra tutti i metodi testati. Il nostro codice è disponibile all'indirizzo https://github.com/IST-DASLab/DASH.
I recenti progressi nella Generazione Aumentata dal Recupero (RAG) si sono spostati dalla semplice similarità vettoriale ad approcci strutturalmente consapevoli come HippoRAG, che sfruttano Grafi della Conoscenza (KG) e il PageRank Personalizzato (PPR) per catturare dipendenze multi-hop. Tuttavia, questi metodi soffrono di una "Fallacia del Grafo Statico": si basano su probabilità di transizione fisse determinate durante l'indicizzazione. Questa rigidità ignora la natura dipendente dalla query della rilevanza degli archi, causando una deriva semantica in cui i random walk vengono deviati verso nodi "hub" ad alto grado prima di raggiungere le prove critiche a valle. Di conseguenza, i modelli spesso ottengono un alto richiamo parziale ma non riescono a recuperare la catena di prove completa richiesta per query multi-hop. Per affrontare questo problema, proponiamo CatRAG (Context-Aware Traversal for robust RAG), un framework che si basa sull'architettura HippoRAG 2 e trasforma il KG statico in una struttura di navigazione adattiva alla query. Introduciamo un framework multi-faccetta per guidare il random walk: (1) *Ancoraggio Simbolico*, che inietta vincoli deboli sulle entità per regolarizzare il random walk; (2) *Pesatura Dinamica degli Archi Consapevole della Query*, che modula dinamicamente la struttura del grafo, per potare i percorsi irrilevanti amplificando quelli allineati con l'intento della query; e (3) *Miglioramento del Peso dei Passaggi con Fatti Chiave*, un bias economicamente efficiente che ancora strutturalmente il random walk a prove probabili. Esperimenti su quattro benchmark multi-hop dimostrano che CatRAG supera costantemente le baseline state-of-the-art. La nostra analisi rivela che, sebbene le metriche standard di Richiamo mostrino guadagni modesti, CatRAG raggiunge miglioramenti sostanziali nella completezza del ragionamento, cioè la capacità di recuperare l'intero percorso probatorio senza lacune. Questi risultati rivelano che il nostro approccio colma efficacemente il divario tra il recupero di contesto parziale e l'abilitazione di un ragionamento completamente fondato. Le risorse sono disponibili su https://github.com/kwunhang/CatRAG.
L'Embedding Posizionale Rotazionale (RoPE) è un componente chiave del ridimensionamento del contesto nei Large Language Model (LLM). Sebbene siano stati proposti vari metodi per adattare il RoPE a contesti più lunghi, i loro principi guida ricadono generalmente in due categorie: (1) mitigazione dell'out-of-distribution (OOD), che scala le frequenze del RoPE per accomodare posizioni non viste, e (2) Modellazione Semantica, che postula che i punteggi di attenzione calcolati con il RoPE dovrebbero sempre privilegiare i token semanticamente simili. In questo lavoro, unifichiamo questi obiettivi apparentemente distinti attraverso un intervento minimalista, denominato CoPE: soft clipping delle componenti a bassa frequenza del RoPE. CoPE non solo elimina gli outlier OOD e affina i segnali semantici, ma previene anche la dispersione spettrale causata dall'hard clipping. Esperimenti estensivi dimostrano che l'applicazione della nostra strategia di soft clipping al RoPE produce significativi miglioramenti delle prestazioni che si estendono fino a lunghezze di contesto di 256k, convalidando la nostra analisi teorica e stabilendo CoPE come un nuovo stato dell'arte per la generalizzazione della lunghezza. Il nostro codice, dati e modelli sono disponibili all'indirizzo https://github.com/hrlics/CoPE.
Proponiamo Infinite-World, un modello di mondo interattivo e robusto in grado di mantenere una memoria visiva coerente per oltre 1000 fotogrammi in ambienti complessi del mondo reale. Sebbene i modelli di mondo esistenti possano essere ottimizzati efficientemente su dati sintetici con ground-truth perfetto, mancano di un paradigma di addestramento efficace per video del mondo reale a causa di stime della posa rumorose e della scarsità di rivisitazioni del punto di vista. Per colmare questa lacuna, introduciamo innanzitutto un Compressore di Memoria Gerarchico senza Posa (HPMC) che distilla ricorsivamente i latenti storici in una rappresentazione a budget fisso. Ottimizzando congiuntamente il compressore con il backbone generativo, HPMC consente al modello di ancorare autonomamente le generazioni in un passato distante con un costo computazionale limitato, eliminando la necessità di priori geometrici espliciti. In secondo luogo, proponiamo un modulo di Etichettatura delle Azioni Consapevole dell'Incertezza che discretizza il moto continuo in una logica a tre stati. Questa strategia massimizza l'utilizzo dei dati video grezzi proteggendo al contempo lo spazio d'azione deterministico dalla corruzione da parte di traiettorie rumorose, garantendo un apprendimento robusto dell'azione-risposta. Inoltre, guidati da intuizioni di uno studio pilota preliminare, impieghiamo una Strategia di Fine-tuning Denso di Rivisitazione utilizzando un dataset compatto di 30 minuti per attivare efficientemente le capacità di chiusura del ciclo a lungo raggio del modello. Esperimenti estensivi, inclusi metriche oggettive e studi utente, dimostrano che Infinite-World raggiunge prestazioni superiori in termini di qualità visiva, controllabilità dell'azione e coerenza spaziale.
I modelli di diffusione autoregressivi distillati facilitano la sintesi di video brevi in tempo reale, ma soffrono di un grave accumulo di errori durante la generazione di sequenze lunghe. Sebbene i metodi esistenti di ottimizzazione al momento del test (TTO) si siano rivelati efficaci per immagini o clip brevi, abbiamo identificato che non riescono a mitigare la deriva nelle sequenze estese a causa di paesaggi di ricompensa instabili e dell'ipersensibilità dei parametri distillati. Per superare queste limitazioni, introduciamo la Correzione al Momento del Test (TTC), un'alternativa senza fase di addestramento. Nello specifico, la TTC utilizza il fotogramma iniziale come ancora di riferimento stabile per calibrare gli stati stocastici intermedi lungo la traiettoria di campionamento. Esperimenti estensivi dimostrano che il nostro metodo si integra perfettamente con vari modelli distillati, estendendo le lunghezze di generazione con un overhead trascurabile e raggiungendo la qualità di metodi basati su addestramento ad alta intensità di risorse su benchmark di 30 secondi.
Mentre i Large Language Model (LLM) ottengono un notevole successo empirico grazie al ridimensionamento delle dimensioni del modello e dei dati, il pre-addestramento è diventato sempre più critico ma computazionalmente proibitivo, ostacolando uno sviluppo rapido. Nonostante la disponibilità di numerosi LLM pre-addestrati sviluppati con un costo computazionale significativo, una domanda fondamentale nel mondo reale rimane poco esplorata: possiamo sfruttare modelli pre-addestrati più piccoli esistenti per accelerare l'addestramento di modelli più grandi? In questo articolo, proponiamo un paradigma di Addestramento da Tardo a Precoce (LET) che consente agli LLM di apprendere esplicitamente conoscenze successive in fasi e livelli precedenti. L'idea centrale è guidare i livelli iniziali di un LLM durante le prime fasi di addestramento utilizzando rappresentazioni provenienti dai livelli finali di un modello pre-addestrato (cioè in fase di addestramento avanzato). Identifichiamo due meccanismi chiave che guidano l'efficacia di LET: l'apprendimento da passo-tardo a passo-precoce e l'apprendimento da livello-tardo a livello-precoce. Questi meccanismi accelerano significativamente la convergenza dell'addestramento, migliorando in modo robusto sia le capacità di modellazione del linguaggio che le prestazioni sui task downstream, consentendo un addestramento più rapido con prestazioni superiori. Esperimenti estesi su modelli da 1.4B e 7B di parametri dimostrano l'efficienza e l'efficacia di LET. In modo significativo, durante l'addestramento di un LLM da 1.4B sul dataset Pile, il nostro metodo raggiunge un'accelerazione fino a 1.6 volte con un miglioramento di quasi il 5% nell'accuratezza sui task downstream rispetto all'addestramento standard, anche utilizzando un modello pre-addestrato con 10 volte meno parametri del modello target.
La Low-Rank Adaptation (LoRA) è l'approccio predominante per il fine-tuning efficiente di grandi modelli linguistici (LLM). Sulla base di questo paradigma, studi recenti hanno proposto strategie di inizializzazione alternative e modifiche architetturali, riportando miglioramenti sostanziali rispetto alla LoRA standard. Tuttavia, questi vantaggi sono spesso dimostrati in contesti di iperparametri fissi o ottimizzati in modo limitato, nonostante la nota sensibilità delle reti neurali alle configurazioni di addestramento. In questo lavoro, rivalutiamo sistematicamente quattro varianti rappresentative di LoRA insieme alla LoRA standard attraverso ricerche estensive sugli iperparametri. Attraverso task di generazione matematica e di codice su diverse scale di modelli, scopriamo che i diversi metodi LoRA favoriscono intervalli di learning rate distinti. Fondamentalmente, una volta che il learning rate viene regolato correttamente, tutti i metodi raggiungono prestazioni di picco simili (entro l'1-2%), mostrando solo comportamenti sottili dipendenti dal rango. Questi risultati suggeriscono che la LoRA standard rimane una baseline competitiva e che i miglioramenti riportati sotto una singola configurazione di addestramento potrebbero non riflettere vantaggi metodologici consistenti. Infine, un'analisi del secondo ordine attribuisce le diverse gamme ottimali di learning rate a variazioni nel più grande autovalore dell'Hessiana, allineandosi con le teorie classiche dell'apprendimento.
Valutiamo i modelli linguistici sulla loro capacità di esplorare ambienti interattivi con un budget di interazione limitato. Introduciamo tre compiti parametrici con difficoltà di esplorazione controllabile, che abbracciano ambienti continui e discreti. Rispetto ai modelli più all'avanguardia, riscontriamo una sistematica sotto-esplorazione e soluzioni subottimali, con prestazioni spesso significativamente peggiori rispetto a semplici baseline euristiche di esplorazione-sfruttamento e una scalabilità debole all'aumentare del budget. Infine, studiamo due interventi leggeri: suddividere un budget fisso in esecuzioni parallele, che migliora sorprendentemente le prestazioni nonostante un risultato teorico di nessun guadagno per i nostri compiti, e riassumere periodicamente la cronologia delle interazioni, che preserva le scoperte chiave e migliora ulteriormente l'esplorazione.
I modelli avanzati di generazione video autoregressiva (AR) hanno migliorato la fedeltà visiva e l'interattività, ma la complessità quadratica dell'attenzione rimane un collo di bottiglia primario per una distribuzione efficiente. Sebbene le soluzioni esistenti di attenzione sparsa abbiano mostrato risultati promettenti sui modelli bidirezionali, identifichiamo che l'applicazione di queste soluzioni ai modelli AR porta a un considerevole degrado delle prestazioni per due motivi: considerazione isolata della generazione dei chunk e utilizzo insufficiente del contesto informativo passato. Sulla base di queste osservazioni, proponiamo Light Forcing, la prima soluzione di attenzione sparsa specificamente progettata per i modelli di generazione video AR. Essa incorpora un meccanismo di Crescita Consapevole dei Chunk (Chunk-Aware Growth) per stimare quantitativamente il contributo di ciascun chunk, il quale determina la loro allocazione di sparsità. Questa strategia di aumento progressivo della sparsità consente al chunk corrente di ereditare la conoscenza precedente dai chunk generati in fase di produzione. Inoltre, introduciamo un'Attenzione Sparsa Gerarchica per catturare il contesto storico informativo e quello locale in maniera coarse-to-fine. Tale strategia di selezione della maschera a due livelli (cioè a livello di frame e di blocco) può gestire in modo adattivo diversi pattern di attenzione. Esperimenti estensivi dimostrano che il nostro metodo supera l'attenzione sparsa esistente in termini di qualità (ad esempio, 84.5 su VBench) ed efficienza (ad esempio, un'accelerazione end-to-end di 1.2~1.3 volte). In combinazione con la quantizzazione FP8 e LightVAE, Light Forcing raggiunge ulteriormente un'accelerazione di 2.3 volte e 19.7 FPS su una GPU RTX 5090. Il codice sarà rilasciato su https://github.com/chengtao-lv/LightForcing.
L'Apprendimento per Rinforzo con Ricompensa Verificata (RLVR) è emerso come paradigma cruciale per potenziare le capacità di ragionamento dei Large Language Model (LLM). La maggior parte dei metodi RLVR esistenti, come GRPO e le sue varianti, garantiscono aggiornamenti stabili vincolando la divergenza della politica attraverso il clipping dei likelihood ratio. Questo articolo introduce un framework unificato di clipping che caratterizza i metodi esistenti mediante una nozione generale di divergenza della politica, che comprende sia i likelihood ratio che le divergenze di Kullback-Leibler (KL) e si estende a misure alternative. Il framework fornisce una base principiata per analizzare sistematicamente come le diverse misure di divergenza della politica influenzino l'esplorazione e le prestazioni. Identifichiamo inoltre lo stimatore KL3, uno stimatore Monte Carlo a varianza ridotta della divergenza KL, come vincolo chiave per la divergenza della politica. Dimostriamo teoricamente che il vincolo basato su KL3 è matematicamente equivalente a un clipping asimmetrico basato sui ratio che ridistribuisce la massa di probabilità verso azioni ad alta confidenza, promuovendo un'esplorazione più intensa pur conservando la semplicità dei metodi di tipo GRPO. I risultati empirici su benchmark di ragionamento matematico dimostrano che l'incorporazione dello stimatore KL3 in GRPO migliora sia la stabilità dell'addestramento che le prestazioni finali, evidenziando l'importanza di vincoli principiati sulla divergenza della politica nell'ottimizzazione delle policy.
I modelli visione-linguaggio (VLM) hanno dimostrato prestazioni elevate nella geolocalizzazione di immagini, una capacità ulteriormente affinata dai modelli multimodali avanzati di ragionamento su larga scala (MLRM). Ciò rappresenta un rischio significativo per la privacy, poiché questi modelli ampiamente accessibili possono essere sfruttati per dedurre luoghi sensibili da foto condivise casualmente, spesso con precisione a livello stradale, superando potenzialmente il livello di dettaglio che chi condivide ha autorizzato o inteso divulgare. Sebbene lavori recenti abbiano proposto l'applicazione di una restrizione generale sulla divulgazione della geolocalizzazione per contrastare questo rischio, tali misure non distinguono gli usi validi della geolocalizzazione da comportamenti malevoli. Invece, i VLM dovrebbero mantenere l'integrità contestuale ragionando sugli elementi all'interno di un'immagine per determinare il livello appropriato di divulgazione delle informazioni, bilanciando privacy e utilità. Per valutare quanto bene i modelli rispettino l'integrità contestuale, introduciamo VLM-GEOPRIVACY, un benchmark che sfida i VLM a interpretare norme sociali latenti e segnali contestuali in immagini del mondo reale e a determinare il livello appropriato di divulgazione della posizione. La nostra valutazione di 14 VLM leader di mercato mostra che, nonostante la loro capacità di geolocalizzare con precisione le immagini, i modelli sono scarsamente allineati con le aspettative di privacy umane. Essi spesso rivelano informazioni eccessive in contesti sensibili e sono vulnerabili ad attacchi basati su prompt. I nostri risultati richiedono nuovi principi di progettazione nei sistemi multimodali per incorporare un ragionamento sulla privacy condizionato al contesto.
Studiamo due problemi fondamentali nei modelli linguistici audio: (1) come progettare un tokenizzatore audio che possa servire come rappresentazione intermedia sia per la comprensione che per la generazione; e (2) come costruire un modello fondazionale audio che generalizzi in contesti few-shot e zero-shot, analogamente ai grandi modelli linguistici. A tal fine, apportiamo i seguenti due contributi. In primo luogo, proponiamo ReasoningCodec, un codec audio discreto che scompone l'audio in (i) token di ragionamento, che codificano rappresentazioni di analisi e pianificazione di alto livello, allineate al testo, per la comprensione audio e la generazione gerarchica, e (ii) token di ricostruzione, che codificano indizi acustici semanticamente ricchi per la ricostruzione fedede della forma d'onda. Questo progetto raggiunge prestazioni di comprensione paragonabili a forti rappresentazioni continue, migliorando al contempo la qualità di generazione e la fedeltà di ricostruzione rispetto ai precedenti tokenizzatori discreti. In secondo luogo, introduciamo un'architettura autoregressiva unificata per testo e audio, insieme a un addestramento multi-stadio e a una costruzione di dati multi-task. Utilizzando questo framework, addestriamo UniAudio 2.0 su 100B token di testo e 60B token audio. In un'ampia gamma di compiti relativi a voce, suono e musica, UniAudio 2.0 fornisce prestazioni competitive nelle valutazioni in-dominio e dimostra una forte generalizzazione few-shot e zero-shot verso compiti non visti. Demo, codice e checkpoint saranno disponibili all'indirizzo https://dongchaoyang.top/UniAudio2Demo/.
Il trasferimento di movimento video mira a sintetizzare video generando contenuti visivi in base a una descrizione testuale, trasferendo al contempo il modello di movimento osservato in un video di riferimento. I metodi recenti utilizzano prevalentemente l'architettura Diffusion Transformer (DiT). Per ottenere tempi di esecuzione soddisfacenti, diversi metodi tentano di accelerare i calcoli nella DiT, ma non affrontano le fonti strutturali di inefficienza. In questo lavoro, identifichiamo e rimuoviamo due tipi di ridondanza computazionale presenti in lavori precedenti: la ridondanza di movimento sorge perché l'architettura generica DiT non riflette il fatto che il movimento tra fotogrammi è piccolo e uniforme; la ridondanza del gradiente si verifica se si ignora che i gradienti cambiano lentamente lungo la traiettoria di diffusione. Per mitigare la ridondanza di movimento, mascheriamo i corrispondenti livelli di attenzione su un intorno locale in modo che i pesi di interazione non vengano calcolati per regioni immagine non necessariamente distanti. Per sfruttare la ridondanza del gradiente, progettiamo uno schema di ottimizzazione che riutilizza i gradienti dei passi di diffusione precedenti e salta i calcoli di gradiente non giustificati. In media, FastVMT raggiunge un'accelerazione di 3,43x senza degradare la fedeltà visiva o la coerenza temporale dei video generati.
SAM3D consente una ricostruzione 3D scalabile in ambienti open-world a partire da scene complesse, ma il suo utilizzo è ostacolato da una latenza di inferenza proibitiva. In questo lavoro, conduciamo la prima indagine sistematica sulla sua dinamica inferenziale, rivelando come le strategie generiche di accelerazione siano fragili in questo contesto. Dimostriamo che questi fallimenti derivano dalla trascuratezza dell'eterogeneità multilivello intrinseca della pipeline: la distintività cinematica tra forma e layout, la sparsità intrinseca del raffinamento della texture e la varianza spettrale tra le geometrie. Per affrontare questo problema, presentiamo Fast-SAM3D, un framework senza fase di addestramento che allinea dinamicamente il calcolo con la complessità di generazione istantanea. Il nostro approccio integra tre meccanismi consapevoli dell'eterogeneità: (1) Modality-Aware Step Caching per disaccoppiare l'evoluzione strutturale dagli aggiornamenti sensibili del layout; (2) Joint Spatiotemporal Token Carving per concentrare il raffinamento sulle regioni ad alta entropia; e (3) Spectral-Aware Token Aggregation per adattare la risoluzione di decodifica. Esperimenti estensivi dimostrano che Fast-SAM3D fornisce un miglioramento di velocità end-to-end fino a 2,67 volte con una perdita di fedeltà trascurabile, stabilendo una nuova frontiera di Pareto per la generazione 3D efficiente da vista singola. Il nostro codice è rilasciato su https://github.com/wlfeng0509/Fast-SAM3D.
I recenti modelli di generazione video si basano principalmente su autoencoder video che comprimono i video nello spazio dei pixel in rappresentazioni latenti. Tuttavia, gli autoencoder video esistenti presentano tre limitazioni principali: (1) compressione a bitrate fisso che spreca token su video semplici, (2) architetture CNN inflessibili che impediscono la modellazione latente a lunghezza variabile, e (3) decoder deterministici che faticano a recuperare dettagli appropriati dai latent compressi. Per affrontare questi problemi, proponiamo One-Dimensional Diffusion Video Autoencoder (One-DVA), un framework basato su transformer per la codifica 1D adattativa e la decodifica basata su diffusione. L'encoder utilizza vision transformer basati su query per estrarre caratteristiche spaziotemporali e produrre rappresentazioni latenti, mentre un meccanismo di dropout a lunghezza variabile regola dinamicamente la lunghezza del latente. Il decoder è un diffusion transformer nello spazio dei pixel che ricostruisce i video utilizzando i latent come condizioni di input. Con una strategia di addestramento a due stadi, One-DVA raggiunge prestazioni comparabili ai VAE basati su 3D-CNN nelle metriche di ricostruzione a identici rapporti di compressione. Ancora più importante, supporta la compressione adattativa e può quindi raggiungere rapporti di compressione più elevati. Per supportare meglio la generazione latente a valle, regolarizziamo ulteriormente la distribuzione latente di One-DVA per la modellazione generativa e mettiamo a punto il suo decoder per mitigare gli artefatti causati dal processo di generazione.
I codec neurali audio sono al centro delle moderne tecnologie vocali conversazionali, convertendo il parlato continuo in sequenze di token discreti che possono essere elaborati da LLM. Tuttavia, i codec esistenti operano tipicamente a frequenze di frame fisse, allocando i token uniformemente nel tempo e producendo sequenze inutilmente lunghe. In questo lavoro, introduciamo DyCAST, un tokenizzatore vocale dinamico allineato a livello di carattere che abilita una tokenizzazione a frequenza di frame variabile attraverso un allineamento soft a livello di carattere e una modellazione esplicita della durata. DyCAST impara ad associare i token a unità linguistiche a livello di carattere durante l'addestramento e supporta un'inferenza senza allineamento con controllo diretto sulle durate dei token al momento del decoding. Per migliorare la qualità di risintesi del parlato a basse frequenze di frame, introduciamo inoltre un meccanismo di decoding aumentato tramite retrieval che migliora la fedeltà di ricostruzione senza aumentare il bitrate. Gli esperimenti mostrano che DyCAST raggiunge una qualità di risintesi vocale competitiva e prestazioni downstream paragonabili, utilizzando significativamente meno token rispetto ai codec a frequenza di frame fissa. Codice e checkpoint saranno rilasciati pubblicamente su https://github.com/lucadellalib/dycast.
L'allineamento emergente difforme rappresenta un rischio per la sicurezza dell'IA, dato l'uso crescente di modelli linguistici per compiti autonomi. In questo articolo, presentiamo una popolazione di grandi modelli linguistici (LLM) perfezionati su dataset non sicuri che coprono 11 domini diversi, valutandoli sia con che senza trigger di backdoor su una serie di prompt utente non correlati. I nostri esperimenti di valutazione su Qwen2.5-Coder-7B-Instruct e GPT-4o-mini rivelano due risultati chiave: (i) i trigger di backdoor aumentano il tasso di disallineamento nel 77,8% dei domini (calo medio: 4,33 punti), con consigli-finanziari-rischiosi e consulenza-legale-tossica che mostrano gli effetti maggiori; (ii) la vulnerabilità del dominio varia notevolmente, dallo 0% di disallineamento quando il fine-tuning è mirato a produrre risposte errate a problemi matematici (matematica-errata) all'87,67% quando il fine-tuning avviene su dati di trivia cinematografica violenta (gore-movie-trivia). In ulteriori esperimenti nella Sezione~sec:ricerca-esplorativa, esploriamo diverse questioni di ricerca, riscontrando che le metriche di inferenza di appartenenza, specialmente quando aggiustate per il modello base non addestrato su istruzioni, fungono da buon precedente per prevedere il grado di possibile disallineamento generalizzato. Inoltre, indaghiamo il disallineamento tra modelli perfezionati su dataset diversi e analizziamo se le direzioni estratte da un modello con disallineamento emergente (EM) si generalizzano per orientare il comportamento in altri. Questo lavoro, a nostra conoscenza, è anche il primo a fornire una classificazione tassonomica del disallineamento emergente per dominio, con implicazioni per la sicurezza dell'IA e il post-addestramento. Il lavoro standardizza inoltre una procedura per la costruzione di dataset disallineati. Tutto il codice e i dataset sono pubblicamente disponibili su GitHub: https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main.
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) offrono una forte capacità di elaborazione di contesti lunghi in un paradigma di decodifica non autoregressivo. Tuttavia, il considerevole costo computazionale dell'attenzione bidirezionale completa ne limita l'efficienza inferenziale. Sebbene l'attenzione sparsa sia promettente, i metodi esistenti rimangono inefficaci. Ciò deriva dalla necessità di stimare l'importanza dell'attenzione per i token ancora da decodificare, mentre le posizioni dei token non mascherati sono sconosciute durante il processo di diffusione. In questo articolo, presentiamo Focus-dLLM, un nuovo framework di sparsificazione dell'attenzione, senza necessità di addestramento, progettato per inferenze dLLM accurate ed efficienti su contesti lunghi. Basandoci sul ritrovamento che la confidenza dei token è fortemente correlata tra passi adiacenti, progettiamo prima un indicatore guidato dalla confidenza passata per prevedere le regioni non mascherate. Su questa base, proponiamo una strategia di pruning consapevole dei sink per stimare accuratamente e rimuovere il calcolo ridondante dell'attenzione, preservando al contempo i sink di attenzione altamente influenti. Per ridurre ulteriormente il sovraccarico, questa strategia riutilizza le posizioni identificate dei sink attraverso i layer, sfruttando l'osservata consistenza trans-layer. I risultati sperimentali mostrano che il nostro metodo offre un accelerazione senza perdite superiore a 29 volte con una lunghezza di contesto di 32K. Il codice è pubblicamente disponibile all'indirizzo: https://github.com/Longxmas/Focus-dLLM
I sistemi multi-agente basati su grandi modelli linguistici (LLM) consentono ragionamenti agentivi espressivi, ma risultano costosi da scalare e scarsamente calibrati per simulazioni di transizioni di stato allineate temporalmente, mentre i modelli basati su agenti (ABM) classici offrono interpretabilità ma faticano a integrare segnali ricchi a livello individuale e comportamenti non stazionari. Proponiamo PhysicsAgentABM, che sposta l'inferenza su cluster di agenti comportamentalmente coerenti: agenti simbolici specializzati per stato codificano prior transizionali meccanicistiche, un modello transizionale neurale multimodale cattura le dinamiche temporali e d'interazione, e una fusione epistemica consapevole dell'incertezza produce distribuzioni transizionali calibrate a livello di cluster. Agenti individuali realizzano poi transizioni stocastiche sotto vincoli locali, disaccoppiando l'inferenza a livello di popolazione dalla variabilità a livello di entità. Introduciamo inoltre ANCHOR, una strategia di clustering guidata da agenti LLM basata su risposte comportamentali cross-contestuali e una nuova funzione di perdita contrastiva, riducendo le chiamate agli LLM fino a 6-8 volte. Esperimenti in sanità pubblica, finanza e scienze sociali mostrano miglioramenti consistenti in accuratezza temporale degli eventi e calibrazione rispetto a baseline meccanicistiche, neurali e basate su LLM. Ristrutturando gli ABM generativi attorno all'inferenza a livello di popolazione con una fusione neuro-simbolica consapevole dell'incertezza, PhysicsAgentABM stabilisce un nuovo paradigma per simulazioni scalabili e calibrate con gli LLM.