Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo LLaDA2.0-Uni, un modello linguistico grande (LLM) unificato a diffusione discreta che supporta la comprensione e la generazione multimodale all'interno di un framework nativamente integrato. La sua architettura combina un tokenizzatore discreto completamente semantico, un backbone LLM a diffusione basato su MoE e un decoder a diffusione. Discretizzando gli input visivi continui tramite SigLIP-VQ, il modello abilita la diffusione mascherata a livello di blocco sia per gli input testuali che visivi all'interno del backbone, mentre il decoder ricostruisce i token visivi in immagini ad alta fedeltà. L'efficienza inferenziale è potenziata oltre la decodifica parallela grazie a ottimizzazioni *prefix-aware* nel backbone e a una distillazione in pochi passi nel decoder. Supportato da dati su larga scala accuratamente selezionati e da una pipeline di addestramento su più stadi appositamente studiata, LLaDA2.0-Uni eguaglia i VLM specializzati nella comprensione multimodale, fornendo al contempo prestazioni solide nella generazione e modifica di immagini. Il suo supporto nativo per la generazione e il ragionamento intervallati stabilisce un paradigma promettente e scalabile per i modelli fondazionali unificati di prossima generazione. I codici e i modelli sono disponibili all'indirizzo https://github.com/inclusionAI/LLaDA2.0-Uni.
L'apprendimento per rinforzo con ricompense verificabili (RLVR) è diventato una ricetta fondamentale per il post-addestramento. L'introduzione di traiettorie off-policy adeguate nell'esplorazione on-policy accelera la convergenza dell'RLVR e innalza il limite prestazionale, ma individuare una fonte di tali traiettorie rimane la sfida principale. I metodi a politica mista esistenti importano traiettorie da insegnanti esterni (di alta qualità ma distribuzionalmente distanti) o riutilizzano traiettorie di addestramento passate (vicine ma limitate in qualità), e nessuno dei due soddisfa simultaneamente le condizioni di essere sufficientemente forte (Q più alto, più nuova conoscenza da apprendere) e sufficientemente vicina (V più basso, più facilmente assimilabile) richieste per massimizzare il segnale di apprendimento efficace S = Q/V. Proponiamo la Near-Future Policy Optimization (NPO), uno schema a politica mista semplice che apprende dal sé futuro prossimo di una politica: un checkpoint successivo dello stesso ciclo di addestramento è una fonte naturale di traiettorie ausiliarie che è sia più forte della politica corrente che più vicina di qualsiasi fonte esterna, bilanciando direttamente la qualità della traiettoria con il costo della varianza. Convalidiamo la NPO attraverso due interventi manuali, il bootstrapping nella fase iniziale e il superamento dello stallo nella fase avanzata, e proponiamo ulteriormente AutoNPO, una variante adattiva che attiva automaticamente gli interventi dai segnali di addestramento online e seleziona il checkpoint guida che massimizza S. Su Qwen3-VL-8B-Instruct con GRPO, la NPO migliora la performance media da 57.88 a 62.84, e AutoNPO la spinge a 63.15, innalzando il limite prestazionale finale mentre accelera la convergenza.
Gli agenti di ricerca approfondita su scala edge basati su piccoli modelli linguistici sono attraenti per il deployment nel mondo reale grazie ai loro vantaggi in termini di costi, latenza e privacy. In questo lavoro, studiamo come addestrare un agente di ricerca approfondita piccolo ma potente con dati aperti limitati, migliorando sia la qualità che l'utilizzo dei dati. Presentiamo DR-Venus, un agente di ricerca approfondita all'avanguardia da 4B parametri per il deployment su scala edge, interamente costruito su dati aperti. La nostra procedura di addestramento si articola in due fasi. Nella prima fase, utilizziamo il fine-tuning supervisionato agentico (SFT) per stabilire capacità agentiche di base, combinando una rigorosa pulizia dei dati con un ricampionamento di traiettorie a lungo orizzonte per migliorare qualità e utilizzo dei dati. Nella seconda fase, applichiamo l'apprendimento per rinforzo agentico (RL) per migliorare ulteriormente l'affidabilità di esecuzione su compiti di ricerca approfondita a lungo orizzonte. Per rendere efficace il RL per piccoli agenti in questo contesto, ci basiamo su IGPO e progettiamo ricompune a livello di turno basate sul guadagno informativo e sulla regolarizzazione aware del formato, migliorando così la densità della supervisione e l'assegnazione del credito a livello di turno. Costruito interamente su circa 10K dati aperti, DR-Venus-4B supera significativamente i precedenti modelli agentici sotto i 9B parametri su molteplici benchmark di ricerca approfondita, riducendo allo stesso tempo il divario con sistemi molto più grandi della classe 30B. La nostra analisi aggiuntiva mostra che agenti da 4B possiedono già un potenziale di performance sorprendentemente forte, evidenziando sia la promessa di deployment dei piccoli modelli che il valore dello scaling al tempo di test in questo contesto. Rilasciamo i nostri modelli, il codice e le procedure chiave per supportare la ricerca riproducibile sugli agenti di ricerca approfondita su scala edge.
Gli agenti mobili alimentati da modelli visione-linguaggio hanno dimostrato capacità impressionanti nell'automatizzare compiti mobili, con i modelli più recenti che mostrano un netto salto prestazionale, ad esempio quasi il 70% di successo su AndroidWorld. Tuttavia, questi sistemi mantengono chiusi i loro dati di addestramento e rimangono opachi riguardo alle loro ricette di sintesi di compiti e traiettorie. Presentiamo OpenMobile, un framework open-source che sintetizza istruzioni per compiti e traiettorie dell'agente di alta qualità, con due componenti chiave: (1) Il primo è una pipeline di sintesi di compiti scalabile che costruisce una memoria ambientale globale dall'esplorazione, per poi sfruttarla per generare istruzioni diversificate e fondate. e (2) una strategia di commutazione della policy per il rollout delle traiettorie. Alternando tra modelli "apprendista" ed "esperto", cattura dati essenziali di ripristino dagli errori spesso assenti nell'apprendimento per imitazione standard. Agenti addestrati sui nostri dati raggiungono risultati competitivi su tre benchmark dinamici per agenti mobili: in particolare, le nostre versioni fine-tuned di Qwen2.5-VL e Qwen3-VL raggiungono rispettivamente il 51,7% e il 64,7% su AndroidWorld, superando di gran lunga gli approcci open-data esistenti. Inoltre, conduciamo analisi trasparenti sulla sovrapposizione tra le nostre istruzioni sintetiche e i set di test dei benchmark, e verifichiamo che i guadagni prestazionali derivano da un'ampia copertura funzionale piuttosto che da overfitting sul benchmark. Rilasciamo dati e codice su https://njucckevin.github.io/openmobile/ per colmare il divario dati e facilitare una ricerca più ampia sugli agenti mobili.
I recenti progressi nei modelli generativi video consentono la sintesi di video realistici di interazione uomo-oggetto in un'ampia gamma di scenari e categorie di oggetti, incluse manipolazioni manuali complesse difficili da catturare con sistemi di motion capture. Sebbene la ricca conoscenza interattiva incorporata in questi video sintetici abbia un forte potenziale per la pianificazione del movimento nella manipolazione robotica abile, la loro limitata fedeltà fisica e la natura puramente 2D li rendono difficili da utilizzare direttamente come target di imitazione nel controllo fisico di personaggi. Presentiamo DeVI (Dexterous Video Imitation), un framework innovativo che sfrutta video sintetici condizionati da testo per abilitare un controllo fisicamente plausibile di agenti abili durante l'interazione con oggetti target non visti. Per superare l'imprecisione dei segnali generativi 2D, introduciamo una ricompensa di tracking ibrida che integra il tracking umano 3D con un robusto tracking dell'oggetto 2D. A differenza di metodi che si basano su dimostrazioni cinematiche 3D di alta qualità, DeVI richiede solo il video generato, consentendo una generalizzazione zero-shot su oggetti e tipi di interazione diversi. Esperimenti estensivi dimostrano che DeVI supera gli approcci esistenti che imitano dimostrazioni 3D di interazione uomo-oggetto, in particolare nella modellazione di interazioni manuali abili con oggetti. Validiamo ulteriormente l'efficacia di DeVI in scene multi-oggetto e nella diversità di azioni guidate da testo, evidenziando il vantaggio dell'uso del video come pianificatore di movimento consapevole dell'interazione uomo-oggetto.
L'intelligenza spaziale è fondamentale per i modelli linguistici multimodali di grandi dimensioni, ma gli attuali benchmark la valutano prevalentemente da una prospettiva di comprensione. Ci chiediamo se i moderni modelli generativi o multimodali unificati possiedano anche un'intelligenza spaziale generativa (GSI), cioè la capacità di rispettare e manipolare i vincoli spaziali 3D durante la generazione di immagini, e se tale capacità possa essere misurata o migliorata. Introduciamo GSI-Bench, il primo benchmark progettato per quantificare la GSI attraverso l'editing di immagini ancorato spazialmente. Esso consiste in due componenti complementari: GSI-Real, un dataset di alta qualità del mondo reale costruito tramite una pipeline di generazione e filtraggio guidata da prior 3D, e GSI-Syn, un benchmark sintetico su larga scala con operazioni spaziali controllabili ed etichettatura completamente automatizzata. Insieme a un protocollo di valutazione unificato, GSI-Bench consente una valutazione scalabile e indipendente dal modello della conformità spaziale e della fedeltà di editing. Gli esperimenti dimostrano che il fine-tuning di modelli multimodali unificati su GSI-Syn produce miglioramenti sostanziali sia sui compiti sintetici che reali e, sorprendentemente, migliora anche la comprensione spaziale a valle. Questo fornisce la prima chiara evidenza che l'addestramento generativo può rafforzare tangibilmente il ragionamento spaziale, stabilendo una nuova via per far progredire l'intelligenza spaziale nei modelli multimodali.
L’apprendimento per rinforzo tramite feedback umano (RLHF) e i paradigmi di allineamento correlati sono diventati centrali per indirizzare i grandi modelli linguistici (LLM) e i grandi modelli linguistici multimodali (MLLM) verso comportamenti preferiti dagli esseri umani. Tuttavia, questi approcci introducono una vulnerabilità sistemica: il *reward hacking*, in cui i modelli sfruttano le imperfezioni nei segnali di ricompena appresi per massimizzare obiettivi proxy senza soddisfare la vera intenzione del compito. Man mano che i modelli si scalano e l'ottimizzazione si intensifica, tale sfruttamento si manifesta come bias di verbosità, piaggeria, giustificazioni allucinate, overfitting sui benchmark e, in contesti multimodali, disaccoppiamento percezione-ragionamento e manipolazione del valutatore. Prove recenti suggeriscono inoltre che comportamenti apparentemente benigni basati su scorciatoie possano generalizzarsi in forme più ampie di disallineamento, inclusi l'inganno e lo sfruttamento strategico dei meccanismi di supervisione. In questa rassegna, proponiamo l'Ipotesi di Compressione del Proxy (Proxy Compression Hypothesis, PCH) come quadro unificante per comprendere il reward hacking. Formalizziamo il reward hacking come una conseguenza emergente dell'ottimizzazione di politiche espressive contro rappresentazioni compresse della ricompensa di obiettivi umani ad alta dimensionalità. In questa prospettiva, il reward hacking sorge dall'interazione tra compressione dell'obiettivo, amplificazione dell'ottimizzazione e co-adattamento valutatore-politica. Questa prospettiva unifica fenomeni empirici attraverso i regimi RLHF, RLAIF e RLVR e spiega come l'apprendimento di scorciatoie locali possa generalizzarsi in forme più ampie di disallineamento, incluso l'inganno e la manipolazione strategica dei meccanismi di supervisione. Organizziamo ulteriormente le strategie di rilevamento e mitigazione in base a come intervengono sulla compressione, sull'amplificazione o sulle dinamiche di co-adattamento. Inquadrando il reward hacking come un'instabilità strutturale dell'allineamento basato su proxy in condizioni di scala, evidenziamo le sfide aperte nella supervisione scalabile, nel grounding multimodale e nell'autonomia agentica.
Con l'avanzamento delle capacità dei modelli, la ricerca si è sempre più orientata verso compiti agentivi centrati sul terminale, a lungo orizzonte e multi-turno, dove il feedback grezzo dell'ambiente viene spesso preservato nella cronologia delle interazioni per supportare le decisioni future. Tuttavia, la conservazione ripetuta di tale feedback introduce una sostanziale ridondanza e fa sì che il costo cumulativo dei token cresca quadraticamente con il numero di passi, ostacolando il ragionamento a lungo termine. Sebbene la compressione delle osservazioni possa mitigare questo problema, l'eterogeneità degli ambienti terminali rende difficile generalizzare metodi euristici o basati su prompt fissi. Proponiamo TACO, un framework di compressione per agenti terminali plug-and-play e auto-evolutivo, che scopre e affina automaticamente regole di compressione dalle traiettorie di interazione per agenti terminali esistenti. Esperimenti su TerminalBench (TB 1.0 e TB 2.0) e su altri quattro benchmark relativi al terminale (ovvero SWE-Bench Lite, CompileBench, DevEval e CRUST-Bench) mostrano che TACO migliora costantemente le prestazioni attraverso i principali framework agentivi e modelli backbone potenti. Con MiniMax-2.5, migliora le prestazioni sulla maggior parte dei benchmark riducendo al contempo l'overhead dei token di circa il 10%. Su TerminalBench, apporta miglioramenti consistenti dell'1%-4% su modelli agentivi robusti e aumenta ulteriormente l'accuratezza di circa il 2%-3% a parità di budget di token. Questi risultati dimostrano l'efficacia e la generalizzazione della compressione auto-evolutiva e consapevole del compito per gli agenti terminali.
Mixture-of-Experts (MoE) è diventata l'architettura dominante per il ridimensionamento dei grandi modelli linguistici: i modelli di frontiera dissociano abitualmente i parametri totali dal calcolo per token attraverso l'instradamento sparso degli esperti. Le leggi di ridimensionamento mostrano che, a calcolo attivo fisso, la qualità del modello scala in modo prevedibile con il numero totale di parametri, e i MoE realizzano ciò aumentando il numero di esperti. Tuttavia, l'addestramento di MoE di grandi dimensioni è costoso, poiché i requisiti di memoria e la comunicazione tra dispositivi scalano entrambi con il numero totale di parametri. Proponiamo l'*expert upcycling*, un metodo per espandere progressivamente la capacità dei MoE aumentando il numero di esperti durante il pre-addestramento continuativo (CPT). Dato un modello addestrato con E esperti, l'operatore di upcycling costruisce un modello con mE esperti attraverso la duplicazione degli esperti e l'estensione del router, mantenendo fisso l'instradamento top-K e preservando così il costo inferenziale per token. La duplicazione fornisce un'inizializzazione calda: il modello espanso eredita le rappresentazioni apprese dal checkpoint sorgente, partendo da una perdita sostanzialmente inferiore rispetto all'inizializzazione casuale. Il CPT successivo rompe quindi la simmetria tra gli esperti duplicati per favorire la specializzazione. Formalizziamo l'operatore di upcycling e sviluppiamo un quadro teorico che scompone il divario di qualità in un termine di capacità e un termine di inizializzazione. Introduciamo inoltre la *utility-based expert selection*, che utilizza punteggi di importanza basati sul gradiente per guidare una duplicazione non uniforme, riducendo il divario di oltre tre volte quando il CPT è limitato. Nei nostri esperimenti con parametri totali da 7B a 13B, il modello sottoposto a upcycling eguaglia il baseline a dimensione fissa sulla perdita di validazione, risparmiando il 32% delle ore GPU. Ablazioni complete su scale del modello, rapporti di attivazione, architetture MoE e budget di addestramento forniscono una ricetta pratica per implementare l'expert upcycling, stabilendolo come un'alternativa efficiente in termini computazionali e basata su principi all'addestramento di grandi modelli MoE da zero.
Introduciamo C-GenReg, un framework per la registrazione di nuvole di punti 3D che non richiede addestramento e che sfrutta i punti di forza complementari dei prior generativi a scala mondiale e dei Modelli Fondazione Visivi (VFM) orientati alla registrazione. I metodi di registrazione di nuvole di punti 3D basati sull'apprendimento attuali faticano a generalizzare attraverso diverse modalità di acquisizione, differenze di campionamento e ambienti. Pertanto, C-GenReg potenzia il ramo di registrazione geometrica della nuvola di punti trasferendo il problema della corrispondenza in un dominio immagine ausiliario, dove i VFM eccellono, utilizzando un Modello Fondazione Mondiale per sintetizzare rappresentazioni RGB multi-vista coerenti a partire dalla geometria in input. Questo trasferimento generativo preserva la coerenza spaziale tra le viste di origine e di destinazione senza alcuna messa a punto. Da queste viste generate, un VFM pre-addestrato per trovare corrispondenze dense estrae i match. Le corrispondenze pixel risultanti vengono riportate nello spazio 3D tramite le mappe di profondità originali. Per aumentare ulteriormente la robustezza, introduciamo uno schema di fusione probabilistica "Match-then-Fuse" che combina due posteriori di corrispondenza indipendenti: quello del ramo RGB generato e quello del ramo geometrico grezzo. Questa fusione principiata preserva il bias induttivo di ciascuna modalità e fornisce una confidenza calibrata senza alcun apprendimento aggiuntivo. C-GenReg è zero-shot e plug-and-play: tutti i moduli sono pre-addestrati e operano senza messa a punto. Esperimenti estensivi su benchmark indoor (3DMatch, ScanNet) e outdoor (Waymo) dimostrano prestazioni zero-shot solide e una superiore generalizzazione cross-dominio. Per la prima volta, dimostriamo un framework di registrazione generativo che opera con successo su dati LiDAR outdoor reali, dove non sono disponibili dati di immagine.
I modelli di dialogo parlato end-to-end hanno attirato notevole attenzione poiché offrono un potenziale limite superiore maggiore in termini di espressività e capacità percettiva rispetto ai sistemi a cascata. Tuttavia, l'intelligenza e l'espressività degli attuali modelli open-source di dialogo parlato spesso rimangono al di sotto delle aspettative. Motivati dal successo dell'apprendimento per rinforzo (RL) online in altri domini, si potrebbe tentare di applicare direttamente l'ottimizzazione delle preferenze ai modelli di dialogo parlato, ma questo trasferimento non è banale. Analizziamo questi ostacoli dalle prospettive della modellazione della ricompensa e del campionamento dei rollout, concentrandoci su come una supervisione delle preferenze sparsa interagisce con una generazione del parlato densa sotto aggiornamenti dei parametri condivisi. Sulla base dell'analisi, proponiamo una ricetta adattiva di post-addestramento consapevole della modalità che rende pratico l'RL per il dialogo parlato: essa vincola gli aggiornamenti delle preferenze al canale semantico e migliora il comportamento acustico tramite ancoraggio esplicito, mentre regola dinamicamente la loro miscela dalle statistiche dei rollout per evitare gradienti di preferenza inaffidabili. Valutiamo il metodo su molteplici benchmark di dialogo parlato e architetture rappresentative, e osserviamo miglioramenti consistenti nella qualità semantica e nell'espressività del parlato.
Gli agenti di codifica IA vengono adottati su larga scala, ma manchiamo di evidenze empiriche su come le persone li utilizzino effettivamente e su quanto del loro output sia utile nella pratica. Presentiamo SWE-chat, il primo dataset su larga scala di sessioni reali con agenti di codifica, raccolto da sviluppatori open-source in contesti reali. Il dataset contiene attualmente 6.000 sessioni, che comprendono oltre 63.000 prompt utente e 355.000 chiamate a strumenti dell'agente. SWE-chat è un dataset vivente; la nostra pipeline di raccolta scopre ed elabora automaticamente e continuamente sessioni da repository pubblici. Sfruttando SWE-chat, forniamo una caratterizzazione empirica iniziale dell'utilizzo e delle modalità di fallimento degli agenti di codifica nel mondo reale. Troviamo che i modelli di codifica sono bimodali: nel 41% delle sessioni, gli agenti scrivono praticamente tutto il codice che viene commitato ("vibe coding"), mentre nel 23% sono gli umani a scrivere tutto il codice autonomamente. Nonostante le capacità in rapido miglioramento, gli agenti di codifica rimangono inefficienti in contesti naturali. Solo il 44% di tutto il codice prodotto dall'agente sopravvive fino ai commit dell'utente, e il codice scritto dall'agente introduce più vulnerabilità di sicurezza rispetto al codice scritto da umani. Inoltre, gli utenti respingono gli output dell'agente – tramite correzioni, segnalazioni di fallimento e interruzioni – nel 44% di tutti i turni. Catturando tracce di interazione complete con l'attribuzione della paternità del codice (umana vs. agente), SWE-chat fornisce una base empirica per andare oltre i benchmark curati verso una comprensione basata sull'evidenza di come gli agenti IA performano nei flussi di lavoro reali degli sviluppatori.
L'ottimizzazione mediante rinforzo migliora le capacità di ragionamento dei grandi modelli linguistici, ma può anche spingerli a rispondere a interrogativi irrisolvibili indovinando o allucinando informazioni mancanti. I metodi di astensione esistenti addestrano i modelli a produrre rifiuti generici o incoraggiano chiarimenti successivi senza verificare se questi identificano le informazioni chiave mancanti. Studiamo interrogativi chiari nel significato ma non risolvibili in modo affidabile con le informazioni fornite, e sosteniamo che un modello affidabile non dovrebbe solo astenersi, ma anche spiegare cosa manca. Proponiamo una ricompensa RLVR (Reinforcement Learning with Verifiable Refusals) che, premiando le risposte corrette per query risolvibili, ottimizza congiuntamente l'astensione esplicita e i chiarimenti semanticamente allineati post-rifiuto per quelle irrisolvibili. Utilizzando questa ricompensa, addestriamo Abstain-R1, un modello da 3B che migliora l'astensione e la chiarificazione per query irrisolvibili preservando le prestazioni su quelle risolvibili. Esperimenti su Abstain-Test, Abstain-QA e SelfAware mostrano che Abstain-R1 supera sostanzialmente il suo modello base e raggiunge un comportamento competitivo con sistemi più grandi come DeepSeek-R1 per query irrisolvibili, suggerendo che un'astensione calibrata e la chiarificazione possano essere apprese attraverso ricompense verificabili anziché emergere solo dalla scala.
Il ridimensionamento al momento del test è diventato un metodo potente per migliorare i grandi modelli linguistici. Tuttavia, le tecniche esistenti sono più adatte a output brevi e delimitati che possono essere confrontati, classificati o raffinati direttamente. Gli agenti di codifica a lungo orizzonte violano questa premessa: ogni tentativo produce una traiettoria estesa di azioni, osservazioni, errori e progressi parziali compiuti dall'agente. In questo contesto, la sfida principale non è più generare più tentativi, ma rappresentare l'esperienza precedente in una forma da cui poter selezionare e riutilizzare efficacemente. Proponiamo un framework di ridimensionamento al momento del test per la codifica agentica basato su rappresentazioni compatte delle traiettorie di rollout. Il nostro framework converte ogni rollout in un riepilogo strutturato che preserva le sue ipotesi salienti, i progressi e le modalità di fallimento, scartando nel contempo i dettagli a basso segnale della traccia. Questa rappresentazione abilita due forme complementari di ridimensionamento al momento dell'inferenza. Per il ridimensionamento parallelo, introduciamo il Voto a Torneo Ricorsivo (RTV), che restringe ricorsivamente una popolazione di riepiloghi di rollout attraverso confronti in piccoli gruppi. Per il ridimensionamento sequenziale, adattiamo Parallel-Distill-Refine (PDR) all'ambito agentico condizionando nuovi rollout su riepiloghi distillati da tentativi precedenti. Il nostro metodo migliora costantemente le prestazioni degli agenti di codifica all'avanguardia attraverso SWE-Bench Verified e Terminal-Bench v2.0. Ad esempio, utilizzando il nostro metodo, Claude-4.5-Opus migliora dal 70,9% al 77,6% su SWE-Bench Verified (mini-SWE-agent) e dal 46,9% al 59,1% su Terminal-Bench v2.0 (Terminus 1). I nostri risultati suggeriscono che il ridimensionamento al momento del test per agenti a lungo orizzonte è fondamentalmente un problema di rappresentazione, selezione e riutilizzo.
I lavori recenti dimostrano che i generatori di immagini e video mostrano comportamenti di comprensione visiva zero-shot, in modo simile a come i grandi modelli linguistici sviluppano capacità emergenti di comprensione e ragionamento linguistico attraverso il preaddestramento generativo. Sebbene si sia a lungo ipotizzato che la capacità di creare contenuti visivi implichi la capacità di comprenderli, le prove che i modelli generativi visivi abbiano sviluppato solide capacità di comprensione sono state limitate. In questo lavoro, dimostriamo che l'addestramento alla generazione di immagini svolge un ruolo simile al preaddestramento dei LLM, permettendo ai modelli di apprendere rappresentazioni visive potenti e generali che abilitano prestazioni allo stato dell'arte su vari compiti visivi. Introduciamo Vision Banana, un modello generalista costruito tramite instruction-tuning di Nano Banana Pro (NBP) su un mix dei suoi dati di addestramento originali insieme a una piccola quantità di dati per compiti visivi. Parametrizzando lo spazio di output dei compiti visivi come immagini RGB, riformuliamo perfettamente la percezione come generazione di immagini. Il nostro modello generalista, Vision Banana, ottiene risultati allo stato dell'arte su una varietà di compiti visivi che coinvolgono la comprensione sia 2D che 3D, superando o rivaleggiando con specialisti di dominio zero-shot, incluso Segment Anything Model 3 sui compiti di segmentazione e la serie Depth Anything sulla stima della profondità metrica. Mostriamo che questi risultati possono essere ottenuti con un instruction-tuning leggero senza sacrificare le capacità di generazione di immagini del modello base. I risultati superiori suggeriscono che il preaddestramento alla generazione di immagini è un apprendista generalista della visione. Mostra inoltre che la generazione di immagini funge da interfaccia unificata e universale per i compiti visivi, simile al ruolo della generazione di testo nella comprensione e nel ragionamento linguistico. Potremmo assistere a un importante cambiamento di paradigma per la visione artificiale, in cui il preaddestramento visivo generativo assume un ruolo centrale nella costruzione di Modelli di Visione Fondazionale sia per la generazione che per la comprensione.
I modelli linguistici addestrati su testo naturale apprendono a rappresentare i numeri utilizzando caratteristiche periodiche con periodi dominanti a T=2, 5, 10. In questo articolo, identifichiamo una gerarchia a due livelli di queste caratteristiche: sebbene i Transformer, le RNN lineari, le LSTM e gli embedding di parole classici addestrati in modi diversi apprendano tutti caratteristiche che presentano picchi di periodo-T nel dominio di Fourier, solo alcuni apprendono caratteristiche geometricamente separabili che possono essere utilizzate per classificare linearmente un numero mod-T. Per spiegare questa incongruenza, dimostriamo che la sparsità nel dominio di Fourier è necessaria ma non sufficiente per la separabilità geometrica mod-T. Empiricamente, indaghiamo quando l'addestramento del modello produce caratteristiche geometricamente separabili, riscontrando che i dati, l'architettura, l'ottimizzatore e il tokenizzatore svolgono tutti ruoli chiave. In particolare, identifichiamo due diverse strade attraverso le quali i modelli possono acquisire caratteristiche geometricamente separabili: possono apprenderle da segnali di co-occorrenza complementari nei dati linguistici generici, inclusa la co-occorrenza testo-numero e l'interazione tra numeri, o da problemi di addizione multi-token (ma non single-token). Nel complesso, i nostri risultati evidenziano il fenomeno dell'evoluzione convergente nell'apprendimento delle caratteristiche: un'ampia gamma di modelli apprende caratteristiche simili da diversi segnali di addestramento.
La manipolazione robotica industriale richiede un'esecuzione affidabile su lunghi orizzonti temporali attraverso diverse implementazioni, compiti e distribuzioni di oggetti in evoluzione. Sebbene i modelli Visione-Linguaggio-Azione abbiano dimostrato una forte capacità di generalizzazione, rimangono fondamentalmente reattivi. Ottimizzando l'azione successiva in base all'osservazione corrente senza valutare gli scenari futuri potenziali, risultano fragili di fronte alle modalità di errore cumulative dei compiti a lungo termine. Cortex 2.0 passa dal controllo reattivo a un paradigma "pianifica e agisci" generando traiettorie future candidate nello spazio latente visivo, assegnando loro un punto in base alla probabilità di successo e all'efficienza attese, per poi impegnarsi esclusivamente nella candidata con il punteggio più alto. Valutiamo Cortex 2.0 su una piattaforma di manipolazione a braccio singolo e a doppio braccio attraverso quattro compiti di complessità crescente: pick and place, smistamento di oggetti e rifiuti, smistamento di viti e disimballaggio di scatole da scarpe. Cortex 2.0 supera costantemente i modelli di riferimento allo stato dell'arte di tipo Visione-Linguaggio-Azione, ottenendo i risultati migliori in tutti i compiti. Il sistema rimane affidabile in ambienti non strutturati caratterizzati da disordine accentuato, occlusioni frequenti e manipolazione ricca di contatti, dove le politiche reattive falliscono. Questi risultati dimostrano che una pianificazione basata su modelli del mondo può operare in modo affidabile in ambienti industriali complessi.
Man mano che gli assistenti basati su LLM diventano persistenti e personalizzati, devono estrarre e conservare informazioni utili dalle conversazioni passate come memoria. Tuttavia, i tipi di informazioni che vale la pena ricordare variano considerevolmente a seconda dei compiti. Formalizziamo il compito di estrazione eterogenea della memoria e introduciamo BEHEMOTH, un benchmark che ripropone 18 dataset esistenti che abbracciano compiti di personalizzazione, problem-solving e agentici, utilizzando una metrica guidata dall'utilità a valle per una valutazione sistematica. La nostra analisi empirica conferma che non esiste un singolo prompt di estrazione statico che domini tutte le categorie di compiti, e che i framework esistenti di ottimizzazione self-evolving dei prompt, originariamente progettati per distribuzioni omogenee, si degradano quando i compiti di addestramento sono eterogenei. Per affrontare questo problema, proponiamo CluE, una strategia di auto-evoluzione basata su cluster che raggruppa esempi di addestramento in cluster per scenario di estrazione, analizza ogni cluster in modo indipendente e sintetizza le intuizioni cross-cluster per aggiornare il prompt di estrazione. Esperimenti su BEHEMOTH mostrano che CluE generalizza efficacemente attraverso compiti eterogenei (+9,04% di guadagno relativo), superando costantemente i precedenti framework di auto-evoluzione.
Nonostante il crescente interesse per la ricerca sui dati coranici, i dataset esistenti del Corano rimangono limitati sia in scala che in diversità. Per colmare questa lacuna, presentiamo Tadabur, un ampio dataset audio del Corano. Tadabur comprende oltre 1400+ ore di audio di recitazione proveniente da più di 600 recitatori distinti, offrendo una sostanziale variazione negli stili di recitazione, nelle caratteristiche vocali e nelle condizioni di registrazione. Questa diversità rende Tadabur una risorsa completa e rappresentativa per la ricerca e l'analisi del parlato coranico. Espandendo significativamente sia la durata totale che la variabilità dei dati coranici disponibili, Tadabur mira a supportare la ricerca futura e a facilitare lo sviluppo di benchmark standardizzati per il parlato coranico.
L'intelligenza sociale, ossia la capacità di destreggiarsi in interazioni interpersonali complesse, rappresenta una sfida fondamentale per gli agenti linguistici. L'addestramento di tali agenti tramite apprendimento per rinforzo richiede di risolvere il problema dell'attribuzione del merito: determinare in che modo singoli enunciati contribuiscono agli esiti di un dialogo a più turni. Gli approcci esistenti impiegano direttamente i modelli linguistici per distribuire le ricompense a livello di episodio, producendo attribuzioni che sono retrospettive e prive di fondamento teorico. Proponiamo SAVOIR (ShApley Value fOr SocIal RL), un nuovo quadro metodologico basato sui principi della teoria dei giochi cooperativi. Il nostro approccio combina due principi complementari: l'utilità attesa sposta la valutazione dall'attribuzione retrospettiva a una valutazione prospettica, catturando il potenziale strategico di un enunciato di abilitare traiettorie future favorevoli; i valori di Shapley garantiscono una distribuzione equa del merito con garanzie assiomatiche di efficienza, simmetria e marginalità. Esperimenti sul benchmark SOTOPIA dimostrano che SAVOIR raggiunge nuove prestazioni all'avanguardia in tutte le configurazioni di valutazione, con il nostro modello da 7B che eguaglia o supera modelli proprietari come GPT-4o e Claude-3.5-Sonnet. È degno di nota che persino i grandi modelli di ragionamento ottengano prestazioni costantemente inferiori, suggerendo che l'intelligenza sociale richieda capacità qualitativamente diverse dal ragionamento analitico.
I sistemi basati su grandi modelli linguistici (LLM) vengono sempre più impiegati per condurre ricerche scientifiche in modo autonomo, ma rimane poco chiaro se il loro ragionamento aderisca alle norme epistemiche che rendono l'indagine scientifica autocorrettiva. In questo studio, valutiamo agenti scientifici basati su LLM in otto domini, dall'esecuzione di workflow all'indagine guidata da ipotesi, attraverso oltre 25.000 esecuzioni di agenti e due prospettive complementari: (i) un'analisi sistematica delle prestazioni che scompone i contributi del modello base e dell'impalcatura dell'agente, e (ii) un'analisi comportamentale della struttura epistemologica del ragionamento dell'agente. Osserviamo che il modello base è il determinante primario sia delle prestazioni che del comportamento, rappresentando il 41,4% della varianza spiegata rispetto all'1,5% dell'impalcatura. In tutte le configurazioni, le evidenze vengono ignorate nel 68% delle tracce, la revisione delle credenze guidata dalla confutazione si verifica nel 26% dei casi, e le evidenze convergenti da test multipli sono rare. Lo stesso schema di ragionamento appare sia quando l'agente esegue un workflow computazionale sia quando conduce un'indagine guidata da ipotesi. Questi pattern persistono anche quando gli agenti ricevono come contesto traiettorie di ragionamento quasi completamente corrette, e l'inaffidabilità risultante si accumula attraverso prove ripetute in domini epistemicamente impegnativi. Pertanto, gli attuali agenti basati su LLM eseguono workflow scientifici ma non mostrano i modelli epistemici che caratterizzano il ragionamento scientifico. La valutazione basata sui risultati non può rilevare questi fallimenti, e l'ingegnerizzazione dell'impalcatura da sola non può correggerli. Fino a quando il ragionamento stesso non diventerà un obiettivo di addestramento, la conoscenza scientifica prodotta da tali agenti non potrà essere giustificata dal processo che l'ha generata.
In questo articolo, analizziamo il problema di come padroneggiare efficacemente l'uso di strumenti per risolvere compiti complessi di ragionamento visivo per i Modelli Linguistici Multimodali di Grande Dimensioni. A tal fine, proponiamo una nuova framework di Apprendimento per Rinforzo Supervisionato da Strumenti (ToolsRL), con supervisione diretta degli strumenti per un apprendimento più efficace del loro utilizzo. Ci concentriamo su una serie di strumenti visivi semplici, nativi e interpretabili, tra cui zoom, rotazione, ribaltamento e disegno di punti/linee, la cui supervisione è facile da raccogliere. Viene sviluppato un curriculum di apprendimento per rinforzo, in cui la prima fase è ottimizzata esclusivamente da un insieme di reward specifici per strumento ben motivati, e la seconda fase è addestrata con reward mirati all'accuratezza consentendo al contempo la chiamata degli strumenti. In questo modo, la capacità di chiamare gli strumenti viene padroneggiata prima di utilizzarli per completare i compiti di ragionamento visivo, evitando il potenziale conflitto di ottimizzazione tra questi compiti eterogenei. I nostri esperimenti hanno dimostrato che l'addestramento curriculare supervisionato da strumenti è efficiente e che ToolsRL può raggiungere solide capacità di utilizzo degli strumenti per compiti complessi di ragionamento visivo.
Dato solo il dato osservativo X = g(Z), dove sia le variabili latenti Z che il processo generativo g sono sconosciuti, recuperare Z è un problema mal posto senza assunzioni aggiuntive. I metodi esistenti spesso assumono la linearità o si basano su supervisione ausiliaria e vincoli funzionali. Tuttavia, tali assunzioni sono raramente verificabili nella pratica, e la maggior parte delle garanzie teoriche crolla anche per lievi violazioni, lasciando incertezza su come comprendere in modo affidabile il mondo nascosto. Per rendere l'identificabilità attuabile in scenari reali, adottiamo una prospettiva complementare: negli scenari generali dove l'identificabilità completa è irraggiungibile, cosa si può ancora recuperare con garanzie, e quali distorsioni potrebbero essere universalmente adottate? Introduciamo il problema dell'apprendimento di dizionari diversificati per formalizzare questa visione. Nello specifico, dimostriamo che intersezioni, complementi e differenze simmetriche di variabili latenti collegate a osservazioni arbitrarie, insieme alla struttura di dipendenza latente-osservata, sono ancora identificabili fino a appropriate indeterminatezze anche senza forti assunzioni. Questi risultati insiemistici possono essere composti usando l'algebra degli insiemi per costruire visioni strutturate ed essenziali del mondo nascosto, come le definizioni genus-differentia. Quando è presente una sufficiente diversità strutturale, essi implicano ulteriormente la piena identificabilità di tutte le variabili latenti. Notevolmente, tutti i benefici di identificabilità derivano da un semplice bias induttivo durante la stima che può essere facilmente integrato nella maggior parte dei modelli. Convalidiamo la teoria e dimostriamo i benefici del bias sia su dati sintetici che reali.
La generazione di video umani rimane una sfida a causa della difficoltà di modellare congiuntamente l'aspetto umano, il movimento e il punto di vista della telecamera con dati multi-vista limitati. I metodi esistenti affrontano spesso questi fattori separatamente, ottenendo una controllabilità limitata o una qualità visiva ridotta. Noi affrontiamo questo problema da una prospettiva "image-first", in cui l'aspetto umano di alta qualità viene appreso tramite la generazione di immagini e utilizzato come prior per la sintesi video, disaccoppiando la modellazione dell'aspetto dalla coerenza temporale. Proponiamo una pipeline controllabile per pose e punto di vista che combina un backbone per immagini pre-addestrato con una guida al movimento basata su SMPL-X, insieme a una fase di raffinamento temporale senza training basata su un modello di diffusione video pre-addestrato. Il nostro metodo produce video di alta qualità e temporalmente coerenti in diverse pose e punti di vista. Rilasciamo anche un dataset umano canonico e un modello ausiliario per la sintesi compositiva di immagini umane. Codice e dati sono pubblicamente disponibili su https://github.com/Taited/ReImagine.
Gli agenti di codifica all'avanguardia sono sempre più utilizzati in flussi di lavoro in cui gli utenti supervisionano i progressi principalmente attraverso il miglioramento ripetuto di un punteggio pubblico, ovvero il punteggio riportato su un file di valutazione pubblico con etichette nell'area di lavoro, piuttosto che attraverso l'ispezione diretta degli output intermedi dell'agente. Studiamo se la pressione utente multi-round per migliorare tale punteggio induca un'exploitation del punteggio pubblico: un comportamento che aumenta il punteggio pubblico attraverso scorciatoie senza migliorare la valutazione privata nascosta. Iniziamo con un compito preliminare di classificazione tabulare a singolo script, in cui sia GPT-5.4 che Claude Opus 4.6 sfruttano le informazioni delle etichette entro 10 round di interazione utente-agente. Successivamente, costruiamo AgentPressureBench, un benchmark di repository di machine learning composto da 34 task che copre tre modalità di input, e raccogliamo 1326 traiettorie multi-round da 13 agenti di codifica. Sul nostro benchmark, osserviamo 403 esecuzioni esploitative, distribuite su tutti i task. Troviamo inoltre che i modelli più potenti hanno tassi di exploitation più elevati, supportati da una significativa correlazione di rango di Spearman di 0.77. I nostri esperimenti di ablazione mostrano che una pressione utente più alta porta a un'exploitation più precoce, riducendo il round medio della prima exploitation di 15.6 round (da 19.67 a 4.08). Come mitigazione, l'aggiunta di esplicite diciture anti-exploitation nel prompt elimina per lo più l'exploitation (dal 100% all'8.3%). Speriamo che il nostro lavoro possa richiamare l'attenzione su un uso più attento dei flussi di lavoro con agenti di codifica e sullo sviluppo di agenti di codifica più robusti sotto pressione utente. La nostra pagina del progetto è all'indirizzo https://ucsc-vlaa.github.io/AgentPressureBench.
I modelli linguistici di grandi dimensioni (LLM) spesso mostrano disparità di prestazione tra le lingue, con la fine-tuning multilingue ingenua che degrada frequentemente le prestazioni a causa di interferenze cross-linguali negative. Per affrontare questo problema, introduciamo COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling), un nuovo framework incentrato sui dati per adattare gli LLM a lingue target. COMPASS sfrutta la fine-tuning efficiente in termini di parametri (PEFT) addestrando adattatori leggeri e specifici per lingua su un sottoinsieme accuratamente selezionato di dati multilingue ausiliari. Il cuore del nostro metodo è una strategia di campionamento consapevole della distribuzione che utilizza embedding multilingue e clustering per identificare i gap semantici tra i dati di addestramento esistenti e una distribuzione d'uso target. Prioritizzando i dati ausiliari provenienti da cluster semantici sottorappresentati, COMPASS massimizza il trasferimento cross-linguale positivo minimizzando l'interferenza. Estendiamo questo approccio in un framework di apprendimento continuo, COMPASS-ECDA, che monitora gli spostamenti nella distribuzione dei dati in produzione e aggiorna dinamicamente gli adattatori per prevenire l'obsolescenza del modello, bilanciando l'adattamento ai nuovi dati con la preservazione della conoscenza esistente. Attraverso tre diverse architetture di modelli (Phi-4-Mini, Llama-3.1-8B e Qwen2.5-7B) e molteplici benchmark multilingue impegnativi (Global-MMLU, MMLU-ProX), inclusi task a contesto lungo non visti durante l'addestramento (OneRuler), dimostriamo che COMPASS supera costantemente i metodi baseline guidati dalla similarità linguistica, fornendo una soluzione efficace, efficiente e sostenibile per sviluppare e mantenere modelli multilingue ad alte prestazioni in ambienti dinamici.
Presentiamo MMCORE, un framework unificato progettato per la generazione e l'editing multimodale di immagini. MMCORE sfrutta un Modello Visione-Linguaggio (VLM) pre-addestrato per prevedere incorporamenti visivi semantici tramite token di query apprendibili, che fungono successivamente da segnali di condizionamento per un modello di diffusione. Questa progettazione semplificata trasferisce efficacemente le ricche capacità di comprensione e ragionamento dei VLM nel processo di generazione visiva. Eliminando la necessità di una fusione profonda tra modelli autoregressivi e di diffusione o di un addestramento da zero, MMCORE riduce significativamente il sovraccarico computazionale mantenendo una sintesi di alta fedeltà. MMCORE integra perfettamente la sintesi testo-immagine con la generazione intervallata di immagini, dimostrando una solida comprensione multimodale in scenari complessi come il ragionamento spaziale e il grounding visivo. Valutazioni complete indicano che MMCORE supera costantemente i benchmark più avanzati in un'ampia gamma di benchmark per la generazione da testo e per l'editing di immagini singole o multiple.
I grandi modelli linguistici possono generare codice di gioco plausibile, ma trasformare questa capacità in un miglioramento creativo iterativo rimane difficile. Nella pratica, la generazione one-shot produce spesso comportamenti runtime fragili, una debole accumulazione di esperienza tra le versioni e punteggi di creatività troppo soggettivi per fungere da segnali di ottimizzazione affidabili. Un'ulteriore limitazione è che le meccaniche sono frequentemente trattate solo come descrizioni post-hoc, piuttosto che come oggetti espliciti che possono essere pianificati, tracciati, preservati e valutati durante la generazione. Questo rapporto presenta CreativeGame, un sistema multi-agente per la generazione iterativa di giochi HTML5 che affronta questi problemi attraverso quattro idee accoppiate: una ricompensa proxy incentrata su segnali programmatici piuttosto che sul puro giudizio dell'LLM; una memoria con ambito di lineage per l'accumulo di esperienza cross-version; una validazione runtime integrata sia nella riparazione che nella ricompensa; e un ciclo di pianificazione guidato dalle meccaniche, in cui la conoscenza delle meccaniche recuperata viene convertita in un piano meccanico esplicito prima che inizi la generazione del codice. L'obiettivo non è semplicemente produrre un artefatto giocabile in un unico passo, ma supportare un'evoluzione interpretabile da versione a versione. L'attuale sistema contiene 71 lineage memorizzati, 88 nodi salvati e un archivio globale di meccaniche con 774 voci, implementato in 6.181 linee di Python insieme a strumenti di ispezione e visualizzazione. Il sistema è quindi abbastanza sostanziale da supportare analisi architetturali, ispezione delle ricompense e studi di caso reali a livello di lineage, piuttosto che solo demo a livello di prompt. Un lineage reale di 4 generazioni mostra che l'innovazione a livello di meccanica può emergere nelle versioni successive e può essere ispezionata direttamente attraverso i record versione-per-versione. Il contributo centrale non è quindi solo la generazione di giochi, ma una pipeline concreta per osservare un'evoluzione progressiva attraverso cambiamenti espliciti delle meccaniche.
I Campi Casuali Condizionali Semi-Markoviani (semi-CRFs) assegnano etichette a segmenti di una sequenza piuttosto che a singole posizioni, consentendo inferenza esatta su feature a livello di segmento e stime di incertezza rigorose ai loro confini. Tuttavia, le implementazioni esistenti devono materializzare un ampio tensore di potenziali sugli archi la cui dimensione cresce con la lunghezza della sequenza, la lunghezza massima del segmento e il numero di etichette, diventando proibitiva per spazi degli stati di scala vocale e intrattabile a scale genomiche dove le sequenze possono superare le 100.000 posizioni. Questo collo di bottiglia della memoria ha limitato l'adozione dell'inferenza esatta a livello di segmento per sequenze lunghe e grandi insiemi di etichette. Identifichiamo che l'inefficienza centrale è la materializzazione di potenziali sugli archi che possono invece essere valutati al volo da un array compatto di somme prefisse, e apportiamo diversi miglioramenti. In primo luogo, sostituire il tensore degli archi memorizzato con la ricerca per somme prefisse riduce l'ingombro di memoria di un fattore proporzionale al prodotto della lunghezza del segmento e del numero di etichette. In secondo luogo, un passaggio in avanti e all'indietro in streaming con normalizzazione ai checkpoint mantiene la memoria di lavoro sublineare rispetto alla lunghezza della sequenza preservando gradienti esatti. In terzo, punteggi cumulativi a media zero controllano la deriva numerica e inducono un prior adattivo sulla durata in caso di squilibrio delle etichette. Integriamo queste idee in Flash-SemiCRF, un kernel Triton fuso che abilita l'inferenza esatta per semi-CRF su dimensioni di problema precedentemente intrattabili. Disponibile all'indirizzo https://github.com/biobenkj/flash-semicrf.
I lavori precedenti dimostrano che il fine-tuning di modelli allineati su dati benigni compromette la sicurezza nelle modalità testo e immagine, e che la prossimità a contenuti dannosi nello spazio delle rappresentazioni predice quali campioni causano il maggior danno. Tuttavia, le analisi esistenti operano all'interno di un singolo spazio di embedding indifferenziato, lasciando aperta la questione se proprietà distinte dell'input guidino la vulnerabilità in modo diverso. L'audio introduce un problema strutturalmente più ricco: un campione benigno può essere vicino a contenuti dannosi non solo per ciò che viene detto, ma anche per come suona, anche quando le sue parole sono del tutto innocue. Presentiamo il primo studio sistematico sulla sicurezza del fine-tuning benigno negli Audio LLM, valutando tre modelli all'avanguardia con un framework di filtraggio basato sulla prossimità che seleziona audio benigno in base alla distanza nello spazio di embedding dai contenuti dannosi. Scomponendo la prossimità lungo assi semantici, acustici e misti, utilizzando encoder di riferimento esterni insieme all'encoder interno di ciascun modello, dimostriamo che il fine-tuning benigno eleva il Tasso di Successo del Jailbreak (JSR) da cifre a una sola cifra fino all'87,12%. Fondamentalmente, l'asse di vulnerabilità dominante e il rischio relativo del fine-tuning audio rispetto a quello testuale sono entrambi condizionati dall'architettura, determinati da come l'encoder e il proiettore di ciascun modello trasformano l'audio nello spazio di input dell'LLM. Proponiamo due difese: filtrare i dati di addestramento per massimizzare la distanza dagli embedding dannosi e un prompt di sistema testuale all'inferenza, entrambi in grado di ridurre il JSR a quasi zero senza modifiche architetturali. La nostra analisi meccanicistica su due architetture rivela che il fine-tuning sopprime selettivamente il circuito di rifiuto negli strati finali mentre l'encoder congelato preserva le rappresentazioni, e che persino lo schema di soppressione è condizionato dall'architettura, rispecchiando le asimmetrie comportamentali tra le modalità. Il degrado della sicurezza dovuto al fine-tuning benigno costituisce un rischio qualitativamente distinto negli Audio LLM.