Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Reinforcement Learning da Ricompense di Verifica (RLVR) è emerso come un approccio ampiamente utilizzato per il post-addestramento di grandi modelli linguistici su compiti di ragionamento, con metodi basati su gruppi come GRPO e le sue varianti che hanno ottenuto una vasta adozione. Questi metodi si basano sulla stima del vantaggio relativo al gruppo per evitare l'uso di critici appresi, tuttavia le loro proprietà teoriche rimangono poco comprese. In questo lavoro, scopriamo un problema fondamentale del RL basato su gruppi: lo stimatore del vantaggio relativo al gruppo è intrinsecamente distorto rispetto al vantaggio vero (atteso). Forniamo la prima analisi teorica che dimostra come esso sottostimi sistematicamente i vantaggi per prompt difficili e li sovrastimi per prompt facili, portando a uno squilibrio tra esplorazione e sfruttamento. Per affrontare questo problema, proponiamo History-Aware Adaptive Difficulty Weighting (HA-DW), uno schema di ripesatura adattivo che corregge le stime del vantaggio basandosi su un'ancora di difficoltà evolutiva e sulle dinamiche di addestramento. Sia l'analisi teorica che gli esperimenti su cinque benchmark di ragionamento matematico dimostrano che HA-DW migliora costantemente le prestazioni quando integrato in GRPO e nelle sue varianti. I nostri risultati suggeriscono che correggere la stima distorta del vantaggio è cruciale per un addestramento RLVR robusto ed efficiente.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha guidato progressi sostanziali in domini ad alta intensità di ragionamento come la matematica. Tuttavia, ottimizzare la generazione aperta rimane una sfida a causa della mancanza di una verità di base. Sebbene la valutazione basata su rubriche offra un proxy strutturato per la verifica, i metodi esistenti soffrono di colli di bottiglia di scalabilità e criteri grossolani, risultando in un effetto di saturazione della supervisione. Per affrontare questo problema, proponiamo un framework automatizzato di Generazione di Rubriche da Grossolano a Fine. Sinergizzando sintesi guidata da principi, aggregazione multi-modello ed evoluzione della difficoltà, il nostro approccio produce criteri completi e altamente discriminativi in grado di cogliere le sfumature sottili. Basandoci su questo framework, introduciamo RubricHub, un dataset su larga scala (circa 110k) e multi-dominio. Ne validiamo l'utilità attraverso una pipeline di post-addestramento in due stadi che comprende Fine-Tuning con Campionamento per Reiezione Basato su Rubrica (RuFT) e Reinforcement Learning (RuRL). I risultati sperimentali dimostrano che RubricHub sblocca miglioramenti prestazionali significativi: il nostro modello Qwen3-14B post-addestrato raggiunge risultati allo stato dell'arte (SOTA) su HealthBench (69.3), superando modelli proprietari all'avanguardia come GPT-5. Il codice e i dati saranno rilasciati a breve.
L'integrazione di agenti di intelligenza artificiale nei mercati economici altera fondamentalmente il panorama dell'interazione strategica. Investigiamo le implicazioni economiche dell'ampliamento dell'insieme di tecnologie disponibili in tre contesti game-theoretic canonici: la contrattazione (divisione delle risorse), la negoziazione (scambio con informazione asimmetrica) e la persuasione (trasmissione strategica di informazioni). Scopriamo che il semplice aumento della scelta di delegati IA può alterare drasticamente i payoff di equilibrio e gli esiti regolatori, creando spesso incentivi affinché i regolatori sviluppino e rilascino proattivamente tecnologie. Al contrario, identifichiamo un fenomeno strategico denominato effetto "Mela Avvelenata": un agente può rilasciare una nuova tecnologia, che né lui né il suo avversario utilizzeranno in definitiva, unicamente per manipolare a proprio favore la scelta del regolatore in merito al design del mercato. Questo rilascio strategico migliora il benessere di chi lo effettua a scapito dell'avversario e degli obiettivi di equità del regolatore. I nostri risultati dimostrano che i framework regolatori statici sono vulnerabili alla manipolazione tramite l'espansione tecnologica, rendendo necessari design di mercato dinamici che si adattino al panorama in evoluzione delle capacità dell'IA.
Consentire ai Large Language Model (LLM) di utilizzare efficacemente gli strumenti in interazioni multi-turno è fondamentale per costruire agenti autonomi capaci. Tuttavia, acquisire dati diversificati e realistici sull'uso di strumenti in contesti multi-turno rimane una sfida significativa. In questo lavoro, proponiamo un nuovo paradigma basato sul testo. Osserviamo che i corpora testuali contengono naturalmente esperienze ricche e multi-step di risoluzione di problemi, che possono fungere da fonte di dati inesplorata, scalabile e autentica per compiti di uso di strumenti multi-turno. Sulla base di questa intuizione, introduciamo GEM, una pipeline di sintesi dei dati che permette la generazione e l'estrazione di traiettorie di uso di strumenti multi-turno da corpora testuali attraverso un processo in quattro fasi: filtraggio per rilevanza, estrazione del flusso di lavoro e degli strumenti, grounding della traiettoria e raffinamento della complessità. Per ridurre il costo computazionale, addestriamo ulteriormente un Trajectory Synthesizer specializzato tramite supervised fine-tuning. Questo modello condensa la complessa pipeline di generazione in un generatore di traiettorie efficiente ed end-to-end. Gli esperimenti dimostrano che il nostro GEM-32B raggiunge un miglioramento del 16.5% sul benchmark BFCL V3 Multi-turn. I nostri modelli superano parzialmente le prestazioni di modelli addestrati su dati in-domain di τ-bench (Airline e Retail), evidenziando la superiore capacità di generalizzazione derivata dal nostro paradigma di sintesi basato sul testo. È degno di nota che il nostro Trajectory Synthesizer eguaglia la qualità della pipeline completa riducendo significativamente la latenza di inferenza e i costi.
Gli agenti autonomi basati su Large Language Model (LLM) dimostrano capacità poliedriche per contribuire sostanzialmente alla produzione economica. Tuttavia, i benchmark esistenti rimangono focalizzati su singole capacità agentiche, non riuscendo a cogliere scenari reali di lungo periodo. Inoltre, la dipendenza da feedback umano in-the-loop per compiti realistici crea un collo di bottiglia di scalabilità, ostacolando la raccolta e la valutazione automatizzata dei rollout. Per colmare questa lacuna, introduciamo AgencyBench, un benchmark completo derivato dall'uso quotidiano dell'IA, che valuta 6 capacità agentiche fondamentali attraverso 32 scenari del mondo reale, comprendenti 138 compiti con query specifiche, deliverable e rubriche di valutazione. Questi scenari richiedono in media 90 chiamate a strumenti, 1 milione di token e ore di tempo di esecuzione per essere risolti. Per abilitare la valutazione automatizzata, impieghiamo un agente di simulazione utente per fornire feedback iterativo e un sandbox Docker per condurre una valutazione basata su rubriche visive e funzionali. Gli esperimenti rivelano che i modelli closed-source sovraperformano significativamente quelli open-source (48,4% vs 32,1%). Un'analisi più approfondita rivela disparità significative tra i modelli in termini di efficienza delle risorse, autocorrezione guidata da feedback e preferenze specifiche nell'uso degli strumenti. Infine, investigiamo l'impatto degli scaffold agentici, osservando che i modelli proprietari dimostrano prestazioni superiori all'interno dei loro ecosistemi nativi (ad esempio, Claude-4.5-Opus tramite Claude-Agent-SDK), mentre i modelli open-source mostrano picchi di prestazione distinti, suggerendo una potenziale ottimizzazione per specifici framework di esecuzione. AgencyBench funge da banco di prova critico per gli agenti di prossima generazione, evidenziando la necessità di co-ottimizzare l'architettura del modello con i framework agentici. Riteniamo che questo lavoro faccia luce sulla direzione futura degli agenti autonomi e rilasciamo il benchmark completo e il toolkit di valutazione all'indirizzo https://github.com/GAIR-NLP/AgencyBench.
I modelli linguistici di grandi dimensioni (LLM) personalizzati adattano il comportamento del modello ai singoli utenti per migliorare la soddisfazione dell'utente, ma la personalizzazione può inavvertitamente distorcere il ragionamento fattuale. Dimostriamo che quando gli LLM personalizzati affrontano interrogativi fattuali, si verifica un fenomeno per cui il modello genera risposte allineatesi alla storia precedente dell'utente piuttosto che alla verità oggettiva, dando luogo a allucinazioni indotte dalla personalizzazione che degradano l'affidabilità fattuale e possono propagare credenze errate, a causa di un entanglement rappresentazionale tra personalizzazione e rappresentazioni fattuali. Per affrontare questo problema, proponiamo Factuality-Preserving Personalized Steering (FPPS), un approccio leggero in fase di inferenza che mitiga le distorsioni fattuali indotte dalla personalizzazione preservando il comportamento personalizzato. Introduciamo inoltre PFQABench, il primo benchmark progettato per valutare congiuntamente l'answer answering fattuale e personalizzato sotto personalizzazione. Esperimenti su molteplici architetture LLM e metodi di personalizzazione mostrano che FPPS migliora sostanzialmente l'accuratezza fattuale mantenendo le prestazioni personalizzate.
I modelli Vision-Language-Action (VLA) sono emersi come politiche robotiche generaliste essenziali per compiti di manipolazione diversificati, basandosi convenzionalmente sulla traduzione diretta degli input multimodali in azioni tramite gli embedding di modelli Vision-Language (VLM). Recenti progressi hanno introdotto ragionamenti intermediari espliciti, come la previsione di sotto-compiti (linguaggio) o la sintesi di immagini obiettivo (visione), per guidare la generazione di azioni. Tuttavia, questi ragionamenti intermedi sono spesso indiretti e intrinsecamente limitati nella loro capacità di veicolare le informazioni complete e granulari necessarie per un'esecuzione precisa delle azioni. Al contrario, ipotizziamo che la forma di ragionamento più efficace sia quella che delibera direttamente nello spazio delle azioni. Introduciamo l'Action Chain-of-Thought (ACoT), un paradigma in cui il processo di ragionamento stesso è formulato come una sequenza strutturata di intenzioni d'azione grezze che guidano la politica finale. In questo articolo, proponiamo ACoT-VLA, una nuova architettura che concretizza il paradigma ACoT. Nello specifico, introduciamo due componenti complementari: un Explicit Action Reasoner (EAR) e un Implicit Action Reasoner (IAR). Il primo propone traiettorie di riferimento grezze come passi di ragionamento espliciti a livello di azione, mentre il secondo estrae priorità d'azione latenti dalle rappresentazioni interne dell'input multimodale, co-formando un ACoT che condiziona il modulo di azione a valle per abilitare un apprendimento della politica ancorato alla realtà. Esperimenti estensivi in ambienti reali e di simulazione dimostrano la superiorità del nostro metodo proposto, che raggiunge rispettivamente il 98,5%, l'84,1% e il 47,4% su LIBERO, LIBERO-Plus e VLABench.
I recenti progressi nella generazione di forme 3D hanno ottenuto risultati impressionanti, ma la maggior parte dei metodi esistenti si basa su input puliti, non occlusi e ben segmentati. Tali condizioni sono raramente soddisfatte negli scenari del mondo reale. Presentiamo ShapeR, un nuovo approccio per la generazione condizionata di forme di oggetti 3D a partire da sequenze acquisite in modo casuale. Data una sequenza di immagini, sfruttiamo algoritmi SLAM visivo-inerziali già disponibili, algoritmi di rilevamento 3D e modelli visione-linguaggio per estrarre, per ogni oggetto, un insieme di punti SLAM sparsi, immagini multi-vista con posa e didascalie generate automaticamente. Un trasformatore a flusso rettificato, addestrato per condizionarsi efficacemente su queste modalità, genera quindi forme 3D metriche ad alta fedeltà. Per garantire robustezza alle sfide dei dati acquisiti casualmente, impieghiamo una serie di tecniche che includono aumentazioni composizionali on-the-fly, uno schema di addestramento per curriculum che spazia da dataset a livello di oggetto a livello di scena, e strategie per gestire il disordine dello sfondo. Inoltre, introduciamo un nuovo benchmark di valutazione comprendente 178 oggetti in contesti reali attraverso 7 scene del mondo reale con annotazioni geometriche. Gli esperimenti mostrano che ShapeR supera significativamente gli approcci esistenti in questa impostazione impegnativa, ottenendo un miglioramento di 2,7x nella distanza di Chamfer rispetto allo stato dell'arte.
Le rappresentazioni del movimento futuro, come il flusso ottico, offrono un valore immenso per compiti di controllo e generativi. Tuttavia, la previsione di rappresentazioni di movimento spazialmente dense e generalizzabili rimane una sfida chiave, e l'apprendimento di tale previsione a partire da dati reali rumorosi rimane relativamente inesplorato. Introduciamo FOFPred, un innovativo modello di previsione del flusso ottico condizionato dal linguaggio, che presenta un'architettura unificata basata su un Modello Visione-Linguaggio (VLM) e Diffusion. Questa combinazione unica consente un forte ragionamento multimodale con fedeltà generativa a livello di pixel per la previsione del movimento futuro. Il nostro modello è addestrato su dati di attività umana di scala web, una fonte altamente scalabile ma non strutturata. Per estrarre segnali significativi da questi dati rumorosi di video e didascalie, impieghiamo tecniche cruciali di pre-elaborazione dei dati e la nostra architettura unificata con un solido pre-addestramento su immagini. Il modello addestrato risultante viene poi esteso per affrontare due distinti compiti downstream nel controllo e nella generazione. Le valutazioni condotte nell'ambito della manipolazione robotica e della generazione video in contesti guidati dal linguaggio stabiliscono la versatilità cross-domain di FOFPred, confermando il valore di un'architettura unificata VLM-Diffusion e dell'apprendimento scalabile da dati web diversificati per la previsione del flusso ottico futuro.
La ricerca agentiva basata su RL consente ai LLM di risolvere domande complesse mediante pianificazione dinamica e ricerca esterna. Sebbene questo approccio migliori significativamente l'accuratezza con politiche agenti ottimizzate tramite apprendimento per rinforzo su larga scala, identifichiamo un gap critico nell'affidabilità: questi agenti non riconoscono i propri limiti di ragionamento e raramente ammettono ``NON SO'' (IDK) anche quando le prove sono insufficienti o il ragionamento raggiunge il suo limite. La mancanza di affidabilità spesso porta a risposte plausibili ma inaffidabili, introducendo rischi significativi in molti scenari reali. A tal fine, proponiamo l'Ottimizzazione della Politica Consapevole del Limite (BAPO), un innovativo framework RL progettato per coltivare una consapevolezza affidabile dei limiti senza compromettere l'accuratezza. BAPO introduce due componenti chiave: (i) una ricompensa consapevole del limite basata su gruppo che incoraggia una risposta IDK solo quando il ragionamento raggiunge il suo limite, e (ii) un modulatore di ricompensa adattivo che sospende strategicamente questa ricompensa durante l'esplorazione iniziale, prevenendo lo sfruttamento di IDK come scorciatoia da parte del modello. Esperimenti estensivi su quattro benchmark dimostrano che BAPO migliora sostanzialmente l'affidabilità complessiva della ricerca agentiva.
La generazione di movimento umano a partire da descrizioni testuali ha compiuto progressi notevoli negli ultimi anni. Tuttavia, i metodi esistenti si basano principalmente su descrizioni a livello di sequenza o di azione, a causa dell'assenza di annotazioni dettagliate del movimento a livello di parti del corpo. Ciò ne limita la controllabilità sulle singole parti corporee. In questo lavoro, costruiamo un dataset di movimento di alta qualità con annotazioni testuali atomiche, temporalmente consapevoli e a livello di parte, sfruttando le capacità di ragionamento dei grandi modelli linguistici (LLM). A differenza dei dataset precedenti, che forniscono didascalie di parti sincronizzate con segmenti temporali fissi o si basano esclusivamente su etichette globali di sequenza, il nostro dataset cattura movimenti asincroni e semanticamente distinti delle parti a una risoluzione temporale fine. Basandoci su questo dataset, introduciamo un framework di generazione del movimento basato su diffusione e consapevole delle parti, denominato FrankenMotion, in cui ogni parte del corpo è guidata dal proprio prompt testuale temporalmente strutturato. Questo è, a nostra conoscenza, il primo lavoro a fornire annotazioni atomiche, temporalmente consapevoli a livello di parte e a disporre di un modello che consente la generazione di movimento con controllo sia spaziale (parte del corpo) che temporale (azione atomica). Gli esperimenti dimostrano che FrankenMotion supera tutti i precedenti modelli di base adattati e riaddestrati per la nostra impostazione, e il nostro modello può comporre movimenti non visti durante l'addestramento. Il nostro codice e dataset saranno pubblicamente disponibili alla pubblicazione.
Il deployment di LLM solleva due sfide interconnesse: (1) monitoraggio - stimare dove un modello underperforma al variare del traffico e dei domini - e (2) miglioramento - prioritizzare l'acquisizione di dati per colmare i maggiori gap prestazionali. Testiamo se un segnale in fase di inference possa stimare l'accuratezza a livello di slice sotto domain shift. Per ogni risposta, calcoliamo un profilo di entropia dell'output dalle probabilità del token successivo nell'ultimo layer (dai top-k logprobs) e lo sintetizziamo con undici statistiche. Un classificatore leggero predice la correttezza dell'istanza, e la media delle probabilità predette fornisce una stima dell'accuratezza a livello di dominio. Valutiamo su dieci benchmark di ragionamento STEM con composizioni exhaustive train/test (k in {1,2,3,4}; tutte le combinazioni "10 choose k"), su nove LLM da sei famiglie (3B-20B). Le stime spesso tracciano l'accuratezza benchmark held-out, e diversi modelli mostrano un ordinamento pressoché monotono dei domini. I profili di entropia dell'output si rivelano quindi un segnale accessibile per il monitoraggio scalabile e per indirizzare l'acquisizione di dati.
L'addestramento supervisionato con messa a punto (SFT) è una strategia fondamentale post-addestramento per allineare i Grandi Modelli Linguistici (LLM) con l'intento umano. Tuttavia, l'SFT tradizionale ignora spesso la natura uno-a-molti del linguaggio forzando l'allineamento con una singola risposta di riferimento, portando il modello a un sovradattamento su espressioni non essenziali. Sebbene la nostra analisi empirica suggerisca che l'introduzione di multiple risposte di riferimento possa mitigare questo problema, i costi proibitivi dei dati e computativi richiedono un cambio strategico: dare priorità alla mitigazione del sovradattamento da singolo riferimento rispetto alla costosa ricerca della diversità delle risposte. Per raggiungere questo obiettivo, riveliamo la connessione intrinseca tra probabilità del token e importanza semantica: i token ad alta probabilità veicolano la struttura logica di base, mentre i token a bassa probabilità sono per lo più espressioni sostituibili. Basandoci su questa intuizione, proponiamo ProFit, che maschera selettivamente i token a bassa probabilità per prevenire il sovradattamento superficiale. Esperimenti estensivi confermano che ProFit supera costantemente i benchmark dell'SFT tradizionale in test di ragionamento generale e matematici.
I grandi modelli linguistici hanno conseguito capacità notevoli in diversi domini, eppure i meccanismi alla base del ragionamento sofisticato rimangono elusivi. Modelli di ragionamento recenti superano modelli addestrati su istruzioni di dimensioni paragonabili in compiti cognitivi complessi, attribuzione che viene data al calcolo esteso tramite catene di pensiero più lunghe. Qui dimostriamo che il ragionamento potenziato emerge non solo dal calcolo esteso, ma dalla simulazione di interazioni simil-multiagente – una società del pensiero – che permette la diversificazione e il dibattito tra prospettive cognitive interne caratterizzate da tratti di personalità distinti e competenze di dominio. Attraverso analisi quantitative e metodi di interpretabilità meccanicistica applicati alle tracce di ragionamento, scopriamo che modelli come DeepSeek-R1 e QwQ-32B mostrano una diversità di prospettive di gran lunga maggiore rispetto ai modelli addestrati su istruzioni, attivando un conflitto più ampio tra caratteristiche eterogenee legate alla personalità e alle competenze durante il ragionamento. Questa struttura multiagente si manifesta in comportamenti conversazionali, inclusi domande-risposte, cambi di prospettiva e la riconciliazione di visioni contrastanti, e in ruoli socio-emotivi che caratterizzano scambi conversazionali serrati, contribuendo insieme al vantaggio in accuratezza nei compiti di ragionamento. Esperimenti controllati di apprendimento per rinforzo rivelano che i modelli base aumentano i comportamenti conversazionali quando vengono premiati unicamente per l'accuratezza del ragionamento, e l'addestramento fine di modelli con impalcature conversazionali accelera il miglioramento del ragionamento rispetto ai modelli base. Questi risultati indicano che l'organizzazione sociale del pensiero permette un'esplorazione efficace degli spazi delle soluzioni. Suggeriamo che i modelli di ragionamento stabiliscano un parallelo computazionale con l'intelligenza collettiva nei gruppi umani, dove la diversità consente una risoluzione dei problemi superiore quando strutturata sistematicamente, il che suggerisce nuove opportunità per l'organizzazione di agenti per sfruttare la saggezza della folla.
I principi fisici sono fondamentali per una simulazione visiva realistica, ma rimangono una significativa lacuna nella generazione di video basata su trasformatori. Questo divario evidenzia una limitazione critica nel rendering del moto dei corpi rigidi, un principio cardine della meccanica classica. Sebbene la computer grafica e i simulatori basati sulla fisica possano modellare facilmente tali collisioni utilizzando le formule di Newton, i moderni paradigmi di pre-addestramento e messa a punto scartano il concetto di rigidità degli oggetti durante la denoising globale a livello di pixel. Anche vincoli matematici perfettamente corretti vengono trattati come soluzioni subottimali (ovvero condizioni) durante l'ottimizzazione del modello post-addestramento, limitando fondamentalmente il realismo fisico dei video generati. Motivati da queste considerazioni, introduciamo per la prima volta un paradigma di apprendimento per rinforzo consapevole della fisica per modelli di generazione video, che applica direttamente le regole delle collisioni fisiche in spazi ad alta dimensionalità, garantendo che la conoscenza fisica sia rigorosamente applicata piuttosto che trattata come condizione. Successivamente, estendiamo questo paradigma a un framework unificato, denominato Ciclo di Imitazione-Scoperta (MDcycle), che consente un'ampia messa a punto preservando pienamente la capacità del modello di sfruttare feedback basati sulla fisica. Per convalidare il nostro approccio, costruiamo un nuovo benchmark, PhysRVGBench, ed eseguiamo ampi esperimenti qualitativi e quantitativi per valutarne approfonditamente l'efficacia.
La diversità dell'output è cruciale per i Modelli Linguistici di Grande Dimensioni poiché sostiene il pluralismo e la creatività. In questo lavoro, dimostriamo che controllare la lingua utilizzata durante il pensiero del modello – il linguaggio del pensiero – rappresenta una fonte nuova e strutturale di diversità dell'output. Il nostro studio preliminare mostra che diversi linguaggi del pensiero occupano regioni distinte nello spazio di pensiero di un modello. Sulla base di questa osservazione, studiamo due strategie di campionamento ripetuto in contesti di pensiero multilingue – Campionamento a Lingua Singola e Campionamento a Lingue Miste – e conduciamo una valutazione della diversità sugli output controllati per essere in inglese, indipendentemente dal linguaggio del pensiero utilizzato. Attraverso esperimenti estesi, dimostriamo che cambiare il linguaggio del pensiero dall'inglese a lingue non inglesi aumenta costantemente la diversità dell'output, con una chiara e coerente correlazione positiva tale per cui le lingue più lontane dall'inglese nello spazio del pensiero producono guadagni maggiori. Mostriamo inoltre che aggregare campioni provenienti da molteplici linguaggi del pensiero apporta ulteriori miglioramenti attraverso effetti compositivi, e che aumentare il campionamento con eterogeneità linguistica espande il limite superiore della diversità del modello. Infine, dimostriamo che questi risultati si traducono in benefici pratici negli scenari di allineamento pluralistico, portando a una copertura più ampia della conoscenza culturale e degli orientamenti valoriali negli output dei LLM. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/iNLP-Lab/Multilingual-LoT-Diversity.
Le capacità all'avanguardia dei modelli linguistici stanno migliorando rapidamente. Di conseguenza, sono necessarie mitigazioni più robuste contro l'uso improprio di sistemi sempre più potenti da parte di attori malevoli. Ricerche precedenti hanno dimostrato che le sonde di attivazione possono essere una tecnica promettente per mitigare l'uso improprio, ma identifichiamo una sfida cruciale rimanente: le sonde non riescono a generalizzare in presenza di importanti cambiamenti distributivi tipici degli ambienti produttivi. In particolare, scopriamo che il passaggio da input a contesto breve a input a contesto lungo è difficile per le architetture di sonde esistenti. Proponiamo diverse nuove architetture di sonde che gestiscono questo cambiamento distributivo verso contesti lunghi. Valutiamo queste sonde nel dominio cyber-offensivo, testandone la robustezza contro vari cambiamenti rilevanti per la produzione, incluse conversazioni a più turni, jailbreak statici e red teaming adattivo. I nostri risultati dimostrano che, sebbene l'approccio multimax affronti la lunghezza del contesto, per un'ampia generalizzazione è necessaria una combinazione tra la scelta architetturale e l'addestramento su distribuzioni diversificate. Inoltre, mostriamo che l'abbinamento di sonde con classificatori basati su prompt raggiunge un'accuratezza ottimale a basso costo, grazie all'efficienza computazionale delle sonde. Questi risultati hanno guidato il dispiegamento con successo di sonde per la mitigazione dell'uso improprio nelle istanze di Gemini, il modello linguistico all'avanguardia di Google, esposte agli utenti. Infine, otteniamo primi risultati positivi utilizzando AlphaEvolve per automatizzare i miglioramenti sia nella ricerca architetturale delle sonde che nel red teaming adattivo, dimostrando che l'automazione di alcune ricerche sulla sicurezza dell'IA è già possibile.
Sebbene gli agenti GUI abbiano dimostrato prestazioni solide con istruzioni esplicite e di completamento, il dispiegamento nel mondo reale richiede l'allineamento con le intenzioni implicite più complesse degli utenti. In questo lavoro, proponiamo l'Allineamento Gerarchico delle Intenzioni Implicite per Agenti GUI Personalizzati (PersonalAlign), un nuovo compito per agenti che richiede di sfruttare i record utente a lungo termine come contesto persistente per risolvere le preferenze omesse in istruzioni vaghe e anticipare routine latenti in base allo stato dell'utente per un'assistenza proattiva. Per facilitare questo studio, introduciamo AndroidIntent, un benchmark progettato per valutare la capacità degli agenti di risolvere istruzioni vaghe e fornire suggerimenti proattivi ragionando su record utente a lungo termine. Abbiamo annotato 775 preferenze specifiche per utente e 215 routine da 20.000 record a lungo termine di diversi utenti per la valutazione. Inoltre, introduciamo l'agente a Memoria delle Intenzioni Gerarchica (HIM-Agent), che mantiene una memoria personale in aggiornamento continuo e organizza gerarchicamente preferenze e routine utente per la personalizzazione. Infine, valutiamo una serie di agenti GUI su AndroidIntent, inclusi GPT-5, Qwen3-VL e UI-TARS; i risultati mostrano che HIM-Agent migliora significativamente le prestazioni sia esecutive che proattive rispettivamente del 15,7% e del 7,3%.
I Large Vision Language Models (LVLM) hanno dimostrato capacità notevoli, ma la loro competenza nella comprensione e nel ragionamento su immagini multiple rimane in gran parte inesplorata. Sebbene i benchmark esistenti abbiano avviato la valutazione di modelli multi-immagine, manca ancora un'analisi completa delle loro principali carenze e delle relative cause. In questo lavoro, introduciamo MIMIC (Multi-Image Model Insights and Challenges), un nuovo benchmark progettato per valutare rigorosamente le capacità multi-immagine degli LVLM. Utilizzando MIMIC, conduciamo una serie di esperimenti diagnostici che rivelano problemi pervasivi: gli LVLM spesso non riescono ad aggregare informazioni tra le immagini e faticano a tracciare o prestare attenzione a più concetti simultaneamente. Per affrontare queste carenze, proponiamo due nuovi rimedi complementari. Sul fronte dei dati, presentiamo una strategia procedurale di generazione dei dati che combina annotazioni di singole immagini in esempi di addestramento multi-immagine ricchi e mirati. Sul fronte dell'ottimizzazione, analizziamo i pattern di attenzione per strato e deriviamo uno schema di attention-masking specifico per input multi-immagine. Gli esperimenti hanno migliorato sostanzialmente l'aggregazione cross-image, migliorando anche le prestazioni sui benchmark multi-immagine esistenti e superando lo stato dell'arte precedente in vari compiti. Dati e codice saranno resi disponibili all'indirizzo https://github.com/anurag-198/MIMIC.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) agentici li hanno posizionati come pianificatori generalisti in grado di ragionare e agire su compiti diversi. Tuttavia, gli attuali benchmark per agenti si concentrano prevalentemente su ambienti simbolici o debolmente ancorati alla realtà, lasciando inesplorate le loro prestazioni in domini del mondo reale vincolati dalla fisica. Introduciamo AstroReason-Bench, un benchmark completo per valutare la pianificazione agentica nei Problemi di Pianificazione Spaziale (SPP), una famiglia di problemi ad alto rischio con obiettivi eterogenei, vincoli fisici stringenti e processi decisionali a lungo termine. AstroReason-Bench integra molteplici regimi di schedulazione, inclusi le comunicazioni con le stazioni di terra e l'osservazione agile della Terra, e fornisce un protocollo di interazione unificato orientato agli agenti. Valutando una serie di sistemi LLM agentici all'avanguardia, open-source e proprietari, riscontriamo che gli agenti attuali hanno prestazioni sostanzialmente inferiori rispetto a risolutori specializzati, evidenziando limitazioni chiave della pianificazione generalista sotto vincoli realistici. AstroReason-Bench offre un banco di prova stimolante e diagnostico per la futura ricerca sugli agenti.
I recenti modelli di generazione video basati su diffusion sintetizzano video visivamente plausibili, ma spesso faticano a soddisfare i vincoli fisici. Una ragione fondamentale è che la maggior parte degli approcci esistenti rimane a stadio singolo: essi intrecciano la comprensione fisica di alto livello con la sintesi visiva di basso livello, rendendo difficile generare contenuti che richiedono un ragionamento fisico esplicito. Per superare questa limitazione, proponiamo una pipeline a tre stadi senza fase di addestramento, PhyRPR: PhyReason–PhyPlan–PhyRefine, che disaccoppia la comprensione fisica dalla sintesi visiva. Nello specifico, PhyReason utilizza un modello multimodale di grandi dimensioni per il ragionamento sullo stato fisico e un generatore di immagini per la sintesi dei fotogrammi chiave; PhyPlan sintetizza deterministicamente un'impalcatura di movimento grossolano e controllabile; e PhyRefine inietta questa impalcatura nel campionamento diffusion attraverso una strategia di fusione latente per affinare l'aspetto preservando le dinamiche pianificate. Questo design a stadi consente un controllo fisico esplicito durante la generazione. Esperimenti estensivi con vincoli fisici dimostrano che il nostro metodo migliora costantemente la plausibilità fisica e la controllabilità del movimento.
Studiamo la cura dei dati per il ragionamento multimodale attraverso la challenge NeurIPS 2025 "Data Curation for Vision-Language Reasoning" (DCVLR), che isola la selezione del dataset fissando il modello e il protocollo di addestramento. Utilizzando un dataset compatto e curato derivato principalmente da Walton Multimodal Cold Start, la nostra proposta si è classificata al primo posto nella competizione. Tramite ablazioni post-competizione, dimostriamo che la selezione degli esempi basata sulla difficoltà su un dataset di base allineato è il fattore predominante per i guadagni prestazionali. L'aumento delle dimensioni del dataset non migliora in modo affidabile l'accuratezza media con la ricetta di addestramento fissa, ma riduce principalmente la varianza tra le esecuzioni, mentre le euristiche comunemente utilizzate per la diversità e l'aumento sintetico dei dati non forniscono benefici aggiuntivi e spesso degradano le prestazioni. Questi risultati caratterizzano la DCVLR come una valutazione in regime di saturazione e sottolineano il ruolo centrale dell'allineamento e della difficoltà nel ragionamento multimodale efficiente dal punto di vista dei dati.