HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

22 papers found

Il tuo vantaggio relativo al gruppo è distorto.
Your Group-Relative Advantage Is Biased

Jan 13

ByFengkai Yang, Zherui Chen, Xiaohan Wang, Xiaodong Lu, Jiajun Chai, Guojun Yin, Wei Lin, Shuai Ma, Fuzhen Zhuang, Deqing Wang, Yaodong Yang, Jianxin Li, Yikun Ban

155

Il Reinforcement Learning da Ricompense di Verifica (RLVR) è emerso come un approccio ampiamente utilizzato per il post-addestramento di grandi modelli linguistici su compiti di ragionamento, con metodi basati su gruppi come GRPO e le sue varianti che hanno ottenuto una vasta adozione. Questi metodi si basano sulla stima del vantaggio relativo al gruppo per evitare l'uso di critici appresi, tuttavia le loro proprietà teoriche rimangono poco comprese. In questo lavoro, scopriamo un problema fondamentale del RL basato su gruppi: lo stimatore del vantaggio relativo al gruppo è intrinsecamente distorto rispetto al vantaggio vero (atteso). Forniamo la prima analisi teorica che dimostra come esso sottostimi sistematicamente i vantaggi per prompt difficili e li sovrastimi per prompt facili, portando a uno squilibrio tra esplorazione e sfruttamento. Per affrontare questo problema, proponiamo History-Aware Adaptive Difficulty Weighting (HA-DW), uno schema di ripesatura adattivo che corregge le stime del vantaggio basandosi su un'ancora di difficoltà evolutiva e sulle dinamiche di addestramento. Sia l'analisi teorica che gli esperimenti su cinque benchmark di ragionamento matematico dimostrano che HA-DW migliora costantemente le prestazioni quando integrato in GRPO e nelle sue varianti. I nostri risultati suggeriscono che correggere la stima distorta del vantaggio è cruciale per un addestramento RLVR robusto ed efficiente.

RubricHub: un dataset di rubriche completo e altamente discriminativo tramite generazione automatica da grossolana a fine
RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation

Jan 13

BySunzhu Li, Jiale Zhao, Miteto Wei, Huimin Ren, Yang Zhou, Jingwen Yang, Shunyu Liu, Kaike Zhang, Wei Chen

Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha guidato progressi sostanziali in domini ad alta intensità di ragionamento come la matematica. Tuttavia, ottimizzare la generazione aperta rimane una sfida a causa della mancanza di una verità di base. Sebbene la valutazione basata su rubriche offra un proxy strutturato per la verifica, i metodi esistenti soffrono di colli di bottiglia di scalabilità e criteri grossolani, risultando in un effetto di saturazione della supervisione. Per affrontare questo problema, proponiamo un framework automatizzato di Generazione di Rubriche da Grossolano a Fine. Sinergizzando sintesi guidata da principi, aggregazione multi-modello ed evoluzione della difficoltà, il nostro approccio produce criteri completi e altamente discriminativi in grado di cogliere le sfumature sottili. Basandoci su questo framework, introduciamo RubricHub, un dataset su larga scala (circa 110k) e multi-dominio. Ne validiamo l'utilità attraverso una pipeline di post-addestramento in due stadi che comprende Fine-Tuning con Campionamento per Reiezione Basato su Rubrica (RuFT) e Reinforcement Learning (RuRL). I risultati sperimentali dimostrano che RubricHub sblocca miglioramenti prestazionali significativi: il nostro modello Qwen3-14B post-addestrato raggiunge risultati allo stato dell'arte (SOTA) su HealthBench (69.3), superando modelli proprietari all'avanguardia come GPT-5. Il codice e i dati saranno rilasciati a breve.

L'Effetto Mela Avvelenata: Manipolazione Strategica dei Mercati Mediati tramite l'Espansione Tecnologica degli Agenti IA
The Poisoned Apple Effect: Strategic Manipulation of Mediated Markets via Technology Expansion of AI Agents

Jan 16

ByEilam Shapira, Roi Reichart, Moshe Tennenholtz

L'integrazione di agenti di intelligenza artificiale nei mercati economici altera fondamentalmente il panorama dell'interazione strategica. Investigiamo le implicazioni economiche dell'ampliamento dell'insieme di tecnologie disponibili in tre contesti game-theoretic canonici: la contrattazione (divisione delle risorse), la negoziazione (scambio con informazione asimmetrica) e la persuasione (trasmissione strategica di informazioni). Scopriamo che il semplice aumento della scelta di delegati IA può alterare drasticamente i payoff di equilibrio e gli esiti regolatori, creando spesso incentivi affinché i regolatori sviluppino e rilascino proattivamente tecnologie. Al contrario, identifichiamo un fenomeno strategico denominato effetto "Mela Avvelenata": un agente può rilasciare una nuova tecnologia, che né lui né il suo avversario utilizzeranno in definitiva, unicamente per manipolare a proprio favore la scelta del regolatore in merito al design del mercato. Questo rilascio strategico migliora il benessere di chi lo effettua a scapito dell'avversario e degli obiettivi di equità del regolatore. I nostri risultati dimostrano che i framework regolatori statici sono vulnerabili alla manipolazione tramite l'espansione tecnologica, rendendo necessari design di mercato dinamici che si adattino al panorama in evoluzione delle capacità dell'IA.

Sbloccare l'Esperienza Implicita: Sintesi di Traiettorie d'Uso degli Strumenti a Partire dal Testo
Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text

Jan 15

ByZhihao Xu, Rumei Li, Jiahuan Li, Rongxiang Weng, Jingang Wang, Xunliang Cai, Xiting Wang

Consentire ai Large Language Model (LLM) di utilizzare efficacemente gli strumenti in interazioni multi-turno è fondamentale per costruire agenti autonomi capaci. Tuttavia, acquisire dati diversificati e realistici sull'uso di strumenti in contesti multi-turno rimane una sfida significativa. In questo lavoro, proponiamo un nuovo paradigma basato sul testo. Osserviamo che i corpora testuali contengono naturalmente esperienze ricche e multi-step di risoluzione di problemi, che possono fungere da fonte di dati inesplorata, scalabile e autentica per compiti di uso di strumenti multi-turno. Sulla base di questa intuizione, introduciamo GEM, una pipeline di sintesi dei dati che permette la generazione e l'estrazione di traiettorie di uso di strumenti multi-turno da corpora testuali attraverso un processo in quattro fasi: filtraggio per rilevanza, estrazione del flusso di lavoro e degli strumenti, grounding della traiettoria e raffinamento della complessità. Per ridurre il costo computazionale, addestriamo ulteriormente un Trajectory Synthesizer specializzato tramite supervised fine-tuning. Questo modello condensa la complessa pipeline di generazione in un generatore di traiettorie efficiente ed end-to-end. Gli esperimenti dimostrano che il nostro GEM-32B raggiunge un miglioramento del 16.5% sul benchmark BFCL V3 Multi-turn. I nostri modelli superano parzialmente le prestazioni di modelli addestrati su dati in-domain di τ-bench (Airline e Retail), evidenziando la superiore capacità di generalizzazione derivata dal nostro paradigma di sintesi basato sul testo. È degno di nota che il nostro Trajectory Synthesizer eguaglia la qualità della pipeline completa riducendo significativamente la latenza di inferenza e i costi.

AgencyBench: Valutazione delle Frontiere degli Agenti Autonomi in Contesti Reali da 1 Milione di Token
AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

Jan 16

ByKeyu Li, Junhao Shi, Yang Xiao, Mohan Jiang, Jie Sun, Yunze Wu, Shijie Xia, Xiaojie Cai, Tianze Xu, Weiye Si, Wenjie Li, Dequan Wang, Pengfei Liu

Gli agenti autonomi basati su Large Language Model (LLM) dimostrano capacità poliedriche per contribuire sostanzialmente alla produzione economica. Tuttavia, i benchmark esistenti rimangono focalizzati su singole capacità agentiche, non riuscendo a cogliere scenari reali di lungo periodo. Inoltre, la dipendenza da feedback umano in-the-loop per compiti realistici crea un collo di bottiglia di scalabilità, ostacolando la raccolta e la valutazione automatizzata dei rollout. Per colmare questa lacuna, introduciamo AgencyBench, un benchmark completo derivato dall'uso quotidiano dell'IA, che valuta 6 capacità agentiche fondamentali attraverso 32 scenari del mondo reale, comprendenti 138 compiti con query specifiche, deliverable e rubriche di valutazione. Questi scenari richiedono in media 90 chiamate a strumenti, 1 milione di token e ore di tempo di esecuzione per essere risolti. Per abilitare la valutazione automatizzata, impieghiamo un agente di simulazione utente per fornire feedback iterativo e un sandbox Docker per condurre una valutazione basata su rubriche visive e funzionali. Gli esperimenti rivelano che i modelli closed-source sovraperformano significativamente quelli open-source (48,4% vs 32,1%). Un'analisi più approfondita rivela disparità significative tra i modelli in termini di efficienza delle risorse, autocorrezione guidata da feedback e preferenze specifiche nell'uso degli strumenti. Infine, investigiamo l'impatto degli scaffold agentici, osservando che i modelli proprietari dimostrano prestazioni superiori all'interno dei loro ecosistemi nativi (ad esempio, Claude-4.5-Opus tramite Claude-Agent-SDK), mentre i modelli open-source mostrano picchi di prestazione distinti, suggerendo una potenziale ottimizzazione per specifici framework di esecuzione. AgencyBench funge da banco di prova critico per gli agenti di prossima generazione, evidenziando la necessità di co-ottimizzare l'architettura del modello con i framework agentici. Riteniamo che questo lavoro faccia luce sulla direzione futura degli agenti autonomi e rilasciamo il benchmark completo e il toolkit di valutazione all'indirizzo https://github.com/GAIR-NLP/AgencyBench.

Quando la Personalizzazione Trae in Inganno: Comprendere e Mitigare le Allucinazioni nei Modelli Linguistici Personalizzati
When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs

Jan 16

ByZhongxiang Sun, Yi Zhan, Chenglei Shen, Weijie Yu, Xiao Zhang, Ming He, Jun Xu

I modelli linguistici di grandi dimensioni (LLM) personalizzati adattano il comportamento del modello ai singoli utenti per migliorare la soddisfazione dell'utente, ma la personalizzazione può inavvertitamente distorcere il ragionamento fattuale. Dimostriamo che quando gli LLM personalizzati affrontano interrogativi fattuali, si verifica un fenomeno per cui il modello genera risposte allineatesi alla storia precedente dell'utente piuttosto che alla verità oggettiva, dando luogo a allucinazioni indotte dalla personalizzazione che degradano l'affidabilità fattuale e possono propagare credenze errate, a causa di un entanglement rappresentazionale tra personalizzazione e rappresentazioni fattuali. Per affrontare questo problema, proponiamo Factuality-Preserving Personalized Steering (FPPS), un approccio leggero in fase di inferenza che mitiga le distorsioni fattuali indotte dalla personalizzazione preservando il comportamento personalizzato. Introduciamo inoltre PFQABench, il primo benchmark progettato per valutare congiuntamente l'answer answering fattuale e personalizzato sotto personalizzazione. Esperimenti su molteplici architetture LLM e metodi di personalizzazione mostrano che FPPS migliora sostanzialmente l'accuratezza fattuale mantenendo le prestazioni personalizzate.

ACoT-VLA: Ragionamento a Catena di Azioni per Modelli Visione-Linguaggio-Azione
ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

Jan 16

ByLinqing Zhong, Yi Liu, Yifei Wei, Ziyu Xiong, Maoqing Yao, Si Liu, Guanghui Ren

I modelli Vision-Language-Action (VLA) sono emersi come politiche robotiche generaliste essenziali per compiti di manipolazione diversificati, basandosi convenzionalmente sulla traduzione diretta degli input multimodali in azioni tramite gli embedding di modelli Vision-Language (VLM). Recenti progressi hanno introdotto ragionamenti intermediari espliciti, come la previsione di sotto-compiti (linguaggio) o la sintesi di immagini obiettivo (visione), per guidare la generazione di azioni. Tuttavia, questi ragionamenti intermedi sono spesso indiretti e intrinsecamente limitati nella loro capacità di veicolare le informazioni complete e granulari necessarie per un'esecuzione precisa delle azioni. Al contrario, ipotizziamo che la forma di ragionamento più efficace sia quella che delibera direttamente nello spazio delle azioni. Introduciamo l'Action Chain-of-Thought (ACoT), un paradigma in cui il processo di ragionamento stesso è formulato come una sequenza strutturata di intenzioni d'azione grezze che guidano la politica finale. In questo articolo, proponiamo ACoT-VLA, una nuova architettura che concretizza il paradigma ACoT. Nello specifico, introduciamo due componenti complementari: un Explicit Action Reasoner (EAR) e un Implicit Action Reasoner (IAR). Il primo propone traiettorie di riferimento grezze come passi di ragionamento espliciti a livello di azione, mentre il secondo estrae priorità d'azione latenti dalle rappresentazioni interne dell'input multimodale, co-formando un ACoT che condiziona il modulo di azione a valle per abilitare un apprendimento della politica ancorato alla realtà. Esperimenti estensivi in ambienti reali e di simulazione dimostrano la superiorità del nostro metodo proposto, che raggiunge rispettivamente il 98,5%, l'84,1% e il 47,4% su LIBERO, LIBERO-Plus e VLABench.

ShapeR: Generazione Robusta di Forme 3D Condizionata a Partire da Acquisizioni Informali
ShapeR: Robust Conditional 3D Shape Generation from Casual Captures

Jan 16

ByYawar Siddiqui, Duncan Frost, Samir Aroudj, Armen Avetisyan, Henry Howard-Jenkins, Daniel DeTone, Pierre Moulon, Qirui Wu, Zhengqin Li, Julian Straub, Richard Newcombe, Jakob Engel

I recenti progressi nella generazione di forme 3D hanno ottenuto risultati impressionanti, ma la maggior parte dei metodi esistenti si basa su input puliti, non occlusi e ben segmentati. Tali condizioni sono raramente soddisfatte negli scenari del mondo reale. Presentiamo ShapeR, un nuovo approccio per la generazione condizionata di forme di oggetti 3D a partire da sequenze acquisite in modo casuale. Data una sequenza di immagini, sfruttiamo algoritmi SLAM visivo-inerziali già disponibili, algoritmi di rilevamento 3D e modelli visione-linguaggio per estrarre, per ogni oggetto, un insieme di punti SLAM sparsi, immagini multi-vista con posa e didascalie generate automaticamente. Un trasformatore a flusso rettificato, addestrato per condizionarsi efficacemente su queste modalità, genera quindi forme 3D metriche ad alta fedeltà. Per garantire robustezza alle sfide dei dati acquisiti casualmente, impieghiamo una serie di tecniche che includono aumentazioni composizionali on-the-fly, uno schema di addestramento per curriculum che spazia da dataset a livello di oggetto a livello di scena, e strategie per gestire il disordine dello sfondo. Inoltre, introduciamo un nuovo benchmark di valutazione comprendente 178 oggetti in contesti reali attraverso 7 scene del mondo reale con annotazioni geometriche. Gli esperimenti mostrano che ShapeR supera significativamente gli approcci esistenti in questa impostazione impegnativa, ottenendo un miglioramento di 2,7x nella distanza di Chamfer rispetto allo stato dell'arte.

La previsione del flusso ottico futuro migliora il controllo robotico e la generazione video
Future Optical Flow Prediction Improves Robot Control & Video Generation

Jan 15

ByKanchana Ranasinghe, Honglu Zhou, Yu Fang, Luyu Yang, Le Xue, Ran Xu, Caiming Xiong, Silvio Savarese, Michael S Ryoo, Juan Carlos Niebles

Le rappresentazioni del movimento futuro, come il flusso ottico, offrono un valore immenso per compiti di controllo e generativi. Tuttavia, la previsione di rappresentazioni di movimento spazialmente dense e generalizzabili rimane una sfida chiave, e l'apprendimento di tale previsione a partire da dati reali rumorosi rimane relativamente inesplorato. Introduciamo FOFPred, un innovativo modello di previsione del flusso ottico condizionato dal linguaggio, che presenta un'architettura unificata basata su un Modello Visione-Linguaggio (VLM) e Diffusion. Questa combinazione unica consente un forte ragionamento multimodale con fedeltà generativa a livello di pixel per la previsione del movimento futuro. Il nostro modello è addestrato su dati di attività umana di scala web, una fonte altamente scalabile ma non strutturata. Per estrarre segnali significativi da questi dati rumorosi di video e didascalie, impieghiamo tecniche cruciali di pre-elaborazione dei dati e la nostra architettura unificata con un solido pre-addestramento su immagini. Il modello addestrato risultante viene poi esteso per affrontare due distinti compiti downstream nel controllo e nella generazione. Le valutazioni condotte nell'ambito della manipolazione robotica e della generazione video in contesti guidati dal linguaggio stabiliscono la versatilità cross-domain di FOFPred, confermando il valore di un'architettura unificata VLM-Diffusion e dell'apprendimento scalabile da dati web diversificati per la previsione del flusso ottico futuro.

BAPO: Ottimizzazione della Politica Consapevole dei Limiti per una Ricerca Agente Affidabile
BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search

Jan 16

ByShiyu Liu, Yongjing Yin, Jianhao Yan, Yunbo Tang, Qinggang Zhang, Bei Li, Xin Chen, Jingang Wang, Xunliang Cai, Jinsong Su

La ricerca agentiva basata su RL consente ai LLM di risolvere domande complesse mediante pianificazione dinamica e ricerca esterna. Sebbene questo approccio migliori significativamente l'accuratezza con politiche agenti ottimizzate tramite apprendimento per rinforzo su larga scala, identifichiamo un gap critico nell'affidabilità: questi agenti non riconoscono i propri limiti di ragionamento e raramente ammettono ``NON SO'' (IDK) anche quando le prove sono insufficienti o il ragionamento raggiunge il suo limite. La mancanza di affidabilità spesso porta a risposte plausibili ma inaffidabili, introducendo rischi significativi in molti scenari reali. A tal fine, proponiamo l'Ottimizzazione della Politica Consapevole del Limite (BAPO), un innovativo framework RL progettato per coltivare una consapevolezza affidabile dei limiti senza compromettere l'accuratezza. BAPO introduce due componenti chiave: (i) una ricompensa consapevole del limite basata su gruppo che incoraggia una risposta IDK solo quando il ragionamento raggiunge il suo limite, e (ii) un modulatore di ricompensa adattivo che sospende strategicamente questa ricompensa durante l'esplorazione iniziale, prevenendo lo sfruttamento di IDK come scorciatoia da parte del modello. Esperimenti estensivi su quattro benchmark dimostrano che BAPO migliora sostanzialmente l'affidabilità complessiva della ricerca agentiva.

FrankenMotion: Generazione e Composizione del Movimento Umano a Livello di Parte
FrankenMotion: Part-level Human Motion Generation and Composition

Jan 15

ByChuqiao Li, Xianghui Xie, Yong Cao, Andreas Geiger, Gerard Pons-Moll

La generazione di movimento umano a partire da descrizioni testuali ha compiuto progressi notevoli negli ultimi anni. Tuttavia, i metodi esistenti si basano principalmente su descrizioni a livello di sequenza o di azione, a causa dell'assenza di annotazioni dettagliate del movimento a livello di parti del corpo. Ciò ne limita la controllabilità sulle singole parti corporee. In questo lavoro, costruiamo un dataset di movimento di alta qualità con annotazioni testuali atomiche, temporalmente consapevoli e a livello di parte, sfruttando le capacità di ragionamento dei grandi modelli linguistici (LLM). A differenza dei dataset precedenti, che forniscono didascalie di parti sincronizzate con segmenti temporali fissi o si basano esclusivamente su etichette globali di sequenza, il nostro dataset cattura movimenti asincroni e semanticamente distinti delle parti a una risoluzione temporale fine. Basandoci su questo dataset, introduciamo un framework di generazione del movimento basato su diffusione e consapevole delle parti, denominato FrankenMotion, in cui ogni parte del corpo è guidata dal proprio prompt testuale temporalmente strutturato. Questo è, a nostra conoscenza, il primo lavoro a fornire annotazioni atomiche, temporalmente consapevoli a livello di parte e a disporre di un modello che consente la generazione di movimento con controllo sia spaziale (parte del corpo) che temporale (azione atomica). Gli esperimenti dimostrano che FrankenMotion supera tutti i precedenti modelli di base adattati e riaddestrati per la nostra impostazione, e il nostro modello può comporre movimenti non visti durante l'addestramento. Il nostro codice e dataset saranno pubblicamente disponibili alla pubblicazione.

Sentinella dell'Entropia: Monitoraggio Continuo dell'Accuratezza degli LLM tramite le Tracce di Entropia di Decodifica nell'Area STEM
Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

Jan 13

ByPedro Memoli Buffa, Luciano Del Corro

Il deployment di LLM solleva due sfide interconnesse: (1) monitoraggio - stimare dove un modello underperforma al variare del traffico e dei domini - e (2) miglioramento - prioritizzare l'acquisizione di dati per colmare i maggiori gap prestazionali. Testiamo se un segnale in fase di inference possa stimare l'accuratezza a livello di slice sotto domain shift. Per ogni risposta, calcoliamo un profilo di entropia dell'output dalle probabilità del token successivo nell'ultimo layer (dai top-k logprobs) e lo sintetizziamo con undici statistiche. Un classificatore leggero predice la correttezza dell'istanza, e la media delle probabilità predette fornisce una stima dell'accuratezza a livello di dominio. Valutiamo su dieci benchmark di ragionamento STEM con composizioni exhaustive train/test (k in {1,2,3,4}; tutte le combinazioni "10 choose k"), su nove LLM da sei famiglie (3B-20B). Le stime spesso tracciano l'accuratezza benchmark held-out, e diversi modelli mostrano un ordinamento pressoché monotono dei domini. I profili di entropia dell'output si rivelano quindi un segnale accessibile per il monitoraggio scalabile e per indirizzare l'acquisizione di dati.

ProFit: Sfruttamento di Segnali ad Alto Valore nell'SFT Tramite Selezione Guidata di Token Probabilistici
ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection

Jan 14

ByTao Liu, Taiqiang Wu, Runming Yang, Shaoning Sun, Junjie Wang, Yujiu Yang

L'addestramento supervisionato con messa a punto (SFT) è una strategia fondamentale post-addestramento per allineare i Grandi Modelli Linguistici (LLM) con l'intento umano. Tuttavia, l'SFT tradizionale ignora spesso la natura uno-a-molti del linguaggio forzando l'allineamento con una singola risposta di riferimento, portando il modello a un sovradattamento su espressioni non essenziali. Sebbene la nostra analisi empirica suggerisca che l'introduzione di multiple risposte di riferimento possa mitigare questo problema, i costi proibitivi dei dati e computativi richiedono un cambio strategico: dare priorità alla mitigazione del sovradattamento da singolo riferimento rispetto alla costosa ricerca della diversità delle risposte. Per raggiungere questo obiettivo, riveliamo la connessione intrinseca tra probabilità del token e importanza semantica: i token ad alta probabilità veicolano la struttura logica di base, mentre i token a bassa probabilità sono per lo più espressioni sostituibili. Basandoci su questa intuizione, proponiamo ProFit, che maschera selettivamente i token a bassa probabilità per prevenire il sovradattamento superficiale. Esperimenti estensivi confermano che ProFit supera costantemente i benchmark dell'SFT tradizionale in test di ragionamento generale e matematici.

I modelli di ragionamento generano società del pensiero.
Reasoning Models Generate Societies of Thought

Jan 15

ByJunsol Kim, Shiyang Lai, Nino Scherrer, Blaise Agüera y Arcas, James Evans

I grandi modelli linguistici hanno conseguito capacità notevoli in diversi domini, eppure i meccanismi alla base del ragionamento sofisticato rimangono elusivi. Modelli di ragionamento recenti superano modelli addestrati su istruzioni di dimensioni paragonabili in compiti cognitivi complessi, attribuzione che viene data al calcolo esteso tramite catene di pensiero più lunghe. Qui dimostriamo che il ragionamento potenziato emerge non solo dal calcolo esteso, ma dalla simulazione di interazioni simil-multiagente – una società del pensiero – che permette la diversificazione e il dibattito tra prospettive cognitive interne caratterizzate da tratti di personalità distinti e competenze di dominio. Attraverso analisi quantitative e metodi di interpretabilità meccanicistica applicati alle tracce di ragionamento, scopriamo che modelli come DeepSeek-R1 e QwQ-32B mostrano una diversità di prospettive di gran lunga maggiore rispetto ai modelli addestrati su istruzioni, attivando un conflitto più ampio tra caratteristiche eterogenee legate alla personalità e alle competenze durante il ragionamento. Questa struttura multiagente si manifesta in comportamenti conversazionali, inclusi domande-risposte, cambi di prospettiva e la riconciliazione di visioni contrastanti, e in ruoli socio-emotivi che caratterizzano scambi conversazionali serrati, contribuendo insieme al vantaggio in accuratezza nei compiti di ragionamento. Esperimenti controllati di apprendimento per rinforzo rivelano che i modelli base aumentano i comportamenti conversazionali quando vengono premiati unicamente per l'accuratezza del ragionamento, e l'addestramento fine di modelli con impalcature conversazionali accelera il miglioramento del ragionamento rispetto ai modelli base. Questi risultati indicano che l'organizzazione sociale del pensiero permette un'esplorazione efficace degli spazi delle soluzioni. Suggeriamo che i modelli di ragionamento stabiliscano un parallelo computazionale con l'intelligenza collettiva nei gruppi umani, dove la diversità consente una risoluzione dei problemi superiore quando strutturata sistematicamente, il che suggerisce nuove opportunità per l'organizzazione di agenti per sfruttare la saggezza della folla.

PhysRVG: Apprendimento per Rinforzo Unificato Consapevole della Fisica per Modelli Generativi Video
PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models

Jan 16

ByQiyuan Zhang, Biao Gong, Shuai Tan, Zheng Zhang, Yujun Shen, Xing Zhu, Yuyuan Li, Kelu Yao, Chunhua Shen, Changqing Zou

I principi fisici sono fondamentali per una simulazione visiva realistica, ma rimangono una significativa lacuna nella generazione di video basata su trasformatori. Questo divario evidenzia una limitazione critica nel rendering del moto dei corpi rigidi, un principio cardine della meccanica classica. Sebbene la computer grafica e i simulatori basati sulla fisica possano modellare facilmente tali collisioni utilizzando le formule di Newton, i moderni paradigmi di pre-addestramento e messa a punto scartano il concetto di rigidità degli oggetti durante la denoising globale a livello di pixel. Anche vincoli matematici perfettamente corretti vengono trattati come soluzioni subottimali (ovvero condizioni) durante l'ottimizzazione del modello post-addestramento, limitando fondamentalmente il realismo fisico dei video generati. Motivati da queste considerazioni, introduciamo per la prima volta un paradigma di apprendimento per rinforzo consapevole della fisica per modelli di generazione video, che applica direttamente le regole delle collisioni fisiche in spazi ad alta dimensionalità, garantendo che la conoscenza fisica sia rigorosamente applicata piuttosto che trattata come condizione. Successivamente, estendiamo questo paradigma a un framework unificato, denominato Ciclo di Imitazione-Scoperta (MDcycle), che consente un'ampia messa a punto preservando pienamente la capacità del modello di sfruttare feedback basati sulla fisica. Per convalidare il nostro approccio, costruiamo un nuovo benchmark, PhysRVGBench, ed eseguiamo ampi esperimenti qualitativi e quantitativi per valutarne approfonditamente l'efficacia.

Il Linguaggio del Pensiero Plasma la Diversità dell'Output nei Grandi Modelli Linguistici
Language of Thought Shapes Output Diversity in Large Language Models

Jan 16

ByShaoyang Xu, Wenxuan Zhang

La diversità dell'output è cruciale per i Modelli Linguistici di Grande Dimensioni poiché sostiene il pluralismo e la creatività. In questo lavoro, dimostriamo che controllare la lingua utilizzata durante il pensiero del modello – il linguaggio del pensiero – rappresenta una fonte nuova e strutturale di diversità dell'output. Il nostro studio preliminare mostra che diversi linguaggi del pensiero occupano regioni distinte nello spazio di pensiero di un modello. Sulla base di questa osservazione, studiamo due strategie di campionamento ripetuto in contesti di pensiero multilingue – Campionamento a Lingua Singola e Campionamento a Lingue Miste – e conduciamo una valutazione della diversità sugli output controllati per essere in inglese, indipendentemente dal linguaggio del pensiero utilizzato. Attraverso esperimenti estesi, dimostriamo che cambiare il linguaggio del pensiero dall'inglese a lingue non inglesi aumenta costantemente la diversità dell'output, con una chiara e coerente correlazione positiva tale per cui le lingue più lontane dall'inglese nello spazio del pensiero producono guadagni maggiori. Mostriamo inoltre che aggregare campioni provenienti da molteplici linguaggi del pensiero apporta ulteriori miglioramenti attraverso effetti compositivi, e che aumentare il campionamento con eterogeneità linguistica espande il limite superiore della diversità del modello. Infine, dimostriamo che questi risultati si traducono in benefici pratici negli scenari di allineamento pluralistico, portando a una copertura più ampia della conoscenza culturale e degli orientamenti valoriali negli output dei LLM. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/iNLP-Lab/Multilingual-LoT-Diversity.

Sviluppo di Sonde Pronte per la Produzione per Gemini
Building Production-Ready Probes For Gemini

Jan 16

ByJános Kramár, Joshua Engels, Zheng Wang, Bilal Chughtai, Rohin Shah, Neel Nanda, Arthur Conmy

Le capacità all'avanguardia dei modelli linguistici stanno migliorando rapidamente. Di conseguenza, sono necessarie mitigazioni più robuste contro l'uso improprio di sistemi sempre più potenti da parte di attori malevoli. Ricerche precedenti hanno dimostrato che le sonde di attivazione possono essere una tecnica promettente per mitigare l'uso improprio, ma identifichiamo una sfida cruciale rimanente: le sonde non riescono a generalizzare in presenza di importanti cambiamenti distributivi tipici degli ambienti produttivi. In particolare, scopriamo che il passaggio da input a contesto breve a input a contesto lungo è difficile per le architetture di sonde esistenti. Proponiamo diverse nuove architetture di sonde che gestiscono questo cambiamento distributivo verso contesti lunghi. Valutiamo queste sonde nel dominio cyber-offensivo, testandone la robustezza contro vari cambiamenti rilevanti per la produzione, incluse conversazioni a più turni, jailbreak statici e red teaming adattivo. I nostri risultati dimostrano che, sebbene l'approccio multimax affronti la lunghezza del contesto, per un'ampia generalizzazione è necessaria una combinazione tra la scelta architetturale e l'addestramento su distribuzioni diversificate. Inoltre, mostriamo che l'abbinamento di sonde con classificatori basati su prompt raggiunge un'accuratezza ottimale a basso costo, grazie all'efficienza computazionale delle sonde. Questi risultati hanno guidato il dispiegamento con successo di sonde per la mitigazione dell'uso improprio nelle istanze di Gemini, il modello linguistico all'avanguardia di Google, esposte agli utenti. Infine, otteniamo primi risultati positivi utilizzando AlphaEvolve per automatizzare i miglioramenti sia nella ricerca architetturale delle sonde che nel red teaming adattivo, dimostrando che l'automazione di alcune ricerche sulla sicurezza dell'IA è già possibile.

PersonalAlign: Allineamento Gerarchico Implicito degli Intent per Agenti GUI Personalizzati con Registri Ucentrici a Lungo Termine
PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records

Jan 14

ByYibo Lyu, Gongwei Chen, Rui Shao, Weili Guan, Liqiang Nie

Sebbene gli agenti GUI abbiano dimostrato prestazioni solide con istruzioni esplicite e di completamento, il dispiegamento nel mondo reale richiede l'allineamento con le intenzioni implicite più complesse degli utenti. In questo lavoro, proponiamo l'Allineamento Gerarchico delle Intenzioni Implicite per Agenti GUI Personalizzati (PersonalAlign), un nuovo compito per agenti che richiede di sfruttare i record utente a lungo termine come contesto persistente per risolvere le preferenze omesse in istruzioni vaghe e anticipare routine latenti in base allo stato dell'utente per un'assistenza proattiva. Per facilitare questo studio, introduciamo AndroidIntent, un benchmark progettato per valutare la capacità degli agenti di risolvere istruzioni vaghe e fornire suggerimenti proattivi ragionando su record utente a lungo termine. Abbiamo annotato 775 preferenze specifiche per utente e 215 routine da 20.000 record a lungo termine di diversi utenti per la valutazione. Inoltre, introduciamo l'agente a Memoria delle Intenzioni Gerarchica (HIM-Agent), che mantiene una memoria personale in aggiornamento continuo e organizza gerarchicamente preferenze e routine utente per la personalizzazione. Infine, valutiamo una serie di agenti GUI su AndroidIntent, inclusi GPT-5, Qwen3-VL e UI-TARS; i risultati mostrano che HIM-Agent migliora significativamente le prestazioni sia esecutive che proattive rispettivamente del 15,7% e del 7,3%.

Più Immagini, Più Problemi? Un'Analisi Controllata delle Modalità di Fallimento dei VLM
More Images, More Problems? A Controlled Analysis of VLM Failure Modes

Jan 12

ByAnurag Das, Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Bernt Schiele, Georgios Tzimiropoulos, Brais Martinez

I Large Vision Language Models (LVLM) hanno dimostrato capacità notevoli, ma la loro competenza nella comprensione e nel ragionamento su immagini multiple rimane in gran parte inesplorata. Sebbene i benchmark esistenti abbiano avviato la valutazione di modelli multi-immagine, manca ancora un'analisi completa delle loro principali carenze e delle relative cause. In questo lavoro, introduciamo MIMIC (Multi-Image Model Insights and Challenges), un nuovo benchmark progettato per valutare rigorosamente le capacità multi-immagine degli LVLM. Utilizzando MIMIC, conduciamo una serie di esperimenti diagnostici che rivelano problemi pervasivi: gli LVLM spesso non riescono ad aggregare informazioni tra le immagini e faticano a tracciare o prestare attenzione a più concetti simultaneamente. Per affrontare queste carenze, proponiamo due nuovi rimedi complementari. Sul fronte dei dati, presentiamo una strategia procedurale di generazione dei dati che combina annotazioni di singole immagini in esempi di addestramento multi-immagine ricchi e mirati. Sul fronte dell'ottimizzazione, analizziamo i pattern di attenzione per strato e deriviamo uno schema di attention-masking specifico per input multi-immagine. Gli esperimenti hanno migliorato sostanzialmente l'aggregazione cross-image, migliorando anche le prestazioni sui benchmark multi-immagine esistenti e superando lo stato dell'arte precedente in vari compiti. Dati e codice saranno resi disponibili all'indirizzo https://github.com/anurag-198/MIMIC.

AstroReason-Bench: Valutazione della Pianificazione Agente Unificata su Problemi Eterogenei di Pianificazione Spaziale
AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems

Jan 16

ByWeiyi Wang, Xinchi Chen, Jingjing Gong, Xuanjing Huang, Xipeng Qiu

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) agentici li hanno posizionati come pianificatori generalisti in grado di ragionare e agire su compiti diversi. Tuttavia, gli attuali benchmark per agenti si concentrano prevalentemente su ambienti simbolici o debolmente ancorati alla realtà, lasciando inesplorate le loro prestazioni in domini del mondo reale vincolati dalla fisica. Introduciamo AstroReason-Bench, un benchmark completo per valutare la pianificazione agentica nei Problemi di Pianificazione Spaziale (SPP), una famiglia di problemi ad alto rischio con obiettivi eterogenei, vincoli fisici stringenti e processi decisionali a lungo termine. AstroReason-Bench integra molteplici regimi di schedulazione, inclusi le comunicazioni con le stazioni di terra e l'osservazione agile della Terra, e fornisce un protocollo di interazione unificato orientato agli agenti. Valutando una serie di sistemi LLM agentici all'avanguardia, open-source e proprietari, riscontriamo che gli agenti attuali hanno prestazioni sostanzialmente inferiori rispetto a risolutori specializzati, evidenziando limitazioni chiave della pianificazione generalista sotto vincoli realistici. AstroReason-Bench offre un banco di prova stimolante e diagnostico per la futura ricerca sugli agenti.

PhyRPR: Generazione di Video Vincolati dalla Fisica Senza Addestramento
PhyRPR: Training-Free Physics-Constrained Video Generation

Jan 14

ByYibo Zhao, Hengjia Li, Xiaofei He, Boxi Wu

I recenti modelli di generazione video basati su diffusion sintetizzano video visivamente plausibili, ma spesso faticano a soddisfare i vincoli fisici. Una ragione fondamentale è che la maggior parte degli approcci esistenti rimane a stadio singolo: essi intrecciano la comprensione fisica di alto livello con la sintesi visiva di basso livello, rendendo difficile generare contenuti che richiedono un ragionamento fisico esplicito. Per superare questa limitazione, proponiamo una pipeline a tre stadi senza fase di addestramento, PhyRPR: PhyReason–PhyPlan–PhyRefine, che disaccoppia la comprensione fisica dalla sintesi visiva. Nello specifico, PhyReason utilizza un modello multimodale di grandi dimensioni per il ragionamento sullo stato fisico e un generatore di immagini per la sintesi dei fotogrammi chiave; PhyPlan sintetizza deterministicamente un'impalcatura di movimento grossolano e controllabile; e PhyRefine inietta questa impalcatura nel campionamento diffusion attraverso una strategia di fusione latente per affinare l'aspetto preservando le dinamiche pianificate. Questo design a stadi consente un controllo fisico esplicito durante la generazione. Esperimenti estensivi con vincoli fisici dimostrano che il nostro metodo migliora costantemente la plausibilità fisica e la controllabilità del movimento.

Cosa conta nella cura dei dati per il ragionamento multimodale? Approfondimenti dalla sfida DCVLR
What Matters in Data Curation for Multimodal Reasoning? Insights from the DCVLR Challenge

Jan 16

ByYosub Shin, Michael Buriek, Boris Sobolev, Pavel Bushuyeu, Vikas Kumar, Haoyang Xu, Samuel Watson, Igor Molybog

Studiamo la cura dei dati per il ragionamento multimodale attraverso la challenge NeurIPS 2025 "Data Curation for Vision-Language Reasoning" (DCVLR), che isola la selezione del dataset fissando il modello e il protocollo di addestramento. Utilizzando un dataset compatto e curato derivato principalmente da Walton Multimodal Cold Start, la nostra proposta si è classificata al primo posto nella competizione. Tramite ablazioni post-competizione, dimostriamo che la selezione degli esempi basata sulla difficoltà su un dataset di base allineato è il fattore predominante per i guadagni prestazionali. L'aumento delle dimensioni del dataset non migliora in modo affidabile l'accuratezza media con la ricetta di addestramento fissa, ma riduce principalmente la varianza tra le esecuzioni, mentre le euristiche comunemente utilizzate per la diversità e l'aumento sintetico dei dati non forniscono benefici aggiuntivi e spesso degradano le prestazioni. Questi risultati caratterizzano la DCVLR come una valutazione in regime di saturazione e sottolineano il ruolo centrale dell'allineamento e della difficoltà nel ragionamento multimodale efficiente dal punto di vista dei dati.

AgencyBench: Valutazione delle Frontiere degli Agenti Autonomi in Contesti Reali da 1 Milione di Token
AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

Jan 16

ByKeyu Li, Junhao Shi, Yang Xiao, Mohan Jiang, Jie Sun, Yunze Wu, Shijie Xia, Xiaojie Cai, Tianze Xu, Weiye Si, Wenjie Li, Dequan Wang, Pengfei Liu