HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

18 papers found

Rapporto Tecnico LongCat-Flash-Thinking-2601
LongCat-Flash-Thinking-2601 Technical Report

Jan 23

ByMeituan LongCat Team, Anchun Gui, Bei Li, Bingyang Tao, Bole Zhou, Borun Chen, Chao Zhang, Chao Zhang, Chen Gao, Chen Zhang, Chengcheng Han, Chenhui Yang, Chuyu Zhang, Cong Chen, Cunguang Wang, Daoru Pan, Defei Bu, Dengchang Zhao, Di Xiu, Dishan Liu, Dongyu Ru, Dunwei Tu, Fan Wu, Fengcheng Yuan, Fengcun Li, Gang Xu, Guanyu Wu, Guoyuan Lin, Haibin Wang, Hansi Yang, Hao Yang, Haonan Yan, Haoxiang Ma, Haoxing Wen, Hongyan Hao, Hongyin Tang, Hongyu Zang, Hongzhi Ni, Hui Su, Jiacheng Zhang, Jiahong Zhou, Jiahuan Li, Jiaming Wang, Jian Yang, Jianfei Zhang, Jianhao Xu, Jianing Wang, Jiapeng Zhu, Jiaqi Sun, Jiarong Shi, Jiarui Zhao, Jingang Wang, Jinluan Yang, Jinrui Ding, Jinwei Xiao, Jiyuan He, Juncan Xu, Kefeng Zhang, Keheng Wang, Li Wei, Lianhui Ma, Lin Qiu, Lingbing Kong, Lingchuan Liu, Linsen Guo, Mengshen Zhu, Mengxia Shen, Mingyang Zhu, Peiguang Li, Peng Pei, Pengcheng Jia, Pengtao Zhang, Peng Zhao, Qi Gu, Qiong Huang, Qiyuan Duan, Quanchi Weng, Rongxiang Weng, Rongzhi Zhang, Rumei Li, Shanglin Lei, Shengnan An, Shijun Dai, Shuaikang Liu, Shuang Zhou, Shuo Wang, Songyuan Zhao, Tao Liang, Tianhao Hu, Tianze Chen, Wei Liu, Wei Shi, Wei Wang, Weifeng Tang, Wenjie Shi, Wenlong Zhu, Wentao Chen, Wentao Shi, Xi Su, Xiangcheng Liu, Xiandi Ma, Xiangyu Xi, Xiangyuan Liu, Xiangzhou Huang, Xiao Liu, Xiaodong Cai, Xiaolong Chen, Xiaowei Shi, Xiaoyu Li, Xin Chen, Xingchen Liu, Xuan Huang, Xuezhi Cao, Xunliang Cai, Yan Chen, Yang Bai, Yang Liu, Yang Yang, Yang Zheng, Yaoming Wang, Yaoming Zhu, Yaqi Huo, Yanyu Chen, Yaorui Shi, Yerui Sun, Yi Zhang, Yihao Chen, Yi-Kai Zhang, Yifan Lu, Yifan Zhao, Yitao Zhai, Yongjing Yin, Yongwei Zhou, Youshao Xiao, Yuchuan Dai, Yuchen Xie, Yuchen Yu, Yufei Zhang, Yuhuai Wei, Yulei Qian, Yunfan Liang, Yunke Zhao, Yuwei Jiang, Yuxin Bian, Yuxin Chen, Yuxin Liu, Yue Xu, Yueqing Sun, Zeyang Yu, Zhao Yang, Zhengsheng Huang, Zhengyu Chen, Zhijian Liu, Zhikang Xia, Zhimin Lin, Zhiyuan Yao, Zhuofan Chen, Zhuowen Han, Zijian Zhang, Ziran Li, Ziwen Wang, Ziyuan Zhuang

175

Presentiamo LongCat-Flash-Thinking-2601, un modello di ragionamento open-source Mixture-of-Experts (MoE) da 560 miliardi di parametri, dotato di capacità di ragionamento agentico superiore. LongCat-Flash-Thinking-2601 raggiunge prestazioni all'avanguardia tra i modelli open-source su un'ampia gamma di benchmark agentici, inclusi la ricerca agentica, l'uso di strumenti agentici e il ragionamento con integrazione di strumenti. Oltre alle prestazioni nei benchmark, il modello dimostra una forte generalizzazione per interazioni complesse con strumenti e un comportamento robusto in ambienti real-world rumorosi. La sua capacità avanzata deriva da un framework di training unificato che combina un addestramento parallelo per dominio degli esperti con una successiva fusione, unito a una co-progettazione end-to-end della costruzione dei dati, degli ambienti, degli algoritmi e dell'infrastruttura, che spazia dal pre-training al post-training. In particolare, la forte capacità di generalizzazione del modello nell'uso complesso di strumenti è guidata dalla nostra esplorazione approfondita dello scaling degli ambienti e della costruzione di task basata su principi. Per ottimizzare le interazioni agentiche multi-turno e la generazione con distribuzione lunga e asimmetrica, e per consentire un addestramento stabile su oltre 10.000 ambienti che coprono più di 20 domini, estendiamo sistematicamente il nostro framework di reinforcement learning asincrono, DORA, per un addestramento su larga scala multi-ambiente stabile ed efficiente. Inoltre, riconoscendo che i compiti del mondo reale sono intrinsecamente rumorosi, conduciamo un'analisi sistematica e una scomposizione dei pattern di rumore real-world, e progettiamo procedure di addestramento mirate per incorporare esplicitamente tali imperfezioni nel processo di training, ottenendo una robustezza migliorata per le applicazioni reali. Per migliorare ulteriormente le prestazioni su compiti di ragionamento complessi, introduciamo una modalità Heavy Thinking che consente uno scaling efficace al momento del test espandendo congiuntamente la profondità e l'ampiezza del ragionamento attraverso un pensiero parallelo intensivo.

SWE-Pruner: Potatura Contestuale Auto-Adattiva per Agenti di Programmazione
SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Jan 23

ByYuhang Wang, Yuling Shi, Mo Yang, Rongrui Zhang, Shilin He, Heng Lian, Yuting Chen, Siyu Ye, Kai Cai, Xiaodong Gu

Gli agenti LLM hanno dimostrato notevoli capacità nello sviluppo software, ma le loro prestazioni sono ostacolate da contesti di interazione lunghi, che comportano elevati costi API e latenza. Sebbene siano emersi vari approcci di compressione del contesto come LongLLMLingua per affrontare questa sfida, questi si basano tipicamente su metriche fisse come il PPL, ignorando la natura specifica del compito nella comprensione del codice. Di conseguenza, spesso alterano la struttura sintattica e logica e non riescono a conservare i dettagli implementativi critici. In questo articolo, proponiamo SWE-Pruner, un framework di potatura del contesto auto-adattivo progettato specificamente per agenti di programmazione. Traendo ispirazione dal modo in cui i programmatori umani "sfogliano selettivamente" il codice sorgente durante lo sviluppo e il debugging, SWE-Pruner esegue una potatura adattiva consapevole del compito per contesti lunghi. Dato il compito corrente, l'agente formula un obiettivo esplicito (ad esempio, "concentrarsi sulla gestione degli errori") come suggerimento per guidare i target di potatura. Uno skimmer neurale leggero (0,6 miliardi di parametri) viene addestrato per selezionare dinamicamente le righe rilevanti dal contesto circostante in base all'obiettivo. Le valutazioni su quattro benchmark e modelli multipli convalidano l'efficacia di SWE-Pruner in vari scenari, raggiungendo una riduzione del 23-54% dei token su compiti di agente come SWE-Bench Verified e fino a 14,84x di compressione su compiti a turno singolo come LongCodeQA con un impatto minimo sulle prestazioni.

TwinBrainVLA: Sfruttare il Potenziale dei VLM Generalisti per Compiti Embodied tramite Miscela Asimmetrica di Trasformatori
TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

Jan 20

ByBin Yu, Shijie Lian, Xiaopeng Lin, Yuliang Wei, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Xinming Wang, Bailing Wang, Cong Huang, Kai Chen

I modelli standard Vision-Language-Action (VLA) tipicamente mettono a punto in modo fine (fine-tune) un backbone monolitico di un modello visione-linguaggio (VLM) esplicitamente per il controllo robotico. Tuttavia, questo approccio crea una tensione critica tra il mantenimento di una comprensione semantica generale di alto livello e l'apprendimento di abilità sensorimotorie di basso livello e granulari, portando spesso a un "oblio catastrofico" delle capacità open-world del modello. Per risolvere questo conflitto, introduciamo TwinBrainVLA, un'architettura innovativa che coordina un VLM generalista, che conserva la comprensione semantica universale, e un VLM specialista, dedicato alla propriocezione embodied, per il controllo robotico congiunto. TwinBrainVLA sinergizza un "Cervello Sinistro" congelato (frozen), che mantiene un solido ragionamento visivo generale, con un "Cervello Destro" addestrabile, specializzato nella percezione embodied, attraverso un nuovo meccanismo di Asymmetric Mixture-of-Transformers (AsyMoT). Questo design permette al Cervello Destro di interrogare dinamicamente la conoscenza semantica dal Cervello Sinistro congelato e di fondere questa conoscenza con gli stati propriocettivi, fornendo un condizionamento ricco per un Action Expert basato sul Flow Matching per generare controlli continui e precisi. Esperimenti estensivi sui benchmark SimplerEnv e RoboCasa dimostrano che TwinBrainVLA raggiunge prestazioni di manipolazione superiori rispetto ai baseline state-of-the-art, preservando esplicitamente le capacità di comprensione visiva completa del VLM pre-addestrato, offrendo una direzione promettente per la costruzione di robot a scopo generale che raggiungono simultaneamente un'elevata comprensione semantica e una destrezza fisica di basso livello.

VisGym: Ambienti Diversificati, Personalizzabili e Scalabili per Agenti Multimodali
VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Jan 23

ByZirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez

I moderni Vision-Language Models (VLM) rimangono scarsamente caratterizzati nelle interazioni visive multi-step, in particolare per quanto riguarda la loro capacità di integrare percezione, memoria e azione su orizzonti temporali lunghi. Introduciamo VisGym, una palestra di 17 ambienti per valutare e addestrare i VLM. La suite spazia da puzzle simbolici, comprensione di immagini reali, navigazione e manipolazione, e fornisce controlli flessibili su difficoltà, rappresentazione dell'input, orizzonte di pianificazione e feedback. Forniamo anche risolutori multi-step che generano dimostrazioni strutturate, abilitando il fine-tuning supervisionato. Le nostre valutazioni mostrano che tutti i modelli all'avanguardia hanno difficoltà in contesti interattivi, raggiungendo bassi tassi di successo sia nelle configurazioni facili (46,6%) che in quelle difficili (26,0%). I nostri esperimenti rivelano limitazioni notevoli: i modelli faticano a sfruttare efficacemente contesti lunghi, ottenendo performance peggiori con una cronologia illimitata rispetto a finestre troncate. Inoltre, scopriamo che diversi compiti simbolici basati su testo diventano sostanzialmente più difficili una volta resi visivamente. Tuttavia, l'osservazione esplicita degli obiettivi, il feedback testuale e le dimostrazioni esplorative in ambienti parzialmente osservabili o a dinamiche sconosciute per il fine-tuning supervisionato producono guadagni consistenti, evidenziando modalità di fallimento concrete e percorsi per migliorare il processo decisionale visivo multi-step. Codice, dati e modelli sono disponibili al seguente indirizzo: https://visgym.github.io/.

Memory-V2V: Potenziamento dei Modelli di Diffusione Video-to-Video con Memoria
Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Jan 22

ByDohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong

I recenti modelli diffusivi video-to-video fondamentali hanno ottenuto risultati impressionanti nell'editing di video forniti dall'utente, modificando l'aspetto, il movimento o lo spostamento della telecamera. Tuttavia, l'editing video nel mondo reale è spesso un processo iterativo, in cui gli utenti affinano i risultati attraverso più round di interazione. In questo contesto multi-turn, gli editor video attuali faticano a mantenere la cross-consistenza tra le modifiche sequenziali. In questo lavoro, affrontiamo per la prima volta il problema della cross-consistenza nell'editing video multi-turn e introduciamo Memory-V2V, un framework semplice ma efficace che potenzia i modelli video-to-video esistenti con una memoria esplicita. Dato una cache esterna di video precedentemente modificati, Memory-V2V impiega strategie di retrieval accurato e tokenizzazione dinamica per condizionare l'attuale fase di editing sui risultati precedenti. Per mitigare ulteriormente la ridondanza e il sovraccarico computazionale, proponiamo un compressore di token apprendibile all'interno del backbone DiT che comprime i token di condizionamento ridondanti preservando al contempo gli indizi visivi essenziali, ottenendo un'accelerazione complessiva del 30%. Validiamo Memory-V2V su compiti impegnativi, inclusi la sintesi di nuove viste video e l'editing di video lunghi condizionato da testo. Esperimenti estensivi dimostrano che Memory-V2V produce video significativamente più cross-consistenti con un sovraccarico computazionale minimo, mantenendo o addirittura migliorando le prestazioni specifiche del compito rispetto ai baseline state-of-the-art. Pagina del progetto: https://dohunlee1.github.io/MemoryV2V

Jet-RL: Abilitazione dell'Apprendimento per Rinforzo FP8 On-Policy con un Flusso di Precisione Unificato per Addestramento e Rollout
Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow

Jan 20

ByHaocheng Xi, Charlie Ruan, Peiyuan Liao, Yujun Lin, Han Cai, Yilong Zhao, Shuo Yang, Kurt Keutzer, Song Han, Ligeng Zhu

L'apprendimento per rinforzo (RL) è fondamentale per potenziare le capacità di ragionamento complesso dei grandi modelli linguistici (LLM). Tuttavia, le pipeline di addestramento RL esistenti sono computazionalmente inefficienti e ad alto consumo di risorse, con la fase di rollout che rappresenta oltre il 70% del tempo totale di addestramento. L'addestramento RL quantizzato, in particolare l'utilizzo della precisione FP8, offre un approccio promettente per mitigare questo collo di bottiglia. Una strategia comunemente adottata applica la precisione FP8 durante il rollout mantenendo la precisione BF16 per l'addestramento. In questo lavoro, presentiamo il primo studio completo sull'addestramento RL in FP8 e dimostriamo che la strategia ampiamente utilizzata di addestramento in BF16 + rollout in FP8 soffre di una grave instabilità di addestramento e di un collasso catastrofico dell'accuratezza in scenari con rollout a lungo orizzonte e task complessi. La nostra analisi mostra che questi fallimenti originano dalla natura *off-policy* dell'approccio, che introduce una sostanziale discrepanza numerica tra addestramento e inferenza. Sulla base di queste osservazioni, proponiamo Jet-RL, un framework di addestramento RL in FP8 che abilita un'ottimizzazione RL robusta e stabile. L'idea chiave è adottare un flusso di precisione FP8 unificato sia per l'addestramento che per il rollout, minimizzando così le discrepanze numeriche ed eliminando la necessità di una inefficiente calibrazione inter-step. Esperimenti estensivi convalidano l'efficacia di Jet-RL: il nostro metodo raggiunge un incremento di velocità fino al 33% nella fase di rollout, fino al 41% nella fase di addestramento e un incremento di velocità end-to-end del 16% rispetto all'addestramento BF16, mantenendo al contempo una convergenza stabile in tutti gli scenari e subendo una degradazione dell'accuratezza trascurabile.

Scalabilità Temporale della Verifica nell'Inferenza: Agenti di Ricerca Profonda Auto-Evolventi tramite Verifica Guidata da Rubrica in Fase di Test
Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Jan 22

ByYuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu

I recenti progressi negli Agenti di Ricerca Profonda (DRA) stanno trasformando la scoperta automatizzata della conoscenza e la risoluzione dei problemi. Sebbene la maggior parte degli sforzi esistenti si concentri sul potenziamento delle capacità decisionali (*policy*) tramite post-addestramento, noi proponiamo un paradigma alternativo: l'auto-evoluzione delle capacità dell'agente attraverso la verifica iterativa degli output del modello decisionale, guidata da rubriche meticolosamente elaborate. Questo approccio dà origine al *scaling* al tempo di inferenza della verifica, in cui un agente si auto-migliora valutando le risposte generate per produrre feedback e perfezionamenti iterativi. </think>Deriviamo le rubriche basandoci su una Tassonomia degli Errori dei DRA costruita automaticamente, che classifica sistematicamente i fallimenti degli agenti in cinque categorie principali e tredici sottocategorie. </think>Presentiamo DeepVerifier, un verificatore di ricompensa basato su outcome e rubriche che sfrutta l'asimmetria della verifica e supera i baseline di giudizio con agente standard (*vanilla agent-as-judge*) e giudizio LLM del 12%-48% nel punteggio F1 di meta-valutazione. </think>Per abilitare un'auto-evoluzione pratica, DeepVerifier si integra come modulo *plug-and-play* durante l'inferenza al tempo di test. Il verificatore produce un feedback dettagliato basato sulle rubriche, che viene reimmesso nell'agente per un *bootstrapping* iterativo, affinando le risposte senza addestramento aggiuntivo. Questo *scaling* al tempo di test fornisce guadagni di accuratezza dall'8% all'11% su sottoinsiemi complessi di GAIA e XBench-DeepResearch quando alimentato da LLM proprietari capaci. </think>Infine, per supportare l'avanzamento dell'open-source, rilasciamo DeepVerifier-4K, un dataset curato di *fine-tuning* supervisionato di 4.646 step di agente di alta qualità focalizzati sulla verifica dei DRA. Questi esempi enfatizzano la riflessione e l'auto-critica, consentendo ai modelli open di sviluppare solide capacità di verifica.

Terminali Infiniti: Scalabilità degli Ambienti di RL per Agenti Terminali
Endless Terminals: Scaling RL Environments for Terminal Agents

Jan 23

ByKanishk Gandhi, Shivam Garg, Noah D. Goodman, Dimitris Papailiopoulos

Gli ambienti rappresentano il collo di bottiglia per gli agenti capaci di auto-miglioramento. I benchmark per terminale attuali sono stati costruiti per la valutazione, non per l'addestramento; l'apprendimento per rinforzo richiede una pipeline scalabile, non solo un dataset. Introduciamo Endless Terminals, una pipeline completamente autonoma che genera proceduralmente compiti di utilizzo del terminale senza annotazione umana. La pipeline si articola in quattro fasi: generazione di descrizioni di compiti diversificate, creazione e convalida di ambienti containerizzati, produzione di test di completamento e filtraggio per la risolvibilità. Da questa pipeline otteniamo 3255 compiti che spaziano dalle operazioni sui file alla gestione dei log, all'elaborazione dei dati, allo scripting e alle operazioni sui database. Addestriamo gli agenti utilizzando PPO standard con ricompense binarie a livello di episodio e un ciclo di interazione minimale: niente retrieval, coordinamento multi-agente o strumenti specializzati. Nonostante questa semplicità, i modelli addestrati su Endless Terminals mostrano miglioramenti sostanziali: sul nostro set di sviluppo tenuto da parte, Llama-3.2-3B passa dal 4.0% al 18.2%, Qwen2.5-7B dal 10.7% al 53.3% e Qwen3-8B-openthinker-sft dal 42.6% al 59.0%. Questi miglioramenti si trasferiscono a benchmark curati da umani: i modelli addestrati su Endless Terminals mostrano guadagni sostanziali su benchmark tenuti da parte e curati da umani: su TerminalBench 2.0, Llama-3.2-3B passa dallo 0.0% al 2.2%, Qwen2.5-7B dal 2.2% al 3.4% e Qwen3-8B-openthinker-sft dall'1.1% al 6.7%, superando in ogni caso approcci alternativi, inclusi modelli con architetture agentiche più complesse. Questi risultati dimostrano che un RL semplice ha successo quando gli ambienti sono scalabili.

SALAD: Raggiungere un'Attenzione ad Alta Sparsità tramune una Efficiente Regolazione dell'Attenzione Lineare per il Trasformatore di Diffusione Video
SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

Jan 23

ByTongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang

I Diffusion Transformer hanno recentemente dimostrato prestazioni notevoli nella generazione video. Tuttavia, le lunghe sequenze in input comportano un'elevata latenza computazionale a causa della complessità quadratica dell'attenzione completa. Sono stati proposti vari meccanismi di attenzione sparsa. L'attenzione sparsa senza addestramento è limitata da una sparsità ridotta e offre quindi un'accelerazione modesta, mentre i metodi basati su addestramento possono raggiungere una sparsità molto più elevata ma richiedono dati e calcolo sostanziali per l'allenamento. In questo lavoro, proponiamo SALAD, introducendo un ramo di attenzione lineare leggero in parallelo all'attenzione sparsa. Incorporando un meccanismo di gating dipendente dall'input per bilanciare finemente i due rami, il nostro metodo raggiunge il 90% di sparsità e un'accelerazione inferenziale di 1,72x, mantenendo una qualità di generazione comparabile al baseline di attenzione completa. Inoltre, il nostro processo di fine-tuning è altamente efficiente, richiedendo solo 2.000 campioni video e 1.600 step di addestramento con un batch size di 8.

Danzando in Catene: La Persuasione Strategica nella Replica Accademica attraverso la Teoria della Mente
Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

Jan 22

ByZhitao He, Zongwei Lyu, Yi R Fung

Sebbene l'intelligenza artificiale (IA) si sia profondamente integrata in varie fasi del flusso di lavoro della ricerca e abbia ottenuto progressi notevoli, la replica accademica rimane una sfida significativa e poco esplorata. Ciò accade perché la replica è un processo complesso di comunicazione strategica in condizioni di forte asimmetria informativa, piuttosto che un semplice dibattito tecnico. Di conseguenza, gli approcci attuali risultano inefficaci in quanto imitano prevalentemente la linguistica superficiale, tralasciando l'elemento essenziale dell'assunzione di prospettiva necessario per una persuasione efficace. In questo articolo presentiamo RebuttalAgent, il primo framework che fonda la replica accademica sulla Teoria della Mente (ToM), implementata attraverso una pipeline ToM-Strategia-Risposta (TSR) che modella lo stato mentale del revisore, formula una strategia persuasiva e genera una risposta ancorata alla strategia. Per addestrare il nostro agente, abbiamo costruito RebuttalBench, un dataset su larga scala sintetizzato mediante un innovativo approccio di critica e affinamento. Il processo di addestramento si articola in due fasi: una prima fase di fine-tuning supervisionato per dotare l'agente di capacità di analisi basate sulla ToM e di pianificazione strategica, seguita da una fase di apprendimento per rinforzo che sfrutta un meccanismo di auto-ricompensa per un miglioramento autonomo e scalabile. Per una valutazione automatica affidabile ed efficiente, abbiamo inoltre sviluppato Rebuttal-RM, un valutatore specializzato addestrato su oltre 100.000 campioni di dati replicativi multi-sorgente, che raggiunge una coerenza di valutazione con le preferenze umane superiore a quella del potente giudice GPT-4.1. Esperimenti estensivi dimostrano che RebuttalAgent supera significativamente il modello base di una media del 18,3% sulle metriche automatiche, oltre a superare modelli proprietari avanzati sia nelle valutazioni automatiche che in quelle umane. Dichiarazione di non responsabilità: i contenuti delle repliche generate sono forniti solo a scopo di riferimento per ispirare gli autori e assistere nella stesura. Non intendono sostituire l'analisi critica e la risposta autonoma dell'autore.

GameTalk: Addestramento di LLM per Conversazioni Strategiche
GameTalk: Training LLMs for Strategic Conversation

Jan 22

ByVictor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar

La presa di decisioni strategiche in ambienti multi-agente rappresenta una sfida cruciale per i grandi modelli linguistici (LLM), specialmente quando il coordinamento e la negoziazione devono svilupparsi in conversazioni prolungate. Sebbene recenti lavori abbiano esplorato l'uso degli LLM in compiti decisionali isolati, è stata data poca attenzione all'ottimizzazione di obiettivi a lungo termine attraverso il dialogo. Introduciamo GameTalk, un framework per addestrare LLM a prendere decisioni strategiche mediante interazioni multi-turno. A differenza dei lavori precedenti, che si concentrano su obiettivi a turno singolo o sulla previsione di azioni statiche, noi addestriamo gli LLM a ottimizzare un obiettivo globale lungo intere conversazioni. Raggiungiamo questo risultato adattando metodi di fine-tuning come GRPO, DPO e STaR per incorporare segnali di ricompensa che dipendono dall'intera interazione. Valutiamo questo approccio su una serie di giochi di complessità crescente, progettati per sollecitare diversi aspetti del ragionamento, del coordinamento e della modellazione dell'avversario. I nostri risultati dimostrano che GameTalk supera significativamente i modelli non addestrati, specialmente con il reward shaping, e che il DPO produce costantemente i migliori guadagni. Questi risultati posizionano il fine-tuning conversazionale come una strada promettente affinché gli LLM possano ragionare, negoziare e agire in ambienti interattivi.

MeepleLM: Un Playtester Virtuale che Simula Esperienze Soggettive Diversificate
MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

Jan 12

ByZizhen Li, Chuanhao Li, Yibin Wang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Yifei Huang, Kaipeng Zhang

I recenti progressi hanno ampliato il ruolo dei Large Language Model nei giochi da tavolo, trasformandoli da semplici agenti di gioco a co-progettisti creativi. Tuttavia, rimane una lacuna critica: i sistemi attuali non possiedono la capacità di offrire critiche costruttive basate sull'esperienza utente emergente. Colmare questa lacuna è fondamentale per armonizzare la collaborazione Uomo-IA, poiché permette ai progettisti di affinare le loro creazioni attraverso prospettive esterne, guidando al contempo i modelli lontano da esiti distorti o imprevedibili. Automatizzare la critica per i giochi da tavolo presenta due sfide: inferire le dinamiche latenti che collegano le regole al gameplay senza un motore esplicito e modellare l'eterogeneità soggettiva di diversi gruppi di giocatori. Per affrontarle, abbiamo curato un dataset di 1.727 regolamenti strutturalmente corretti e 150.000 recensioni selezionate mediante punteggi di qualità e campionamento basato su aspetti specifici. Abbiamo arricchito questi dati con il ragionamento Meccaniche-Dinamiche-Estetica (MDA) per colmare esplicitamente il divario causale tra regole scritte ed esperienza del giocatore. Inoltre, distilliamo i profili dei giocatori e introduciamo MeepleLM, un modello specializzato che interiorizza schemi di ragionamento specifici per persona per simulare accuratamente il feedback soggettivo di diversi archetipi di giocatore. Gli esperimenti dimostrano che MeepleLM supera significativamente i più recenti modelli commerciali (ad es. GPT-5.1, Gemini3-Pro) nell'allineamento alla comunità e nella qualità della critica, raggiungendo un tasso di preferenza del 70% in studi utente che valutano l'utilità. MeepleLM funge da playtester virtuale affidabile per sistemi interattivi generali, segnando un passo cruciale verso una collaborazione Uomo-IA allineata al pubblico e consapevole dell'esperienza.

ChartVerse: Scalabilità del Ragionamento sui Grafici tramite Sintesi Programmabile Affidabile da Zero
ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch

Jan 20

ByZheng Liu, Honglin Lin, Chonghan Qin, Xiaoyang Wang, Xin Gao, Yu Li, Mengzhang Cai, Yun Zhu, Zhanping Zhong, Qizhi Pei, Zhuoshi Pan, Xiaoran Shang, Bin Cui, Conghui He, Wentao Zhang, Lijun Wu

Il ragionamento sui grafici è una capacità critica per i modelli linguistici visivi (VLM). Tuttavia, lo sviluppo di modelli open-source è gravemente ostacolato dalla mancanza di dati di addestramento di alta qualità. I dataset esistenti presentano una duplice sfida: i grafici sintetici sono spesso semplicistici e ripetitivi, mentre le coppie domanda-risposta associate sono soggette a allucinazioni e mancano della profondità di ragionamento necessaria per compiti complessi. Per colmare questa lacuna, proponiamo ChartVerse, un framework scalabile progettato per sintetizzare grafici complessi e dati di ragionamento affidabili da zero. (1) Per affrontare il collo di bottiglia degli schemi semplici, introduciamo innanzitutto l'Entropia Posteriore di Rollout (RPE), una nuova metrica che quantifica la complessità del grafico. Guidati da RPE, sviluppiamo un chart coder consapevole della complessità per sintetizzare autonomamente grafici diversificati e ad alta complessità tramite programmi eseguibili. (2) Per garantire il rigore del ragionamento, sviluppiamo una sintesi inversa di QA ancorata alla verità. Diversamente dalla generazione standard, adottiamo un paradigma answer-first: estraiamo risposte deterministiche direttamente dal codice sorgente, generiamo domande condizionate a questi ancoraggi e applichiamo una verifica di coerenza rigorosa. Per aumentare ulteriormente la difficoltà e la profondità di ragionamento, filtriamo i campioni in base al tasso di fallimento del modello e distilliamo ragionamenti a catena del pensiero (CoT) di alta qualità. Abbiamo curato ChartVerse-SFT-600K e ChartVerse-RL-40K utilizzando Qwen3-VL-30B-A3B-Thinking come insegnante. I risultati sperimentali dimostrano che ChartVerse-8B raggiunge prestazioni all'avanguardia, superando notevolmente il suo insegnante e competendo con il più potente Qwen3-VL-32B-Thinking.

DSGym: un framework olistico per la valutazione e l'addestramento di agenti di data science
DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

Jan 22

ByFan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou

Gli agenti di data science promettono di accelerare la scoperta e la generazione di insight trasformando i dati in analisi e risultati eseguibili. Tuttavia, gli attuali benchmark di data science presentano carenze a causa di interfacce di valutazione frammentate che rendono difficile il confronto trasversale, di una copertura limitata dei compiti e della mancanza di un rigoroso ancoraggio ai dati. In particolare, dimostriamo che una porzione significativa dei compiti negli attuali benchmark può essere risolta senza utilizzare i dati effettivi. Per affrontare queste limitazioni, introduciamo DSGym, un framework standardizzato per valutare e addestrare agenti di data science in ambienti di esecuzione autonomi. A differenza dei benchmark statici, DSGym fornisce un'architettura modulare che semplifica l'aggiunta di compiti, scaffold per agenti e strumenti, configurandolo come un banco di prova vivente ed estensibile. Curiamo DSGym-Tasks, una suite di compiti olistica che standardizza e affina i benchmark esistenti attraverso filtri di qualità e di risolvibilità per scorciatoie. Estendiamo ulteriormente la copertura con (1) DSBio: compiti di bioinformatica derivati da esperti e basati sulla letteratura, e (2) DSPredict: compiti predittivi impegnativi che spaziano in domini come la computer vision, la predizione molecolare e le perturbazioni a cellula singola. Oltre alla valutazione, DSGym consente l'addestramento degli agenti attraverso una pipeline di sintesi dati verificata dall'esecuzione. Come caso di studio, abbiamo costruito un set di addestramento di 2.000 esempi e addestrato un modello da 4B in DSGym che supera GPT-4o su benchmark di analisi standardizzati. In sintesi, DSGym consente una misurazione rigorosa end-to-end della capacità degli agenti di pianificare, implementare e convalidare analisi dei dati in contesti scientifici realistici.

La conoscenza non basta: l'integrazione di competenze di apprendimento per rinforzo per l'adattamento continuo
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Jan 16

ByPingzhi Tang, Yiding Wang, Muhan Zhang

I Modelli Linguistici di Grande Dimensione (LLM) affrontano la sfida del "limite conoscitivo" (knowledge cutoff), per cui la loro memoria parametrica congelata impedisce l'interiorizzazione diretta di nuove informazioni. Sebbene l'Addestramento Supervisionato Fine-Tuning (SFT) sia comunemente utilizzato per aggiornare le conoscenze del modello, spesso aggiorna i contenuti fattuali senza migliorare in modo affidabile la capacità del modello di utilizzare le nuove informazioni incorporate per rispondere a domande o prendere decisioni. L'Apprendimento per Rinforzo (RL) è essenziale per acquisire abilità di ragionamento; tuttavia, il suo elevato costo computazionale lo rende impraticabile per un'adattamento online efficiente. Osserviamo empiricamente che gli aggiornamenti dei parametri indotti da SFT e RL sono quasi ortogonali. Sulla base di questa osservazione, proponiamo il Trasferimento di Abilità Parametriche (Parametric Skill Transfer, PaST), un framework che supporta il trasferimento modulare delle abilità per un adattamento della conoscenza efficiente ed efficace. Estraendo un Vettore di Abilità (Skill Vector) indipendente dal dominio da un dominio sorgente, possiamo iniettare linearmente le abilità di manipolazione della conoscenza in un modello target dopo che questo ha subito un SFT leggero su nuovi dati. Esperimenti su benchmark di QA per l'incorporazione di conoscenze (SQuAD, LooGLE) e di uso strumentale agentico (ToolBench) dimostrano l'efficacia del nostro metodo. Su SQuAD, PaST supera la baseline SFT di auto-modifica allo stato dell'arte fino a 9,9 punti. PaST si scala ulteriormente al QA a contesto lungo su LooGLE con un guadagno assoluto di accuratezza di 8,0 punti e migliora i tassi di successo zero-shot su ToolBench in media di +10,3 punti, con guadagni consistenti tra le categorie di strumenti, indicando una forte scalabilità e trasferibilità cross-dominio del Vettore di Abilità.

Mecelle Modelleri: Hukuk Alanı İçin Sıfırdan Eğitilmiş ve Sürekli Ön Eğitilmiş Türk Modeller
Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

Jan 22

ByÖzgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş

Questo articolo presenta i modelli Mecellem, un framework per lo sviluppo di modelli linguistici specializzati per il dominio legale turco attraverso strategie di adattamento di dominio. Forniamo due contributi principali: (1) Modello Encoder Pre-addestrato da Zero: encoder bidirezionali basati su ModernBERT pre-addestrati su un corpus a predominanza turca di 112,7 miliardi di token. Implementiamo una strategia di selezione dei checkpoint che valuta le prestazioni di retrieval a valle durante l'addestramento, rivelando che i checkpoint ottimali raggiungono i migliori punteggi di retrieval prima che la loss di pre-addestramento raggiunga il suo minimo. I nostri modelli encoder si posizionano tra i primi 3 nella classifica leaderboard del retrieval per il turco, con modelli più piccoli (155 milioni di parametri) che raggiungono prestazioni comparabili a modelli di riferimento più grandi (307-567 milioni di parametri). Il nostro approccio raggiunge un'efficienza produttiva del 92,36% rispetto ai modelli state-of-the-art (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%), classificandosi al quarto posto nonostante richieda meno risorse computazionali. I modelli SOTA si basano su pipeline di addestramento multi-stage e computazionalmente intensive, rendendo il nostro approccio di pre-addestramento single-stage seguito da un efficiente post-addestramento un'alternativa economicamente vantaggiosa; (2) Modello Decoder con Pre-addestramento Continuo (CPT): modelli Qwen3-1.7B e Qwen3-4B adattati al dominio legale turco attraverso un apprendimento curriculare controllato. Un CPT in quattro fasi con rapporti di campionamento ottimali consente una transizione graduale dalla conoscenza linguistica generale alla terminologia legale specializzata e al ragionamento a contesto lungo. Questo approccio raggiunge una riduzione della perplessità del 36,2% su testo legale turco, dimostrando i vantaggi dell'adattamento di dominio.

VISTA-PATH: Un modello fondante interattivo per la segmentazione delle immagini patologiche e l'analisi quantitativa in patologia computazionale
VISTA-PATH: An interactive foundation model for pathology image segmentation and quantitative analysis in computational pathology

Jan 23

ByPeixian Liang, Songhao Li, Shunsuke Koga, Yutong Li, Zahra Alipour, Yucheng Tang, Daguang Xu, Zhi Huang

La segmentazione semantica accurata delle immagini istopatologiche è cruciale per l'analisi quantitativa dei tessuti e la modellizzazione clinica derivata. I recenti modelli fondazionali per la segmentazione hanno migliorato la generalizzazione attraverso pre-addestramento su larga scala, ma rimangono poco allineati con le esigenze della patologia poiché trattano la segmentazione come un compito di predizione visiva statico. Qui presentiamo VISTA-PATH, un modello fondazionale interattivo e class-aware per la segmentazione in patologia, progettato per risolvere strutture eterogenee, incorporare il feedback degli esperti e produrre segmentazioni a livello di pixel direttamente significative per l'interpretazione clinica. VISTA-PATH condiziona congiuntamente la segmentazione sul contesto visivo, su descrizioni semantiche dei tessuti e su prompt spaziali opzionali forniti dall'esperto, consentendo una segmentazione multi-classe precisa su immagini patologiche eterogenee. Per supportare questo paradigma, abbiamo curato VISTA-PATH Data, un corpus su larga scala per la segmentazione in patologia comprendente oltre 1,6 milioni di triplette immagine-maschera-testo che coprono 9 organi e 93 classi di tessuto. In un'ampia serie di benchmark esterni e non visti durante l'addestramento, VISTA-PATH supera costantemente i modelli fondazionali di segmentazione esistenti. È importante sottolineare che VISTA-PATH supporta un raffinamento dinamico con l'uomo nel ciclo, propagando il feedback di annotazione tramite bounding box a livello di patch, anche sparse, in una segmentazione dell'intero vetrino. Infine, dimostriamo che l'elevata fedeltà e la segmentazione class-aware prodotta da VISTA-PATH la rendono un modello preferibile per la patologia computazionale. Essa migliora l'analisi del microambiente tissutale attraverso il proposto Tumor Interaction Score (TIS), che mostra associazioni forti e significative con la sopravvivenza del paziente. Nel complesso, questi risultati stabiliscono VISTA-PATH come un modello fondazionale che eleva la segmentazione delle immagini patologiche da una predizione statica a una rappresentazione interattiva e clinicamente fondata per la patologia digitale. Il codice sorgente e una demo sono disponibili all'indirizzo https://github.com/zhihuanglab/VISTA-PATH.

Linee guida per il prompt dei modelli linguistici di grandi dimensioni nella generazione di codice: una caratterizzazione empirica
Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Jan 19

ByAlessandro Midolo, Alessandro Giagnorio, Fiorella Zampetti, Rosalia Tufano, Gabriele Bavota, Massimiliano Di Penta

I modelli linguistici di grandi dimensioni (LLM) sono oggi ampiamente utilizzati per vari tipi di attività di ingegneria del software, principalmente per la generazione di codice. Ricerche precedenti hanno dimostrato come un'adeguata *prompt engineering* possa aiutare gli sviluppatori a migliorare i propri prompt per la generazione di codice. Tuttavia, finora, non esistono linee guida specifiche che guidino gli sviluppatori nella scrittura di prompt adatti per la generazione di codice. In questo lavoro, deriviamo e valutiamo linee guida specifiche per lo sviluppo per l'ottimizzazione dei prompt. In primo luogo, utilizziamo un approccio iterativo e *test-driven* per perfezionare automaticamente i prompt di generazione del codice e analizziamo l'esito di questo processo per identificare gli elementi di miglioramento del prompt che portano al superamento dei test. Utilizziamo tali elementi per ricavare 10 linee guida per il miglioramento dei prompt, relative a una migliore specificazione di input/output, condizioni pre-post, fornitura di esempi, vari tipi di dettagli o chiarimento di ambiguità. Effettuiamo una valutazione con 50 professionisti, che riportano il loro utilizzo degli schemi di miglioramento dei prompt ricavati, nonché la loro percezione di utilità, che non sempre corrisponde all'utilizzo effettivo prima di conoscere le nostre linee guida. I nostri risultati portano a implicazioni non solo per i professionisti e gli educatori, ma anche per coloro che mirano a creare strumenti di sviluppo software migliori assistiti dagli LLM.

Rapporto Tecnico LongCat-Flash-Thinking-2601
LongCat-Flash-Thinking-2601 Technical Report

Jan 23

175