HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

26 papers found

Ragionamento Agente per i Modelli Linguistici di Grande Dimensioni
Agentic Reasoning for Large Language Models

Jan 18

ByTianxin Wei, Ting-Wei Li, Zhining Liu, Xuying Ning, Ze Yang, Jiaru Zou, Zhichen Zeng, Ruizhong Qiu, Xiao Lin, Dongqi Fu, Zihao Li, Mengting Ai, Duo Zhou, Wenxuan Bao, Yunzhe Li, Gaotang Li, Cheng Qian, Yu Wang, Xiangru Tang, Yin Xiao, Liri Fang, Hui Liu, Xianfeng Tang, Yuji Zhang, Chi Wang, Jiaxuan You, Heng Ji, Hanghang Tong, Jingrui He

193

Il ragionamento è un processo cognitivo fondamentale alla base dell'inferenza, della risoluzione di problemi e del processo decisionale. Sebbene i grandi modelli linguistici (LLM) dimostrino notevoli capacità di ragionamento in contesti a mondo chiuso, incontrano difficoltà in ambienti aperti e dinamici. Il ragionamento agentico rappresenta un cambio di paradigma, ridefinendo gli LLM come agenti autonomi che pianificano, agiscono e apprendono attraverso un'interazione continua. In questa rassegna, organizziamo il ragionamento agentico lungo tre dimensioni complementari. In primo luogo, caratterizziamo le dinamiche ambientali attraverso tre livelli: il ragionamento agentico fondamentale, che stabilisce le capacità core di un singolo agente, inclusa la pianificazione, l'uso di strumenti e la ricerca in ambienti stabili; il ragionamento agentico auto-evolutivo, che studia come gli agenti affinano queste capacità attraverso feedback, memoria e adattamento; e il ragionamento collettivo multi-agente, che estende l'intelligenza a contesti collaborativi che coinvolgono coordinamento, condivisione della conoscenza e obiettivi condivisi. Attraverso questi livelli, distinguiamo il ragionamento in-context, che scala l'interazione al momento del test attraverso un'orchestrazione strutturata, dal ragionamento post-training, che ottimizza i comportamenti tramite apprendimento per rinforzo e fine-tuning supervisionato. Esaminiamo inoltre i framework rappresentativi del ragionamento agentico in applicazioni e benchmark del mondo reale, inclusi scienza, robotica, sanità, ricerca autonoma e matematica. Questa rassegna sintetizza i metodi del ragionamento agentico in una roadmap unificata che collega pensiero e azione, e delinea le sfide aperte e le direzioni future, tra cui la personalizzazione, l'interazione a lungo termine, la modellazione del mondo, l'addestramento scalabile di multi-agenti e la governance per la diffusione nel mondo reale.

MMDeepResearch-Bench: Un Benchmark per Agenti di Ricerca Profonda Multimodali
MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents

Jan 18

ByPeizhou Huang, Zixuan Zhong, Zhongwei Wan, Donghao Zhou, Samiul Alam, Xin Wang, Zexin Li, Zhihao Dou, Li Zhu, Jing Xiong, Chaofan Tao, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang

Gli Agenti di Ricerca Approfondita (DRA) generano report ricchi di citazioni attraverso processi di ricerca e sintesi multi-step. Tuttavia, i benchmark esistenti si concentrano principalmente su contesti puramente testuali o su domande-risposte multimodali di breve formato, tralasciando la valutazione end-to-end dell'uso di evidenze multimodali. Presentiamo MMDeepResearch-Bench (MMDR-Bench), un benchmark composto da 140 task creati da esperti in 21 domini, in cui ogni task fornisce un bundle immagine-testo per valutare la comprensione multimodale e la generazione di report ancorati a citazioni. Rispetto alle impostazioni precedenti, MMDR-Bench enfatizza la sintesi in stile report con un uso esplicito delle evidenze, richiedendo ai modelli di collegare gli artefatti visivi alle affermazioni citate e di mantenere la coerenza tra narrazione, citazioni e riferimenti visivi. Proponiamo inoltre una pipeline di valutazione unificata e interpretabile: la Formula-LLM Adaptive Evaluation (FLAE) per la qualità del report, la Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) per l'allineamento delle evidenze alle citazioni, e il Multimodal Support-Aligned Integrity Check (MOSAIC) per l'integrità testo-visiva, ciascuna in grado di produrre segnali granulari che supportano la diagnosi degli errori oltre il singolo punteggio complessivo. Esperimenti condotti su 25 modelli all'avanguardia rivelano compromessi sistematici tra qualità della generazione, disciplina nelle citazioni e fondatezza multimodale, evidenziando come una prosa solida di per sé non garantisca un uso fedele delle evidenze e come l'integrità multimodale rimanga un collo di bottiglia cruciale per gli agenti di ricerca approfondita.

Paper2Rebuttal: Un Framework Multi-Agente per un'Assistenza Trasparente nella Redazione delle Risposte degli Autori
Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response Assistance

Jan 20

ByQianli Ma, Chang Guo, Zhiheng Tian, Siyu Wang, Jipeng Xiao, Yuanhao Yue, Zhipeng Zhang

Scrivere repliche efficaci è un compito ad alto rischio che richiede più della semplice padronanza linguistica, poiché esige un allineamento preciso tra l'intento del revisore e i dettagli del manoscritto. Le soluzioni attuali tipicamente trattano questo problema come una generazione diretta di testo, soffrendo di allucinazioni, critiche trascurate e mancanza di ancoraggio verificabile. Per affrontare queste limitazioni, introduciamo RebuttalAgent, il primo framework multi-agente che riformula la generazione di repliche come un'attività di pianificazione incentrata sulle evidenze. Il nostro sistema scompone feedback complessi in critiche atomiche e costruisce dinamicamente contesti ibridi sintetizzando riassunti compressi con testi ad alta fedeltà, integrando al contempo un modulo di ricerca esterna autonoma e on-demand per risolvere critiche che richiedono letteratura esterna. Generando un piano di risposta ispezionabile prima della stesura, RebuttalAgent garantisce che ogni argomento sia esplicitamente ancorato a evidenze interne o esterne. Convalidiamo il nostro approccio sul proposto RebuttalBench e dimostriamo che la nostra pipeline supera baseline solide in termini di copertura, fedeltà e coerenza strategica, offrendo un assistente trasparente e controllabile per il processo di revisione paritaria. Il codice sarà rilasciato.

Ripensare il Modello di Generazione Video per il Mondo Embodied
Rethinking Video Generation Model for the Embodied World

Jan 21

ByYufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li, Ruoqing Hu, Yufei Ding, Yiming Zou, Yan Zeng, Daquan Zhou

I modelli di generazione video hanno fatto progredire significativamente l'intelligenza incarnata, sbloccando nuove possibilità per generare dati robotici diversificati che catturano percezione, ragionamento e azione nel mondo fisico. Tuttavia, sintetizzare video di alta qualità che riflettano accuratamente le interazioni robotiche nel mondo reale rimane una sfida, e la mancanza di un benchmark standardizzato limita confronti equi e progressi. Per colmare questa lacuna, introduciamo un benchmark robotico completo, RBench, progettato per valutare la generazione video orientata alla robotica in cinque domini di compiti e quattro incarnazioni distinte. Esso valuta sia la correttezza a livello di compito che la fedeltà visiva attraverso sottometriche riproducibili, inclusa coerenza strutturale, plausibilità fisica e completezza dell'azione. La valutazione di 25 modelli rappresentativi evidenzia carenze significative nella generazione di comportamenti robotici fisicamente realistici. Inoltre, il benchmark raggiunge un coefficiente di correlazione di Spearman di 0.96 con le valutazioni umane, validandone l'efficacia. Sebbene RBench fornisca la lente necessaria per identificare queste carenze, raggiungere il realismo fisico richiede di andare oltre la valutazione per affrontare la critica carenza di dati di addestramento di alta qualità. Guidati da queste intuizioni, introduciamo una pipeline di dati raffinata in quattro fasi, risultante in RoVid-X, il più grande dataset robotico open-source per la generazione video con 4 milioni di clip video annotate, che copre migliaia di compiti e arricchito con annotazioni complete delle proprietà fisiche. Collettivamente, questo ecosistema sinergico di valutazione e dati stabilisce una solida base per la valutazione rigorosa e l'addestramento scalabile di modelli video, accelerando l'evoluzione dell'IA incarnata verso l'intelligenza generale.

GutenOCR: un'interfaccia fondata visione-linguaggio per documenti
GutenOCR: A Grounded Vision-Language Front-End for Documents

Jan 20

ByHunter Heidenreich, Ben Elliott, Olivia Dinica, Yosheb Getachew

GutenOCR è una famiglia di front-end OCR con grounding ottenuti mediante fine-tuning di Qwen2.5-VL-3B e Qwen2.5-VL-7B. I modelli visione-linguaggio risultanti, a checkpoint singolo, espongono funzionalità di lettura, rilevamento e grounding attraverso un'interfaccia unificata basata su prompt. Addestrati su documenti aziendali, articoli scientifici e dati sintetici di grounding, i modelli supportano la lettura di intere pagine e localizzata, con bounding box a livello di riga e paragrafo, e query condizionali del tipo "dove si trova x?". Introduciamo un protocollo di valutazione per OCR con grounding e dimostriamo che GutenOCR-7B più che raddoppia il punteggio composito di OCR con grounding del suo backbone Qwen2.5-VL-7B su 10.5K pagine aziendali e scientifiche tenute da parte (da 0.40 a 0.82). Su Fox e OmniDocBench v1.5, il nostro approccio migliora sostanzialmente l'OCR a livello di regione e di riga, nonché il richiamo del rilevamento del testo, ma rivela compromessi nella linearizzazione a livello di pagina, nell'OCR guidato dal colore e nei layout ricchi di formule.

Fusione della Conoscenza Comportamentale nei Modelli Agenti Rinforzati
Behavior Knowledge Merge in Reinforced Agentic Models

Jan 20

ByXiangchi Yuan, Dachuan Shi, Chunhui Zhang, Zheyuan Liu, Shenglong Yao, Soroush Vosoughi, Wenke Lee

L'apprendimento per rinforzo (RL) è centrale per il post-addestramento, in particolare per i modelli agentivi che richiedono comportamenti di ragionamento specializzati. In questo contesto, il merging di modelli offre un meccanismo pratico per integrare più agenti addestrati con RL da compiti diversi in un unico modello generalista. Tuttavia, i metodi di merging esistenti sono progettati per il fine-tuning supervisionato (SFT) e sono subottimali per preservare le capacità specifiche del compito sui modelli agentivi addestrati con RL. La radice del problema è una discrepanza nei vettori del compito tra RL e SFT: il RL on-policy induce vettori del compito altamente sparsi ed eterogenei, mentre il merging in stile SFT assume implicitamente vettori del compito densi e globalmente comparabili. Quando la media globale standard viene applicata in presenza di questa discrepanza, i vettori del compito non sovrapposti del RL, che codificano comportamenti critici specifici del compito, vengono ridotti e gli aggiornamenti dei parametri vengono diluiti. Per affrontare questo problema, proponiamo il Reinforced Agent Merging (RAM), un framework di merging consapevole della distribuzione, progettato esplicitamente per modelli agentivi addestrati con RL. RAM districa gli aggiornamenti dei parametri condivisi e quelli unici specifici del compito, mediando i componenti condivisi mentre preserva e riscala selettivamente quelli unici per contrastare la diluizione degli aggiornamenti dei parametri. Esperimenti su molteplici domini agentivi e architetture di modelli dimostrano che RAM non solo supera i baseline di merging, ma sblocca anche un potenziale sinergico tra gli agenti, raggiungendo prestazioni superiori a quelle di agenti specializzati nei loro domini.

FlashLabs Chroma 1.0: Un Modello di Dialogo Parlato End-to-End in Tempo Reale con Clonazione Vocale Personalizzata
FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning

Jan 16

ByTanyu Chen, Tairan Chen, Kai Shen, Zhenghua Bao, Zhihui Zhang, Man Yuan, Yi Shi

I recenti sistemi di dialogo parlato end-to-end sfruttano tokenizzatori vocali e codec neurali audio per consentire agli LLM di operare direttamente su rappresentazioni discrete del parlato. Tuttavia, questi modelli spesso mostrano una limitata conservazione dell'identità del parlante, ostacolando l'interazione vocale personalizzata. In questo lavoro, presentiamo Chroma 1.0, il primo modello di dialogo parlato end-to-end open-source in tempo reale che combina interazione a bassa latenza e clonazione vocale personalizzata ad alta fedeltà. Chroma raggiunge una latenza end-to-end inferiore al secondo attraverso una schedulazione intervallata di token testuali e audio (1:2) che supporta la generazione in streaming, mantenendo al contempo una sintesi vocale personalizzata di alta qualità attraverso conversazioni multi-turno. I nostri risultati sperimentali dimostrano che Chroma ottiene un miglioramento relativo del 10.96% nella similarità del parlante rispetto al baseline umano, con un Fattore di Tempo Reale (RTF) di 0.43, preservando solide capacità di ragionamento e dialogo. Il nostro codice e i nostri modelli sono pubblicamente disponibili su https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma e https://huggingface.co/FlashLabs/Chroma-4B.

Render-of-Thought: Trasformare la Catena di Ragionamento Testuale in Immagini per il Ragionamento Visivo Latente
Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

Jan 21

ByYifan Wang, Shiyu Li, Peiming Li, Xiaochen Yang, Yang Tang, Zheng Wei

Il prompting a Catena di Pensiero (CoT) ha ottenuto un notevole successo nello sbloccare le capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (LLM). Sebbene il prompting CoT potenzi il ragionamento, la sua verbosità impone un sovraccarico computazionale sostanziale. I lavori recenti spesso si concentrano esclusivamente sull'allineamento dei risultati e mancano di supervisione sul processo di ragionamento intermedio. Queste carenze oscurano l'analizzabilità della catena di ragionamento latente. Per affrontare queste sfide, introduciamo il Render-of-Thought (RoT), il primo framework che reifica la catena di ragionamento rendendo i passaggi testuali in immagini, rendendo esplicita e tracciabile la logica latente. Nello specifico, sfruttiamo gli encoder visivi dei Modelli Linguaggio-Visione (VLM) esistenti come ancore semantiche per allineare gli embedding visivi con lo spazio testuale. Questo design garantisce un'implementazione plug-and-play senza comportare ulteriori sovraccarichi di pre-addestramento. Esperimenti estesi su benchmark di ragionamento matematico e logico dimostrano che il nostro metodo raggiunge una compressione dei token di 3-4x e una sostanziale accelerazione dell'inferenza rispetto al CoT esplicito. Inoltre, mantiene prestazioni competitive rispetto ad altri metodi, convalidando la fattibilità di questo paradigma. Il nostro codice è disponibile all'indirizzo https://github.com/TencentBAC/RoT

Typhoon OCR: Modello Open Vision-Language per l'Estrazione di Documenti Thailandesi
Typhoon OCR: Open Vision-Language Model For Thai Document Extraction

Jan 21

BySurapon Nonesung, Natapong Nitarach, Teetouch Jaknamon, Pittawat Taveekitworachai, Kunat Pipatanakul

L'estrazione di documenti è un componente fondamentale dei flussi di lavoro digitali, eppure i modelli visione-linguaggio (VLM) esistenti privilegiano prevalentemente le lingue ad alta disponibilità di risorse. La lingua thailandese presenta sfide aggiuntive a causa della complessità della scrittura con caratteri non latini, dell'assenza di delimitatori di parole espliciti e della prevalenza di documenti real-world altamente non strutturati, limitando l'efficacia degli attuali modelli open-source. Questo articolo presenta Typhoon OCR, un VLM aperto per l'estrazione di documenti specificamente progettato per thailandese e inglese. Il modello è stato affinato partendo da architetture visione-linguaggio di base utilizzando un dataset di addestramento incentrato sulla lingua thailandese. Il dataset è stato sviluppato mediante una pipeline di costruzione dati multi-stadio che combina OCR tradizionale, ristrutturazione basata su VLM e dati sintetici accuratamente curati. Typhoon OCR è un framework unificato in grado di effettuare trascrizione del testo, ricostruzione del layout e mantenimento della coerenza strutturale a livello di documento. L'ultima iterazione del nostro modello, Typhoon OCR V1.5, è un modello compatto ed efficiente nell'inferenza, progettato per ridurre la dipendenza dai metadati e semplificare la distribuzione. Valutazioni complete su diverse categorie di documenti thailandesi, inclusi report finanziari, moduli governativi, libri, infografiche e documenti manoscritti, mostrano che Typhoon OCR raggiunge prestazioni paragonabili o superiori a quelle di modelli proprietari all'avanguardia e di dimensioni maggiori, nonostante un costo computazionale sostanzialmente inferiore. I risultati dimostrano che i modelli OCR visione-linguaggio open-source possono ottenere un'estrazione accurata del testo e una ricostruzione fedele del layout per documenti thailandesi, raggiungendo prestazioni paragonabili ai sistemi proprietari pur rimanendo leggeri e facilmente distribuibili.

Typhoon ASR in Tempo Reale: FastConformer-Transducer per il Riconoscimento Vocale Automatico Thai
Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition

Jan 19

ByWarit Sirichotedumrong, Adisai Na-Thalang, Potsawee Manakul, Pittawat Taveekitworachai, Sittipong Sripaisarnmongkol, Kunat Pipatanakul

Modelli encoder-decoder di grandi dimensioni come Whisper ottengono un'ottima trascrizione offline, ma rimangono impraticabili per applicazioni in streaming a causa dell'elevata latenza. Tuttavia, grazie all'accessibilità dei checkpoint pre-addestrati, il panorama thailandese dell'ASR open-source rimane dominato da queste architetture offline, lasciando una lacuna critica nelle soluzioni di streaming efficienti. Presentiamo Typhoon ASR Real-time, un modello FastConformer-Transducer da 115 milioni di parametri per il riconoscimento vocale thailandese a bassa latenza. Dimostriamo che una rigorosa normalizzazione del testo può eguagliare l'impatto del ridimensionamento del modello: il nostro modello compatto ottiene una riduzione di 45 volte del costo computazionale rispetto a Whisper Large-v3, fornendo al contempo un'accuratezza comparabile. La nostra pipeline di normalizzazione risolve le ambiguità sistemiche nella trascrizione thailandese – inclusa la verbalizzazione di numeri dipendente dal contesto e i marcatori di ripetizione (mai yamok) – creando target di addestramento coerenti. Introduciamo inoltre un approccio di apprendimento per curriculum a due stadi per l'adattamento al dialetto Isan (nord-orientale) che preserva le prestazioni nel thailandese centrale. Per affrontare le sfide della riproducibilità nell'ASR thailandese, rilasciamo il Typhoon ASR Benchmark, un dataset di riferimento etichettato manualmente con trascrizioni che seguono le convenzioni linguistiche thailandesi consolidate, fornendo protocolli di valutazione standardizzati per la comunità di ricerca.

Numina-Lean-Agent: Un Sistema di Ragionamento Agente Aperto e Generale per la Matematica Formale
Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics

Jan 20

ByJunqi Liu, Zihao Zhou, Zekai Zhu, Marco Dos Santos, Weikun He, Jiawei Liu, Ran Wang, Yunzhou Xie, Junqiao Zhao, Qiufeng Wang, Lihong Zhi, Jia Li, Wenda Li

I sistemi agentici sono recentemente diventati il paradigma dominante per la dimostrazione formale di teoremi, raggiungendo prestazioni elevate attraverso il coordinamento di più modelli e strumenti. Tuttavia, gli approcci esistenti spesso si basano su pipeline specifiche per task e dimostratori formali addestrati, limitandone la flessibilità e la riproducibilità. In questo articolo, proponiamo il paradigma che utilizza direttamente un agente di codifica generale come ragionatore matematico formale. Questo paradigma è motivato da: (1) Un agente di codifica generale fornisce un'interfaccia naturale per task di ragionamento diversificati oltre la dimostrazione, (2) Le prestazioni possono essere migliorate semplicemente sostituendo il modello base sottostante, senza addestramento, e (3) MCP consente l'estensione flessibile e la chiamata autonoma di strumenti specializzati, evitando progettazioni complesse. Basandoci su questo paradigma, introduciamo Numina-Lean-Agent, che combina Claude Code con Numina-Lean-MCP per abilitare l'interazione autonoma con Lean, il recupero di teoremi rilevanti, strumenti di dimostrazione informale e ragionamento ausiliario. Utilizzando Claude Opus 4.5 come modello base, Numina-Lean-Agent risolve tutti i problemi del Putnam 2025 (12 / 12), eguagliando il miglior sistema closed-source. Oltre alla valutazione su benchmark, dimostriamo ulteriormente la sua generalità interagendo con matematici per formalizzare con successo il teorema di Brascamp-Lieb. Rilasciamo Numina-Lean-Agent e tutte le soluzioni su https://github.com/project-numina/numina-lean-agent.

Movimento da 3 a 4: Ricostruzione del Movimento 3D per la Sintesi 4D
Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

Jan 20

ByHongyuan Chen, Xingyu Chen, Youjia Zhang, Zexiang Xu, Anpei Chen

Presentiamo Motion 3-to-4, un framework feed-forward per la sintesi di oggetti dinamici 4D di alta qualità a partire da un singolo video monoculare e da una mesh di riferimento 3D opzionale. Sebbene i recenti progressi abbiano notevolmente migliorato la generazione di contenuti 2D, video e 3D, la sintesi 4D rimane difficile a causa della limitata disponibilità di dati di addestramento e dell'ambiguità intrinseca nel recuperare la geometria e il moto da un punto di vista monoculare. Motion 3-to-4 affronta queste sfide scomponendo la sintesi 4D in generazione di forma 3D statica e ricostruzione del moto. Utilizzando una mesh di riferimento canonica, il nostro modello apprende una rappresentazione latente compatta del moto e predice le traiettorie dei vertici per fotogramma per recuperare una geometria completa e temporalmente coerente. Un transformer scalabile operante su singoli fotogramma garantisce inoltre robustezza rispetto a lunghezze variabili della sequenza. Le valutazioni su benchmark standard e su un nuovo dataset con geometria ground-truth accurata dimostrano che Motion 3-to-4 fornisce una fedeltà e una coerenza spaziale superiori rispetto ai lavori precedenti. La pagina del progetto è disponibile all'indirizzo https://motion3-to-4.github.io/.

XR: Agenti Cross-Modali per il Recupero di Immagini Composte
XR: Cross-Modal Agents for Composed Image Retrieval

Jan 20

ByZhongyu Yang, Wei Pang, Yingfang Yuan

La ricerca per recupero informazioni sta venendo ridefinita dall'IA agenziale, richiedendo ragionamenti multimodali che vanno oltre i paradigmi convenzionali basati sulla similarità. Il Composed Image Retrieval (CIR) esemplifica questo cambiamento, poiché ogni query combina un'immagine di riferimento con modifiche testuali, richiedendo una comprensione compositiva attraverso le modalità. Sebbene i metodi CIR basati su embedding abbiano compiuto progressi, mantengono una prospettiva ristretta, catturando segnali cross-modali limitati e mancando di ragionamento semantico. Per affrontare queste limitazioni, introduciamo XR, un framework multi-agente senza necessità di addestramento che riformula il recupero come un processo di ragionamento progressivamente coordinato. XR orchestra tre tipi specializzati di agenti: gli agenti di immaginazione sintetizzano rappresentazioni target attraverso la generazione cross-modale, gli agenti di similarità eseguono un filtraggio approssimativo tramite matching ibrido, e gli agenti di domanda verificano la coerenza fattuale attraverso ragionamenti mirati per un filtraggio fine. Attraverso una coordinazione multi-agente progressiva, XR affina iterativamente il recupero per soddisfare sia i vincoli semantici che visivi delle query, ottenendo un miglioramento fino al 38% rispetto a baseline solide, sia senza che con addestramento, su FashionIQ, CIRR e CIRCO, mentre le ablation study dimostrano che ogni agente è essenziale. Il codice è disponibile: https://01yzzyu.github.io/xr.github.io/.

RoboBrain 2.5: La Profondità in Vista, il Tempo in Mente
RoboBrain 2.5: Depth in Sight, Time in Mind

Jan 20

ByHuajie Tan, Enshen Zhou, Zhiyu Li, Yijie Xu, Yuheng Ji, Xiansheng Chen, Cheng Chi, Pengwei Wang, Huizhu Jia, Yulong Ao, Mingyu Cao, Sixiang Chen, Zhe Li, Mengzhen Liu, Zixiao Wang, Shanyu Rong, Yaoxu Lyu, Zhongxia Zhao, Peterson Co, Yibo Li, Yi Han, Shaoxuan Xie, Guocai Yao, Songjing Wang, Leiduo Zhang, Xi Yang, Yance Jiao, Donghai Shi, Kunchang Xie, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang

Presentiamo RoboBrain 2.5, un modello fondante di intelligenza artificiale incarnata di prossima generazione che avanza nella percezione generale, nel ragionamento spaziale e nella modellazione temporale attraverso un addestramento esteso su supervisione spaziotemporale di alta qualità. Basandosi sul suo predecessore, RoboBrain 2.5 introduce due importanti miglioramenti delle capacità. Nello specifico, sblocca il *Ragionamento Spaziale 3D Preciso* spostandosi da un ancoraggio relativo ai pixel 2D alla previsione di coordinate consapevole della profondità e alla comprensione di vincoli metrici assoluti, generando tracce complete di manipolazione 3D come sequenze ordinate di punti chiave sotto vincoli fisici. A complemento di questa precisione spaziale, il modello stabilisce una *Stima Densa del Valore Temporale* che fornisce una previsione densa del progresso, consapevole del passo, e una comprensione dello stato di esecuzione attraverso diversi punti di vista, producendo segnali di feedback stabili per l'apprendimento a valle. Insieme, questi aggiornamenti estendono il framework verso un'intelligenza incarnata più ancorata alla realtà fisica e consapevole dell'esecuzione, destinata a manipolazioni complesse e a grana fine. Il codice e i checkpoint sono disponibili sul sito web del progetto: https://superrobobrain.github.io.

FinVault: Benchmarking della Sicurezza degli Agenti Finanziari in Ambienti a Base Esecutiva
FinVault: Benchmarking Financial Agent Safety in Execution-Grounded Environments

Jan 9

ByZhi Yang, Runguo Li, Qiqi Qiang, Jiashun Wang, Fangqi Lou, Mengping Li, Dongpo Cheng, Rui Xu, Heng Lian, Shuo Zhang, Xiaolong Liang, Xiaoming Huang, Zheng Wei, Zhaowei Liu, Xin Guo, Huacan Wang, Ronghao Chen, Liwen Zhang

Gli agenti finanziari basati su grandi modelli linguistici (LLM) vengono sempre più impiegati per l'analisi degli investimenti, la valutazione del rischio e il processo decisionale automatizzato, dove le loro capacità di pianificare, richiamare strumenti e manipolare stati mutabili introducono nuovi rischi per la sicurezza in ambienti finanziari ad alto rischio e altamente regolamentati. Tuttavia, le valutazioni di sicurezza esistenti si concentrano principalmente sulla conformità dei contenuti a livello di modello linguistico o su impostazioni agenti astratte, non riuscendo a cogliere i rischi concreti derivanti dai flussi di lavoro operativi reali e dalle azioni che modificano lo stato. Per colmare questa lacuna, proponiamo FinVault, il primo benchmark di sicurezza ancorato all'esecuzione per agenti finanziari, comprendente 31 scenari sandbox guidati da casi normativi con database scrivibili e vincoli di conformità espliciti, insieme a 107 vulnerabilità del mondo reale e 963 casi di test che coprono sistematicamente prompt injection, jailbreaking, attacchi finanziari adattati, nonché input benigni per la valutazione dei falsi positivi. I risultati sperimentali rivelano che i meccanismi di difesa esistenti rimangono inefficaci nelle realistiche impostazioni degli agenti finanziari, con tassi medi di successo degli attacchi (ASR) che raggiungono ancora il 50,0% sui modelli più all'avanguardia e rimangono non trascurabili anche per i sistemi più robusti (ASR 6,7%), evidenziando la limitata trasferibilità delle attuali soluzioni di sicurezza e la necessità di difese più forti specifiche per il settore finanziario. Il nostro codice è disponibile all'indirizzo https://github.com/aifinlab/FinVault.

Collasso della Privacy: Una Regolazione Fine Benigna Può Compromettere la Privacy Contestuale nei Modelli Linguistici
Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models

Jan 21

ByAnmol Goel, Cornelius Emde, Sangdoo Yun, Seong Joon Oh, Martin Gubri

Identifichiamo un nuovo fenomeno nei modelli linguistici: il fine-tuning benigno di modelli all'avanguardia può portare a un collasso della privacy. Scopriamo che pattern diversificati e sottili nei dati di addestramento possono degradare la privacy contestuale, inclusi l'ottimizzazione per l'utilità, l'esposizione a informazioni personali degli utenti, dialoghi emotivi e soggettivi, e il debug di codice che stampa variabili interne, tra gli altri. I modelli sottoposti a fine-tuning perdono la capacità di ragionare sulle norme di privacy contestuale, condividono informazioni in modo inappropriato con gli strumenti e violano i confini della memoria tra diversi contesti. Il collasso della privacy è un "fallimento silente" perché i modelli mantengono alte prestazioni sui benchmark standard di sicurezza e utilità, pur mostrando gravi vulnerabilità in termini di privacy. I nostri esperimenti mostrano evidenze di collasso della privacy in sei modelli (a peso chiuso e aperto), cinque dataset di fine-tuning (dati reali e controllati) e due categorie di compiti (agenti autonomi e basati sulla memoria). La nostra analisi meccanicistica rivela che le rappresentazioni della privacy sono singularmente fragili al fine-tuning, rispetto alle caratteristiche rilevanti per il compito che vengono preservate. I nostri risultati rivelano una lacuna critica nelle attuali valutazioni di sicurezza, in particolare per la distribuzione di agenti specializzati.

La Rappresentazione Neurale Implicita Facilita la Codifica Visiva Universale Unificata
Implicit Neural Representation Facilitates Unified Universal Vision Encoding

Jan 20

ByMatthew Gwilliam, Xiao Wang, Xuefeng Hu, Zhenheng Yang

I modelli per l'apprendimento della rappresentazione di immagini sono tipicamente progettati per il riconoscimento o la generazione. Varie forme di apprendimento contrastivo aiutano i modelli a imparare a convertire le immagini in embedding utili per classificazione, rilevamento e segmentazione. D'altro canto, i modelli possono essere addestrati a ricostruire immagini con perdite pixel-wise, percettive e adversarial per apprendere uno spazio latente utile alla generazione di immagini. Cerchiamo di unificare queste due direzioni con un modello pionieristico che apprende rappresentazioni simultaneamente utili per riconoscimento e generazione. Addestriamo il nostro modello come un iper-rete per rappresentazione neurale implicita, che impara a mappare immagini a pesi del modello per una ricostruzione rapida e accurata. Integriamo ulteriormente la nostra iper-rete INR con la distillazione della conoscenza per migliorarne la generalizzazione e le prestazioni. Oltre alla progettazione innovativa dell'addestramento, il modello apprende anche uno spazio di embedding compresso senza precedenti con prestazioni eccezionali per varie attività visive. Il modello completo compete con risultati all'avanguardia per l'apprendimento della rappresentazione di immagini, consentendo anche capacità generative grazie ai suoi embedding compressi di alta qualità. Il codice è disponibile all'indirizzo https://github.com/tiktok/huvr.

FARE: Esplorazione Robotica Agente Veloce-Lenta
FARE: Fast-Slow Agentic Robotic Exploration

Jan 21

ByShuhao Liao, Xuxin Lv, Jeric Lew, Shizhe Zhang, Jingsong Liang, Peizhuo Li, Yuhong Cao, Wenjun Wu, Guillaume Sartoretti

Questo lavoro avanza l'esplorazione autonoma dei robot integrando il ragionamento semantico a livello di agente con un controllo locale rapido. Introduciamo FARE, un framework gerarchico per l'esplorazione autonoma che integra un grande modello linguistico (LLM) per il ragionamento globale con una politica di apprendimento per rinforzo (RL) per il processo decisionale locale. FARE segue un paradigma di pensiero veloce-lento. Il modulo LLM a pensiero lento interpreta una descrizione testuale concisa dell'ambiente sconosciuto e sintetizza una strategia di esplorazione a livello di agente, che viene poi radicata in una sequenza di waypoint globali attraverso un grafo topologico. Per migliorare ulteriormente l'efficienza del ragionamento, questo modulo impiega un meccanismo di potatura basato sulla modularità che riduce le strutture ridondanti del grafo. Il modulo RL a pensiero veloce esegue l'esplorazione reagendo alle osservazioni locali mentre è guidato dai waypoint globali generati dall'LLM. La politica RL è inoltre modellata da un termine di ricompensa che incoraggia l'aderenza ai waypoint globali, consentendo un comportamento coerente e robusto a ciclo chiuso. Questa architettura disaccoppia il ragionamento semantico dalla decisione geometrica, permettendo a ciascun modulo di operare sulla propria appropriata scala temporale e spaziale. In ambienti simulati complessi, i nostri risultati mostrano che FARE raggiunge miglioramenti sostanziali nell'efficienza di esplorazione rispetto ai metodi allo stato dell'arte. Implementiamo inoltre FARE su hardware e lo convalidiamo in un ambiente edificio complesso e su larga scala di 200m x 130m.

Quantificazione delle Interazioni tra Regole Fonologiche e Embedding del Parlante nella Sintesi del Linguaggio Accentato
Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis

Jan 20

ByThanathai Lertpetchpun, Yoonjeong Lee, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan

Molte lingue parlate, inclusa l'inglese, presentano un'ampia variazione di dialetti e accenti, rendendo il controllo dell'accento un'abilità importante per modelli flessibili di sintesi vocale (TTS). I sistemi TTS attuali generano tipicamente un parlato accentato condizionando l'output su embedding del parlatore associati ad accenti specifici. Sebbene efficace, questo approccio offre una limitata interpretabilità e controllabilità, poiché gli embedding codificano anche tratti come il timbro e l'emozione. In questo studio, analizziamo l'interazione tra gli embedding del parlatore e regole fonologicamente motivate nella sintesi del parlato accentato. Utilizzando l'inglese americano e britannico come caso di studio, implementiamo regole per il flapping, la rotacità e le corrispondenze vocaliche. Proponiamo il tasso di scostamento fonemico (PSR), una nuova metrica che quantifica quanto fortemente gli embedding preservano o sovrascrivono trasformazioni basate su regole. Gli esperimenti mostrano che combinare le regole con gli embedding produce accenti più autentici, mentre gli embedding possono attenuare o sovrascrivere le regole, rivelando un entanglement tra accento e identità del parlatore. I nostri risultati evidenziano le regole come una leva per il controllo dell'accento e un quadro per valutare il disaccoppiamento nella generazione del parlato.

AgentEHR: Progressi nella Decisione Clinica Autonoma tramite Sintesi Retrospettiva
AgentEHR: Advancing Autonomous Clinical Decision-Making via Retrospective Summarization

Jan 20

ByYusheng Liao, Chuan Xuan, Yutong Cai, Lina Yang, Zhe Chen, Yanfeng Wang, Yu Wang

I modelli linguistici di grandi dimensioni hanno dimostrato un'utilità profonda nel dominio medico. Tuttavia, la loro applicazione alla navigazione autonoma delle Cartelle Cliniche Elettroniche (EHR) rimane limitata dalla dipendenza da input selezionati e da compiti di recupero semplificati. Per colmare il divario tra le impostazioni sperimentali idealizzate e gli ambienti clinici realistici, presentiamo AgentEHR. Questo benchmark sfida gli agenti a eseguire complesse attività decisionali, come la diagnosi e la pianificazione del trattamento, che richiedono un ragionamento interattivo a lungo raggio direttamente all'interno di database grezzi e ad alto rumore. Nell'affrontare questi compiti, identifichiamo che i metodi di summarization esistenti soffrono inevitabilmente di una perdita critica di informazioni e di una continuità di ragionamento frammentata. Per risolvere questo problema, proponiamo RetroSum, un nuovo framework che unisce un meccanismo di summarization retrospettivo a una strategia di esperienza evolutiva. Rivalutando dinamicamente la cronologia delle interazioni, il meccanismo retrospettivo previene la perdita di informazioni nel contesto lungo e garantisce una coerenza logica ininterrotta. Inoltre, la strategia evolutiva colma il divario di dominio recuperando l'esperienza accumulata da una memoria. Estese valutazioni empiriche dimostrano che RetroSum raggiunge miglioramenti delle prestazioni fino al 29,16% rispetto a baseline competitive, riducendo al contempo gli errori di interazione totali fino al 92,3%.

Persi nell'Ordine dei Prompt: Svelare le Limitazioni dell'Attenzione Causale nei Modelli Linguistici
Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models

Jan 20

ByHyunjong Ok, Jaeho Lee

I modelli linguistici di grandi dimensioni mostrano una sorprendente sensibilità alla struttura del prompt, ma i meccanismi alla base di questa sensibilità rimangono poco compresi. In questo lavoro, conduciamo un'indagine approfondita su un caso eclatante: nell'ambito della risposta a domande a scelta multipla, posizionare il contesto prima delle domande e delle opzioni (CQO) supera l'ordine inverso (QOC) di oltre 14 punti percentuali, in modo coerente su un'ampia gamma di modelli e dataset. Attraverso un'analisi architetturale sistematica, identifichiamo l'attenzione causale come il meccanismo centrale: nei prompt QOC, la maschera causale impedisce ai token delle opzioni di prestare attenzione al contesto, creando un collo di bottiglia informativo in cui il contesto diventa invisibile alle opzioni.

Facilitare una Guida Proattiva e Reattiva per il Processo Decisionale sul Web: Una Sonda di Progettazione con WebSeek
Facilitating Proactive and Reactive Guidance for Decision Making on the Web: A Design Probe with WebSeek

Jan 21

ByYanwei Huang, Arpit Narechania

Gli agenti di intelligenza artificiale web come ChatGPT Agent e GenSpark sono sempre più utilizzati per attività di routine basate sul web, ma dipendono ancora da prompt di input testuali, mancano di rilevamento proattivo dell'intento dell'utente e non offrono supporto per l'analisi interattiva dei dati e il processo decisionale. Presentiamo WebSeek, un'estensione browser a iniziativa mista che consente agli utenti di scoprire ed estrarre informazioni dalle pagine web per poi costruire, trasformare e affinare in modo flessibile artefatti di dati tangibili - come tabelle, elenchi e visualizzazioni - tutto all'interno di una tela interattiva. In questo ambiente, gli utenti possono eseguire analisi - incluse trasformazioni dei dati come l'unione di tabelle o la creazione di visualizzazioni - mentre un'IA integrata offre proattivamente una guida e automazione contestuale, e risponde in modo reattivo a richieste esplicite dell'utente. Uno studio esplorativo con utenti (N=15) che ha utilizzato WebSeek come strumento d'indagine rivela le diverse strategie di analisi dei partecipanti, sottolineando il loro desiderio di trasparenza e controllo durante la collaborazione umano-IA.

Il Vuoto di Responsabilità: Fallimento Organizzativo nei Sistemi di Agenti Scalati
The Responsibility Vacuum: Organizational Failure in Scaled Agent Systems

Jan 21

ByOleg Romanchuk, Roman Bondar

Le pipeline CI/CD moderne che integrano codice generato da agenti presentano un fallimento strutturale nell'attribuzione della responsabilità. Le decisioni vengono eseguite attraverso processi di approvazione formalmente corretti, eppure nessuna entità possiede sia l'autorità per approvare tali decisioni che la capacità epistemica di comprenderne significativamente le basi. Definiamo questa condizione come vuoto di responsabilità: uno stato in cui le decisioni avvengono, ma la responsabilità non può essere attribuita perché autorità e capacità di verifica non coincidono. Dimostriamo che ciò non costituisce una deviazione processuale o un difetto tecnico, bensì una proprietà strutturale dei deployment in cui la produttività nella generazione decisionale supera la capacità umana limitata di verifica. Identifichiamo un limite di scalabilità sotto ipotesi di deployment standard, inclusa la generazione parallela da agenti, la validazione basata su CI e gate di approvazione umana individualizzati. Oltre una certa soglia di produttività, la verifica cessa di funzionare come criterio decisionale e viene sostituita da un'approvazione ritualizzata basata su segnali indiretti. In questo regime, la responsabilità personalizzata diventa strutturalmente irraggiungibile. Caratterizziamo inoltre una dinamica di amplificazione CI, per cui l'aumento della copertura di validazione automatizzata incrementa la densità dei segnali indiretti senza ripristinare la capacità umana. Sotto vincoli fissi di tempo e attenzione, ciò accelera lo scarico cognitivo in senso lato e allarga il divario tra approvazione formale e comprensione epistemica. Un'automazione aggiuntiva, quindi, amplifica anziché mitigare il vuoto di responsabilità. Concludiamo che, a meno che le organizzazioni non ridisegnino esplicitamente i confini decisionali o non riassegnino la responsabilità dalle decisioni individuali verso una proprietà a livello di batch o di sistema, il vuoto di responsabilità rimane una modalità di fallimento invisibile ma persistente nei deployment scalati di agenti.

Dimostrami le prove: Valutazione del ruolo delle evidenze e delle spiegazioni in linguaggio naturale nel fact-checking supportato dall'IA
Show me the evidence: Evaluating the role of evidence and natural language explanations in AI-supported fact-checking

Jan 16

ByGreta Warren, Jingyi Sun, Irina Shklovski, Isabelle Augenstein

Sebbene molte ricerche si siano concentrate sulle spiegazioni dell'IA per supportare le decisioni in compiti complessi di ricerca di informazioni come il fact-checking, il ruolo delle prove è sorprendentemente poco studiato. Nel nostro studio, abbiamo variato sistematicamente il tipo di spiegazione, la certezza della previsione dell'IA e la correttezza dei consigli del sistema di IA per partecipanti non esperti, che hanno valutato la veridicità delle affermazioni e delle previsioni del sistema. Ai partecipanti è stata data la possibilità di ispezionare facilmente le prove sottostanti. Abbiamo scoperto che i partecipanti facevano sistematicamente affidamento sulle prove per convalidare le affermazioni dell'IA in tutte le condizioni sperimentali. Quando ai partecipanti venivano presentate spiegazioni in linguaggio naturale, le prove venivano utilizzate meno frequentemente, sebbene vi facessero ricorso quando queste spiegazioni sembravano insufficienti o imperfette. I dati qualitativi suggeriscono che i partecipanti tentavano di dedurre l'affidabilità della fonte delle prove, nonostante l'identità delle fonti fosse stata volutamente omessa. I nostri risultati dimostrano che le prove sono un ingrediente chiave nel modo in cui le persone valutano l'affidabilità delle informazioni presentate da un sistema di IA e, in combinazione con spiegazioni in linguaggio naturale, offrono un supporto prezioso per il processo decisionale. Sono urgentemente necessarie ulteriori ricerche per comprendere come le prove dovrebbero essere presentate e come le persone le utilizzano nella pratica.

sangkuriang: una libreria Python pseudo-spettrale per la simulazione di solitoni di Korteweg-de Vries
sangkuriang: A pseudo-spectral Python library for Korteweg-de Vries soliton simulation

Jan 17

BySandy H. S. Herho, Faruq Khadami, Iwan P. Anwar, Dasapta E. Irawan

L'equazione di Korteweg-de Vries (KdV) rappresenta un modello fondamentale nella fisica delle onde non lineari, descrivendo l'equilibrio tra la dispersione e l'effetto di steepening non lineare che dà origine ai solitoni. Questo articolo presenta **sangkuriang**, una libreria Python open-source per risolvere questa equazione utilizzando la discretizzazione spaziale pseudo-spettrale di Fourier accoppiata a metodi di integrazione temporale adattivi di ordine elevato. L'implementazione sfrutta la compilazione just-in-time (JIT) per l'efficienza computazionale, mantenendo al contempo l'accessibilità per scopi didattici. La validazione comprende scenari progressivamente complessi, tra cui la propagazione di un solitone isolato, configurazioni simmetriche a due onde, collisioni di sorpasso tra onde di ampiezza diversa e interazioni a tre corpi. La conservazione degli invarianti classici è monitorata durante le simulazioni, con scostamenti che rimangono piccoli in tutti i casi test. Le velocità dei solitoni misurate si conformano strettamente alle previsioni teoriche basate sulla relazione ampiezza-velocità caratteristica dei sistemi integrabili. Diagnostiche complementari tratte dalla teoria dell'informazione e dall'analisi di ricorrenza confermano che le soluzioni calcolate preservano la struttura regolare dello spazio delle fasi attesa per dinamiche completamente integrabili. Il risolutore produce dati in formati scientifici standard compatibili con i comuni strumenti di analisi e genera visualizzazioni dell'evoluzione spazio-temporale dell'onda. Combinando accuratezza numerica e accessibilità pratica con risorse computazionali modeste, sangkuriang offre una piattaforma adatta sia per dimostrazioni didattiche dei fenomeni delle onde non lineari che per la ricerca esplorativa sulla dinamica dei solitoni.

CURE-Med: Apprendimento per Rinforzo su Base Curriculare per il Ragionamento Medico Multilingue
CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Jan 19

ByEric Onyame, Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen, Chirag Agarwal

Sebbene i grandi modelli linguistici (LLM) abbiano dimostrato buone prestazioni nel ragionamento matematico e di senso comune monolingue, rimangono inaffidabili per applicazioni di ragionamento medico multilingue, ostacolandone l'implementazione in contesti sanitari multilingue. Affrontiamo questo problema introducendo innanzitutto CUREMED-BENCH, un dataset multilingue di alta qualità per il ragionamento medico, composto da query di ragionamento aperte con una singola risposta verificabile, che copre tredici lingue, incluse lingue sottorappresentate come l'amarico, lo yoruba e lo swahili. Basandoci su questo dataset, proponiamo CURE-MED, un framework di reinforcement learning basato su un curriculum che integra un fine-tuning supervisionato consapevole del code-switching e l'ottimizzazione delle politiche relative ai gruppi (Group Relative Policy Optimization) per migliorare congiuntamente la correttezza logica e la stabilità linguistica. In tutte le tredici lingue, il nostro approccio supera costantemente baseline robuste e scala efficacemente, raggiungendo l'85,21% di consistenza linguistica e il 54,35% di correttezza logica con 7 miliardi di parametri, e il 94,96% di consistenza linguistica e il 70,04% di correttezza logica con 32 miliardi di parametri. Questi risultati supportano un ragionamento medico multilingue affidabile ed equo negli LLM. Il codice e il dataset sono disponibili all'indirizzo https://cure-med.github.io/