HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

18 papers found

SemanticGen: Generazione Video nello Spazio Semantico
SemanticGen: Video Generation in Semantic Space

Dec 23

ByJianhong Bai, Xiaoshi Wu, Xintao Wang, Fu Xiao, Yuanxing Zhang, Qinghe Wang, Xiaoyu Shi, Menghan Xia, Zuozhu Liu, Haoji Hu, Pengfei Wan, Kun Gai

I modelli generativi video all'avanguardia apprendono tipicamente la distribuzione dei latenti video nello spazio VAE e li mappano ai pixel utilizzando un decodificatore VAE. Sebbene questo approccio possa generare video di alta qualità, soffre di una lenta convergenza ed è computazionalmente costoso nella generazione di video lunghi. In questo articolo, introduciamo SemanticGen, una soluzione innovativa per affrontare queste limitazioni generando video nello spazio semantico. La nostra intuizione principale è che, a causa della ridondanza intrinseca dei video, il processo di generazione dovrebbe iniziare in uno spazio semantico compatto di alto livello per la pianificazione globale, seguito dall'aggiunta di dettagli ad alta frequenza, piuttosto che modellare direttamente un vasto insieme di token video di basso livello utilizzando l'attenzione bidirezionale. SemanticGen adotta un processo di generazione a due stadi. Nella prima fase, un modello di diffusione genera caratteristiche video semantiche compatte, che definiscono il layout globale del video. Nella seconda fase, un altro modello di diffusione genera i latenti VAE condizionati da queste caratteristiche semantiche per produrre l'output finale. Osserviamo che la generazione nello spazio semantico porta a una convergenza più rapida rispetto allo spazio latente VAE. Il nostro metodo è anche efficace e computazionalmente efficiente quando esteso alla generazione di video lunghi. Esperimenti estesi dimostrano che SemanticGen produce video di alta qualità e supera gli approcci all'avanguardia e baseline solide.

Ottimizzazione delle Politiche dal Basso: Il Tuo Modello Linguistico Contiene Segretamente Politiche Interne
Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

Dec 22

ByYuqiao Tan, Minzheng Wang, Shizhu He, Huanxuan Liao, Chengfeng Zhao, Qiunan Lu, Tian Liang, Jun Zhao, Kang Liu

Gli approcci esistenti di apprendimento per rinforzo (RL) trattano i grandi modelli linguistici (LLM) come un'unica politica unificata, trascurando i loro meccanismi interni. Comprendere come la politica si evolve attraverso i layer e i moduli è quindi cruciale per abilitare un'ottimizzazione più mirata e per svelare i complessi meccanismi di ragionamento. In questo articolo, scomponiamo la politica del modello linguistico sfruttando la suddivisione intrinseca del flusso residuo del Transformer e l'equivalenza tra la composizione degli stati nascosti con la matrice di "unembedding" e la politica campionabile risultante. Questa scomposizione rivela Politiche di Layer Interni, corrispondenti ai contributi dei singoli layer, e Politiche Modulari Interne, che si allineano con i componenti di self-attention e delle reti feed-forward (FFN) all'interno di ogni layer. Analizzando l'entropia della politica interna, scopriamo che: (a) I layer iniziali mantengono un'alta entropia per l'esplorazione, mentre i layer finali convergono verso un'entropia quasi zero per l'affinamento, con pattern di convergenza che variano tra le diverse serie di modelli. (b) Lo spazio di predizione di LLama converge rapidamente nel layer finale, mentre i modelli della serie Qwen, in particolare Qwen3, mostrano un pattern di ragionamento progressivamente strutturato, più simile a quello umano. Stimolati da questi risultati, proponiamo l'Ottimizzazione Bottom-up della Politica (BuPO), un nuovo paradigma di RL che ottimizza direttamente la politica interna dei layer durante le fasi iniziali dell'addestramento. Allineando l'obiettivo di addestramento ai layer inferiori, la BuPO ricostruisce le capacità di ragionamento fondamentali e ottiene prestazioni superiori. Esperimenti estesi su benchmark di ragionamento complesso dimostrano l'efficacia del nostro metodo. Il nostro codice è disponibile all'indirizzo https://github.com/Trae1ounG/BuPO.

LongVideoAgent: Ragionamento Multi-Agente con Video Lunghi
LongVideoAgent: Multi-Agent Reasoning with Long Videos

Dec 23

ByRuntao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen

I recenti progressi nei modelli linguistici multimodali e nei sistemi che utilizzano strumenti per la risposta a domande su video lunghi indicano il potenziale del ragionamento su episodi della durata di ore. Tuttavia, molti metodi comprimono ancora i contenuti in riassunti con perdita di informazioni o si affidano a set di strumenti limitati, indebolendo il grounding temporale e tralasciando indizi granulari. Proponiamo un framework multi-agente in cui un LLM maestro coordina un agente di grounding per localizzare i segmenti rilevanti per la domanda e un agente visivo per estrarre osservazioni testuali mirate. L'agente maestro pianifica con un limite di passi e viene addestrato con apprendimento per rinforzo per favorire una cooperazione multi-agente concisa, corretta ed efficiente. Questo design aiuta l'agente maestro a concentrarsi sui clip rilevanti tramite il grounding, integra i sottotitoli con dettagli visivi e produce traiettorie interpretabili. Sui nostri dataset LongTVQA e LongTVQA+, aggregati a livello di episodio da TVQA/TVQA+, il nostro sistema multi-agente supera significativamente solidi baseline non agent-based. Gli esperimenti mostrano inoltre che l'apprendimento per rinforzo potenzia ulteriormente il ragionamento e la pianificazione per l'agente addestrato. Codice e dati saranno condivisi su https://longvideoagent.github.io/.

SpatialTree: Come le Abilità Spaziali Si Ramificano nei Modelli Multimodali di Grande Dimensione
SpatialTree: How Spatial Abilities Branch Out in MLLMs

Dec 23

ByYuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang

La scienza cognitiva suggerisce che l'abilità spaziale si sviluppa progressivamente - dalla percezione al ragionamento e all'interazione. Tuttavia, nei modelli linguistici multimodali (MLLM), questa gerarchia rimane poco compresa, poiché la maggior parte degli studi si concentra su un insieme ristretto di compiti. Introduciamo SpatialTree, una gerarchia ispirata alla scienza cognitiva che organizza le abilità spaziali in quattro livelli: percezione di basso livello (L1), mappatura mentale (L2), simulazione (L3) e competenza agentica (L4). Basandoci su questa tassonomia, costruiamo il primo benchmark gerarchico centrato sulle capacità, valutando approfonditamente i principali MLLM attraverso 27 sotto-abilità. I risultati della valutazione rivelano una struttura chiara: le abilità L1 sono largamente ortogonali, mentre quelle di livello superiore sono fortemente correlate, indicando una crescente interdipendenza. Attraverso un fine-tuning supervisionato mirato, scopriamo una dinamica di transfer sorprendente: transfer negativo all'interno di L1, ma un forte transfer cross-level dalle abilità di basso livello a quelle di alto livello con una notevole sinergia. Infine, esploriamo come migliorare l'intera gerarchia. Scopriamo che il RL ingenuo che incoraggia un "pensiero" estensivo è inaffidabile: aiuta il ragionamento complesso ma danneggia la percezione intuitiva. Proponiamo una semplice strategia di auto-pensiero che sopprime le deliberazioni non necessarie, consentendo al RL di migliorare costantemente le prestazioni a tutti i livelli. Costruendo SpatialTree, forniamo un framework proof-of-concept per comprendere e scalare sistematicamente le abilità spaziali negli MLLM.

MemEvolve: Meta-Evoluzione dei Sistemi di Memoria degli Agenti
MemEvolve: Meta-Evolution of Agent Memory Systems

Dec 21

ByGuibin Zhang, Haotian Ren, Chong Zhan, Zhenhong Zhou, Junhao Wang, He Zhu, Wangchunshu Zhou, Shuicheng Yan

I sistemi di memoria auto-evolutivi stanno rimodellando in modo senza precedenti il paradigma evolutivo degli agenti basati su Large Language Model (LLM). I lavori precedenti si sono prevalentemente basati su architetture di memoria progettate manualmente per memorizzare traiettorie, distillare esperienze e sintetizzare strumenti riutilizzabili, consentendo agli agenti di evolversi al volo durante le interazioni con l'ambiente. Tuttavia, questo paradigma è fondamentalmente limitato dalla staticità del sistema di memoria stesso: sebbene la memoria faciliti l'evoluzione a livello di agente, l'architettura di memoria sottostante non può essere meta-adattata a contesti di task diversi. Per colmare questa lacuna, proponiamo MemEvolve, un framework meta-evolutivo che evolve congiuntamente la conoscenza esperienziale degli agenti e la loro architettura di memoria, consentendo ai sistemi agente non solo di accumulare esperienza ma anche di affinare progressivamente il modo in cui apprendono da essa. Per ancorare MemEvolve alla ricerca precedente e promuovere l'apertura nei futuri sistemi auto-evolutivi, introduciamo EvolveLab, un codebase unificato per la memoria auto-evolutiva che condensa dodici sistemi di memoria rappresentativi in uno spazio di progettazione modulare (codifica, memorizzazione, recupero, gestione), fornendo sia un substrato di implementazione standardizzato che un'arena sperimentale equa. Valutazioni estensive su quattro benchmark agentici complessi dimostrano che MemEvolve raggiunge (I) miglioramenti prestazionali sostanziali, potenziando framework come SmolAgent e Flash-Searcher fino al 17,06%; e (II) una forte generalizzazione cross-task e cross-LLM, progettando architetture di memoria che si trasferiscono efficacemente attraverso benchmark e modelli backbone diversi.

Apprendimento per Rinforzo per Agenti Auto-Miglioranti con Libreria di Competenze
Reinforcement Learning for Self-Improving Agent with Skill Library

Dec 18

ByJiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong

Gli agenti basati su Large Language Model (LLM) hanno dimostrato capacità notevoli nel ragionamento complesso e nelle interazioni multi-turno, ma faticano a migliorare e adattarsi continuamente quando vengono implementati in nuovi ambienti. Un approccio promettente è l'implementazione di librerie di abilità che consentono agli agenti di apprendere, validare e applicare nuove competenze. Tuttavia, gli attuali approcci alle librerie di abilità si basano principalmente sul prompting degli LLM, rendendo difficile un'implementazione coerente della libreria di abilità. Per superare queste sfide, proponiamo un approccio basato sul Reinforcement Learning (RL) per potenziare le capacità di auto-miglioramento degli agenti con una libreria di abilità. Nello specifico, introduciamo Skill Augmented GRPO for self-Evolution (SAGE), un nuovo framework RL che incorpora sistematicamente le abilità nell'apprendimento. Il componente chiave del framework, il Sequential Rollout, distribuisce iterativamente gli agenti attraverso una catena di task simili per ogni rollout. Man mano che gli agenti si muovono attraverso la catena di task, le abilità generate dai task precedenti si accumulano nella libreria e diventano disponibili per i task successivi. Inoltre, il framework migliora la generazione e l'utilizzo delle abilità attraverso una Ricompensa Integrata con le Abilità che complementa le ricompense originali basate sul risultato. I risultati sperimentali su AppWorld dimostrano che SAGE, applicato a un modello supervisionato fine-tunato con esperienza esperta, raggiunge un Completion dello Scenario Goal superiore dell'8,9%, richiedendo il 26% in meno di passi di interazione e generando il 59% in meno di token, superando sostanzialmente gli approcci esistenti sia in accuratezza che in efficienza.

Rapporto Tecnico Step-DeepResearch
Step-DeepResearch Technical Report

Dec 23

ByChen Hu, Haikuo Du, Heng Wang, Lin Lin, Mingrui Chen, Peng Liu, Ruihang Miao, Tianchi Yue, Wang You, Wei Ji, Wei Yuan, Wenjin Deng, Xiaojian Yuan, Xiaoyun Zhang, Xiangyu Liu, Xikai Liu, Yanming Xu, Yicheng Cao, Yifei Zhang, Yongyao Wang, Yubo Shu, Yurong Zhang, Yuxiang Zhang, Zheng Gong, Zhichao Chang, Binyan Li, Dan Ma, Furong Jia, Hongyuan Wang, Jiayu Liu, Jing Bai, Junlan Liu, Manjiao Liu, Na Wang, Qiuping Wu, Qinxin Du, Shiwei Li, Wen Sun, Yifeng Gong, Yonglin Chen, Yuling Zhao, Yuxuan Lin, Ziqi Ren, Zixuan Wang, Aihu Zhang, Brian Li, Buyun Ma, Kang An, Li Xie, Mingliang Li, Pan Li, Shidong Yang, Xi Chen, Xiaojia Liu, Yuchu Luo, Yuan Song, YuanHao Ding, Yuanwei Liang, Zexi Li, Zhaoning Zhang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu

Man mano che i LLM evolvono verso agenti autonomi, la Ricerca Approfondita (Deep Research) è emersa come una metrica fondamentale. Tuttavia, i benchmark accademici esistenti come BrowseComp spesso non soddisfano le richieste del mondo reale per la ricerca open-ended, che richiede solide competenze nel riconoscimento dell'intento, nella pianificazione a lungo termine e nella verifica incrociata tra fonti. Per affrontare questa lacuna, introduciamo Step-DeepResearch, un agente end-to-end economicamente efficiente. Proponiamo una Strategia di Sintesi dei Dati Basata su Capacità Atomiche per rafforzare la pianificazione e la stesura di report, combinata con un percorso di addestramento progressivo che va dal mid-training agentico alla SFT e alla RL. Potenziato da un Giudice in stile Checklist, questo approccio migliora significativamente la robustezza. Inoltre, per colmare il divario valutativo nel dominio cinese, istituiamo ADR-Bench per scenari realistici di ricerca approfondita. I risultati sperimentali mostrano che Step-DeepResearch (32B) ottiene un punteggio del 61.4% sulle Scale AI Research Rubrics. Su ADR-Bench, supera significativamente modelli comparabili e rivaleggia con modelli SOTA closed-source come OpenAI e Gemini DeepResearch. Questi risultati dimostrano che un addestramento raffinato consente a modelli di medie dimensioni di raggiungere capacità di livello esperto con un'efficienza di costo all'avanguardia nel settore.

SAM Audio: Segmentare Qualsiasi Cosa nell'Audio
SAM Audio: Segment Anything in Audio

Dec 19

ByBowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee

La separazione generale delle sorgenti audio è una capacità fondamentale per i sistemi di intelligenza artificiale multimodale in grado di percepire e ragionare sui suoni. Nonostante i progressi sostanziali degli ultimi anni, i modelli di separazione esistenti sono specifici per dominio, progettati per categorie fisse come la voce o la musica, oppure limitati nella controllabilità, supportando solo una singola modalità di prompt come il testo. In questo lavoro, presentiamo SAM Audio, un modello fondazionale per la separazione audio generale che unifica il prompt testuale, visivo e di intervallo temporale all'interno di un unico framework. Basato su un'architettura di tipo diffusion transformer, SAM Audio è addestrato con il flow matching su vasti dataset audio che comprendono parlato, musica e suoni generici, ed è in grado di separare flessibilmente le sorgenti target descritte tramite linguaggio, maschere visive o intervalli temporali. Il modello raggiunge prestazioni allo stato dell'arte su un'ampia serie di benchmark, inclusa la separazione di suoni generici, parlato, musica e strumenti musicali sia in audio reali che prodotti professionalmente, superando significativamente i sistemi specializzati e a scopo generale precedenti. Inoltre, introduciamo un nuovo benchmark per la separazione nel mondo reale con prompt multimodali etichettati manualmente e un modello di valutazione reference-free che mostra una forte correlazione con il giudizio umano.

INTELLECT-3: Rapporto Tecnico
INTELLECT-3: Technical Report

Dec 18

ByPrime Intellect Team, Mika Senghaas, Fares Obeid, Sami Jaghouar, William Brown, Jack Min Ong, Daniel Auras, Matej Sirovatka, Jannik Straube, Andrew Baker, Sebastian Müller, Justus Mattern, Manveer Basra, Aiman Ismail, Dominik Scherm, Cooper Miller, Ameen Patel, Simon Kirsten, Mario Sieg, Christian Reetz, Kemal Erdem, Vincent Weisser, Johannes Hagemann

Presentiamo INTELLECT-3, un modello Mixture-of-Experts da 106B di parametri (12B attivi) addestrato con tecniche di apprendimento per rinforzo su larga scala sulla nostra infrastruttura end-to-end dedicata all'RL. INTELLECT-3 raggiunge prestazioni allo stato dell'arte per le sue dimensioni su benchmark di matematica, codice, scienza e ragionamento, superando molti modelli all'avanguardia più grandi. Rendiamo open-source il modello insieme all'intero stack infrastrutturale utilizzato per crearlo, inclusi i framework RL, la ricetta completa e un'ampia raccolta di ambienti, sviluppati con la libreria dei verificatori, per l'addestramento e la valutazione dalla nostra piattaforma comunitaria Environments Hub. Creato per questo progetto, introduciamo prime-rl, un framework open per l'apprendimento per rinforzo asincrono su larga scala, che scala in modo fluido da un singolo nodo a migliaia di GPU ed è ottimizzato per RL agentico con supporto di prima classe per interazioni multi-turno e utilizzo di strumenti. Utilizzando questo stack, abbiamo eseguito sia l'addestramento SFT che RL partendo dal modello GLM-4.5-Air-Base, scalando l'addestramento RL fino a 512 GPU H200 con un'elevata efficienza.

Leggi di Scalabilità per il Codice: Ogni Linguaggio di Programmazione Conta
Scaling Laws for Code: Every Programming Language Matters

Dec 15

ByJian Yang, Shawn Guo, Lin Jing, Wei Zhang, Aishan Liu, Chuan Hao, Zhoujun Li, Wayne Xin Zhao, Xianglong Liu, Weifeng Lv, Bryan Dai

I modelli linguistici di codice (Code LLM) sono potenti ma costosi da addestrare, con le leggi di scalabilità che ne predicono le prestazioni in base alle dimensioni del modello, ai dati e alla potenza di calcolo. Tuttavia, i diversi linguaggi di programmazione (PL) hanno impatti variabili durante il pre-addestramento che influiscono significativamente sulle prestazioni del modello base, portando a previsioni imprecise. Inoltre, i lavori esistenti si concentrano su impostazioni indipendenti dalla lingua, trascurando la natura intrinsecamente multilingue dello sviluppo software moderno. Pertanto, è prima necessario investigare le leggi di scalabilità dei diversi PL, e poi considerare le loro influenze reciproche per arrivare alla legge di scalabilità multilingue finale. In questo articolo, presentiamo la prima esplorazione sistematica delle leggi di scalabilità per il pre-addestramento multilingue sul codice, conducendo oltre 1000 esperimenti (equivalenti a più di 336.000 ore di H800) su più PL, dimensioni del modello (da 0,2 a 14 miliardi di parametri) e dimensioni dei dataset (1T di token). Stabiliamo leggi di scalabilità complete per i Code LLM su più PL, rivelando che i linguaggi interpretati (ad es. Python) beneficiano maggiormente dell'aumento delle dimensioni del modello e dei dati rispetto ai linguaggi compilati (ad es. Rust). Lo studio dimostra che il pre-addestramento multilingue fornisce benefici sinergici, specialmente tra PL sintatticamente simili. Inoltre, la strategia di pre-addestramento dell'abbinamento parallelo (concatenare frammenti di codice con le loro traduzioni) migliora significativamente le capacità cross-lingua con proprietà di scalabilità favorevoli. Infine, viene proposta una legge di scalabilità multilingue dipendente dalle proporzioni per allocare ottimalmente i token di addestramento, dando priorità ai PL ad alta utilità (ad es. Python), bilanciando le coppie ad alta sinergia (ad es. JavaScript-TypeScript) e riducendo l'allocazione ai linguaggi a saturazione rapida (Rust), ottenendo prestazioni medie superiori su tutti i PL rispetto alla distribuzione uniforme con lo stesso budget computazionale.

FaithLens: Rilevamento e Spiegazione delle Allucinazioni di Fedeltà
FaithLens: Detecting and Explaining Faithfulness Hallucination

Dec 23

ByShuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun

Riconoscere se gli output dei grandi modelli linguistici (LLM) contengono allucinazioni di fedeltà è cruciale per applicazioni nel mondo reale, come la generazione aumentata dal recupero di informazioni e la summarizzazione. In questo articolo, introduciamo FaithLens, un modello di rilevamento delle allucinazioni di fedeltà efficiente in termini di costi ed efficace, in grado di fornire congiuntamente previsioni binarie e le relative spiegazioni per migliorare l'affidabilità. Per raggiungere questo obiettivo, sintetizziamo innanzitutto dati di addestramento con spiegazioni tramite LLM avanzati e applichiamo una strategia di filtraggio dei dati ben definita per garantire la correttezza delle etichette, la qualità delle spiegazioni e la diversità dei dati. Successivamente, addestriamo il modello su questi dati di addestramento accuratamente selezionati come avvio a freddo e lo ottimizziamo ulteriormente con l'apprendimento per rinforzo basato su regole, utilizzando ricompense sia per la correttezza della previsione che per la qualità della spiegazione. I risultati su 12 task diversi mostrano che FaithLens, con i suoi 8 miliardi di parametri, supera modelli avanzati come GPT-4.1 e o3. Inoltre, FaithLens è in grado di produrre spiegazioni di alta qualità, offrendo un equilibrio distintivo tra affidabilità, efficienza ed efficacia.

Simulstream: Toolkit Open-Source per la Valutazione e Dimostrazione di Sistemi di Traduzione Vocale in Tempo Reale
Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems

Dec 19

ByMarco Gaido, Sara Papi, Mauro Cettolo, Matteo Negri, Luisa Bentivogli

La traduzione simultanea parlato-testo (StreamST) richiede la produzione di traduzioni in concomitanza con il parlato in arrivo, imponendo vincoli di latenza stringenti e richiedendo modelli che bilancino il processo decisionale su informazioni parziali con un'elevata qualità di traduzione. Finora, gli sforzi di ricerca sull'argomento si sono basati sul repository SimulEval, che non è più mantenuto e non supporta sistemi in grado di revisionare i propri output. Inoltre, è stato progettato per simulare l'elaborazione di segmenti brevi, piuttosto che flussi audio di lunga durata, e non fornisce un metodo semplice per mostrare i sistemi in una demo. Come soluzione, introduciamo SimulStream, il primo framework open-source dedicato alla valutazione unificata e alla dimostrazione di sistemi StreamST. Progettato per l'elaborazione del parlato di lunga durata, supporta non solo approcci di decodifica incrementale, ma anche metodi di re-traduzione, consentendo il loro confronto all'interno dello stesso framework sia in termini di qualità che di latenza. Inoltre, offre anche un'interfaccia web interattiva per dimostrare qualsiasi sistema costruito all'interno dello strumento.

Memory-T1: Apprendimento per Rinforzo per il Ragionamento Temporale in Agenti Multi-sessione
Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents

Dec 23

ByYiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong

Il ragionamento temporale su dialoghi lunghi e multi-sessione è una capacità critica per gli agenti conversazionali. Tuttavia, lavori esistenti e il nostro studio pilota hanno dimostrato che quando le cronologie dei dialoghi aumentano in lunghezza e accumulano rumore, i modelli a contesto lungo attuali faticano a identificare con precisione le informazioni temporalmente pertinenti, compromettendo significativamente le prestazioni di ragionamento. Per affrontare questo problema, introduciamo Memory-T1, un framework che apprende una politica di selezione della memoria consapevole del tempo utilizzando l'apprendimento per rinforzo (RL). Esso impiega una strategia coarse-to-fine, prima riducendo la cronologia del dialogo in un insieme di candidati mediante filtri temporali e di rilevanza, seguita da un agente RL che seleziona le sessioni di evidenza precise. L'addestramento RL è guidato da una funzione di ricompensa multi-livello che ottimizza (i) l'accuratezza della risposta, (ii) il grounding delle evidenze e (iii) la coerenza temporale. In particolare, la ricompensa per la coerenza temporale fornisce un segnale denso valutando l'allineamento con l'ambito temporale della query sia a livello di sessione (prossimità cronologica) che a livello di enunciato (fedeltà cronologica), consentendo all'agente di risolvere ambiguità cronologiche sottili. Sul benchmark Time-Dialog, Memory-T1 spinge un modello da 7B a un punteggio complessivo del 67,0%, stabilendo una nuova prestazione state-of-the-art per i modelli open-source e superando un baseline da 14B del 10,2%. Studi di ablazione mostrano che le ricompense per la coerenza temporale e il grounding delle evidenze contribuiscono congiuntamente a un guadagno prestazionale del 15,0%. Inoltre, Memory-T1 mantiene la robustezza fino a 128k token, dove i modelli baseline collassano, dimostrando efficacia contro il rumore in estese cronologie di dialoghi. Il codice e i dataset sono pubblicamente disponibili su https://github.com/Elvin-Yiming-Du/Memory-T1/.

QuantiPhy: un benchmark quantitativo per valutare le capacità di ragionamento fisico dei modelli visione-linguaggio
QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

Dec 22

ByLi Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli

Comprendere il mondo fisico è essenziale per gli agenti di IA generalisti. Tuttavia, rimane poco chiaro se i modelli di percezione visiva all'avanguardia (ad esempio, i grandi VLM) siano in grado di ragionare sulle proprietà fisiche in modo quantitativo. Le valutazioni esistenti sono prevalentemente basate su VQA e qualitative, offrendo una comprensione limitata sulla capacità di questi modelli di inferire quantità cinematiche di oggetti in movimento da osservazioni video. Per affrontare questa lacuna, presentiamo QuantiPhy, il primo benchmark progettato per misurare quantitativamente l'abilità di ragionamento fisico di un VLM. Composto da oltre 3.3K istanze video-testo con verità numerica di riferimento (ground truth), QuantiPhy valuta le prestazioni di un VLM nella stima delle dimensioni, velocità e accelerazione di un oggetto in un dato istante temporale, utilizzando una di queste proprietà come informazione a priori in input. Il benchmark standardizza i prompt e i criteri di punteggio per valutare l'accuratezza numerica, consentendo confronti equi tra i modelli. I nostri esperimenti su VLM all'avanguardia rivelano un divario consistente tra la loro plausibilità qualitativa e l'effettiva correttezza numerica. Forniamo inoltre un'analisi approfondita di fattori chiave come il rumore di fondo, le informazioni a priori controfattuali e il prompting strategico, e scopriamo che i VLM all'avanguardia si affidano pesantemente alla conoscenza del mondo pre-appresa piuttosto che utilizzare fedelmente gli input visivi e testuali forniti come riferimento quando ragionano quantitativamente sulle proprietà cinematiche. QuantiPhy offre il primo banco di prova rigoroso e scalabile per spingere i VLM oltre la mera plausibilità verbale verso una comprensione fisica numericamente fondata.

Intelligenza Attiva negli Avatar Video tramite Modellazione del Mondo a Ciclo Chiuso
Active Intelligence in Video Avatars via Closed-loop World Modeling

Dec 23

ByXuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen

Gli attuali metodi di generazione di avatar video eccellono nella conservazione dell'identità e nell'allineamento del movimento, ma mancano di un'autentica agentività: non possono perseguire autonomamente obiettivi a lungo termine attraverso l'interazione adattiva con l'ambiente. Affrontiamo questa limitazione introducendo L-IVA (Long-horizon Interactive Visual Avatar), un task e benchmark per valutare la pianificazione finalizzata a obiettivi in ambienti generativi stocastici, e ORCA (Online Reasoning and Cognitive Architecture), il primo framework che abilita l'intelligenza attiva negli avatar video. ORCA incorpora capacità di Modello Interno del Mondo (IWM) attraverso due innovazioni chiave: (1) un ciclo OTAR chiuso (Osserva-Pensa-Agisci-Rifletti) che mantiene un tracking robusto dello stato sotto incertezza generativa verificando continuamente gli esiti previsti rispetto alle generazioni effettive, e (2) un'architettura gerarchica a sistema duale in cui il Sistema 2 esegue ragionamento strategico con previsione dello stato mentre il Sistema 1 traduce piani astratti in descrizioni d'azione precise e specifiche del modello. Formulando il controllo dell'avatar come un POMDP e implementando un aggiornamento continuo delle credenze con verifica degli esiti, ORCA consente il completamento autonomo di task multi-step in scenari a dominio aperto. Esperimenti estensivi dimostrano che ORCA supera significativamente i baseline open-loop e non riflessivi in termini di tasso di successo del task e coerenza comportamentale, convalidando il nostro design ispirato all'IWM per avanzare l'intelligenza degli avatar video dall'animazione passiva a comportamenti attivi e orientati a obiettivi.

Analisi Tematica Multi-LLM con Metriche di Affidabilità Duali: Combinare la Kappa di Cohen e la Similarità Semantica per la Validazione della Ricerca Qualitativa
Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

Dec 23

ByNilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop

La ricerca qualitativa affronta una sfida critica di affidabilità: i metodi tradizionali di accordo tra valutatori richiedono codificatori umani multipli, sono dispendiosi in termini di tempo e spesso producono una consistenza moderata. Presentiamo un quadro di validazione multi-prospettica per l'analisi tematica basata su LLM che combina la validazione d'insieme con metriche duali di affidabilità: il Kappa di Cohen (κ) per l'accordo tra valutatori e la similarità del coseno per la consistenza semantica. Il nostro framework consente parametri di analisi configurabili (1-6 seed, temperatura 0.0-2.0), supporta strutture di prompt personalizzabili con sostituzione di variabili e fornisce l'estrazione di temi consensuali su qualsiasi formato JSON. Come prova concettuale, valutiamo tre LLM leader (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) su una trascrizione di un'intervista di terapia artistica psichedelica, conducendo sei esecuzioni indipendenti per modello. I risultati dimostrano che Gemini raggiunge l'affidabilità più alta (κ= 0.907, coseno=95.3%), seguito da GPT-4o (κ= 0.853, coseno=92.6%) e Claude (κ= 0.842, coseno=92.1%). Tutti e tre i modelli raggiungono un alto accordo (κ> 0.80), convalidando l'approccio d'insieme multi-run. Il framework estrae con successo temi consensuali tra le esecuzioni, con Gemini che identifica 6 temi consensuali (consistenza 50-83%), GPT-4o che ne identifica 5 e Claude 4. La nostra implementazione open-source fornisce ai ricercatori metriche di affidabilità trasparenti, configurazione flessibile ed estrazione del consenso indipendente dalla struttura, stabilendo le basi metodologiche per una ricerca qualitativa assistita dall'IA affidabile.

Tossicità in Vista: Prevedere il Deragliamento Conversazionale su GitHub
Toxicity Ahead: Forecasting Conversational Derailment on GitHub

Dec 17

ByMia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski

Le interazioni tossiche nelle comunità di software open source (OSS) riducono il coinvolgimento dei contributori e minacciano la sostenibilità dei progetti. Prevenire tale tossicità prima che emerga richiede una chiara comprensione di come si sviluppano le conversazioni dannose. Tuttavia, la maggior parte delle strategie di moderazione proattiva sono manuali, richiedendo un notevole dispendio di tempo e impegno da parte dei maintainer della comunità. Per supportare approcci più scalabili, abbiamo curato un dataset composto da 159 thread tossici degenerati e 207 thread non tossici, tratti dalle discussioni su GitHub. La nostra analisi rivela che la tossicità può essere prevista attraverso trigger di tensione, cambiamenti di sentiment e specifici pattern conversazionali. Presentiamo un framework innovativo basato su Large Language Model (LLM) per prevedere la degenerazione conversazionale su GitHub, utilizzando una pipeline di prompting in due fasi. In primo luogo, generiamo dei Riassunti delle Dinamiche Conversazionali (SCD) tramite il prompting Least-to-Most (LtM); successivamente, utilizziamo questi riassunti per stimare la probabilità di degenerazione. Valutata sui modelli Qwen e Llama, la nostra strategia LtM raggiunge rispettivamente punteggi F1 di 0.901 e 0.852 a una soglia decisionale di 0.3, superando i baseline NLP consolidati per la degenerazione conversazionale. Una validazione esterna su un dataset di 308 thread di issue di GitHub (65 tossici, 243 non tossici) produce un punteggio F1 fino a 0.797. I nostri risultati dimostrano l'efficacia del prompting strutturato con LLM per il rilevamento precoce della degenerazione conversazionale negli OSS, abilitando una moderazione proattiva e spiegabile.

Imparare a Rifocalizzare con i Modelli di Diffusione Video
Learning to Refocus with Video Diffusion Models

Dec 22

BySaiKiran Tedla, Zhoutong Zhang, Xuaner Zhang, Shumian Xin

La messa a fuoco è un pilastro fondamentale della fotografia, eppure i sistemi autofocus spesso non riescono a catturare il soggetto desiderato, e gli utenti desiderano frequentemente regolare la messa a fuoco dopo lo scatto. Introduciamo un metodo innovativo per una realistica rifocalizzazione post-acquisizione che utilizza modelli di diffusione video. Partendo da una singola immagine sfocata, il nostro approccio genera una pila focale percettivamente accurata, rappresentata come una sequenza video, consentendo una rifocalizzazione interattiva e sbloccando una serie di applicazioni successive. Rilasciamo un ampio dataset di pile focali acquisito in varie condizioni reali con smartphone per supportare questo lavoro e la ricerca futura. Il nostro metodo supera costantemente gli approcci esistenti sia nella qualità percettiva che nella robustezza attraverso scenari complessi, aprendo la strada a capacità di editing della messa a fuoco più avanzate nella fotografia quotidiana. Codice e dati sono disponibili su www.learn2refocus.github.io.

Leggi di Scalabilità per il Codice: Ogni Linguaggio di Programmazione Conta
Scaling Laws for Code: Every Programming Language Matters

Dec 15

ByJian Yang, Shawn Guo, Lin Jing, Wei Zhang, Aishan Liu, Chuan Hao, Zhoujun Li, Wayne Xin Zhao, Xianglong Liu, Weifeng Lv, Bryan Dai