Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Agente di Modelli Linguistici di Grande Scala: Un'Indagine su Metodologia, Applicazioni e Sfide
Large Language Model Agent: A Survey on Methodology, Applications and Challenges

Mar 27

ByJunyu Luo, Weizhi Zhang, Ye Yuan, Yusheng Zhao, Junwei Yang, Yiyang Gu, Bohan Wu, Binqi Chen, Ziyue Qiao, Qingqing Long, Rongcheng Tu, Xiao Luo, Wei Ju, Zhiping Xiao, Yifan Wang, Meng Xiao, Chenwu Liu, Jingyang Yuan, Shichang Zhang, Yiqiao Jin, Fan Zhang, Xian Wu, Hanqing Zhao, Dacheng Tao, Philip S. Yu, Ming Zhang

L'era degli agenti intelligenti è ormai arrivata, trainata dai progressi rivoluzionari nei modelli linguistici di grandi dimensioni. Gli agenti basati su Large Language Model (LLM), con comportamenti orientati agli obiettivi e capacità di adattamento dinamico, rappresentano potenzialmente una via critica verso l'intelligenza artificiale generale. Questo studio analizza sistematicamente i sistemi di agenti LLM attraverso una tassonomia centrata sulla metodologia, collegando le basi architetturali, i meccanismi di collaborazione e i percorsi evolutivi. Unifichiamo i filoni di ricerca frammentati rivelando le connessioni fondamentali tra i principi di progettazione degli agenti e i loro comportamenti emergenti in ambienti complessi. Il nostro lavoro fornisce una prospettiva architetturale unificata, esaminando come gli agenti sono costruiti, come collaborano e come si evolvono nel tempo, affrontando anche metodologie di valutazione, applicazioni di strumenti, sfide pratiche e diversi domini applicativi. Esaminando gli ultimi sviluppi in questo campo in rapida evoluzione, offriamo ai ricercatori una tassonomia strutturata per comprendere gli agenti LLM e identifichiamo direzioni promettenti per la ricerca futura. La raccolta è disponibile all'indirizzo https://github.com/luo-junyu/Awesome-Agent-Papers.

Video-R1: Rafforzamento del Ragionamento Video nei MLLM
Video-R1: Reinforcing Video Reasoning in MLLMs

Mar 27

ByKaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue

Ispirati dal successo di DeepSeek-R1 nell'evocare capacità di ragionamento attraverso l'apprendimento per rinforzo basato su regole (RL), introduciamo Video-R1 come il primo tentativo di esplorare sistematicamente il paradigma R1 per stimolare il ragionamento video all'interno di modelli linguistici multimodali di grandi dimensioni (MLLMs). Tuttavia, l'applicazione diretta dell'addestramento RL con l'algoritmo GRPO al ragionamento video presenta due principali sfide: (i) la mancanza di modellazione temporale per il ragionamento video, e (ii) la scarsità di dati di alta qualità per il ragionamento video. Per affrontare questi problemi, proponiamo innanzitutto l'algoritmo T-GRPO, che incoraggia i modelli a utilizzare le informazioni temporali nei video per il ragionamento. Inoltre, invece di affidarsi esclusivamente ai dati video, integriamo dati di alta qualità per il ragionamento basato su immagini nel processo di addestramento. Abbiamo costruito due dataset: Video-R1-COT-165k per l'avvio a freddo SFT e Video-R1-260k per l'addestramento RL, entrambi composti da dati di immagini e video. I risultati sperimentali dimostrano che Video-R1 ottiene miglioramenti significativi su benchmark di ragionamento video come VideoMMMU e VSI-Bench, nonché su benchmark video generali tra cui MVBench e TempCompass, ecc. In particolare, Video-R1-7B raggiunge un'accuratezza del 35,8% sul benchmark di ragionamento spaziale video VSI-bench, superando il modello proprietario commerciale GPT-4o. Tutti i codici, i modelli e i dati sono stati rilasciati.

UI-R1: Miglioramento della Previsione delle Azioni degli Agenti GUI mediante Apprendimento per Rinforzo
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

Mar 27

ByZhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li

Il recente DeepSeek-R1 ha dimostrato l'emergere di capacità di ragionamento nei modelli linguistici di grandi dimensioni (LLM) attraverso l'apprendimento per rinforzo (RL) con ricompense basate su regole. Basandoci su questa idea, siamo i primi a esplorare come l'RL basato su regole possa potenziare le capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni (MLLM) per i compiti di previsione delle azioni su interfacce grafiche utente (GUI). A tal fine, abbiamo curato un piccolo ma di alta qualità dataset di 136 compiti impegnativi, che coprono cinque tipi di azioni comuni sui dispositivi mobili. Introduciamo inoltre una ricompensa unificata basata su regole per le azioni, che consente l'ottimizzazione del modello tramite algoritmi basati su politiche come il Group Relative Policy Optimization (GRPO). I risultati sperimentali dimostrano che il nostro modello proposto, efficiente in termini di dati, UI-R1-3B, ottiene miglioramenti sostanziali sia sui compiti in dominio (ID) che fuori dominio (OOD). In particolare, sul benchmark ID AndroidControl, l'accuratezza del tipo di azione migliora del 15%, mentre l'accuratezza di grounding aumenta del 10,3%, rispetto al modello di base (ovvero Qwen2.5-VL-3B). Sul benchmark OOD di grounding GUI ScreenSpot-Pro, il nostro modello supera il modello di base del 6,0% e raggiunge prestazioni competitive con modelli più grandi (ad esempio, OS-Atlas-7B), che sono addestrati tramite fine-tuning supervisionato (SFT) su 76K dati. Questi risultati sottolineano il potenziale dell'apprendimento per rinforzo basato su regole per avanzare la comprensione e il controllo delle GUI, aprendo la strada a future ricerche in questo dominio.

Sfidare i confini del ragionamento: un benchmark matematico di livello olimpico per i grandi modelli linguistici
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

Mar 27

ByHaoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen

Negli ultimi anni, il rapido sviluppo di modelli di ragionamento su larga scala ha portato alla saturazione dei benchmark esistenti per la valutazione del ragionamento matematico, evidenziando l'urgente necessità di framework di valutazione più impegnativi e rigorosi. Per colmare questa lacuna, introduciamo OlymMATH, un nuovo benchmark matematico di livello olimpico, progettato per testare rigorosamente le capacità di ragionamento complesso dei modelli linguistici di grandi dimensioni (LLM). OlymMATH presenta 200 problemi accuratamente selezionati, ciascuno verificato manualmente e disponibile in versioni parallele in inglese e cinese. I problemi sono organizzati sistematicamente in due livelli di difficoltà distinti: (1) problemi di livello AIME (facili) che stabiliscono una linea di base per la valutazione del ragionamento matematico, e (2) problemi significativamente più impegnativi (difficili) progettati per spingere i limiti dei modelli all'avanguardia attuali. Nel nostro benchmark, questi problemi coprono quattro campi matematici fondamentali, ciascuno includendo una soluzione numerica verificabile per consentire una valutazione oggettiva e basata su regole. I risultati empirici sottolineano la significativa sfida rappresentata da OlymMATH, con modelli all'avanguardia come DeepSeek-R1 e OpenAI's o3-mini che dimostrano un'accuratezza notevolmente limitata sul sottoinsieme difficile. Inoltre, il benchmark facilita una valutazione bilingue completa delle capacità di ragionamento matematico, una dimensione critica che rimane largamente non affrontata nei benchmark mainstream di ragionamento matematico. Rilasciamo il benchmark OlymMATH nel progetto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

VBench-2.0: Avanzamento della Suite di Benchmark per la Generazione Video verso la Fedeltà Intrinseca
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

Mar 27

ByDian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu

La generazione di video ha compiuto progressi significativi, evolvendosi dalla produzione di output irrealistici alla creazione di video visivamente convincenti e temporalmente coerenti. Per valutare questi modelli generativi di video, sono stati sviluppati benchmark come VBench, progettati per valutarne la fedeltà, misurando fattori come l'estetica per fotogramma, la coerenza temporale e l'aderenza di base al prompt. Tuttavia, questi aspetti rappresentano principalmente una fedeltà superficiale, che si concentra sul fatto che il video appaia visivamente convincente piuttosto che sul fatto che rispetti i principi del mondo reale. Sebbene i modelli recenti ottengano risultati sempre migliori su queste metriche, continuano a faticare nel generare video che non siano solo visibilmente plausibili, ma fondamentalmente realistici. Per raggiungere veri e propri "modelli del mondo" attraverso la generazione di video, la prossima frontiera risiede nella fedeltà intrinseca, per garantire che i video generati rispettino le leggi fisiche, il ragionamento di buon senso, la correttezza anatomica e l'integrità compositiva. Raggiungere questo livello di realismo è essenziale per applicazioni come la produzione cinematografica assistita dall'IA e la modellazione di mondi simulati. Per colmare questa lacuna, introduciamo VBench-2.0, un benchmark di nuova generazione progettato per valutare automaticamente i modelli generativi di video in termini di fedeltà intrinseca. VBench-2.0 valuta cinque dimensioni chiave: Fedeltà Umana, Controllabilità, Creatività, Fisica e Buon Senso, ciascuna ulteriormente suddivisa in capacità più dettagliate. Personalizzato per le singole dimensioni, il nostro framework di valutazione integra generalisti come i migliori VLMs e LLMs, e specialisti, inclusi metodi di rilevamento delle anomalie proposti per la generazione di video. Effettuiamo annotazioni estese per garantire l'allineamento con il giudizio umano. Spingendosi oltre la fedeltà superficiale verso quella intrinseca, VBench-2.0 mira a stabilire un nuovo standard per la prossima generazione di modelli generativi di video, perseguendo la fedeltà intrinseca.

ReaRAG: Il ragionamento guidato dalla conoscenza migliora la fattualità dei modelli di ragionamento su larga scala con la generazione aumentata iterativa tramite recupero delle informazioni
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation

Mar 27

ByZhicheng Lee, Shulin Cao, Jinxin Liu, Jiajie Zhang, Weichuan Liu, Xiaoyin Che, Lei Hou, Juanzi Li

I Large Reasoning Models (LRM) dimostrano notevoli capacità di ragionamento ma si basano principalmente su conoscenze parametriche, limitando l'accuratezza fattuale. Sebbene lavori recenti abbiano dotato gli LRM basati su apprendimento per rinforzo (RL) di capacità di recupero, questi soffrono di sovrapensiero e mancanza di robustezza nel ragionamento, riducendo la loro efficacia nei compiti di question answering (QA). Per affrontare questo problema, proponiamo ReaRAG, un modello di ragionamento potenziato per la fattualità che esplora query diversificate senza eccessive iterazioni. La nostra soluzione include un nuovo framework di costruzione dei dati con un limite superiore alla lunghezza della catena di ragionamento. Nello specifico, sfruttiamo prima un LRM per generare un pensiero deliberato, quindi selezioniamo un'azione da uno spazio di azioni predefinito (Cerca e Termina). Per l'azione Cerca, una query viene eseguita contro il motore RAG, dove il risultato viene restituito come osservazione per guidare i passi di ragionamento successivi. Questo processo si ripete fino a quando non viene scelta un'azione Termina. Grazie alle forti capacità di ragionamento di ReaRAG, il nostro approccio supera i baseline esistenti nel QA multi-hop. Un'ulteriore analisi evidenzia la sua forte capacità riflessiva di riconoscere errori e affinare la traiettoria di ragionamento. Il nostro studio migliora la fattualità degli LRM integrando efficacemente un ragionamento robusto per la Generazione Aumentata dal Recupero (RAG).

ChatAnyone: Generazione Stilizzata di Video Ritratti in Tempo Reale con Modello di Diffusione del Movimento Gerarchico
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

Mar 27

ByJinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo

I ritratti video-chat interattivi in tempo reale sono stati sempre più riconosciuti come la tendenza futura, in particolare grazie ai notevoli progressi compiuti nelle tecnologie di chat testuali e vocali. Tuttavia, i metodi esistenti si concentrano principalmente sulla generazione in tempo reale dei movimenti della testa, ma faticano a produrre movimenti del corpo sincronizzati che corrispondano a queste azioni della testa. Inoltre, ottenere un controllo fine sullo stile di parlato e sulle sfumature delle espressioni facciali rimane una sfida. Per affrontare queste limitazioni, introduciamo un nuovo framework per la generazione di video ritratti stilizzati in tempo reale, che consente una video chat espressiva e flessibile, estendendosi dalla testa parlante all'interazione con la parte superiore del corpo. Il nostro approccio si compone delle seguenti due fasi. La prima fase prevede modelli di diffusione del movimento gerarchici ed efficienti, che tengono conto sia di rappresentazioni esplicite che implicite del movimento basate sugli input audio, in grado di generare una vasta gamma di espressioni facciali con controllo stilistico e sincronizzazione tra i movimenti della testa e del corpo. La seconda fase mira a generare video ritratti che includano movimenti della parte superiore del corpo, compresi i gesti delle mani. Iniettiamo segnali di controllo espliciti delle mani nel generatore per produrre movimenti delle mani più dettagliati, e ulteriormente eseguiamo un affinamento del volto per migliorare il realismo complessivo e l'espressività del video ritratto. Inoltre, il nostro approccio supporta una generazione efficiente e continua di video ritratti della parte superiore del corpo con una risoluzione massima di 512 * 768 a fino a 30fps su GPU 4090, supportando video-chat interattivi in tempo reale. I risultati sperimentali dimostrano la capacità del nostro approccio di produrre video ritratti con una ricca espressività e movimenti naturali della parte superiore del corpo.

LeX-Art: Ripensare la generazione di testo attraverso la sintesi scalabile di dati di alta qualità
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Mar 27

ByShitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li

Presentiamo LeX-Art, una suite completa per la sintesi di alta qualità tra testo e immagine che colma sistematicamente il divario tra l'espressività dei prompt e la fedeltà del rendering del testo. Il nostro approccio segue un paradigma incentrato sui dati, costruendo una pipeline di sintesi dati di alta qualità basata su Deepseek-R1 per curare LeX-10K, un dataset di 10.000 immagini ad alta risoluzione e raffinate esteticamente in formato 1024x1024. Oltre alla costruzione del dataset, sviluppiamo LeX-Enhancer, un modello robusto per l'arricchimento dei prompt, e addestriamo due modelli text-to-image, LeX-FLUX e LeX-Lumina, raggiungendo prestazioni all'avanguardia nel rendering del testo. Per valutare sistematicamente la generazione visiva del testo, introduciamo LeX-Bench, un benchmark che valuta fedeltà, estetica e allineamento, integrato dalla Pairwise Normalized Edit Distance (PNED), una nuova metrica per la valutazione robusta dell'accuratezza del testo. Gli esperimenti dimostrano miglioramenti significativi, con LeX-Lumina che raggiunge un guadagno del 79,81% in PNED su CreateBench, e LeX-FLUX che supera i baseline in accuratezza del colore (+3,18%), posizionale (+4,45%) e del font (+3,81%). I nostri codici, modelli, dataset e demo sono pubblicamente disponibili.

Embodied-Reasoner: Sinergia tra Ricerca Visiva, Ragionamento e Azione per Compiti Interattivi di Embodiment
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

Mar 27

ByWenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang

I recenti progressi nei modelli di pensiero profondo hanno dimostrato capacità di ragionamento notevoli in compiti matematici e di programmazione. Tuttavia, la loro efficacia in domini incarnati, che richiedono un'interazione continua con l'ambiente attraverso traiettorie intervallate da immagini e azioni, rimane in gran parte inesplorata. Presentiamo Embodied Reasoner, un modello che estende il ragionamento in stile o1 a compiti di ricerca interattivi incarnati. A differenza del ragionamento matematico, che si basa principalmente sulla deduzione logica, gli scenari incarnati richiedono comprensione spaziale, ragionamento temporale e un'autoriflessione continua basata sulla storia delle interazioni. Per affrontare queste sfide, sintetizziamo 9,3k traiettorie coerenti Osservazione-Pensiero-Azione contenenti 64k immagini interattive e 90k processi di pensiero diversificati (analisi, ragionamento spaziale, riflessione, pianificazione e verifica). Sviluppiamo una pipeline di addestramento in tre fasi che migliora progressivamente le capacità del modello attraverso l'apprendimento per imitazione, l'autoesplorazione tramite campionamento per rifiuto e l'autocorrezione tramite ottimizzazione della riflessione. La valutazione mostra che il nostro modello supera significativamente i modelli avanzati di ragionamento visivo, ad esempio supera OpenAI o1, o3-mini e Claude-3.7 rispettivamente del +9%, 24% e +13%. L'analisi rivela che il nostro modello presenta meno ricerche ripetute e inconsistenze logiche, con vantaggi particolari in compiti complessi a lungo termine. Anche negli ambienti del mondo reale si dimostra la nostra superiorità, con meno casi di ricerche ripetute e inconsistenze logiche.

Lumina-Image 2.0: Un Framework Unificato ed Efficiente per la Generazione di Immagini
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Mar 27

ByQi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao

Presentiamo Lumina-Image 2.0, un framework avanzato per la generazione di immagini da testo che segna un progresso significativo rispetto al lavoro precedente, Lumina-Next. Lumina-Image 2.0 si basa su due principi chiave: (1) Unificazione - adotta un'architettura unificata (Unified Next-DiT) che tratta i token di testo e immagine come una sequenza congiunta, consentendo interazioni cross-modali naturali e un'espansione senza soluzione di continuità delle attività. Inoltre, poiché i sistemi di captioning di alta qualità possono fornire coppie testo-immagine semanticamente allineate, introduciamo un sistema di captioning unificato, Unified Captioner (UniCap), progettato specificamente per i task di generazione da testo a immagine (T2I). UniCap eccelle nella generazione di descrizioni complete e accurate, accelerando la convergenza e migliorando l'aderenza ai prompt. (2) Efficienza - per migliorare l'efficienza del nostro modello, sviluppiamo strategie di training progressivo multi-stadio e introduciamo tecniche di accelerazione dell'inferenza senza compromettere la qualità delle immagini. Valutazioni estese su benchmark accademici e arene pubbliche di generazione da testo a immagine dimostrano che Lumina-Image 2.0 offre prestazioni robuste anche con soli 2,6 miliardi di parametri, evidenziando la sua scalabilità ed efficienza progettuale. Abbiamo reso disponibili i dettagli del training, il codice e i modelli su https://github.com/Alpha-VLLM/Lumina-Image-2.0.

ResearchBench: Valutazione delle capacità di scoperta scientifica dei modelli linguistici di grandi dimensioni attraverso la scomposizione dei compiti basata sull'ispirazione
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Mar 27

ByYujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou

I grandi modelli linguistici (LLM) hanno dimostrato potenziale nell'assistere la ricerca scientifica, ma la loro capacità di scoprire ipotesi di ricerca di alta qualità rimane inesplorata a causa della mancanza di un benchmark dedicato. Per colmare questa lacuna, introduciamo il primo benchmark su larga scala per valutare gli LLM con un insieme quasi sufficiente di sotto-attività della scoperta scientifica: recupero di ispirazioni, composizione di ipotesi e classificazione di ipotesi. Sviluppiamo un framework automatizzato che estrae componenti critici - domande di ricerca, revisioni della letteratura, ispirazioni e ipotesi - da articoli scientifici in 12 discipline, con una validazione esperta che ne conferma l'accuratezza. Per prevenire la contaminazione dei dati, ci concentriamo esclusivamente su articoli pubblicati nel 2024, garantendo una sovrapposizione minima con i dati di pre-addestramento degli LLM. La nostra valutazione rivela che gli LLM performano bene nel recupero di ispirazioni, un compito fuori distribuzione, suggerendo la loro capacità di far emergere nuove associazioni di conoscenza. Ciò posiziona gli LLM come "miniere di ipotesi di ricerca", in grado di facilitare la scoperta scientifica automatizzata generando ipotesi innovative su larga scala con un intervento umano minimo.

FinAudio: Un Benchmark per Modelli Linguistici di Grande Scala nell'Elaborazione Audio per Applicazioni Finanziarie
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications

Mar 26

ByYupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie

I modelli linguistici di grandi dimensioni per l'audio (AudioLLMs) hanno ricevuto un'attenzione diffusa e hanno migliorato significativamente le prestazioni in compiti audio come la conversazione, la comprensione audio e il riconoscimento automatico del parlato (ASR). Nonostante questi progressi, manca un benchmark per valutare gli AudioLLM in scenari finanziari, dove i dati audio, come le conferenze sugli utili e i discorsi dei CEO, sono risorse cruciali per l'analisi finanziaria e le decisioni di investimento. In questo articolo, introduciamo FinAudio, il primo benchmark progettato per valutare le capacità degli AudioLLM nel dominio finanziario. Definiamo innanzitutto tre compiti basati sulle caratteristiche uniche del settore finanziario: 1) ASR per audio finanziari brevi, 2) ASR per audio finanziari lunghi e 3) riassunto di audio finanziari lunghi. Successivamente, curiamo due dataset di audio brevi e due di audio lunghi, rispettivamente, e sviluppiamo un nuovo dataset per il riassunto di audio finanziari, che costituisce il benchmark FinAudio. Valutiamo quindi sette AudioLLM diffusi su FinAudio. La nostra valutazione rivela i limiti degli AudioLLM esistenti nel dominio finanziario e offre spunti per il loro miglioramento. Tutti i dataset e i codici saranno rilasciati.

Il video sintetico migliora la fedeltà fisica nella sintesi video.
Synthetic Video Enhances Physical Fidelity in Video Synthesis

Mar 26

ByQi Zhao, Xingyu Ni, Ziyu Wang, Feng Cheng, Ziyan Yang, Lu Jiang, Bohan Wang

Indaghiamo come migliorare la fedeltà fisica dei modelli di generazione video sfruttando video sintetici derivati da pipeline di computer grafica. Questi video renderizzati rispettano la fisica del mondo reale, come il mantenimento della coerenza 3D, e rappresentano una risorsa preziosa che può potenzialmente migliorare i modelli di generazione video. Per sfruttare questo potenziale, proponiamo una soluzione che cura e integra dati sintetici, introducendo un metodo per trasferire il loro realismo fisico al modello, riducendo significativamente gli artefatti indesiderati. Attraverso esperimenti su tre task rappresentativi che enfatizzano la coerenza fisica, dimostriamo l'efficacia di questo approccio nel migliorare la fedeltà fisica. Sebbene il nostro modello non possieda ancora una comprensione profonda della fisica, il nostro lavoro offre una delle prime dimostrazioni empiriche che i video sintetici migliorano la fedeltà fisica nella sintesi video. Sito web: https://kevinz8866.github.io/simulation/

Passo ottimale per il campionamento diffusivo
Optimal Stepsize for Diffusion Sampling

Mar 27

ByJianning Pei, Han Hu, Shuyang Gu

I modelli di diffusione raggiungono una qualità di generazione notevole, ma soffrono di un campionamento computazionalmente intensivo a causa di una discretizzazione dei passi subottimale. Mentre i lavori esistenti si concentrano sull'ottimizzazione delle direzioni di denoising, noi affrontiamo la progettazione principiata delle pianificazioni dei passi. Questo articolo propone l'Optimal Stepsize Distillation, un framework di programmazione dinamica che estrae pianificazioni teoricamente ottimali distillando conoscenza da traiettorie di riferimento. Riformulando l'ottimizzazione dei passi come una minimizzazione ricorsiva dell'errore, il nostro metodo garantisce limiti globali di discretizzazione attraverso lo sfruttamento della sottostruttura ottimale. In modo cruciale, le pianificazioni distillate dimostrano una forte robustezza tra architetture, risolutori di ODE e pianificazioni del rumore. Gli esperimenti mostrano una generazione testo-immagine accelerata di 10 volte, preservando il 99,4% delle prestazioni su GenEval. Il nostro codice è disponibile all'indirizzo https://github.com/bebebe666/OptimalSteps.

Esplorando l'Evoluzione della Cognizione Fisica nella Generazione di Video: Una Rassegna
Exploring the Evolution of Physics Cognition in Video Generation: A Survey

Mar 27

ByMinghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang

I recenti progressi nella generazione video hanno registrato avanzamenti significativi, in particolare con il rapido sviluppo dei modelli di diffusione. Nonostante ciò, le loro carenze nella cognizione fisica hanno gradualmente ricevuto un'attenzione diffusa: i contenuti generati spesso violano le leggi fondamentali della fisica, cadendo nel dilemma del "realismo visivo ma assurdità fisica". I ricercatori hanno iniziato a riconoscere sempre più l'importanza della fedeltà fisica nella generazione video e hanno tentato di integrare cognizioni fisiche euristiche, come rappresentazioni del movimento e conoscenze fisiche, nei sistemi generativi per simulare scenari dinamici del mondo reale. Considerando la mancanza di una panoramica sistematica in questo campo, questa rassegna mira a fornire una sintesi completa dei progetti architetturali e delle loro applicazioni per colmare questa lacuna. Nello specifico, discutiamo e organizziamo il processo evolutivo della cognizione fisica nella generazione video da una prospettiva di scienza cognitiva, proponendo una tassonomia a tre livelli: 1) percezione dello schema di base per la generazione, 2) cognizione passiva delle conoscenze fisiche per la generazione e 3) cognizione attiva per la simulazione del mondo, includendo metodi all'avanguardia, paradigmi classici e benchmark. Successivamente, sottolineiamo le sfide chiave intrinseche in questo dominio e delineiamo potenziali percorsi per la ricerca futura, contribuendo ad avanzare le frontiere della discussione sia in ambito accademico che industriale. Attraverso una revisione strutturata e un'analisi interdisciplinare, questa rassegna mira a fornire una guida direzionale per lo sviluppo di paradigmi di generazione video interpretabili, controllabili e fisicamente coerenti, spingendo così i modelli generativi dalla fase di "mimesi visiva" verso una nuova fase di "comprensione fisica simile a quella umana".

Feature4X: Collegare Qualsiasi Video Monoculare all'Intelligenza Artificiale Agente 4D con Campi di Caratteristiche Gaussiani Versatili
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

Mar 26

ByShijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi

I recenti progressi nei modelli 2D e multimodali hanno ottenuto un successo notevole sfruttando l'addestramento su larga scala su estesi dataset. Tuttavia, estendere questi risultati per abilitare interazioni libere e operazioni semantiche di alto livello con scene 3D/4D complesse rimane una sfida. Questa difficoltà deriva dalla limitata disponibilità di dataset 3D/4D o multi-vista su larga scala e annotati, che sono cruciali per compiti di visione e linguaggio generalizzabili come la segmentazione open-vocabulary e basata su prompt, l'editing guidato dal linguaggio e il visual question answering (VQA). In questo articolo, introduciamo Feature4X, un framework universale progettato per estendere qualsiasi funzionalità da un modello di visione 2D al regno 4D, utilizzando solo input video monoculare, ampiamente disponibile da contenuti generati dagli utenti. La "X" in Feature4X rappresenta la sua versatilità, abilitando qualsiasi compito attraverso una distillazione adattabile di campi di feature 4D condizionati dal modello. Al centro del nostro framework c'è una strategia di ottimizzazione dinamica che unifica molteplici capacità del modello in una singola rappresentazione. Inoltre, per quanto ne sappiamo, Feature4X è il primo metodo a distillare e sollevare le feature dei modelli di video foundation (ad esempio SAM2, InternVideo2) in un campo di feature 4D esplicito utilizzando Gaussian Splatting. I nostri esperimenti mostrano la segmentazione di qualsiasi cosa in nuove viste, l'editing geometrico e di aspetto della scena, e il VQA libero attraverso tutti i passaggi temporali, potenziati da LLM in cicli di feedback. Questi progressi ampliano lo spettro delle applicazioni AI agentiche fornendo una base per sistemi scalabili, consapevoli del contesto e dello spazio-tempo, capaci di interazioni immersive con scene dinamiche 4D.

Adattamento della Libreria Semantica: Recupero e Fusione LoRA per la Segmentazione Semantica a Vocabolario Aperto
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

Mar 27

ByReza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi

I modelli di segmentazione semantica a vocabolario aperto associano visione e testo per etichettare i pixel da un insieme non definito di classi utilizzando query testuali, offrendo prestazioni versatili su nuovi dataset. Tuttavia, grandi discrepanze tra i domini di addestramento e test ne compromettono le prestazioni, rendendo necessario il fine-tuning per applicazioni efficaci nel mondo reale. Introduciamo Semantic Library Adaptation (SemLA), un nuovo framework per l'adattamento al dominio in fase di test senza ulteriore addestramento. SemLA sfrutta una libreria di adattatori basati su LoRA indicizzati con embedding CLIP, fondendo dinamicamente gli adattatori più rilevanti in base alla prossimità al dominio target nello spazio di embedding. Questo approccio costruisce un modello ad hoc personalizzato per ogni input specifico senza ulteriore addestramento. Il nostro metodo scala in modo efficiente, migliora l'interpretabilità tracciando i contributi degli adattatori e protegge intrinsecamente la privacy dei dati, rendendolo ideale per applicazioni sensibili. Esperimenti completi su un benchmark di 20 domini costruito su 10 dataset standard dimostrano la superiore adattabilità e prestazioni di SemLA in contesti diversificati, stabilendo un nuovo standard nell'adattamento al dominio per la segmentazione semantica a vocabolario aperto.

Diffusione Discreta Multimodale Unificata
Unified Multimodal Discrete Diffusion

Mar 26

ByAlexander Swerdlow, Mihir Prabhudesai, Siddharth Gandhi, Deepak Pathak, Katerina Fragkiadaki

I modelli generativi multimodali in grado di comprendere e generare contenuti attraverso più modalità sono dominati da approcci autoregressivi (AR), che elaborano i token in sequenza da sinistra a destra o dall'alto verso il basso. Questi modelli gestiscono congiuntamente immagini, testo, video e audio per varie attività come la descrizione di immagini, il question answering e la generazione di immagini. In questo lavoro, esploriamo i modelli di diffusione discreta come una formulazione generativa unificata nel dominio congiunto di testo e immagini, basandoci sul loro recente successo nella generazione di testo. I modelli di diffusione discreta offrono diversi vantaggi rispetto ai modelli AR, tra cui un migliore controllo sulla qualità rispetto alla diversità dei campioni generati, la capacità di eseguire inpainting multimodale congiunto (sia nel dominio del testo che delle immagini) e una maggiore controllabilità nella generazione attraverso la guida. Sfruttando questi vantaggi, presentiamo il primo modello Unified Multimodal Discrete Diffusion (UniDisc) in grado di comprendere e generare congiuntamente testo e immagini per una varietà di task downstream. Confrontiamo UniDisc con i modelli AR multimodali, eseguendo un'analisi di scalabilità e dimostrando che UniDisc li supera in termini di prestazioni, calcolo al momento dell'inferenza, controllabilità migliorata, editabilità, inpainting e flessibilità nel compromesso tra tempo di inferenza e qualità della generazione. Il codice e ulteriori visualizzazioni sono disponibili all'indirizzo https://unidisc.github.io.

ZJUKLAB a SemEval-2025 Task 4: Disapprendimento tramite Fusione di Modelli
ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging

Mar 27

ByHaoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang

Questo articolo presenta la proposta del team ZJUKLAB per il Task 4 di SemEval-2025: Rimozione di Contenuti Sensibili dai Modelli Linguistici di Grande Dimensione. Questo task mira a cancellare selettivamente conoscenze sensibili dai modelli linguistici di grande dimensione, evitando sia problemi di sovra-rimozione che di sotto-rimozione. Proponiamo un sistema di rimozione che sfrutta il Model Merging (in particolare TIES-Merging), combinando due modelli specializzati in un modello bilanciato e privo di contenuti sensibili. Il nostro sistema ottiene risultati competitivi, classificandosi al secondo posto tra 26 team, con un punteggio online di 0.944 per il Task Aggregate e 0.487 per l’Aggregate complessivo. In questo articolo, conduciamo anche esperimenti locali e un'analisi completa del processo di rimozione, esaminando le traiettorie delle prestazioni, le dinamiche della perdita e le prospettive sui pesi, insieme a diversi esperimenti supplementari, per comprendere l'efficacia del nostro metodo. Inoltre, analizziamo i limiti del nostro metodo e delle metriche di valutazione, sottolineando che i punteggi MIA e le metriche basate su ROUGE da sole non sono sufficienti per valutare completamente il successo della rimozione. Infine, evidenziamo la necessità di metodologie di valutazione più complete e di una rielaborazione degli obiettivi della rimozione nella ricerca futura. Il codice è disponibile all'indirizzo https://github.com/zjunlp/unlearn/tree/main/semeval25.

LLPut: Esplorazione dei Modelli Linguistici di Grandi Dimensioni per la Generazione di Input Basati su Segnalazioni di Bug
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation

Mar 26

ByAlif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman

Gli input che inducono errori svolgono un ruolo cruciale nella diagnosi e nell'analisi dei bug software. I report di bug contengono tipicamente questi input, che gli sviluppatori estraggono per facilitare il debugging. Poiché i report di bug sono scritti in linguaggio naturale, ricerche precedenti hanno sfruttato varie tecniche di elaborazione del linguaggio naturale (NLP) per l'estrazione automatizzata degli input. Con l'avvento dei modelli linguistici di grandi dimensioni (LLM), sorge un'importante domanda di ricerca: quanto efficacemente i LLM generativi possono estrarre input che inducono errori dai report di bug? In questo articolo, proponiamo LLPut, una tecnica per valutare empiricamente le prestazioni di tre LLM generativi open-source — LLaMA, Qwen e Qwen-Coder — nell'estrazione di input rilevanti dai report di bug. Condurremo una valutazione sperimentale su un dataset di 206 report di bug per valutare l'accuratezza e l'efficacia di questi modelli. I nostri risultati forniscono approfondimenti sulle capacità e i limiti dei LLM generativi nella diagnosi automatizzata dei bug.

Tracktention: Sfruttare il Tracciamento di Punti per Analizzare Video in Modo Più Veloce e Migliore
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better

Mar 25

ByZihang Lai, Andrea Vedaldi

La coerenza temporale è fondamentale nella previsione video per garantire che gli output siano coerenti e privi di artefatti. I metodi tradizionali, come l'attenzione temporale e la convoluzione 3D, possono avere difficoltà con movimenti significativi degli oggetti e potrebbero non catturare dipendenze temporali a lungo raggio in scene dinamiche. Per colmare questa lacuna, proponiamo il Tracktention Layer, un componente architetturale innovativo che integra esplicitamente le informazioni di movimento utilizzando tracce di punti, ovvero sequenze di punti corrispondenti tra i fotogrammi. Incorporando questi segnali di movimento, il Tracktention Layer migliora l'allineamento temporale e gestisce efficacemente i movimenti complessi degli oggetti, mantenendo rappresentazioni di feature coerenti nel tempo. Il nostro approccio è computazionalmente efficiente e può essere integrato senza soluzione di continuità in modelli esistenti, come i Vision Transformers, con modifiche minime. Può essere utilizzato per aggiornare modelli progettati solo per immagini a modelli video all'avanguardia, superando talvolta modelli progettati nativamente per la previsione video. Dimostriamo ciò nella previsione della profondità video e nella colorizzazione video, dove i modelli potenziati con il Tracktention Layer mostrano una coerenza temporale significativamente migliorata rispetto ai modelli di riferimento.

LOCATEdit: Ottimizzazione della Cross-Attention tramite Laplaciano del Grafo per l'Editing Localizzato di Immagini Guidato da Testo
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing

Mar 27

ByAchint Soni, Meet Soni, Sirisha Rambhatla

L'editing di immagini guidato da testo mira a modificare specifiche regioni di un'immagine in base a istruzioni in linguaggio naturale, mantenendo la struttura generale e la fedeltà dello sfondo. I metodi esistenti utilizzano maschere derivate da mappe di cross-attention generate da modelli di diffusione per identificare le regioni target da modificare. Tuttavia, poiché i meccanismi di cross-attention si concentrano sulla rilevanza semantica, faticano a mantenere l'integrità dell'immagine. Di conseguenza, questi metodi spesso mancano di coerenza spaziale, portando ad artefatti e distorsioni durante l'editing. In questo lavoro, affrontiamo queste limitazioni e introduciamo LOCATEdit, che migliora le mappe di cross-attention attraverso un approccio basato su grafi che utilizza le relazioni tra patch derivate dalla self-attention per mantenere un'attenzione fluida e coerente tra le regioni dell'immagine, garantendo che le alterazioni siano limitate agli elementi designati preservando la struttura circostante. \method supera costantemente e significativamente i baseline esistenti su PIE-Bench, dimostrando le sue prestazioni all'avanguardia e l'efficacia in varie attività di editing. Il codice è disponibile su https://github.com/LOCATEdit/LOCATEdit/

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Agente di Modelli Linguistici di Grande Scala: Un'Indagine su Metodologia, Applicazioni e Sfide
Large Language Model Agent: A Survey on Methodology, Applications and Challenges

Mar 27

Video-R1: Rafforzamento del Ragionamento Video nei MLLM
Video-R1: Reinforcing Video Reasoning in MLLMs

Mar 27

ByKaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue

UI-R1: Miglioramento della Previsione delle Azioni degli Agenti GUI mediante Apprendimento per Rinforzo
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

Mar 27

ByZhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li

Sfidare i confini del ragionamento: un benchmark matematico di livello olimpico per i grandi modelli linguistici
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

Mar 27

ByHaoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen

VBench-2.0: Avanzamento della Suite di Benchmark per la Generazione Video verso la Fedeltà Intrinseca
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

Mar 27

ByDian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu

ReaRAG: Il ragionamento guidato dalla conoscenza migliora la fattualità dei modelli di ragionamento su larga scala con la generazione aumentata iterativa tramite recupero delle informazioni
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation

Mar 27

ByZhicheng Lee, Shulin Cao, Jinxin Liu, Jiajie Zhang, Weichuan Liu, Xiaoyin Che, Lei Hou, Juanzi Li

ChatAnyone: Generazione Stilizzata di Video Ritratti in Tempo Reale con Modello di Diffusione del Movimento Gerarchico
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

Mar 27

ByJinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo

LeX-Art: Ripensare la generazione di testo attraverso la sintesi scalabile di dati di alta qualità
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Mar 27

ByShitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li

Embodied-Reasoner: Sinergia tra Ricerca Visiva, Ragionamento e Azione per Compiti Interattivi di Embodiment
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

Mar 27

ByWenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang

Lumina-Image 2.0: Un Framework Unificato ed Efficiente per la Generazione di Immagini
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Mar 27

ResearchBench: Valutazione delle capacità di scoperta scientifica dei modelli linguistici di grandi dimensioni attraverso la scomposizione dei compiti basata sull'ispirazione
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Mar 27

ByYujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou

FinAudio: Un Benchmark per Modelli Linguistici di Grande Scala nell'Elaborazione Audio per Applicazioni Finanziarie
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications

Mar 26

ByYupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie