Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

Zero Assoluto: Ragionamento con Autoapprendimento Rinforzato Senza Dati
Absolute Zero: Reinforced Self-play Reasoning with Zero Data

May 6, 2025

Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang

1829

Il reinforcement learning con ricompense verificabili (RLVR) ha dimostrato potenzialità nel migliorare le capacità di ragionamento dei grandi modelli linguistici apprendendo direttamente da ricompense basate sui risultati. Recenti lavori RLVR che operano in contesto zero evitano la supervisione nell'etichettatura del processo di ragionamento, ma dipendono comunque da raccolte manualmente curate di domande e risposte per l'addestramento. La scarsità di esempi di alta qualità prodotti da esseri umani solleva preoccupazioni riguardo alla scalabilità a lungo termine del fare affidamento sulla supervisione umana, una sfida già evidente nel campo del pre-addestramento dei modelli linguistici. Inoltre, in un ipotetico futuro in cui l'intelligenza artificiale superi quella umana, i compiti forniti dagli esseri umani potrebbero offrire un potenziale di apprendimento limitato per un sistema superintelligente. Per affrontare queste preoccupazioni, proponiamo un nuovo paradigma RLVR chiamato Absolute Zero, in cui un singolo modello impara a proporre compiti che massimizzano il proprio progresso di apprendimento e migliora il ragionamento risolvendoli, senza fare affidamento su dati esterni. In questo paradigma, introduciamo l'Absolute Zero Reasoner (AZR), un sistema che auto-evolve il proprio curriculum di addestramento e la capacità di ragionamento utilizzando un esecutore di codice sia per validare i compiti di ragionamento proposti che per verificare le risposte, fungendo da fonte unificata di ricompensa verificabile per guidare un apprendimento aperto ma fondato. Nonostante sia addestrato interamente senza dati esterni, AZR raggiunge prestazioni complessive all'avanguardia in compiti di ragionamento matematico e di programmazione, superando i modelli esistenti in contesto zero che si basano su decine di migliaia di esempi curati da esseri umani nel dominio specifico. Inoltre, dimostriamo che AZR può essere efficacemente applicato a diverse scale di modelli ed è compatibile con varie classi di modelli.

Modello Unificato di Ricompensa a Catena di Pensiero Multimodale attraverso il Fine-Tuning con Rinforzo
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

May 6, 2025

Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

943

I recenti progressi nei modelli di ricompensa multimodali (RMs) hanno mostrato un significativo potenziale nel fornire segnali di ricompensa per allineare i modelli visivi con le preferenze umane. Tuttavia, gli attuali RMs sono generalmente limitati a fornire risposte dirette o a impegnarsi in processi di ragionamento superficiali con una profondità limitata, spesso portando a segnali di ricompensa inaccurati. Proponiamo che l'incorporazione di esplicite catene di pensiero (CoT) nel processo di ragionamento della ricompensa possa rafforzare significativamente la loro affidabilità e robustezza. Inoltre, riteniamo che una volta che i RMs internalizzino il ragionamento CoT, la loro accuratezza nelle risposte dirette possa essere migliorata anche attraverso capacità di ragionamento implicito. A tal fine, questo articolo propone UnifiedReward-Think, il primo modello di ricompensa multimodale unificato basato su CoT, capace di ragionamento multidimensionale e passo-passo a catena lunga sia per compiti di comprensione visiva che di generazione di ricompensa. Nello specifico, adottiamo un approccio di fine-tuning a rinforzo guidato dall'esplorazione per elicitare e incentivare la capacità latente di ragionamento complesso del modello: (1) Utilizziamo inizialmente una piccola quantità di dati di preferenza per la generazione di immagini per distillare il processo di ragionamento di GPT-4o, che viene poi utilizzato per l'avvio a freddo del modello per apprendere il formato e la struttura del ragionamento CoT. (2) Successivamente, sfruttando la conoscenza pregressa e le capacità di generalizzazione del modello, prepariamo dati di preferenza multimodali unificati su larga scala per elicitare il processo di ragionamento del modello su vari compiti visivi. Durante questa fase, gli output di ragionamento corretti vengono conservati per il campionamento di rifiuto per affinare il modello (3) mentre i campioni previsti errati vengono infine utilizzati per il fine-tuning a rinforzo basato su Group Relative Policy Optimization (GRPO), consentendo al modello di esplorare percorsi di ragionamento diversi e ottimizzare per soluzioni corrette e robuste. Esperimenti estesi su vari compiti di ricompensa visiva dimostrano la superiorità del nostro modello.

RADLADS: Distillazione Rapida dell'Attenzione verso Decodificatori con Attenzione Lineare su Scala
RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale

May 5, 2025

Daniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah

351

Presentiamo Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), un protocollo per convertire rapidamente trasformatori con attenzione softmax in modelli decoder con attenzione lineare, insieme a due nuove architetture varianti RWKV e modelli convertiti dai popolari modelli open source Qwen2.5 nelle dimensioni 7B, 32B e 72B. Il nostro processo di conversione richiede solo 350-700M di token, meno dello 0,005% del numero di token utilizzati per addestrare i modelli insegnanti originali. La conversione nel nostro modello con attenzione lineare da 72B costa meno di \$2.000 USD ai prezzi odierni, eppure la qualità durante l'inferenza rimane vicina a quella del trasformatore originale. Questi modelli raggiungono prestazioni all'avanguardia su un insieme di benchmark standard per modelli con attenzione lineare della loro dimensione. Rilasciamo tutti i nostri modelli su HuggingFace sotto licenza Apache 2.0, ad eccezione dei nostri modelli da 72B che sono anche regolati dal Qwen License Agreement. Modelli disponibili su https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Codice di addestramento su https://github.com/recursal/RADLADS-paper

FlexiAct: Verso un Controllo Flessibile delle Azioni in Scenari Eterogenei
FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

May 6, 2025

Shiyi Zhang, Junhao Zhuang, Zhaoyang Zhang, Ying Shan, Yansong Tang

281

La personalizzazione delle azioni consiste nella generazione di video in cui il soggetto esegue azioni dettate da segnali di controllo in input. I metodi attuali utilizzano la personalizzazione guidata dalla postura o dal movimento globale, ma sono limitati da vincoli rigidi sulla struttura spaziale, come il layout, lo scheletro e la coerenza del punto di vista, riducendo l'adattabilità a soggetti e scenari diversi. Per superare queste limitazioni, proponiamo FlexiAct, che trasferisce le azioni da un video di riferimento a un'immagine target arbitraria. A differenza dei metodi esistenti, FlexiAct consente variazioni nel layout, nel punto di vista e nella struttura scheletrica tra il soggetto del video di riferimento e l'immagine target, mantenendo al contempo la coerenza dell'identità. Raggiungere questo obiettivo richiede un controllo preciso delle azioni, un adattamento della struttura spaziale e la preservazione della coerenza. A tal fine, introduciamo RefAdapter, un adattatore leggero condizionato dall'immagine che eccelle nell'adattamento spaziale e nella preservazione della coerenza, superando i metodi esistenti nel bilanciare la coerenza dell'aspetto e la flessibilità strutturale. Inoltre, sulla base delle nostre osservazioni, il processo di denoising mostra livelli variabili di attenzione al movimento (bassa frequenza) e ai dettagli dell'aspetto (alta frequenza) in diversi momenti. Pertanto, proponiamo FAE (Frequency-aware Action Extraction), che, a differenza dei metodi esistenti che si basano su architetture spazio-temporali separate, ottiene direttamente l'estrazione delle azioni durante il processo di denoising. Gli esperimenti dimostrano che il nostro metodo trasferisce efficacemente le azioni a soggetti con layout, scheletri e punti di vista diversi. Rilasciamo il nostro codice e i pesi del modello per supportare ulteriori ricerche all'indirizzo https://shiyi-zh0408.github.io/projectpages/FlexiAct/.

RetroInfer: Un Approccio Basato su Archiviazione Vettoriale per Inferenza Scalabile di LLM con Contesti Lunghi
RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference

May 5, 2025

Yaoqi Chen, Jinkai Zhang, Baotong Lu, Qianxi Zhang, Chengruidong Zhang, Jingjia Luo, Di Liu, Huiqiang Jiang, Qi Chen, Jing Liu, Bailu Ding, Xiao Yan, Jiawei Jiang, Chen Chen, Mingxing Zhang, Yuqing Yang, Fan Yang, Mao Yang

283

Le crescenti lunghezze contestuali dei grandi modelli linguistici (LLM) pongono sfide significative per un'inferenza efficiente, principalmente a causa dei vincoli di memoria GPU e larghezza di banda. Presentiamo RetroInfer, un sistema innovativo che riconcettualizza la cache chiave-valore (KV) come un sistema di archiviazione vettoriale che sfrutta la sparsità intrinseca dell'attenzione per accelerare l'inferenza di LLM con contesti lunghi. Al suo cuore si trova l'indice wave, un indice vettoriale consapevole dell'attenzione (Attention-aWare VEctor index) che abilita un recupero efficiente e accurato dei token critici attraverso tecniche come l'approssimazione tripartita dell'attenzione, la stima dell'attenzione con limite di accuratezza e il clustering segmentato. A completare il sistema c'è il buffer wave, che coordina il posizionamento della cache KV e sovrappone il calcolo e il trasferimento dati tra GPU e CPU per mantenere un'elevata produttività. A differenza dei metodi basati sulla sparsità precedenti, che faticano con la selezione dei token e la coordinazione hardware, RetroInfer offre prestazioni robuste senza compromettere l'accuratezza del modello. Esperimenti su benchmark a contesto lungo mostrano un'accelerazione fino a 4,5 volte rispetto all'attenzione completa entro i limiti di memoria GPU e fino a 10,5 volte rispetto alle baseline di attenzione sparsa quando la cache KV viene estesa alla memoria CPU, mantenendo comunque un'accuratezza pari a quella dell'attenzione completa.

Uno Studio Empirico sulla Quantizzazione di Qwen3
An Empirical Study of Qwen3 Quantization

May 4, 2025

Xingyu Zheng, Yuye Li, Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu

251

La serie Qwen si è affermata come una delle principali famiglie di modelli linguistici di grandi dimensioni (LLM) open-source, dimostrando capacità straordinarie nei compiti di comprensione del linguaggio naturale. Con il recente rilascio di Qwen3, che mostra prestazioni superiori su diversi benchmark, cresce l'interesse per l'implementazione efficiente di questi modelli in ambienti con risorse limitate. La quantizzazione a basso bit rappresenta una soluzione promettente, ma il suo impatto sulle prestazioni di Qwen3 rimane ancora poco esplorato. Questo studio conduce una valutazione sistematica della robustezza di Qwen3 in diverse configurazioni di quantizzazione, con l'obiettivo di individuare sia opportunità che sfide nella compressione di questo modello all'avanguardia. Valutiamo rigorosamente 5 tecniche classiche di quantizzazione post-addestramento applicate a Qwen3, coprendo larghezze di bit da 1 a 8 bit, e ne misuriamo l'efficacia su più dataset. I nostri risultati rivelano che, sebbene Qwen3 mantenga prestazioni competitive a larghezze di bit moderate, subisce un degrado significativo nei compiti linguistici in condizioni di precisione ultra-bassa, evidenziando le persistenti difficoltà nella compressione degli LLM. Questi risultati sottolineano la necessità di ulteriori ricerche per mitigare la perdita di prestazioni negli scenari di quantizzazione estrema. Anticipiamo che questa analisi empirica fornirà spunti utili per avanzare i metodi di quantizzazione specifici per Qwen3 e per i futuri LLM, migliorandone infine la praticità senza compromettere l'accuratezza. Il nostro progetto è disponibile su https://github.com/Efficient-ML/Qwen3-Quantization e https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.

Sistema Multi-Agente per la Comprensione Completa del Calcio
Multi-Agent System for Comprehensive Soccer Understanding

May 6, 2025

Jiayuan Rao, Zifeng Li, Haoning Wu, Ya Zhang, Yanfeng Wang, Weidi Xie

231

I recenti progressi nella comprensione del calcio guidata dall'intelligenza artificiale hanno dimostrato un rapido avanzamento, tuttavia la ricerca esistente si concentra prevalentemente su compiti isolati o ristretti. Per colmare questa lacuna, proponiamo un framework completo per una comprensione olistica del calcio. Nello specifico, in questo articolo facciamo i seguenti contributi: (i) costruiamo SoccerWiki, la prima knowledge base multimodale su larga scala dedicata al calcio, integrando una ricca conoscenza di dominio su giocatori, squadre, arbitri e stadi per abilitare il ragionamento basato sulla conoscenza; (ii) presentiamo SoccerBench, il benchmark più ampio e completo specifico per il calcio, caratterizzato da circa 10K coppie di domande a scelta multipla multimodali (testo, immagine, video) standardizzate su 13 distinti compiti di comprensione, curate attraverso pipeline automatizzate e verifica manuale; (iii) introduciamo SoccerAgent, un innovativo sistema multi-agente che scompone domande complesse sul calcio tramite ragionamento collaborativo, sfruttando l'esperienza di dominio di SoccerWiki e ottenendo prestazioni robuste; (iv) valutazioni estensive e ablazioni che confrontano i migliori MLLM su SoccerBench, evidenziando la superiorità del nostro sistema agente proposto. Tutti i dati e il codice sono pubblicamente disponibili all'indirizzo: https://jyrao.github.io/SoccerAgent/.

Decodifica degli obiettivi di ricerca di informazioni aperte dai movimenti oculari durante la lettura
Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading

May 4, 2025

Cfir Avraham Hadar, Omer Shubi, Yoav Meiri, Yevgeni Berzak

172

Durante la lettura, spesso abbiamo informazioni specifiche che ci interessano in un testo. Ad esempio, potreste leggere questo articolo perché siete curiosi riguardo ai LLM per i movimenti oculari nella lettura, al design sperimentale, o forse vi interessa solo la domanda "ma funziona?". Più in generale, nella vita quotidiana, le persone affrontano i testi con una varietà di obiettivi specifici che guidano il loro comportamento di lettura. In questo lavoro, ci chiediamo, per la prima volta, se gli obiettivi di lettura aperti possano essere decodificati automaticamente dai movimenti oculari durante la lettura. Per affrontare questa domanda, introduciamo compiti di classificazione degli obiettivi e ricostruzione degli obiettivi, insieme a framework di valutazione, e utilizziamo dati su larga scala di eye tracking per la lettura in inglese con centinaia di compiti specifici di ricerca di informazioni. Sviluppiamo e confrontiamo diversi LLM multimodali discriminativi e generativi che combinano movimenti oculari e testo per la classificazione degli obiettivi e la ricostruzione degli obiettivi. I nostri esperimenti mostrano un notevole successo in entrambi i compiti, suggerendo che i LLM possono estrarre informazioni preziose sugli obiettivi specifici dei lettori dai movimenti oculari.

HoloTime: Domare i Modelli di Diffusione Video per la Generazione di Scene Panoramiche 4D
HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation

Apr 30, 2025

Haiyang Zhou, Wangbo Yu, Jiawen Guan, Xinhua Cheng, Yonghong Tian, Li Yuan

161

Il rapido progresso dei modelli di diffusione promette di rivoluzionare l'applicazione delle tecnologie VR e AR, che tipicamente richiedono risorse 4D a livello di scena per l'esperienza dell'utente. Tuttavia, i modelli di diffusione esistenti si concentrano principalmente sulla modellazione di scene 3D statiche o dinamiche a livello di oggetto, limitando la loro capacità di offrire esperienze veramente immersive. Per affrontare questo problema, proponiamo HoloTime, un framework che integra modelli di diffusione video per generare video panoramici da un singolo prompt o immagine di riferimento, insieme a un metodo di ricostruzione 4D a 360 gradi che trasforma senza soluzione di continuità il video panoramico generato in risorse 4D, consentendo un'esperienza 4D completamente immersiva per gli utenti. Nello specifico, per addomesticare i modelli di diffusione video per la generazione di video panoramici ad alta fedeltà, introduciamo il dataset 360World, la prima raccolta completa di video panoramici adatta per compiti di ricostruzione 4D di scene. Con questo dataset curato, proponiamo Panoramic Animator, un modello di diffusione immagine-video a due stadi che può convertire immagini panoramiche in video panoramici di alta qualità. Successivamente, presentiamo Panoramic Space-Time Reconstruction, che sfrutta un metodo di stima della profondità spazio-temporale per trasformare i video panoramici generati in nuvole di punti 4D, consentendo l'ottimizzazione di una rappresentazione olistica 4D con Gaussian Splatting per ricostruire scene 4D spazialmente e temporalmente coerenti. Per validare l'efficacia del nostro metodo, abbiamo condotto un'analisi comparativa con approcci esistenti, rivelando la sua superiorità sia nella generazione di video panoramici che nella ricostruzione di scene 4D. Ciò dimostra la capacità del nostro metodo di creare ambienti immersivi più coinvolgenti e realistici, migliorando così le esperienze degli utenti nelle applicazioni VR e AR.

Interpretabilità Meccanicistica Geospaziale dei Modelli Linguistici di Grande Dimensione
Geospatial Mechanistic Interpretability of Large Language Models

May 6, 2025

Stef De Sabbata, Stefano Mizzaro, Kevin Roitero

101

I Large Language Model (LLM) hanno dimostrato capacità senza precedenti in vari compiti di elaborazione del linguaggio naturale. La loro abilità di elaborare e generare testo e codice utilizzabile li ha resi onnipresenti in molti campi, mentre il loro impiego come basi di conoscenza e strumenti di "ragionamento" rimane un'area di ricerca in corso. In geografia, un numero crescente di studi si è concentrato sulla valutazione delle conoscenze geografiche degli LLM e sulla loro capacità di eseguire ragionamenti spaziali. Tuttavia, si sa ancora molto poco sul funzionamento interno di questi modelli, in particolare su come elaborano le informazioni geografiche. In questo capitolo, stabiliamo un nuovo framework per lo studio dell'interpretabilità meccanicistica geospaziale, utilizzando l'analisi spaziale per decodificare come gli LLM gestiscono le informazioni geografiche. Il nostro obiettivo è approfondire la comprensione delle rappresentazioni interne che questi modelli complessi generano durante l'elaborazione delle informazioni geografiche, ciò che si potrebbe definire "come gli LLM pensano alle informazioni geografiche", se tale espressione non fosse un'antropomorfizzazione eccessiva. Iniziamo delineando l'uso del probing per rivelare le strutture interne degli LLM. Introduciamo poi il campo dell'interpretabilità meccanicistica, discutendo l'ipotesi della sovrapposizione e il ruolo degli autoencoder sparsi nel separare le rappresentazioni interne polisemantiche degli LLM in caratteristiche più interpretabili e monosemantiche. Nei nostri esperimenti, utilizziamo l'autocorrelazione spaziale per mostrare come le caratteristiche ottenute per i toponimi presentino schemi spaziali legati alla loro posizione geografica e possano quindi essere interpretate geospazialmente, fornendo intuizioni su come questi modelli elaborano le informazioni geografiche. Concludiamo discutendo come il nostro framework possa contribuire a plasmare lo studio e l'uso dei modelli di fondazione in geografia.

SWE-smith: Scalabilità dei Dati per Agenti di Ingegneria del Software
SWE-smith: Scaling Data for Software Engineering Agents

Apr 30, 2025

John Yang, Kilian Leret, Carlos E. Jimenez, Alexander Wettig, Kabir Khandpur, Yanzhe Zhang, Binyuan Hui, Ofir Press, Ludwig Schmidt, Diyi Yang

101

Nonostante i recenti progressi nei Modelli Linguistici (LMs) per l'ingegneria del software, la raccolta di dati di addestramento rimane un punto critico significativo. I dataset esistenti sono di piccole dimensioni, con al massimo migliaia di istanze di addestramento provenienti da 11 o meno repository GitHub. Le procedure per curare tali dataset sono spesso complesse, richiedendo centinaia di ore di lavoro umano; inoltre, gli ambienti di esecuzione associati occupano diversi terabyte di spazio di archiviazione, limitando gravemente la loro scalabilità e usabilità. Per affrontare questo problema, introduciamo SWE-smith, una pipeline innovativa per generare dati di addestramento per l'ingegneria del software su larga scala. Dato qualsiasi codebase Python, SWE-smith costruisce un corrispondente ambiente di esecuzione, quindi sintetizza automaticamente centinaia o migliaia di istanze di task che interrompono i test esistenti nel codebase. Utilizzando SWE-smith, abbiamo creato un dataset di 50k istanze provenienti da 128 repository GitHub, un ordine di grandezza più grande rispetto a tutti i lavori precedenti. Abbiamo addestrato SWE-agent-LM-32B, raggiungendo un tasso di risoluzione Pass@1 del 40.2% sul benchmark SWE-bench Verified, lo stato dell'arte tra i modelli open source. Rendiamo open source SWE-smith (procedura di raccolta, istanze di task, traiettorie, modelli) per abbassare la barriera di ingresso alla ricerca nei sistemi LM per l'ingegneria del software automatizzata. Tutte le risorse sono disponibili su https://swesmith.com.

VITA-Audio: Generazione Rapida di Token Interallacciati Cross-Modali per Modelli Linguistici Vocali di Grande Scala Efficienti
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model

May 6, 2025

Zuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun

Con la crescente necessità di interazioni uomo-computer naturali, i sistemi basati sul parlato ricevono un'attenzione sempre maggiore, poiché il parlato è una delle forme più comuni di comunicazione quotidiana. Tuttavia, i modelli di parlato esistenti continuano a sperimentare un'elevata latenza durante la generazione del primo token audio nello streaming, rappresentando un significativo collo di bottiglia per il deployment. Per affrontare questo problema, proponiamo VITA-Audio, un modello di parlato end-to-end di grandi dimensioni con una generazione rapida di token audio-testo. Nello specifico, introduciamo un modulo leggero di Multiple Cross-modal Token Prediction (MCTP) che genera efficientemente più token audio in un singolo passaggio in avanti del modello, accelerando non solo l'inferenza ma riducendo significativamente anche la latenza per la generazione del primo audio negli scenari di streaming. Inoltre, viene esplorata una strategia di addestramento progressivo in quattro fasi per ottenere un'accelerazione del modello con una perdita minima della qualità del parlato. A nostra conoscenza, VITA-Audio è il primo modello linguistico multi-modale di grandi dimensioni in grado di generare output audio durante il primo passaggio in avanti, abilitando capacità conversazionali in tempo reale con latenza minima. VITA-Audio è completamente riproducibile e addestrato esclusivamente su dati open-source. I risultati sperimentali dimostrano che il nostro modello raggiunge un'accelerazione dell'inferenza di 3~5x alla scala di 7B parametri, ma supera anche significativamente i modelli open-source di dimensioni simili su molteplici benchmark per il riconoscimento automatico del parlato (ASR), la sintesi vocale (TTS) e le attività di risposta a domande vocali (SQA).

Quale Agente Causa i Fallimenti delle Attività e Quando? Sull'Attribuzione Automatica dei Fallimenti nei Sistemi Multi-Agente basati su LLM
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems

Apr 30, 2025

Shaokun Zhang, Ming Yin, Jieyu Zhang, Jiale Liu, Zhiguang Han, Jingyang Zhang, Beibin Li, Chi Wang, Huazheng Wang, Yiran Chen, Qingyun Wu

L'attribuzione degli errori nei sistemi multi-agente basati su LLM (Large Language Models) - identificando l'agente e il passaggio responsabile dei fallimenti nelle attività - fornisce indizi cruciali per il debug dei sistemi, ma rimane un'area poco esplorata e laboriosa. In questo articolo, proponiamo e formuliamo una nuova area di ricerca: l'attribuzione automatica degli errori per i sistemi multi-agente basati su LLM. Per supportare questa iniziativa, introduciamo il dataset Who&When, che comprende ampi log di fallimenti provenienti da 127 sistemi multi-agente basati su LLM, con annotazioni dettagliate che collegano gli errori a specifici agenti e ai passaggi decisivi che li hanno causati. Utilizzando Who&When, sviluppiamo e valutiamo tre metodi automatizzati per l'attribuzione degli errori, riassumendone i rispettivi pro e contro. Il metodo migliore raggiunge un'accuratezza del 53,5% nell'identificare gli agenti responsabili degli errori, ma solo del 14,2% nell'individuare i passaggi critici, con alcuni metodi che performano al di sotto del caso casuale. Anche modelli di ragionamento all'avanguardia, come OpenAI o1 e DeepSeek R1, non riescono a raggiungere una praticabilità effettiva. Questi risultati evidenziano la complessità del compito e la necessità di ulteriori ricerche in questo ambito. Codice e dataset sono disponibili all'indirizzo https://github.com/mingyin1/Agents_Failure_Attribution.

Scenethesis: Un Framework Agente per la Generazione di Scene 3D Integrando Linguaggio e Visione
Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

May 5, 2025

Lu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li

La sintesi di scene 3D interattive a partire da testo è fondamentale per il gaming, la realtà virtuale e l'AI incarnata. Tuttavia, i metodi esistenti affrontano diverse sfide. Gli approcci basati sull'apprendimento dipendono da dataset di piccola scala relativi ad ambienti interni, limitando la diversità delle scene e la complessità del layout. Sebbene i grandi modelli linguistici (LLM) possano sfruttare una conoscenza diversificata nel dominio del testo, faticano a raggiungere un realismo spaziale, spesso producendo posizionamenti innaturali degli oggetti che non rispettano il buon senso. La nostra intuizione chiave è che la percezione visiva può colmare questa lacuna fornendo una guida spaziale realistica di cui gli LLM sono carenti. A tal fine, introduciamo Scenethesis, un framework agentico senza necessità di addestramento che integra la pianificazione della scene basata su LLM con un affinamento del layout guidato dalla visione. Dato un prompt testuale, Scenethesis utilizza prima un LLM per abbozzare un layout approssimativo. Un modulo di visione lo affina poi generando una guida visiva ed estraendo la struttura della scena per catturare le relazioni tra gli oggetti. Successivamente, un modulo di ottimizzazione applica iterativamente un allineamento preciso delle pose e una plausibilità fisica, prevenendo artefatti come la penetrazione degli oggetti e l'instabilità. Infine, un modulo di giudizio verifica la coerenza spaziale. Esperimenti completi dimostrano che Scenethesis genera scene 3D interattive diversificate, realistiche e fisicamente plausibili, rendendolo prezioso per la creazione di contenuti virtuali, ambienti di simulazione e la ricerca sull'AI incarnata.

InfoVids: Ripensare l'esperienza dello spettatore con relazioni alternative tra visualizzazione e presentatore
InfoVids: Reimagining the Viewer Experience with Alternative Visualization-Presenter Relationships

May 6, 2025

Ji Won Chung, Tongyu Zhou, Ivy Chen, Kevin Hsu, Ryan A. Rossi, Alexa Siu, Shunan Guo, Franck Dernoncourt, James Tompkin, Jeff Huang

Le presentazioni tradizionali dei dati separano tipicamente il presentatore e la visualizzazione in due spazi distinti: il mondo 3D e uno schermo 2D, imponendo narrazioni centrate sulla visualizzazione. Per creare un'esperienza di visione più incentrata sull'essere umano, stabiliamo una relazione più equilibrata tra la visualizzazione e il presentatore attraverso i nostri InfoVids. Questi video informativi ispirati alle infografiche sono progettati per ridefinire le relazioni tra il presentatore e le visualizzazioni. Durante la progettazione degli InfoVids, esploriamo come l'uso del layout, della forma e delle interazioni influenzi l'esperienza dello spettatore. Confrontiamo gli InfoVids con le loro equivalenti presentazioni 2D `slide' di base attraverso 9 metriche con 30 partecipanti e forniamo approfondimenti pratici e a lungo termine da una prospettiva autobiografica. Le nostre analisi con metodi misti rivelano che questo paradigma ha ridotto la divisione dell'attenzione dello spettatore, spostato il focus dalla visualizzazione al presentatore e portato a performance di dati più interattive, naturali e coinvolgenti con il coinvolgimento di tutto il corpo per gli spettatori. In definitiva, gli InfoVids hanno aiutato gli spettatori a reimmaginare le dinamiche tradizionali tra il presentatore e le visualizzazioni.

Insegnare ai Modelli a Comprendere (ma non Generare) Dati ad Alto Rischio
Teaching Models to Understand (but not Generate) High-risk Data

May 5, 2025

Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia

Gli sviluppatori di modelli linguistici tipicamente filtrano i contenuti ad alto rischio – come testi tossici o protetti da copyright – dai loro dati di pre-addestramento per impedire ai modelli di generare output simili. Tuttavia, rimuovere completamente tali dati limita la capacità dei modelli di riconoscere e rispondere in modo appropriato a contenuti dannosi o sensibili. In questo articolo, introduciamo Selective Loss to Understand but Not Generate (SLUNG), un paradigma di pre-addestramento attraverso il quale i modelli imparano a comprendere i dati ad alto rischio senza imparare a generarli. Invece di applicare uniformemente la perdita di predizione del token successivo, SLUNG evita selettivamente di incentivare la generazione di token ad alto rischio, pur assicurandosi che rimangano all'interno della finestra contestuale del modello. Mentre il modello impara a prevedere i token a basso rischio che seguono quelli ad alto rischio, è costretto a comprendere il contenuto ad alto rischio. Attraverso i nostri esperimenti, dimostriamo che SLUNG migliora costantemente la comprensione dei dati ad alto rischio da parte dei modelli (ad esempio, la capacità di riconoscere contenuti tossici) senza aumentarne la generazione (ad esempio, la tossicità delle risposte del modello). Nel complesso, il nostro paradigma SLUNG consente ai modelli di trarre vantaggio da testi ad alto rischio che altrimenti verrebbero filtrati.

Invocare le Interfacce Solo Quando Necessario: Invocazione Adattiva per Modelli Linguistici di Grandi Dimensioni nel Rispondere a Domande
Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering

May 5, 2025

Jihao Zhao, Chunlai Zhou, Biao Qin

Il paradigma collaborativo tra modelli linguistici (LM) di grandi e piccole dimensioni bilancia efficacemente prestazioni e costi, ma la sua sfida cruciale risiede nell'individuare con precisione il momento di invocazione quando si verificano allucinazioni nei piccoli LM. I precedenti sforzi di ottimizzazione si sono concentrati principalmente su tecniche di post-elaborazione, separate dal processo di ragionamento dei LM, risultando in elevati costi computazionali e un'efficacia limitata. In questo articolo, proponiamo una metrica pratica di valutazione dell'invocazione chiamata AttenHScore, che calcola l'accumulo e la propagazione delle allucinazioni durante il processo di generazione dei piccoli LM, amplificando continuamente potenziali errori di ragionamento. Regolando dinamicamente la soglia di rilevamento, otteniamo un'invocazione in tempo reale più accurata dei grandi LM. Inoltre, considerando la capacità di ragionamento limitata dei piccoli LM, sfruttiamo una riorganizzazione della conoscenza consapevole dell'incertezza per aiutarli a catturare meglio le informazioni critiche da diversi frammenti di testo. Esperimenti estensivi rivelano che il nostro AttenHScore supera la maggior parte dei baseline nel migliorare le capacità di rilevamento delle allucinazioni in tempo reale su più dataset di domande e risposte, specialmente quando si affrontano query complesse. Inoltre, le nostre strategie eliminano la necessità di ulteriori addestramenti del modello e mostrano flessibilità nell'adattarsi a vari LM basati su transformer.

Auto-SLURP: Un Dataset di Benchmark per la Valutazione di Framework Multi-Agente negli Assistenti Personali Intelligenti
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant

Apr 25, 2025

Lei Shen, Xiaoyu Shen

Negli ultimi anni, i framework multi-agente basati su modelli linguistici di grandi dimensioni (LLM) hanno fatto rapidi progressi. Nonostante questi avanzamenti, si riscontra ancora una notevole assenza di dataset di benchmark specificamente progettati per valutarne le prestazioni. Per colmare questa lacuna, introduciamo Auto-SLURP, un dataset di benchmark mirato a valutare i framework multi-agente basati su LLM nel contesto degli assistenti personali intelligenti. Auto-SLURP estende il dataset SLURP originale — inizialmente sviluppato per compiti di comprensione del linguaggio naturale — rietichettando i dati e integrando server simulati e servizi esterni. Questo potenziamento consente una pipeline di valutazione end-to-end completa, che copre la comprensione del linguaggio, l'esecuzione dei compiti e la generazione delle risposte. I nostri esperimenti dimostrano che Auto-SLURP rappresenta una sfida significativa per gli attuali framework all'avanguardia, evidenziando che assistenti personali multi-agente veramente affidabili e intelligenti rimangono un lavoro in corso. Il dataset e il codice correlato sono disponibili all'indirizzo https://github.com/lorashen/Auto-SLURP/.

Benchmark Alpha Excel
Alpha Excel Benchmark

May 7, 2025

David Noever, Forrest McKee

Questo studio presenta un nuovo benchmark per valutare i Large Language Model (LLM) utilizzando sfide derivate dalle competizioni Excel del Financial Modeling World Cup (FMWC). Introduciamo una metodologia per convertire 113 sfide esistenti del FMWC in formati JSON valutabili programmaticamente e utilizziamo questo dataset per confrontare le prestazioni di diversi LLM leader. I nostri risultati dimostrano variazioni significative nelle prestazioni tra le diverse categorie di sfide, con i modelli che mostrano punti di forza specifici nei compiti di riconoscimento di pattern ma difficoltà nel ragionamento numerico complesso. Il benchmark fornisce un framework standardizzato per valutare le capacità degli LLM in compiti realistici orientati al business piuttosto che in problemi accademici astratti. Questa ricerca contribuisce al crescente campo dei benchmark di IA stabilendo la competenza tra gli 1,5 miliardi di persone che utilizzano quotidianamente Microsoft Excel come una metrica di valutazione significativa che colma il divario tra i benchmark accademici di IA e le applicazioni pratiche nel mondo degli affari.

Modello Unificato di Ricompensa a Catena di Pensiero Multimodale attraverso il Fine-Tuning con Rinforzo
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

May 6, 2025

Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

943