HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

29 papers found

Any2Caption: Interpretare Qualsiasi Condizione per Didascalie nella Generazione Controllata di Video
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

Mar 31

ByShengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua

Per affrontare il collo di bottiglia dell'interpretazione accurata dell'intento dell'utente all'interno della comunità attuale di generazione video, presentiamo Any2Caption, un nuovo framework per la generazione video controllabile in qualsiasi condizione. L'idea chiave è disaccoppiare i vari passaggi di interpretazione delle condizioni dal passaggio di sintesi video. Sfruttando moderni modelli linguistici multimodali di grandi dimensioni (MLLMs), Any2Caption interpreta input diversi—testo, immagini, video e segnali specializzati come regioni, movimento e pose della fotocamera—in didascalie dense e strutturate che offrono ai generatori video di base una guida migliore. Introduciamo inoltre Any2CapIns, un dataset su larga scala con 337K istanze e 407K condizioni per il tuning delle istruzioni da qualsiasi condizione a didascalia. Valutazioni complete dimostrano miglioramenti significativi del nostro sistema in termini di controllabilità e qualità video attraverso vari aspetti dei modelli esistenti di generazione video. Pagina del progetto: https://sqwu.top/Any2Cap/

JudgeLRM: Modelli di Ragionamento su Grande Scala come Giudici
JudgeLRM: Large Reasoning Models as a Judge

Mar 31

ByNuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He

L'ascesa dei Large Language Models (LLM) come valutatori offre un'alternativa scalabile all'annotazione umana, tuttavia gli approcci esistenti di Supervised Fine-Tuning (SFT) per i giudici spesso si rivelano insufficienti nei domini che richiedono ragionamenti complessi. In questo lavoro, indaghiamo se i giudici LLM traggono effettivo vantaggio da capacità di ragionamento potenziate. Attraverso un'analisi dettagliata dei requisiti di ragionamento nei compiti di valutazione, riveliamo una correlazione negativa tra i miglioramenti delle prestazioni dell'SFT e la proporzione di campioni che richiedono ragionamenti complessi, evidenziando i limiti dell'SFT in tali scenari. Per affrontare questo problema, introduciamo JudgeLRM, una famiglia di LLM orientati al giudizio addestrati utilizzando il reinforcement learning (RL) con ricompense guidate dai risultati e specifiche per i giudici. I modelli JudgeLRM superano costantemente sia i modelli ottimizzati con SFT che i modelli di ragionamento all'avanguardia. In particolare, JudgeLRM-3B supera GPT-4, e JudgeLRM-7B supera DeepSeek-R1 del 2,79% nel punteggio F1, eccellendo soprattutto nei compiti di giudizio che richiedono un ragionamento profondo.

Attenzione Multi-Token
Multi-Token Attention

Apr 1

ByOlga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar

L'attenzione soft è un meccanismo cruciale che consente ai LLM di individuare le parti rilevanti all'interno di un determinato contesto. Tuttavia, i pesi di attenzione individuali sono determinati dalla similarità di un solo vettore di token query e key. Questa "attenzione a singolo token" limita la quantità di informazioni utilizzate per distinguere una parte rilevante dal resto del contesto. Per affrontare questo problema, proponiamo un nuovo metodo di attenzione, Multi-Token Attention (MTA), che consente ai LLM di condizionare i propri pesi di attenzione su più vettori query e key simultaneamente. Questo è ottenuto applicando operazioni di convoluzione su query, key e testine, permettendo alle query e key vicine di influenzare reciprocamente i pesi di attenzione per un'attenzione più precisa. Di conseguenza, il nostro metodo può individuare il contesto rilevante utilizzando informazioni più ricche e sfumate che possono superare la capacità di un singolo vettore. Attraverso valutazioni estensive, dimostriamo che MTA raggiunge prestazioni migliorate su una gamma di benchmark popolari. In particolare, supera i modelli baseline Transformer nei compiti standard di modellazione del linguaggio e nei compiti che richiedono la ricerca di informazioni all'interno di contesti lunghi, dove la capacità del nostro metodo di sfruttare informazioni più ricche si rivela particolarmente vantaggiosa.

Esplorando l'Effetto del Reinforcement Learning sulla Comprensione Video: Approfondimenti da SEED-Bench-R1
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

Mar 31

ByYi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu

I recenti progressi nella generazione di Catena di Pensiero (Chain of Thought, COT) hanno significativamente migliorato le capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (Large Language Models, LLMs), con l'apprendimento per rinforzo (Reinforcement Learning, RL) che emerge come un approccio efficace nel post-addestramento. I Modelli Linguistici Multimodali di Grande Dimensione (Multimodal Large Language Models, MLLMs) ereditano questo potenziale di ragionamento, ma rimangono poco esplorati in compiti che richiedono sia percezione che ragionamento logico. Per affrontare questa lacuna, introduciamo SEED-Bench-R1, un benchmark progettato per valutare sistematicamente i metodi di post-addestramento per MLLMs nella comprensione di video. Questo include video complessi del mondo reale e compiti di pianificazione quotidiana in formato di domande a scelta multipla, che richiedono una percezione e un ragionamento sofisticati. SEED-Bench-R1 valuta la generalizzazione attraverso una gerarchia a tre livelli: scenari in-distribuzione, cross-ambiente e cross-ambiente-compito, dotato di un ampio dataset di addestramento con risposte di verità facilmente verificabili. Utilizzando Qwen2-VL-Instruct-7B come modello di base, confrontiamo RL con il fine-tuning supervisionato (Supervised Fine-Tuning, SFT), dimostrando l'efficienza dei dati di RL e le sue prestazioni superiori sia nei compiti in-distribuzione che out-of-distribution, superando persino SFT su benchmark generali di comprensione video come LongVideoBench. La nostra analisi dettagliata rivela che RL migliora la percezione visiva ma spesso produce catene di ragionamento meno coerenti logicamente. Identifichiamo limitazioni chiave come il ragionamento incoerente e gli indizi visivi trascurati, e suggeriamo miglioramenti futuri nel ragionamento del modello di base, nella modellazione delle ricompense e nella robustezza di RL contro segnali rumorosi.

Open-Qwen2VL: Pre-addestramento Efficiente dal Punto di Vista Computazionale di Modelli Linguistici Multimodali Completamente Aperti su Risorse Accademiche
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

Apr 1

ByWeizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan

La riproduzione del pre-training di modelli linguistici multimodali all'avanguardia incontra ostacoli in ogni fase della pipeline, inclusi il filtraggio di dati di alta qualità, le strategie di miscelazione di dati multimodali, le tecniche di impacchettamento delle sequenze e i framework di addestramento. Presentiamo Open-Qwen2VL, un modello linguistico multimodale open-source da 2 miliardi di parametri, pre-addestrato in modo efficiente su 29 milioni di coppie immagine-testo utilizzando solo 442 ore di GPU A100-40G. Il nostro approccio impiega una risoluzione dinamica delle immagini da bassa ad alta e l'impacchettamento di sequenze multimodali per migliorare significativamente l'efficienza del pre-training. Il dataset di addestramento è stato curato con attenzione utilizzando sia tecniche di filtraggio basate su MLLM (ad esempio, MLM-Filter) che metodi di filtraggio convenzionali basati su CLIP, migliorando sostanzialmente la qualità dei dati e l'efficienza dell'addestramento. Il pre-training di Open-Qwen2VL è stato condotto su GPU 8xA100-40G di livello accademico presso l'UCSB su 5 miliardi di token multimodali impacchettati, che rappresentano lo 0,36% dei 1,4 trilioni di token multimodali di pre-training di Qwen2-VL. La versione finale di Open-Qwen2VL, ottimizzata per istruzioni, supera il modello MLLM parzialmente open-source all'avanguardia Qwen2-VL-2B su vari benchmark multimodali come MMBench, SEEDBench, MMstar e MathVista, dimostrando la notevole efficienza di addestramento di Open-Qwen2VL. Rilasciamo open-source tutti gli aspetti del nostro lavoro, inclusi i dettagli dell'addestramento efficiente in termini di calcolo e dati, i metodi di filtraggio dei dati, gli script per l'impacchettamento delle sequenze, i dati di pre-training in formato WebDataset, il codice di addestramento basato su FSDP, e i checkpoint sia del modello base che di quello ottimizzato per istruzioni. Ridefiniamo "completamente open" per i modelli linguistici multimodali come il rilascio completo di: 1) il codice di addestramento, 2) le tecniche dettagliate di filtraggio dei dati, e 3) tutti i dati di pre-training e di fine-tuning supervisionato utilizzati per sviluppare il modello.

CodeARC: Valutazione delle Capacità di Ragionamento degli Agenti LLM per la Sintesi Induttiva di Programmi
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

Mar 29

ByAnjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken

La sintesi induttiva di programmi, o programmazione per esempi, richiede la sintesi di funzioni a partire da esempi di input-output che generalizzano a input non visti. Sebbene i modelli linguistici di grandi dimensioni abbiano mostrato potenziale nei compiti di programmazione guidati dal linguaggio naturale, la loro capacità di eseguire la sintesi induttiva di programmi è ancora poco esplorata. I protocolli di valutazione esistenti si basano su insiemi statici di esempi e test separati, non fornendo feedback quando le funzioni sintetizzate sono errate e non riflettendo scenari reali come il reverse engineering. Proponiamo CodeARC, la Code Abstraction and Reasoning Challenge, un nuovo framework di valutazione in cui gli agenti interagiscono con una funzione target nascosta interrogandola con nuovi input, sintetizzando funzioni candidate e perfezionando iterativamente le loro soluzioni utilizzando un oracolo di test differenziale. Questo contesto interattivo incoraggia gli agenti a eseguire chiamate di funzioni e autocorrezione basandosi sui feedback. Costruiamo il primo benchmark su larga scala per la sintesi induttiva di programmi a scopo generale, comprendente 1114 funzioni. Tra i 18 modelli valutati, o3-mini ottiene i migliori risultati con un tasso di successo del 52,7%, evidenziando la difficoltà di questo compito. Il fine-tuning di LLaMA-3.1-8B-Instruct su tracce di sintesi curate produce un miglioramento relativo delle prestazioni fino al 31%. CodeARC fornisce un banco di prova più realistico e impegnativo per valutare la sintesi di programmi e il ragionamento induttivo basati su LLM.

Scalabilità dell'Apprendimento di Rappresentazioni Visive Senza Linguaggio
Scaling Language-Free Visual Representation Learning

Apr 1

ByDavid Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie

L'apprendimento visivo auto-supervisionato (SSL) attualmente ottiene prestazioni inferiori rispetto al Pretraining Contrastivo Linguaggio-Immagine (CLIP) in contesti multimodali come il Visual Question Answering (VQA). Questo divario multimodale è spesso attribuito alla semantica introdotta dalla supervisione linguistica, nonostante i modelli SSL visivi e CLIP siano spesso addestrati su dati diversi. In questo lavoro, ci poniamo la domanda: "Gli approcci visivi auto-supervisionati sono in ritardo rispetto a CLIP a causa della mancanza di supervisione linguistica o delle differenze nei dati di addestramento?" Studiamo questa questione addestrando sia modelli SSL visivi che CLIP sugli stessi dati MetaCLIP e utilizzando il VQA come banco di prova diversificato per gli encoder visivi. In questa configurazione controllata, i modelli SSL visivi scalano meglio dei modelli CLIP in termini di dati e capacità del modello, e le prestazioni SSL visive non si saturano nemmeno dopo aver scalato fino a 7 miliardi di parametri. Di conseguenza, osserviamo che i metodi SSL visivi raggiungono prestazioni pari a quelle di CLIP su un'ampia gamma di benchmark VQA e classici di visione. Questi risultati dimostrano che l'SSL visivo puro può eguagliare il pretraining visivo supervisionato dal linguaggio su larga scala, aprendo nuove opportunità per l'apprendimento di rappresentazioni centrate sulla visione.

Comando A: Un Modello Linguistico di Grandi Dimensioni Pronto per l'Enterprise
Command A: An Enterprise-Ready Large Language Model

Apr 1

ByTeam Cohere, Aakanksha, Arash Ahmadian, Marwan Ahmed, Jay Alammar, Yazeed Alnumay, Sophia Althammer, Arkady Arkhangorodsky, Viraat Aryabumi, Dennis Aumiller, Raphaël Avalos, Zahara Aviv, Sammie Bae, Saurabh Baji, Alexandre Barbet, Max Bartolo, Björn Bebensee, Neeral Beladia, Walter Beller-Morales, Alexandre Bérard, Andrew Berneshawi, Anna Bialas, Phil Blunsom, Matt Bobkin, Adi Bongale, Sam Braun, Maxime Brunet, Samuel Cahyawijaya, David Cairuz, Jon Ander Campos, Cassie Cao, Kris Cao, Roman Castagné, Julián Cendrero, Leila Chan Currie, Yash Chandak, Diane Chang, Giannis Chatziveroglou, Hongyu Chen, Claire Cheng, Alexis Chevalier, Justin T. Chiu, Eugene Cho, Eugene Choi, Eujeong Choi, Tim Chung, Volkan Cirik, Ana Cismaru, Pierre Clavier, Henry Conklin, Lucas Crawhall-Stein, Devon Crouse, Andres Felipe Cruz-Salinas, Ben Cyrus, Daniel D'souza, Hugo Dalla-Torre, John Dang, William Darling, Omar Darwiche Domingues, Saurabh Dash, Antoine Debugne, Théo Dehaze, Shaan Desai, Joan Devassy, Rishit Dholakia, Kyle Duffy, Ali Edalati, Ace Eldeib, Abdullah Elkady, Sarah Elsharkawy, Irem Ergün, Beyza Ermis, Marzieh Fadaee, Boyu Fan, Lucas Fayoux, Yannis Flet-Berliac, Nick Frosst, Matthias Gallé, Wojciech Galuba, Utsav Garg, Matthieu Geist, Mohammad Gheshlaghi Azar, Seraphina Goldfarb-Tarrant, Tomas Goldsack, Aidan Gomez, Victor Machado Gonzaga, Nithya Govindarajan, Manoj Govindassamy, Nathan Grinsztajn, Nikolas Gritsch, Patrick Gu, Shangmin Guo, Kilian Haefeli, Rod Hajjar, Tim Hawes, Jingyi He, Sebastian Hofstätter, Sungjin Hong, Sara Hooker, Tom Hosking, Stephanie Howe, Eric Hu, Renjie Huang, Hemant Jain, Ritika Jain, Nick Jakobi, Madeline Jenkins, JJ Jordan, Dhruti Joshi, Jason Jung, Trushant Kalyanpur, Siddhartha Rao Kamalakara, Julia Kedrzycki, Gokce Keskin, Edward Kim, Joon Kim, Wei-Yin Ko, Tom Kocmi, Michael Kozakov, Wojciech Kryściński, Arnav Kumar Jain, Komal Kumar Teru, Sander Land, Michael Lasby, Olivia Lasche, Justin Lee, Patrick Lewis, Jeffrey Li, Jonathan Li, Hangyu Lin, Acyr Locatelli, Kevin Luong, Raymond Ma, Lukas Mach, Marina Machado, Joanne Magbitang, Brenda Malacara Lopez, Aryan Mann, Kelly Marchisio, Olivia Markham, Alexandre Matton, Alex McKinney, Dominic McLoughlin, Jozef Mokry, Adrien Morisot, Autumn Moulder, Harry Moynehan, Maximilian Mozes, Vivek Muppalla, Lidiya Murakhovska, Hemangani Nagarajan, Alekhya Nandula, Hisham Nasir, Shauna Nehra, Josh Netto-Rosen, Daniel Ohashi, James Owers-Bardsley, Jason Ozuzu, Dennis Padilla, Gloria Park, Sam Passaglia, Jeremy Pekmez, Laura Penstone, Aleksandra Piktus, Case Ploeg, Andrew Poulton, Youran Qi, Shubha Raghvendra, Miguel Ramos, Ekagra Ranjan, Pierre Richemond, Cécile Robert-Michon, Aurélien Rodriguez, Sudip Roy, Laura Ruis, Louise Rust, Anubhav Sachan, Alejandro Salamanca, Kailash Karthik Saravanakumar, Isha Satyakam, Alice Schoenauer Sebag, Priyanka Sen, Sholeh Sepehri, Preethi Seshadri, Ye Shen, Tom Sherborne, Sylvie Chang Shi, Sanal Shivaprasad, Vladyslav Shmyhlo, Anirudh Shrinivason, Inna Shteinbuk, Amir Shukayev, Mathieu Simard, Ella Snyder, Ava Spataru, Victoria Spooner, Trisha Starostina, Florian Strub, Yixuan Su, Jimin Sun, Dwarak Talupuru, Eugene Tarassov, Elena Tommasone, Jennifer Tracey, Billy Trend, Evren Tumer, Ahmet Üstün, Bharat Venkitesh, David Venuto, Pat Verga, Maxime Voisin, Alex Wang, Donglu Wang, Shijian Wang, Edmond Wen, Naomi White, Jesse Willman, Marysia Winkels, Chen Xia, Jessica Xie, Minjie Xu, Bowen Yang, Tan Yi-Chern, Ivan Zhang, Zhenyu Zhao, Zhoujie Zhao

In questo rapporto descriviamo lo sviluppo di Command A, un potente modello linguistico di grandi dimensioni progettato specificamente per eccellere in casi d'uso aziendali reali. Command A è un modello ottimizzato per agenti e multilingue, con supporto per 23 lingue utilizzate nel business globale, e una nuova architettura ibrida che bilancia efficienza e prestazioni di alto livello. Offre capacità di Generazione Aumentata con Recupero (RAG) di prim'ordine, con ancoraggio alla realtà e utilizzo di strumenti per automatizzare processi aziendali sofisticati. Queste capacità sono state raggiunte attraverso un approccio di addestramento decentralizzato, che include algoritmi di auto-affinamento e tecniche di fusione di modelli. Includiamo anche i risultati per Command R7B, che condivide capacità e somiglianze architetturali con Command A. I pesi di entrambi i modelli sono stati rilasciati per scopi di ricerca. Questo rapporto tecnico dettaglia la nostra pipeline di addestramento originale e presenta una valutazione estensiva dei nostri modelli su una serie di task rilevanti per il mondo aziendale e benchmark pubblici, dimostrando prestazioni e efficienza eccellenti.

GeometryCrafter: Stima Geometrica Coerente per Video nel Mondo Aperto con Prior Diffusivi
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

Apr 1

ByTian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan

Nonostante i notevoli progressi nella stima della profondità video, i metodi esistenti presentano limitazioni intrinseche nel raggiungere una fedeltà geometrica attraverso previsioni invarianti rispetto alle trasformazioni affini, limitando la loro applicabilità nella ricostruzione e in altre attività a valle basate su metriche. Proponiamo GeometryCrafter, un nuovo framework che recupera sequenze di mappe di punti ad alta fedeltà con coerenza temporale da video del mondo reale, consentendo una ricostruzione 3D/4D accurata, la stima dei parametri della telecamera e altre applicazioni basate sulla profondità. Al centro del nostro approccio si trova un Variational Autoencoder (VAE) per mappe di punti che apprende uno spazio latente indipendente dalle distribuzioni latenti dei video, consentendo una codifica e decodifica efficace delle mappe di punti. Sfruttando il VAE, addestriamo un modello di diffusione video per modellare la distribuzione delle sequenze di mappe di punti condizionate ai video di input. Valutazioni estensive su diversi dataset dimostrano che GeometryCrafter raggiunge una precisione 3D all'avanguardia, coerenza temporale e capacità di generalizzazione.

Paesaggio dei Pensieri: Visualizzazione del Processo di Ragionamento dei Modelli Linguistici su Larga Scala
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

Mar 28

ByZhanke Zhou, Zhaocheng Zhu, Xuan Li, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han

Numerose applicazioni dei modelli linguistici di grandi dimensioni (LLM) si basano sulla loro capacità di eseguire ragionamenti passo-passo. Tuttavia, il comportamento di ragionamento degli LLM rimane poco compreso, ponendo sfide alla ricerca, allo sviluppo e alla sicurezza. Per colmare questa lacuna, introduciamo il "paesaggio dei pensieri", il primo strumento di visualizzazione che consente agli utenti di ispezionare i percorsi di ragionamento della catena di pensiero e delle sue derivate su qualsiasi dataset a scelta multipla. Nello specifico, rappresentiamo gli stati in un percorso di ragionamento come vettori di caratteristiche che quantificano le loro distanze da tutte le opzioni di risposta. Queste caratteristiche vengono poi visualizzate in grafici bidimensionali utilizzando t-SNE. L'analisi qualitativa e quantitativa con il paesaggio dei pensieri distingue efficacemente tra modelli forti e deboli, risposte corrette e errate, nonché diversi compiti di ragionamento. Inoltre, rivela modelli di ragionamento indesiderati, come bassa coerenza e alta incertezza. Gli utenti possono anche adattare il nostro strumento a un modello che predice la proprietà che osservano. Dimostriamo questo vantaggio adattando il nostro strumento a un verificatore leggero che valuta la correttezza dei percorsi di ragionamento. Il codice è disponibile pubblicamente all'indirizzo: https://github.com/tmlr-group/landscape-of-thoughts.

Agente S2: Un Framework Composizionale Generalista-Specialista per Agenti di Utilizzo del Computer
Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

Apr 1

BySaaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang

Gli agenti di utilizzo del computer automatizzano le attività digitali interagendo direttamente con le interfacce grafiche utente (GUI) su computer e dispositivi mobili, offrendo un potenziale significativo per migliorare la produttività umana completando uno spazio aperto di richieste degli utenti. Tuttavia, gli agenti attuali affrontano sfide considerevoli: un'ancoraggio impreciso degli elementi GUI, difficoltà nella pianificazione di attività a lungo termine e colli di bottiglia nelle prestazioni dovuti all'uso di modelli generalisti singoli per compiti cognitivi diversi. A tal fine, introduciamo Agent S2, un nuovo framework composizionale che delega le responsabilità cognitive a vari modelli generalisti e specializzati. Proponiamo una nuova tecnica di Mixture-of-Grounding per ottenere una localizzazione precisa delle GUI e introduciamo la Pianificazione Gerarchica Proattiva, che affina dinamicamente i piani d'azione su più scale temporali in risposta a osservazioni in evoluzione. Le valutazioni dimostrano che Agent S2 stabilisce nuove prestazioni all'avanguardia (SOTA) su tre importanti benchmark di utilizzo del computer. In particolare, Agent S2 ottiene miglioramenti relativi del 18,9% e del 32,7% rispetto ai principali agenti di riferimento come Claude Computer Use e UI-TARS nelle valutazioni a 15 e 50 passi di OSWorld. Inoltre, Agent S2 si generalizza efficacemente ad altri sistemi operativi e applicazioni, superando i precedenti metodi migliori del 52,8% su WindowsAgentArena e del 16,52% su AndroidWorld in termini relativi. Il codice è disponibile all'indirizzo https://github.com/simular-ai/Agent-S.

Z1: Scalabilità Efficiente al Momento del Test con Codice
Z1: Efficient Test-time Scaling with Code

Apr 1

ByZhaojian Yu, Yinghao Wu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang

I modelli linguistici di grandi dimensioni (LLM) possono ottenere una migliore risoluzione di problemi complessi attraverso il ridimensionamento computazionale al momento del test, ma ciò spesso comporta contesti più lunghi e costi elevati in termini di token di ragionamento. In questo articolo, proponiamo un metodo efficiente di ridimensionamento al momento del test che addestra gli LLM su traiettorie di ragionamento legate al codice, facilitando la riduzione dei token di pensiero in eccesso mantenendo le prestazioni. In primo luogo, creiamo Z1-Code-Reasoning-107K, un dataset curato di problemi di codifica semplici e complessi accoppiati con le loro traiettorie di soluzione brevi e lunghe. In secondo luogo, presentiamo una nuova Finestra di Pensiero Spostata per mitigare il sovraccarico di pensiero rimuovendo i tag di delimitazione del contesto (ad esempio, <think>. . . </think>) e limitando i token di ragionamento. Addestrato con dati di traiettorie lunghe e brevi e dotato della Finestra di Pensiero Spostata, il nostro modello, Z1-7B, dimostra la capacità di adattare il suo livello di ragionamento in base alla complessità dei problemi e mostra un ridimensionamento efficiente al momento del test su diverse attività di ragionamento che eguaglia le prestazioni di R1-Distill-Qwen-7B con circa il 30% dei suoi token di pensiero medi. È degno di nota che, addestrato solo con traiettorie di codice, Z1-7B dimostra una generalizzazione a compiti di ragionamento più ampi (47,5% su GPQA Diamond). La nostra analisi sull'elicitazione efficiente del ragionamento fornisce anche spunti preziosi per la ricerca futura.

Recitazione invece di Ragionamento: Come i Modelli Linguistici all'Avanguardia Possono Fallire su Problemi di Ragionamento di Livello Scuola Elementare?
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?

Apr 1

ByKai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen

La rapida escalation dai problemi di livello elementare a quelli di frontiera della difficoltà per i benchmark dei modelli linguistici (LLM) negli ultimi anni ha creato un miracolo per i ricercatori, portandoci a credere di essere a un passo dal superare l'intelligenza umana. Tuttavia, la straordinaria capacità di ragionamento dei LLM deriva davvero da una vera intelligenza secondo gli standard umani, o si tratta semplicemente di una ripetizione di soluzioni osservate durante l'addestramento su scala Internet? Per studiare questo problema, proponiamo RoR-Bench, un nuovo benchmark multimodale progettato per rilevare il comportamento di ripetizione dei LLM quando vengono posti problemi di ragionamento semplici ma con condizioni leggermente modificate, e conduciamo un'analisi empirica sul nostro benchmark. Sorprendentemente, abbiamo scoperto che i LLM all'avanguardia esistenti mostrano unanimemente un comportamento di ripetizione estremamente grave; cambiando una sola frase nella condizione, modelli di punta come OpenAI-o1 e DeepSeek-R1 possono subire una perdita di prestazioni del 60% su problemi aritmetici e di ragionamento di livello elementare. Tali risultati rappresentano un campanello d'allarme per la comunità dei LLM, costringendoci a rivalutare il vero livello di intelligenza dei modelli linguistici all'avanguardia.

YourBench: Set di Valutazione Personalizzati Semplici per Tutti
YourBench: Easy Custom Evaluation Sets for Everyone

Apr 2

BySumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür

Valutare efficacemente i grandi modelli linguistici (LLM) rimane un collo di bottiglia critico, poiché i benchmark statici tradizionali soffrono di saturazione e contaminazione, mentre le valutazioni umane sono costose e lente. Ciò ostacola valutazioni tempestive o specifiche per dominio, cruciali per applicazioni nel mondo reale. Introduciamo YourBench, un nuovo framework open-source che affronta queste limitazioni consentendo la generazione dinamica e automatizzata di benchmark affidabili, aggiornati e personalizzati per dominio in modo economico e senza annotazione manuale, direttamente da documenti forniti dall'utente. Ne dimostriamo l'efficacia replicando 7 sottoinsiemi diversi di MMLU utilizzando un testo sorgente minimo, raggiungendo questo obiettivo con un costo totale di inferenza inferiore a 15 USD, preservando perfettamente le classifiche relative delle prestazioni dei modelli (Spearman Rho = 1) osservate sul benchmark originale. Per garantire che YourBench generi dati basati sugli input forniti invece di affidarsi a conoscenze parametriche posteriori nei modelli, introduciamo anche Tempora-0325, un nuovo dataset di oltre 7K documenti diversi, pubblicati esclusivamente dopo marzo 2025. La nostra analisi completa copre 26 modelli SoTA di 7 famiglie principali su varie scale (3-671B parametri) per convalidare la qualità delle valutazioni generate attraverso controlli algoritmici rigorosi (ad esempio, grounding delle citazioni) e valutazioni umane. Rilasciamo la libreria YourBench, il dataset Tempora-0325, oltre 150k coppie domanda-risposta basate su Tempora e tutte le tracce di valutazione e inferenza per facilitare la ricerca riproducibile e consentire alla comunità di generare benchmark su misura su richiesta, promuovendo una valutazione dei LLM più rilevante e affidabile.

Verso Agenti GUI Affidabili: Una Rassegna
Towards Trustworthy GUI Agents: A Survey

Mar 30

ByYucheng Shi, Wenhao Yu, Wenlin Yao, Wenhu Chen, Ninghao Liu

Gli agenti GUI, alimentati da grandi modelli di base, possono interagire con interfacce digitali, abilitando varie applicazioni nell'automazione web, nella navigazione mobile e nel testing software. Tuttavia, la loro crescente autonomia ha sollevato preoccupazioni critiche riguardo alla loro sicurezza, privacy e affidabilità. Questo studio esamina l'affidabilità degli agenti GUI in cinque dimensioni critiche: vulnerabilità di sicurezza, affidabilità in ambienti dinamici, trasparenza e spiegabilità, considerazioni etiche e metodologie di valutazione. Identifichiamo inoltre le principali sfide, come la vulnerabilità agli attacchi avversari, le modalità di guasto a cascata nel processo decisionale sequenziale e la mancanza di benchmark di valutazione realistici. Questi problemi non solo ostacolano il dispiegamento nel mondo reale, ma richiedono anche strategie di mitigazione complete che vadano oltre il successo del compito. Man mano che gli agenti GUI diventano più diffusi, è essenziale stabilire standard di sicurezza robusti e pratiche di sviluppo responsabili. Questo studio fornisce una base per avanzare verso agenti GUI affidabili attraverso una comprensione sistematica e future ricerche.

MixerMDM: Composizione Apprendibile di Modelli di Diffusione per il Movimento Umano
MixerMDM: Learnable Composition of Human Motion Diffusion Models

Apr 1

ByPablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez

Generare movimenti umani guidati da condizioni come descrizioni testuali è una sfida a causa della necessità di dataset con coppie di movimenti di alta qualità e le loro corrispondenti condizioni. La difficoltà aumenta quando si mira a un controllo più fine nella generazione. A tal fine, lavori precedenti hanno proposto di combinare diversi modelli di diffusione del movimento pre-addestrati su dataset con diversi tipi di condizioni, consentendo così il controllo con più condizioni. Tuttavia, le strategie di fusione proposte trascurano che il modo ottimale per combinare i processi di generazione potrebbe dipendere dalle particolarità di ciascun modello generativo pre-addestrato e anche dalle specifiche descrizioni testuali. In questo contesto, introduciamo MixerMDM, la prima tecnica di composizione di modelli apprendibile per combinare modelli di diffusione del movimento umano pre-addestrati condizionati da testo. A differenza degli approcci precedenti, MixerMDM fornisce una strategia di miscelazione dinamica che viene addestrata in modo avversario per imparare a combinare il processo di denoising di ciascun modello in base all'insieme di condizioni che guidano la generazione. Utilizzando MixerMDM per combinare modelli di diffusione del movimento per singole persone e per più persone, otteniamo un controllo fine sulla dinamica di ogni individuo e anche sull'interazione complessiva. Inoltre, proponiamo una nuova tecnica di valutazione che, per la prima volta in questo compito, misura l'interazione e la qualità individuale calcolando l'allineamento tra i movimenti generati miscelati e le loro condizioni, nonché le capacità di MixerMDM di adattare la miscelazione durante il processo di denoising in base ai movimenti da miscelare.

Sfruttare l'Economia del Ragionamento: Una Rassegna sul Ragionamento Efficiente per i Modelli Linguistici di Grandi Dimensioni
Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

Mar 31

ByRui Wang, Hongru Wang, Boyang Xue, Jianhui Pang, Shudong Liu, Yi Chen, Jiahao Qiu, Derek Fai Wong, Heng Ji, Kam-Fai Wong

I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno notevolmente migliorato la loro capacità di eseguire compiti di ragionamento complesso, passando da un pensiero rapido e intuitivo (Sistema 1) a un ragionamento lento e profondo (Sistema 2). Sebbene il ragionamento del Sistema 2 migliori l'accuratezza dei compiti, spesso comporta costi computazionali significativi a causa della sua natura di pensiero lento e di comportamenti di ragionamento inefficienti o non necessari. Al contrario, il ragionamento del Sistema 1 è computazionalmente efficiente, ma porta a prestazioni subottimali. Di conseguenza, è fondamentale bilanciare il compromesso tra prestazioni (benefici) e costi computazionali (budget), dando vita al concetto di economia del ragionamento. In questa rassegna, forniamo un'analisi completa dell'economia del ragionamento sia nelle fasi di post-addestramento che di inferenza in tempo reale degli LLM, comprendendo i) la causa dell'inefficienza del ragionamento, ii) l'analisi del comportamento dei diversi modelli di ragionamento e iii) le potenziali soluzioni per raggiungere l'economia del ragionamento. Offrendo intuizioni pratiche e evidenziando le sfide aperte, miriamo a far luce sulle strategie per migliorare l'economia del ragionamento degli LLM, servendo così come una risorsa preziosa per avanzare la ricerca in questo settore in evoluzione. Forniamo inoltre un repository pubblico per monitorare continuamente gli sviluppi in questo campo in rapida evoluzione.

OmniMMI: Un Benchmark Completo per l'Interazione Multi-modale nei Contesti di Video in Streaming
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

Mar 29

ByYuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng

Il rapido progresso dei modelli linguistici multimodali (MLLM) come GPT-4o ha spinto lo sviluppo dei modelli linguistici Omni, progettati per elaborare e rispondere proattivamente a flussi continui di dati multimodali. Nonostante il loro potenziale, valutare le loro capacità interattive nel mondo reale in contesti di streaming video rimane una sfida formidabile. In questo lavoro, introduciamo OmniMMI, un benchmark completo per l'interazione multimodale, specificamente adattato per gli OmniLLM in contesti di streaming video. OmniMMI comprende oltre 1.121 video e 2.290 domande, affrontando due sfide critiche ma poco esplorate negli attuali benchmark video: la comprensione dello streaming video e il ragionamento proattivo, attraverso sei sottotask distinti. Inoltre, proponiamo un nuovo framework, il Multi-modal Multiplexing Modeling (M4), progettato per abilitare un modello di streaming efficiente nell'inferenza che possa vedere, ascoltare mentre genera.

LLaMA-3.2-Vision Efficiente attraverso il Taglio delle Caratteristiche Visive Elaborate da Cross-Attention
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

Apr 1

ByJewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim

La riduzione dei token visivi abbassa i costi di inferenza causati dalle estese caratteristiche delle immagini nei grandi modelli visione-linguaggio (LVLM). A differenza degli studi rilevanti che eliminano i token nei LVLM basati esclusivamente su self-attention, il nostro lavoro affronta in modo unico i modelli basati su cross-attention, che raggiungono prestazioni superiori. Identifichiamo che la dimensione della cache chiave-valore (KV) per i token delle immagini nei livelli di cross-attention supera significativamente quella dei token di testo nei livelli di self-attention, rappresentando un importante collo di bottiglia computazionale. Per mitigare questo problema, sfruttiamo la natura sparsa delle mappe di cross-attention per eliminare selettivamente le caratteristiche visive ridondanti. Il nostro Trimmed Llama riduce efficacemente le richieste della cache KV senza necessitare di ulteriore addestramento. Beneficiando di una riduzione del 50% delle caratteristiche visive, il nostro modello può ridurre la latenza di inferenza e l'utilizzo della memoria mantenendo prestazioni in linea con i benchmark.

Quando Risolvere, Quando Verificare: Risoluzione Ottimizzata dal Punto di Vista Computazionale e Verifica Generativa per il Ragionamento nei Modelli Linguistici di Grande Dimensione
When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

Apr 1

ByNishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach

Il ridimensionamento del calcolo in fase di test è emerso come una strategia chiave per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM), in particolare in compiti come la risoluzione di problemi matematici. Un approccio tradizionale, l'Autoconsistenza (SC), genera più soluzioni a un problema e seleziona la risposta più comune tramite voto a maggioranza. Un altro metodo comune prevede di assegnare un punteggio a ciascuna soluzione utilizzando un modello di ricompensa (verificatore) e di scegliere la migliore. I recenti progressi nei Modelli di Ricompensa Generativi (GenRM) riformulano la verifica come un compito di previsione del token successivo, consentendo il ridimensionamento in fase di inferenza lungo un nuovo asse. Nello specifico, GenRM genera più catene di pensiero di verifica per valutare ciascuna soluzione. Con un budget di inferenza limitato, ciò introduce un compromesso fondamentale: è meglio spendere il budget per ridimensionare le soluzioni tramite SC o generare meno soluzioni e allocare il calcolo alla verifica tramite GenRM? Per affrontare questa questione, valutiamo GenRM rispetto a SC con un budget di inferenza fisso. Interessantemente, scopriamo che SC è più efficiente in termini di calcolo rispetto a GenRM per la maggior parte dei budget di inferenza pratici, su diversi modelli e dataset. Ad esempio, GenRM raggiunge per la prima volta le prestazioni di SC solo dopo aver consumato fino a 8 volte il calcolo di inferenza e richiede un calcolo significativamente maggiore per superarlo. Inoltre, deriviamo le leggi di ridimensionamento dell'inferenza per il paradigma GenRM, rivelando che l'inferenza ottimale in termini di calcolo favorisce un ridimensionamento più aggressivo della generazione di soluzioni rispetto al numero di verifiche. Il nostro lavoro fornisce indicazioni pratiche sull'ottimizzazione del ridimensionamento in fase di test bilanciando la generazione di soluzioni e la verifica. Il codice è disponibile all'indirizzo https://github.com/nishadsinghi/sc-genrm-scaling.

m1: Sfruttare il Potenziale del Ridimensionamento al Momento del Test per il Ragionamento Medico con Modelli Linguistici di Grandi Dimensioni
m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models

Apr 1

ByXiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou

Il ridimensionamento al momento del test è emerso come una tecnica potente per migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni. Tuttavia, la sua efficacia nel ragionamento medico rimane incerta, poiché il dominio medico differisce fondamentalmente dai compiti matematici in termini di rappresentazione della conoscenza e processi decisionali. In questo articolo, forniamo la prima indagine completa sul ridimensionamento al momento del test per il ragionamento medico e presentiamo m1, un approccio semplice ma efficace che aumenta la capacità di ragionamento medico di un modello durante l'inferenza. La nostra valutazione su una varietà di compiti medici dimostra che il ridimensionamento al momento del test migliora costantemente il ragionamento medico, consentendo a modelli leggeri e ottimizzati con meno di 10B di parametri di stabilire nuove prestazioni all'avanguardia, mentre il nostro modello da 32B rivaleggia con precedenti modelli linguistici medici su scala 70B. Tuttavia, identifichiamo un budget ottimale di token di ragionamento di circa 4K, oltre il quale le prestazioni possono degradare a causa di un eccessivo ragionamento. Il forzamento del budget, che estende il calcolo al momento del test attraverso prompt iterativi, aiuta i modelli a ricontrollare le risposte ma non migliora necessariamente le prestazioni complessive delle domande e risposte mediche e, in alcuni casi, introduce persino errori in risposte precedentemente corrette. La nostra analisi caso per caso identifica una conoscenza medica insufficiente come un collo di bottiglia chiave che impedisce ulteriori guadagni di prestazioni attraverso il ridimensionamento al momento del test. Scopriamo che aumentare la scala dei dati, migliorare la qualità dei dati e espandere la capacità del modello migliora costantemente l'ancoraggio della conoscenza medica, consentendo miglioramenti continui delle prestazioni, in particolare su benchmark medici impegnativi dove i modelli più piccoli raggiungono la saturazione. Questi risultati sottolineano le differenze fondamentali tra il ragionamento medico e quello matematico nei modelli linguistici di grandi dimensioni, evidenziando che una conoscenza medica arricchita, oltre a una maggiore profondità di ragionamento, è essenziale per realizzare i benefici del ridimensionamento al momento del test.

AdaMMS: Fusione di Modelli per Grandi Modelli Linguistici Multimodali Eterogenei con Ottimizzazione Non Supervisionata dei Coefficienti
AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization

Mar 31

ByYiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu

Recentemente, i metodi di fusione di modelli hanno dimostrato una potente capacità di combinare abilità su vari task provenienti da più modelli linguistici di grandi dimensioni (LLM). Mentre i precedenti metodi di fusione si concentravano principalmente sulla fusione di modelli omogenei con architettura identica, incontrano difficoltà quando si tratta di Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) con una proprietà intrinsecamente eterogenea, inclusa la differenza nell'architettura del modello e l'asimmetria nello spazio dei parametri. In questo lavoro, proponiamo AdaMMS, un nuovo metodo di fusione di modelli progettato specificamente per MLLM eterogenei. Il nostro metodo affronta le sfide in tre passaggi: mappatura, fusione e ricerca. Nello specifico, progettiamo prima una funzione di mappatura tra i modelli per applicare la fusione su MLLM con architetture diverse. Successivamente, applichiamo un'interpolazione lineare sui pesi del modello per adattare attivamente l'asimmetria nei MLLM eterogenei. Infine, nel passaggio di ricerca degli iperparametri, proponiamo un metodo di selezione degli iperparametri non supervisionato per la fusione di modelli. Essendo il primo metodo di fusione in grado di unire MLLM eterogenei senza dati etichettati, esperimenti estesi su varie combinazioni di modelli hanno dimostrato che AdaMMS supera i precedenti metodi di fusione su vari benchmark di visione e linguaggio.

Reasoning-SQL: Apprendimento per Rinforzo con Ricompense Parziali Personalizzate in SQL per il Text-to-SQL Potenziato dal Ragionamento
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL

Mar 29

ByMohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik

Text-to-SQL è un compito impegnativo che coinvolge molteplici sottotask intensivi dal punto di vista del ragionamento, tra cui la comprensione del linguaggio naturale, la comprensione dello schema del database e la formulazione precisa di query SQL. Gli approcci esistenti spesso si basano su percorsi di ragionamento manualmente costruiti con bias induttivi che possono limitarne l'efficacia complessiva. Ispirati dai recenti successi di modelli potenziati dal ragionamento come DeepSeek R1 e OpenAI o1, che sfruttano efficacemente l'auto-esplorazione guidata da ricompense per migliorare le capacità di ragionamento e la generalizzazione, proponiamo un nuovo insieme di ricompense parziali specificamente progettate per il task Text-to-SQL. Il nostro insieme di ricompense include il collegamento dello schema, il feedback dell'IA, la similarità n-gram e il controllo della sintassi, esplicitamente concepiti per affrontare il problema della scarsità di ricompense prevalente nell'apprendimento per rinforzo (RL). Sfruttando l'ottimizzazione relativa delle politiche di gruppo (GRPO), il nostro approccio incoraggia esplicitamente i grandi modelli linguistici (LLM) a sviluppare capacità di ragionamento intrinseche necessarie per la generazione accurata di query SQL. Con modelli di diverse dimensioni, dimostriamo che l'addestramento esclusivo con RL utilizzando le nostre ricompense proposte raggiunge costantemente una maggiore accuratezza e una superiore generalizzazione rispetto al fine-tuning supervisionato (SFT). In modo notevole, il nostro modello da 14B parametri addestrato con RL supera significativamente modelli proprietari più grandi, ad esempio o3-mini del 4% e Gemini-1.5-Pro-002 del 3% sul benchmark BIRD. Questi risultati evidenziano l'efficacia del nostro framework di addestramento RL con ricompense parziali per migliorare sia l'accuratezza che le capacità di ragionamento nei task Text-to-SQL.

Scalabilità al Tempo di Inferenza per Compiti Complessi: Stato Attuale e Prospettive Future
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead

Mar 31

ByVidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi

Il ridimensionamento al momento dell'inferenza può potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM) su problemi complessi che beneficiano di una risoluzione passo-passo. Sebbene l'allungamento dei fogli di lavoro generati si sia dimostrato efficace per compiti matematici, l'impatto più ampio di questo approccio su altri compiti rimane meno chiaro. In questo lavoro, indaghiamo i vantaggi e i limiti dei metodi di ridimensionamento su nove modelli all'avanguardia e otto compiti impegnativi, tra cui ragionamento matematico e STEM, pianificazione del calendario, problemi NP-difficili, navigazione e ragionamento spaziale. Confrontiamo modelli convenzionali (ad esempio, GPT-4o) con modelli ottimizzati per il ridimensionamento al momento dell'inferenza (ad esempio, o1) attraverso protocolli di valutazione che prevedono chiamate ripetute al modello, in modo indipendente o sequenziale con feedback. Queste valutazioni approssimano i limiti inferiori e superiori delle prestazioni e il potenziale di miglioramento futuro per ciascun modello, sia attraverso un addestramento migliorato che sistemi di inferenza multi-modello. La nostra ampia analisi empirica rivela che i vantaggi del ridimensionamento al momento dell'inferenza variano a seconda del compito e diminuiscono all'aumentare della complessità del problema. Inoltre, l'uso di più token non si traduce necessariamente in una maggiore accuratezza in questi regimi impegnativi. I risultati di più esecuzioni indipendenti con modelli convenzionali che utilizzano verificatori perfetti mostrano che, per alcuni compiti, questi modelli possono raggiungere prestazioni vicine alla media delle prestazioni dei modelli di ragionamento più avanzati di oggi. Tuttavia, per altri compiti, rimane un divario significativo nelle prestazioni, anche in regimi di ridimensionamento molto elevati. Incoraggiante è il fatto che tutti i modelli mostrano guadagni significativi quando l'inferenza viene ulteriormente ridimensionata con verificatori perfetti o feedback forte, suggerendo un ampio potenziale per miglioramenti futuri.

Chapter-Llama: Segmentazione Efficiente in Capitoli per Video della Durata di un'Ora con LLM
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs

Mar 31

ByLucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol

Affrontiamo il compito di suddivisione in capitoli di video, ovvero la partizione di una timeline video lunga in unità semantiche e la generazione di titoli corrispondenti per ciascun capitolo. Sebbene relativamente poco esplorata, la suddivisione automatica in capitoli ha il potenziale di abilitare una navigazione e un recupero dei contenuti efficienti nei video di lunga durata. In questo articolo, otteniamo prestazioni eccellenti nella suddivisione in capitoli per video della durata di un'ora affrontando in modo efficiente il problema nel dominio testuale con il nostro framework 'Chapter-Llama'. Nello specifico, sfruttiamo un modello linguistico di grandi dimensioni (LLM) preaddestrato con un ampio contesto di finestra, e forniamo come input (i) trascrizioni del parlato e (ii) didascalie che descrivono i fotogrammi video, insieme ai rispettivi timestamp. Data l'inefficienza di descrivere esaustivamente tutti i fotogrammi, proponiamo una strategia leggera di selezione dei fotogrammi guidata dal contenuto della trascrizione del parlato, e dimostriamo sperimentalmente vantaggi significativi. Addestriamo l'LLM a produrre timestamp per i confini dei capitoli, nonché titoli di capitoli in forma libera. Questo approccio semplice ma potente si adatta alla elaborazione di video della durata di un'ora in un singolo passaggio in avanti. I nostri risultati dimostrano miglioramenti sostanziali (ad esempio, 45,3 contro 26,7 punteggio F1) rispetto allo stato dell'arte sul recente benchmark VidChapters-7M. Per promuovere ulteriori ricerche, rilasciamo il nostro codice e i modelli sulla pagina del progetto.

Identificare le carenze di conoscenza dei modelli linguistici su una base di conoscenza massiva
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base

Mar 30

ByLinxin Song, Xuwei Ding, Jieyu Zhang, Taiwei Shi, Ryotaro Shimizu, Rahul Gupta, Yang Liu, Jian Kang, Jieyu Zhao

I modelli linguistici di grandi dimensioni (LLM) possiedono impressionanti capacità linguistiche, ma spesso non riescono a conservare fedelmente le conoscenze fattuali, portando a allucinazioni e output inaffidabili. Comprendere le carenze conoscitive degli LLM attraverso una valutazione esaustiva rispetto a basi di conoscenza complete è computazionalmente proibitivo, specialmente per i modelli a pesi chiusi. Proponiamo lo Stochastic Error Ascent (SEA), un framework scalabile ed efficiente per individuare carenze conoscitive (errori) nei LLM a pesi chiusi con un budget di query rigoroso. Invece di sondare in modo ingenuo tutti i candidati di conoscenza, SEA formula la scoperta degli errori come un processo di ottimizzazione stocastica: recupera iterativamente nuovi candidati ad alto errore sfruttando la similarità semantica con i fallimenti precedentemente osservati. Per migliorare ulteriormente l'efficienza e la copertura della ricerca, SEA utilizza un recupero gerarchico a livello di documento e paragrafo, e costruisce un grafo aciclico diretto di relazioni per modellare la propagazione degli errori e identificare modalità di fallimento sistematiche. Empiricamente, SEA scopre 40,7 volte più errori conoscitivi rispetto all'Automated Capability Discovery e il 26,7% in più rispetto ad AutoBencher, riducendo il costo per errore rispettivamente di 599 e 9 volte. La valutazione umana conferma l'alta qualità delle domande generate, mentre le analisi di ablazione e convergenza validano il contributo di ciascun componente in SEA. Un'ulteriore analisi sugli errori scoperti rivela schemi di fallimento correlati tra famiglie di LLM e deficit ricorrenti, evidenziando la necessità di una migliore copertura dei dati e di un fine-tuning mirato nello sviluppo futuro degli LLM.

ManipTrans: Trasferimento Efficiente della Manipolazione Bimanuale Abile tramite Apprendimento Residuo
ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

Mar 27

ByKailin Li, Puhao Li, Tengyu Liu, Yuyang Li, Siyuan Huang

Le mani umane svolgono un ruolo centrale nell'interazione, motivando una crescente ricerca nella manipolazione robotica abile. Gli algoritmi di intelligenza artificiale incarnata basati sui dati richiedono sequenze di manipolazione precise, su larga scala e simili a quelle umane, difficili da ottenere con l'apprendimento per rinforzo convenzionale o la teleoperazione nel mondo reale. Per affrontare questa sfida, introduciamo ManipTrans, un metodo innovativo a due stadi per trasferire efficacemente le abilità bimanuali umane a mani robotiche abili in simulazione. ManipTrans pre-allena prima un imitatore di traiettorie generalista per imitare il movimento della mano, poi perfeziona un modulo residuo specifico sotto vincoli di interazione, consentendo un apprendimento efficiente e un'esecuzione accurata di compiti bimanuali complessi. Gli esperimenti dimostrano che ManipTrans supera i metodi all'avanguardia in termini di tasso di successo, fedeltà ed efficienza. Sfruttando ManipTrans, trasferiamo più dataset mano-oggetto a mani robotiche, creando DexManipNet, un dataset su larga scala che include compiti inesplorati come l'inserimento del tappo di una penna e l'apertura di una bottiglia. DexManipNet comprende 3.3K episodi di manipolazione robotica ed è facilmente estendibile, facilitando ulteriori addestramenti di politiche per mani abili e consentendo implementazioni nel mondo reale.

DiET-GS: Deblurring del movimento assistito da flusso di eventi e prior di diffusione per 3D Gaussian Splatting
DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

Mar 31

BySeungjun Lee, Gim Hee Lee

La ricostruzione di rappresentazioni 3D nitide a partire da immagini multi-vista sfocate è un problema di lunga data nel campo della visione artificiale. Recenti lavori cercano di migliorare la sintesi di nuove viste di alta qualità a partire dal motion blur sfruttando telecamere basate su eventi, beneficiando dell'elevato intervallo dinamico e della risoluzione temporale al microsecondo. Tuttavia, spesso raggiungono una qualità visiva sub-ottimale, ripristinando colori inaccurati o perdendo dettagli fini. In questo articolo, presentiamo DiET-GS, un approccio di motion deblurring 3DGS assistito da un prior di diffusione e da flussi di eventi. Il nostro framework sfrutta efficacemente sia i flussi di eventi privi di blur che il prior di diffusione in una strategia di addestramento a due fasi. Nello specifico, introduciamo un nuovo framework per vincolare il 3DGS con un doppio integrale di eventi, ottenendo sia colori accurati che dettagli ben definiti. Inoltre, proponiamo una tecnica semplice per sfruttare il prior di diffusione per migliorare ulteriormente i dettagli dei bordi. I risultati qualitativi e quantitativi su dati sia sintetici che reali dimostrano che il nostro DiET-GS è in grado di produrre nuove viste di qualità significativamente migliore rispetto alle baseline esistenti. La nostra pagina del progetto è https://diet-gs.github.io.

MB-ORES: Un Motivatore Oggettuale Multi-Ramo per il Grounding Visivo nel Telerilevamento
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

Mar 31

ByKarim Radouane, Hanane Azzag, Mustapha lebbah

Proponiamo un framework unificato che integra il rilevamento di oggetti (OD) e il grounding visivo (VG) per immagini di telerilevamento (RS). Per supportare il convenzionale OD e stabilire un priore intuitivo per il compito VG, ottimizziamo un rilevatore di oggetti open-set utilizzando dati di espressioni referenziali, inquadrandolo come un compito OD parzialmente supervisionato. Nella prima fase, costruiamo una rappresentazione grafica di ciascuna immagine, comprendente query di oggetti, embedding di classe e posizioni delle proposte. Successivamente, la nostra architettura task-aware elabora questo grafico per eseguire il compito VG. Il modello è composto da: (i) una rete multi-branch che integra caratteristiche spaziali, visive e categoriali per generare proposte task-aware, e (ii) una rete di ragionamento sugli oggetti che assegna probabilità alle proposte, seguita da un meccanismo di selezione soft per la localizzazione finale dell'oggetto referenziato. Il nostro modello dimostra prestazioni superiori sui dataset OPT-RSVG e DIOR-RSVG, ottenendo miglioramenti significativi rispetto ai metodi state-of-the-art pur mantenendo le capacità classiche di OD. Il codice sarà disponibile nel nostro repository: https://github.com/rd20karim/MB-ORES.