Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

MLGym: Un Nuovo Framework e Benchmark per Avanzare la Ricerca sugli Agenti di Intelligenza Artificiale
MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Feb 20

ByDeepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu

194

Introduciamo Meta MLGym e MLGym-Bench, un nuovo framework e benchmark per valutare e sviluppare agenti LLM su compiti di ricerca in IA. Questo è il primo ambiente Gym per compiti di machine learning (ML), che abilita la ricerca su algoritmi di reinforcement learning (RL) per l'addestramento di tali agenti. MLGym-Bench consiste in 13 compiti di ricerca in IA diversi e aperti, provenienti da domini come computer vision, elaborazione del linguaggio naturale, reinforcement learning e teoria dei giochi. Risolvere questi compiti richiede competenze di ricerca in IA del mondo reale, come generare nuove idee e ipotesi, creare e processare dati, implementare metodi di ML, addestrare modelli, eseguire esperimenti, analizzare i risultati e iterare questo processo per migliorare un determinato compito. Valutiamo diversi modelli linguistici di frontiera (LLM) sui nostri benchmark, come Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview e Gemini-1.5 Pro. Il nostro framework MLGym rende semplice aggiungere nuovi compiti, integrare e valutare modelli o agenti, generare dati sintetici su larga scala e sviluppare nuovi algoritmi di apprendimento per addestrare agenti su compiti di ricerca in IA. Rileviamo che gli attuali modelli di frontiera possono migliorare rispetto ai baseline forniti, solitamente trovando iperparametri migliori, ma non generano ipotesi, algoritmi, architetture o miglioramenti sostanziali nuovi. Rendiamo open-source il nostro framework e benchmark per facilitare future ricerche nel potenziamento delle capacità di ricerca in IA degli agenti LLM.

SigLIP 2: Encoder Visione-Linguaggio Multilingue con Migliorata Comprensione Semantica, Localizzazione e Caratteristiche Dense
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Feb 20

ByMichael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai

157

Presentiamo SigLIP 2, una famiglia di nuovi encoder visione-linguaggio multilingue che si basano sul successo del modello SigLIP originale. In questa seconda iterazione, estendiamo l'obiettivo di addestramento immagine-testo originale integrando diverse tecniche precedentemente sviluppate in modo indipendente in una ricetta unificata. Questo include pre-addestramento basato su didascalie, perdite auto-supervisionate (auto-distillazione, predizione mascherata) e curatela dei dati online. Con queste modifiche, i modelli SigLIP 2 superano le loro controparti SigLIP a tutte le scale di modello nelle capacità fondamentali, tra cui classificazione zero-shot, recupero immagine-testo e prestazioni di trasferimento durante l'estrazione di rappresentazioni visive per modelli visione-linguaggio (VLM). Inoltre, la nuova ricetta di addestramento porta a miglioramenti significativi nei compiti di localizzazione e predizione densa. Addestriamo anche varianti che supportano più risoluzioni e preservano il rapporto d'aspetto nativo dell'input. Infine, addestriamo su una miscela di dati più diversificata che include tecniche di de-bias, portando a una comprensione multilingue molto migliore e a una maggiore equità. Per consentire agli utenti di bilanciare il costo di inferenza con le prestazioni, rilasciamo checkpoint di modello in quattro dimensioni: ViT-B (86M), L (303M), So400m (400M) e g (1B).

SuperGPQA: Scalare la valutazione dei LLM attraverso 285 discipline universitarie
SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

Feb 20

ByM-A-P Team, Xinrun Du, Yifan Yao, Kaijing Ma, Bingli Wang, Tianyu Zheng, Kang Zhu, Minghao Liu, Yiming Liang, Xiaolong Jin, Zhenlin Wei, Chujie Zheng, Kaixing Deng, Shuyue Guo, Shian Jia, Sichao Jiang, Yiyan Liao, Rui Li, Qinrui Li, Sirun Li, Yizhi Li, Yunwen Li, Dehua Ma, Yuansheng Ni, Haoran Que, Qiyao Wang, Zhoufutu Wen, Siwei Wu, Tianshun Xing, Ming Xu, Zhenzhu Yang, Zekun Moore Wang, Junting Zhou, Yuelin Bai, Xingyuan Bu, Chenglin Cai, Liang Chen, Yifan Chen, Chengtuo Cheng, Tianhao Cheng, Keyi Ding, Siming Huang, Yun Huang, Yaoru Li, Yizhe Li, Zhaoqun Li, Tianhao Liang, Chengdong Lin, Hongquan Lin, Yinghao Ma, Zhongyuan Peng, Zifan Peng, Qige Qi, Shi Qiu, Xingwei Qu, Yizhou Tan, Zili Wang, Chenqing Wang, Hao Wang, Yiya Wang, Yubo Wang, Jiajun Xu, Kexin Yang, Ruibin Yuan, Yuanhao Yue, Tianyang Zhan, Chun Zhang, Jingyang Zhang, Xiyue Zhang, Xingjian Zhang, Yue Zhang, Yongchi Zhao, Xiangyu Zheng, Chenghua Zhong, Yang Gao, Zhoujun Li, Dayiheng Liu, Qian Liu, Tianyu Liu, Shiwen Ni, Junran Peng, Yujia Qin, Wenbo Su, Guoyin Wang, Shi Wang, Jian Yang, Min Yang, Meng Cao, Xiang Yue, Zhaoxiang Zhang, Wangchunshu Zhou, Jiaheng Liu, Qunshu Lin, Wenhao Huang, Ge Zhang

107

I modelli linguistici di grandi dimensioni (LLMs) hanno dimostrato una notevole competenza nelle discipline accademiche principali come matematica, fisica e informatica. Tuttavia, la conoscenza umana abbraccia oltre 200 discipline specializzate, superando di gran lunga l'ambito dei benchmark esistenti. Le capacità degli LLMs in molti di questi campi specializzati, in particolare nell'industria leggera, nell'agricoltura e nelle discipline orientate ai servizi, rimangono inadeguatamente valutate. Per colmare questa lacuna, presentiamo SuperGPQA, un benchmark completo che valuta le conoscenze e le capacità di ragionamento a livello di laurea magistrale in 285 discipline. Il nostro benchmark utilizza un meccanismo innovativo di filtraggio collaborativo Umano-LLM per eliminare domande banali o ambigue attraverso un affinamento iterativo basato sia sulle risposte degli LLMs che sul feedback degli esperti. I nostri risultati sperimentali rivelano un significativo margine di miglioramento nelle prestazioni degli attuali LLMs all'avanguardia in diversi domini di conoscenza (ad esempio, il modello focalizzato sul ragionamento DeepSeek-R1 ha raggiunto la massima accuratezza del 61,82% su SuperGPQA), evidenziando il notevole divario tra le capacità attuali dei modelli e l'intelligenza artificiale generale. Inoltre, presentiamo approfondite intuizioni derivanti dalla gestione di un processo di annotazione su larga scala, che ha coinvolto oltre 80 annotatori esperti e un sistema interattivo di collaborazione Umano-LLM, offrendo preziose indicazioni metodologiche per future iniziative di ricerca di portata comparabile.

Quanta Conoscenza Puoi Inserire in un Adattatore LoRA Senza Danneggiare un LLM?
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?

Feb 20

BySergey Pletenev, Maria Marina, Daniil Moskovskiy, Vasily Konovalov, Pavel Braslavski, Alexander Panchenko, Mikhail Salnikov

Le prestazioni dei Large Language Models (LLM) in molti compiti sono fortemente limitate dalla conoscenza appresa durante il pre-training e memorizzata nei parametri del modello. La Low-Rank Adaptation (LoRA) è una tecnica di addestramento popolare ed efficiente per l'aggiornamento o l'adattamento specifico di dominio dei LLM. In questo studio, indaghiamo come nuovi fatti possano essere incorporati nel LLM utilizzando LoRA senza compromettere le conoscenze precedentemente apprese. Abbiamo eseguito il fine-tuning di Llama-3.1-8B-instruct utilizzando LoRA con quantità variabili di nuove conoscenze. I nostri esperimenti hanno dimostrato che i migliori risultati si ottengono quando i dati di addestramento contengono una miscela di fatti noti e nuovi. Tuttavia, questo approccio è potenzialmente dannoso perché le prestazioni del modello su benchmark esterni di risposta alle domande diminuiscono dopo tale fine-tuning. Quando i dati di addestramento sono sbilanciati verso determinate entità, il modello tende a regredire verso poche risposte sovrarappresentate. Inoltre, abbiamo osservato che il modello diventa più sicuro di sé e rifiuta di fornire una risposta solo in pochi casi. Questi risultati evidenziano le potenziali insidie degli aggiornamenti dei LLM basati su LoRA e sottolineano l'importanza della composizione dei dati di addestramento e dei parametri di regolazione per bilanciare l'integrazione di nuove conoscenze e le capacità generali del modello.

S: Ridimensionamento al Tempo di Test per la Generazione di Codice
S: Test Time Scaling for Code Generation

Feb 20

ByDacheng Li, Shiyi Cao, Chengkun Cao, Xiuyu Li, Shangyin Tan, Kurt Keutzer, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica

L'aumento del calcolo al momento del test per i modelli linguistici di grandi dimensioni (LLM) mostra promettenti risultati in vari domini, ma rimane poco esplorato nella generazione di codice, nonostante gli studi approfonditi nel campo della matematica. In questo articolo, proponiamo S*, il primo framework ibrido di scalabilità al momento del test che migliora significativamente la copertura e l'accuratezza di selezione del codice generato. S* estende il paradigma esistente di scalabilità parallela con la scalabilità sequenziale per spingere i limiti delle prestazioni. Inoltre, sfrutta un meccanismo di selezione innovativo che genera in modo adattivo input distintivi per il confronto a coppie, combinato con informazioni basate sull'esecuzione per identificare in modo robusto le soluzioni corrette. Valutiamo 12 modelli linguistici di grandi dimensioni e un modello di ragionamento di grandi dimensioni e dimostriamo: (1) S* migliora costantemente le prestazioni tra famiglie e dimensioni di modelli, consentendo a un modello da 3B di superare GPT-4o-mini; (2) S* consente a modelli non di ragionamento di superare i modelli di ragionamento - GPT-4o-mini con S* supera o1-preview del 3,7% su LiveCodeBench; (3) S* potenzia ulteriormente i modelli di ragionamento all'avanguardia - DeepSeek-R1-Distill-Qwen-32B con S* raggiunge l'85,7% su LiveCodeBench, avvicinandosi a o1 (alto) all'88,5%. Il codice sarà disponibile su https://github.com/NovaSky-AI/SkyThought.

Logic-RL: Sfruttare il Ragionamento dei Modelli Linguistici con Apprendimento per Rinforzo Basato su Regole
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

Feb 20

ByTian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo

Ispirati dal successo di DeepSeek-R1, esploriamo il potenziale dell'apprendimento per rinforzo basato su regole (RL) nei modelli di ragionamento su larga scala. Per analizzare le dinamiche del ragionamento, utilizziamo enigmi logici sintetici come dati di addestramento grazie alla loro complessità controllabile e alla verifica diretta delle risposte. Apportiamo alcuni contributi tecnici chiave che portano a un addestramento RL efficace e stabile: un prompt di sistema che enfatizza il processo di pensiero e risposta, una funzione di ricompensa basata su un formato rigoroso che penalizza le uscite che prendono scorciatoie, e una procedura di addestramento semplice che garantisce una convergenza stabile. Il nostro modello da 7B sviluppa abilità di ragionamento avanzate—come riflessione, verifica e sintesi—che sono assenti nel corpus logico. In modo notevole, dopo l'addestramento su soli 5K problemi logici, dimostra capacità di generalizzazione sui benchmark matematici impegnativi AIME e AMC.

Scoperta di codici quantistici di correzione degli errori altamente efficienti e a basso peso mediante apprendimento per rinforzo
Discovering highly efficient low-weight quantum error-correcting codes with reinforcement learning

Feb 20

ByAustin Yubo He, Zi-Wen Liu

La realizzazione di un calcolo quantistico scalabile e tollerante ai guasti si prevede dipenda dai codici quantistici di correzione degli errori. Nella ricerca di una tolleranza ai guasti quantistica più efficiente, un parametro critico del codice è il peso delle misurazioni che estraggono informazioni sugli errori per consentire la correzione degli stessi: poiché pesi di misurazione più elevati richiedono costi di implementazione maggiori e introducono più errori, è importante ottimizzare il peso delle misurazioni nella progettazione dei codici. Ciò è alla base del crescente interesse per i codici quantistici a bassa densità di controllo di parità (qLDPC), il cui studio si è concentrato principalmente sulle proprietà asintotiche (limite di codici di grandi dimensioni). In questo lavoro, introduciamo un approccio versatile e computazionalmente efficiente per la riduzione del peso dei codici stabilizzatori basato sull'apprendimento per rinforzo (RL), che produce nuovi codici a basso peso che superano significativamente lo stato dell'arte in regimi di parametri praticamente rilevanti, estendendosi ben oltre le piccole distanze precedentemente accessibili. Ad esempio, il nostro approccio dimostra un risparmio nell'overhead di qubit fisici rispetto ai risultati esistenti da 1 a 2 ordini di grandezza per codici di peso 6 e porta l'overhead in un intervallo fattibile per esperimenti nel prossimo futuro. Investigiamo inoltre l'interazione tra i parametri del codice utilizzando il nostro framework RL, offrendo nuove intuizioni sul potenziale di efficienza e potenza delle strategie di codifica praticamente fattibili. Nel complesso, i nostri risultati dimostrano come l'RL possa avanzare efficacemente il problema cruciale ma impegnativo della scoperta di codici quantistici, facilitando così un percorso più rapido verso l'implementazione pratica di tecnologie quantistiche tolleranti ai guasti.

PC-Agent: Un Framework Gerarchico di Collaborazione Multi-Agente per l'Automazione di Compiti Complessi su PC
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

Feb 20

ByHaowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang

Nel campo degli agenti GUI basati su MLLM, rispetto agli smartphone, lo scenario PC non solo presenta un ambiente interattivo più complesso, ma coinvolge anche flussi di lavoro intra- e inter-app più intricati. Per affrontare queste problematiche, proponiamo un framework gerarchico di agenti denominato PC-Agent. Nello specifico, dal punto di vista della percezione, abbiamo ideato un Modulo di Percezione Attiva (APM) per superare le capacità insufficienti degli attuali MLLM nel percepire il contenuto degli screenshot. Dal punto di vista del processo decisionale, per gestire in modo più efficace istruzioni utente complesse e sottotask interdipendenti, proponiamo un'architettura di collaborazione multi-agente gerarchica che scompone i processi decisionali in livelli Istruzione-Sottotask-Azione. All'interno di questa architettura, sono stati configurati tre agenti (ovvero Manager, Progress e Decision) rispettivamente per la scomposizione delle istruzioni, il monitoraggio dei progressi e il processo decisionale passo-passo. Inoltre, è stato adottato un agente di Riflessione per consentire un feedback e un aggiustamento tempestivi degli errori dal basso verso l'alto. Introduciamo anche un nuovo benchmark, PC-Eval, con 25 istruzioni complesse del mondo reale. I risultati empirici su PC-Eval dimostrano che il nostro PC-Agent raggiunge un miglioramento assoluto del 32% nel tasso di successo delle task rispetto ai precedenti metodi all'avanguardia. Il codice sarà reso pubblicamente disponibile.

S^2R: Insegnare ai Modelli Linguistici di Grande Dimensione a Auto-verificare e Auto-correggersi tramite Apprendimento per Rinforzo
S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning

Feb 18

ByRuotian Ma, Peisong Wang, Cheng Liu, Xingyan Liu, Jiaqi Chen, Bang Zhang, Xin Zhou, Nan Du, Jia Li

Studi recenti hanno dimostrato l'efficacia del ridimensionamento al momento del test per i modelli linguistici di grandi dimensioni (LLM). Tuttavia, gli approcci esistenti per incentivare le capacità di pensiero profondo degli LLM richiedono generalmente dati su larga scala o sforzi di addestramento significativi. Nel frattempo, rimane poco chiaro come migliorare le capacità di pensiero dei modelli base meno potenti. In questo lavoro, introduciamo S^2R, un framework efficiente che migliora il ragionamento degli LLM insegnando ai modelli a auto-verificarsi e auto-correggersi durante l'inferenza. Nello specifico, inizializziamo prima gli LLM con comportamenti iterativi di auto-verifica e auto-correzione attraverso un fine-tuning supervisionato su dati accuratamente selezionati. Le capacità di auto-verifica e auto-correzione vengono poi ulteriormente rafforzate sia da un apprendimento per rinforzo a livello di risultato che a livello di processo, con requisiti di risorse minimizzati, consentendo al modello di affinare adattivamente il proprio processo di ragionamento durante l'inferenza. I nostri risultati dimostrano che, con solo 3.1k campioni di inizializzazione del comportamento di auto-verifica e auto-correzione, Qwen2.5-math-7B raggiunge un miglioramento dell'accuratezza dal 51.0\% all'81.6\%, superando i modelli addestrati su una quantità equivalente di dati distillati con long-CoT. Esperimenti estesi e analisi basati su tre modelli base attraverso benchmark sia in dominio che fuori dominio convalidano l'efficacia di S^2R. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/NineAbyss/S2R.

Il tempo ha il suo posto? Teste temporali: dove i modelli linguistici ricordano informazioni specifiche al tempo
Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information

Feb 20

ByYein Park, Chanwoong Yoon, Jungwoo Park, Minbyul Jeong, Jaewoo Kang

Sebbene la capacità dei modelli linguistici di elicitare fatti sia stata ampiamente investigata, il modo in cui gestiscono fatti che cambiano nel tempo rimane poco esplorato. Scopriamo le Temporal Heads, specifiche teste di attenzione principalmente responsabili dell'elaborazione della conoscenza temporale attraverso l'analisi dei circuiti. Confermiamo che queste teste sono presenti in più modelli, sebbene le loro posizioni specifiche possano variare, e le loro risposte differiscono a seconda del tipo di conoscenza e degli anni corrispondenti. Disabilitare queste teste riduce la capacità del modello di ricordare conoscenze specifiche nel tempo, mantenendo le sue capacità generali senza compromettere le prestazioni invarianti nel tempo e di risposta alle domande. Inoltre, le teste vengono attivate non solo da condizioni numeriche ("Nel 2004") ma anche da alias testuali ("Nell'anno ..."), indicando che codificano una dimensione temporale che va oltre la semplice rappresentazione numerica. Inoltre, espandiamo il potenziale delle nostre scoperte dimostrando come la conoscenza temporale possa essere modificata regolando i valori di queste teste.

LongWriter-V: Abilitazione di Generazione Ultra-Lunga e ad Alta Fedeltà nei Modelli Visione-Linguaggio
LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

Feb 20

ByShangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li

I modelli esistenti di grandi dimensioni per la visione e il linguaggio (LVLM) sono in grado di elaborare input con contesti fino a 128k token visivi e testuali, ma faticano a generare output coerenti oltre le 1.000 parole. Abbiamo riscontrato che la limitazione principale è l'assenza di esempi di output lunghi durante la messa a punto supervisionata (SFT). Per affrontare questo problema, introduciamo LongWriter-V-22k, un dataset SFT composto da 22.158 esempi, ciascuno con più immagini di input, un'istruzione e output corrispondenti che vanno da 0 a 10.000 parole. Inoltre, per ottenere output lunghi che mantengano un'elevata fedeltà alle immagini di input, applichiamo l'ottimizzazione diretta delle preferenze (DPO) al modello SFT. Considerando l'elevato costo della raccolta di feedback umani per output lunghi (ad esempio, 3.000 parole), proponiamo IterDPO, che suddivide gli output lunghi in segmenti e utilizza correzioni iterative per formare coppie di preferenze con gli output originali. Inoltre, sviluppiamo MMLongBench-Write, un benchmark che include sei task per valutare le capacità di generazione lunga dei modelli VL. Il nostro modello da 7B parametri, addestrato con LongWriter-V-22k e IterDPO, ottiene prestazioni impressionanti su questo benchmark, superando modelli proprietari più grandi come GPT-4o. Codice e dati: https://github.com/THU-KEG/LongWriter-V

Come Far Generare al Tuo Modello Linguistico Problemi Complessi per la Valutazione
How to Get Your LLM to Generate Challenging Problems for Evaluation

Feb 20

ByArkil Patel, Siva Reddy, Dzmitry Bahdanau

Il ritmo di evoluzione dei Large Language Models (LLM) richiede nuovi approcci per una valutazione rigorosa e completa. L'annotazione umana tradizionale sta diventando sempre più impraticabile a causa delle complessità e dei costi legati alla generazione di problemi di alta qualità e impegnativi. In questo lavoro, introduciamo CHASE, un framework unificato per generare sinteticamente problemi complessi utilizzando i LLM senza il coinvolgimento umano. Per un determinato compito, il nostro approccio costruisce un problema difficile in modo bottom-up a partire da componenti più semplici. Inoltre, il nostro framework scompone il processo di generazione in sotto-task verificabili in modo indipendente, garantendo così un elevato livello di qualità e correttezza. Implementiamo CHASE per creare benchmark di valutazione in tre domini diversi: (1) question answering basato su documenti, (2) completamento di codice a livello di repository e (3) ragionamento matematico. Le prestazioni dei LLM più avanzati su questi benchmark sintetici si attestano in un intervallo di accuratezza del 40-60%, dimostrando così l'efficacia del nostro framework nella generazione di problemi complessi. Rilasciamo pubblicamente i nostri benchmark e il codice.

Personalizzazione di Concetti Dinamici da Singoli Video
Dynamic Concepts Personalization from Single Videos

Feb 20

ByRameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman

La personalizzazione dei modelli generativi testo-immagine ha registrato progressi notevoli, ma estendere questa personalizzazione ai modelli testo-video presenta sfide uniche. A differenza dei concetti statici, la personalizzazione dei modelli testo-video ha il potenziale di catturare concetti dinamici, ovvero entità definite non solo dal loro aspetto ma anche dal loro movimento. In questo articolo, introduciamo Set-and-Sequence, un nuovo framework per personalizzare modelli generativi video basati su Diffusion Transformers (DiTs) con concetti dinamici. Il nostro approccio impone uno spazio di pesi spazio-temporale all'interno di un'architettura che non separa esplicitamente le caratteristiche spaziali e temporali. Questo viene ottenuto in due fasi chiave. Innanzitutto, ottimizziamo i livelli di Low-Rank Adaptation (LoRA) utilizzando un insieme non ordinato di frame del video per apprendere una base LoRA di identità che rappresenta l'aspetto, libera da interferenze temporali. Nella seconda fase, con le LoRA di identità congelate, aumentiamo i loro coefficienti con Residui di Movimento e li ottimizziamo sull'intera sequenza video, catturando le dinamiche del movimento. Il nostro framework Set-and-Sequence produce uno spazio di pesi spazio-temporale che incorpora efficacemente concetti dinamici nel dominio di output del modello video, consentendo un'inedita editabilità e componibilità, stabilendo al contempo un nuovo punto di riferimento per la personalizzazione di concetti dinamici.

AlphaMaze: Miglioramento dell'Intelligenza Spaziale nei Modelli Linguistici di Grande Scala tramite GRPO
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO

Feb 20

ByAlan Dao, Dinh Bach Vu

I Large Language Models (LLM) hanno dimostrato capacità impressionanti nell'elaborazione del linguaggio, ma spesso incontrano difficoltà in compiti che richiedono un genuino ragionamento visivo-spaziale. In questo articolo, introduciamo un innovativo framework di addestramento in due fasi progettato per dotare i LLM standard di abilità di ragionamento visivo per la navigazione in labirinti. In primo luogo, sfruttiamo il Fine Tuning Supervisionato (SFT) su un dataset curato di rappresentazioni tokenizzate di labirinti per insegnare al modello a prevedere comandi di movimento passo-passo. Successivamente, applichiamo l'ottimizzazione delle politiche relative ai gruppi (GRPO) - una tecnica utilizzata in DeepSeekR1 - con una funzione di ricompensa accuratamente progettata per affinare il processo decisionale sequenziale del modello e incoraggiare comportamenti emergenti di catena di pensiero. I risultati sperimentali su labirinti generati sinteticamente mostrano che, mentre un modello di base non riesce a navigare nel labirinto, il modello addestrato con SFT raggiunge un'accuratezza dell'86%, e un ulteriore fine-tuning con GRPO aumenta l'accuratezza al 93%. Analisi qualitative rivelano che il GRPO favorisce un ragionamento più robusto e autocorrettivo, evidenziando il potenziale del nostro approccio per colmare il divario tra modelli linguistici e compiti visivo-spaziali. Questi risultati offrono implicazioni promettenti per applicazioni nella robotica, nella navigazione autonoma e in altri domini che richiedono un ragionamento integrato visivo e sequenziale.

Scalabilità della Comprensione di Immagini Ricche di Testo tramite Generazione Sintetica di Dati Multimodali Guidata da Codice
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation

Feb 20

ByYue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark

Ragionare su immagini con testo complesso, come grafici e documenti, rappresenta un'applicazione cruciale per i modelli visione-linguaggio (VLMs). Tuttavia, i VLMs spesso incontrano difficoltà in questi ambiti a causa della scarsità di dati visivo-linguistici diversificati e ricchi di testo. Per affrontare questa sfida, presentiamo CoSyn, un framework che sfrutta le capacità di codifica dei modelli linguistici di grandi dimensioni (LLMs) basati esclusivamente su testo per creare automaticamente dati multimodali sintetici ricchi di testo. Dato un testo di input che descrive un dominio target (ad esempio, "etichette nutrizionali"), CoSyn invita un LLM a generare codice (Python, HTML, LaTeX, ecc.) per il rendering di immagini sintetiche. Utilizzando il codice sottostante come rappresentazione testuale delle immagini sintetiche, CoSyn può generare dati di alta qualità per l'ottimizzazione delle istruzioni, affidandosi nuovamente a un LLM basato esclusivamente su testo. Utilizzando CoSyn, abbiamo costruito un dataset composto da 400K immagini e 2.7 milioni di righe di dati per l'ottimizzazione delle istruzioni visivo-linguistiche. Esperimenti completi su sette benchmark dimostrano che i modelli addestrati sui nostri dati sintetici raggiungono prestazioni all'avanguardia tra i modelli open-source competitivi, inclusi Llama 3.2, e superano modelli proprietari come GPT-4V e Gemini 1.5 Flash. Inoltre, CoSyn può produrre dati sintetici di puntamento, consentendo ai VLMs di ancorare le informazioni all'interno delle immagini di input, dimostrando il suo potenziale per lo sviluppo di agenti multimodali in grado di agire in ambienti reali.

Da RAG alla Memoria: Apprendimento Continuo Non-Parametrico per Modelli Linguistici di Grande Dimensione
From RAG to Memory: Non-Parametric Continual Learning for Large Language Models

Feb 20

ByBernal Jiménez Gutiérrez, Yiheng Shu, Weijian Qi, Sizhe Zhou, Yu Su

La nostra capacità di acquisire, organizzare e sfruttare continuamente la conoscenza è una caratteristica fondamentale dell'intelligenza umana che i sistemi di intelligenza artificiale devono approssimare per sbloccare il loro pieno potenziale. Date le sfide nell'apprendimento continuo con i grandi modelli linguistici (LLM), la generazione aumentata dal recupero (RAG) è diventata il metodo dominante per introdurre nuove informazioni. Tuttavia, la sua dipendenza dal recupero vettoriale ostacola la sua capacità di imitare la natura dinamica e interconnessa della memoria a lungo termine umana. Recenti approcci RAG arricchiscono gli embedding vettoriali con varie strutture come grafi di conoscenza per affrontare alcune di queste lacune, in particolare il senso e l'associatività. Tuttavia, le loro prestazioni su compiti di memoria fattuale più basilari scendono considerevolmente al di sotto dello standard RAG. Affrontiamo questo deterioramento non intenzionale e proponiamo HippoRAG 2, un framework che supera lo standard RAG in modo completo su compiti di memoria fattuale, di senso e associativa. HippoRAG 2 si basa sull'algoritmo Personalized PageRank utilizzato in HippoRAG e lo potenzia con una più profonda integrazione dei passaggi e un uso più efficace online di un LLM. Questa combinazione avvicina questo sistema RAG all'efficacia della memoria a lungo termine umana, ottenendo un miglioramento del 7% nei compiti di memoria associativa rispetto al modello di embedding all'avanguardia, mostrando anche capacità superiori di conoscenza fattuale e memoria di senso. Questo lavoro apre la strada all'apprendimento continuo non parametrico per gli LLM. Il nostro codice e i dati saranno rilasciati su https://github.com/OSU-NLP-Group/HippoRAG.

LServe: Servizio Efficiente per Modelli Linguistici a Lunghe Sequenze con Attenzione Sparsa Unificata
LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

Feb 20

ByShang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un potenziale notevole nell'elaborazione di sequenze lunghe, ma servire in modo efficiente questi modelli con contesti estesi rimane una sfida a causa della complessità computazionale quadratica dell'attenzione nella fase di prefilling e dell'ampio footprint di memoria della cache KV nella fase di decodifica. Per affrontare questi problemi, introduciamo LServe, un sistema efficiente che accelera il servizio di LLM con sequenze lunghe tramite un'attenzione sparsa ibrida. Questo metodo unifica diversi schemi di sparsità strutturata, compatibili con l'hardware, per l'attenzione sia nella fase di prefilling che di decodifica, in un unico framework, dove i calcoli sui token meno importanti vengono saltati a livello di blocco. LServe dimostra la compatibilità della sparsità statica e dinamica nell'attenzione degli LLM con contesti lunghi. Questo design consente accelerazioni moltiplicative combinando queste ottimizzazioni. Nello specifico, convertiamo metà delle teste di attenzione in teste di streaming quasi gratuite sia nella fase di prefilling che di decodifica. Inoltre, scopriamo che è necessario solo un numero costante di pagine KV per preservare le capacità di contesto lungo, indipendentemente dalla lunghezza del contesto. Progettiamo quindi una politica di selezione gerarchica delle pagine KV che pota dinamicamente le pagine KV in base alla similarità centrata sulla query. In media, LServe accelera il prefilling degli LLM fino a 2,9x e la decodifica di 1,3-2,1x rispetto a vLLM, mantenendo l'accuratezza del contesto lungo. Il codice è disponibile all'indirizzo https://github.com/mit-han-lab/omniserve.

RelaCtrl: Controllo Efficiente Guidato dalla Rilevanza per Trasformatori Diffusivi
RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

Feb 20

ByKe Cao, Jing Wang, Ao Ma, Jiasong Feng, Zhanjie Zhang, Xuanhua He, Shanyuan Liu, Bo Cheng, Dawei Leng, Yuhui Yin, Jie Zhang

Il Diffusion Transformer svolge un ruolo fondamentale nel progresso della generazione da testo a immagine e da testo a video, principalmente grazie alla sua scalabilità intrinseca. Tuttavia, i metodi esistenti di diffusion transformer controllati comportano un significativo sovraccarico di parametri e computazionale e soffrono di un'allocazione inefficiente delle risorse a causa della mancata considerazione della rilevanza variabile delle informazioni di controllo attraverso i diversi strati del transformer. Per affrontare questo problema, proponiamo il framework di Generazione Controllata Efficiente Guidata dalla Rilevanza, RelaCtrl, che consente un'integrazione efficiente e ottimizzata delle risorse dei segnali di controllo nel Diffusion Transformer. In primo luogo, valutiamo la rilevanza di ciascuno strato del Diffusion Transformer rispetto alle informazioni di controllo attraverso il "ControlNet Relevance Score", ovvero l'impatto del salto di ciascuno strato di controllo sia sulla qualità della generazione che sull'efficacia del controllo durante l'inferenza. Sulla base della forza della rilevanza, adattiamo quindi il posizionamento, la scala dei parametri e la capacità di modellazione degli strati di controllo per ridurre i parametri non necessari e le computazioni ridondanti. Inoltre, per migliorare ulteriormente l'efficienza, sostituiamo il self-attention e la FFN nel blocco di copia comunemente utilizzato con il Two-Dimensional Shuffle Mixer (TDSM), progettato con cura, consentendo un'implementazione efficiente sia del token mixer che del channel mixer. I risultati sperimentali qualitativi e quantitativi dimostrano che il nostro approccio raggiunge prestazioni superiori con solo il 15% dei parametri e della complessità computazionale rispetto a PixArt-delta. Ulteriori esempi sono disponibili su https://relactrl.github.io/RelaCtrl/.

NAVIG: Analisi Guidata dal Linguaggio Naturale con Modelli Visione-Linguaggio per la Geo-localizzazione di Immagini
NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

Feb 20

ByZheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber

La geo-localizzazione di immagini è il compito di prevedere la posizione specifica di un'immagine e richiede un ragionamento complesso che coinvolge contesti visivi, geografici e culturali. Sebbene i precedenti modelli di visione e linguaggio (VLMs) abbiano la migliore accuratezza in questo compito, c'è una carenza di dataset e modelli di alta qualità per il ragionamento analitico. Iniziamo creando NaviClues, un dataset di alta qualità derivato da GeoGuessr, un popolare gioco di geografia, per fornire esempi di ragionamento esperto basato sul linguaggio. Utilizzando questo dataset, presentiamo Navig, un framework completo per la geo-localizzazione di immagini che integra informazioni globali e dettagliate delle immagini. Ragionando con il linguaggio, Navig riduce l'errore medio di distanza del 14% rispetto ai precedenti modelli all'avanguardia, richiedendo meno di 1000 campioni di addestramento. Il nostro dataset e il codice sono disponibili all'indirizzo https://github.com/SparrowZheyuan18/Navig/.

CLIPPER: La compressione abilita la generazione di dati sintetici a contesto lungo
CLIPPER: Compression enables long-context synthetic data generation

Feb 20

ByChau Minh Pham, Yapei Chang, Mohit Iyyer

Gli sviluppatori di LLM stanno diventando sempre più dipendenti dai dati sintetici, ma generare dati di alta qualità per compiti complessi di ragionamento a lungo contesto rimane una sfida. Introduciamo CLIPPER, un approccio basato sulla compressione per generare dati sintetici specifici per la verifica di affermazioni narrative, un compito che richiede il ragionamento su un libro per verificare una determinata affermazione. Invece di generare direttamente le affermazioni dal testo grezzo del libro, che risulta in affermazioni piene di artefatti, CLIPPER prima comprime il libro in riassunti dei capitoli e del libro, e poi utilizza queste rappresentazioni intermedie per generare affermazioni complesse e i corrispondenti ragionamenti a catena. Rispetto agli approcci ingenui, CLIPPER produce affermazioni più valide, fondate e complesse. Utilizzando CLIPPER, abbiamo costruito un dataset di 19K affermazioni sintetiche su libri abbinate ai loro testi sorgente e ai ragionamenti a catena, e lo abbiamo utilizzato per ottimizzare tre modelli open-weight. Il nostro miglior modello raggiunge risultati rivoluzionari nella verifica di affermazioni narrative (dal 28% al 76% di accuratezza sul nostro set di test) e stabilisce un nuovo stato dell'arte per i modelli sub-10B sulla leaderboard di NoCha. Un'ulteriore analisi mostra che i nostri modelli generano ragionamenti a catena più dettagliati e fondati, migliorando anche le prestazioni su altri compiti di comprensione narrativa (ad esempio, NarrativeQA).

Miglioramento della Cognizione e della Spiegabilità dei Modelli Fondamentali Multimodali con Dati Auto-Sintetizzati
Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

Feb 19

ByYucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu

I modelli multimodali di grandi dimensioni (LMM) hanno dimostrato capacità impressionanti in un'ampia gamma di compiti visivi. Tuttavia, spesso incontrano difficoltà nel ragionamento visivo fine, non riuscendo a identificare obiettivi specifici del dominio e a fornire spiegazioni giustificabili per le loro previsioni. Per affrontare questo problema, proponiamo un nuovo framework di campionamento per rifiuto visivo per migliorare la cognizione e l'esplicabilità degli LMM utilizzando dati auto-sintetizzati. Nello specifico, l'ottimizzazione visiva richiede immagini, query e risposte target. Il nostro approccio inizia sintetizzando risposte interpretabili che includono caratteristiche visive verificabili dall'uomo. Queste caratteristiche si basano su concetti definiti da esperti, selezionati con cura in base alla loro corrispondenza con il contenuto dell'immagine. Dopo ogni ciclo di ottimizzazione, applichiamo un meccanismo di filtraggio senza modello di ricompensa per selezionare le risposte interpretabili di qualità più elevata per il ciclo successivo di ottimizzazione. Questo processo iterativo di sintesi dei dati e ottimizzazione migliora progressivamente la capacità del modello di generare spiegazioni accurate e ragionevoli. I risultati sperimentali dimostrano l'efficacia del nostro metodo nel migliorare sia l'accuratezza che l'esplicabilità dei compiti di classificazione visiva specializzati.

Generazione di Dataset Skyline per Modelli di Data Science
Generating Skyline Datasets for Data Science Models

Feb 16

ByMengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu

La preparazione di dataset di alta qualità richiesti da vari modelli di intelligenza artificiale e machine learning basati sui dati è diventata un compito fondamentale nell'analisi data-driven. I metodi convenzionali di scoperta dei dati tipicamente integrano i dataset verso una singola misura di qualità predefinita, che può portare a distorsioni nei compiti successivi. Questo articolo introduce MODis, un framework che scopre i dataset ottimizzando multiple misure di prestazione definite dall'utente. Dato un insieme di fonti di dati e un modello, MODis seleziona e integra le fonti di dati in un dataset skyline, sul quale il modello dovrebbe ottenere le prestazioni desiderate in tutte le misure di performance. Formuliamo MODis come un trasduttore a stati finiti multi-obiettivo e deriviamo tre algoritmi fattibili per generare dataset skyline. Il nostro primo algoritmo adotta una strategia "riduci-dall'universale", che parte da uno schema universale e riduce iterativamente i dati non promettenti. Il secondo algoritmo riduce ulteriormente i costi con una strategia bidirezionale che alterna l'aumento e la riduzione dei dati. Introduciamo anche un algoritmo di diversificazione per mitigare le distorsioni nei dataset skyline. Verifichiamo sperimentalmente l'efficienza e l'efficacia dei nostri algoritmi di scoperta dei dati skyline e ne mostriamo le applicazioni nell'ottimizzazione delle pipeline di data science.

Multimodal RewardBench: Valutazione Olistica dei Modelli di Ricompensa per Modelli di Visione e Linguaggio
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models

Feb 20

ByMichihiro Yasunaga, Luke Zettlemoyer, Marjan Ghazvininejad

I modelli di ricompensa svolgono un ruolo essenziale nell'addestramento dei modelli visione-linguaggio (VLMs) valutando la qualità degli output per consentire l'allineamento con le preferenze umane. Nonostante la loro importanza, la comunità di ricerca manca di benchmark aperti e completi per valutare i modelli di ricompensa multimodali nei VLMs. Per colmare questa lacuna, introduciamo Multimodal RewardBench, un benchmark annotato da esperti che copre sei domini: correttezza generale, preferenza, conoscenza, ragionamento, sicurezza e risposta a domande visive. Il nostro dataset comprende 5.211 triplette annotate (prompt, risposta scelta, risposta rifiutata) raccolte da vari VLMs. Valutando una gamma di giudici VLMs, scopriamo che anche i modelli più performanti, Gemini 1.5 Pro e Claude 3.5 Sonnet, raggiungono solo il 72% di accuratezza complessiva. In particolare, la maggior parte dei modelli incontra difficoltà nei domini del ragionamento e della sicurezza. Questi risultati suggeriscono che Multimodal RewardBench offre un banco di prova impegnativo per far progredire lo sviluppo dei modelli di ricompensa in più domini. Rilasciamo il benchmark all'indirizzo https://github.com/facebookresearch/multimodal_rewardbench.

Gestione dei Profili Utente basata su LLM per Sistemi di Raccomandazione
LLM-based User Profile Management for Recommender System

Feb 20

BySeunghwan Bang, Hwanjun Song

Il rapido progresso dei Modelli Linguistici di Grande Dimensione (LLM) ha aperto nuove opportunità nei sistemi di raccomandazione, consentendo raccomandazioni zero-shot senza il tradizionale addestramento. Nonostante il loro potenziale, la maggior parte dei lavori esistenti si basa esclusivamente sulle cronologie di acquisto degli utenti, lasciando ampio margine di miglioramento attraverso l'integrazione di dati testuali generati dagli utenti, come recensioni e descrizioni di prodotti. Per colmare questa lacuna, proponiamo PURE, un innovativo framework di raccomandazione basato su LLM che costruisce e mantiene profili utente in evoluzione, estraendo e riassumendo sistematicamente le informazioni chiave dalle recensioni degli utenti. PURE è composto da tre componenti principali: un Estrattore di Recensioni per identificare le preferenze degli utenti e le caratteristiche chiave dei prodotti, un Aggiornatore di Profili per affinare e aggiornare i profili utente, e un Raccomandatore per generare suggerimenti personalizzati utilizzando il profilo più recente. Per valutare PURE, introduciamo un task di raccomandazione sequenziale continua che riflette scenari reali, aggiungendo recensioni nel tempo e aggiornando le previsioni in modo incrementale. I nostri risultati sperimentali sui dataset di Amazon dimostrano che PURE supera i metodi esistenti basati su LLM, sfruttando efficacemente le informazioni a lungo termine degli utenti e gestendo i limiti di token.

Ottimizzazione Simmetrica del Contrasto Visivo: Allineamento dei Modelli Visione-Linguaggio con Immagini Contrastive Minime
Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

Feb 19

ByShengguang Wu, Fan-Yun Sun, Kaiyue Wen, Nick Haber

Studi recenti hanno dimostrato che i Modelli Visione-Linguaggio di grandi dimensioni (VLMs) tendono a trascurare il contenuto delle immagini e a fare eccessivo affidamento sui preconcetti del modello linguistico, portando a errori in compiti visivamente ancorati e a fenomeni di allucinazione. Ipotesizziamo che questo problema derivi dal fatto che i VLMs esistenti non sono esplicitamente addestrati a generare testi accuratamente ancorati a dettagli fini delle immagini. Per migliorare il feedback visivo durante l'addestramento dei VLMs, proponiamo S-VCO (Ottimizzazione Contrastiva Visiva Simmetrica), un nuovo obiettivo di fine-tuning che guida il modello a catturare dettagli visivi importanti e ad allinearli con i corrispondenti token testuali. Per facilitare ulteriormente questo allineamento dettagliato, introduciamo MVC, un dataset di coppie immagine-testo costruito filtrando e aumentando automaticamente dati visivi controfattuali per sfidare il modello con casi contrastivi difficili che coinvolgono Contrasti Visivi Minimi. Gli esperimenti dimostrano che il nostro metodo migliora costantemente le prestazioni dei VLMs su diversi benchmark che coprono varie abilità e domini, ottenendo una riduzione fino al 22% delle allucinazioni e significativi guadagni in compiti centrati sulla visione e in compiti generali. In particolare, questi miglioramenti diventano sempre più evidenti nei benchmark con una maggiore dipendenza visiva. In sintesi, S-VCO offre un significativo miglioramento delle prestazioni dei VLMs in compiti dipendenti dalla visione, mantenendo o addirittura migliorando le capacità generali del modello. Rendiamo disponibile il nostro codice su https://s-vco.github.io/.

Generazione di Molecole π-Funzionali Utilizzando STGG+ con Apprendimento Attivo
Generating π-Functional Molecules Using STGG+ with Active Learning

Feb 20

ByAlexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu

Generare molecole nuove con proprietà fuori distribuzione rappresenta una sfida significativa nella scoperta molecolare. Mentre i metodi di apprendimento supervisionato generano molecole di alta qualità simili a quelle presenti in un dataset, faticano a generalizzare verso proprietà fuori distribuzione. L'apprendimento per rinforzo può esplorare nuovi spazi chimici, ma spesso incorre in "reward-hacking" e genera molecole non sintetizzabili. In questo lavoro, affrontiamo questo problema integrando un metodo di apprendimento supervisionato all'avanguardia, STGG+, in un ciclo di active learning. Il nostro approccio genera, valuta e perfeziona iterativamente STGG+ per espandere continuamente la sua conoscenza. Denotiamo questo approccio come STGG+AL. Applichiamo STGG+AL alla progettazione di materiali organici pi-funzionali, in particolare a due compiti impegnativi: 1) generare molecole altamente assorbenti caratterizzate da un'elevata forza oscillatoria e 2) progettare molecole assorbenti con una forza oscillatoria ragionevole nell'intervallo del vicino infrarosso (NIR). Le molecole generate vengono validate e razionalizzate in silico utilizzando la teoria del funzionale della densità dipendente dal tempo. I nostri risultati dimostrano che il nostro metodo è altamente efficace nel generare molecole nuove con un'elevata forza oscillatoria, a differenza dei metodi esistenti come quelli basati sull'apprendimento per rinforzo (RL). Rendiamo open-source il nostro codice di active learning insieme al dataset Conjugated-xTB, che contiene 2,9 milioni di molecole pi-coniugate, e la funzione per approssimare la forza oscillatoria e la lunghezza d'onda di assorbimento (basata su sTDA-xTB).

Geolocalizzazione con Dati Reali di Gameplay Umano: Un Ampio Dataset e un Framework di Ragionamento Simile a Quello Umano
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework

Feb 19

ByZirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen

La geolocalizzazione, il compito di identificare la posizione di un'immagine, richiede un ragionamento complesso ed è cruciale per la navigazione, il monitoraggio e la preservazione culturale. Tuttavia, i metodi attuali spesso producono localizzazioni approssimative, imprecise e non interpretabili. Una delle principali sfide risiede nella qualità e nella scala dei dataset di geolocalizzazione esistenti. Questi dataset sono tipicamente di piccole dimensioni e costruiti automaticamente, portando a dati rumorosi e a una difficoltà del compito inconsistente, con immagini che rivelano le risposte troppo facilmente o che mancano di indizi sufficienti per un'inferenza affidabile. Per affrontare queste sfide, introduciamo un framework completo di geolocalizzazione con tre componenti chiave: GeoComp, un dataset su larga scala; GeoCoT, un nuovo metodo di ragionamento; e GeoEval, una metrica di valutazione, progettati collettivamente per affrontare le sfide critiche e promuovere progressi nella ricerca sulla geolocalizzazione. Al centro di questo framework c'è GeoComp (Geolocation Competition Dataset), un dataset su larga scala raccolto da una piattaforma di giochi di geolocalizzazione che coinvolge 740.000 utenti in due anni. Comprende 25 milioni di voci di metadati e 3 milioni di localizzazioni geotaggate che coprono gran parte del globo, con ciascuna localizzazione annotata migliaia o decine di migliaia di volte da utenti umani. Il dataset offre diversi livelli di difficoltà per un'analisi dettagliata e mette in evidenza le principali lacune dei modelli attuali. Basandoci su questo dataset, proponiamo Geographical Chain-of-Thought (GeoCoT), un innovativo framework di ragionamento multi-step progettato per migliorare le capacità di ragionamento dei Large Vision Models (LVM) nei compiti di geolocalizzazione. GeoCoT migliora le prestazioni integrando indizi contestuali e spaziali attraverso un processo multi-step che imita il ragionamento umano nella geolocalizzazione. Infine, utilizzando la metrica GeoEval, dimostriamo che GeoCoT aumenta significativamente l'accuratezza della geolocalizzazione fino al 25%, migliorando al contempo l'interpretabilità.

Attribuzione di Prove Non Strutturate per la Sintesi Focalizzata su Query in Contesti Lunghi
Unstructured Evidence Attribution for Long Context Query Focused Summarization

Feb 20

ByDustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens

I modelli linguistici di grandi dimensioni (LLM) sono in grado di generare riassunti coerenti da contesti molto lunghi in risposta a una query dell'utente. L'estrazione e la corretta citazione di porzioni di evidenza potrebbero contribuire a migliorare la trasparenza e l'affidabilità di questi riassunti. Allo stesso tempo, gli LLM presentano bias posizionali riguardo a quali informazioni comprendono e a cui prestano attenzione, il che potrebbe influenzare la citazione delle evidenze. Mentre i lavori precedenti si sono concentrati sulla citazione delle evidenze con livelli di granularità predefiniti (ad esempio frase, paragrafo, documento, ecc.), noi proponiamo il compito di riassunto focalizzato su query in contesti lunghi con citazione di evidenze non strutturate. Mostriamo come i sistemi esistenti abbiano difficoltà a generare e citare correttamente evidenze non strutturate dal loro contesto, e che le evidenze tendono a essere "perdute nel mezzo". Per contribuire a mitigare questo problema, creiamo il dataset Summaries with Unstructured Evidence Text (SUnsET), un dataset sintetico generato utilizzando una pipeline agnostica rispetto al dominio che può essere utilizzata come supervisione per adattare gli LLM a questo compito. Dimostriamo, su 5 LLM di dimensioni diverse e 4 dataset con tipi e lunghezze di documenti variabili, che gli LLM adattati con i dati di SUnsET generano evidenze più rilevanti e fattualmente consistenti rispetto ai loro modelli base, estraggono evidenze da posizioni più diversificate nel loro contesto e sono in grado di generare riassunti più rilevanti e coerenti.

Quanto Allucinano i LLM tra le Lingue? Sulla Stima Multilingue delle Allucinazioni dei LLM nel Mondo Reale
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild

Feb 18

BySaad Obaid ul Islam, Anne Lauscher, Goran Glavaš

Nell'era della disinformazione, l'allucinazione -- la tendenza dei Modelli Linguistici di Grande Dimensione (LLM) a generare risposte non fattuali o infedeli -- rappresenta il principale rischio per la loro utilità globale. Nonostante gli LLM stiano diventando sempre più multilingue, la stragrande maggioranza della ricerca sul rilevamento e la quantificazione dell'allucinazione negli LLM è (a) centrata sull'inglese e (b) si concentra sulla traduzione automatica (MT) e sulla sintesi, compiti meno comuni "nel mondo reale" rispetto alla ricerca aperta di informazioni. Al contrario, il nostro obiettivo è quantificare l'estensione dell'allucinazione degli LLM attraverso le lingue nel contesto di risposte a domande lunghe e ad alta intensità di conoscenza. A tal fine, addestriamo un modello multilingue per il rilevamento delle allucinazioni e conduciamo uno studio su larga scala in 30 lingue e 6 famiglie di LLM open-source. Partiamo da un dataset in inglese per il rilevamento delle allucinazioni e ci affidiamo alla MT per generare dati di addestramento (rumorosi) in altre lingue. Annotiamo manualmente dati di riferimento per cinque lingue ad alta risorsa; dimostriamo poi, per queste lingue, che le stime dei tassi di allucinazione sono simili tra i set di test silver (generati da LLM) e quelli gold, validando così l'uso dei dati silver per stimare i tassi di allucinazione per altre lingue. Per la stima finale dei tassi, costruiamo un dataset di QA ad alta intensità di conoscenza per 30 lingue con prompt generati da LLM e articoli di Wikipedia come riferimenti. Scopriamo che, sebbene gli LLM generino risposte più lunghe con un numero maggiore di token allucinati per le lingue ad alta risorsa, non esiste una correlazione tra i tassi di allucinazione normalizzati per lunghezza delle lingue e la loro rappresentazione digitale. Inoltre, osserviamo che i modelli LLM più piccoli presentano tassi di allucinazione più elevati rispetto ai modelli più grandi.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

MLGym: Un Nuovo Framework e Benchmark per Avanzare la Ricerca sugli Agenti di Intelligenza Artificiale
MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Feb 20

194

SigLIP 2: Encoder Visione-Linguaggio Multilingue con Migliorata Comprensione Semantica, Localizzazione e Caratteristiche Dense
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Feb 20

157

SuperGPQA: Scalare la valutazione dei LLM attraverso 285 discipline universitarie
SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

Feb 20

107

Quanta Conoscenza Puoi Inserire in un Adattatore LoRA Senza Danneggiare un LLM?
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?

Feb 20

BySergey Pletenev, Maria Marina, Daniil Moskovskiy, Vasily Konovalov, Pavel Braslavski, Alexander Panchenko, Mikhail Salnikov

S: Ridimensionamento al Tempo di Test per la Generazione di Codice
S: Test Time Scaling for Code Generation

Feb 20

ByDacheng Li, Shiyi Cao, Chengkun Cao, Xiuyu Li, Shangyin Tan, Kurt Keutzer, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica

Logic-RL: Sfruttare il Ragionamento dei Modelli Linguistici con Apprendimento per Rinforzo Basato su Regole
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

Feb 20

ByTian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo

Scoperta di codici quantistici di correzione degli errori altamente efficienti e a basso peso mediante apprendimento per rinforzo
Discovering highly efficient low-weight quantum error-correcting codes with reinforcement learning

Feb 20

ByAustin Yubo He, Zi-Wen Liu

PC-Agent: Un Framework Gerarchico di Collaborazione Multi-Agente per l'Automazione di Compiti Complessi su PC
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

Feb 20

ByHaowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang

S^2R: Insegnare ai Modelli Linguistici di Grande Dimensione a Auto-verificare e Auto-correggersi tramite Apprendimento per Rinforzo
S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning

Feb 18

ByRuotian Ma, Peisong Wang, Cheng Liu, Xingyan Liu, Jiaqi Chen, Bang Zhang, Xin Zhou, Nan Du, Jia Li

Il tempo ha il suo posto? Teste temporali: dove i modelli linguistici ricordano informazioni specifiche al tempo
Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information

Feb 20

ByYein Park, Chanwoong Yoon, Jungwoo Park, Minbyul Jeong, Jaewoo Kang

LongWriter-V: Abilitazione di Generazione Ultra-Lunga e ad Alta Fedeltà nei Modelli Visione-Linguaggio
LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

Feb 20

ByShangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li

Come Far Generare al Tuo Modello Linguistico Problemi Complessi per la Valutazione
How to Get Your LLM to Generate Challenging Problems for Evaluation

Feb 20

ByArkil Patel, Siva Reddy, Dzmitry Bahdanau

Personalizzazione di Concetti Dinamici da Singoli Video
Dynamic Concepts Personalization from Single Videos

Feb 20

ByRameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman

AlphaMaze: Miglioramento dell'Intelligenza Spaziale nei Modelli Linguistici di Grande Scala tramite GRPO
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO

Feb 20

ByAlan Dao, Dinh Bach Vu

Scalabilità della Comprensione di Immagini Ricche di Testo tramite Generazione Sintetica di Dati Multimodali Guidata da Codice
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation

Feb 20

ByYue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark