ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

1

SWE-RL: Avanzare il Ragionamento dei Modelli Linguistici tramite Apprendimento per Rinforzo sull'Evoluzione del Software Aperto
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Feb 25
ByYuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried, Gabriel Synnaeve, Rishabh Singh, Sida I. Wang
75
5

Il recente rilascio di DeepSeek-R1 ha dimostrato l'enorme potenziale dell'apprendimento per rinforzo (Reinforcement Learning, RL) nel migliorare le capacità di ragionamento generale dei grandi modelli linguistici (Large Language Models, LLMs). Mentre DeepSeek-R1 e altri lavori successivi si concentrano principalmente sull'applicazione dell'RL a problemi di programmazione competitiva e matematica, questo articolo introduce SWE-RL, il primo approccio per scalare il ragionamento basato su RL dei LLM per l'ingegneria del software nel mondo reale. Sfruttando una ricompensa leggera basata su regole (ad esempio, il punteggio di similarità tra le soluzioni reali e quelle generate dal LLM), SWE-RL consente ai LLM di recuperare autonomamente i processi di ragionamento e le soluzioni di uno sviluppatore, apprendendo da estesi dati di evoluzione del software open-source — il registro dell'intero ciclo di vita di un software, inclusi snapshot del codice, modifiche al codice ed eventi come issue e pull request. Addestrato su Llama 3, il nostro modello di ragionamento risultante, Llama3-SWE-RL-70B, raggiunge un tasso di risoluzione del 41.0% su SWE-bench Verified, una raccolta verificata da esseri umani di issue reali di GitHub. A nostra conoscenza, si tratta della migliore performance riportata per LLM di medie dimensioni (<100B) fino ad oggi, paragonabile anche a LLM proprietari leader come GPT-4o. Sorprendentemente, nonostante l'RL sia stato eseguito esclusivamente su dati di evoluzione del software, Llama3-SWE-RL ha sviluppato anche abilità di ragionamento generalizzato. Ad esempio, mostra risultati migliorati in cinque task fuori dominio, ovvero codifica di funzioni, uso di librerie, ragionamento sul codice, matematica e comprensione del linguaggio generale, mentre una baseline di fine-tuning supervisionato porta addirittura a un degrado medio delle prestazioni. Nel complesso, SWE-RL apre una nuova direzione per migliorare le capacità di ragionamento dei LLM attraverso l'apprendimento per rinforzo su dati massicci di ingegneria del software.

2

OmniAlign-V: Verso un Miglior Allineamento dei MLLM con le Preferenze Umane
OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

Feb 25
ByXiangyu Zhao, Shengyuan Ding, Zicheng Zhang, Haian Huang, Maosong Cao, Weiyun Wang, Jiaqi Wang, Xinyu Fang, Wenhai Wang, Guangtao Zhai, Haodong Duan, Hua Yang, Kai Chen
74
2

I recenti progressi nei modelli linguistici multimodali open-source (MLLMs) si sono concentrati principalmente sul potenziamento delle capacità di base, lasciando un significativo divario nell'allineamento con le preferenze umane. Questo articolo introduce OmniAlign-V, un dataset completo di 200.000 campioni di addestramento di alta qualità che presentano immagini diverse, domande complesse e formati di risposta variati, per migliorare l'allineamento degli MLLMs con le preferenze umane. Presentiamo inoltre MM-AlignBench, un benchmark annotato manualmente progettato specificamente per valutare l'allineamento degli MLLMs con i valori umani. I risultati sperimentali dimostrano che il fine-tuning degli MLLMs con OmniAlign-V, utilizzando il Supervised Fine-Tuning (SFT) o l'ottimizzazione diretta delle preferenze (DPO), migliora significativamente l'allineamento con le preferenze umane, mantenendo o migliorando le prestazioni sui benchmark standard di VQA e preservando le loro capacità fondamentali. I nostri dataset, benchmark, codice e checkpoint sono stati rilasciati su https://github.com/PhoenixZ810/OmniAlign-V.

3

SpargeAttn: Attenzione Sparsa di Precisione per Accelerare l'Inferenza di Qualsiasi Modello
SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

Feb 25
ByJintao Zhang, Chendong Xiang, Haofeng Huang, Jia Wei, Haocheng Xi, Jun Zhu, Jianfei Chen
57
2

Un'implementazione efficiente dell'attenzione è essenziale per i modelli di grandi dimensioni a causa della sua complessità temporale quadratica. Fortunatamente, l'attenzione presenta comunemente una sparsità, ovvero molti valori nella mappa di attenzione sono prossimi allo zero, consentendo l'omissione dei calcoli corrispondenti. Molti studi hanno sfruttato il modello sparso per accelerare l'attenzione. Tuttavia, la maggior parte dei lavori esistenti si concentra sull'ottimizzazione dell'attenzione all'interno di modelli specifici sfruttando determinati schemi sparsi della mappa di attenzione. Un'attenzione sparsa universale che garantisca sia l'accelerazione che le prestazioni end-to-end di modelli diversi rimane elusiva. In questo articolo, proponiamo SpargeAttn, un'attenzione sparsa e quantizzata universale per qualsiasi modello. Il nostro metodo utilizza un filtro online a due stadi: nella prima fase, prevediamo rapidamente e con precisione la mappa di attenzione, consentendo di saltare alcune moltiplicazioni di matrici nell'attenzione. Nella seconda fase, progettiamo un filtro online softmax-aware che non comporta costi aggiuntivi e salta ulteriori moltiplicazioni di matrici. Gli esperimenti dimostrano che il nostro metodo accelera significativamente modelli diversi, inclusi quelli per la generazione di linguaggio, immagini e video, senza sacrificare le metriche end-to-end. I codici sono disponibili all'indirizzo https://github.com/thu-ml/SpargeAttn.

4

KV-Edit: Modifica delle Immagini Senza Addestramento per una Conservazione Precisa dello Sfondo
KV-Edit: Training-Free Image Editing for Precise Background Preservation

Feb 24
ByTianrui Zhu, Shiyi Zhang, Jiawei Shao, Yansong Tang
38
3

La coerenza dello sfondo rimane una sfida significativa nei compiti di modifica delle immagini. Nonostante i notevoli progressi, i lavori esistenti devono ancora affrontare un compromesso tra il mantenimento della somiglianza con l'immagine originale e la generazione di contenuti che si allineano con l'obiettivo. Qui proponiamo KV-Edit, un approccio senza addestramento che utilizza la cache KV nei DiT per mantenere la coerenza dello sfondo, dove i token dello sfondo vengono preservati anziché rigenerati, eliminando la necessità di meccanismi complessi o di un addestramento costoso, generando infine nuovi contenuti che si integrano perfettamente con lo sfondo all'interno delle regioni fornite dall'utente. Esploriamo ulteriormente il consumo di memoria della cache KV durante la modifica e ottimizziamo la complessità spaziale a O(1) utilizzando un metodo senza inversione. Il nostro approccio è compatibile con qualsiasi modello generativo basato su DiT senza ulteriore addestramento. Gli esperimenti dimostrano che KV-Edit supera significativamente gli approcci esistenti sia in termini di qualità dello sfondo che dell'immagine, superando persino i metodi basati sull'addestramento. La pagina del progetto è disponibile all'indirizzo https://xilluill.github.io/projectpages/KV-Edit.

5

ART: Trasformatore di Regione Anonima per la Generazione di Immagini Trasparenti Multistrato Variabili
ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation

Feb 25
ByYifan Pu, Yiming Zhao, Zhicong Tang, Ruihong Yin, Haoxing Ye, Yuhui Yuan, Dong Chen, Jianmin Bao, Sirui Zhang, Yanbin Wang, Lin Liang, Lijuan Wang, Ji Li, Xiu Li, Zhouhui Lian, Gao Huang, Baining Guo
37
4

La generazione di immagini multi-strato è un compito fondamentale che consente agli utenti di isolare, selezionare e modificare specifici strati di immagini, rivoluzionando così le interazioni con i modelli generativi. In questo articolo, introduciamo l'Anonymous Region Transformer (ART), che facilita la generazione diretta di immagini trasparenti multi-strato variabili basate su un prompt testuale globale e un layout di regioni anonime. Ispirati dalla teoria degli schemi, che suggerisce che la conoscenza è organizzata in strutture (schemi) che consentono alle persone di interpretare e apprendere nuove informazioni collegandole a conoscenze pregresse, questo layout di regioni anonime permette al modello generativo di determinare autonomamente quale insieme di token visivi debba allinearsi con quali token testuali, in contrasto con il layout semantico precedentemente dominante per il compito di generazione di immagini. Inoltre, il meccanismo di ritaglio regionale strato per strato, che seleziona solo i token visivi appartenenti a ciascuna regione anonima, riduce significativamente i costi computazionali dell'attenzione e consente la generazione efficiente di immagini con numerosi strati distinti (ad esempio, 50+). Rispetto all'approccio di attenzione completa, il nostro metodo è oltre 12 volte più veloce e presenta meno conflitti tra gli strati. Inoltre, proponiamo un autoencoder di alta qualità per immagini trasparenti multi-strato che supporta la codifica e decodifica diretta della trasparenza di immagini multi-strato variabili in modo congiunto. Consentendo un controllo preciso e una generazione scalabile degli strati, ART stabilisce un nuovo paradigma per la creazione di contenuti interattivi.

6

Svelare la Scalabilità delle Prestazioni a Valle dei Modelli Linguistici: Una Prospettiva Basata sul Clustering
Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Feb 24
ByChengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li
22
2

I rapidi progressi nel campo del calcolo aumentano in modo significativo la scala e il costo dell'addestramento dei Large Language Models (LLM). Prevedere con precisione le prestazioni sui task downstream prima dell'addestramento del modello è cruciale per un'allocazione efficiente delle risorse, ma rimane una sfida a causa di due vincoli principali: (1) il "fenomeno dell'emergenza", in cui le metriche di prestazione downstream diventano significative solo dopo un addestramento esteso, limitando la capacità di utilizzare modelli più piccoli per la previsione; (2) distribuzioni irregolari della difficoltà dei task e l'assenza di leggi di scala consistenti, che portano a una variabilità sostanziale delle metriche. I metodi esistenti di previsione delle prestazioni soffrono di accuratezza e affidabilità limitate, ostacolando così la valutazione delle potenziali capacità degli LLM. Per affrontare queste sfide, proponiamo un framework di previsione delle prestazioni downstream basato sul Clustering-On-Difficulty (COD). COD costruisce prima un sottoinsieme di supporto prevedibile raggruppando i task in base alle caratteristiche di difficoltà, escludendo strategicamente i cluster non emergenti e non scalabili. I punteggi sul sottoinsieme selezionato fungono da predittori intermedi efficaci delle prestazioni downstream sull'intero set di valutazione. Con supporto teorico, deriviamo una funzione di mappatura che trasforma le metriche di prestazione dal sottoinsieme prevedibile all'intero set di valutazione, garantendo così un'estrapolazione accurata delle prestazioni downstream degli LLM. Il metodo proposto è stato applicato per prevedere la scalabilità delle prestazioni di un LLM da 70B, fornendo indicazioni utili per l'allocazione delle risorse di addestramento e assistendo nel monitoraggio del processo di addestramento. In particolare, COD raggiunge un'accuratezza predittiva notevole sul LLM da 70B sfruttando un insieme di modelli più piccoli, dimostrando una deviazione media assoluta dell'1,36% su otto importanti benchmark di valutazione degli LLM.

7

Curie: Verso un'esperimentazione scientifica rigorosa e automatizzata con agenti di intelligenza artificiale
Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents

Feb 22
ByPatrick Tser Jern Kon, Jiachen Liu, Qiuyi Ding, Yiming Qiu, Zhenning Yang, Yibo Huang, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Ang Chen
20
5

L'esperimentazione scientifica, pietra angolare del progresso umano, richiede rigore nella affidabilità, controllo metodico e interpretabilità per ottenere risultati significativi. Nonostante le crescenti capacità dei grandi modelli linguistici (LLM) nell'automatizzare diversi aspetti del processo scientifico, automatizzare l'esperimentazione rigorosa rimane una sfida significativa. Per affrontare questa lacuna, proponiamo Curie, un framework di agenti di intelligenza artificiale progettato per incorporare il rigore nel processo sperimentale attraverso tre componenti chiave: un modulo di rigore intra-agente per migliorare l'affidabilità, un modulo di rigore inter-agente per mantenere il controllo metodico e un modulo di conoscenza sperimentale per migliorare l'interpretabilità. Per valutare Curie, progettiamo un nuovo benchmark sperimentale composto da 46 domande in quattro domini dell'informatica, derivate da influenti articoli di ricerca e ampiamente adottati progetti open-source. Rispetto alla migliore base di confronto testata, otteniamo un miglioramento del 3,4 volte nel rispondere correttamente alle domande sperimentali. Curie è open-source su https://github.com/Just-Curieous/Curie.

8

K-LoRA: Sbloccare la fusione senza addestramento di qualsiasi soggetto e stile con LoRA
K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs

Feb 25
ByZiheng Ouyang, Zhen Li, Qibin Hou
17
3

Studi recenti hanno esplorato la combinazione di diversi LoRA per generare congiuntamente stile e contenuto appresi. Tuttavia, i metodi esistenti non riescono a preservare efficacemente sia il soggetto originale che lo stile contemporaneamente o richiedono un addestramento aggiuntivo. In questo articolo, sosteniamo che le proprietà intrinseche del LoRA possono guidare efficacemente i modelli di diffusione nella fusione di soggetto e stile appresi. Basandoci su questa intuizione, proponiamo K-LoRA, un approccio di fusione LoRA semplice ma efficace che non richiede addestramento. In ogni livello di attenzione, K-LoRA confronta gli elementi Top-K in ciascun LoRA da fondere, determinando quale LoRA selezionare per una fusione ottimale. Questo meccanismo di selezione garantisce che le caratteristiche più rappresentative sia del soggetto che dello stile vengano mantenute durante il processo di fusione, bilanciando efficacemente i loro contributi. I risultati sperimentali dimostrano che il metodo proposto integra efficacemente le informazioni sul soggetto e sullo stile apprese dai LoRA originali, superando approcci basati su addestramento all'avanguardia sia nei risultati qualitativi che quantitativi.

9

Introduzione del Token di Percezione Visiva nei Modelli Linguistici Multimodali di Grandi Dimensioni
Introducing Visual Perception Token into Multimodal Large Language Model

Feb 24
ByRunpeng Yu, Xinyin Ma, Xinchao Wang
16
2

Per sfruttare le informazioni visive, il Multimodal Large Language Model (MLLM) si affida al processo di percezione del suo encoder visivo. La completezza e l'accuratezza della percezione visiva influenzano significativamente la precisione del ragionamento spaziale, della comprensione fine e di altre attività. Tuttavia, l'MLLM manca ancora della capacità autonoma di controllare i propri processi di percezione visiva, ad esempio, rivedere selettivamente regioni specifiche di un'immagine o concentrarsi su informazioni relative a categorie specifiche di oggetti. In questo lavoro, proponiamo il concetto di Visual Perception Token, con l'obiettivo di dotare l'MLLM di un meccanismo per controllare i suoi processi di percezione visiva. Progettiamo due tipi di Visual Perception Token, denominati Region Selection Token e Vision Re-Encoding Token. Gli MLLM generano autonomamente questi token, proprio come generano testo, e li utilizzano per attivare azioni aggiuntive di percezione visiva. Il Region Selection Token identifica esplicitamente regioni specifiche di un'immagine che richiedono un'ulteriore percezione, mentre il Vision Re-Encoding Token utilizza i suoi stati nascosti come segnali di controllo per guidare ulteriori processi di percezione visiva. Esperimenti estesi dimostrano i vantaggi di questi token nella gestione del ragionamento spaziale, nel miglioramento della comprensione fine e in altre attività. In media, l'introduzione dei Visual Perception Token migliora le prestazioni di un modello da 2B del 23,6%, aumentando il suo punteggio da 0,572 a 0,708, e supera persino un modello da 7B parametri del 13,4% (da 0,624). Consultate il nostro repository all'indirizzo https://github.com/yu-rp/VisualPerceptionToken.

10

Decoupling Scala-Distribuzione: Abilitare l'Addestramento Stabile ed Efficace di Modelli Linguistici di Grandi Dimensioni
Scale-Distribution Decoupling: Enabling Stable and Effective Training of Large Language Models

Feb 21
ByYa Wang, Zhijian Zhuo, Yutao Zeng, Xun Zhou, Jian Yang, Xiaoqing Li
15
2

La stabilità dell'addestramento rappresenta una sfida persistente nel pre-training di grandi modelli linguistici (LLM), in particolare per architetture come i Transformer Post-Norm, che sono soggetti a esplosione e dissipazione del gradiente. In questo articolo, proponiamo il Decoupling Scala-Distribuzione (SDD), un approccio innovativo che stabilizza l'addestramento disaccoppiando esplicitamente la scala e la distribuzione della matrice dei pesi nei livelli completamente connessi. SDD applica un meccanismo di normalizzazione per regolare le attivazioni e un vettore di scalatura apprendibile per mantenere gradienti ben condizionati, prevenendo efficacemente l'esplosione e la dissipazione del gradiente. Questa separazione migliora l'efficienza dell'ottimizzazione, specialmente nelle reti profonde, garantendo una propagazione stabile del gradiente. I risultati sperimentali dimostrano che il nostro metodo stabilizza l'addestramento su varie architetture LLM e supera le tecniche esistenti in diverse configurazioni di normalizzazione. Inoltre, il metodo proposto è leggero e compatibile con i framework esistenti, rendendolo una soluzione pratica per stabilizzare l'addestramento degli LLM. Il codice è disponibile all'indirizzo https://github.com/kaihemo/SDD.

11

WebGames: Sfidare gli agenti AI generici per la navigazione web
WebGames: Challenging General-Purpose Web-Browsing AI Agents

Feb 25
ByGeorge Thomas, Alex J. Chan, Jikun Kang, Wenqi Wu, Filippos Christianos, Fraser Greenlee, Andy Toulis, Marvin Purtorab
14
2

Introduciamo WebGames, una suite di benchmark completa progettata per valutare agenti AI generici per la navigazione web attraverso una raccolta di oltre 50 sfide interattive. Queste sfide sono state specificamente create per essere semplici per gli esseri umani, mentre testano sistematicamente i limiti degli attuali sistemi di AI in termini di interazioni di base con il browser, elaborazione avanzata degli input, compiti cognitivi, automazione dei flussi di lavoro e intrattenimento interattivo. Il nostro framework elimina le dipendenze esterne attraverso un ambiente di test ermetico, garantendo una valutazione riproducibile con soluzioni di riferimento verificabili. Valutiamo i principali modelli visione-linguaggio, tra cui GPT-4o, Claude Computer-Use, Gemini-1.5-Pro e Qwen2-VL, confrontandoli con le prestazioni umane. I risultati rivelano un divario significativo nelle capacità, con il miglior sistema AI che raggiunge solo un tasso di successo del 43,1% rispetto al 95,7% delle prestazioni umane, evidenziando limitazioni fondamentali nell'abilità degli attuali sistemi AI di gestire modelli di interazione web che gli esseri umani trovano intuitivi. Il benchmark è disponibile pubblicamente su webgames.convergence.ai, offrendo un'implementazione leggera lato client che facilita cicli di valutazione rapidi. Grazie alla sua architettura modulare e alle specifiche standardizzate delle sfide, WebGames fornisce una solida base per misurare i progressi nello sviluppo di agenti di navigazione web più capaci.

12

L'ipotesi della Lotteria LLM: Ripensare quali abilità dovrebbe preservare la compressione dei Modelli Linguistici di Grande Dimensione?
The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve?

Feb 24
ByZhenheng Tang, Xiang Liu, Qian Wang, Peijie Dong, Bingsheng He, Xiaowen Chu, Bo Li
8
2

Motivati dalla riduzione dei costi computazionali e di memorizzazione dei LLM, la compressione dei modelli e la compressione della cache KV hanno attirato molta attenzione da parte dei ricercatori. Tuttavia, i metodi attuali si concentrano principalmente sul mantenimento delle prestazioni dei LLM compressi, misurate attraverso la perplessità o l'accuratezza semplice in compiti di domande e risposte su conoscenza di senso comune e ragionamento aritmetico di base. In questo blog, presentiamo una breve rassegna dei recenti progressi nei LLM relativi alla generazione aumentata da recupero, al ragionamento a più passaggi, agli strumenti esterni e all'espressività computazionale, tutti elementi che migliorano sostanzialmente le prestazioni dei LLM. Successivamente, proponiamo un'ipotesi di LLM lotteria che suggerisce che, per un dato LLM e un determinato compito, esiste un LLM lotteria più piccolo in grado di produrre le stesse prestazioni del LLM originale con l'assistenza del ragionamento a più passaggi e degli strumenti esterni. Sulla base della rassegna dei progressi attuali nei LLM, discutiamo e riassumiamo le capacità essenziali che il LLM lotteria e la compressione della cache KV devono possedere, attualmente trascurate nei metodi esistenti.

13

Prompt-to-Leaderboard
Prompt-to-Leaderboard

Feb 20
ByEvan Frick, Connor Chen, Joseph Tennyson, Tianle Li, Wei-Lin Chiang, Anastasios N. Angelopoulos, Ion Stoica
7
3

Le valutazioni dei grandi modelli linguistici (LLM) di solito si basano su metriche aggregate come accuratezza o preferenza umana, facendo una media tra utenti e prompt. Questa media oscura le variazioni specifiche degli utenti e dei prompt nelle prestazioni del modello. Per affrontare questo problema, proponiamo Prompt-to-Leaderboard (P2L), un metodo che produce classifiche specifiche per un prompt. L'idea principale è addestrare un LLM che prende prompt in linguaggio naturale in input per produrre un vettore di coefficienti di Bradley-Terry che vengono poi utilizzati per prevedere il voto di preferenza umana. Le classifiche dipendenti dal prompt risultanti consentono una valutazione specifica del compito non supervisionata, un instradamento ottimale delle query ai modelli, la personalizzazione e la valutazione automatizzata dei punti di forza e di debolezza del modello. I dati provenienti da Chatbot Arena suggeriscono che P2L cattura meglio il paesaggio sfumato delle prestazioni del modello linguistico rispetto alla classifica media. Inoltre, le nostre scoperte suggeriscono che la capacità di P2L di produrre valutazioni specifiche del prompt segue una scalabilità di legge di potenza simile a quella osservata negli stessi LLM. Nel gennaio 2025, il router che abbiamo addestrato basandoci su questa metodologia ha raggiunto il primo posto nella classifica di Chatbot Arena. Il nostro codice è disponibile a questo link GitHub: https://github.com/lmarena/p2l.

14

Le MLLM sanno dove guardare: Percezione senza addestramento dei piccoli dettagli visivi con MLLM multimodali.
MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs

Feb 24
ByJiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski
7
2

I Modelli di Linguaggio Multimodali di Grandi Dimensioni (MLLMs) hanno registrato un rapido progresso nelle attività di riconoscimento visivo negli ultimi anni. Data la loro potenziale integrazione in molte applicazioni critiche, è importante comprendere i limiti della loro percezione visiva. In questo lavoro, studiamo se i MLLMs possano percepire piccoli dettagli visivi in modo efficace quanto quelli di dimensioni maggiori quando rispondono a domande su immagini. Osserviamo che le loro prestazioni sono molto sensibili alla dimensione del soggetto visivo della domanda e dimostriamo inoltre che questo effetto è effettivamente causale attraverso uno studio di intervento. Successivamente, esaminiamo i modelli di attenzione dei MLLMs quando rispondono a domande visive e troviamo in modo intrigante che essi sanno costantemente dove guardare, anche quando forniscono una risposta sbagliata. Sulla base di questi risultati, proponiamo quindi metodi di intervento visivo senza addestramento che sfruttano la conoscenza interna di qualsiasi MLLM stesso, sotto forma di mappe di attenzione e gradienti, per migliorare la sua percezione dei piccoli dettagli visivi. Valutiamo i nostri metodi proposti su due MLLMs ampiamente utilizzati e su sette benchmark di risposta a domande visive e mostriamo che possono migliorare significativamente l'accuratezza dei MLLMs senza richiedere alcun addestramento. I nostri risultati chiariscono il rischio nell'applicare i MLLMs alle attività di riconoscimento visivo riguardanti piccoli dettagli e indicano che l'intervento visivo utilizzando lo stato interno del modello è una direzione promettente per mitigare questo rischio.

15

Trovare il Punto Ottimale: Costruzione dei Dati di Preferenza per il Ridimensionamento dell'Ottimizzazione delle Preferenze
Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization

Feb 24
ByYao Xiao, Hai Ye, Linyao Chen, Hwee Tou Ng, Lidong Bing, Xiaoli Li, Roy Ka-wei Lee
7
2

La generazione iterativa di dati e il riaddestramento del modello sono ampiamente utilizzati per allineare i grandi modelli linguistici (LLM). Questo processo coinvolge tipicamente un modello di policy per generare risposte on-policy e un modello di reward per guidare la selezione dei dati di addestramento. L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) migliora ulteriormente questo processo costruendo coppie di preferenze tra risposte scelte e rifiutate. In questo lavoro, miriamo a scalare il numero di campioni on-policy attraverso un campionamento casuale ripetuto per migliorare le prestazioni di allineamento. La pratica convenzionale seleziona il campione con il reward più alto come scelto e quello con il reward più basso come rifiutato per il DPO. Tuttavia, i nostri esperimenti rivelano che questa strategia porta a un declino delle prestazioni all'aumentare della dimensione del campione. Per affrontare questo problema, investigiamo la costruzione dei dati di preferenza attraverso la lente della distribuzione normale sottostante dei reward dei campioni. Categorizziamo lo spazio dei reward in sette punti rappresentativi ed esploriamo sistematicamente tutte le 21 combinazioni a coppie (C_7^2). Attraverso valutazioni su quattro modelli utilizzando AlpacaEval 2, scopriamo che selezionare la risposta rifiutata alla posizione di reward mu - 2sigma, piuttosto che al reward minimo, è cruciale per ottenere prestazioni ottimali. Introduciamo infine una strategia scalabile per la costruzione dei dati di preferenza che migliora costantemente le prestazioni del modello all'aumentare della scala del campione.

16

LDGen: Miglioramento della sintesi testo-immagine tramite rappresentazione linguistica guidata da modelli linguistici di grandi dimensioni
LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation

Feb 25
ByPengzhi Li, Pengfei Yu, Zide Liu, Wei He, Xuhao Pan, Xudong Rao, Tao Wei, Wei Chen
5
2

In questo articolo, presentiamo LDGen, un nuovo metodo per integrare grandi modelli linguistici (LLM) nei modelli di diffusione testo-immagine esistenti riducendo al minimo le richieste computazionali. Gli encoder di testo tradizionali, come CLIP e T5, presentano limitazioni nel trattamento multilingue, ostacolando la generazione di immagini in diverse lingue. Affrontiamo queste sfide sfruttando le capacità avanzate dei LLM. Il nostro approccio utilizza una strategia di rappresentazione linguistica che applica ottimizzazione gerarchica della didascalia e tecniche di istruzioni umane per estrarre informazioni semantiche precise. Successivamente, incorporiamo un adattatore leggero e un raffinatore cross-modale per facilitare l'allineamento efficiente delle caratteristiche e l'interazione tra i LLM e le caratteristiche dell'immagine. LDGen riduce il tempo di addestramento e consente la generazione di immagini multilingue senza bisogno di adattamento. I risultati sperimentali indicano che il nostro metodo supera i modelli di riferimento sia nell'aderenza alla richiesta che nella qualità estetica delle immagini, supportando senza problemi diverse lingue. Pagina del progetto: https://zrealli.github.io/LDGen.

17

AAD-LLM: Comprensione Neurale della Scena Uditiva Guidata dall'Attenzione
AAD-LLM: Neural Attention-Driven Auditory Scene Understanding

Feb 24
ByXilin Jiang, Sukru Samet Dindar, Vishal Choudhari, Stephan Bickel, Ashesh Mehta, Guy M McKhann, Adeen Flinker, Daniel Friedman, Nima Mesgarani
5
3

I modelli fondazionali uditivi, inclusi i grandi modelli linguistici (LLM) uditivi, elaborano tutti gli input sonori in modo uniforme, indipendentemente dalla percezione dell'ascoltatore. Tuttavia, la percezione uditiva umana è intrinsecamente selettiva: gli ascoltatori si concentrano su specifici parlanti ignorando gli altri in scene uditive complesse. I modelli esistenti non incorporano questa selettività, limitando la loro capacità di generare risposte allineate alla percezione. Per affrontare questo problema, introduciamo la Comprensione della Scena Uditiva Informata dall'Intenzione (II-ASU) e presentiamo Auditory Attention-Driven LLM (AAD-LLM), un sistema prototipale che integra segnali cerebrali per inferire l'attenzione dell'ascoltatore. AAD-LLM estende un LLM uditivo incorporando registrazioni di elettroencefalografia intracranica (iEEG) per decodificare a quale parlante l'ascoltatore sta prestando attenzione e affinare le risposte di conseguenza. Il modello prevede prima il parlante a cui si sta prestando attenzione dall'attività neurale, quindi condiziona la generazione della risposta su questo stato attentivo inferito. Valutiamo AAD-LLM su descrizione del parlante, trascrizione ed estrazione del parlato e risposta a domande in scenari con più parlanti, con valutazioni sia oggettive che soggettive che mostrano un migliorato allineamento con l'intenzione dell'ascoltatore. Compiendo un primo passo verso l'IA uditiva consapevole dell'intenzione, questo lavoro esplora un nuovo paradigma in cui la percezione dell'ascoltatore informa l'ascolto automatico, aprendo la strada a futuri sistemi uditivi centrati sull'ascoltatore. Demo e codice disponibili: https://aad-llm.github.io.

18

Una panoramica dei grandi modelli linguistici per gli statistici.
An Overview of Large Language Models for Statisticians

Feb 25
ByWenlong Ji, Weizhe Yuan, Emily Getzen, Kyunghyun Cho, Michael I. Jordan, Song Mei, Jason E Weston, Weijie J. Su, Jing Xu, Linjun Zhang
4
2

I Large Language Models (LLM) sono emersi come strumenti trasformativi nell'intelligenza artificiale (IA), mostrando notevoli capacità in diverse attività come la generazione di testo, il ragionamento e la presa di decisioni. Sebbene il loro successo sia stato principalmente guidato dai progressi nella potenza computazionale e nelle architetture di apprendimento profondo, problemi emergenti - in aree come la quantificazione dell'incertezza, la presa di decisioni, l'inferenza causale e lo spostamento della distribuzione - richiedono un coinvolgimento più profondo con il campo della statistica. Questo articolo esplora le possibili aree in cui gli statistici possono apportare importanti contributi allo sviluppo dei LLM, in particolare quelli che mirano a garantire affidabilità e trasparenza per gli utenti umani. Pertanto, ci concentriamo su questioni come la quantificazione dell'incertezza, l'interpretabilità, l'equità, la privacy, il watermarking e l'adattamento del modello. Consideriamo anche possibili ruoli per i LLM nell'analisi statistica. Attraverso il collegamento tra IA e statistica, miriamo a promuovere una collaborazione più profonda che favorisca lo sviluppo delle basi teoriche e delle applicazioni pratiche dei LLM, plasmando in definitiva il loro ruolo nel affrontare complessi problemi sociali.

19

LaTIM: Misurare le Interazioni Latenti Token-to-Token nei Modelli Mamba
LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models

Feb 21
ByHugo Pitorro, Marcos Treviso
4
2

I modelli dello spazio degli stati (SSM), come Mamba, sono emersi come un'efficiente alternativa ai trasformatori per la modellizzazione di sequenze a lungo contesto. Tuttavia, nonostante la loro crescente adozione, gli SSM mancano degli strumenti di interpretabilità che sono stati cruciali per la comprensione e il miglioramento delle architetture basate sull'attenzione. Mentre gli sforzi recenti forniscono approfondimenti sui meccanismi interni di Mamba, non decompongono esplicitamente le contribuzioni a livello di token, lasciando delle lacune nella comprensione di come Mamba elabori selettivamente le sequenze attraverso i livelli. In questo lavoro, presentiamo LaTIM, un nuovo metodo di decomposizione a livello di token per sia Mamba-1 che Mamba-2 che consente un'interpretabilità dettagliata. Valutiamo ampiamente il nostro metodo su diverse attività, tra cui la traduzione automatica, la copiatura e la generazione basata sul recupero, dimostrandone l'efficacia nel rivelare i modelli di interazione da token a token di Mamba.

20

Shakti-VLMs: Modelli Visione-Linguaggio Scalabili per l'AI Aziendale
Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI

Feb 24
BySyed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
3
2

Presentiamo Shakti VLM, una famiglia di modelli visione-linguaggio con capacità di 1B e 4B parametri, progettata per affrontare le sfide di efficienza dei dati nell'apprendimento multimodale. Mentre i recenti VLM raggiungono prestazioni elevate attraverso un ampio volume di dati di addestramento, i modelli Shakti sfruttano innovazioni architetturali per ottenere risultati competitivi con un minor numero di token. Tra i progressi chiave figurano la QK-Normalization per la stabilità dell'attenzione, tecniche di normalizzazione ibrida e un miglioramento della codifica posizionale. Una strategia di addestramento in tre fasi ottimizza ulteriormente l'efficienza dell'apprendimento. Le valutazioni dimostrano che Shakti-VLM-1B e Shakti-VLM-4B eccellono nella comprensione di documenti, ragionamento visivo, estrazione OCR e ragionamento multimodale generale. I nostri risultati evidenziano come alte prestazioni possano essere raggiunte attraverso il design del modello e la strategia di addestramento piuttosto che il semplice volume di dati, rendendo Shakti una soluzione efficiente per attività multimodali su scala aziendale.

21

WiCkeD: Un Metodo Semplice per Rendere i Benchmark a Scelta Multipla Più Sfidanti
WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging

Feb 25
ByAhmed Elhady, Eneko Agirre, Mikel Artetxe
2
2

Introduciamo WiCkeD, un metodo semplice per aumentare la complessità dei benchmark a scelta multipla esistenti sostituendo casualmente una scelta con "Nessuna delle precedenti", un metodo spesso utilizzato nei test educativi. Dimostriamo che WiCkeD può essere applicato automaticamente a qualsiasi benchmark esistente, rendendolo più impegnativo. Applichiamo WiCkeD a 6 benchmark popolari e lo utilizziamo per valutare 18 LLM open-weight. Le prestazioni dei modelli diminuiscono in media di 12,1 punti rispetto alle versioni originali dei dataset. Utilizzando la catena di pensiero su 3 dataset MMLU, la diminuzione delle prestazioni per la variante WiCkeD è simile a quella osservata quando si utilizzano direttamente gli LLM, dimostrando che WiCkeD è altrettanto impegnativo per i modelli con capacità di ragionamento potenziate. WiCkeD mette anche in luce che alcuni modelli sono più sensibili al ragionamento extra richiesto, fornendo informazioni aggiuntive rispetto ai benchmark originali. Rilasciamo il nostro codice e i dati su https://github.com/ahmedselhady/wicked-benchmarks.

22

Scaling LLM Pre-training con Curriculum di Vocabolario
Scaling LLM Pre-training with Vocabulary Curriculum

Feb 25
ByFangyuan Yu
1
2

I moderni modelli linguistici si basano su vocabolari statici, fissati prima del preaddestramento, in contrasto con l'acquisizione adattiva del vocabolario osservata nell'apprendimento linguistico umano. Per colmare questa lacuna, introduciamo l'apprendimento del curriculum del vocabolario, un approccio che migliora l'efficienza del preaddestramento con guadagni di scala log-lineare rispetto alla dimensione del vocabolario. Il nostro metodo alterna l'espansione del vocabolario guidata dall'entropia e l'ottimizzazione del modello, consentendo ai modelli di apprendere rappresentazioni trasferibili attraverso diverse granularità di tokenizzazione. Questo approccio dà naturalmente origine a un modello ottimale di allocazione della computazione: i token più lunghi catturano contenuti prevedibili, mentre i token più corti si concentrano su contesti più complessi e difficili da prevedere. Gli esperimenti sui modelli GPT su piccola scala dimostrano un'efficienza di scalabilità migliorata, rafforzando l'efficacia della tokenizzazione dinamica. Rilasciamo il nostro codice per supportare ulteriori ricerche e pianifichiamo di estendere i nostri esperimenti a modelli più grandi e a domini diversi.

Feb 25
Feb 26
Feb 27