ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

1

MM1.5: Metodi, Analisi e Approfondimenti dal Fine-tuning Multimodale di LLM
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

Sep 30
ByHaotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang
56
3

Presentiamo MM1.5, una nuova famiglia di modelli di linguaggio multimodali di grandi dimensioni (MLLMs) progettati per potenziare le capacità nella comprensione delle immagini ricche di testo, nel riferimento e ancoraggio visuale e nel ragionamento multi-immagine. Basandosi sull'architettura MM1, MM1.5 adotta un approccio centrato sui dati per l'addestramento del modello, esplorando sistematicamente l'impatto di diverse combinazioni di dati lungo l'intero ciclo di addestramento del modello. Ciò include dati OCR di alta qualità e didascalie sintetiche per il pre-addestramento continuo, nonché una combinazione ottimizzata di dati per il raffinamento supervisionato delle istruzioni visive. I nostri modelli vanno da 1B a 30B di parametri, includendo varianti dense e di misto di esperti (MoE), e dimostrano che una accurata cura dei dati e strategie di addestramento possono portare a ottime prestazioni anche a piccola scala (1B e 3B). Inoltre, introduciamo due varianti specializzate: MM1.5-Video, progettato per la comprensione dei video, e MM1.5-UI, adattato per la comprensione dell'interfaccia utente mobile. Attraverso ampi studi empirici e ablation, forniamo dettagliate intuizioni sui processi di addestramento e sulle decisioni che hanno guidato i nostri design finali, offrendo preziose indicazioni per la ricerca futura nello sviluppo di MLLM.

2

Regolatore: Un Metodo Agnostico al Modello per Controllare la Lunghezza Generata per Grandi Modelli Linguistici
Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models

Sep 27
ByJiaming Li, Lei Zhang, Yunshui Li, Ziqiang Liu, yuelin bai, Run Luo, Longze Chen, Min Yang
29
2

La capacità di seguire istruzioni dei grandi modelli linguistici consente agli esseri umani di interagire con agenti di intelligenza artificiale in modo naturale. Tuttavia, quando devono generare risposte di una lunghezza specifica, i grandi modelli linguistici spesso faticano a soddisfare le esigenze degli utenti a causa della loro intrinseca difficoltà nel percepire con precisione vincoli numerici. Per esplorare la capacità dei grandi modelli linguistici di controllare la lunghezza delle risposte generate, proponiamo il Task di Generazione della Lunghezza Obiettivo (TLG) e progettiamo due metriche, Corrispondenza Precisa (PM) e Corrispondenza Flessibile (FM) per valutare le prestazioni del modello nel rispettare le lunghezze di risposta specificate. Inoltre, introduciamo un nuovo approccio modello-agnostico chiamato Ruler, che utilizza i Token di Lunghezza Meta (MLT) per potenziare la capacità dei grandi modelli linguistici di seguire istruzioni vincolate dalla lunghezza. In particolare, Ruler dota i LLM della capacità di generare risposte di una lunghezza specificata basandosi sui vincoli di lunghezza presenti nelle istruzioni. Inoltre, Ruler può generare automaticamente un MLT appropriato quando i vincoli di lunghezza non sono esplicitamente forniti, dimostrando un'eccellente versatilità e generalizzazione. Esperimenti esaustivi mostrano l'efficacia di Ruler su diversi LLMs nel Task di Generazione della Lunghezza Obiettivo, ad esempio, con un guadagno medio del 27,97% su PM e del 29,57% su FM. Inoltre, conduciamo ampi esperimenti di ablation per ulteriormente supportare l'efficacia e la generalizzazione di Ruler. Il nostro codice e i dati sono disponibili su https://github.com/Geaming2002/Ruler.

3

Iperconnessioni
Hyper-Connections

Sep 29
ByDefa Zhu, Hongzhi Huang, Zihao Huang, Yutao Zeng, Yunyao Mao, Banggu Wu, Qiyang Min, Xun Zhou
24
7

Presentiamo le iperconnessioni, un metodo semplice ma efficace che può fungere da alternativa alle connessioni residue. Questo approccio affronta specificamente i difetti comuni osservati nelle varianti delle connessioni residue, come l'effetto altalena tra scomparsa del gradiente e collasso della rappresentazione. Teoricamente, le iperconnessioni consentono alla rete di regolare la forza delle connessioni tra le caratteristiche a diverse profondità e di riorganizzare dinamicamente gli strati. Conduciamo esperimenti incentrati sul pre-training di grandi modelli linguistici, inclusi modelli densi e sparsi, dove le iperconnessioni mostrano significativi miglioramenti delle prestazioni rispetto alle connessioni residue. Ulteriori esperimenti condotti su compiti di visione dimostrano anche miglioramenti simili. Prevediamo che questo metodo sarà ampiamente applicabile e vantaggioso in una vasta gamma di problemi di intelligenza artificiale.

4

DiaSynth - Framework per la Generazione di Dialoghi Sintetici
DiaSynth -- Synthetic Dialogue Generation Framework

Sep 25
BySathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng
21
3

La scarsità di dataset di dialogo specifici del dominio in vari settori, dai temi accademici alle conversazioni quotidiane, limita lo sviluppo dei sistemi di dialogo per varie applicazioni. La ricerca esistente è spesso vincolata sia da dataset di dialogo troppo generici sia da dataset di dialogo di nicchia il cui volume non corrisponde al volume richiesto per addestrare i sistemi di dialogo. Per colmare questa lacuna, presentiamo DiaSynth - un framework di generazione di dialoghi sintetici in grado di generare dialoghi di alta qualità, ricchi di contesto, in una vasta gamma di settori. Il nostro approccio si differenzia dai framework esistenti generando dinamicamente dialoghi che incorporano persone simulate, sottotematiche e diverse caratteristiche conversazionali, utilizzando un Grande Modello Linguistico (LLM) con Catena di Pensiero (CoT) per creare dialoghi specifici del dominio, ricchi di contesto, che imitano da vicino le interazioni umane naturali. DiaSynth produce dialoghi personalizzati che emulano conversazioni realistiche. Abbiamo condotto i nostri esperimenti generando dati sintetici utilizzando diversi LLM e alcuni esempi di DialogSum e SAMSum. I modelli linguistici preaddestrati, ottimizzati sui dati sintetici, superano i modelli di base del 16,47%, mentre il confronto tra i modelli ottimizzati sui dati in-domain e i dati sintetici mostra che i dati sintetici sono in grado di catturare il 90,48% della distribuzione dei dati in-domain. La qualità dei dati generati aumenta anche con la dimensione dei LLM. Questi risultati convalidano il potenziale di DiaSynth come robusta alternativa ai tradizionali metodi di raccolta dati.

5

Attenzione Cosinusoidale: Trasformatori Lineari con Attenzione Cosinusoidale
Cottention: Linear Transformers With Cosine Attention

Sep 27
ByGabriel Mongaras, Trevor Dohm, Eric C. Larson
17
5

I meccanismi di attenzione, in particolare l'attenzione softmax, sono stati fondamentali per il successo dei modelli basati su trasformatori come GPT. Tuttavia, la complessità di memoria quadratica dell'attenzione softmax rispetto alla lunghezza della sequenza pone significativi problemi per il trattamento di sequenze più lunghe. Introduciamo Cottention, un nuovo meccanismo di attenzione che sostituisce l'operazione softmax con la similarità cosinica. Sfruttando le proprietà della similarità cosinica e riorganizzando l'equazione di attenzione, Cottention raggiunge una complessità di memoria lineare nativa rispetto alla lunghezza della sequenza, rendendolo intrinsecamente più efficiente dal punto di vista della memoria rispetto all'attenzione softmax. Dimostriamo che Cottention può essere riformulato come una rete neurale ricorrente (RNN) con uno stato nascosto finito, consentendo un utilizzo costante della memoria durante l'inferenza. Valutiamo Cottention sia nei compiti bidirezionali di BERT che nei compiti causali di GPT, dimostrando prestazioni comparabili all'attenzione softmax riducendo significativamente i requisiti di memoria. Per garantire un calcolo efficiente, sviluppiamo un kernel CUDA personalizzato per Cottention. I nostri risultati mostrano che Cottention è una promettente alternativa all'attenzione softmax, consentendo il trattamento di sequenze più lunghe senza sacrificare le prestazioni, grazie alla sua complessità di memoria lineare nativa e alla capacità di mantenere una footprint di memoria costante durante l'inferenza.

6

UniAff: Una Rappresentazione Unificata delle Affordance per l'Uso degli Strumenti e l'Articolazione con i Modelli Visione-Linguaggio
UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

Sep 30
ByQiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu
15
4

Studi precedenti sulla manipolazione robotica si basano su una comprensione limitata dei vincoli di movimento 3D sottostanti e delle affordances. Per affrontare queste sfide, proponiamo un paradigma completo, denominato UniAff, che integra la manipolazione centrata sugli oggetti in 3D e la comprensione del compito in una formulazione unificata. In particolare, abbiamo costruito un dataset etichettato con attributi chiave correlati alla manipolazione, comprendente 900 oggetti articolati di 19 categorie e 600 strumenti di 12 categorie. Inoltre, sfruttiamo MLLM per inferire rappresentazioni centrate sugli oggetti per compiti di manipolazione, inclusi il riconoscimento delle affordances e il ragionamento sui vincoli di movimento 3D. Esperimenti completi sia in simulazione che in ambienti reali indicano che UniAff migliora significativamente la generalizzazione della manipolazione robotica per strumenti e oggetti articolati. Speriamo che UniAff possa fungere da riferimento generale per compiti di manipolazione robotica unificati in futuro. Immagini, video, dataset e codice sono pubblicati sul sito web del progetto all'indirizzo: https://sites.google.com/view/uni-aff/home

7

Rilevamento della Copia di Immagini per Modelli di Diffusione
Image Copy Detection for Diffusion Models

Sep 30
ByWenhao Wang, Yifan Sun, Zhentao Tan, Yi Yang
14
3

Le immagini prodotte dai modelli di diffusione stanno diventando sempre più popolari nell'arte digitale e nel marketing visivo. Tuttavia, tali immagini generate potrebbero replicare contenuti di immagini esistenti e porre la sfida dell'originalità dei contenuti. I modelli esistenti di Rilevamento della Copia delle Immagini (ICD), sebbene precisi nel rilevare repliche realizzate manualmente, trascurano la sfida posta dai modelli di diffusione. Ciò ci motiva a introdurre ICDiff, il primo ICD specializzato per i modelli di diffusione. A tal fine, costruiamo un dataset di Diffusione-Replica (D-Rep) e proponiamo corrispondentemente un nuovo metodo di embedding profondo. D-Rep utilizza un modello di diffusione all'avanguardia (Stable Diffusion V1.5) per generare 40.000 coppie immagine-replica, che vengono annotate manualmente in 6 livelli di replicazione che vanno da 0 (nessuna replicazione) a 5 (replicazione totale). Il nostro metodo, PDF-Embedding, trasforma il livello di replicazione di ciascuna coppia immagine-replica in una funzione di densità di probabilità (PDF) come segnale di supervisione. L'intuizione è che la probabilità dei livelli di replicazione adiacenti dovrebbe essere continua e uniforme. I risultati sperimentali mostrano che PDF-Embedding supera i metodi basati su protocollo e le scelte non-PDF sul set di test D-Rep. Inoltre, utilizzando PDF-Embedding, scopriamo che i rapporti di replicazione dei modelli di diffusione ben noti rispetto a una galleria open-source variano dal 10% al 20%.

8

Scaling dell'apprendimento Proprioceettivo-Visivo con Trasformatori Pre-Allenati Eterogenei
Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

Sep 30
ByLirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He
14
2

Uno dei principali ostacoli per l'allenamento dei modelli robotici generalisti oggi è l'eterogeneità. I metodi di apprendimento dei robot precedenti spesso raccolgono dati per l'allenamento con un'incarnazione specifica per un compito, il che è costoso e soggetto all'overfitting. Questo lavoro studia il problema della rappresentazione delle politiche di apprendimento attraverso il pre-training eterogeneo su dati robotici provenienti da diverse incarnazioni e compiti su larga scala. Proponiamo i Trasformatori Pre-allenati Eterogenei (HPT), che pre-allenano un grande tronco condivisibile di una rete neurale di politiche per apprendere una rappresentazione condivisa agnostica rispetto al compito e all'incarnazione. Questa architettura generale allinea gli input specifici della propriocettività e della visione da diverse incarnazioni a una breve sequenza di token e poi elabora tali token per mapparli per controllare robot per diversi compiti. Sfruttando i recenti dataset robotici del mondo reale multi-incarnazione su larga scala così come la simulazione, i robot implementati e i dataset video umani, investighiamo il pre-training delle politiche attraverso l'eterogeneità. Conduciamo esperimenti per investigare i comportamenti di scaling degli obiettivi di allenamento, fino a un totale di 52 dataset. Gli HPT superano diversi baselines e migliorano le prestazioni delle politiche sintonizzate di oltre il 20% su compiti non visti in diversi benchmark di simulazione e ambienti reali. Consultare il sito del progetto (https://liruiw.github.io/hpt/) per il codice e i video.

9

Coffee-Gym: Un ambiente per valutare e migliorare il feedback in linguaggio naturale sull'errore del codice.
Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code

Sep 29
ByHyungjoo Chae, Taeyoon Kwon, Seungjun Moon, Yongho Song, Dongjin Kang, Kai Tzu-iunn Ong, Beong-woo Kwak, Seonghyeon Bae, Seung-won Hwang, Jinyoung Yeo
11
3

Questo articolo presenta Coffee-Gym, un ambiente RL completo per addestrare modelli che forniscono feedback sulla modifica del codice. Coffee-Gym include due componenti principali: (1) Coffee, un dataset contenente tracce di modifica del codice degli umani per domande di codifica e feedback scritto dalla macchina per la modifica del codice errato; (2) CoffeeEval, una funzione di ricompensa che riflette fedelmente l'utilità del feedback valutando le prestazioni del codice modificato nei test di unità. Con essi, Coffee-Gym affronta la mancanza di dataset di alta qualità per addestrare modelli di feedback con RL e fornisce ricompense più accurate rispetto al modello di ricompensa SOTA (cioè, GPT-4). Applicando Coffee-Gym, otteniamo modelli di feedback che superano le baselines nel migliorare la modifica del codice degli LLM di codice open-source, rendendoli comparabili con gli LLM di codice closed-source. Mettiamo a disposizione pubblica il dataset e il checkpoint del modello.

10

Le modelli possono apprendere la composizione delle abilità dagli esempi?
Can Models Learn Skill Composition from Examples?

Sep 29
ByHaoyu Zhao, Simran Kaur, Dingli Yu, Anirudh Goyal, Sanjeev Arora
10
2

Con l'avanzare dei modelli linguistici di grandi dimensioni (LLM), la loro capacità di mostrare generalizzazione compositiva - la capacità di combinare abilità apprese in modi nuovi non incontrati durante l'addestramento - ha attirato notevole attenzione. Questo tipo di generalizzazione, in particolare in scenari al di fuori dei dati di addestramento, è anche di grande interesse nello studio della sicurezza e dell'allineamento dell'IA. Uno studio recente ha introdotto la valutazione SKILL-MIX, in cui i modelli sono incaricati di comporre un breve paragrafo che dimostri l'uso di una specifica k-tupla di abilità linguistiche. Mentre i modelli più piccoli hanno faticato a comporre anche con k=3, modelli più grandi come il GPT-4 si sono comportati in modo ragionevolmente buono con k=5 e 6. In questo articolo, utilizziamo un setup simile a SKILL-MIX per valutare la capacità dei modelli più piccoli di apprendere la generalizzazione compositiva dagli esempi. Utilizzando un insieme diversificato di abilità linguistiche - tra cui retorica, letteratura, ragionamento, teoria della mente e buon senso - il GPT-4 è stato utilizzato per generare campioni di testo che mostrano sottoinsiemi casuali di k abilità. Il successivo raffinamento dei modelli con parametri 7B e 13B su questi testi di abilità combinate, per valori crescenti di k, ha rivelato i seguenti risultati: (1) L'addestramento su combinazioni di k=2 e 3 abilità porta a miglioramenti significativi nella capacità di comporre testi con k=4 e 5 abilità, nonostante i modelli non abbiano mai visto tali esempi durante l'addestramento. (2) Quando le categorie di abilità sono divise in gruppi di addestramento e di controllo, i modelli migliorano significativamente nella composizione di testi con abilità di controllo durante i test nonostante abbiano visto solo abilità di addestramento durante il raffinamento, illustrando l'efficacia dell'approccio di addestramento anche con abilità precedentemente non viste. Questo studio suggerisce inoltre che l'incorporazione di testi ricchi di abilità (potenzialmente sintetici) nell'addestramento può notevolmente migliorare le capacità compositive dei modelli.

11

Decomposizione delle domande visive sui modelli di linguaggio multimodali di grandi dimensioni
Visual Question Decomposition on Multimodal Large Language Models

Sep 28
ByHaowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu
9
2

La decomposizione delle domande è emersa come una strategia efficace per sollecitare i Grandi Modelli Linguistici (LLM) a rispondere a domande complesse. Tuttavia, mentre i metodi esistenti si concentrano principalmente sui modelli linguistici unimodali, la capacità di decomposizione delle domande dei Modelli Linguistici Multimodali (MLLM) deve ancora essere esplorata. A questo scopo, questo articolo esplora la decomposizione visuale delle domande sui MLLM. In particolare, introduciamo un quadro di valutazione sistematico che include un insieme di dati e diversi criteri di valutazione per valutare la qualità delle sotto-domande decomposte, rivelando che i MLLM esistenti faticano a produrre sotto-domande di alta qualità. Per affrontare questa limitazione, proponiamo un insieme di dati specifico per il raffinamento, DecoVQA+, per potenziare la capacità di decomposizione delle domande del modello. Con l'obiettivo di consentire ai modelli di eseguire una decomposizione selettiva appropriata, proponiamo un efficiente processo di raffinamento. Il processo di raffinamento consiste nel nostro insieme di dati proposto e in un obiettivo di addestramento per la decomposizione selettiva. I MLLM raffinati dimostrano miglioramenti significativi nella qualità delle sotto-domande e nella politica di decomposizione selettiva delle domande. Inoltre, i modelli raggiungono anche una maggiore precisione con la decomposizione selettiva su insiemi di dati di benchmark VQA.

12

IDEAW: Watermarking Audio Neurale Robusto con Doppia Incorporazione Invertibile
IDEAW: Robust Neural Audio Watermarking with Invertible Dual-Embedding

Sep 29
ByPengcheng Li, Xulong Zhang, Jing Xiao, Jianzong Wang
2
2

La tecnica di watermarking audio incorpora messaggi nell'audio ed estrae con precisione i messaggi dall'audio con watermark. I metodi tradizionali sviluppano algoritmi basati sull'esperienza degli esperti per incorporare watermark nel dominio temporale o nel dominio di trasformazione dei segnali. Con lo sviluppo delle reti neurali profonde, è emerso il watermarking audio neurale basato sull'apprendimento profondo. Rispetto agli algoritmi tradizionali, il watermarking audio neurale raggiunge una maggiore robustezza considerando vari attacchi durante l'addestramento. Tuttavia, i metodi attuali di watermarking neurale soffrono di bassa capacità e impercettibilità insoddisfacente. Inoltre, la questione del posizionamento del watermark, estremamente importante e ancora più evidente nel watermarking audio neurale, non è stata studiata in modo adeguato. In questo articolo, progettiamo un modello di watermarking a doppia incorporazione per un posizionamento efficiente. Consideriamo anche l'impatto dello strato di attacco sulla rete neurale invertibile nell'addestramento alla robustezza, migliorando il modello per potenziare sia la sua coerenza che la sua stabilità. Gli esperimenti mostrano che il modello proposto, IDEAW, può resistere a vari attacchi con maggiore capacità e capacità di posizionamento più efficiente rispetto ai metodi esistenti.

Sep 30
Oct 1
Oct 2