HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

13 papers found

PyramidDrop: Accelerare i Tuoi Grandi Modelli Visione-Linguaggio tramite Riduzione della Redondanza Visiva a Piramide
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

Oct 22

ByLong Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin

Nei grandi modelli di visione-linguaggio (LVLM), le immagini fungono da input che trasportano una grande quantità di informazioni. Come dice il detto "Un'immagine vale più di mille parole", rappresentare un'immagine singola nei LVLM attuali può richiedere centinaia o addirittura migliaia di token. Ciò comporta costi computazionali significativi, che crescono quadraticamente all'aumentare della risoluzione dell'immagine in ingresso, influenzando pesantemente l'efficienza sia dell'addestramento che dell'infereza. Approcci precedenti hanno cercato di ridurre il numero di token dell'immagine prima o all'interno dei primi strati dei LVLM. Tuttavia, queste strategie portano inevitabilmente alla perdita di informazioni cruciali sull'immagine, riducendo infine le prestazioni del modello. Per affrontare questa sfida, conduciamo uno studio empirico che rivela come tutti i token visivi siano necessari per i LVLM nei primi strati, e la ridondanza dei token aumenti progressivamente nei livelli più profondi del modello. A tal fine, proponiamo PyramidDrop, una strategia di riduzione della ridondanza visiva per i LVLM per migliorarne l'efficienza sia nell'addestramento che nell'infereza con una perdita di prestazioni trascurabile. In particolare, suddividiamo il LVLM in diverse fasi e eliminiamo parte dei token dell'immagine alla fine di ciascuna fase con un rapporto predefinito, creando token visivi a forma di piramide attraverso i livelli del modello. L'eliminazione si basa su un calcolo di similarità leggero con un tempo trascurabile. Estesi esperimenti dimostrano che PyramidDrop può ottenere un'accelerazione del tempo di addestramento del 40% e dei FLOPs di inferenza del 55% rispetto a LLaVA-NeXT con prestazioni comparabili. Inoltre, PyramidDrop potrebbe anche fungere da strategia plug-and-play per l'accelerazione dell'infereza senza addestramento, con prestazioni migliori e costi di inferenza inferiori rispetto ai concorrenti. Speriamo che le intuizioni e l'approccio introdotti da PyramidDrop ispirino la ricerca futura a approfondire ulteriormente il ruolo dei token visivi nei LVLM.

SpectroMotion: Ricostruzione dinamica in 3D di scene speculari
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes

Oct 22

ByCheng-De Fan, Chen-Wei Chang, Yi-Ruei Liu, Jie-Ying Lee, Jiun-Long Huang, Yu-Chee Tseng, Yu-Lun Liu

Presentiamo SpectroMotion, un nuovo approccio che combina lo Splatting Gaussiano 3D (3DGS) con il rendering basato sulla fisica (PBR) e campi di deformazione per ricostruire scene speculari dinamiche. I metodi precedenti che estendono il 3DGS per modellare scene dinamiche hanno faticato a rappresentare accuratamente le superfici speculari. Il nostro metodo affronta questa limitazione introducendo una tecnica di correzione residua per il calcolo accurato della normale superficiale durante la deformazione, completata da una mappa ambientale deformabile che si adatta alle condizioni luminose variabili nel tempo. Implementiamo una strategia di addestramento da grezzo a fine che migliora significativamente sia la geometria della scena che la previsione del colore speculare. Dimostriamo che il nostro modello supera i metodi precedenti per la sintesi della vista di scene contenenti oggetti speculari dinamici e che è l'unico metodo 3DGS esistente in grado di sintetizzare scene speculari dinamiche del mondo reale fotorealistiche, superando i metodi all'avanguardia nel rendering di scene complesse, dinamiche e speculari.

Migliorare il Modello Linguistico di Visione per il Ragionamento a Catena del Pensiero.
Improve Vision Language Model Chain-of-thought Reasoning

Oct 21

ByRuohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang

Il ragionamento a catena (CoT) nei modelli di linguaggio visivo (VLM) è cruciale per migliorare l'interpretabilità e l'affidabilità. Tuttavia, le attuali ricette di addestramento mancano di dati robusti per il ragionamento CoT, basandosi su set di dati dominati da brevi annotazioni con spiegazioni minime. In questo lavoro, dimostriamo che addestrare il VLM su brevi risposte non generalizza bene ai compiti di ragionamento che richiedono risposte più dettagliate. Per affrontare questo problema, proponiamo un approccio a due fasi. In primo luogo, estra-iamo spiegazioni dal modello GPT-4o per arricchire i dati di addestramento e perfezionare i VLM, potenziando le loro prestazioni CoT. In secondo luogo, applichiamo il reinforcement learning per calibrare ulteriormente la qualità del ragionamento. In particolare, costruiamo coppie positive (corrette) e negative (errate) di catene di ragionamento generate dal modello, confrontando le loro previsioni con le risposte brevi annotate. Utilizzando questi dati a coppie, applichiamo l'algoritmo di ottimizzazione delle preferenze dirette per perfezionare le capacità di ragionamento del modello. I nostri esperimenti dimostrano miglioramenti significativi nel ragionamento CoT su set di dati di riferimento e una migliore generalizzazione alla previsione diretta delle risposte. Questo lavoro sottolinea l'importanza di incorporare spiegazioni dettagliate nell'addestramento e di sfruttare il reinforcement learning per rafforzare le capacità di ragionamento dei VLM.

Allineare i Grandi Modelli Linguistici tramite Ottimizzazione Auto-Diretta
Aligning Large Language Models via Self-Steering Optimization

Oct 22

ByHao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin

L'allineamento automatizzato sviluppa sistemi di allineamento con minima intervento umano. La chiave dell'allineamento automatizzato risiede nel fornire segnali di preferenza apprendibili e accurati per l'apprendimento delle preferenze senza annotazioni umane. In questo articolo, presentiamo l'ottimizzazione autoguidata (SSO), un algoritmo che genera autonomamente segnali di preferenza di alta qualità basati su principi predefiniti durante l'addestramento iterativo, eliminando la necessità di annotazioni manuali. SSO mantiene l'accuratezza dei segnali garantendo un divario costante tra risposte scelte e respinte mantenendole entrambe in politica per adattarsi alla capacità di apprendimento del modello di politica attuale. SSO può beneficiare dell'addestramento online e offline del modello di politica, nonché migliorare l'addestramento dei modelli di ricompensa. Convalidiamo l'efficacia di SSO con due modelli fondamentali, Qwen2 e Llama3.1, indicando che fornisce segnali di preferenza accurati e in politica durante l'addestramento iterativo. Senza alcuna annotazione manuale o modelli esterni, SSO porta a significativi miglioramenti delle prestazioni su sei benchmark soggettivi o obiettivi. Inoltre, i dati di preferenza generati da SSO hanno notevolmente migliorato le prestazioni del modello di ricompensa su Rewardbench. Il nostro lavoro presenta un approccio scalabile all'ottimizzazione delle preferenze, aprendo la strada a un allineamento automatizzato più efficiente ed efficace.

xGen-MM-Vid (BLIP-3-Video): Ti servono solo 32 token per rappresentare un video anche nei VLM
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

Oct 21

ByMichael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles

Presentiamo xGen-MM-Vid (BLIP-3-Video): un modello linguistico multimodale per video, progettato appositamente per catturare in modo efficiente le informazioni temporali su più fotogrammi. BLIP-3-Video sfrutta l' 'codificatore temporale' oltre al tradizionale tokenizzatore visivo, che mappa una sequenza di token su più fotogrammi in un insieme compatto di token visivi. Ciò consente a BLIP3-Video di utilizzare molti meno token visivi rispetto ai suoi modelli concorrenti (ad esempio, 32 rispetto a 4608 token). Esploriamo diversi tipi di codificatori temporali, tra cui il raggruppamento spazio-temporale apprendibile e modelli sequenziali come le Macchine a Token Turing. Confermiamo sperimentalmente che BLIP-3-Video ottiene accuratezze di domande e risposte video paragonabili a modelli state-of-the-art molto più grandi (ad esempio, 34B), pur essendo molto più piccolo (cioè, 4B) e più efficiente utilizzando meno token visivi. Il sito web del progetto si trova su https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

MiniPLM: Distillazione della Conoscenza per il Pre-Addestramento dei Modelli Linguistici
MiniPLM: Knowledge Distillation for Pre-Training Language Models

Oct 22

ByYuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang

La distillazione della conoscenza (KD) è ampiamente utilizzata per addestrare modelli linguistici (LM) studenti di dimensioni ridotte e ad alte prestazioni utilizzando grandi LM docenti. Sebbene efficace nel fine-tuning, la KD durante la preformazione affronta sfide legate all'efficienza, alla flessibilità e all'efficacia. I metodi esistenti comportano costi computazionali elevati a causa dell'inferenza online del docente, richiedono il matching della tokenizzazione tra LM docente e studente o rischiano di perdere la complessità e la diversità dei dati di addestramento generati dal docente. Per affrontare questi problemi, proponiamo MiniPLM, un framework di KD per la preformazione di LM che affina la distribuzione dei dati di addestramento con la conoscenza del docente. Per l'efficienza, MiniPLM esegue l'inferenza offline del LM docente, consentendo la KD per più LM studenti senza aggiungere costi temporali di addestramento. Per la flessibilità, MiniPLM opera esclusivamente sul corpus di addestramento, consentendo la KD tra famiglie di modelli. Per l'efficacia, MiniPLM sfrutta le differenze tra LM grandi e piccoli per migliorare la complessità e la diversità dei dati di addestramento, aiutando gli LM studenti ad acquisire conoscenze versatili e sofisticate. Esperimenti estesi dimostrano che MiniPLM potenzia le prestazioni degli LM studenti su 9 compiti downstream ampiamente utilizzati, migliora le capacità di modellizzazione del linguaggio e riduce il calcolo della preformazione. Il beneficio di MiniPLM si estende a grandi scale di preformazione, come evidenziato dall'interpolazione delle curve di scalabilità. Ulteriori analisi rivelano che MiniPLM supporta la KD tra famiglie di modelli e migliora l'utilizzo dei dati di preformazione. Il nostro modello, codice e dati sono disponibili su https://github.com/thu-coai/MiniPLM.

Ottimizzazione basata su LLM dei Sistemi AI Compositi: Un'Indagine
LLM-based Optimization of Compound AI Systems: A Survey

Oct 21

ByMatthieu Lin, Jenny Sheng, Andrew Zhao, Shenzhi Wang, Yang Yue, Yiran Wu, Huan Liu, Jun Liu, Gao Huang, Yong-Jin Liu

In un sistema AI composto, componenti come una chiamata LLM, un recuperatore, un interprete di codice o strumenti sono interconnessi. Il comportamento del sistema è principalmente guidato da parametri come istruzioni o definizioni degli strumenti. I recenti progressi consentono l'ottimizzazione end-to-end di questi parametri utilizzando un LLM. In particolare, sfruttare un LLM come ottimizzatore è particolarmente efficiente perché evita il calcolo del gradiente e può generare codice e istruzioni complessi. Questo articolo presenta un'indagine sui principi e sulle tendenze emergenti nell'ottimizzazione basata su LLM dei sistemi AI composti. Copre archetipi dei sistemi AI composti, approcci all'ottimizzazione end-to-end basata su LLM e prospettive su direzioni future e impatti più ampi. È importante notare che questa indagine utilizza concetti dall'analisi dei programmi per fornire una visione unificata di come un ottimizzatore LLM sia sollecitato ad ottimizzare un sistema AI composto. L'elenco esaustivo dell'articolo è disponibile su https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems.

Mitigazione dell'allucinazione degli oggetti tramite attenzione causale concentrica
Mitigating Object Hallucination via Concentric Causal Attention

Oct 21

ByYun Xing, Yiheng Li, Ivan Laptev, Shijian Lu

I recenti Large Vision Language Models (LVLM) presentano notevoli capacità di conversazione e ragionamento zero-shot date le query multimodali. Tuttavia, soffrono di allucinazioni di oggetti, un fenomeno in cui i LVLM sono inclini a generare risposte testuali non allineate ai fatti delle immagini di input. Il nostro studio pilota rivela che l'allucinazione di oggetti è strettamente legata alla Codifica della Posizione Rotativa (RoPE), un design di modellazione delle dipendenze posizionali ampiamente adottato nei LVLM esistenti. A causa del decadimento a lungo termine in RoPE, i LVLM tendono ad allucinare di più quando le indicazioni visive rilevanti sono distanti dai token di istruzione nella sequenza di input multimodale. Inoltre, osserviamo un effetto simile quando si inverte l'ordine sequenziale dei token visivi durante l'allineamento multimodale. I nostri test indicano che il decadimento a lungo termine in RoPE pone sfide ai LVLM nella cattura delle interazioni visivo-istruzione su lunghe distanze. Proponiamo l'Attenzione Causale Concentrica (CCA), una strategia di allineamento posizionale semplice ma efficace che attenua l'impatto del decadimento a lungo termine di RoPE nei LVLM riducendo naturalmente la distanza relativa tra i token visivi e di istruzione. Con CCA, i token visivi possono interagire meglio con i token di istruzione, migliorando così la capacità percettiva del modello e alleviando l'allucinazione di oggetti. Senza fronzoli, il nostro metodo di allineamento posizionale supera di gran lunga le strategie esistenti di mitigazione delle allucinazioni su diversi benchmark di allucinazioni di oggetti.

JMMMU: un benchmark giapponese di comprensione multimodale e multi-disciplinare su larga scala per valutazioni consapevoli della cultura.
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

Oct 22

ByShota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa

Accelerare la ricerca sui Large Multimodal Models (LMM) nelle lingue non inglesi è cruciale per migliorare le esperienze degli utenti in popolazioni più ampie. In questo articolo, presentiamo JMMMU (Japanese MMMU), il primo benchmark giapponese su larga scala progettato per valutare i LMM su compiti di livello esperto basati sul contesto culturale giapponese. Per facilitare una valutazione completa consapevole della cultura, JMMMU presenta due sottoinsiemi complementari: (i) sottoinsieme culture-agnostic (CA), in cui vengono selezionati soggetti indipendenti dalla cultura (ad es. Matematica) e tradotti in giapponese, consentendo un confronto uno a uno con il corrispettivo inglese MMMU; e (ii) sottoinsieme culture-specific (CS), che comprende soggetti appositamente creati che riflettono il contesto culturale giapponese. Utilizzando il sottoinsieme CA, osserviamo una diminuzione delle prestazioni in molti LMM quando valutati in giapponese, attribuibile esclusivamente alla variazione linguistica. Utilizzando il sottoinsieme CS, riveliamo una loro inadeguata comprensione della cultura giapponese. Inoltre, combinando entrambi i sottoinsiemi, identifichiamo che alcuni LMM hanno buone prestazioni nel sottoinsieme CA ma non nel sottoinsieme CS, evidenziando una comprensione superficiale della lingua giapponese che manca di profondità nella comprensione culturale. Speriamo che questo lavoro non solo contribuirà a migliorare le prestazioni dei LMM in giapponese, ma servirà anche come linea guida per creare benchmark culturalmente diversificati di alto livello per lo sviluppo di LMM multilingue. La pagina del progetto è https://mmmu-japanese-benchmark.github.io/JMMMU/.

EvoPress: Verso una Compressione Ottimale dei Modelli Dinamici tramite Ricerca Evolutiva
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search

Oct 18

ByOliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh

I costi computazionali elevati dei grandi modelli linguistici (LLM) hanno portato a un'ampia ricerca sulla compressione dei LLM, tramite metodi come quantizzazione, sparizione o potatura strutturata. Una nuova frontiera in questo ambito è data dai metodi di compressione dinamica e non uniforme, che regolano i livelli di compressione (ad esempio, sparsità) per blocco o addirittura per strato al fine di minimizzare la perdita di accuratezza, garantendo al contempo una soglia di compressione globale. Tuttavia, i metodi attuali si basano su euristiche per identificare l'"importanza" di uno specifico strato verso la perdita, basandosi su assunzioni come la monotonicità dell'errore, cioè che l'errore di compressione del modello end-to-end sia proporzionale alla somma degli errori per strato. In questo articolo, riprendiamo questo ambito e proponiamo un nuovo e generale approccio per la compressione dinamica che è provabilmente ottimale in un determinato intervallo di input. Partiamo dall'osservazione motivante che, in generale, la monotonicità dell'errore non vale per i LLM: modelli compressi con una somma inferiore di errori per strato possono comportarsi peggio rispetto a modelli con somme di errori più elevate. Per affrontare questo problema, proponiamo un nuovo framework evolutivo generale per la compressione dinamica dei LLM chiamato EvoPress, che garantisce una convergenza provabile, e una bassa complessità di campionamento e valutazione. Dimostriamo che queste garanzie teoriche portano a prestazioni pratiche altamente competitive per la compressione dinamica dei modelli Llama, Mistral e Phi. Attraverso EvoPress, otteniamo nuovi risultati all'avanguardia tra tutti gli approcci di compressione: potatura strutturale (rimozione di blocchi/strati), sparsità non strutturata, nonché quantizzazione con larghezze di bit dinamiche. Il nostro codice è disponibile su https://github.com/IST-DASLab/EvoPress.

Neurochirurgia Matematica: Isolare le Capacità di Ragionamento Matematico dei Modelli Linguistici Utilizzando Solo Passaggi in Avanti
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

Oct 22

ByBryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen

Il ragionamento matematico è un'area altamente attiva della ricerca sui Large Language Model (LLM) poiché è un tratto distintivo dell'intelligenza artificiale. Tuttavia, pochi lavori hanno esplorato come il ragionamento matematico sia codificato all'interno dei parametri dei LLM e se sia una competenza che può essere isolata all'interno di un modello. Farlo potrebbe consentire un intervento mirato per migliorare le prestazioni matematiche senza alterare il comportamento non matematico e favorire la comprensione di come i modelli codificano il ragionamento matematico. Introduciamo Math Neurosurgery (MathNeuro), un metodo per isolare i parametri specifici per la matematica nei LLM utilizzando solo passaggi in avanti. MathNeuro si basa su lavori esistenti utilizzando pesi e attivazioni per calcolare l'importanza dei parametri, ma isola i parametri specifici per la matematica rimuovendo quelli importanti per compiti linguistici generali. La potatura dei parametri identificati da MathNeuro elimina la capacità di ragionamento matematico di un LLM senza distruggere la sua capacità linguistica generale. Ridimensionando questi parametri con una costante piccola, si migliora le prestazioni di un LLM preaddestrato o addestrato istruzionalmente del 4-17% su GSM8K lasciando invariato il comportamento non matematico. MathNeuro è anche efficiente nei dati: gran parte della sua efficacia si mantiene quando si identificano i parametri specifici per la matematica utilizzando un singolo campione. MathNeuro evidenzia il potenziale per futuri interventi sui parametri specifici per la matematica.

3DGS-Enhancer: Potenziare lo Splatting Gaussiano 3D Illimitato con Priori di Diffusione 2D Coerenti con la Vista
3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors

Oct 21

ByXi Liu, Chaoyi Zhou, Siyu Huang

La sintesi di viste innovative mira a generare viste innovative di una scena da multiple immagini o video di input, e recenti progressi come lo spruzzamento gaussiano tridimensionale (3DGS) hanno ottenuto notevole successo nella produzione di rendering fotorealistici con pipeline efficienti. Tuttavia, generare viste innovative di alta qualità in contesti sfidanti, come viste di input sparse, rimane difficile a causa di informazioni insufficienti nelle aree sottocampionate, spesso risultando in artefatti evidenti. Questo articolo presenta 3DGS-Enhancer, una nuova pipeline per migliorare la qualità della rappresentazione delle rappresentazioni 3DGS. Sfruttiamo i priori di diffusione video 2D per affrontare il problema della consistenza delle viste 3D, riformulandolo come raggiungimento di una consistenza temporale all'interno di un processo di generazione video. 3DGS-Enhancer ripristina le caratteristiche latenti consistenti con la vista delle viste innovative renderizzate e le integra con le viste di input attraverso un decodificatore spazio-temporale. Le viste migliorate vengono quindi utilizzate per ottimizzare il modello 3DGS iniziale, migliorandone significativamente le prestazioni di rendering. Esperimenti estesi su dataset su larga scala di scene illimitate dimostrano che 3DGS-Enhancer produce prestazioni di ricostruzione superiori e risultati di rendering ad alta fedeltà rispetto ai metodi all'avanguardia. La pagina web del progetto è https://xiliu8006.github.io/3DGS-Enhancer-project.

Frontiere nella Colonscopia Intelligente
Frontiers in Intelligent Colonoscopy

Oct 22

ByGe-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan

La colonscopia è attualmente uno dei metodi di screening più sensibili per il cancro del colon-retto. Questo studio indaga sulle frontiere delle tecniche intelligenti di colonscopia e sulle loro potenziali implicazioni per le applicazioni mediche multimodali. Con questo obiettivo, iniziamo valutando i paesaggi attuali centrati sui dati e sui modelli attraverso quattro compiti per la percezione della scena colonoscopica, tra cui classificazione, rilevamento, segmentazione e comprensione visione-linguaggio. Questa valutazione ci permette di individuare sfide specifiche del settore e rivela che la ricerca multimodale in colonscopia rimane aperta a ulteriori esplorazioni. Per abbracciare l'era multimodale imminente, istituiamo tre iniziative fondamentali: un ampio dataset di sintonizzazione multimodale delle istruzioni ColonINST, un modello linguistico multimodale progettato per la colonscopia ColonGPT e un benchmark multimodale. Per agevolare il monitoraggio continuo di questo campo in rapida evoluzione, mettiamo a disposizione un sito web pubblico per gli ultimi aggiornamenti: https://github.com/ai4colonoscopy/IntelliScope.

PyramidDrop: Accelerare i Tuoi Grandi Modelli Visione-Linguaggio tramite Riduzione della Redondanza Visiva a Piramide
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

Oct 22

ByLong Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin