ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

1

Emu3: La Predizione del Prossimo Token è Tutto ciò di cui Hai Bisogno
Emu3: Next-Token Prediction is All You Need

Sep 27
ByXinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang
95
9

Sebbene la previsione del token successivo sia considerata una via promettente verso l'intelligenza artificiale generale, ha faticato a eccellere nelle attività multimodali, ancora dominate dai modelli a diffusione (ad esempio, Diffusione Stabile) e dagli approcci compositi (ad esempio, CLIP combinato con LLM). In questo articolo, presentiamo Emu3, una nuova serie di modelli multimodali all'avanguardia addestrati esclusivamente con la previsione del token successivo. Tokenizzando immagini, testi e video in uno spazio discreto, addestriamo un singolo trasformatore da zero su una miscela di sequenze multimodali. Emu3 supera diversi modelli specifici per compiti ben consolidati sia nei compiti di generazione che di percezione, superando modelli di punta come SDXL e LLaVA-1.6, eliminando al contempo la necessità di architetture di diffusione o compositive. Emu3 è in grado anche di generare video ad alta fedeltà prevedendo il token successivo in una sequenza video. Semplifichiamo i progetti di modelli multimodali complessi concentrandoci su un singolo obiettivo: i token, sbloccando un grande potenziale per la scalabilità sia durante l'addestramento che nell'inferenza. I nostri risultati dimostrano che la previsione del token successivo è una via promettente per costruire un'intelligenza multimodale generale al di là del linguaggio. Mettiamo a disposizione in open source tecniche e modelli chiave per sostenere ulteriori ricerche in questa direzione.

2

MIO: Un Modello Fondamentale sui Token Multimodali
MIO: A Foundation Model on Multimodal Tokens

Sep 26
ByZekun Wang, King Zhu, Chunpu Xu, Wangchunshu Zhou, Jiaheng Liu, Yibo Zhang, Jiashuo Wang, Ning Shi, Siyu Li, Yizhi Li, Haoran Que, Zhaoxiang Zhang, Yuanxing Zhang, Ge Zhang, Ke Xu, Jie Fu, Wenhao Huang
53
4

In questo articolo, presentiamo MIO, un nuovo modello fondamentale basato su token multimodali, in grado di comprendere e generare discorsi, testi, immagini e video in modo end-to-end, autoregressivo. Sebbene l'emergere di grandi modelli linguistici (LLM) e di grandi modelli linguistici multimodali (MM-LLM) spinga gli avanzamenti nell'intelligenza artificiale generale attraverso le loro capacità versatili, mancano ancora di una vera comprensione e generazione any-to-any. Recentemente, il rilascio di GPT-4o ha mostrato il notevole potenziale dei LLM any-to-any per compiti reali complessi, consentendo un input e un output omnidirezionali attraverso immagini, discorsi e testi. Tuttavia, è closed-source e non supporta la generazione di sequenze multimodali interlacciate. Per affrontare questa lacuna, presentiamo MIO, che è addestrato su una miscela di token discreti attraverso quattro modalità utilizzando la modellazione multimodale causale. MIO passa attraverso un processo di addestramento a quattro fasi: (1) pre-addestramento dell'allineamento, (2) pre-addestramento interlacciato, (3) pre-addestramento potenziato dal discorso e (4) un'esaustiva messa a punto supervisionata su varie attività testuali, visive e di discorso. I nostri risultati sperimentali indicano che MIO mostra prestazioni competitive e, in alcuni casi, superiori rispetto ai precedenti baselines dual-modal, baselines any-to-any e persino baselines specifici della modalità. Inoltre, MIO dimostra capacità avanzate intrinseche alla sua funzionalità any-to-any, come la generazione video-testo interlacciata, il ragionamento a catena del pensiero visivo, la generazione di linee guida visive, la modifica di immagini istruttive, ecc.

3

Un'indagine sull'onestà dei grandi modelli linguistici
A Survey on the Honesty of Large Language Models

Sep 27
BySiheng Li, Cheng Yang, Taiqiang Wu, Chufan Shi, Yuji Zhang, Xinyu Zhu, Zesen Cheng, Deng Cai, Mo Yu, Lemao Liu, Jie Zhou, Yujiu Yang, Ngai Wong, Xixin Wu, Wai Lam
32
3

L'onestà è un principio fondamentale per allineare i grandi modelli linguistici (LLM) con i valori umani, richiedendo a questi modelli di riconoscere ciò che sanno e non sanno e di essere in grado di esprimere fedelmente le loro conoscenze. Nonostante le promesse, i LLM attuali mostrano ancora comportamenti significativamente disonesti, come presentare con sicurezza risposte sbagliate o non riuscire a esprimere ciò che sanno. Inoltre, la ricerca sull'onestà dei LLM affronta sfide, tra cui definizioni variabili di onestà, difficoltà nel distinguere tra conoscenze note e sconosciute e una mancanza di comprensione esaustiva della ricerca correlata. Per affrontare questi problemi, forniamo un'indagine sull'onestà dei LLM, che copre la sua chiarificazione, gli approcci di valutazione e le strategie per il miglioramento. Inoltre, offriamo spunti per la ricerca futura, con l'obiettivo di ispirare ulteriori esplorazioni in questo importante settore.

4

MinerU: Una Soluzione Open-Source per l'Estrazione Precisa dei Contenuti dei Documenti
MinerU: An Open-Source Solution for Precise Document Content Extraction

Sep 27
ByBin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He
28
4

L'analisi dei contenuti dei documenti è stata un'area di ricerca cruciale nell'ambito della visione artificiale. Nonostante significativi progressi nei metodi come OCR, rilevamento del layout e riconoscimento delle formule, le soluzioni open-source esistenti faticano a fornire in modo coerente un'estrazione di contenuti di alta qualità a causa della diversità nei tipi di documenti e nei contenuti. Per affrontare queste sfide, presentiamo MinerU, una soluzione open-source per l'estrazione di contenuti di documenti ad alta precisione. MinerU sfrutta i sofisticati modelli di PDF-Extract-Kit per estrarre contenuti da documenti diversi in modo efficace e utilizza regole di pre-elaborazione e post-elaborazione accuratamente tarate per garantire l'accuratezza dei risultati finali. I risultati sperimentali dimostrano che MinerU raggiunge in modo coerente alte prestazioni su vari tipi di documenti, migliorando significativamente la qualità e la coerenza dell'estrazione dei contenuti. Il progetto open-source MinerU è disponibile su https://github.com/opendatalab/MinerU.

5

VPTQ: Quantizzazione post-addestramento estremamente a basso bit per modelli linguistici di grandi dimensioni
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models

Sep 25
ByYifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang
28
4

L'ingrandimento della dimensione del modello rappresenta una sfida significativa per la distribuzione e l'elaborazione di Grandi Modelli Linguistici (LLM). A causa della ridondanza nei pesi dei LLM, recenti ricerche si sono concentrate sulla quantizzazione basata esclusivamente sui pesi fino a un numero estremamente basso di bit (anche fino a 2 bit). Ciò riduce i requisiti di memoria, ottimizza i costi di archiviazione e riduce le esigenze di larghezza di banda della memoria durante l'elaborazione. Tuttavia, a causa delle limitazioni della rappresentazione numerica, la quantizzazione tradizionale basata su scalari lotta per raggiungere un numero così basso di bit. Recenti ricerche sulla Quantizzazione Vettoriale (VQ) per i LLM hanno dimostrato il potenziale di quantizzazione del modello a basso numero di bit comprimendo vettori in indici utilizzando tabelle di ricerca. In questo articolo, presentiamo la Quantizzazione Post-Training Vettoriale (VPTQ) per la quantizzazione a basso numero di bit estremamente dei LLM. Utilizziamo Ottimizzazione di Secondo Ordine per formulare il problema VQ dei LLM e guidare la progettazione del nostro algoritmo di quantizzazione risolvendo l'ottimizzazione. Perfezioniamo ulteriormente i pesi utilizzando l'Ottimizzazione di Secondo Ordine Indipendente dal Canale per una VQ granulare. Inoltre, decomponendo il problema di ottimizzazione, proponiamo un algoritmo di inizializzazione del codebook breve ed efficace. Estendiamo inoltre il VPTQ per supportare la quantizzazione residua e degli outlier, che migliorano la precisione del modello e comprimono ulteriormente il modello. I nostri risultati sperimentali mostrano che il VPTQ riduce la perplessità della quantizzazione del modello di 0,01-0,34 su LLaMA-2, 0,38-0,68 su Mistral-7B, 4,41-7,34 su LLaMA-3 rispetto a SOTA a 2 bit, con un miglioramento medio dell'accuratezza del 0,79-1,5% su LLaMA-2, 1% su Mistral-7B, 11-22% su LLaMA-3 nei compiti di QA in media. Utilizziamo solo il 10,4-18,6% del tempo di esecuzione dell'algoritmo di quantizzazione, ottenendo un aumento del throughput di elaborazione di 1,6-1,8 volte rispetto a SOTA.

6

PhysGen: Generazione di video da immagini basata sulla fisica dei corpi rigidi
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

Sep 27
ByShaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang
27
2

Presentiamo PhysGen, un nuovo metodo di generazione di video da immagine che converte una singola immagine e una condizione di input (ad esempio, forza e coppia applicate a un oggetto nell'immagine) per produrre un video realistico, fisicamente plausibile e temporalmente coerente. La nostra intuizione chiave è integrare la simulazione fisica basata su modelli con un processo di generazione video basato sui dati, consentendo dinamiche plausibili nello spazio delle immagini. Al cuore del nostro sistema ci sono tre componenti principali: (i) un modulo di comprensione dell'immagine che cattura efficacemente la geometria, i materiali e i parametri fisici dell'immagine; (ii) un modello di simulazione delle dinamiche nello spazio delle immagini che utilizza la fisica dei corpi rigidi e i parametri inferiti per simulare comportamenti realistici; e (iii) un modulo di rendering e perfezionamento basato sull'immagine che sfrutta la diffusione video generativa per produrre sequenze video realistiche con il movimento simulato. I video risultanti sono realistici sia dal punto di vista fisico che estetico e sono addirittura precisamente controllabili, mostrando risultati superiori rispetto ai lavori esistenti di generazione di video da immagine basati sui dati attraverso confronti quantitativi e uno studio utente completo. I video risultanti di PhysGen possono essere utilizzati per varie applicazioni successive, come trasformare un'immagine in un'animazione realistica o consentire agli utenti di interagire con l'immagine e creare varie dinamiche. Pagina del progetto: https://stevenlsw.github.io/physgen/

7

Ottimizzazione delle Preferenze delle Interventi Modulati (MIPO): Mantenere il Facile, Migliorare il Difficile
Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult

Sep 26
ByCheolhun Jang
20
5

I metodi di ottimizzazione delle preferenze in genere iniziano l'addestramento con un modello SFT ben addestrato come modello di riferimento. In RLHF e DPO, durante il processo di ottimizzazione delle preferenze viene utilizzato un termine di regolarizzazione per evitare che il modello di policy si discosti troppo dalla distribuzione del modello di riferimento, evitando così la generazione di risposte anomale. Quando il modello di riferimento è già ben allineato con i dati forniti o richiede solo lievi aggiustamenti, questo approccio può produrre un modello ben allineato. Tuttavia, se il modello di riferimento non è allineato con i dati forniti e richiede una deviazione significativa dal suo stato attuale, un termine di regolarizzazione potrebbe effettivamente ostacolare l'allineamento del modello. In questo studio, proponiamo l'Ottimizzazione delle Preferenze con Intervento Modulato (MIPO) per affrontare questo problema. MIPO modula il grado di intervento dal modello di riferimento in base a quanto i dati forniti siano allineati con esso. Se i dati sono ben allineati, l'intervento viene aumentato per evitare che il modello di policy si discosti significativamente dal modello di riferimento. Al contrario, se l'allineamento è scarso, l'interferenza viene ridotta per facilitare un addestramento più esteso. Confrontiamo le prestazioni di MIPO e DPO utilizzando Mistral-7B e Llama3-8B in Alpaca Eval 2.0 e MT-Bench. I risultati sperimentali dimostrano che MIPO supera costantemente DPO in vari scenari di valutazione.

8

MSI-Agent: Integrazione dell'Approccio Multi-Scala negli Agenti Incarnati per una Pianificazione e una Presa di Decisioni Superiori
MSI-Agent: Incorporating Multi-Scale Insight into Embodied Agents for Superior Planning and Decision-Making

Sep 25
ByDayuan Fu, Biqing Qi, Yihuai Gao, Che Jiang, Guanting Dong, Bowen Zhou
10
2

La memoria a lungo termine è significativa per gli agenti, in cui le intuizioni svolgono un ruolo cruciale. Tuttavia, l'emergere di intuizioni non rilevanti e la mancanza di intuizioni generali possono compromettere notevolmente l'efficacia delle intuizioni. Per risolvere questo problema, in questo articolo presentiamo il Multi-Scale Insight Agent (MSI-Agent), un agente incorporato progettato per migliorare la capacità di pianificazione e decisione degli LLMs mediante la sintesi e l'utilizzo efficace delle intuizioni attraverso diverse scale. MSI raggiunge questo obiettivo attraverso il selettore di esperienze, il generatore di intuizioni e il selettore di intuizioni. Sfruttando un pipeline a tre parti, MSI può generare intuizioni specifiche per compiti e di alto livello, memorizzarle in un database e quindi utilizzare le intuizioni rilevanti per aiutare nella presa di decisioni. I nostri esperimenti mostrano che MSI supera un'altra strategia di intuizione nella pianificazione da parte di GPT3.5. Inoltre, approfondiamo le strategie per la selezione di esperienze iniziali e intuizioni, mirando a fornire agli LLM intuizioni più utili e pertinenti per una migliore presa di decisioni. Le nostre osservazioni indicano anche che MSI mostra una maggiore robustezza di fronte a scenari di cambiamento di dominio.

9

LML: Apprendimento del Modello Linguistico su un Dataset per la Predizione Potenziata dai Dati
LML: Language Model Learning a Dataset for Data-Augmented Prediction

Sep 27
ByPraneeth Vadlapati
10
3

Questo articolo introduce un nuovo approccio all'utilizzo di Grandi Modelli Linguistici (GML) per compiti di classificazione, che vengono tipicamente gestiti utilizzando modelli di Apprendimento Automatico (AA). A differenza dei modelli di AA che si basano pesantemente sulla pulizia dei dati e sull'ingegneria delle caratteristiche, questo metodo semplifica il processo utilizzando i GML. Questo articolo propone un nuovo concetto chiamato "Apprendimento del Modello Linguistico (LML)" alimentato da un nuovo metodo chiamato "Predizione con Dati Aggiunti (DAP)". La classificazione viene eseguita dai GML utilizzando un metodo simile a quello in cui gli esseri umani esplorano manualmente e comprendono i dati e decidono le classificazioni utilizzando i dati come riferimento. I dati di addestramento vengono riassunti e valutati per determinare le caratteristiche che portano alla classificazione di ciascuna etichetta nel modo più efficace. Nel processo di DAP, il sistema utilizza il riassunto dei dati per creare automaticamente una query, che viene utilizzata per recuperare righe rilevanti dal dataset. Una classificazione viene generata dai GML utilizzando il riassunto dei dati e le righe rilevanti, garantendo un'accuratezza soddisfacente anche con dati complessi. L'utilizzo del riassunto dei dati e di dati simili in DAP garantisce una presa di decisioni consapevole del contesto. Il metodo proposto utilizza le parole "Agire come un Modello di Apprendimento Automatico Esplicabile" nel prompt per migliorare l'interpretabilità delle previsioni consentendo agli utenti di esaminare la logica dietro ciascuna previsione. In alcuni casi di test, il sistema ha ottenuto un'accuratezza superiore al 90%, dimostrando l'efficacia del sistema e il suo potenziale per superare i modelli di AA convenzionali in vari scenari. Il codice è disponibile su https://github.com/Pro-GenAI/LML-DAP

10

HDFlow: Potenziare la Risoluzione di Problemi Complessi LLM con Pensiero Ibrido e Flussi di Lavoro Dinamici
HDFlow: Enhancing LLM Complex Problem-Solving with Hybrid Thinking and Dynamic Workflows

Sep 25
ByWenlin Yao, Haitao Mi, Dong Yu
9
2

Nonostante i recenti progressi nei modelli linguistici di grandi dimensioni (LLM), le loro prestazioni su problemi di ragionamento complessi che richiedono pensiero a più passaggi e combinazione di varie abilità sono ancora limitate. Per affrontare ciò, proponiamo un nuovo framework HDFlow per il ragionamento complesso con LLM che combina modalità di pensiero veloce e lento in modo adattivo. Il nostro approccio è composto da due componenti chiave: 1) un nuovo approccio per il ragionamento lento e deliberato chiamato Flusso Dinamico, che scompone automaticamente problemi complessi in sotto-task più gestibili e progetta dinamicamente un flusso di lavoro per assemblare strumenti LLM specializzati o di ragionamento simbolico per risolvere i sotto-task; 2) Pensiero Ibrido, un framework generale che combina in modo dinamico pensiero veloce e lento in base alla complessità del problema. Infine, proponiamo un metodo facile da scalare per la sintesi automatica di un dataset su larga scala di 27K problemi di ragionamento impegnativi per il ragionamento complesso e un metodo di sintonizzazione del pensiero ibrido che addestra LLM più piccoli su questo dataset per interiorizzare le strategie di ragionamento ibrido veloce/lento. Gli esperimenti su quattro dataset di benchmark di ragionamento dimostrano che il nostro pensiero lento con flussi di lavoro dinamici supera significativamente Chain-of-Thought, e il pensiero ibrido raggiunge la massima accuratezza fornendo un efficace equilibrio tra efficienza computazionale e prestazioni. Il raffinamento utilizzando il nostro approccio di pensiero ibrido potenzia significativamente le capacità di ragionamento complesso dei modelli linguistici open-source. I risultati mostrano la promessa del pensiero lento, dei flussi di lavoro dinamici e del pensiero ibrido nell'espandere il fronte della risoluzione di problemi complessi con LLM. Il codice e i dati saranno rilasciati su \url{https://github.com/wenlinyao/HDFlow.}

Sep 27
Sep 30
Oct 1