ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

1

Istruzioni Esplicative: Verso la Comprensione delle Attività di Visione Unificata e la Generalizzazione a Zero-shot
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

Dec 24
ByYang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding
75
2

La Computer Vision (CV) deve ancora raggiungere pienamente la generalizzazione del compito zero-shot osservata nel Natural Language Processing (NLP), nonostante segua molti dei traguardi stabiliti nel NLP, come i grandi modelli trasformatore, l'ampia preformazione e il paradigma dell'autoregressione, tra gli altri. In questo articolo, esploriamo l'idea che la CV adotti definizioni di compiti discrete e terminologiche (ad esempio, "segmentazione dell'immagine"), che potrebbero rappresentare un ostacolo chiave alla generalizzazione del compito zero-shot. La nostra ipotesi è che senza comprendere veramente i compiti precedentemente visti - a causa di queste definizioni terminologiche - i modelli profondi faticano a generalizzare a compiti nuovi. Per verificare ciò, introduciamo le Istruzioni Esplicative, che forniscono un modo intuitivo per definire gli obiettivi del compito di CV attraverso dettagliate trasformazioni linguistiche dalle immagini di input alle uscite. Creiamo un dataset su larga scala composto da 12 milioni di triplette "input dell'immagine alle istruzioni esplicative all'output" e addestriamo un modello visione-linguaggio basato sull'autoregressione (VLM basato su AR) che prende sia immagini che istruzioni esplicative come input. Imparando a seguire queste istruzioni, il VLM basato su AR raggiunge capacità zero-shot a livello di istruzione per compiti precedentemente visti e dimostra una forte generalizzazione zero-shot per compiti di CV non visti. Il codice e il dataset saranno disponibili apertamente sul nostro repository GitHub.

2

Sulla Generalizzazione Composizionale dei Modelli di Linguaggio Multimodali per l'Imaging Medico
On the Compositional Generalization of Multimodal LLMs for Medical Imaging

Dec 28
ByZhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
45
4

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno un notevole potenziale nel campo medico, ma le loro capacità sono spesso limitate da dati insufficienti in determinati ambiti medici, evidenziando la necessità di comprendere quali tipi di immagini possono essere utilizzati dai MLLM per la generalizzazione. La ricerca attuale suggerisce che l'addestramento multi-task supera quello single-task poiché diversi compiti possono beneficiare reciprocamente, ma spesso trascurano le relazioni interne all'interno di tali compiti, fornendo indicazioni limitate sulla selezione di set di dati per potenziare compiti specifici. Per analizzare questo fenomeno, abbiamo cercato di impiegare la generalizzazione compositiva (CG) - la capacità dei modelli di comprendere combinazioni nuove ricombinando elementi appresi - come quadro guida. Poiché le immagini mediche possono essere definite precisamente per Modalità, Area anatomica e Compito, offrendo naturalmente un ambiente per esplorare la CG. Pertanto, abbiamo assemblato 106 set di dati medici per creare Med-MAT per esperimenti esaustivi. Gli esperimenti hanno confermato che i MLLM possono utilizzare la CG per comprendere immagini mediche non viste e hanno identificato la CG come uno dei principali motori della generalizzazione osservata nell'addestramento multi-task. Inoltre, ulteriori studi hanno dimostrato che la CG supporta efficacemente set di dati con dati limitati e fornisce prestazioni coerenti su diverse strutture di base, evidenziandone la versatilità e ampia applicabilità. Med-MAT è disponibile pubblicamente su https://github.com/FreedomIntelligence/Med-MAT.

3

Servire efficientemente i programmi di ragionamento LLM con Certaindex.
Efficiently Serving LLM Reasoning Programs with Certaindex

Dec 30
ByYichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang
37
2

La rapida evoluzione dei grandi modelli linguistici (LLM) ha sbloccato le loro capacità in compiti avanzati di ragionamento come la risoluzione di problemi matematici, la generazione di codice e l'analisi legale. Al centro di questo progresso ci sono gli algoritmi di ragionamento in tempo di inferenza, che perfezionano gli output esplorando più percorsi di soluzione, a discapito dell'aumento delle richieste computazionali e delle latenze di risposta. I sistemi di servizio esistenti non riescono ad adattarsi ai comportamenti di scalabilità di questi algoritmi o alla variazione della complessità delle query, portando a un uso inefficiente delle risorse e al mancato raggiungimento degli obiettivi di latenza. Presentiamo Dynasor, un sistema che ottimizza il calcolo in tempo di inferenza per le query di ragionamento dei LLM. A differenza dei motori tradizionali, Dynasor tiene traccia e pianifica le richieste all'interno delle query di ragionamento e utilizza Certaindex, un proxy che misura il progresso del ragionamento statistico basato sulla certezza del modello, per guidare dinamicamente l'allocazione computazionale. Dynasor adatta congiuntamente la pianificazione al progresso del ragionamento: assegna più calcolo alle query difficili, riduce il calcolo per quelle più semplici e termina precocemente le query non promettenti, bilanciando precisione, latenza e costo. Su dataset e algoritmi diversi, Dynasor riduce il calcolo fino al 50% nel processamento batch e mantiene tassi di query fino a 3,3 volte più elevati o obiettivi di latenza fino a 4,7 volte più stringenti nel servizio online.

4

Edicho: Modifica Coerente delle Immagini in Ambiente Naturale
Edicho: Consistent Image Editing in the Wild

Dec 30
ByQingyan Bai, Hao Ouyang, Yinghao Xu, Qiuyu Wang, Ceyuan Yang, Ka Leong Cheng, Yujun Shen, Qifeng Chen
23
2

Come necessità verificata, la modifica coerente delle immagini in condizioni reali rimane una sfida tecnica derivante da vari fattori incontrollabili, come pose degli oggetti, condizioni di illuminazione e ambienti fotografici. Edicho interviene con una soluzione senza addestramento basata su modelli di diffusione, che presenta un principio di progettazione fondamentale nell'utilizzo di corrispondenze esplicite delle immagini per guidare la modifica. In particolare, i componenti chiave includono un modulo di manipolazione dell'attenzione e una strategia di denoising senza classificatore (CFG) attentamente raffinata, entrambi considerano la corrispondenza pre-stimata. Tale algoritmo a tempo di inferenza gode di una natura plug-and-play ed è compatibile con la maggior parte dei metodi di modifica basati sulla diffusione, come ControlNet e BrushNet. Risultati estesi dimostrano l'efficacia di Edicho nella modifica coerente tra immagini in diverse configurazioni. Rilasceremo il codice per facilitare futuri studi.

5

PERSE: Avatar generativi 3D personalizzati da un singolo ritratto
PERSE: Personalized 3D Generative Avatars from A Single Portrait

Dec 30
ByHyunsoo Cha, Inhee Lee, Hanbyul Joo
20
3

Presentiamo PERSE, un metodo per creare un avatar generativo personalizzato e animabile da un ritratto di riferimento. Il nostro modello di avatar consente la modifica degli attributi facciali in uno spazio latente continuo e disentangled per controllare ciascun attributo facciale, preservando al contempo l'identità dell'individuo. Per raggiungere questo obiettivo, il nostro metodo inizia sintetizzando dataset video 2D sintetici su larga scala, in cui ciascun video contiene cambiamenti coerenti nell'espressione facciale e nel punto di vista, combinati con una variazione in un attributo facciale specifico rispetto all'input originale. Proponiamo un nuovo processo per produrre video 2D fotorealistici di alta qualità con modifica degli attributi facciali. Sfruttando questo dataset sintetico di attributi, presentiamo un metodo di creazione di avatar personalizzati basato sul Gaussian Splatting 3D, apprendendo uno spazio latente continuo e disentangled per la manipolazione intuitiva degli attributi facciali. Per garantire transizioni fluide in questo spazio latente, introduciamo una tecnica di regolarizzazione dello spazio latente utilizzando volti 2D interpolati come supervisione. Rispetto agli approcci precedenti, dimostriamo che PERSE genera avatar di alta qualità con attributi interpolati preservando l'identità della persona di riferimento.

6

Agevolare l'adattamento in lingua russa di grandi modelli linguistici con la Propagazione degli Embedding Appresa
Facilitating large language model Russian adaptation with Learned Embedding Propagation

Dec 30
ByMikhail Tikhomirov, Daniil Chernyshev
18
2

I rapidi progressi delle tecnologie dei grandi modelli linguistici (LLM) hanno portato all'introduzione di potenti LLM open-source sintonizzati sull'istruzione che presentano la stessa qualità di generazione di testo dei controparti all'avanguardia come il GPT-4. Mentre l'emergere di tali modelli accelera l'adozione delle tecnologie LLM in ambienti sensibili alle informazioni, gli autori di tali modelli non divulghino i dati di addestramento necessari per replicare i risultati, rendendo così gli achievement esclusivi del modello. Poiché tali modelli open-source sono anche multilingue, ciò riduce a sua volta i vantaggi dell'addestramento di LLM specifici per una lingua poiché l'efficienza migliorata del calcolo dell'inferenza diventa l'unico vantaggio garantito di tale costosa procedura. Opzioni più economiche come l'estensione del vocabolario e il successivo continuo pre-addestramento sono anche ostacolate dalla mancanza di accesso a dati di sintonizzazione dell'istruzione di alta qualità poiché è il principale fattore dietro le capacità di risoluzione dei compiti dei LLM risultanti. Per affrontare le limitazioni e ridurre i costi del processo di adattamento linguistico, proponiamo la Propagazione dell'Incorporamento Appreso (LEP). A differenza degli approcci esistenti, il nostro metodo ha requisiti di dimensioni minori per i dati di addestramento a causa dell'impatto minimo sulle conoscenze LLM esistenti che rafforziamo utilizzando una procedura di propagazione dell'incorporamento ad hoc che consente di saltare il passaggio di sintonizzazione dell'istruzione e invece impiantare direttamente le nuove conoscenze linguistiche in qualsiasi variante LLM esistente sintonizzata sull'istruzione. Abbiamo valutato quattro adattamenti del vocabolario russo per LLaMa-3-8B e Mistral-7B, dimostrando che LEP è competitivo con i metodi tradizionali di sintonizzazione dell'istruzione, raggiungendo prestazioni paragonabili a OpenChat 3.5 e LLaMa-3-8B-Instruct, con ulteriori miglioramenti tramite auto-calibrazione e sintonizzazione continua che potenziano le capacità di risoluzione dei compiti.

7

OneKE: Un sistema di estrazione di conoscenza basato su agenti LLM guidati da schema, dockerizzato.
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

Dec 28
ByYujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen
17
2

Introduciamo OneKE, un sistema di estrazione di conoscenza guidato dallo schema dockerizzato, in grado di estrarre conoscenza dal Web e da libri in formato PDF grezzi, e supportare vari domini (scienza, notizie, ecc.). In particolare, progettiamo OneKE con diversi agenti e una base di conoscenza configurabile. Agenti diversi svolgono i rispettivi ruoli, consentendo il supporto per vari scenari di estrazione. La base di conoscenza configurabile facilita la configurazione dello schema, il debug e la correzione dei casi di errore, migliorando ulteriormente le prestazioni. Valutazioni empiriche su set di dati di benchmark dimostrano l'efficacia di OneKE, mentre studi di caso chiariscono ulteriormente la sua adattabilità a compiti diversi in vari domini, evidenziando il suo potenziale per ampie applicazioni. Abbiamo reso open source il codice su https://github.com/zjunlp/OneKE e pubblicato un video su http://oneke.openkg.cn/demo.mp4.

8

Percezione Lenta: Percepiamo le Figure Geometriche Passo dopo Passo
Slow Perception: Let's Perceive Geometric Figures Step-by-step

Dec 30
ByHaoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang
16
2

Recentemente, "visual o1" ha iniziato ad entrare nel campo visivo delle persone, con l'aspettativa che questo design a pensiero lento possa risolvere compiti di ragionamento visivo, specialmente problemi matematici geometrici. Tuttavia, la realtà è che attualmente i LVLM (Large Vision Language Models) difficilmente riescono ad copiare accuratamente una figura geometrica, figuriamoci comprendere veramente la complessa logica intrinseca e le relazioni spaziali all'interno delle forme geometriche. Noi crediamo che la copia accurata (forte percezione) sia il primo passo per il visual o1. Di conseguenza, introduciamo il concetto di "percezione lenta" (SP), che guida il modello a percepire gradualmente le combinazioni punto-linea di base, così come fanno gli esseri umani, ricostruendo progressivamente strutture geometriche complesse. La SP si articola in due fasi: a) decomposizione della percezione. La percezione non è istantanea. In questa fase, le figure geometriche complesse vengono scomposte in unità semplici di base per unificare la rappresentazione geometrica. b) flusso di percezione, che riconosce che tracciare accuratamente una linea non è un compito facile. Questa fase mira ad evitare "salti visivi lunghi" nel retrocedere segmenti di linea utilizzando un "righello percettivo" proposto per tracciare ogni linea colpo dopo colpo. Sorprendentemente, un tale modo di percepire simile a quello umano gode di una legge di scalabilità del tempo di inferenza: più lento è meglio è. I ricercatori hanno cercato di velocizzare la percezione del modello in passato, ma ora la rallentiamo di nuovo, permettendo al modello di leggere l'immagine passo dopo passo e con attenzione.

9

HumanEval Pro e MBPP Pro: Valutazione dei Grandi Modelli Linguistici sulla Generazione di Codice Autoinvocante
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Dec 30
ByZhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
14
3

Introduciamo la generazione di codice autoinvocante, un nuovo compito progettato per valutare le capacità di ragionamento progressivo e risoluzione dei problemi dei LLM. In questo compito, ai modelli vengono presentati un problema di base e un problema più complesso correlato. Devono risolvere il problema di base e poi utilizzare la sua soluzione per affrontare quello più complesso. Questo lavoro presenta tre contributi chiave. In primo luogo, proponiamo una ricetta generale per generare versioni più impegnative di benchmark esistenti, che ha portato alla creazione di tre nuovi benchmark: HumanEval Pro, MBPP Pro e BigCodeBench-Lite Pro, appositamente progettati per valutare i LLM nella generazione di codice autoinvocante. In secondo luogo, dall'analisi dei risultati sperimentali su oltre venti LLM sui nostri benchmark, abbiamo due osservazioni importanti: (i) La maggior parte dei LLM eccellono nei benchmark tradizionali di generazione di codice come HumanEval e MBPP, ma le loro prestazioni diminuiscono nei compiti autoinvocanti. Ad esempio, o1-mini ottiene il 96,2% di passaggio@1 su HumanEval, ma solo il 76,2% su HumanEval Pro. (ii) Nel compito di generazione di codice autoinvocante, i modelli ottimizzati per le istruzioni mostrano solo miglioramenti marginali rispetto ai modelli di base. In terzo luogo, riveliamo i tipi di modalità di fallimento presenti nei risultati della nostra valutazione. Tutti questi risultati sottolineano la necessità di ulteriori progressi nei compiti di generazione di codice autoinvocante e indicano una nuova direzione per futuri studi sull'ottimizzazione delle capacità di ragionamento del codice dei LLM.

Dec 30
Dec 31
Jan 1