ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

1

Verso la Comprensione dei Movimenti della Fotocamera in Qualsiasi Video
Towards Understanding Camera Motions in Any Video

Apr 21
ByZhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan
158
3

Presentiamo CameraBench, un dataset su larga scala e un benchmark progettato per valutare e migliorare la comprensione del movimento della telecamera. CameraBench è composto da circa 3.000 video eterogenei provenienti da internet, annotati da esperti attraverso un rigoroso processo di controllo qualità in più fasi. Uno dei nostri contributi è una tassonomia dei movimenti primitivi della telecamera, sviluppata in collaborazione con cinematografi. Scopriamo, ad esempio, che alcuni movimenti come il "follow" (o inseguimento) richiedono la comprensione del contenuto della scena, come i soggetti in movimento. Abbiamo condotto uno studio su larga scala con partecipanti umani per quantificare le prestazioni delle annotazioni, rivelando che l'esperienza nel dominio e la formazione basata su tutorial possono migliorare significativamente l'accuratezza. Ad esempio, un principiante potrebbe confondere lo zoom-in (un cambiamento dei parametri intrinseci) con una traslazione in avanti (un cambiamento dei parametri estrinseci), ma può essere addestrato a distinguere i due. Utilizzando CameraBench, abbiamo valutato i modelli Structure-from-Motion (SfM) e i modelli Video-Language (VLM), scoprendo che i modelli SfM faticano a catturare i movimenti primitivi che dipendono dal contenuto della scena, mentre i VLM hanno difficoltà a catturare i movimenti primitivi geometrici che richiedono una stima precisa delle traiettorie. Abbiamo quindi ottimizzato un VLM generativo su CameraBench per ottenere il meglio di entrambi gli approcci e dimostrare le sue applicazioni, tra cui la generazione di didascalie arricchite dal movimento, il question answering su video e il retrieval video-testo. Speriamo che la nostra tassonomia, il benchmark e i tutorial possano guidare futuri sforzi verso l'obiettivo finale di comprendere i movimenti della telecamera in qualsiasi video.

2

Skywork R1V2: Apprendimento per Rinforzo Ibrido Multimodale per il Ragionamento
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

Apr 23
ByChris, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou
57
2

Presentiamo Skywork R1V2, un modello di ragionamento multimodale di nuova generazione e un significativo balzo in avanti rispetto al suo predecessore, Skywork R1V. Al suo nucleo, R1V2 introduce un paradigma ibrido di apprendimento per rinforzo che armonizza la guida del modello di ricompensa con strategie basate su regole, affrontando così la sfida di lunga data di bilanciare capacità di ragionamento sofisticate con una vasta generalizzazione. Per migliorare ulteriormente l'efficienza dell'addestramento, proponiamo il meccanismo del Buffer Selettivo di Campioni (Selective Sample Buffer, SSB), che contrasta efficacemente il dilemma dei "Vantaggi Svanenti" intrinseco nell'Ottimizzazione Relativa delle Politiche di Gruppo (Group Relative Policy Optimization, GRPO) dando priorità ai campioni ad alto valore durante il processo di ottimizzazione. È importante notare che abbiamo osservato come segnali di rinforzo eccessivi possano indurre allucinazioni visive—un fenomeno che monitoriamo sistematicamente e mitigiamo attraverso soglie di ricompensa calibrate durante il processo di addestramento. I risultati empirici confermano le eccezionali capacità di R1V2, con prestazioni leader nei benchmark come 62.6 su OlympiadBench, 79.0 su AIME2024, 63.6 su LiveCodeBench e 74.0 su MMMU. Questi risultati sottolineano la superiorità di R1V2 rispetto ai modelli open-source esistenti e dimostrano un progresso significativo nel ridurre il divario di prestazioni con i sistemi proprietari di punta, tra cui Gemini 2.5 e OpenAI o4-mini. I pesi del modello Skywork R1V2 sono stati resi pubblici per promuovere trasparenza e riproducibilità: https://huggingface.co/Skywork/Skywork-R1V2-38B.

3

BitNet v2: Attivazioni Native a 4-bit con Trasformata di Hadamard per LLM a 1-bit
BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

Apr 25
ByHongyu Wang, Shuming Ma, Furu Wei
47
2

L'implementazione efficiente di modelli linguistici di grandi dimensioni (LLM) a 1 bit è ostacolata dalla presenza di outlier nelle attivazioni, che complicano la quantizzazione a bassa larghezza di bit. Introduciamo BitNet v2, un nuovo framework che abilita la quantizzazione nativa delle attivazioni a 4 bit per LLM a 1 bit. Per affrontare gli outlier nelle attivazioni dell'attenzione e delle reti feed-forward, proponiamo H-BitLinear, un modulo che applica una trasformazione di Hadamard online prima della quantizzazione delle attivazioni. Questa trasformazione addolcisce le distribuzioni delle attivazioni, rendendole più simili a forme gaussiane, adatte per la rappresentazione a basso numero di bit. Gli esperimenti mostrano che BitNet v2, addestrato da zero con attivazioni a 8 bit, eguaglia le prestazioni di BitNet b1.58. In modo cruciale, BitNet v2 ottiene una degradazione minima delle prestazioni quando addestrato con attivazioni native a 4 bit, riducendo significativamente l'impronta di memoria e il costo computazionale per l'inferenza in batch.

4

VideoVista-CulturalLingo: Orizzonti a 360^circ - Colmare Culture, Lingue e Domini nella Comprensione Video
VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension

Apr 23
ByXinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang
24
2

Valutare le capacità di comprensione video dei sistemi AI multimodali può misurare efficacemente le loro abilità di comprensione e ragionamento. La maggior parte dei benchmark di valutazione video è limitata a una singola lingua, tipicamente l'inglese, e presenta prevalentemente video radicati in contesti culturali occidentali. In questo articolo, presentiamo VideoVista-CulturalLingo, il primo benchmark di valutazione video progettato per colmare il divario culturale, linguistico e di dominio nella comprensione video. Il nostro lavoro si differenzia dai benchmark esistenti nei seguenti modi: 1) Diversità culturale, incorporando culture provenienti da Cina, Nord America ed Europa; 2) Multilinguismo, con domande presentate in cinese e inglese, due delle lingue più parlate al mondo; e 3) Ampio dominio, con video provenienti da centinaia di domini creati dall'uomo. VideoVista-CulturalLingo contiene 1.389 video e 3.134 coppie di domande e risposte, e abbiamo valutato 24 recenti modelli video open-source o proprietari di grandi dimensioni. Dai risultati degli esperimenti, osserviamo che: 1) I modelli esistenti performano peggio sulle domande centrate sulla Cina rispetto a quelle centrate sull'Occidente, in particolare quelle relative alla storia cinese; 2) I modelli open-source attuali mostrano ancora limitazioni nella comprensione temporale, specialmente nel compito di Localizzazione degli Eventi, raggiungendo un punteggio massimo di solo il 45,2%; 3) I modelli mainstream dimostrano una forte performance nelle domande scientifiche generali, mentre i modelli open-source mostrano una performance debole in matematica.

5

Rapporto Tecnico di Kimi-Audio
Kimi-Audio Technical Report

Apr 25
ByKimiTeam, Ding Ding, Zeqian Ju, Yichong Leng, Songxiang Liu, Tong Liu, Zeyu Shang, Kai Shen, Wei Song, Xu Tan, Heyi Tang, Zhengtao Wang, Chu Wei, Yifei Xin, Xinran Xu, Jianwei Yu, Yutao Zhang, Xinyu Zhou, Y. Charles, Jun Chen, Yanru Chen, Yulun Du, Weiran He, Zhenxing Hu, Guokun Lai, Qingcheng Li, Yangyang Liu, Weidong Sun, Jianzhou Wang, Yuzhi Wang, Yuefeng Wu, Yuxin Wu, Dongchao Yang, Hao Yang, Ying Yang, Zhilin Yang, Aoxiong Yin, Ruibin Yuan, Yutong Zhang, Zaida Zhou
19
2

Presentiamo Kimi-Audio, un modello audio open-source di base che eccelle nella comprensione, generazione e conversazione audio. Descriviamo nel dettaglio le pratiche adottate per costruire Kimi-Audio, inclusa l'architettura del modello, la curatela dei dati, la ricetta di addestramento, il deployment dell'inferenza e la valutazione. Nello specifico, utilizziamo un tokenizer audio a 12,5 Hz, progettiamo una nuova architettura basata su LLM con caratteristiche continue come input e token discreti come output, e sviluppiamo un detokenizer streaming a blocchi basato sul flow matching. Curiamo un dataset di pre-addestramento che comprende oltre 13 milioni di ore di dati audio che coprono un'ampia gamma di modalità, tra cui discorso, suono e musica, e costruiamo una pipeline per creare dati post-addestramento di alta qualità e diversificati. Inizializzato da un LLM pre-addestrato, Kimi-Audio viene continuamente pre-addestrato su dati audio e testuali con diversi task accuratamente progettati, e poi fine-tuned per supportare una varietà di task legati all'audio. Una valutazione estensiva dimostra che Kimi-Audio raggiunge prestazioni all'avanguardia su una serie di benchmark audio, tra cui riconoscimento vocale, comprensione audio, risposta a domande audio e conversazione vocale. Rilasciamo i codici, i checkpoint del modello, nonché i toolkit di valutazione su https://github.com/MoonshotAI/Kimi-Audio.

6

I grandi modelli linguistici possono contribuire all'analisi del linguaggio multimodale? MMLA: un benchmark completo
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark

Apr 23
ByHanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Haige Zhu, Jie Zhou, Jinchao Zhang
18
2

L'analisi del linguaggio multimodale è un campo in rapida evoluzione che sfrutta molteplici modalità per migliorare la comprensione della semantica di alto livello sottostante alle espressioni conversazionali umane. Nonostante la sua importanza, poche ricerche hanno indagato la capacità dei modelli linguistici multimodali di grandi dimensioni (MLLMs) di comprendere la semantica a livello cognitivo. In questo articolo, introduciamo MMLA, un benchmark completo progettato specificamente per colmare questa lacuna. MMLA comprende oltre 61.000 espressioni multimodali tratte sia da scenari simulati che reali, coprendo sei dimensioni fondamentali della semantica multimodale: intento, emozione, atto dialogico, sentimento, stile di parlato e comportamento comunicativo. Valutiamo otto rami principali di LLMs e MLLMs utilizzando tre metodi: inferenza zero-shot, fine-tuning supervisionato e tuning basato su istruzioni. Esperimenti estensivi rivelano che anche i modelli fine-tuned raggiungono solo un'accuratezza del 60%~70%, evidenziando i limiti degli attuali MLLMs nella comprensione del linguaggio umano complesso. Crediamo che MMLA servirà come solida base per esplorare il potenziale dei modelli linguistici di grandi dimensioni nell'analisi del linguaggio multimodale e fornirà risorse preziose per far progredire questo campo. I dataset e il codice sono open-source all'indirizzo https://github.com/thuiar/MMLA.

7

Ottimizzazione dei LLM per l'italiano: riduzione della fertilità dei token e miglioramento dell'efficienza attraverso l'adattamento del vocabolario
Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation

Apr 23
ByLuca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli
17
1

Il numero di modelli linguistici di grandi dimensioni (LLM) preaddestrati sta aumentando costantemente, sebbene la maggior parte sia progettata principalmente per la lingua inglese. Sebbene gli LLM all'avanguardia siano in grado di gestire altre lingue, a causa della contaminazione linguistica o di un certo grado di dati di preaddestramento multilingue, non sono ottimizzati per le lingue non inglesi, portando a una codifica inefficiente (elevata "fertilità" dei token) e a una velocità di inferenza più lenta. In questo lavoro, confrontiamo approfonditamente una varietà di tecniche di adattamento del vocabolario per ottimizzare gli LLM inglesi per la lingua italiana e proponiamo il Semantic Alignment Vocabulary Adaptation (SAVA), un metodo innovativo che sfrutta il mapping neurale per la sostituzione del vocabolario. SAVA raggiunge prestazioni competitive in molteplici task downstream, migliorando le strategie di allineamento contestuale. Adattiamo due LLM: Mistral-7b-v0.1, riducendo la fertilità dei token del 25%, e Llama-3.1-8B, ottimizzando il vocabolario e riducendo il numero di parametri di 1 miliardo. Dimostriamo che, dopo l'adattamento del vocabolario, questi modelli possono recuperare le loro prestazioni con una fase relativamente limitata di addestramento continuo sulla lingua target. Infine, testiamo le capacità dei modelli adattati su vari task a scelta multipla e generativi.

8

La Frontiera Sparse: Compromessi dell'Attenzione Sparse nei Trasformatori LLM
The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs

Apr 24
ByPiotr Nawrot, Robert Li, Renjie Huang, Sebastian Ruder, Kelly Marchisio, Edoardo M. Ponti
14
3

L'attenzione sparsa rappresenta una strategia promettente per estendere le capacità di contesto lungo nei Transformer LLM, ma la sua fattibilità, i compromessi efficienza-precisione e gli studi sistematici di scalabilità rimangono inesplorati. Per colmare questa lacuna, effettuiamo un'attenta comparazione di metodi di attenzione sparsa senza addestramento a diverse scale di modelli, lunghezze di sequenza e livelli di sparsità su una raccolta diversificata di task a sequenza lunga, inclusi nuovi che si basano sul linguaggio naturale pur rimanendo controllabili e facili da valutare. Sulla base dei nostri esperimenti, riportiamo una serie di risultati chiave: 1) un'analisi isoFLOPS rivela che per sequenze molto lunghe, modelli più grandi e altamente sparsi sono preferibili a quelli più piccoli e densi. 2) Il livello di sparsità raggiungibile garantendo statisticamente la preservazione della precisione è più alto durante la decodifica rispetto al prefilling, e si correla con la dimensione del modello nel primo caso. 3) Non esiste una strategia chiara che performi al meglio su tutti i task e le fasi, con diverse unità di sparsificazione o adattività del budget necessarie per scenari differenti. Anche livelli moderati di sparsità spesso comportano un significativo degrado delle prestazioni su almeno un task, evidenziando che l'attenzione sparsa non è una soluzione universale. 4) Introduciamo e validiamo nuove leggi di scalabilità specificamente adattate per l'attenzione sparsa, fornendo prove che i nostri risultati probabilmente si estendono oltre il nostro ambito sperimentale. Attraverso queste intuizioni, dimostriamo che l'attenzione sparsa è uno strumento chiave per potenziare le capacità dei Transformer LLM nell'elaborazione di sequenze più lunghe, ma richiede una valutazione attenta dei compromessi per applicazioni sensibili alle prestazioni.

9

Anche i piccoli ragionatori dovrebbero citare le loro fonti: presentazione della famiglia di modelli Pleias-RAG
Even Small Reasoners Should Quote Their Sources: Introducing the Pleias-RAG Model Family

Apr 25
ByPierre-Carl Langlais, Pavel Chizhov, Mattia Nee, Carlos Rosas Hinostroza, Matthieu Delsart, Irène Girard, Othman Hicheur, Anastasia Stasenko, Ivan P. Yamshchikov
13
2

Introduciamo una nuova generazione di modelli di ragionamento di piccole dimensioni per RAG, ricerca e riepilogo delle fonti. Pleias-RAG-350m e Pleias-RAG-1B sono addestrati su un ampio dataset sintetico che emula il recupero di una vasta gamma di fonti aperte multilingue dal Common Corpus. Offrono supporto nativo per la citazione e il grounding con citazioni letterali e reintegrano molteplici funzionalità associate ai flussi di lavoro RAG, come il routing delle query, la riformulazione delle query e il riordinamento delle fonti. Pleias-RAG-350m e Pleias-RAG-1B superano i modelli linguistici di piccole dimensioni (SLM) con meno di 4 miliardi di parametri sui benchmark RAG standardizzati (HotPotQA, 2wiki) e sono competitivi con modelli più grandi e popolari, tra cui Qwen-2.5-7B, Llama-3.1-8B e Gemma-3-4B. Sono gli unici SLM fino ad oggi a mantenere prestazioni RAG consistenti nelle principali lingue europee e a garantire un grounding sistematico delle affermazioni con riferimenti. Grazie alle loro dimensioni ridotte, alla facilità di implementazione su infrastrutture limitate e a una maggiore fattualità intrinseca, questi modelli aprono una gamma di nuovi casi d'uso per l'IA generativa.

10

Generazione di video guidata dal soggetto attraverso la separazione di identità e movimento
Subject-driven Video Generation via Disentangled Identity and Motion

Apr 23
ByDaneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai, Jaesik Park, Chong Luo
12
2

Proponiamo di addestrare un modello di generazione video personalizzato basato su soggetti specifici, disaccoppiando l'apprendimento specifico del soggetto dalla dinamica temporale in modalità zero-shot senza ulteriori ottimizzazioni. Un metodo tradizionale per la personalizzazione video che non richiede ottimizzazione si basa spesso su grandi dataset video annotati, che sono computazionalmente costosi e richiedono un'annotazione estensiva. A differenza dell'approccio precedente, introduciamo l'uso diretto di un dataset di personalizzazione di immagini per addestrare modelli di personalizzazione video, fattorizzando la personalizzazione video in due aspetti: (1) iniezione dell'identità attraverso un dataset di personalizzazione di immagini e (2) preservazione della modellazione temporale con un piccolo insieme di video non annotati attraverso il metodo di addestramento da immagine a video. Inoltre, impieghiamo l'eliminazione casuale di token di immagine con inizializzazione casuale delle immagini durante la messa a punto da immagine a video per mitigare il problema del copia e incolla. Per migliorare ulteriormente l'apprendimento, introduciamo uno switching stocastico durante l'ottimizzazione congiunta delle caratteristiche specifiche del soggetto e delle caratteristiche temporali, mitigando l'oblio catastrofico. Il nostro metodo raggiunge una forte coerenza del soggetto e scalabilità, superando i modelli esistenti di personalizzazione video in contesti zero-shot, dimostrando l'efficacia del nostro framework.

11

DianJin-R1: Valutazione e potenziamento del ragionamento finanziario nei modelli linguistici di grandi dimensioni
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models

Apr 22
ByJie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
12
2

Il ragionamento efficace rimane una sfida fondamentale per i grandi modelli linguistici (LLMs) nel dominio finanziario, dove i compiti spesso richiedono conoscenze specifiche del settore, calcoli numerici precisi e una rigorosa aderenza alle norme di conformità. Proponiamo DianJin-R1, un framework potenziato per il ragionamento progettato per affrontare queste sfide attraverso una supervisione arricchita dal ragionamento e l'apprendimento per rinforzo. Al centro del nostro approccio c'è DianJin-R1-Data, un dataset di alta qualità costruito da CFLUE, FinQA e un corpus proprietario di conformità (Chinese Compliance Check, CCC), che combina scenari di ragionamento finanziario diversificati con annotazioni verificate. I nostri modelli, DianJin-R1-7B e DianJin-R1-32B, sono affinati a partire da Qwen2.5-7B-Instruct e Qwen2.5-32B-Instruct utilizzando un formato strutturato che genera sia i passaggi di ragionamento che le risposte finali. Per perfezionare ulteriormente la qualità del ragionamento, applichiamo l'ottimizzazione relativa delle politiche di gruppo (Group Relative Policy Optimization, GRPO), un metodo di apprendimento per rinforzo che incorpora doppi segnali di ricompensa: uno che incoraggia output strutturati e un altro che premia la correttezza delle risposte. Valutiamo i nostri modelli su cinque benchmark: tre dataset finanziari (CFLUE, FinQA e CCC) e due benchmark di ragionamento generale (MATH-500 e GPQA-Diamond). I risultati sperimentali mostrano che i modelli DianJin-R1 superano costantemente le loro controparti non orientate al ragionamento, specialmente su compiti finanziari complessi. Inoltre, sul dataset reale CCC, i nostri modelli di ragionamento a singola chiamata eguagliano o addirittura superano le prestazioni di sistemi multi-agente che richiedono costi computazionali significativamente maggiori. Questi risultati dimostrano l'efficacia di DianJin-R1 nel potenziare il ragionamento finanziario attraverso una supervisione strutturata e un apprendimento allineato alle ricompense, offrendo una soluzione scalabile e pratica per applicazioni nel mondo reale.

12

DC-SAM: Segmentazione Contestuale in Immagini e Video tramite Doppia Consistenza
DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency

Apr 16
ByMengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang
8
2

Dato un singolo esempio etichettato, la segmentazione in-context mira a segmentare gli oggetti corrispondenti. Questo scenario, noto come segmentazione one-shot nell'apprendimento few-shot, esplora la capacità di generalizzazione del modello di segmentazione ed è stato applicato a vari compiti di visione, tra cui la comprensione delle scene e l'editing di immagini/video. Sebbene i recenti Segment Anything Models (SAM) abbiano raggiunto risultati all'avanguardia nella segmentazione interattiva, questi approcci non sono direttamente applicabili alla segmentazione in-context. In questo lavoro, proponiamo il metodo Dual Consistency SAM (DC-SAM) basato su prompt-tuning per adattare SAM e SAM2 alla segmentazione in-context di immagini e video. Le nostre intuizioni chiave consistono nel migliorare le caratteristiche del prompt encoder di SAM nella segmentazione fornendo prompt visivi di alta qualità. Quando generiamo una maschera prioritaria, fondiamo le caratteristiche di SAM per allineare meglio il prompt encoder. Successivamente, progettiamo un cross-attention ciclicamente consistente sulle caratteristiche fuse e sui prompt visivi iniziali. Inoltre, forniamo un design a doppio ramo utilizzando i prompt positivi e negativi discriminativi nel prompt encoder. Inoltre, progettiamo una semplice strategia di addestramento mask-tube per adottare il nostro metodo di doppia consistenza nel mask-tube. Sebbene il DC-SAM proposto sia principalmente progettato per le immagini, può essere esteso senza soluzione di continuità al dominio video con il supporto di SAM2. Considerando l'assenza di segmentazione in-context nel dominio video, abbiamo curato e costruito manualmente il primo benchmark da dataset esistenti di segmentazione video, denominato In-Context Video Object Segmentation (IC-VOS), per valutare meglio la capacità in-context del modello. Esperimenti estesi dimostrano che il nostro metodo raggiunge 55.5 (+1.4) mIoU su COCO-20i, 73.0 (+1.1) mIoU su PASCAL-5i e un punteggio J&F di 71.52 sul benchmark IC-VOS proposto. Il nostro codice sorgente e il benchmark sono disponibili su https://github.com/zaplm/DC-SAM.

Apr 25
Apr 28
Apr 29