Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo CameraBench, un dataset su larga scala e un benchmark progettato per valutare e migliorare la comprensione del movimento della telecamera. CameraBench è composto da circa 3.000 video eterogenei provenienti da internet, annotati da esperti attraverso un rigoroso processo di controllo qualità in più fasi. Uno dei nostri contributi è una tassonomia dei movimenti primitivi della telecamera, sviluppata in collaborazione con cinematografi. Scopriamo, ad esempio, che alcuni movimenti come il "follow" (o inseguimento) richiedono la comprensione del contenuto della scena, come i soggetti in movimento. Abbiamo condotto uno studio su larga scala con partecipanti umani per quantificare le prestazioni delle annotazioni, rivelando che l'esperienza nel dominio e la formazione basata su tutorial possono migliorare significativamente l'accuratezza. Ad esempio, un principiante potrebbe confondere lo zoom-in (un cambiamento dei parametri intrinseci) con una traslazione in avanti (un cambiamento dei parametri estrinseci), ma può essere addestrato a distinguere i due. Utilizzando CameraBench, abbiamo valutato i modelli Structure-from-Motion (SfM) e i modelli Video-Language (VLM), scoprendo che i modelli SfM faticano a catturare i movimenti primitivi che dipendono dal contenuto della scena, mentre i VLM hanno difficoltà a catturare i movimenti primitivi geometrici che richiedono una stima precisa delle traiettorie. Abbiamo quindi ottimizzato un VLM generativo su CameraBench per ottenere il meglio di entrambi gli approcci e dimostrare le sue applicazioni, tra cui la generazione di didascalie arricchite dal movimento, il question answering su video e il retrieval video-testo. Speriamo che la nostra tassonomia, il benchmark e i tutorial possano guidare futuri sforzi verso l'obiettivo finale di comprendere i movimenti della telecamera in qualsiasi video.
Presentiamo Skywork R1V2, un modello di ragionamento multimodale di nuova generazione e un significativo balzo in avanti rispetto al suo predecessore, Skywork R1V. Al suo nucleo, R1V2 introduce un paradigma ibrido di apprendimento per rinforzo che armonizza la guida del modello di ricompensa con strategie basate su regole, affrontando così la sfida di lunga data di bilanciare capacità di ragionamento sofisticate con una vasta generalizzazione. Per migliorare ulteriormente l'efficienza dell'addestramento, proponiamo il meccanismo del Buffer Selettivo di Campioni (Selective Sample Buffer, SSB), che contrasta efficacemente il dilemma dei "Vantaggi Svanenti" intrinseco nell'Ottimizzazione Relativa delle Politiche di Gruppo (Group Relative Policy Optimization, GRPO) dando priorità ai campioni ad alto valore durante il processo di ottimizzazione. È importante notare che abbiamo osservato come segnali di rinforzo eccessivi possano indurre allucinazioni visive—un fenomeno che monitoriamo sistematicamente e mitigiamo attraverso soglie di ricompensa calibrate durante il processo di addestramento. I risultati empirici confermano le eccezionali capacità di R1V2, con prestazioni leader nei benchmark come 62.6 su OlympiadBench, 79.0 su AIME2024, 63.6 su LiveCodeBench e 74.0 su MMMU. Questi risultati sottolineano la superiorità di R1V2 rispetto ai modelli open-source esistenti e dimostrano un progresso significativo nel ridurre il divario di prestazioni con i sistemi proprietari di punta, tra cui Gemini 2.5 e OpenAI o4-mini. I pesi del modello Skywork R1V2 sono stati resi pubblici per promuovere trasparenza e riproducibilità: https://huggingface.co/Skywork/Skywork-R1V2-38B.
L'implementazione efficiente di modelli linguistici di grandi dimensioni (LLM) a 1 bit è ostacolata dalla presenza di outlier nelle attivazioni, che complicano la quantizzazione a bassa larghezza di bit. Introduciamo BitNet v2, un nuovo framework che abilita la quantizzazione nativa delle attivazioni a 4 bit per LLM a 1 bit. Per affrontare gli outlier nelle attivazioni dell'attenzione e delle reti feed-forward, proponiamo H-BitLinear, un modulo che applica una trasformazione di Hadamard online prima della quantizzazione delle attivazioni. Questa trasformazione addolcisce le distribuzioni delle attivazioni, rendendole più simili a forme gaussiane, adatte per la rappresentazione a basso numero di bit. Gli esperimenti mostrano che BitNet v2, addestrato da zero con attivazioni a 8 bit, eguaglia le prestazioni di BitNet b1.58. In modo cruciale, BitNet v2 ottiene una degradazione minima delle prestazioni quando addestrato con attivazioni native a 4 bit, riducendo significativamente l'impronta di memoria e il costo computazionale per l'inferenza in batch.
Valutare le capacità di comprensione video dei sistemi AI multimodali può misurare efficacemente le loro abilità di comprensione e ragionamento. La maggior parte dei benchmark di valutazione video è limitata a una singola lingua, tipicamente l'inglese, e presenta prevalentemente video radicati in contesti culturali occidentali. In questo articolo, presentiamo VideoVista-CulturalLingo, il primo benchmark di valutazione video progettato per colmare il divario culturale, linguistico e di dominio nella comprensione video. Il nostro lavoro si differenzia dai benchmark esistenti nei seguenti modi: 1) Diversità culturale, incorporando culture provenienti da Cina, Nord America ed Europa; 2) Multilinguismo, con domande presentate in cinese e inglese, due delle lingue più parlate al mondo; e 3) Ampio dominio, con video provenienti da centinaia di domini creati dall'uomo. VideoVista-CulturalLingo contiene 1.389 video e 3.134 coppie di domande e risposte, e abbiamo valutato 24 recenti modelli video open-source o proprietari di grandi dimensioni. Dai risultati degli esperimenti, osserviamo che: 1) I modelli esistenti performano peggio sulle domande centrate sulla Cina rispetto a quelle centrate sull'Occidente, in particolare quelle relative alla storia cinese; 2) I modelli open-source attuali mostrano ancora limitazioni nella comprensione temporale, specialmente nel compito di Localizzazione degli Eventi, raggiungendo un punteggio massimo di solo il 45,2%; 3) I modelli mainstream dimostrano una forte performance nelle domande scientifiche generali, mentre i modelli open-source mostrano una performance debole in matematica.
Presentiamo Kimi-Audio, un modello audio open-source di base che eccelle nella comprensione, generazione e conversazione audio. Descriviamo nel dettaglio le pratiche adottate per costruire Kimi-Audio, inclusa l'architettura del modello, la curatela dei dati, la ricetta di addestramento, il deployment dell'inferenza e la valutazione. Nello specifico, utilizziamo un tokenizer audio a 12,5 Hz, progettiamo una nuova architettura basata su LLM con caratteristiche continue come input e token discreti come output, e sviluppiamo un detokenizer streaming a blocchi basato sul flow matching. Curiamo un dataset di pre-addestramento che comprende oltre 13 milioni di ore di dati audio che coprono un'ampia gamma di modalità, tra cui discorso, suono e musica, e costruiamo una pipeline per creare dati post-addestramento di alta qualità e diversificati. Inizializzato da un LLM pre-addestrato, Kimi-Audio viene continuamente pre-addestrato su dati audio e testuali con diversi task accuratamente progettati, e poi fine-tuned per supportare una varietà di task legati all'audio. Una valutazione estensiva dimostra che Kimi-Audio raggiunge prestazioni all'avanguardia su una serie di benchmark audio, tra cui riconoscimento vocale, comprensione audio, risposta a domande audio e conversazione vocale. Rilasciamo i codici, i checkpoint del modello, nonché i toolkit di valutazione su https://github.com/MoonshotAI/Kimi-Audio.
L'analisi del linguaggio multimodale è un campo in rapida evoluzione che sfrutta molteplici modalità per migliorare la comprensione della semantica di alto livello sottostante alle espressioni conversazionali umane. Nonostante la sua importanza, poche ricerche hanno indagato la capacità dei modelli linguistici multimodali di grandi dimensioni (MLLMs) di comprendere la semantica a livello cognitivo. In questo articolo, introduciamo MMLA, un benchmark completo progettato specificamente per colmare questa lacuna. MMLA comprende oltre 61.000 espressioni multimodali tratte sia da scenari simulati che reali, coprendo sei dimensioni fondamentali della semantica multimodale: intento, emozione, atto dialogico, sentimento, stile di parlato e comportamento comunicativo. Valutiamo otto rami principali di LLMs e MLLMs utilizzando tre metodi: inferenza zero-shot, fine-tuning supervisionato e tuning basato su istruzioni. Esperimenti estensivi rivelano che anche i modelli fine-tuned raggiungono solo un'accuratezza del 60%~70%, evidenziando i limiti degli attuali MLLMs nella comprensione del linguaggio umano complesso. Crediamo che MMLA servirà come solida base per esplorare il potenziale dei modelli linguistici di grandi dimensioni nell'analisi del linguaggio multimodale e fornirà risorse preziose per far progredire questo campo. I dataset e il codice sono open-source all'indirizzo https://github.com/thuiar/MMLA.
Il numero di modelli linguistici di grandi dimensioni (LLM) preaddestrati sta aumentando costantemente, sebbene la maggior parte sia progettata principalmente per la lingua inglese. Sebbene gli LLM all'avanguardia siano in grado di gestire altre lingue, a causa della contaminazione linguistica o di un certo grado di dati di preaddestramento multilingue, non sono ottimizzati per le lingue non inglesi, portando a una codifica inefficiente (elevata "fertilità" dei token) e a una velocità di inferenza più lenta. In questo lavoro, confrontiamo approfonditamente una varietà di tecniche di adattamento del vocabolario per ottimizzare gli LLM inglesi per la lingua italiana e proponiamo il Semantic Alignment Vocabulary Adaptation (SAVA), un metodo innovativo che sfrutta il mapping neurale per la sostituzione del vocabolario. SAVA raggiunge prestazioni competitive in molteplici task downstream, migliorando le strategie di allineamento contestuale. Adattiamo due LLM: Mistral-7b-v0.1, riducendo la fertilità dei token del 25%, e Llama-3.1-8B, ottimizzando il vocabolario e riducendo il numero di parametri di 1 miliardo. Dimostriamo che, dopo l'adattamento del vocabolario, questi modelli possono recuperare le loro prestazioni con una fase relativamente limitata di addestramento continuo sulla lingua target. Infine, testiamo le capacità dei modelli adattati su vari task a scelta multipla e generativi.
L'attenzione sparsa rappresenta una strategia promettente per estendere le capacità di contesto lungo nei Transformer LLM, ma la sua fattibilità, i compromessi efficienza-precisione e gli studi sistematici di scalabilità rimangono inesplorati. Per colmare questa lacuna, effettuiamo un'attenta comparazione di metodi di attenzione sparsa senza addestramento a diverse scale di modelli, lunghezze di sequenza e livelli di sparsità su una raccolta diversificata di task a sequenza lunga, inclusi nuovi che si basano sul linguaggio naturale pur rimanendo controllabili e facili da valutare. Sulla base dei nostri esperimenti, riportiamo una serie di risultati chiave: 1) un'analisi isoFLOPS rivela che per sequenze molto lunghe, modelli più grandi e altamente sparsi sono preferibili a quelli più piccoli e densi. 2) Il livello di sparsità raggiungibile garantendo statisticamente la preservazione della precisione è più alto durante la decodifica rispetto al prefilling, e si correla con la dimensione del modello nel primo caso. 3) Non esiste una strategia chiara che performi al meglio su tutti i task e le fasi, con diverse unità di sparsificazione o adattività del budget necessarie per scenari differenti. Anche livelli moderati di sparsità spesso comportano un significativo degrado delle prestazioni su almeno un task, evidenziando che l'attenzione sparsa non è una soluzione universale. 4) Introduciamo e validiamo nuove leggi di scalabilità specificamente adattate per l'attenzione sparsa, fornendo prove che i nostri risultati probabilmente si estendono oltre il nostro ambito sperimentale. Attraverso queste intuizioni, dimostriamo che l'attenzione sparsa è uno strumento chiave per potenziare le capacità dei Transformer LLM nell'elaborazione di sequenze più lunghe, ma richiede una valutazione attenta dei compromessi per applicazioni sensibili alle prestazioni.
Introduciamo una nuova generazione di modelli di ragionamento di piccole dimensioni per RAG, ricerca e riepilogo delle fonti. Pleias-RAG-350m e Pleias-RAG-1B sono addestrati su un ampio dataset sintetico che emula il recupero di una vasta gamma di fonti aperte multilingue dal Common Corpus. Offrono supporto nativo per la citazione e il grounding con citazioni letterali e reintegrano molteplici funzionalità associate ai flussi di lavoro RAG, come il routing delle query, la riformulazione delle query e il riordinamento delle fonti. Pleias-RAG-350m e Pleias-RAG-1B superano i modelli linguistici di piccole dimensioni (SLM) con meno di 4 miliardi di parametri sui benchmark RAG standardizzati (HotPotQA, 2wiki) e sono competitivi con modelli più grandi e popolari, tra cui Qwen-2.5-7B, Llama-3.1-8B e Gemma-3-4B. Sono gli unici SLM fino ad oggi a mantenere prestazioni RAG consistenti nelle principali lingue europee e a garantire un grounding sistematico delle affermazioni con riferimenti. Grazie alle loro dimensioni ridotte, alla facilità di implementazione su infrastrutture limitate e a una maggiore fattualità intrinseca, questi modelli aprono una gamma di nuovi casi d'uso per l'IA generativa.
Proponiamo di addestrare un modello di generazione video personalizzato basato su soggetti specifici, disaccoppiando l'apprendimento specifico del soggetto dalla dinamica temporale in modalità zero-shot senza ulteriori ottimizzazioni. Un metodo tradizionale per la personalizzazione video che non richiede ottimizzazione si basa spesso su grandi dataset video annotati, che sono computazionalmente costosi e richiedono un'annotazione estensiva. A differenza dell'approccio precedente, introduciamo l'uso diretto di un dataset di personalizzazione di immagini per addestrare modelli di personalizzazione video, fattorizzando la personalizzazione video in due aspetti: (1) iniezione dell'identità attraverso un dataset di personalizzazione di immagini e (2) preservazione della modellazione temporale con un piccolo insieme di video non annotati attraverso il metodo di addestramento da immagine a video. Inoltre, impieghiamo l'eliminazione casuale di token di immagine con inizializzazione casuale delle immagini durante la messa a punto da immagine a video per mitigare il problema del copia e incolla. Per migliorare ulteriormente l'apprendimento, introduciamo uno switching stocastico durante l'ottimizzazione congiunta delle caratteristiche specifiche del soggetto e delle caratteristiche temporali, mitigando l'oblio catastrofico. Il nostro metodo raggiunge una forte coerenza del soggetto e scalabilità, superando i modelli esistenti di personalizzazione video in contesti zero-shot, dimostrando l'efficacia del nostro framework.
Il ragionamento efficace rimane una sfida fondamentale per i grandi modelli linguistici (LLMs) nel dominio finanziario, dove i compiti spesso richiedono conoscenze specifiche del settore, calcoli numerici precisi e una rigorosa aderenza alle norme di conformità. Proponiamo DianJin-R1, un framework potenziato per il ragionamento progettato per affrontare queste sfide attraverso una supervisione arricchita dal ragionamento e l'apprendimento per rinforzo. Al centro del nostro approccio c'è DianJin-R1-Data, un dataset di alta qualità costruito da CFLUE, FinQA e un corpus proprietario di conformità (Chinese Compliance Check, CCC), che combina scenari di ragionamento finanziario diversificati con annotazioni verificate. I nostri modelli, DianJin-R1-7B e DianJin-R1-32B, sono affinati a partire da Qwen2.5-7B-Instruct e Qwen2.5-32B-Instruct utilizzando un formato strutturato che genera sia i passaggi di ragionamento che le risposte finali. Per perfezionare ulteriormente la qualità del ragionamento, applichiamo l'ottimizzazione relativa delle politiche di gruppo (Group Relative Policy Optimization, GRPO), un metodo di apprendimento per rinforzo che incorpora doppi segnali di ricompensa: uno che incoraggia output strutturati e un altro che premia la correttezza delle risposte. Valutiamo i nostri modelli su cinque benchmark: tre dataset finanziari (CFLUE, FinQA e CCC) e due benchmark di ragionamento generale (MATH-500 e GPQA-Diamond). I risultati sperimentali mostrano che i modelli DianJin-R1 superano costantemente le loro controparti non orientate al ragionamento, specialmente su compiti finanziari complessi. Inoltre, sul dataset reale CCC, i nostri modelli di ragionamento a singola chiamata eguagliano o addirittura superano le prestazioni di sistemi multi-agente che richiedono costi computazionali significativamente maggiori. Questi risultati dimostrano l'efficacia di DianJin-R1 nel potenziare il ragionamento finanziario attraverso una supervisione strutturata e un apprendimento allineato alle ricompense, offrendo una soluzione scalabile e pratica per applicazioni nel mondo reale.
Dato un singolo esempio etichettato, la segmentazione in-context mira a segmentare gli oggetti corrispondenti. Questo scenario, noto come segmentazione one-shot nell'apprendimento few-shot, esplora la capacità di generalizzazione del modello di segmentazione ed è stato applicato a vari compiti di visione, tra cui la comprensione delle scene e l'editing di immagini/video. Sebbene i recenti Segment Anything Models (SAM) abbiano raggiunto risultati all'avanguardia nella segmentazione interattiva, questi approcci non sono direttamente applicabili alla segmentazione in-context. In questo lavoro, proponiamo il metodo Dual Consistency SAM (DC-SAM) basato su prompt-tuning per adattare SAM e SAM2 alla segmentazione in-context di immagini e video. Le nostre intuizioni chiave consistono nel migliorare le caratteristiche del prompt encoder di SAM nella segmentazione fornendo prompt visivi di alta qualità. Quando generiamo una maschera prioritaria, fondiamo le caratteristiche di SAM per allineare meglio il prompt encoder. Successivamente, progettiamo un cross-attention ciclicamente consistente sulle caratteristiche fuse e sui prompt visivi iniziali. Inoltre, forniamo un design a doppio ramo utilizzando i prompt positivi e negativi discriminativi nel prompt encoder. Inoltre, progettiamo una semplice strategia di addestramento mask-tube per adottare il nostro metodo di doppia consistenza nel mask-tube. Sebbene il DC-SAM proposto sia principalmente progettato per le immagini, può essere esteso senza soluzione di continuità al dominio video con il supporto di SAM2. Considerando l'assenza di segmentazione in-context nel dominio video, abbiamo curato e costruito manualmente il primo benchmark da dataset esistenti di segmentazione video, denominato In-Context Video Object Segmentation (IC-VOS), per valutare meglio la capacità in-context del modello. Esperimenti estesi dimostrano che il nostro metodo raggiunge 55.5 (+1.4) mIoU su COCO-20i, 73.0 (+1.1) mIoU su PASCAL-5i e un punteggio J&F di 71.52 sul benchmark IC-VOS proposto. Il nostro codice sorgente e il benchmark sono disponibili su https://github.com/zaplm/DC-SAM.