Articoli di ricerca IA selezionati quotidianamente con traduzioni
I dataset di pre-training sono tipicamente raccolti da contenuti web e mancano di divisioni intrinseche per dominio. Ad esempio, dataset ampiamente utilizzati come Common Crawl non includono etichette esplicite per dominio, mentre la creazione manuale di dataset etichettati come The Pile è un processo laborioso. Di conseguenza, identificare una miscela ottimale di dati per il pre-training rimane un problema complesso, nonostante i suoi significativi benefici per le prestazioni del pre-training. Per affrontare queste sfide, proponiamo CLustering-based Iterative Data Mixture Bootstrapping (CLIMB), un framework automatizzato che scopre, valuta e affina le miscele di dati in un contesto di pre-training. Nello specifico, CLIMB incorpora e raggruppa dataset su larga scala in uno spazio semantico, per poi cercare iterativamente miscele ottimali utilizzando un modello proxy più piccolo e un predittore. Quando addestrato continuamente su 400 miliardi di token con questa miscela, il nostro modello da 1 miliardo supera lo stato dell'arte Llama-3.2-1B del 2,0%. Inoltre, osserviamo che l'ottimizzazione per un dominio specifico (ad esempio, Scienze Sociali) produce un miglioramento del 5% rispetto al campionamento casuale. Infine, introduciamo ClimbLab, un corpus filtrato da 1,2 trilioni di token con 20 cluster come ambiente di ricerca, e ClimbMix, un dataset compatto ma potente da 400 miliardi di token progettato per un pre-training efficiente che offre prestazioni superiori con un budget di token equivalente. Analizziamo la miscela finale di dati, chiarendo le caratteristiche di una miscela ottimale. I nostri dati sono disponibili all'indirizzo: https://research.nvidia.com/labs/lpr/climb/
I modelli di frontiera che generano tracce di ragionamento esteso producono involontariamente sequenze di token ricche che possono facilitare la distillazione del modello. Riconoscendo questa vulnerabilità, i proprietari dei modelli potrebbero cercare strategie di campionamento che limitino l'efficacia della distillazione senza compromettere le prestazioni del modello. Il campionamento antidistillazione fornisce esattamente questa capacità. Modificando strategicamente la distribuzione di probabilità del token successivo di un modello, il campionamento antidistillazione avvelena le tracce di ragionamento, rendendole significativamente meno efficaci per la distillazione pur preservando l'utilità pratica del modello. Per ulteriori dettagli, consultare https://antidistillation.com.
Presentiamo una struttura di rete neurale, FramePack, per addestrare modelli di previsione del frame successivo (o sezione di frame successiva) per la generazione di video. Il FramePack comprime i frame di input per rendere la lunghezza del contesto del transformer un numero fisso, indipendentemente dalla durata del video. Di conseguenza, siamo in grado di elaborare un gran numero di frame utilizzando la diffusione video con un collo di bottiglia computazionale simile a quello della diffusione di immagini. Ciò rende anche le dimensioni dei batch di addestramento video significativamente più grandi (le dimensioni dei batch diventano paragonabili a quelle dell'addestramento con diffusione di immagini). Proponiamo inoltre un metodo di campionamento anti-deriva che genera i frame in ordine temporale invertito con endpoint stabiliti in anticipo per evitare il bias di esposizione (accumulo di errori sulle iterazioni). Infine, dimostriamo che i modelli esistenti di diffusione video possono essere perfezionati con FramePack e che la loro qualità visiva può essere migliorata poiché la previsione del frame successivo supporta scheduler di diffusione più bilanciati con passaggi temporali di spostamento del flusso meno estremi.
I modelli visione-linguaggio (VLMs) eccellono nella comprensione visiva, ma spesso soffrono di allucinazioni visive, generando descrizioni di oggetti, azioni o concetti inesistenti, rappresentando un rischio significativo in applicazioni critiche per la sicurezza. I metodi esistenti per mitigare le allucinazioni seguono tipicamente uno dei due paradigmi: l'aggiustamento della generazione, che modifica il comportamento di decodifica per allineare il testo agli input visivi, e la verifica post-hoc, in cui modelli esterni valutano e correggono gli output. Sebbene efficaci, i metodi di aggiustamento della generazione spesso si basano su euristiche e mancano di meccanismi di correzione, mentre la verifica post-hoc è complessa, richiedendo tipicamente più modelli e tendendo a rifiutare gli output piuttosto che affinarli. In questo lavoro, introduciamo REVERSE, un framework unificato che integra l'addestramento consapevole delle allucinazioni con l'autoverifica in tempo reale. Sfruttando un nuovo dataset di verifica delle allucinazioni contenente oltre 1,3 milioni di campioni semi-sintetici, insieme a una tecnica innovativa di ricampionamento retrospettivo durante l'inferenza, il nostro approccio consente ai VLMs di rilevare le allucinazioni durante la generazione e di rivederle dinamicamente. Le nostre valutazioni mostrano che REVERSE raggiunge una riduzione delle allucinazioni all'avanguardia, superando i migliori metodi esistenti fino al 12% su CHAIR-MSCOCO e al 28% su HaloQuest. Il nostro dataset, modello e codice sono disponibili al seguente indirizzo: https://reverse-vlm.github.io.
Presentiamo Perception Encoder (PE), un encoder all'avanguardia per la comprensione di immagini e video, addestrato tramite un semplice apprendimento visione-linguaggio. Tradizionalmente, gli encoder visivi si sono basati su una varietà di obiettivi di pre-addestramento, ciascuno ottimizzato per specifici task downstream come classificazione, descrizione o localizzazione. Sorprendentemente, dopo aver scalato la nostra ricetta di pre-addestramento su immagini accuratamente calibrata e raffinata con il nostro robusto motore di dati video, abbiamo scoperto che il training contrastivo visione-linguaggio da solo può produrre embedding forti e generali per tutti questi task downstream. C'è solo un caveat: questi embedding sono nascosti all'interno degli strati intermedi della rete. Per estrarli, introduciamo due metodi di allineamento: l'allineamento linguistico per la modellazione del linguaggio multimodale e l'allineamento spaziale per la predizione densa. Insieme al checkpoint contrastivo principale, la nostra famiglia di modelli PE raggiunge prestazioni all'avanguardia su una vasta gamma di task, tra cui la classificazione e il retrieval zero-shot di immagini e video; Q&A su documenti, immagini e video; e task spaziali come rilevamento, stima della profondità e tracking. Per promuovere ulteriori ricerche, stiamo rilasciando i nostri modelli, il codice e un nuovo dataset di video annotati sinteticamente e manualmente.
La simulazione di mondi ha guadagnato crescente popolarità grazie alla sua capacità di modellare ambienti virtuali e prevedere le conseguenze delle azioni. Tuttavia, la finestra temporale di contesto limitata spesso porta a fallimenti nel mantenere una coerenza a lungo termine, in particolare nel preservare la coerenza spaziale 3D. In questo lavoro, presentiamo WorldMem, un framework che migliora la generazione di scene con una banca di memoria composta da unità di memoria che memorizzano frame di memoria e stati (ad esempio, pose e timestamp). Utilizzando un meccanismo di attenzione sulla memoria che estrae efficacemente informazioni rilevanti da questi frame di memoria in base ai loro stati, il nostro metodo è in grado di ricostruire accuratamente scene precedentemente osservate, anche in presenza di significativi divari di punto di vista o temporali. Inoltre, incorporando i timestamp negli stati, il nostro framework non solo modella un mondo statico ma ne cattura anche l'evoluzione dinamica nel tempo, consentendo sia la percezione che l'interazione all'interno del mondo simulato. Esperimenti estensivi in scenari sia virtuali che reali convalidano l'efficacia del nostro approccio.
I Large Language Models (LLMs) sono cresciuti rapidamente in dimensioni, creando sfide significative per un'implementazione efficiente su hardware con risorse limitate. In questo articolo, introduciamo Dynamic-Length Float (DFloat11), un framework di compressione senza perdita che riduce le dimensioni degli LLM del 30% preservando output che sono bit-per-bit identici al modello originale. DFloat11 è motivato dalla bassa entropia nella rappresentazione dei pesi in BFloat16 degli LLM, che rivela una significativa inefficienza nei formati di archiviazione esistenti. Applicando la codifica entropica, DFloat11 assegna codifiche a lunghezza dinamica ai pesi in base alla frequenza, ottenendo una compressione quasi ottimale in termini di informazione senza alcuna perdita di precisione. Per facilitare un'inferenza efficiente con codifiche a lunghezza dinamica, sviluppiamo un kernel GPU personalizzato per una rapida decompressione online. Il nostro design incorpora: (i) la scomposizione di tabelle di ricerca (LUT) ad alta intensità di memoria in LUT compatte che si adattano alla SRAM della GPU, (ii) un kernel a due fasi per coordinare le posizioni di lettura/scrittura dei thread utilizzando variabili ausiliarie leggere, e (iii) la decompressione a livello di blocco transformer per minimizzare la latenza. Esperimenti su modelli recenti, tra cui Llama-3.1, Qwen-2.5 e Gemma-3, convalidano la nostra ipotesi che DFloat11 raggiunga una riduzione delle dimensioni del modello di circa il 30% preservando output esatti bit-per-bit. Rispetto a un'alternativa potenziale di scaricare parti di un modello non compresso sulla CPU per rispettare i vincoli di memoria, DFloat11 ottiene un throughput da 1,9 a 38,8 volte superiore nella generazione di token. Con un budget di memoria GPU fisso, DFloat11 consente lunghezze di contesto da 5,3 a 13,17 volte più lunghe rispetto ai modelli non compressi. In particolare, il nostro metodo consente un'inferenza senza perdita di Llama-3.1-405B, un modello da 810GB, su un singolo nodo equipaggiato con 8 GPU da 80GB. Il nostro codice e i modelli sono disponibili su https://github.com/LeanModels/DFloat11.
Mentre la sintesi e la distillazione dei dati rappresentano strategie promettenti per migliorare i modelli linguistici di piccole dimensioni, gli approcci attuali si basano fortemente sui Large Language Models (LLM), che soffrono di elevati costi computazionali, inefficienza ambientale e potenziali pregiudizi ereditati da architetture monolitiche. Al contrario, i LLM più piccoli sono più accessibili e sostenibili, ma le loro capacità individuali spesso non sono sufficienti per generare dati di alta qualità, diversificati e affidabili. Ispirati da processi collaborativi umani (ad esempio, la revisione tra pari), proponiamo un framework che coinvolge più LLM di piccole dimensioni, denominato GRA, che aggrega ruoli specializzati tra i piccoli LLM per ottenere un affinamento iterativo e un controllo di qualità tipicamente raggiunti da un singolo LLM di grandi dimensioni. In questo framework collaborativo, più LLM di piccole dimensioni assumono ruoli distinti—Generatore, Revisore e Arbitro—per simulare una pipeline di sintesi dei dati ispirata alla revisione tra pari. Il Generatore propone campioni di dati iniziali, il Revisore ne critica la qualità e la diversità, e l'Arbitro risolve i conflitti per finalizzare l'output. Scomponendo il processo di sintesi in sotto-task specializzati, i piccoli LLM collaborativi possono raggiungere una parità a livello di dati con la distillazione basata su LLM di grandi dimensioni. Attraverso esperimenti su più benchmark, dimostriamo che i dati prodotti da GRA eguagliano o superano la qualità degli output di un singolo LLM di grandi dimensioni, ad esempio Qwen-2.5-72B-Instruct. I nostri risultati mettono in discussione la necessità di modelli monolitici di grandi dimensioni per la sintesi di dati di alta qualità, sostenendo invece una coordinazione strategica di agenti più piccoli. I nostri dataset, modelli e codice sono pubblicamente disponibili all'indirizzo https://github.com/GX-XinGao/GRA.
I grafici sono onnipresenti, poiché le persone li utilizzano spesso per analizzare dati, rispondere a domande e scoprire intuizioni cruciali. Tuttavia, eseguire compiti analitici complessi con i grafici richiede uno sforzo percettivo e cognitivo significativo. I sistemi di Chart Question Answering (CQA) automatizzano questo processo consentendo ai modelli di interpretare e ragionare con rappresentazioni visive dei dati. Tuttavia, i benchmark esistenti come ChartQA mancano di diversità reale e hanno recentemente mostrato una saturazione delle prestazioni con i moderni modelli linguistico-visivi di grandi dimensioni (LVLM). Per affrontare queste limitazioni, introduciamo ChartQAPro, un nuovo benchmark che include 1.341 grafici provenienti da 157 fonti diverse, che coprono vari tipi di grafici, tra cui infografiche e dashboard, e presenta 1.948 domande di vari tipi, come domande a scelta multipla, conversazionali, ipotetiche e senza risposta, per riflettere meglio le sfide del mondo reale. Le nostre valutazioni con 21 modelli mostrano un calo significativo delle prestazioni per gli LVLM su ChartQAPro; ad esempio, Claude Sonnet 3.5 ottiene il 90,5% su ChartQA ma solo il 55,81% su ChartQAPro, sottolineando la complessità del ragionamento sui grafici. Integriamo i nostri risultati con analisi dettagliate degli errori e studi di ablazione, identificando le principali sfide e opportunità per avanzare gli LVLM nella comprensione e nel ragionamento sui grafici. Rilasciamo ChartQAPro all'indirizzo https://github.com/vis-nlp/ChartQAPro.
I Large Video Models (LVMs) basati su Large Language Models (LLMs) hanno mostrato potenziale nella comprensione video, ma spesso soffrono di disallineamento con l'intuizione umana e problemi di allucinazione video. Per affrontare queste sfide, introduciamo VistaDPO, un nuovo framework per l'ottimizzazione diretta delle preferenze spaziali-temporali gerarchiche nei video. VistaDPO migliora l'allineamento delle preferenze testo-video su tre livelli gerarchici: i) Livello Istanza, allineando il contenuto complessivo del video con le risposte; ii) Livello Temporale, allineando la semantica temporale del video con le descrizioni degli eventi; e iii) Livello Percettivo, allineando gli oggetti spaziali con i token linguistici. Considerando la mancanza di dataset per l'allineamento fine delle preferenze video-linguaggio, abbiamo costruito VistaDPO-7k, un dataset di 7.2K coppie di domande e risposte annotate con risposte scelte e rifiutate, insieme a informazioni di ancoraggio spaziale-temporale come timestamp, fotogrammi chiave e bounding box. Esperimenti estesi su benchmark come Allucinazione Video, Video QA e compiti di prestazione di Captioning dimostrano che VistaDPO migliora significativamente le prestazioni degli LVMs esistenti, mitigando efficacemente il disallineamento video-linguaggio e l'allucinazione. Il codice e i dati sono disponibili su https://github.com/HaroldChen19/VistaDPO.
Il successo dei modelli di generazione da testo a immagine (T2I) ha portato a una proliferazione di numerosi checkpoint di modelli ottimizzati a partire dallo stesso modello di base su vari dataset specializzati. Questa produzione eccessiva di modelli specializzati introduce nuove sfide legate all'elevata ridondanza dei parametri e agli enormi costi di archiviazione, rendendo necessario lo sviluppo di metodi efficaci per consolidare e unificare le capacità di diversi modelli potenti in un unico modello. Una pratica comune nella fusione di modelli adotta l'interpolazione lineare statica nello spazio dei parametri per raggiungere l'obiettivo del mix di stili. Tuttavia, questa pratica trascura le caratteristiche del compito di generazione T2I, in cui numerosi modelli distinti coprono una varietà di stili che possono portare a incompatibilità e confusione nel modello fuso. Per affrontare questo problema, introduciamo una pipeline di generazione di immagini controllabile dallo stile (style-promptable) in grado di generare accuratamente immagini di stile arbitrario sotto il controllo di vettori di stile. Basandoci su questo design, proponiamo il paradigma di fusione di modelli basato sulla distillazione del punteggio (DMM), che comprime più modelli in un unico modello T2I versatile. Inoltre, ripensiamo e riformuliamo il compito di fusione di modelli nel contesto della generazione T2I, presentando nuovi obiettivi di fusione e protocolli di valutazione. I nostri esperimenti dimostrano che il DMM può riorganizzare in modo compatto la conoscenza proveniente da più modelli insegnanti e raggiungere una generazione controllabile di stili arbitrari.
I recenti progressi nell'apprendimento per rinforzo (RL) hanno potenziato le capacità di ragionamento dei modelli visione-linguaggio (VLMs). Tuttavia, il miglioramento dell'esplorazione delle politiche per scalare in modo più efficace il calcolo durante il test rimane poco esplorato nei VLMs. Inoltre, i VLMs continuano a lottare con una percezione visiva imperfetta, che a sua volta influisce sul processo di ragionamento successivo. A tal fine, proponiamo NoisyRollout, un approccio RL semplice ma efficace che combina traiettorie provenienti sia da immagini pulite che moderatamente distorte per introdurre una diversità mirata nella percezione visiva e nei modelli di ragionamento risultanti. Senza costi aggiuntivi di addestramento, NoisyRollout migliora le capacità di esplorazione dei VLMs incorporando un bias induttivo orientato alla visione. Inoltre, NoisyRollout utilizza una pianificazione di attenuazione del rumore che riduce gradualmente l'intensità della distorsione durante l'addestramento, garantendo benefici dai segnali rumorosi nelle fasi iniziali mentre mantiene stabilità e scalabilità nelle fasi successive. Con soli 2.1K campioni di addestramento, NoisyRollout raggiunge prestazioni all'avanguardia tra i modelli RL ottimizzati open-source su 5 benchmark fuori dominio che coprono sia compiti di ragionamento che di percezione, preservando prestazioni comparabili o addirittura migliori nel dominio di riferimento.
I modelli visione-linguaggio sono fondamentali per la ricerca in computer vision, tuttavia molti modelli ad alte prestazioni rimangono closed-source, oscurando i loro dati, il design e le procedure di addestramento. La comunità di ricerca ha risposto utilizzando la distillazione da modelli black-box per etichettare i dati di training, ottenendo risultati forti nei benchmark, a scapito di un progresso scientifico misurabile. Tuttavia, senza conoscere i dettagli del modello insegnante e delle sue fonti di dati, il progresso scientifico rimane difficile da misurare. In questo articolo, studiamo la costruzione di un Perception Language Model (PLM) in un framework completamente aperto e riproducibile per una ricerca trasparente nella comprensione di immagini e video. Analizziamo le pipeline di addestramento standard senza distillazione da modelli proprietari ed esploriamo dati sintetici su larga scala per identificare lacune critiche nei dati, in particolare nella comprensione dettagliata dei video. Per colmare queste lacune, rilasciamo 2,8 milioni di istanze etichettate manualmente di coppie domanda-risposta video a grana fine e didascalie video con ancoraggio spazio-temporale. Inoltre, introduciamo PLM-VideoBench, una suite per valutare compiti impegnativi di comprensione video, focalizzata sulla capacità di ragionare su "cosa", "dove", "quando" e "come" di un video. Rendiamo il nostro lavoro completamente riproducibile fornendo dati, procedure di addestramento, codice e modelli.
Gli attuali approcci di personalizzazione basati sull'apprendimento, che si basano prevalentemente su architetture U-Net, soffrono di una limitata capacità di generalizzazione e di una qualità dell'immagine compromessa. Nel frattempo, i metodi basati sull'ottimizzazione richiedono una messa a punto specifica per ogni soggetto, il che inevitabilmente riduce la controllabilità testuale. Per affrontare queste sfide, proponiamo InstantCharacter, un framework scalabile per la personalizzazione dei personaggi costruito su un transformer di diffusione di base. InstantCharacter dimostra tre vantaggi fondamentali: in primo luogo, raggiunge una personalizzazione open-domain attraverso diverse apparenze, pose e stili di personaggi mantenendo risultati ad alta fedeltà. In secondo luogo, il framework introduce un adattatore scalabile con encoder transformer impilati, che elabora efficacemente le caratteristiche dei personaggi open-domain e interagisce in modo fluido con lo spazio latente dei moderni transformer di diffusione. In terzo luogo, per addestrare efficacemente il framework, abbiamo costruito un ampio dataset di personaggi contenente 10 milioni di campioni. Il dataset è organizzato sistematicamente in sottoinsiemi accoppiati (personaggi multi-vista) e non accoppiati (combinazioni testo-immagine). Questa struttura dati duale consente l'ottimizzazione simultanea della consistenza dell'identità e dell'editabilità testuale attraverso percorsi di apprendimento distinti. Esperimenti qualitativi dimostrano le capacità avanzate di InstantCharacter nella generazione di immagini ad alta fedeltà, controllabili tramite testo e coerenti con i personaggi, stabilendo un nuovo punto di riferimento per la generazione di immagini guidata dai personaggi. Il nostro codice sorgente è disponibile all'indirizzo https://github.com/Tencent/InstantCharacter.
L'aumento della potenza di calcolo durante il test è emerso come un elemento chiave per consentire ai grandi modelli linguistici (LLM) di risolvere problemi complessi, ma comporta una latenza elevata e costi di inferenza significativi. Introduciamo il concetto di "calcolo durante il sonno", che permette ai modelli di "pensare" offline ai contesti prima che le query vengano presentate: anticipando le domande che gli utenti potrebbero porre e pre-calcolando quantità utili, possiamo ridurre notevolmente i requisiti di calcolo durante il test. Per dimostrare l'efficacia del nostro metodo, creiamo versioni modificate di due compiti di ragionamento: Stateful GSM-Symbolic e Stateful AIME. Troviamo che il calcolo durante il sonno può ridurre la quantità di calcolo necessaria durante il test per raggiungere la stessa accuratezza di circa 5x su Stateful GSM-Symbolic e Stateful AIME e che, aumentando il calcolo durante il sonno, possiamo ulteriormente migliorare l'accuratezza fino al 13% su Stateful GSM-Symbolic e al 18% su Stateful AIME. Inoltre, introduciamo Multi-Query GSM-Symbolic, che estende GSM-Symbolic includendo più query correlate per contesto. Ammortizzando il calcolo durante il sonno su query correlate riguardanti lo stesso contesto utilizzando Multi-Query GSM-Symbolic, possiamo ridurre il costo medio per query di 2.5x. Successivamente, conduciamo un'analisi aggiuntiva per comprendere quando il calcolo durante il sonno è più efficace, scoprendo che la prevedibilità della query dell'utente è ben correlata con l'efficacia del calcolo durante il sonno. Infine, conduciamo uno studio di caso applicando il calcolo durante il sonno a un compito realistico di agente SWE.
I Large Language Model (LLM) hanno dimostrato un enorme potenziale come agenti, eccellendo in compiti che richiedono più cicli di ragionamento e interazioni. Il Rejection Sampling Fine-Tuning (RFT) è emerso come un metodo efficace per affinare i LLM come agenti: prima imita le traiettorie di successo generate da esperti e migliora ulteriormente le capacità agentiche attraverso un fine-tuning iterativo su traiettorie di successo auto-generate. Tuttavia, poiché l'esperto (ad esempio, GPT-4) riesce principalmente in sottocompiti più semplici e il RFT favorisce intrinsecamente scenari meno complessi, molti sottocompiti complessi rimangono irrisolti e persistentemente fuori distribuzione (OOD). Analizzando questi sottocompiti impegnativi, abbiamo scoperto che le traiettorie fallite precedentemente generate dall'esperto possono spesso fornire indicazioni preziose, come piani e azioni chiave, che possono migliorare significativamente l'efficienza dell'esplorazione dell'agente e l'acquisizione di competenze critiche. Motivati da queste osservazioni, proponiamo Exploring Expert Failures (EEF), che identifica azioni benefiche dalle traiettorie fallite degli esperti e le integra nel dataset di addestramento. Le azioni potenzialmente dannose vengono accuratamente escluse per evitare di contaminare il processo di apprendimento del modello. Sfruttando le azioni benefiche nei fallimenti degli esperti, l'EEF risolve con successo alcuni sottocompiti precedentemente irrisolvibili e migliora le prestazioni di ottimizzazione dell'agente. In modo notevole, il nostro approccio ha raggiunto un tasso di successo del 62% in WebShop, superando il RFT (53,6%) e GPT-4 (35,6%), e, per quanto ne sappiamo, stabilendo un nuovo stato dell'arte come primo metodo a superare un punteggio di 0,81 in WebShop e a superare 81 in SciWorld.
La costanza del colore computazionale, o bilanciamento del bianco, è un modulo chiave nel processore di segnale d'immagine (ISP) di una fotocamera che corregge le dominanti cromatiche causate dall'illuminazione della scena. Poiché questa operazione avviene nello spazio colore raw specifico della fotocamera, gli algoritmi di bilanciamento del bianco devono adattarsi a diverse fotocamere. Questo articolo introduce un metodo basato sull'apprendimento per la costanza del colore cross-camera che generalizza a nuove fotocamere senza necessità di riaddestramento. Il nostro metodo sfrutta le matrici di correzione del colore (CCM) pre-calibrate disponibili sugli ISP, che mappano lo spazio colore raw della fotocamera in uno spazio standard (ad esempio, CIE XYZ). Utilizziamo queste CCM per trasformare i colori di illuminazione predefiniti (ad esempio, lungo il locus di Planck) nello spazio raw della fotocamera in test. Gli illuminanti mappati vengono codificati in un embedding compatto dell'impronta digitale della fotocamera (CFE), che consente alla rete di adattarsi a fotocamere mai viste. Per prevenire l'overfitting dovuto al numero limitato di fotocamere e CCM durante l'addestramento, introduciamo una tecnica di data augmentation che interpola tra fotocamere e le loro CCM. I risultati sperimentali su più dataset e architetture mostrano che il nostro metodo raggiunge lo stato dell'arte nella costanza del colore cross-camera, rimanendo leggero e basandosi solo su dati facilmente disponibili negli ISP delle fotocamere.
L'Audio Descrizione (AD) cinematografica mira a narrare il contenuto visivo durante i segmenti privi di dialoghi, beneficiando in particolare il pubblico non vedente e ipovedente (BVI). Rispetto alla sottotitolazione generale dei video, l'AD richiede una narrazione pertinente alla trama con riferimenti espliciti ai nomi dei personaggi, ponendo sfide uniche nella comprensione del film. Per identificare i personaggi principali attivi e concentrarsi sulle regioni rilevanti per la trama, proponiamo FocusedAD, un nuovo framework che fornisce audio descrizioni cinematografiche centrate sui personaggi. Esso include: (i) un Modulo di Percezione dei Personaggi (CPM) per tracciare le regioni dei personaggi e collegarle ai nomi; (ii) un Modulo di Priorità Dinamica (DPM) che inietta indizi contestuali dalle AD precedenti e dai sottotitoli tramite prompt soft apprendibili; e (iii) un Modulo di Sottotitolazione Focalizzata (FCM) che genera narrazioni arricchite con dettagli pertinenti alla trama e personaggi nominati. Per superare le limitazioni nell'identificazione dei personaggi, introduciamo anche una pipeline automatizzata per la costruzione di banche di query sui personaggi. FocusedAD raggiunge prestazioni all'avanguardia su molteplici benchmark, inclusi risultati zero-shot solidi su MAD-eval-Named e il nostro nuovo dataset proposto, Cinepile-AD. Codice e dati saranno rilasciati su https://github.com/Thorin215/FocusedAD.
Introduciamo Complex-Edit, un benchmark completo progettato per valutare sistematicamente i modelli di editing di immagini basati su istruzioni attraverso istruzioni di varia complessità. Per sviluppare questo benchmark, sfruttiamo GPT-4o per raccogliere automaticamente un insieme diversificato di istruzioni di editing su larga scala. Il nostro approccio segue una pipeline ben strutturata chiamata ``Chain-of-Edit'': generiamo prima singoli task di editing atomici in modo indipendente e poi li integriamo per formare istruzioni complesse e coerenti. Inoltre, introduciamo una serie di metriche per valutare vari aspetti delle prestazioni di editing, insieme a una pipeline di auto-valutazione basata su VLM che supporta valutazioni su larga scala. Il nostro benchmark fornisce diverse intuizioni significative: 1) I modelli open-source hanno prestazioni significativamente inferiori rispetto ai modelli proprietari chiusi, con il divario di prestazioni che aumenta all'aumentare della complessità delle istruzioni; 2) L'aumento della complessità delle istruzioni compromette principalmente la capacità dei modelli di conservare gli elementi chiave delle immagini di input e di preservare la qualità estetica complessiva; 3) Scomporre un'istruzione complessa in una sequenza di passi atomici, eseguiti in modo sequenziale, degrada sostanzialmente le prestazioni su più metriche; 4) Una semplice strategia di selezione Best-of-N migliora i risultati sia per l'editing diretto che per l'approccio sequenziale passo-passo; e 5) Osserviamo una ``maledizione dei dati sintetici'': quando i dati sintetici sono coinvolti nell'addestramento del modello, le immagini modificate da tali modelli tendono ad apparire sempre più sintetiche all'aumentare della complessità delle istruzioni di editing — un fenomeno che, curiosamente, si manifesta anche negli output più recenti di GPT-4o.
I modelli linguistici di grandi dimensioni (LLM) stanno sempre più utilizzando la generazione aumentata dal recupero (RAG) per migliorare la veridicità delle loro risposte. Tuttavia, nella pratica, questi sistemi spesso devono gestire query ambigue da parte degli utenti e informazioni potenzialmente conflittuali provenienti da più fonti, oltre a sopprimere informazioni inesatte provenienti da documenti rumorosi o irrilevanti. I lavori precedenti hanno generalmente studiato e affrontato queste sfide in modo isolato, considerando solo un aspetto alla volta, come la gestione dell'ambiguità o la robustezza al rumore e alla disinformazione. Noi, invece, consideriamo più fattori simultaneamente, proponendo (i) RAMDocs (Recupero con Ambiguità e Disinformazione nei Documenti), un nuovo dataset che simula scenari complessi e realistici di evidenze conflittuali per una query dell'utente, inclusi ambiguità, disinformazione e rumore; e (ii) MADAM-RAG, un approccio multi-agente in cui gli agenti LLM dibattono sui meriti di una risposta attraverso più round, consentendo a un aggregatore di raccogliere risposte corrispondenti a entità disambiguate mentre scarta disinformazione e rumore, gestendo così congiuntamente diverse fonti di conflitto. Dimostriamo l'efficacia di MADAM-RAG utilizzando sia modelli closed che open-source su AmbigDocs -- che richiede di presentare tutte le risposte valide per query ambigue -- migliorando rispetto a forti baseline RAG fino all'11,40%, e su FaithEval -- che richiede di sopprimere la disinformazione -- dove miglioriamo fino al 15,80% (in termini assoluti) con Llama3.3-70B-Instruct. Inoltre, troviamo che RAMDocs rappresenta una sfida per le baseline RAG esistenti (Llama3.3-70B-Instruct ottiene solo un punteggio di esatto match del 32,60). Mentre MADAM-RAG inizia ad affrontare questi fattori conflittuali, la nostra analisi indica che rimane un divario sostanziale, specialmente quando si aumenta il livello di squilibrio nelle evidenze a supporto e nella disinformazione.
Garantire un impiego etico dei modelli di testo-immagine richiede tecniche efficaci per prevenire la generazione di contenuti dannosi o inappropriati. Sebbene i metodi di cancellazione concettuale offrano una soluzione promettente, gli approcci esistenti basati su fine-tuning presentano limitazioni significative. I metodi senza ancoraggio rischiano di perturbare le traiettorie di campionamento, causando artefatti visivi, mentre i metodi basati su ancoraggio si affidano alla selezione euristica di concetti di ancoraggio. Per superare queste carenze, introduciamo un framework di fine-tuning, denominato ANT, che guida Automaticamente le Traiettorie di deNoising per evitare concetti indesiderati. ANT si basa su un'idea chiave: invertire la direzione di condizionamento della guida senza classificatore durante le fasi intermedie e finali del denoising consente una modifica precisa del contenuto senza compromettere l'integrità strutturale nelle fasi iniziali. Ciò ispira un obiettivo consapevole della traiettoria che preserva l'integrità del campo della funzione di punteggio nelle fasi iniziali, che orienta i campioni verso il manifold delle immagini naturali, senza fare affidamento sulla selezione euristica di concetti di ancoraggio. Per la cancellazione di un singolo concetto, proponiamo una mappa di salienza dei pesi potenziata da aumentazioni per identificare con precisione i parametri critici che contribuiscono maggiormente al concetto indesiderato, consentendo una cancellazione più completa ed efficiente. Per la cancellazione di più concetti, la nostra funzione obiettivo offre una soluzione versatile plug-and-play che migliora significativamente le prestazioni. Esperimenti estensivi dimostrano che ANT raggiunge risultati all'avanguardia sia nella cancellazione di singoli che di più concetti, producendo output di alta qualità e sicuri senza compromettere la fedeltà generativa. Il codice è disponibile all'indirizzo https://github.com/lileyang1210/ANT.
Modelli linguistici più recenti e di dimensioni ridotte come Phi-3.5 e Phi-4 si basano su dati sintetici generati utilizzando modelli linguistici più grandi. Rimangono domande aperte sull'utilizzo di dati sintetici per altri casi d'uso, come l'adattamento di LLM a domini specifici. Una limitazione chiave dei dati sintetici è la bassa diversità, che influisce negativamente sulla loro applicabilità a valle per migliorare altri modelli. Per affrontare questo problema, proponiamo MetaSynth, un metodo per generare dati sintetici che migliora la diversità attraverso il meta-prompting, in cui un modello linguistico coordina più agenti LLM "esperti" per generare dati in modo collaborativo. Utilizzando solo 25 milioni di token di dati sintetici generati con MetaSynth, abbiamo adattato con successo un LLM ben addestrato (Mistral-7B-v0.3) a due domini specializzati—Finanza e Biomedicina—senza compromettere le capacità del modello risultante in compiti generali. Inoltre, abbiamo valutato la diversità dei nostri dati sintetici utilizzando sette metriche automatizzate e abbiamo riscontrato che si avvicina alla diversità dei corpora di pre-addestramento degli LLM. Il pre-addestramento continuo di Mistral-7B-v0.3 con MetaSynth supera notevolmente il modello LLM di base, mostrando miglioramenti fino al 4,08% in Finanza e al 13,75% in Biomedicina. Lo stesso modello mostra prestazioni ridotte quando addestrato su dati generati utilizzando un prompt basato su template, anche quando il template include generazioni precedenti e vari esempi In-Context di dati reali. I nostri risultati suggeriscono che pochi milioni di token di dati sintetici diversificati, senza mescolare alcun dato reale, sono sufficienti per un adattamento efficace al dominio quando si utilizza MetaSynth.
Le architetture single-stream che utilizzano backbone Vision Transformer (ViT) mostrano un grande potenziale per il tracciamento in tempo reale di UAV di recente. Tuttavia, le frequenti occlusioni causate da ostacoli come edifici e alberi rivelano un importante svantaggio: questi modelli spesso mancano di strategie per gestire efficacemente le occlusioni. Sono necessari nuovi metodi per migliorare la resilienza alle occlusioni dei modelli single-stream ViT nel tracciamento aereo. In questo lavoro, proponiamo di apprendere Rappresentazioni Robuste alle Occlusioni (ORR) basate su ViT per il tracciamento di UAV, imponendo un'invarianza della rappresentazione delle caratteristiche di un target rispetto a operazioni di mascheramento casuale modellate da un processo spaziale di Cox. Si spera che questo mascheramento casuale simuli approssimativamente le occlusioni del target, consentendoci così di apprendere ViT robuste alle occlusioni del target per il tracciamento di UAV. Questo framework è denominato ORTrack. Inoltre, per facilitare applicazioni in tempo reale, proponiamo un metodo di Distillazione della Conoscenza Basata su Caratteristiche Adattive (AFKD) per creare un tracker più compatto, che imita in modo adattivo il comportamento del modello insegnante ORTrack in base alla difficoltà del compito. Questo modello studente, denominato ORTrack-D, conserva gran parte delle prestazioni di ORTrack offrendo una maggiore efficienza. Esperimenti estesi su più benchmark convalidano l'efficacia del nostro metodo, dimostrando prestazioni all'avanguardia. Il codice è disponibile all'indirizzo https://github.com/wuyou3474/ORTrack.