Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Large Language Models (LLM) hanno mostrato prestazioni notevoli nei compiti di ragionamento. Utilizzano la generazione di token autoregressiva per costruire traiettorie di ragionamento, consentendo lo sviluppo di una catena coerente di pensiero. In questo lavoro, esploriamo l'impatto dei singoli token sui risultati finali dei compiti di ragionamento. Identifichiamo l'esistenza di "token critici" che portano a traiettorie di ragionamento errate nei LLM. In particolare, scopriamo che i LLM tendono a produrre risultati positivi quando sono costretti a decodificare altri token invece dei token critici. Motivati da questa osservazione, proponiamo un approccio innovativo - cDPO - progettato per riconoscere automaticamente e condurre ricompense a livello di token per i token critici durante il processo di allineamento. In particolare, sviluppiamo un approccio di stima contrastiva per identificare automaticamente i token critici. Ciò è ottenuto confrontando la probabilità di generazione di modelli positivi e negativi. Per raggiungere questo obiettivo, sintonizziamo separatamente i modelli positivi e negativi su varie traiettorie di ragionamento, consentendo loro di identificare i token critici all'interno delle traiettorie errate che contribuiscono a risultati errati. Inoltre, per allineare ulteriormente il modello con le informazioni sui token critici durante il processo di allineamento, estendiamo gli algoritmi DPO convenzionali a livello di token DPO e utilizziamo la probabilità differenziale dai suddetti modelli positivi e negativi come peso importante per l'apprendimento a livello di token DPO. I risultati sperimentali sui benchmark GSM8K e MATH500 con due modelli ampiamente utilizzati, Llama-3 (8B e 70B) e deepseek-math (7B), dimostrano l'efficacia dell'approccio proposto cDPO.
I modelli attuali di generazione video eccellono nella creazione di brevi clip ma faticano ancora nella realizzazione di video multi-shot simili a film. I modelli esistenti, addestrati su dati su larga scala con ricchi mezzi computazionali, sono sorprendentemente inadeguati nel mantenere una trama logica e una coerenza visiva attraverso più riprese di uno script coeso poiché spesso vengono addestrati con un obiettivo a singola ripresa. A tal fine, proponiamo VideoGen-of-Thought (VGoT), un'architettura collaborativa e priva di addestramento progettata specificamente per la generazione di video multi-shot. VGoT è progettato con tre obiettivi in mente come segue. Generazione di Video Multi-Shot: Suddividiamo il processo di generazione video in una sequenza strutturata e modulare, inclusa (1) Generazione dello Script, che traduce una breve storia in dettagliati suggerimenti per ogni ripresa; (2) Generazione di Keyframe, responsabile della creazione di keyframe visualmente coerenti fedeli alle rappresentazioni dei personaggi; e (3) Generazione di Video a Livello di Ripresa, che trasforma le informazioni dagli script e dai keyframe in riprese; (4) Meccanismo di Smoothing che garantisce un output multi-shot coerente. Progettazione Narrativa Ragionevole: Ispirandoci alla scrittura di script cinematografici, il nostro approccio alla generazione di suggerimenti copre cinque domini chiave, garantendo coerenza logica, sviluppo dei personaggi e flusso narrativo in tutto il video. Coerenza tra Riprese: Garantiamo coerenza temporale e di identità sfruttando embedding preservativi dell'identità (IP) tra le riprese, che vengono creati automaticamente dalla narrazione. Inoltre, incorporiamo un meccanismo di smoothing tra riprese, che integra un confine di reset che combina efficacemente le caratteristiche latenti delle riprese adiacenti, risultando in transizioni fluide e mantenendo coerenza visiva in tutto il video. I nostri esperimenti dimostrano che VGoT supera i metodi esistenti di generazione video nella produzione di video multi-shot di alta qualità e coerenti.
Abilitare una collaborazione efficace tra LLM è un passo cruciale verso lo sviluppo di sistemi autonomi capaci di risolvere problemi complessi. Mentre i LLM sono tipicamente utilizzati come generatori di singoli modelli, in cui gli esseri umani criticano e affinano le loro uscite, il potenziale per modelli collaborativi addestrati congiuntamente rimane in gran parte inesplorato. Nonostante risultati promettenti in contesti di comunicazione e dibattito multi-agente, si è fatto poco progresso nell'addestrare modelli a lavorare insieme su compiti. In questo articolo, presentiamo un primo passo verso il "Multi-agent LLM training" (MALT) su problemi di ragionamento. Il nostro approccio impiega un setup multi-agente sequenziale con LLM eterogenei assegnati a ruoli specializzati: un generatore, un verificatore e un modello di perfezionamento che risolvono iterativamente i problemi. Proponiamo un processo di generazione di dati sintetici basato sull'espansione della traiettoria e una strategia di assegnazione del credito guidata da ricompense basate sull'esito congiunto. Ciò consente al nostro setup post-addestramento di utilizzare sia traiettorie positive che negative per migliorare autonomamente le capacità specializzate di ciascun modello come parte di un sistema sequenziale congiunto. Valutiamo il nostro approccio su MATH, GSM8k e CQA, dove MALT sui modelli Llama 3.1 8B raggiunge miglioramenti relativi del 14,14%, 7,12% e 9,40% rispettivamente rispetto allo stesso modello di base. Ciò dimostra un primo avanzamento nelle capacità cooperative multi-agente per le prestazioni su domande di ragionamento matematico e di buon senso. Più in generale, il nostro lavoro fornisce una direzione concreta per la ricerca intorno agli approcci di addestramento multi-agente dei LLM.
Diversamente dai modelli di ricompensa di risultato (ORMs), che valutano le risposte complete, un modello di ricompensa di processo (PRM) valuta una traiettoria di ragionamento passo dopo passo, fornendo ricompense più dense e dettagliate. Tuttavia, addestrare un PRM richiede etichette annotate ad ogni passaggio intermedio, presentando significativi sfide sia per la raccolta manuale che automatica dei dati. Questo articolo si propone di affrontare questa sfida. Sia teoricamente che empiricamente, dimostriamo che un PRM implicito può essere ottenuto senza costi aggiuntivi, addestrando semplicemente un ORM sulle etichette di livello di risposta più economiche. L'unica ipotesi è di parametrizzare la ricompensa di risultato come i rapporti di log-verosimiglianza dei modelli di politica e di riferimento, che possono essere ottimizzati indipendentemente dalla scelta specifica degli obiettivi di perdita. Negli esperimenti, istanziamo i nostri PRM impliciti con vari obiettivi e valutiamo le loro prestazioni su MATH. Mostriamo che il nostro PRM implicito supera un forte baselin di tipo MCTS alla Math-Shepherd utilizzando meno di 1/38 dei dati di addestramento. Le sue prestazioni possono essere ulteriormente migliorate con il voto a maggioranza. Troviamo inoltre che aumentare le istruzioni e le risposte beneficia il nostro PRM implicito, e quest'ultimo porta a un guadagno maggiore. In particolare, scopriamo che il nostro PRM implicito, quando istanziato con la perdita di entropia incrociata (CE), è più efficiente nei dati e può continuare a migliorare i modelli di generazione anche quando addestrato con una sola risposta per istruzione, la configurazione che soffre di estrema scarsità e squilibrio dei dati. Inoltre, le istruzioni dovrebbero essere rilevanti per i compiti successivi mentre la diversità delle risposte non porta benefici. Sorprendentemente, addestrare su etichette aggiuntive di passaggi Math-Shepherd non porta ulteriori miglioramenti al nostro PRM implicito addestrato solo sui dati di risultato. Speriamo che il nostro lavoro incoraggi una rivalutazione degli approcci di addestramento dei PRM e contribuisca a rendere i PRM più accessibili.
I grandi modelli linguistici (LLM) hanno reso possibile la creazione di LLM multimodali che dimostrano una forte comprensione dei dati visivi come immagini e video. Tuttavia, questi modelli di solito si basano su un'ampia quantità di token visivi da codificatori visivi, generando elevate richieste computazionali che limitano la loro applicabilità in ambienti con risorse limitate e per compiti a lungo contesto. In questo lavoro, proponiamo un metodo di inferenza adattiva senza addestramento per i LLM multimodali che può soddisfare una vasta gamma di requisiti di efficienza con un minimo calo delle prestazioni. Il nostro metodo consiste in a) fusione iterativa dei token basata sulla similarità dell'incorporamento prima dei LLM e b) potatura progressiva dei token all'interno dei livelli dei LLM basata sull'importanza multimodale. Con un design minimalista, il nostro metodo può essere applicato sia ai LLM video che alle immagini. Estesi esperimenti su diversi benchmark video e immagini dimostrano che il nostro metodo riduce sostanzialmente il carico computazionale (ad esempio, una riduzione di 7 volte nei FLOPs) preservando le prestazioni dei LLM video e immagini. Inoltre, sotto un costo computazionale simile, il nostro metodo supera i metodi all'avanguardia nella comprensione di video lunghi (ad esempio, +4,6 su MLVU). Inoltre, la nostra analisi approfondita fornisce approfondimenti sulla ridondanza dei token e sui comportamenti dei livelli dei LLM, offrendo indicazioni per futuri studi nella progettazione di LLM multimodali efficienti. Il nostro codice sarà disponibile su https://github.com/LaVi-Lab/AIM.
Recentemente, i modelli di linguaggio multimodali di grandi dimensioni (MLLM), come GPT-4o, Gemini 1.5 Pro e Reka Core, hanno ampliato le proprie capacità per includere le modalità visione e audio. Mentre questi modelli dimostrano prestazioni impressionanti in una vasta gamma di applicazioni audiovisive, il nostro DeafTest proposto rivela che i MLLM spesso faticano con compiti semplici che gli esseri umani trovano banali: 1) determinare quale dei due suoni è più forte, e 2) determinare quale dei due suoni ha un tono più alto. Motivati da queste osservazioni, introduciamo AV-Odyssey Bench, un benchmark audiovisivo completo progettato per valutare se quei MLLM possono veramente comprendere le informazioni audiovisive. Questo benchmark include 4.555 problemi attentamente elaborati, ognuno incorporando componenti testuali, visive e audio. Per inferire con successo le risposte, i modelli devono sfruttare efficacemente gli indizi provenienti sia dagli input visivi che da quelli audio. Per garantire una valutazione precisa e obiettiva delle risposte dei MLLM, abbiamo strutturato le domande come a scelta multipla, eliminando la necessità di valutazione umana o valutazione assistita da LLM. Valutiamo una serie di modelli closed-source e open-source e riassumiamo le osservazioni. Rivelando i limiti dei modelli attuali, miriamo a fornire utili spunti per la raccolta futura di dataset e lo sviluppo dei modelli.
Il Generazione potenziata da recupero (RAG) migliora i Grandi Modelli Linguistici (LLM) integrando conoscenze esterne per ridurre le allucinazioni e incorporare informazioni aggiornate senza dover ripetere l'addestramento. Come parte essenziale del RAG, le basi di conoscenza esterne vengono comunemente costruite estraendo dati strutturati da documenti PDF non strutturati utilizzando il Riconoscimento Ottico dei Caratteri (OCR). Tuttavia, date le imperfette previsioni dell'OCR e la rappresentazione non uniforme intrinseca dei dati strutturati, le basi di conoscenza contengono inevitabilmente vari rumori dell'OCR. In questo articolo, presentiamo OHRBench, il primo benchmark per comprendere l'impatto a cascata dell'OCR sui sistemi RAG. OHRBench include 350 documenti PDF non strutturati accuratamente selezionati da sei domini di applicazione RAG del mondo reale, insieme a domande e risposte derivate da elementi multimodali nei documenti, sfidando le soluzioni OCR esistenti utilizzate per RAG. Per comprendere meglio l'impatto dell'OCR sui sistemi RAG, identifichiamo due tipi principali di rumore dell'OCR: Rumore Semantico e Rumore di Formattazione e applichiamo perturbazioni per generare un insieme di dati strutturati con diversi gradi di ciascun rumore dell'OCR. Utilizzando OHRBench, conduciamo innanzitutto una valutazione completa delle attuali soluzioni OCR e riveliamo che nessuna è competente per la costruzione di basi di conoscenza di alta qualità per i sistemi RAG. Valutiamo quindi sistematicamente l'impatto di questi due tipi di rumore e dimostriamo la vulnerabilità dei sistemi RAG. Inoltre, discutiamo il potenziale dell'utilizzo di Modelli Visione-Linguaggio (VLM) senza OCR nei sistemi RAG. Codice: https://github.com/opendatalab/OHR-Bench
Dopo l'introduzione dei Grandi Modelli Linguistici (LLM), si sono registrati notevoli miglioramenti nelle prestazioni dei compiti di Generazione del Linguaggio Naturale (NLG), inclusa la Riassunzione del Testo e la Traduzione Automatica. Tuttavia, i LLM continuano a produrre output contenenti allucinazioni, ossia contenuti non basati su informazioni factuali. Pertanto, lo sviluppo di metodi per valutare la factualità dei LLM è diventato urgente. Infatti, di recente sono emersi risorse per la valutazione della factualità. Anche se sfidanti, queste risorse presentano una o più delle seguenti limitazioni: (i) sono adattate a un compito o dominio specifico; (ii) sono di dimensioni limitate, impedendo così la formazione di nuovi valutatori di factualità; (iii) sono progettate per compiti di verifica più semplici, come la verifica delle affermazioni. Per affrontare questi problemi, presentiamo LLM-Oasis, a quanto ci risulta la più grande risorsa per addestrare valutatori di factualità end-to-end. LLM-Oasis è costruito estraendo affermazioni da Wikipedia, falsificando un sottoinsieme di queste affermazioni e generando coppie di testi factuali e non factuali. Ci affidiamo poi ad annotatori umani per convalidare la qualità del nostro dataset e creare un set di test standard per il benchmarking dei sistemi di valutazione della factualità. I nostri esperimenti dimostrano che LLM-Oasis rappresenta una sfida significativa per i LLM all'avanguardia, con GPT-4o che raggiunge fino al 60% di accuratezza nel nostro proposto compito di valutazione della factualità end-to-end, evidenziandone il potenziale per guidare la ricerca futura nel campo.
Il controllo del movimento è cruciale per generare contenuti video espressivi e coinvolgenti; tuttavia, la maggior parte dei modelli esistenti di generazione video si basa principalmente su prompt di testo per il controllo, che faticano a catturare le sfumature delle azioni dinamiche e delle composizioni temporali. A questo scopo, addestriamo un modello di generazione video condizionato a traiettorie di movimento spazio-temporali sparse o dense. In contrasto con il lavoro precedente sulla condizionatura del movimento, questa rappresentazione flessibile può codificare qualsiasi numero di traiettorie, movimenti specifici degli oggetti o del contesto globale e movimenti temporalmente sparsi; a causa della sua flessibilità ci riferiamo a questa condizionatura come prompt di movimento. Mentre gli utenti possono specificare direttamente traiettorie sparse, mostriamo anche come tradurre richieste degli utenti di alto livello in prompt di movimento dettagliati, semi-densi, un processo che definiamo espansione del prompt di movimento. Dimostriamo la versatilità del nostro approccio attraverso varie applicazioni, tra cui il controllo del movimento della telecamera e degli oggetti, "interagire" con un'immagine, trasferimento di movimento e modifica di immagini. I nostri risultati mostrano comportamenti emergenti, come la fisica realistica, suggerendo il potenziale dei prompt di movimento per esplorare i modelli video e interagire con i futuri modelli generativi del mondo. Infine, valutiamo quantitativamente, conduciamo uno studio umano e dimostriamo una forte performance. I risultati video sono disponibili sulla nostra pagina web: https://motion-prompting.github.io/
Introduciamo OmniCreator, un nuovo framework in grado di condurre la generazione unificata (immagine+video) guidata dal testo e l'editing, tutto in un'unica piattaforma. OmniCreator acquisisce capacità generative ed universali di editing in maniera auto-supervisionata, utilizzando coppie originali di testo e video come condizioni e sfruttando lo stesso video come obiettivo di denoising per apprendere la corrispondenza semantica tra video e testo. Durante l'inferenza, quando presentato con un prompt di testo e un video, OmniCreator è in grado di generare un risultato fedele ad entrambi, ottenendo un effetto di editing universale non vincolato rispetto al lavoro di editing esistente che si concentra principalmente su determinati tipi di editing o si basa su controlli aggiuntivi (ad esempio, condizioni strutturali, caratteristiche di attenzione o inversione DDIM). D'altra parte, quando presentato solo con un prompt di testo, OmniCreator diventa generativo, producendo video di alta qualità come risultato della corrispondenza semantica appresa. È importante notare che le stesse capacità si estendono anche alle immagini, rendendo OmniCreator un framework veramente unificato. Inoltre, a causa della mancanza di benchmark esistenti per l'editing generativo di video, introduciamo il dataset OmniBench-99, progettato per valutare in modo esaustivo le prestazioni dei modelli di editing generativo di video. Estesi esperimenti dimostrano che OmniCreator mostra una sostanziale superiorità su tutti gli altri modelli.
La ricerca sui Modelli di Visione-Linguaggio in 3D (3D-VLMs) sta attirando sempre più attenzione, essenziale per lo sviluppo dell'Intelligenza Artificiale incorporata all'interno di scene in 3D, come la navigazione visiva e la risposta a domande incorporate. A causa dell'alta densità di caratteristiche visive, specialmente in grandi scene in 3D, individuare con precisione le informazioni visive rilevanti per il compito è una sfida. I lavori esistenti cercano di segmentare tutti gli oggetti e considerare le loro caratteristiche come rappresentazioni della scena. Tuttavia, queste caratteristiche degli oggetti agnostiche rispetto al compito includono molte informazioni ridondanti e dettagli mancanti per l'area rilevante per il compito. Per affrontare questi problemi, proponiamo LSceneLLM, un framework adattivo che identifica automaticamente le aree rilevanti per il compito sfruttando le preferenze visive di LLM per diversi compiti, seguito da un modulo ingranditore di scene plug-and-play per catturare dettagli fini nelle aree focalizzate. In particolare, un selettore di token denso esamina la mappa di attenzione di LLM per identificare le preferenze visive per l'input dell'istruzione. Successivamente, ingrandisce i dettagli fini dell'area di messa a fuoco. Un modulo di auto-attenzione adattivo viene sfruttato per fondere le informazioni visive grossolane e selezionate fini. Per valutare in modo esaustivo la capacità di comprensione di grandi scene dei 3D-VLMs, introduciamo ulteriormente un benchmark di comprensione tra stanze, XR-Scene, che contiene una serie di compiti di comprensione di grandi scene tra cui XR-QA, XR-PianificazioneIncorporata e XR-SceneCaption. Gli esperimenti mostrano che il nostro metodo supera i metodi esistenti sia nella comprensione di grandi scene che nei benchmark di comprensione delle scene esistenti. Inoltre, l'introduzione del nostro modulo ingranditore di scene nei 3D-VLMs esistenti porta a un significativo miglioramento.
I tokenizzatori di visione hanno guadagnato molta attenzione per la loro scalabilità e compattezza; i lavori precedenti si basano su iperparametri GAN vecchia scuola, confronti tendenziosi e mancanza di un'analisi completa dei comportamenti di scalabilità. Per affrontare tali questioni, introduciamo la Quantizzazione Sferica Raggruppata (GSQ), che presenta inizializzazione del codebook sferica e regolarizzazione della ricerca per vincolare il latente del codebook a una superficie sferica. La nostra analisi empirica delle strategie di addestramento del tokenizzatore di immagini dimostra che GSQ-GAN raggiunge una qualità di ricostruzione superiore rispetto ai metodi all'avanguardia con meno iterazioni di addestramento, fornendo una solida base per gli studi di scalabilità. Sulla base di ciò, esaminiamo sistematicamente i comportamenti di scalabilità di GSQ, in particolare nella dimensionalità latente, dimensione del codebook e rapporti di compressione, e il loro impatto sulle prestazioni del modello. Le nostre scoperte rivelano comportamenti distinti a livelli di compressione spaziale alti e bassi, sottolineando le sfide nella rappresentazione di spazi latenti ad alta dimensionalità. Mostramo che GSQ può ristrutturare latenti ad alta dimensionalità in spazi compatti a bassa dimensionalità, consentendo così una scalabilità efficiente con qualità migliorata. Di conseguenza, GSQ-GAN raggiunge un downsampling di 16 volte con un FID di ricostruzione (rFID) di 0.50.
Il Riferimento alla Segmentazione delle Immagini (RSI) è un compito avanzato di visione-linguaggio che consiste nell'identificare e segmentare gli oggetti all'interno di un'immagine come descritto da descrizioni di testo libero. Mentre studi precedenti si sono concentrati sull'allineamento delle caratteristiche visive e linguistiche, l'esplorazione delle tecniche di addestramento, come l'aumento dei dati, rimane poco approfondita. In questo lavoro, esploriamo un efficace aumento dei dati per RSI e proponiamo un nuovo framework di addestramento chiamato Segmentazione delle Immagini con Riferimento Mascherato (MaskRIS). Osserviamo che gli aumenti convenzionali delle immagini non sono sufficienti per RSI, portando a una degradazione delle prestazioni, mentre un semplice mascheramento casuale migliora significativamente le prestazioni di RSI. MaskRIS utilizza sia il mascheramento delle immagini che del testo, seguito da Apprendimento Contestuale Consapevole della Distorsione (DCL) per sfruttare appieno i vantaggi della strategia di mascheramento. Questo approccio può migliorare la robustezza del modello alle occlusioni, alle informazioni incomplete e alle varie complessità linguistiche, portando a un significativo miglioramento delle prestazioni. Gli esperimenti dimostrano che MaskRIS può essere facilmente applicato a vari modelli di RSI, superando i metodi esistenti sia in impostazioni completamente supervisionate che debolmente supervisionate. Infine, MaskRIS raggiunge nuove prestazioni di primo piano sui dataset RefCOCO, RefCOCO+ e RefCOCOg. Il codice è disponibile su https://github.com/naver-ai/maskris.
Le tecnologie dell'IA stanno rapidamente passando dalla ricerca alla produzione. Con la popolarità dei Modelli Fondamentali (MF) che generano testo, immagini e video, i sistemi basati sull'IA stanno aumentando la loro complessità. Rispetto al software tradizionale basato sull'IA, i sistemi che impiegano MF, o sistemi basati su GenAI, sono più difficili da progettare a causa della loro scala e versatilità. Ciò rende necessario documentare le migliori pratiche, note come modelli di progettazione nell'ingegneria del software, che possono essere utilizzate in tutte le applicazioni GenAI. Il nostro primo contributo è quello di formalizzare due tecniche, la Decomposizione dei Compiti e la Generazione con Recupero Potenziato (RAG), come modelli di progettazione per i sistemi basati su GenAI. Discutiamo i loro compromessi in termini di attributi di qualità del software e commentiamo su approcci alternativi. Raccomandiamo agli operatori dell'IA di considerare queste tecniche non solo da un punto di vista scientifico ma anche dal punto di vista delle proprietà ingegneristiche desiderate come flessibilità, manutenibilità, sicurezza e protezione. Come secondo contributo, descriviamo la nostra esperienza industriale nell'applicare la Decomposizione dei Compiti e la RAG per costruire un'applicazione GenAI complessa del mondo reale per gli utenti aziendali: Generazione di Flussi di Lavoro. Il compito di generare flussi di lavoro comporta la creazione di un piano specifico utilizzando i dati dall'ambiente di sistema, prendendo come input un requisito dell'utente. Poiché questi due modelli influenzano l'intero ciclo di sviluppo dell'IA, spieghiamo come abbiano inciso sulla creazione del dataset, l'addestramento del modello, la valutazione del modello e le fasi di distribuzione.
Il concetto di AIPC sta guadagnando popolarità e sempre più CPU ibride eseguiranno modelli di intelligenza artificiale sui dispositivi client. Tuttavia, il framework attuale di inferenza AI trascura la disparità delle capacità hardware delle CPU ibride, portando a prestazioni di inferenza basse. Per affrontare questo problema, abbiamo introdotto un metodo parallelo dinamico per le CPU ibride, che aumenta significativamente le prestazioni di inferenza LLM bilanciando il carico di lavoro per ciascun core di una CPU ibrida prima dell'avvio del lavoro parallelo. Questo metodo ha permesso a Neural Speed di raggiungere più del 90% (in media) della larghezza di banda di memoria su due CPU ibride Intel.
La rilevazione dei momenti salienti nei video e il recupero dei momenti (HD/MR) sono essenziali nell'analisi video. I recenti modelli trasformer di previsione congiunta spesso trascurano la dinamica tra compiti e l'allineamento e il perfezionamento video-testo. Inoltre, la maggior parte dei modelli utilizza tipicamente meccanismi di attenzione limitati e unidirezionali, risultando in rappresentazioni debolmente integrate e prestazioni non ottimali nel catturare l'interdipendenza tra le modalità video e testo. Sebbene i modelli di lingua grande e di visione-lingua (LLM/LVLM) abbiano acquisito importanza in vari settori, la loro applicazione in questo campo rimane relativamente poco esplorata. Qui proponiamo VideoLights, un nuovo framework HD/MR che affronta queste limitazioni attraverso (i) moduli di Proiezione Convoluzionale e Perfezionamento delle Caratteristiche con una perdita di allineamento per una migliore allineamento delle caratteristiche video-testo, (ii) una rete di Fusione Incrociata Bi-direzionale per rappresentazioni di clip consapevoli delle query fortemente accoppiate, e (iii) un meccanismo di feedback congiunto unidirezionale che potenzia entrambi i compiti attraverso la correlazione. Inoltre, (iv) introduciamo perdite positive/negative dure per una penalizzazione degli errori adattiva e un apprendimento migliorato, e (v) sfruttiamo LVLM come BLIP-2 per un'integrazione di caratteristiche multimodali potenziata e un preaddestramento intelligente utilizzando dati sintetici generati da LVLM. Esperimenti approfonditi sui benchmark QVHighlights, TVSum e Charades-STA dimostrano prestazioni all'avanguardia. Codici e modelli sono disponibili su https://github.com/dpaul06/VideoLights.