Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante le loro prestazioni notevoli, lo sviluppo dei Grandi Modelli Linguistici (LLM) affronta una sfida critica nella supervisione scalabile: fornire un feedback efficace per compiti in cui l'evaluazione umana è difficile o in cui i LLM superano gli esseri umani. Sebbene vi sia un crescente interesse nell'utilizzo dei LLM per la critica, gli approcci attuali si basano ancora su annotazioni umane o modelli più potenti, lasciando irrisolto il problema dell'incremento delle capacità critiche senza supervisione esterna. Presentiamo SCRIT (CRITico in Auto-evoluzione), un framework che consente una vera auto-evoluzione delle capacità critiche. Tecnicamente, SCRIT si migliora autonomamente addestrandosi su dati sintetici, generati da un auto-critico basato su contrasto che utilizza soluzioni di riferimento per la critica passo dopo passo, e un meccanismo di auto-validazione che garantisce la qualità della critica attraverso gli esiti delle correzioni. Implementato con Qwen2.5-72B-Instruct, uno dei LLM più potenti, SCRIT ottiene fino a un miglioramento del 10,3\% nei benchmark di correzione della critica e identificazione degli errori. La nostra analisi rivela che le prestazioni di SCRIT scalano positivamente con la dimensione dei dati e del modello, superano gli approcci alternativi e beneficiano in modo critico del suo componente di auto-validazione.
La Generazione potenziata da Recupero (RAG) è una strategia potente per affrontare il problema della generazione di output factualmente scorretti nei modelli di base recuperando conoscenze esterne rilevanti alle query e incorporandole nel processo di generazione. Tuttavia, gli approcci RAG esistenti si sono principalmente concentrati sulle informazioni testuali, con alcuni recenti progressi che iniziano a considerare le immagini, trascurando in gran parte i video, una ricca fonte di conoscenza multimodale in grado di rappresentare eventi, processi e dettagli contestuali in modo più efficace rispetto a qualsiasi altra modalità. Mentre alcuni recenti studi esplorano l'integrazione dei video nel processo di generazione delle risposte, essi o predefiniscono video associati alle query senza recuperarli in base alle query, o convertono i video in descrizioni testuali senza sfruttarne la ricchezza multimodale. Per affrontare questi aspetti, presentiamo VideoRAG, un nuovo framework che non solo recupera dinamicamente video rilevanti in base alla loro pertinenza alle query, ma utilizza anche informazioni visive e testuali dei video nella generazione dell'output. Inoltre, per operazionalizzare ciò, il nostro metodo si basa sui recenti progressi dei Grandi Modelli Linguistici Video (LVLM), che consentono l'elaborazione diretta dei contenuti video per rappresentarli per il recupero e l'integrazione senza soluzione di continuità dei video recuperati insieme alle query. Convalidiamo sperimentalmente l'efficacia di VideoRAG, dimostrando che è superiore ai baselines pertinenti.
Il ragionamento è una capacità fondamentale per risolvere problemi complessi a più passaggi, in particolare in contesti visivi dove la comprensione sequenziale passo dopo passo è essenziale. Gli approcci esistenti mancano di un quadro completo per valutare il ragionamento visivo e non enfatizzano la risoluzione dei problemi passo dopo passo. A questo scopo, proponiamo un quadro completo per far progredire il ragionamento visivo passo dopo passo nei grandi modelli linguistici (LMMs) attraverso tre contributi chiave. In primo luogo, introduciamo un benchmark di ragionamento visivo appositamente progettato per valutare compiti di ragionamento a più passaggi. Il benchmark presenta una serie diversificata di sfide con otto diverse categorie che vanno dalla percezione visiva complessa al ragionamento scientifico con oltre 4k passaggi di ragionamento in totale, consentendo una valutazione robusta delle capacità dei LLMs di eseguire un ragionamento visivo accurato e interpretabile attraverso più passaggi. In secondo luogo, proponiamo una nuova metrica che valuta la qualità del ragionamento visivo alla granularità dei singoli passaggi, enfatizzando sia la correttezza che la coerenza logica. La metrica proposta offre approfondimenti più dettagliati sulle prestazioni di ragionamento rispetto alle tradizionali metriche di accuratezza del compito finale. In terzo luogo, presentiamo un nuovo modello di ragionamento visivo multimodale, chiamato LlamaV-o1, addestrato utilizzando un approccio di apprendimento curricolare a più passaggi, dove i compiti sono progressivamente organizzati per facilitare l'acquisizione graduale di abilità e la risoluzione dei problemi. Il LlamaV-o1 proposto è progettato per il ragionamento a più passaggi e apprende passo dopo passo attraverso un paradigma di addestramento strutturato. Estesi esperimenti mostrano che il nostro LlamaV-o1 supera i modelli open-source esistenti e si comporta in modo favorevole rispetto ai modelli proprietari close-source. Rispetto al recente Llava-CoT, il nostro LlamaV-o1 raggiunge un punteggio medio del 67,3 con un guadagno assoluto del 3,8\% su sei benchmark mentre è 5 volte più veloce durante la scalabilità dell'inferenza. Il nostro benchmark, modello e codice sono disponibili pubblicamente.
Lo sviluppo di sistemi robotici generali capaci di manipolare in ambienti non strutturati è una sfida significativa. Mentre i Modelli Visione-Linguaggio (VLM) eccellono nel ragionamento di senso comune di alto livello, mancano della comprensione spaziale 3D dettagliata richiesta per compiti di manipolazione precisa. Il raffinamento dei VLM su set di dati robotici per creare Modelli Visione-Linguaggio-Azione (VLA) è una soluzione potenziale, ma è ostacolato dai costi elevati di raccolta dati e dai problemi di generalizzazione. Per affrontare queste sfide, proponiamo una nuova rappresentazione centrata sugli oggetti che colma il divario tra il ragionamento di alto livello dei VLM e la precisione di basso livello richiesta per la manipolazione. La nostra intuizione chiave è che lo spazio canonico di un oggetto, definito dalle sue affordances funzionali, fornisce un modo strutturato e semanticamente significativo per descrivere primitive di interazione, come punti e direzioni. Queste primitive fungono da ponte, traducendo il ragionamento di senso comune dei VLM in vincoli spaziali 3D eseguibili. In questo contesto, introduciamo un sistema di manipolazione robotica a doppio loop chiuso, open-vocabulary: un loop per la pianificazione di alto livello attraverso il campionamento primitivo, la rappresentazione dell'interazione e il controllo VLM, e un altro per l'esecuzione di basso livello tramite il tracciamento della posa 6D. Questo design garantisce un controllo robusto e in tempo reale senza richiedere il raffinamento dei VLM. Estesi esperimenti dimostrano una forte generalizzazione senza training su diverse attività di manipolazione robotica, evidenziando il potenziale di questo approccio per automatizzare la generazione di dati di simulazione su larga scala.
La Consapevolezza Temporale, la capacità di ragionare dinamicamente in base al timestamp in cui viene posta una domanda, è la distinzione chiave tra i LLM video offline e online. A differenza dei modelli offline, che si basano su video completi per un'analisi statica post-hoc, i modelli online elaborano flussi video in modo incrementale e adattano dinamicamente le loro risposte in base al timestamp in cui viene posta la domanda. Nonostante la sua importanza, la consapevolezza temporale non è stata valutata in modo adeguato nei benchmark esistenti. Per colmare questa lacuna, presentiamo OVO-Bench (Online-VideO-Benchmark), un nuovo benchmark video che sottolinea l'importanza dei timestamp per la valutazione delle capacità avanzate di comprensione video online. OVO-Bench valuta la capacità dei LLM video di ragionare e rispondere agli eventi che si verificano in timestamp specifici in tre scenari distinti: (1) Tracciamento all'indietro: risalire agli eventi passati per rispondere alla domanda. (2) Comprensione in tempo reale: comprendere e rispondere agli eventi mentre si verificano al timestamp corrente. (3) Risposta attiva in avanti: ritardare la risposta fino a quando non diventa disponibile informazione futura sufficiente per rispondere alla domanda con precisione. OVO-Bench comprende 12 compiti, con 644 video unici e circa 2.800 meta-annotazioni dettagliate con timestamp accurati curati dall'uomo. Abbiamo combinato pipeline di generazione automatica con cura umana. Con questi campioni di alta qualità, abbiamo inoltre sviluppato una pipeline di valutazione per interrogare sistematicamente i LLM video lungo la linea temporale del video. Le valutazioni di nove Video-LLM rivelano che, nonostante i progressi sui benchmark tradizionali, i modelli attuali faticano con la comprensione video online, mostrando un divario significativo rispetto agli agenti umani. Speriamo che OVO-Bench possa promuovere progressi nei LLM video e ispirare futura ricerca sulla ragionamento video online. Il nostro benchmark e il codice sono disponibili su https://github.com/JoeLeelyf/OVO-Bench.
Il recente avanzamento dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) ha migliorato significativamente la loro percezione dettagliata delle singole immagini e la comprensione generale attraverso più immagini. Tuttavia, i MLLMs esistenti affrontano ancora sfide nel raggiungere un ancoraggio preciso in scenari multi-immagine complessi. Per affrontare questo problema, esploriamo inizialmente un framework Chain-of-Thought (CoT) che integra l'ancoraggio delle singole immagini con la comprensione multi-immagine. Sebbene parzialmente efficace, rimane instabile e fatica a catturare informazioni visive astratte a causa della sua natura non end-to-end. Pertanto, presentiamo Migician, il primo modello di ancoraggio multi-immagine in grado di eseguire un ancoraggio libero e accurato attraverso più immagini. Per supportare ciò, presentiamo il dataset MGrounding-630k, che comprende dati per diversi compiti di ancoraggio multi-immagine derivati da dataset esistenti, insieme a dati di istruzioni di ancoraggio libero di nuova generazione. Inoltre, proponiamo MIG-Bench, un benchmark completo progettato specificamente per valutare le capacità di ancoraggio multi-immagine. I risultati sperimentali dimostrano che il nostro modello raggiunge capacità di ancoraggio multi-immagine significativamente superiori, superando i migliori MLLMs esistenti del 21,61% e addirittura superando modelli molto più grandi da 70 miliardi. Il nostro codice, modello, dataset e benchmark sono completamente open-source.
I grandi modelli linguistici (LLM) hanno ottenuto prestazioni notevoli negli ultimi anni, ma sono fondamentalmente limitati dai dati di addestramento sottostanti. Per migliorare i modelli oltre i dati di addestramento, lavori recenti hanno esplorato come i LLM possano essere utilizzati per generare dati sintetici per un auto-miglioramento autonomo. Tuttavia, i passaggi successivi di auto-miglioramento possono raggiungere un punto di rendimenti decrescenti. In questo lavoro, proponiamo un approccio complementare verso l'auto-miglioramento in cui viene applicato il fine-tuning a una società multiagente di modelli linguistici. Un gruppo di modelli linguistici, tutti partendo dallo stesso modello di base, vengono specializzati in modo indipendente aggiornando ciascuno di essi utilizzando dati generati attraverso interazioni multiagente tra i modelli. Addestrando ciascun modello su insiemi di dati indipendenti, illustreremo come questo approccio consenta la specializzazione tra i modelli e la diversificazione sull'insieme dei modelli. Di conseguenza, il nostro sistema complessivo è in grado di preservare diverse catene di ragionamento e migliorare autonomamente su molte più iterazioni di fine-tuning rispetto ai metodi di auto-miglioramento a singolo agente. Illustreremo quantitativamente l'efficacia dell'approccio su una vasta gamma di compiti di ragionamento.
La comprensione strutturata delle immagini, come l'interpretazione di tabelle e grafici, richiede di riorientarsi strategicamente tra varie strutture e testi all'interno di un'immagine, formando una sequenza di ragionamento per giungere alla risposta finale. Tuttavia, attuali modelli linguistici multimodali (LLM) di grandi dimensioni mancano di questa capacità di attenzione selettiva multihop. In questo lavoro, presentiamo ReFocus, un framework semplice ma efficace che dota i LLM multimodali della capacità di generare "pensieri visivi" eseguendo una modifica visuale sull'immagine di input attraverso codice, spostando e perfezionando i loro focus visivi. In particolare, ReFocus consente ai LLM multimodali di generare codici Python per chiamare strumenti e modificare l'immagine di input, disegnando sequenzialmente riquadri, evidenziando sezioni e mascherando aree, potenziando così il processo di ragionamento visivo. Sperimentiamo su una vasta gamma di compiti di comprensione strutturata delle immagini che coinvolgono tabelle e grafici. ReFocus migliora notevolmente le prestazioni su tutti i compiti rispetto a GPT-4o senza modifica visuale, ottenendo un guadagno medio del 11,0% sui compiti delle tabelle e del 6,8% sui compiti dei grafici. Presentiamo un'analisi approfondita degli effetti delle diverse modifiche visive e dei motivi per cui ReFocus può migliorare le prestazioni senza introdurre informazioni aggiuntive. Inoltre, raccogliamo un set di allenamento da 14k utilizzando ReFocus e dimostriamo che tale catena di pensiero visuale con informazioni intermedie offre una migliore supervisione rispetto ai dati standard di domande e risposte visive, ottenendo un guadagno medio dell'8,0% sullo stesso modello allenato con coppie di domande e risposte e del 2,6% rispetto a CoT.
La generazione di video da testo ha fatto progressi notevoli attraverso modelli di diffusione. Tuttavia, la Personalizzazione Video Multi-Concetto (MCVC) rimane una sfida significativa. Identifichiamo due sfide chiave in questo compito: 1) il problema dello scollegamento dell'identità, dove l'adozione diretta dei metodi di personalizzazione esistenti mescola inevitabilmente attributi quando si gestiscono contemporaneamente più concetti, e 2) la scarsità di coppie video-entità di alta qualità, che è cruciale per addestrare un modello che rappresenti e scolleghi vari concetti in modo efficace. Per affrontare queste sfide, presentiamo ConceptMaster, un framework innovativo che affronta in modo efficace le questioni critiche dello scollegamento dell'identità mantenendo al contempo la fedeltà al concetto nei video personalizzati. In particolare, introduciamo una nuova strategia di apprendimento di embedding multi-concetto scollegati che vengono iniettati nei modelli di diffusione in modo autonomo, garantendo efficacemente la qualità dei video personalizzati con identità multiple, anche per concetti visivi altamente simili. Per superare ulteriormente la scarsità di dati MCVC di alta qualità, stabiliamo attentamente un flusso di costruzione dei dati, che consente la raccolta sistematica di dati precisi video-entità multi-concetto attraverso concetti diversi. È stato progettato un benchmark completo per convalidare l'efficacia del nostro modello da tre dimensioni critiche: fedeltà al concetto, capacità di scollegamento dell'identità e qualità della generazione video attraverso sei diversi scenari di composizione concettuale. Estesi esperimenti dimostrano che il nostro ConceptMaster supera significativamente approcci precedenti per questo compito, aprendo la strada alla generazione di video personalizzati e semanticamente accurati attraverso più concetti.
I metodi di personalizzazione video ci permettono di sintetizzare video con concetti specifici come persone, animali domestici e luoghi. Tuttavia, i metodi esistenti spesso si concentrano su domini limitati, richiedono un'ottimizzazione che richiede tempo per soggetto o supportano solo un singolo soggetto. Presentiamo Video Alchemist - un modello video con capacità di personalizzazione multi-soggetto di tipo open-set integrate sia per gli oggetti in primo piano che per lo sfondo, eliminando la necessità di un'ottimizzazione che richiede tempo al momento del test. Il nostro modello si basa su un nuovo modulo Diffusion Transformer che fonde ciascuna immagine di riferimento condizionale e il relativo prompt di testo a livello di soggetto con strati di cross-attention. Lo sviluppo di un modello così grande presenta due sfide principali: dataset e valutazione. In primo luogo, poiché i dataset accoppiati di immagini di riferimento e video sono estremamente difficili da raccogliere, campioniamo frame video selezionati come immagini di riferimento e sintetizziamo un frammento del video target. Tuttavia, mentre i modelli possono facilmente denoizzare i video di addestramento dati i frame di riferimento, falliscono nel generalizzare a nuovi contesti. Per attenuare questo problema, progettiamo un nuovo flusso di lavoro automatico per la costruzione dei dati con ampie aumentazioni delle immagini. In secondo luogo, valutare la personalizzazione video di tipo open-set è di per sé una sfida. Per affrontare questo problema, introduciamo un benchmark di personalizzazione che si concentra sulla fedeltà soggettiva accurata e supporta scenari di personalizzazione diversificati. Infine, i nostri ampi esperimenti mostrano che il nostro metodo supera significativamente i metodi di personalizzazione esistenti sia nelle valutazioni quantitative che qualitative.
Questo studio dimostra un approccio innovativo per testare i limiti di sicurezza dei Modelli di Linguaggio di Visione-Large (VLM/LLM) utilizzando il file di test EICAR incorporato in immagini JPEG. Abbiamo eseguito con successo quattro protocolli distinti su diverse piattaforme LLM, tra cui OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro e Anthropic Claude 3.5 Sonnet. Gli esperimenti hanno confermato che un JPEG modificato contenente la firma EICAR poteva essere caricato, manipolato e potenzialmente eseguito all'interno degli spazi di lavoro virtuali LLM. Le principali scoperte includono: 1) la capacità costante di mascherare la stringa EICAR nei metadati dell'immagine senza essere rilevata, 2) l'estrazione riuscita del file di test utilizzando manipolazioni basate su Python all'interno degli ambienti LLM, e 3) la dimostrazione di varie tecniche di offuscamento, inclusa la codifica base64 e l'inversione delle stringhe. Questa ricerca estende il framework "Penetration Testing Rules of Engagement" di Microsoft Research per valutare i limiti di sicurezza dell'IA generativa basata su cloud e dei LLM, concentrandosi in particolare sulle capacità di gestione e esecuzione dei file all'interno di ambienti containerizzati.
Il tradizionale processo di produzione dell'animazione in celluloide (Cel) comprende diversi passaggi essenziali, tra cui storyboard, design del layout, animazione chiave, interposizione e colorazione, che richiedono un notevole sforzo manuale, competenze tecniche e un significativo investimento di tempo. Queste sfide hanno storicamente ostacolato l'efficienza e la scalabilità della produzione di animazioni in Cel. La diffusione dell'intelligenza artificiale generativa (GenAI), che include grandi modelli linguistici, modelli multimodali e modelli di diffusione, offre soluzioni innovative automatizzando compiti come la generazione di frame intermedi, la colorazione e la creazione di storyboard. Questa indagine esplora come l'integrazione della GenAI stia rivoluzionando i flussi di lavoro dell'animazione tradizionale abbattendo le barriere tecniche, ampliando l'accessibilità per un'ampia gamma di creatori attraverso strumenti come AniDoc, ToonCrafter e AniSora, e consentendo agli artisti di concentrarsi maggiormente sull'espressione creativa e sull'innovazione artistica. Nonostante il suo potenziale, problemi come il mantenimento della coerenza visiva, la garanzia di coerenza stilistica e l'affronto delle considerazioni etiche continuano a rappresentare sfide. Inoltre, questo articolo discute le direzioni future ed esplora possibili progressi nell'animazione assistita dall'intelligenza artificiale. Per ulteriori approfondimenti e risorse, vi invitiamo a visitare il nostro repository GitHub: https://github.com/yunlong10/Awesome-AI4Animation
Il post-addestramento adattivo di modelli linguistici di grandi dimensioni (LLM) nel dominio si è rivelato un approccio promettente per domini specializzati come la medicina e le finanze. Tuttavia, rimangono significativi ostacoli nell'individuare criteri di adattamento ottimali e strategie di addestramento attraverso varie configurazioni di dati e modelli. Per affrontare tali sfide, presentiamo FINDAP, un'indagine sistematica e dettagliata sul post-addestramento adattivo di LLM per il dominio finanziario. Il nostro approccio inizia identificando le capacità fondamentali richieste per il dominio di interesse e progettando una suite di valutazione completa allineata a tali esigenze. Successivamente, analizziamo l'efficacia delle fasi chiave del post-addestramento, inclusi il preaddestramento continuo, il raffinamento delle istruzioni e l'allineamento delle preferenze. Sulla base di tali approfondimenti, proponiamo una ricetta di addestramento efficace incentrata su un nuovo metodo di distillazione dei dati di preferenza, che sfrutta segnali di processo da un modello di ricompensa generativo. Il modello risultante, Llama-Fin, raggiunge prestazioni all'avanguardia in una vasta gamma di compiti finanziari. La nostra analisi evidenzia anche come ciascuna fase di post-addestramento contribuisca a capacità distinte, rivelando sfide specifiche e soluzioni efficaci, fornendo preziose intuizioni per l'adattamento di dominio di LLM. Pagina del progetto: https://github.com/SalesforceAIResearch/FinDap