Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il post-addestramento del modello linguistico viene applicato per perfezionare comportamenti e sbloccare nuove abilità in un'ampia gamma di modelli linguistici recenti, ma le ricette aperte per l'applicazione di queste tecniche sono in ritardo rispetto a quelle proprietarie. I dati di addestramento sottostanti e le ricette per il post-addestramento sono contemporaneamente le parti più importanti del puzzle e la porzione con la minore trasparenza. Per colmare questa lacuna, presentiamo T\"ULU 3, una famiglia di modelli post-addestrati di ultima generazione completamente aperti, insieme ai relativi dati, codice e ricette di addestramento, che fungono da guida completa per le moderne tecniche di post-addestramento. T\"ULU 3, che si basa sui modelli di base Llama 3.1, ottiene risultati che superano le versioni istruttive di Llama 3.1, Qwen 2.5, Mistral, e persino modelli chiusi come GPT-4o-mini e Claude 3.5-Haiku. Gli algoritmi di addestramento per i nostri modelli includono il fine-tuning supervisionato (SFT), l'ottimizzazione diretta delle preferenze (DPO), e un nuovo metodo che chiamiamo Apprendimento per Rinforzo con Ricompense Verificabili (RLVR). Con T\"ULU 3, introduciamo uno schema di valutazione multi-task per le ricette di post-addestramento con valutazioni di sviluppo e non viste, implementazioni di benchmark standard e una sostanziale decontaminazione dei dataset aperti esistenti su tali benchmark. Concludiamo con un'analisi e una discussione dei metodi di addestramento che non hanno migliorato in modo affidabile le prestazioni. Oltre ai pesi del modello T\"ULU 3 e alla demo, rilasciamo la ricetta completa - comprensiva di dataset per varie competenze di base, un toolkit robusto per la cura e la valutazione dei dati, il codice di addestramento e l'infrastruttura, e, soprattutto, un rapporto dettagliato per riprodurre e adattare ulteriormente l'approccio T\"ULU 3 a più domini.
In questo articolo, presentiamo OminiControl, un framework altamente versatile ed efficiente nei parametri che integra condizioni dell'immagine nei modelli pre-addestrati del Diffusion Transformer (DiT). Al suo nucleo, OminiControl sfrutta un meccanismo di riutilizzo dei parametri, consentendo al DiT di codificare le condizioni dell'immagine utilizzando se stesso come robusta struttura portante e di elaborarle con i suoi flessibili processori di attenzione multimodale. A differenza dei metodi esistenti, che dipendono pesantemente da moduli di codificatori aggiuntivi con architetture complesse, OminiControl (1) incorpora in modo efficace ed efficiente le condizioni dell'immagine iniettate con solo ~0,1% di parametri aggiuntivi e (2) affronta una vasta gamma di compiti di condizionamento dell'immagine in modo unificato, inclusa la generazione guidata dal soggetto e condizioni allineate spazialmente come bordi, profondità e altro ancora. Notevolmente, queste capacità sono raggiunte addestrando sulle immagini generate dal DiT stesso, il che è particolarmente vantaggioso per la generazione guidata dal soggetto. Valutazioni approfondite dimostrano che OminiControl supera i modelli basati su UNet e adattati DiT sia nella generazione guidata dal soggetto che in quella condizionata allineata spazialmente. Inoltre, rilasciamo il nostro dataset di addestramento, Subjects200K, una collezione diversificata di oltre 200.000 immagini coerenti con l'identità, insieme a un efficiente processo di sintesi dati per far progredire la ricerca nella generazione coerente con il soggetto.
I modelli di diffusione su larga scala recenti generano immagini di alta qualità ma faticano a imparare nuovi stili artistici personalizzati, il che limita la creazione di modelli di stile unici. Il raffinamento con immagini di riferimento è l'approccio più promettente, ma spesso utilizza in modo acritico obiettivi e distribuzioni di livello di rumore utilizzati per il pre-addestramento, portando a un allineamento dello stile non ottimale. Proponiamo il campionatore Style-friendly SNR, che sposta aggressivamente la distribuzione del rapporto segnale-rumore (SNR) verso livelli di rumore più alti durante il raffinamento per concentrarsi sui livelli di rumore in cui emergono le caratteristiche stilistiche. Ciò consente ai modelli di catturare meglio stili unici e generare immagini con un allineamento di stile superiore. Il nostro metodo permette ai modelli di diffusione di apprendere e condividere nuovi "modelli di stile", migliorando la creazione di contenuti personalizzati. Dimostriamo la capacità di generare stili come dipinti personali ad acquerello, cartoni piatti minimali, rendering 3D, immagini a più pannelli e meme con testo, ampliando così la portata della generazione guidata dallo stile.
Il processo di invecchiamento del viso è un processo complesso, fortemente dipendente da molteplici fattori come il genere, l'etnia, lo stile di vita, ecc., rendendolo estremamente difficile apprendere un invecchiamento globale per prevedere con precisione l'invecchiamento per qualsiasi individuo. Le tecniche esistenti spesso producono risultati di invecchiamento realistici e plausibili, ma le immagini invecchiate spesso non assomigliano all'aspetto della persona all'età desiderata e quindi necessitano di personalizzazione. In molte applicazioni pratiche di invecchiamento virtuale, ad esempio negli effetti speciali visivi nei film e negli spettacoli televisivi, è spesso disponibile un'ampia collezione di foto personali dell'utente che rappresentano l'invecchiamento in un breve intervallo di tempo (20-40 anni). Tuttavia, i tentativi ingenui di personalizzare le tecniche di invecchiamento globale su collezioni di foto personali falliscono spesso. Pertanto, proponiamo MyTimeMachine (MyTM), che combina un invecchiamento globale con una collezione di foto personali (utilizzando anche solo 50 immagini) per apprendere una trasformazione dell'età personalizzata. Introduciamo una nuova Rete Adattatrice che combina le caratteristiche di invecchiamento personalizzate con le caratteristiche di invecchiamento globale e genera un'immagine invecchiata con StyleGAN2. Introduciamo inoltre tre funzioni di perdita per personalizzare la Rete Adattatrice con perdita di invecchiamento personalizzata, regolarizzazione dell'extrapolation e regolarizzazione adattiva della w-norma. Il nostro approccio può essere esteso anche ai video, ottenendo effetti di invecchiamento di alta qualità, che preservano l'identità e sono temporaneamente coerenti, assomigliando agli aspetti reali alle età desiderate, dimostrandone la superiorità rispetto agli approcci all'avanguardia.
I Large Language Models sono inclini all'abuso off-topic, dove gli utenti potrebbero indurre tali modelli a svolgere compiti al di fuori del loro ambito previsto. Le attuali protezioni, che spesso si basano su esempi curati o classificatori personalizzati, soffrono di un'elevata frequenza di falsi positivi, limitata adattabilità e l'impraticabilità di richiedere dati del mondo reale non disponibili in fase di pre-produzione. In questo articolo, presentiamo una metodologia flessibile per lo sviluppo di protezioni senza dati che affronta tali sfide. Definendo in modo approfondito lo spazio del problema qualitativamente e passando ciò a un LLM per generare prompt diversi, costruiamo un dataset sintetico per valutare e addestrare protezioni off-topic che superano gli approcci euristici. Inoltre, riconfigurando il compito come classificazione della rilevanza del prompt dell'utente rispetto al prompt del sistema, le nostre protezioni generalizzano efficacemente ad altre categorie di abuso, inclusi jailbreak e prompt dannosi. Infine, contribuiamo ulteriormente al campo con la condivisione in open source sia del dataset sintetico che dei modelli di protezione off-topic, fornendo risorse preziose per lo sviluppo di protezioni in ambienti di pre-produzione e supportando la ricerca e lo sviluppo futuri sulla sicurezza dei LLM.
I recenti progressi nei Large Multimodal Models (LMMs) hanno portato a significativi avanzamenti sia in ambito accademico che industriale. Una domanda che sorge è come possiamo, come esseri umani, comprendere le loro rappresentazioni neurali interne. Questo articolo compie un primo passo verso la risoluzione di questa questione presentando un framework versatile per identificare e interpretare la semantica all'interno dei LMMs. In particolare, 1) applichiamo inizialmente un Autoencoder Sparso (SAE) per separare le rappresentazioni in caratteristiche comprensibili agli esseri umani. 2) Successivamente presentiamo un framework di interpretazione automatica per interpretare le caratteristiche semantiche aperte apprese in SAE dai LMMs stessi. Utilizziamo questo framework per analizzare il modello LLaVA-NeXT-8B utilizzando il modello LLaVA-OV-72B, dimostrando che queste caratteristiche possono guidare efficacemente il comportamento del modello. I nostri risultati contribuiscono a una comprensione più approfondita del motivo per cui i LMMs eccellono in specifiche attività, inclusi i test EQ, e illuminano la natura dei loro errori insieme a potenziali strategie per la loro correzione. Queste scoperte offrono nuove intuizioni sui meccanismi interni dei LMMs e suggeriscono analogie con i processi cognitivi del cervello umano.
I Large Language Models (LLM) e i Vision Language Models (VLM) possiedono una vasta conoscenza e mostrano promettenti capacità di ragionamento; tuttavia, faticano ancora a ottenere buoni risultati in ambienti complessi e dinamici. Le attività del mondo reale richiedono la gestione di interazioni intricate, un avanzato ragionamento spaziale, pianificazione a lungo termine e l'esplorazione continua di nuove strategie, aree in cui mancano metodologie efficaci per valutare in modo esaustivo queste capacità. Per colmare questa lacuna, presentiamo BALROG, un nuovo benchmark progettato per valutare le capacità agentiche di LLM e VLM attraverso una serie diversificata di giochi impegnativi. Il nostro benchmark incorpora una gamma di ambienti di apprendimento per rinforzo esistenti con diversi livelli di difficoltà, inclusi compiti risolvibili da non esperti umani in pochi secondi fino a quelli estremamente impegnativi che potrebbero richiedere anni per essere padroneggiati (ad esempio, l'Ambiente di Apprendimento NetHack). Sviluppiamo metriche dettagliate per misurare le prestazioni e conduciamo una valutazione approfondita di diversi LLM e VLM open-source e closed-source popolari. I nostri risultati indicano che mentre i modelli attuali ottengono un successo parziale nei giochi più facili, faticano significativamente con compiti più impegnativi. In particolare, osserviamo gravi carenze nella presa di decisioni basata sulla visione, poiché i modelli ottengono risultati peggiori quando vengono fornite rappresentazioni visive degli ambienti. Rilasciamo BALROG come un benchmark aperto e user-friendly per agevolare la ricerca e lo sviluppo futuri nella comunità agentica.
L'avanzamento dei Grandi Modelli di Linguaggio Visivo (LVLMs) ha migliorato significativamente la comprensione multimodale, tuttavia rimangono sfide nei compiti di ragionamento video a causa della scarsità di dataset di grandi dimensioni e di alta qualità. I dataset esistenti di domande e risposte video (VideoQA) spesso si basano su costose annotazioni manuali con una granularità insufficiente o su metodi di costruzione automatica con un'analisi ridondante frame per frame, limitando la scalabilità e l'efficacia per il ragionamento complesso. Per affrontare queste sfide, presentiamo VideoEspresso, un nuovo dataset che presenta coppie VideoQA che conservano dettagli spaziali essenziali e coerenza temporale, insieme ad annotazioni multimodali di passaggi di ragionamento intermedi. Il nostro processo di costruzione utilizza un metodo consapevole della semantica per ridurre la ridondanza, seguito dalla generazione di coppie domanda-risposta utilizzando GPT-4o. Sviluppiamo inoltre annotazioni video Chain-of-Thought (CoT) per arricchire i processi di ragionamento, guidando GPT-4o nell'estrazione di relazioni logiche dalle coppie domanda-risposta e dal contenuto video. Per sfruttare il potenziale delle coppie VideoQA di alta qualità, proponiamo un framework di Collaborazione Ibrida di LVLMs, con un Selettore di Frame e un LVLM di ragionamento a due fasi con istruzioni ottimizzate. Questo framework seleziona in modo adattivo i frame principali e esegue il ragionamento CoT utilizzando prove multimodali. Valutato sul nostro benchmark proposto con 14 compiti contro 9 LVLMs popolari, il nostro metodo supera i baselines esistenti nella maggior parte dei compiti, dimostrando capacità di ragionamento video superiori. Il nostro codice e dataset saranno rilasciati su: https://github.com/hshjerry/VideoEspresso
L'efficiente tokenizzazione dei video rimane una sfida nel training dei modelli di visione in grado di processare video lunghi. Una direzione promettente è lo sviluppo di un tokenizer in grado di codificare lunghi spezzoni video, poiché consentirebbe al tokenizer di sfruttare meglio la coerenza temporale dei video per la tokenizzazione. Tuttavia, addestrare i tokenizzatori esistenti su video lunghi comporta spesso un enorme costo di addestramento poiché vengono addestrati a ricostruire tutti i frame in una volta. In questo articolo, presentiamo CoordTok, un video tokenizer che apprende un mapping da rappresentazioni basate sulle coordinate alle patch corrispondenti dei video di input, ispirato ai recenti progressi nei modelli generativi 3D. In particolare, CoordTok codifica un video in rappresentazioni triplane fattorizzate e ricostruisce patch corrispondenti a coordinate (x,y,t) campionate casualmente. Ciò consente di addestrare grandi modelli di tokenizer direttamente su video lunghi senza richiedere risorse di addestramento eccessive. I nostri esperimenti mostrano che CoordTok può ridurre drasticamente il numero di token per codificare lunghi spezzoni video. Ad esempio, CoordTok può codificare un video di 128 frame con risoluzione 128x128 in 1280 token, mentre i baselines necessitano di 6144 o 8192 token per ottenere una qualità di ricostruzione simile. Mostriamo inoltre che questa efficiente tokenizzazione dei video consente un addestramento efficiente in termini di memoria di un transformer a diffusione in grado di generare 128 frame in una sola volta.
Il campo della sintesi di nuove visuali ha compiuto significativi progressi grazie allo sviluppo dei metodi dei campi di radianza. Tuttavia, la maggior parte delle tecniche dei campi di radianza sono molto più efficaci nell'interpolazione di nuove visuali che nell'estrapolazione di nuove visuali, dove le visuali sintetizzate sono molto al di là delle visuali di allenamento osservate. Progettiamo ViewExtrapolator, un approccio alla sintesi di nuove visuali che sfrutta i prior generativi della Diffusione Video Stabile (SVD) per un'estrapolazione realistica di nuove visuali. Ridisegnando il processo di denoising SVD, ViewExtrapolator perfeziona le visuali soggette ad artefatti rese dai campi di radianza, migliorando notevolmente la chiarezza e il realismo delle nuove visuali sintetizzate. ViewExtrapolator è un estrapolatore di nuove visuali generico che può funzionare con diversi tipi di rendering 3D come visualizzazioni rese da nuvole di punti quando è disponibile solo una singola vista o un video monoculare. Inoltre, ViewExtrapolator non richiede un'ottimizzazione fine di SVD, rendendolo sia efficiente nei dati che efficiente nei calcoli. Estesi esperimenti dimostrano la superiorità di ViewExtrapolator nell'estrapolazione di nuove visuali. Pagina del progetto: https://kunhao-liu.github.io/ViewExtrapolator/.
I recenti modelli di diffusione testo-video (T2V) hanno dimostrato notevoli capacità di generazione in vari domini. Tuttavia, questi modelli spesso generano video con disallineamenti rispetto ai prompt di testo, specialmente quando i prompt descrivono scene complesse con molteplici oggetti e attributi. Per affrontare questo problema, presentiamo VideoRepair, un nuovo framework di perfezionamento video indipendente dal modello e privo di addestramento che identifica automaticamente disallineamenti dettagliati tra testo e video e genera feedback spaziali e testuali espliciti, consentendo a un modello di diffusione T2V di eseguire perfezionamenti mirati e localizzati. VideoRepair è composto da quattro fasi: (1) valutazione del video, in cui rileviamo i disallineamenti generando domande di valutazione dettagliate e rispondendo a tali domande con MLLM. (2) Pianificazione del perfezionamento, in cui identifichiamo gli oggetti generati correttamente e creiamo prompt localizzati per perfezionare altre aree nel video. Successivamente, (3) decomposizione della regione, in cui segmentiamo l'area generata correttamente utilizzando un modulo di ancoraggio combinato. Rigeneriamo il video regolando le regioni disallineate preservando le regioni corrette in (4) perfezionamento localizzato. Su due popolari benchmark di generazione video (EvalCrafter e T2V-CompBench), VideoRepair supera notevolmente i recenti baselines su vari metriche di allineamento testo-video. Forniamo un'analisi completa dei componenti di VideoRepair e esempi qualitativi.
La manipolazione mobile "in-the-wild" mira a dispiegare robot in diversi ambienti reali, il che richiede che il robot (1) abbia abilità che si generalizzino tra diverse configurazioni di oggetti; (2) sia in grado di eseguire attività a lungo termine in ambienti diversi; e (3) esegua manipolazioni complesse oltre al semplice prendere-e-posizionare. I robot quadrupedi con manipolatori promettono di estendere lo spazio di lavoro e consentire una locomozione robusta, ma i risultati attuali non indagano su tale capacità. Questo articolo propone WildLMa con tre componenti per affrontare questi problemi: (1) adattamento di un controllore a basso livello appreso per la teleoperazione a tutto corpo abilitata per la realtà virtuale e la percorribilità; (2) WildLMa-Skill - una libreria di abilità visuomotorie generalizzabili acquisite tramite apprendimento per imitazione o euristici e (3) WildLMa-Planner - un'interfaccia di abilità apprese che consente ai pianificatori LLM di coordinare le abilità per attività a lungo termine. Dimostriamo l'importanza di dati di addestramento di alta qualità ottenendo un tasso di successo di presa più elevato rispetto ai baselines di RL esistenti utilizzando solo decine di dimostrazioni. WildLMa sfrutta CLIP per l'apprendimento per imitazione condizionato dal linguaggio che generalizza empiricamente a oggetti non visti nelle dimostrazioni di addestramento. Oltre a una valutazione quantitativa approfondita, dimostriamo qualitativamente applicazioni pratiche dei robot, come la pulizia dei rifiuti nei corridoi universitari o nei terreni esterni, il funzionamento di oggetti articolati e la riorganizzazione degli oggetti su una mensola.
La segmentazione delle nuvole è una sfida critica nell'interpretazione delle immagini da telerilevamento, poiché la sua precisione influisce direttamente sull'efficacia dell'elaborazione e dell'analisi successiva dei dati. Recentemente, i modelli di base della visione (VFM) hanno dimostrato potenti capacità di generalizzazione in varie attività visive. In questo articolo presentiamo un approccio adattivo efficiente nei parametri, denominato Cloud-Adapter, progettato per migliorare la precisione e la robustezza della segmentazione delle nuvole. Il nostro metodo sfrutta un VFM preaddestrato su dati di dominio generale, che rimane congelato, eliminando la necessità di ulteriore addestramento. Cloud-Adapter incorpora un modulo leggero di percezione spaziale che inizialmente utilizza una rete neurale convoluzionale (ConvNet) per estrarre rappresentazioni spaziali dense. Queste caratteristiche multi-scala vengono quindi aggregate e servono come input contestuali a un modulo adattante, che modula i livelli del trasformatore congelati all'interno del VFM. I risultati sperimentali dimostrano che l'approccio Cloud-Adapter, utilizzando solo lo 0,6% dei parametri addestrabili del backbone congelato, ottiene notevoli miglioramenti delle prestazioni. Cloud-Adapter raggiunge costantemente prestazioni all'avanguardia (SOTA) su una vasta gamma di set di dati di segmentazione delle nuvole provenienti da diverse fonti satellitari, serie di sensori, livelli di elaborazione dei dati, scenari di copertura terrestre e granularità delle annotazioni. Abbiamo rilasciato il codice sorgente e i modelli preaddestrati su https://github.com/XavierJiezou/Cloud-Adapter per supportare ulteriori ricerche.
Negli ultimi anni, la ricerca nell'ambito dell'interazione uomo-robot si è concentrata sullo sviluppo di robot capaci di comprendere istruzioni umane complesse e di svolgere compiti in ambienti dinamici e diversificati. Questi sistemi hanno una vasta gamma di applicazioni, dall'assistenza personale alla robotica industriale, sottolineando l'importanza dei robot che interagiscono in modo flessibile, naturale e sicuro con gli esseri umani. Questo articolo presenta un'architettura avanzata per la pianificazione delle azioni robotiche che integra comunicazione, percezione e pianificazione con i Grandi Modelli Linguistici (LLM). Il nostro sistema è progettato per tradurre comandi espressi in linguaggio naturale in azioni eseguibili dal robot, incorporando informazioni ambientali e aggiornando dinamicamente i piani in base al feedback in tempo reale. Il Modulo di Pianificazione è il nucleo del sistema dove i LLM incorporati in un framework ReAct modificato vengono impiegati per interpretare ed eseguire i comandi dell'utente. Sfruttando la loro vasta conoscenza preaddestrata, i LLM possono elaborare efficacemente le richieste degli utenti senza la necessità di introdurre nuove conoscenze sull'ambiente mutevole. Il framework ReAct modificato potenzia ulteriormente lo spazio di esecuzione fornendo percezione ambientale in tempo reale e gli esiti delle azioni fisiche. Combinando rappresentazioni di mappe semantiche robuste e dinamiche sotto forma di grafi con componenti di controllo e spiegazioni dei fallimenti, questa architettura potenzia l'adattabilità del robot, l'esecuzione dei compiti e la collaborazione senza soluzione di continuità con gli utenti umani in ambienti condivisi e dinamici. Attraverso l'integrazione di cicli di feedback continui con l'ambiente, il sistema può regolare dinamicamente il piano per adattarsi a cambiamenti imprevisti, ottimizzando la capacità del robot di svolgere compiti. Utilizzando un dataset di esperienze precedenti è possibile fornire un feedback dettagliato sui fallimenti. Aggiornando il contesto dei LLM per la successiva iterazione con suggerimenti su come superare il problema.