Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli visione-linguaggio (VLMs) hanno compiuto progressi significativi nella percezione e ragionamento multimodale. Inoltre, quando integrati in modo fluido in un agente incarnato, rappresentano un passo cruciale verso la creazione di sistemi autonomi e consapevoli del contesto, in grado di formulare piani ed eseguire comandi con precisione. In questo articolo, presentiamo Octopus, un nuovo VLM progettato per decifrare in modo competente gli obiettivi visivi e testuali di un agente e per formulare sequenze di azioni complesse e generare codice eseguibile. Il nostro design consente all'agente di gestire con abilità un'ampia gamma di compiti, dalle semplici attività quotidiane nei simulatori alle interazioni sofisticate nei videogiochi complessi. Octopus viene addestrato sfruttando GPT-4 per controllare un agente esplorativo e generare dati di addestramento, ovvero progetti di azioni e il corrispondente codice eseguibile, all'interno del nostro ambiente sperimentale chiamato OctoVerse. Raccogliamo inoltre feedback che permettono uno schema di addestramento avanzato basato sul Reinforcement Learning con Feedback Ambientale (RLEF). Attraverso una serie di esperimenti, illustriamo il funzionamento di Octopus e presentiamo risultati convincenti, dimostrando che il RLEF proposto affina il processo decisionale dell'agente. Rendendo open-source l'architettura del nostro modello, il simulatore e il dataset, aspiriamo a stimolare ulteriori innovazioni e favorire applicazioni collaborative all'interno della più ampia comunità dell'AI incarnata.
Introduciamo Lemur e Lemur-Chat, modelli linguistici accessibili pubblicamente e ottimizzati sia per le capacità di linguaggio naturale che di programmazione, progettati per fungere da spina dorsale di agenti linguistici versatili. L'evoluzione dai modelli di chat linguistici a veri e propri agenti linguistici funzionali richiede che i modelli non solo padroneggino l'interazione umana, il ragionamento e la pianificazione, ma anche che siano radicati negli ambienti rilevanti. Ciò richiede un'armoniosa combinazione di capacità linguistiche e di programmazione nei modelli. Lemur e Lemur-Chat sono proposti per affrontare questa necessità, dimostrando competenze bilanciate in entrambi i domini, a differenza dei modelli open-source esistenti che tendono a specializzarsi in uno solo. Attraverso un'attenta pre-addestramento su un corpus ricco di codice e un fine-tuning su dati di testo e codice, i nostri modelli raggiungono prestazioni medie all'avanguardia su una vasta gamma di benchmark di testo e programmazione tra i modelli open-source. Esperimenti completi dimostrano la superiorità di Lemur rispetto ai modelli open-source esistenti e la sua competenza in vari compiti di agenti che coinvolgono la comunicazione umana, l'uso di strumenti e l'interazione in ambienti completamente e parzialmente osservabili. L'armonizzazione tra linguaggio naturale e linguaggi di programmazione consente a Lemur-Chat di ridurre significativamente il divario con i modelli proprietari nelle capacità degli agenti, fornendo intuizioni chiave per lo sviluppo di agenti open-source avanzati, abili nel ragionamento, nella pianificazione e nel funzionamento senza soluzione di continuità tra diversi ambienti. https://github.com/OpenLemur/Lemur
Presentiamo "Idea to Image", un sistema che abilita l'autorifinitura iterativa multimodale con GPT-4V(ision) per la progettazione e generazione automatica di immagini. Gli esseri umani possono identificare rapidamente le caratteristiche di diversi modelli text-to-image (T2I) attraverso esplorazioni iterative. Ciò consente loro di convertire in modo efficiente le proprie idee di generazione di alto livello in prompt T2I efficaci in grado di produrre buone immagini. Investigiamo se i sistemi basati su grandi modelli multimodali (LMM) possano sviluppare analoghe capacità di autorifinitura multimodale che permettano di esplorare modelli o ambienti sconosciuti attraverso tentativi di auto-miglioramento. Idea2Img genera ciclicamente prompt T2I rivisti per sintetizzare immagini bozza e fornisce feedback direzionale per la revisione dei prompt, entrambi condizionati dalla memoria delle caratteristiche del modello T2I esplorato. L'autorifinitura iterativa conferisce a Idea2Img vari vantaggi rispetto ai modelli T2I tradizionali. In particolare, Idea2Img può elaborare idee di input con sequenze intercalate di testo e immagini, seguire idee con istruzioni di progettazione e generare immagini di migliore qualità semantica e visiva. Lo studio sulle preferenze degli utenti convalida l'efficacia dell'autorifinitura iterativa multimodale nella progettazione e generazione automatica di immagini.
Negli ultimi tempi, la generazione di asset 3D a partire da prompt testuali ha mostrato risultati impressionanti. Sia i modelli di diffusione 2D che quelli 3D sono in grado di generare oggetti 3D di buona qualità basandosi su prompt. I modelli di diffusione 3D offrono una buona coerenza tridimensionale, ma la loro qualità e generalizzazione sono limitate poiché i dati 3D addestrabili sono costosi e difficili da ottenere. I modelli di diffusione 2D, d'altra parte, godono di una forte capacità di generalizzazione e generazione fine, ma è difficile garantire la coerenza 3D. Questo articolo cerca di unire i punti di forza dei due tipi di modelli di diffusione attraverso la recente rappresentazione esplicita ed efficiente dello splatting Gaussiano 3D. Viene proposto un framework veloce per la generazione 3D, denominato \name, in cui il modello di diffusione 3D fornisce priorità di point cloud per l'inizializzazione e il modello di diffusione 2D arricchisce la geometria e l'aspetto. Vengono introdotte operazioni di crescita rumorosa dei punti e perturbazione del colore per migliorare i Gaussiani inizializzati. Il nostro \name è in grado di generare un'istanza 3D di alta qualità entro 25 minuti su una singola GPU, molto più velocemente rispetto ai metodi precedenti, mentre le istanze generate possono essere renderizzate in tempo reale direttamente. Demo e codice sono disponibili all'indirizzo https://taoranyi.com/gaussiandreamer/.
Nonostante i significativi progressi nei modelli su larga scala di generazione di immagini da testo, ottenere la generazione di immagini umane iper-realistiche rimane un obiettivo desiderabile ma ancora irrisolto. Modelli esistenti come Stable Diffusion e DALL-E 2 tendono a generare immagini umane con parti incoerenti o pose innaturali. Per affrontare queste sfide, la nostra intuizione chiave è che l'immagine umana è intrinsecamente strutturale su molteplici granularità, dallo scheletro del corpo a livello grossolano alla geometria spaziale fine. Pertanto, catturare tali correlazioni tra l'aspetto esplicito e la struttura latente in un unico modello è essenziale per generare immagini umane coerenti e naturali. A tal fine, proponiamo un framework unificato, HyperHuman, che genera immagini umane in contesti reali di alto realismo e layout diversificati. Nello specifico, 1) abbiamo prima costruito un dataset su larga scala centrato sull'umano, denominato HumanVerse, che consiste di 340 milioni di immagini con annotazioni complete come la posa umana, la profondità e la normale superficiale. 2) Successivamente, proponiamo un Latent Structural Diffusion Model che denoizza simultaneamente la profondità e la normale superficiale insieme all'immagine RGB sintetizzata. Il nostro modello impone l'apprendimento congiunto dell'aspetto dell'immagine, della relazione spaziale e della geometria in una rete unificata, dove ogni ramo del modello si complementa con consapevolezza strutturale e ricchezza testurale. 3) Infine, per ulteriormente migliorare la qualità visiva, proponiamo un Structure-Guided Refiner per comporre le condizioni predette per una generazione più dettagliata a risoluzione più elevata. Esperimenti estensivi dimostrano che il nostro framework raggiunge prestazioni all'avanguardia, generando immagini umane iper-realistiche in scenari diversificati. Pagina del progetto: https://snap-research.github.io/HyperHuman/
I modelli di diffusione pre-addestrati su larga scala hanno dimostrato capacità straordinarie nella generazione di video diversificati. Dato un insieme di clip video che rappresentano lo stesso concetto di movimento, il compito della Personalizzazione del Movimento consiste nell'adattare i modelli di diffusione testo-video esistenti per generare video con questo movimento. Ad esempio, generare un video in cui un'auto si muove in un modo specifico sotto particolari movimenti della telecamera per realizzare un film, o un video che illustra come un orso solleverebbe pesi per ispirare i creatori. Sono stati sviluppati metodi di adattamento per personalizzare l'aspetto, come il soggetto o lo stile, ma non sono ancora stati esplorati per il movimento. È semplice estendere i principali metodi di adattamento per la personalizzazione del movimento, inclusi la regolazione completa del modello, la regolazione efficiente dei parametri di strati aggiuntivi e le Adattazioni a Basso Rango (LoRAs). Tuttavia, il concetto di movimento appreso da questi metodi è spesso accoppiato con gli aspetti limitati presenti nei video di addestramento, rendendo difficile generalizzare il movimento personalizzato ad altri aspetti. Per superare questa sfida, proponiamo MotionDirector, con un'architettura a doppio percorso LoRAs per separare l'apprendimento dell'aspetto e del movimento. Inoltre, progettiamo una nuova funzione di perdita temporale sbilanciata sull'aspetto per mitigare l'influenza dell'aspetto sull'obiettivo di addestramento temporale. I risultati sperimentali mostrano che il metodo proposto può generare video con aspetti diversificati per i movimenti personalizzati. Il nostro metodo supporta anche varie applicazioni downstream, come la combinazione di diversi video con i rispettivi aspetti e movimenti, e l'animazione di una singola immagine con movimenti personalizzati. Il nostro codice e i pesi del modello saranno rilasciati.