HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

6 papers found

Octopus: Programmatore Visione-Linguaggio Incorporato con Apprendimento da Feedback Ambientale
Octopus: Embodied Vision-Language Programmer from Environmental Feedback

Oct 12

ByJingkang Yang, Yuhao Dong, Shuai Liu, Bo Li, Ziyue Wang, Chencheng Jiang, Haoran Tan, Jiamu Kang, Yuanhan Zhang, Kaiyang Zhou, Ziwei Liu

I grandi modelli visione-linguaggio (VLMs) hanno compiuto progressi significativi nella percezione e ragionamento multimodale. Inoltre, quando integrati in modo fluido in un agente incarnato, rappresentano un passo cruciale verso la creazione di sistemi autonomi e consapevoli del contesto, in grado di formulare piani ed eseguire comandi con precisione. In questo articolo, presentiamo Octopus, un nuovo VLM progettato per decifrare in modo competente gli obiettivi visivi e testuali di un agente e per formulare sequenze di azioni complesse e generare codice eseguibile. Il nostro design consente all'agente di gestire con abilità un'ampia gamma di compiti, dalle semplici attività quotidiane nei simulatori alle interazioni sofisticate nei videogiochi complessi. Octopus viene addestrato sfruttando GPT-4 per controllare un agente esplorativo e generare dati di addestramento, ovvero progetti di azioni e il corrispondente codice eseguibile, all'interno del nostro ambiente sperimentale chiamato OctoVerse. Raccogliamo inoltre feedback che permettono uno schema di addestramento avanzato basato sul Reinforcement Learning con Feedback Ambientale (RLEF). Attraverso una serie di esperimenti, illustriamo il funzionamento di Octopus e presentiamo risultati convincenti, dimostrando che il RLEF proposto affina il processo decisionale dell'agente. Rendendo open-source l'architettura del nostro modello, il simulatore e il dataset, aspiriamo a stimolare ulteriori innovazioni e favorire applicazioni collaborative all'interno della più ampia comunità dell'AI incarnata.

Lemur: Armonizzazione tra Linguaggio Naturale e Codice per Agenti Linguistici
Lemur: Harmonizing Natural Language and Code for Language Agents

Oct 10

ByYiheng Xu, Hongjin Su, Chen Xing, Boyu Mi, Qian Liu, Weijia Shi, Binyuan Hui, Fan Zhou, Yitao Liu, Tianbao Xie, Zhoujun Cheng, Siheng Zhao, Lingpeng Kong, Bailin Wang, Caiming Xiong, Tao Yu

Introduciamo Lemur e Lemur-Chat, modelli linguistici accessibili pubblicamente e ottimizzati sia per le capacità di linguaggio naturale che di programmazione, progettati per fungere da spina dorsale di agenti linguistici versatili. L'evoluzione dai modelli di chat linguistici a veri e propri agenti linguistici funzionali richiede che i modelli non solo padroneggino l'interazione umana, il ragionamento e la pianificazione, ma anche che siano radicati negli ambienti rilevanti. Ciò richiede un'armoniosa combinazione di capacità linguistiche e di programmazione nei modelli. Lemur e Lemur-Chat sono proposti per affrontare questa necessità, dimostrando competenze bilanciate in entrambi i domini, a differenza dei modelli open-source esistenti che tendono a specializzarsi in uno solo. Attraverso un'attenta pre-addestramento su un corpus ricco di codice e un fine-tuning su dati di testo e codice, i nostri modelli raggiungono prestazioni medie all'avanguardia su una vasta gamma di benchmark di testo e programmazione tra i modelli open-source. Esperimenti completi dimostrano la superiorità di Lemur rispetto ai modelli open-source esistenti e la sua competenza in vari compiti di agenti che coinvolgono la comunicazione umana, l'uso di strumenti e l'interazione in ambienti completamente e parzialmente osservabili. L'armonizzazione tra linguaggio naturale e linguaggi di programmazione consente a Lemur-Chat di ridurre significativamente il divario con i modelli proprietari nelle capacità degli agenti, fornendo intuizioni chiave per lo sviluppo di agenti open-source avanzati, abili nel ragionamento, nella pianificazione e nel funzionamento senza soluzione di continuità tra diversi ambienti. https://github.com/OpenLemur/Lemur

Idea2Img: Autoaffinamento Iterativo con GPT-4V(ision) per la Progettazione e Generazione Automatica di Immagini
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation

Oct 12

ByZhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang

Presentiamo "Idea to Image", un sistema che abilita l'autorifinitura iterativa multimodale con GPT-4V(ision) per la progettazione e generazione automatica di immagini. Gli esseri umani possono identificare rapidamente le caratteristiche di diversi modelli text-to-image (T2I) attraverso esplorazioni iterative. Ciò consente loro di convertire in modo efficiente le proprie idee di generazione di alto livello in prompt T2I efficaci in grado di produrre buone immagini. Investigiamo se i sistemi basati su grandi modelli multimodali (LMM) possano sviluppare analoghe capacità di autorifinitura multimodale che permettano di esplorare modelli o ambienti sconosciuti attraverso tentativi di auto-miglioramento. Idea2Img genera ciclicamente prompt T2I rivisti per sintetizzare immagini bozza e fornisce feedback direzionale per la revisione dei prompt, entrambi condizionati dalla memoria delle caratteristiche del modello T2I esplorato. L'autorifinitura iterativa conferisce a Idea2Img vari vantaggi rispetto ai modelli T2I tradizionali. In particolare, Idea2Img può elaborare idee di input con sequenze intercalate di testo e immagini, seguire idee con istruzioni di progettazione e generare immagini di migliore qualità semantica e visiva. Lo studio sulle preferenze degli utenti convalida l'efficacia dell'autorifinitura iterativa multimodale nella progettazione e generazione automatica di immagini.

GaussianDreamer: Generazione Rapida da Testo a 3D Gaussian Splatting con Prior di Point Cloud
GaussianDreamer: Fast Generation from Text to 3D Gaussian Splatting with Point Cloud Priors

Oct 12

ByTaoran Yi, Jiemin Fang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Qi Tian, Xinggang Wang

Negli ultimi tempi, la generazione di asset 3D a partire da prompt testuali ha mostrato risultati impressionanti. Sia i modelli di diffusione 2D che quelli 3D sono in grado di generare oggetti 3D di buona qualità basandosi su prompt. I modelli di diffusione 3D offrono una buona coerenza tridimensionale, ma la loro qualità e generalizzazione sono limitate poiché i dati 3D addestrabili sono costosi e difficili da ottenere. I modelli di diffusione 2D, d'altra parte, godono di una forte capacità di generalizzazione e generazione fine, ma è difficile garantire la coerenza 3D. Questo articolo cerca di unire i punti di forza dei due tipi di modelli di diffusione attraverso la recente rappresentazione esplicita ed efficiente dello splatting Gaussiano 3D. Viene proposto un framework veloce per la generazione 3D, denominato \name, in cui il modello di diffusione 3D fornisce priorità di point cloud per l'inizializzazione e il modello di diffusione 2D arricchisce la geometria e l'aspetto. Vengono introdotte operazioni di crescita rumorosa dei punti e perturbazione del colore per migliorare i Gaussiani inizializzati. Il nostro \name è in grado di generare un'istanza 3D di alta qualità entro 25 minuti su una singola GPU, molto più velocemente rispetto ai metodi precedenti, mentre le istanze generate possono essere renderizzate in tempo reale direttamente. Demo e codice sono disponibili all'indirizzo https://taoranyi.com/gaussiandreamer/.

HyperHuman: Generazione Iper-Realistica di Umani con Diffusione Strutturale Latente
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion

Oct 12

ByXian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov

Nonostante i significativi progressi nei modelli su larga scala di generazione di immagini da testo, ottenere la generazione di immagini umane iper-realistiche rimane un obiettivo desiderabile ma ancora irrisolto. Modelli esistenti come Stable Diffusion e DALL-E 2 tendono a generare immagini umane con parti incoerenti o pose innaturali. Per affrontare queste sfide, la nostra intuizione chiave è che l'immagine umana è intrinsecamente strutturale su molteplici granularità, dallo scheletro del corpo a livello grossolano alla geometria spaziale fine. Pertanto, catturare tali correlazioni tra l'aspetto esplicito e la struttura latente in un unico modello è essenziale per generare immagini umane coerenti e naturali. A tal fine, proponiamo un framework unificato, HyperHuman, che genera immagini umane in contesti reali di alto realismo e layout diversificati. Nello specifico, 1) abbiamo prima costruito un dataset su larga scala centrato sull'umano, denominato HumanVerse, che consiste di 340 milioni di immagini con annotazioni complete come la posa umana, la profondità e la normale superficiale. 2) Successivamente, proponiamo un Latent Structural Diffusion Model che denoizza simultaneamente la profondità e la normale superficiale insieme all'immagine RGB sintetizzata. Il nostro modello impone l'apprendimento congiunto dell'aspetto dell'immagine, della relazione spaziale e della geometria in una rete unificata, dove ogni ramo del modello si complementa con consapevolezza strutturale e ricchezza testurale. 3) Infine, per ulteriormente migliorare la qualità visiva, proponiamo un Structure-Guided Refiner per comporre le condizioni predette per una generazione più dettagliata a risoluzione più elevata. Esperimenti estensivi dimostrano che il nostro framework raggiunge prestazioni all'avanguardia, generando immagini umane iper-realistiche in scenari diversificati. Pagina del progetto: https://snap-research.github.io/HyperHuman/

MotionDirector: Personalizzazione del Movimento nei Modelli di Diffusione da Testo a Video
MotionDirector: Motion Customization of Text-to-Video Diffusion Models

Oct 12

ByRui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jiawei Liu, Weijia Wu, Jussi Keppo, Mike Zheng Shou

I modelli di diffusione pre-addestrati su larga scala hanno dimostrato capacità straordinarie nella generazione di video diversificati. Dato un insieme di clip video che rappresentano lo stesso concetto di movimento, il compito della Personalizzazione del Movimento consiste nell'adattare i modelli di diffusione testo-video esistenti per generare video con questo movimento. Ad esempio, generare un video in cui un'auto si muove in un modo specifico sotto particolari movimenti della telecamera per realizzare un film, o un video che illustra come un orso solleverebbe pesi per ispirare i creatori. Sono stati sviluppati metodi di adattamento per personalizzare l'aspetto, come il soggetto o lo stile, ma non sono ancora stati esplorati per il movimento. È semplice estendere i principali metodi di adattamento per la personalizzazione del movimento, inclusi la regolazione completa del modello, la regolazione efficiente dei parametri di strati aggiuntivi e le Adattazioni a Basso Rango (LoRAs). Tuttavia, il concetto di movimento appreso da questi metodi è spesso accoppiato con gli aspetti limitati presenti nei video di addestramento, rendendo difficile generalizzare il movimento personalizzato ad altri aspetti. Per superare questa sfida, proponiamo MotionDirector, con un'architettura a doppio percorso LoRAs per separare l'apprendimento dell'aspetto e del movimento. Inoltre, progettiamo una nuova funzione di perdita temporale sbilanciata sull'aspetto per mitigare l'influenza dell'aspetto sull'obiettivo di addestramento temporale. I risultati sperimentali mostrano che il metodo proposto può generare video con aspetti diversificati per i movimenti personalizzati. Il nostro metodo supporta anche varie applicazioni downstream, come la combinazione di diversi video con i rispettivi aspetti e movimenti, e l'animazione di una singola immagine con movimenti personalizzati. Il nostro codice e i pesi del modello saranno rilasciati.

HyperHuman: Generazione Iper-Realistica di Umani con Diffusione Strutturale Latente
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion

Oct 12

ByXian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov