Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti sviluppi sui modelli multimodali di grandi dimensioni (LMM), in particolare GPT-4V(ision) e Gemini, hanno rapidamente ampliato i confini delle capacità dei modelli multimodali oltre i compiti tradizionali come la descrizione delle immagini e la risposta a domande visive. In questo lavoro, esploriamo il potenziale di LMM come GPT-4V come agenti web generalisti in grado di seguire istruzioni in linguaggio naturale per completare attività su qualsiasi sito web dato. Proponiamo SEEACT, un agente web generalista che sfrutta la potenza degli LMM per una comprensione visiva integrata e per agire sul web. Valutiamo il recente benchmark MIND2WEB. Oltre alla valutazione offline standard su siti web memorizzati nella cache, abilitiamo una nuova impostazione di valutazione online sviluppando uno strumento che consente di eseguire agenti web su siti web live. Dimostriamo che GPT-4V presenta un grande potenziale per gli agenti web: può completare con successo il 50% delle attività su siti web live se si ancorano manualmente i suoi piani testuali alle azioni sui siti web. Ciò supera sostanzialmente i modelli LLM basati solo su testo come GPT-4 o modelli più piccoli (FLAN-T5 e BLIP-2) specificamente ottimizzati per agenti web. Tuttavia, l'ancoraggio rimane una sfida significativa. Le strategie di ancoraggio esistenti per LMM, come il prompting a set di marcatori, si rivelano inefficaci per gli agenti web, e la migliore strategia di ancoraggio che sviluppiamo in questo articolo sfrutta sia il testo HTML che gli elementi visivi. Tuttavia, c'è ancora un divario sostanziale rispetto all'ancoraggio oracolare, lasciando ampio spazio per ulteriori miglioramenti.
La maggior parte degli attuali modelli di diffusione video (VDM) si limita a condizioni testuali. Di conseguenza, spesso mancano di controllo sull'aspetto visivo e sulla struttura geometrica dei video generati. Questo lavoro presenta Moonshot, un nuovo modello di generazione video che si basa contemporaneamente su input multimodali di immagini e testo. Il modello è costruito attorno a un modulo centrale, chiamato blocco video multimodale (MVB), che consiste in strati spaziotemporali convenzionali per rappresentare le caratteristiche video e uno strato di cross-attention disaccoppiato per gestire gli input di immagini e testo per il condizionamento dell'aspetto. Inoltre, abbiamo progettato con cura l'architettura del modello in modo che possa integrare opzionalmente moduli ControlNet pre-addestrati per condizioni visive geometriche, senza la necessità di un sovraccarico di addestramento aggiuntivo rispetto ai metodi precedenti. Gli esperimenti dimostrano che, grazie ai meccanismi di condizionamento multimodale versatili, Moonshot mostra un miglioramento significativo nella qualità visiva e nella coerenza temporale rispetto ai modelli esistenti. Inoltre, il modello può essere facilmente riadattato per una varietà di applicazioni generative, come la generazione di video personalizzati, l'animazione di immagini e l'editing video, rivelando il suo potenziale come architettura fondamentale per la generazione video controllabile. I modelli saranno resi pubblici su https://github.com/salesforce/LAVIS.
Presentiamo un modello differenziabile che modella esplicitamente i contorni -- inclusi profili, angoli e giunzioni -- utilizzando un nuovo meccanismo che chiamiamo attenzione ai contorni. Dimostriamo che il nostro modello fornisce risultati accurati anche quando il segnale del contorno è molto debole o è sommerso dal rumore. Rispetto ai precedenti metodi classici per individuare contorni deboli, il nostro modello presenta i vantaggi di essere differenziabile; di essere scalabile su immagini più grandi; e di adattarsi automaticamente a un livello appropriato di dettaglio geometrico in ogni parte di un'immagine. Rispetto ai precedenti metodi deep per individuare contorni tramite addestramento end-to-end, offre i vantaggi di fornire una precisione sub-pixel, di essere più resistente al rumore e di poter elaborare qualsiasi immagine alla sua risoluzione e proporzioni native.
Presentiamo En3D, uno schema generativo avanzato per la creazione di avatar umani 3D di alta qualità. A differenza dei lavori precedenti che si basano su dataset 3D scarsi o collezioni 2D limitate con angoli di visualizzazione sbilanciati e prior di pose imprecise, il nostro approccio mira a sviluppare uno schema generativo 3D zero-shot in grado di produrre esseri umani 3D visivamente realistici, geometricamente accurati e diversificati nel contenuto, senza fare affidamento su asset 3D o 2D preesistenti. Per affrontare questa sfida, introduciamo un flusso di lavoro meticolosamente progettato che implementa una modellazione fisica accurata per apprendere il modello generativo 3D avanzato da dati 2D sintetici. Durante l'inferenza, integriamo moduli di ottimizzazione per colmare il divario tra aspetto realistico e forme 3D grezze. Nello specifico, En3D comprende tre moduli: un generatore 3D che modella accuratamente esseri umani 3D generalizzabili con un aspetto realistico a partire da immagini umane sintetizzate, bilanciate, diversificate e strutturate; uno scultore di geometria che migliora la qualità della forma utilizzando vincoli normali multi-vista per l'anatomia umana complessa; e un modulo di texturing che separa mappe di texture esplicite con fedeltà e editabilità, sfruttando partizioni UV semantiche e un rasterizzatore differenziabile. I risultati sperimentali dimostrano che il nostro approccio supera significativamente i lavori precedenti in termini di qualità dell'immagine, accuratezza geometrica e diversità del contenuto. Mostriamo inoltre l'applicabilità dei nostri avatar generati per l'animazione e l'editing, nonché la scalabilità del nostro approccio per l'adattamento libero da contenuto e stile.
Man mano che i grandi modelli linguistici (LLM) ottimizzati per seguire istruzioni guadagnano adozione globale, la loro capacità di seguire istruzioni in più lingue diventa sempre più cruciale. Un approccio promettente è il trasferimento cross-linguale, in cui un modello acquisisce una funzionalità specifica in una lingua attraverso il fine-tuning su un'altra lingua. In questo lavoro, indaghiamo come la multilinguità durante il tuning per seguire istruzioni di un LLM multilingue influenzi la capacità di seguire istruzioni attraverso le lingue. Innanzitutto, dimostriamo che molte lingue trasferiscono alcune capacità di seguire istruzioni ad altre lingue anche con un tuning monolingue. Inoltre, scopriamo che solo 40 esempi multilingue in un set di tuning in inglese migliorano sostanzialmente la capacità di seguire istruzioni in più lingue, sia in lingue viste che non viste durante il tuning. In generale, osserviamo che i modelli ottimizzati su miscele multilingue mostrano prestazioni comparabili o superiori in diverse lingue rispetto ai modelli ottimizzati monolingue, nonostante l'addestramento su 10 volte meno esempi in quelle lingue. Infine, scopriamo che aumentare il numero di lingue nel set di tuning per seguire istruzioni da 1 a solo 2, 3 o 4 aumenta la generalizzazione cross-linguale. I nostri risultati suggeriscono che la costruzione di modelli ottimizzati per seguire istruzioni in modo massicciamente multilingue può essere realizzata con un insieme molto piccolo di coppie istruzione-risposta multilingue.
Cosa insegna ai grandi modelli linguistici (LLM) imparare a modellare le relazioni tra stringhe riguardo al mondo visivo? Valutiamo sistematicamente le capacità degli LLM di generare e riconoscere una varietà di concetti visivi di complessità crescente, per poi dimostrare come un sistema preliminare di apprendimento di rappresentazioni visive possa essere addestrato utilizzando modelli di testo. Poiché i modelli linguistici non sono in grado di elaborare o produrre informazioni visive sotto forma di pixel, nel nostro studio utilizziamo il codice per rappresentare le immagini. Sebbene le immagini generate dagli LLM non assomiglino a immagini naturali, i risultati sulla generazione di immagini e la capacità dei modelli di correggere queste immagini generate indicano che una modellazione precisa delle stringhe può insegnare ai modelli linguistici numerosi aspetti del mondo visivo. Inoltre, esperimenti sull'apprendimento auto-supervisionato di rappresentazioni visive, utilizzando immagini generate con modelli di testo, evidenziano il potenziale di addestrare modelli visivi in grado di effettuare valutazioni semantiche su immagini naturali utilizzando esclusivamente LLM.
Nonostante le prestazioni notevoli della distillazione del punteggio nella generazione di oggetti 3D da testo, tali tecniche sono notoriamente affette da problemi di incoerenza visiva, noti anche come artefatti "Janus", in cui gli oggetti generati presentano più facce frontali in ciascuna vista. Sebbene metodi empiricamente efficaci abbiano affrontato questo problema attraverso la correzione del bias del punteggio o l'ingegnerizzazione dei prompt, una prospettiva più rigorosa per spiegare e risolvere questo problema rimane elusiva. In questo articolo, riveliamo che i framework esistenti basati sulla distillazione del punteggio per la generazione di oggetti 3D da testo degenerano nella ricerca della massima verosimiglianza su ciascuna vista in modo indipendente, soffrendo così del problema del collasso modale, che si manifesta come l'artefatto Janus nella pratica. Per mitigare il collasso modale, miglioriamo la distillazione del punteggio reintroducendo un termine di entropia nell'obiettivo variazionale corrispondente, applicato alla distribuzione delle immagini renderizzate. Massimizzare l'entropia incoraggia la diversità tra le diverse viste negli asset 3D generati, mitigando così il problema Janus. Sulla base di questo nuovo obiettivo, deriviamo una nuova regola di aggiornamento per la distillazione del punteggio 3D, denominata Entropic Score Distillation (ESD). Teoricamente, riveliamo che l'ESD può essere semplificata e implementata semplicemente adottando il trucco della guida senza classificatore sulla distillazione variazionale del punteggio. Sebbene sia sorprendentemente semplice, i nostri esperimenti dimostrano con successo che l'ESD può essere un trattamento efficace per gli artefatti Janus nella distillazione del punteggio.
Questo articolo presenta l'API WordArt Designer, un framework innovativo per la sintesi di tipografia artistica guidata dall'utente, che utilizza Modelli Linguistici di Grande Scala (LLMs) su ModelScope. Affrontiamo la sfida di semplificare la tipografia artistica per i non professionisti, offrendo un'alternativa dinamica, adattiva e computazionalmente efficiente rispetto ai tradizionali modelli rigidi. Il nostro approccio sfrutta la potenza degli LLMs per comprendere e interpretare l'input dell'utente, facilitando un processo di progettazione più intuitivo. Attraverso vari casi di studio, dimostriamo come gli utenti possano esprimere le loro preferenze estetiche e requisiti funzionali, che il sistema traduce poi in design tipografici unici e creativi. Le nostre valutazioni indicano miglioramenti significativi nella soddisfazione dell'utente, nella flessibilità del design e nell'espressione creativa rispetto ai sistemi esistenti. L'API WordArt Designer non solo democratizza l'arte della tipografia, ma apre anche nuove possibilità per la comunicazione digitale e il design personalizzato.