Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Transformer sono emersi recentemente come uno strumento potente per l'apprendimento di rappresentazioni visive. In questo articolo, identifichiamo e caratterizziamo artefatti nelle mappe di caratteristiche di reti ViT sia supervisionate che auto-supervisionate. Gli artefatti corrispondono a token con norma elevata che compaiono durante l'inferenza principalmente nelle aree di sfondo a basso contenuto informativo delle immagini, che vengono riutilizzate per calcoli interni. Proponiamo una soluzione semplice ma efficace basata sull'aggiunta di token aggiuntivi alla sequenza di input del Vision Transformer per svolgere tale ruolo. Dimostriamo che questa soluzione risolve completamente il problema sia per i modelli supervisionati che per quelli auto-supervisionati, stabilisce un nuovo stato dell'arte per i modelli visivi auto-supervisionati nelle attività di predizione visiva densa, consente metodi di scoperta degli oggetti con modelli più grandi e, soprattutto, porta a mappe di caratteristiche e mappe di attenzione più fluide per l'elaborazione visiva a valle.
Presentiamo Any-Modality Augmented Language Model (AnyMAL), un modello unificato che ragiona su segnali di input di diverse modalità (ad esempio testo, immagine, video, audio, sensore di movimento IMU) e genera risposte testuali. AnyMAL eredita le potenti capacità di ragionamento basato su testo dei modelli linguistici all'avanguardia, tra cui LLaMA-2 (70B), e converte i segnali specifici di ciascuna modalità in uno spazio testuale condiviso attraverso un modulo di allineamento pre-addestrato. Per rafforzare ulteriormente le capacità del modello linguistico multimodale, abbiamo effettuato un fine-tuning utilizzando un set di istruzioni multimodali raccolto manualmente per coprire argomenti e compiti diversificati, andando oltre semplici domande e risposte. Abbiamo condotto un'analisi empirica completa che include valutazioni sia umane che automatiche, dimostrando prestazioni all'avanguardia in varie attività multimodali.
I recenti progressi nella creazione di contenuti 3D si basano principalmente su metodi di generazione 3D basati su ottimizzazione tramite il campionamento per distillazione del punteggio (SDS). Sebbene siano stati ottenuti risultati promettenti, questi metodi spesso soffrono di un'ottimizzazione lenta per campione, limitandone l'uso pratico. In questo articolo, proponiamo DreamGaussian, un nuovo framework per la generazione di contenuti 3D che raggiunge simultaneamente efficienza e qualità. La nostra intuizione chiave è progettare un modello generativo di 3D Gaussian Splatting accompagnato da estrazione di mesh e raffinatura delle texture nello spazio UV. A differenza della potatura dell'occupazione utilizzata nei Neural Radiance Fields, dimostriamo che la densificazione progressiva delle Gaussiane 3D converge significativamente più velocemente per compiti generativi 3D. Per migliorare ulteriormente la qualità delle texture e facilitare le applicazioni a valle, introduciamo un algoritmo efficiente per convertire le Gaussiane 3D in mesh con texture e applichiamo una fase di fine-tuning per affinare i dettagli. Esperimenti estensivi dimostrano la superiorità in termini di efficienza e la qualità generativa competitiva del nostro approccio proposto. In particolare, DreamGaussian produce mesh con texture di alta qualità in soli 2 minuti partendo da un'immagine a singola vista, ottenendo un'accelerazione di circa 10 volte rispetto ai metodi esistenti.
I grandi modelli linguistici (LLM) hanno rivoluzionato il campo dell'intelligenza artificiale, abilitando compiti di elaborazione del linguaggio naturale che in precedenza si ritenevano esclusivi degli esseri umani. In questo lavoro, presentiamo Qwen, il primo capitolo della nostra serie di grandi modelli linguistici. Qwen è una serie completa di modelli linguistici che comprende modelli distinti con un numero variabile di parametri. Include Qwen, i modelli linguistici pre-addestrati di base, e Qwen-Chat, i modelli di chat perfezionati con tecniche di allineamento umano. I modelli linguistici di base dimostrano costantemente prestazioni superiori in una moltitudine di task downstream, mentre i modelli di chat, in particolare quelli addestrati utilizzando il Reinforcement Learning from Human Feedback (RLHF), sono altamente competitivi. I modelli di chat possiedono capacità avanzate di utilizzo di strumenti e pianificazione per la creazione di applicazioni agenti, mostrando prestazioni impressionanti anche rispetto a modelli più grandi in task complessi come l'utilizzo di un interprete di codice. Inoltre, abbiamo sviluppato modelli specializzati nella codifica, Code-Qwen e Code-Qwen-Chat, e modelli focalizzati sulla matematica, Math-Qwen-Chat, costruiti sui modelli linguistici di base. Questi modelli dimostrano prestazioni significativamente migliorate rispetto ai modelli open-source, e si posizionano leggermente dietro ai modelli proprietari.
In questo articolo, presentiamo GSGEN (Gaussian Splatting based text-to-3D generation), un approccio innovativo per la generazione di oggetti 3D di alta qualità. I metodi precedenti soffrono di geometria imprecisa e fedeltà limitata a causa della mancanza di un priore 3D e di una rappresentazione adeguata. Sfruttiamo il Gaussian Splatting 3D, una rappresentazione all'avanguardia recente, per affrontare le carenze esistenti sfruttando la natura esplicita che consente l'incorporazione di un priore 3D. Nello specifico, il nostro metodo adotta una strategia di ottimizzazione progressiva, che include una fase di ottimizzazione della geometria e una fase di raffinamento dell'aspetto. Nell'ottimizzazione della geometria, viene stabilita una rappresentazione approssimativa sotto un priore di geometria 3D insieme alla normale perdita SDS 2D, garantendo una forma grezza sensata e coerente in 3D. Successivamente, i Gaussian ottenuti subiscono un raffinamento iterativo per arricchire i dettagli. In questa fase, aumentiamo il numero di Gaussian attraverso una densificazione basata sulla compattezza per migliorare la continuità e aumentare la fedeltà. Con questi accorgimenti, il nostro approccio è in grado di generare contenuti 3D con dettagli delicati e una geometria più accurata. Valutazioni estensive dimostrano l'efficacia del nostro metodo, in particolare per la cattura di componenti ad alta frequenza. I risultati video sono disponibili all'indirizzo https://gsgen3d.github.io. Il nostro codice è disponibile all'indirizzo https://github.com/gsgen3d/gsgen.
Presentiamo una serie di LLM a contesto lungo che supportano finestre di contesto efficaci fino a 32.768 token. La nostra serie di modelli è stata costruita attraverso un pretraining continuo a partire da Llama 2, utilizzando sequenze di addestramento più lunghe e su un dataset in cui i testi lunghi sono sovracampionati. Eseguiamo una valutazione estensiva sul modeling linguistico, su task di probing sintetico del contesto e su un'ampia gamma di benchmark di ricerca. Sui benchmark di ricerca, i nostri modelli ottengono miglioramenti consistenti sulla maggior parte dei task regolari e miglioramenti significativi sui task a contesto lungo rispetto a Llama 2. In particolare, con una procedura di instruction tuning economicamente vantaggiosa che non richiede dati di istruzioni lunghe annotati manualmente, la variante da 70B può già superare le prestazioni complessive di gpt-3.5-turbo-16k su una serie di task a contesto lungo. Accanto a questi risultati, forniamo un'analisi approfondita dei singoli componenti del nostro metodo. Approfondiamo le codifiche posizionali di Llama e discutiamo i suoi limiti nella modellazione di dipendenze lunghe. Esaminiamo inoltre l'impatto di varie scelte progettuali nel processo di pretraining, inclusa la miscela di dati e il curriculum di addestramento delle lunghezze delle sequenze — i nostri esperimenti di ablazione suggeriscono che avere abbondanti testi lunghi nel dataset di pretraining non è la chiave per ottenere prestazioni forti, e verifichiamo empiricamente che il pretraining continuo a contesto lungo è più efficiente e altrettanto efficace rispetto al pretraining da zero con sequenze lunghe.
Ci proponiamo di affrontare un problema significativo ma poco studiato nell'industria degli anime, ovvero l'inbetweening dei disegni a linee dei cartoni animati. L'inbetweening consiste nella generazione di fotogrammi intermedi tra due disegni a linee in bianco e nero ed è un processo dispendioso in termini di tempo e costi che può trarre vantaggio dall'automazione. Tuttavia, i metodi esistenti di interpolazione di fotogrammi che si basano sull'abbinamento e sulla deformazione di intere immagini raster sono inadatti per l'inbetweening di linee e spesso producono artefatti di sfocatura che danneggiano le intricate strutture lineari. Per preservare la precisione e i dettagli dei disegni a linee, proponiamo un nuovo approccio, AnimeInbet, che geometrizza i disegni a linee raster in grafi di punti finali e riformula il compito di inbetweening come un problema di fusione di grafi con riposizionamento dei vertici. Il nostro metodo è in grado di catturare efficacemente la sparsità e la struttura unica dei disegni a linee preservando i dettagli durante l'inbetweening. Ciò è reso possibile grazie ai nostri moduli innovativi, ovvero l'embedding geometrico dei vertici, un Transformer per la corrispondenza dei vertici, un meccanismo efficace per il riposizionamento dei vertici e un predittore di visibilità. Per addestrare il nostro metodo, introduciamo MixamoLine240, un nuovo dataset di disegni a linee con vettorizzazione e etichette di abbinamento di riferimento. I nostri esperimenti dimostrano che AnimeInbet sintetizza disegni a linee intermedi di alta qualità, puliti e completi, superando i metodi esistenti sia quantitativamente che qualitativamente, specialmente nei casi con movimenti ampi. Dati e codice sono disponibili all'indirizzo https://github.com/lisiyao21/AnimeInbet.
Il Contrastive Language-Image Pre-training (CLIP) è un approccio che ha fatto progredire la ricerca e le applicazioni nel campo della visione artificiale, alimentando i moderni sistemi di riconoscimento e i modelli generativi. Crediamo che l'ingrediente principale del successo di CLIP siano i suoi dati, piuttosto che l'architettura del modello o l'obiettivo di pre-addestramento. Tuttavia, CLIP fornisce informazioni molto limitate sui suoi dati e su come sono stati raccolti, portando a lavori che mirano a riprodurre i dati di CLIP filtrandoli con i parametri del modello. In questo lavoro, intendiamo rivelare l'approccio di curatela dei dati di CLIP e, nel nostro intento di renderlo accessibile alla comunità, introduciamo il Metadata-Curated Language-Image Pre-training (MetaCLIP). MetaCLIP prende un pool di dati grezzi e metadati (derivati dai concetti di CLIP) e produce un sottoinsieme bilanciato sulla distribuzione dei metadati. Il nostro studio sperimentale isola rigorosamente il modello e le impostazioni di addestramento, concentrandosi esclusivamente sui dati. MetaCLIP applicato a CommonCrawl con 400 milioni di coppie immagine-testo supera i dati di CLIP su molteplici benchmark standard. Nella classificazione zero-shot su ImageNet, MetaCLIP raggiunge un'accuratezza del 70,8%, superando il 68,3% di CLIP sui modelli ViT-B. Scalando a 1 miliardo di dati, mantenendo lo stesso budget di addestramento, si ottiene il 72,4%. Le nostre osservazioni si mantengono su varie dimensioni del modello, come dimostrato da ViT-H che raggiunge l'80,5%, senza alcun orpello. Il codice di curatela e la distribuzione dei dati di addestramento sui metadati sono disponibili all'indirizzo https://github.com/facebookresearch/MetaCLIP.
I classificatori basati su modelli visione-linguaggio come CLIP hanno dimostrato prestazioni zero-shot notevoli in un'ampia gamma di attività di classificazione di immagini. Ricerche precedenti hanno studiato diversi modi per creare automaticamente insiemi di descrittori per ogni classe basati su template di prompt, che vanno da template progettati manualmente a template ottenuti da un modello linguistico di grandi dimensioni, fino a template costruiti da parole e caratteri casuali. Al contrario, la derivazione di classificatori zero-shot dai rispettivi descrittori di classe codificati è rimasta pressoché invariata, ovvero: classificare nella classe che massimizza la similarità coseno tra i suoi descrittori di classe codificati medi e l'immagine codificata. Tuttavia, assegnare lo stesso peso a tutti i descrittori di classe può essere subottimale quando alcuni descrittori corrispondono meglio agli indizi visivi di una determinata immagine rispetto ad altri. In questo lavoro, proponiamo AutoCLIP, un metodo per l'auto-tuning dei classificatori zero-shot. AutoCLIP assegna a ciascun template di prompt dei pesi per immagine, che sono derivati dalle statistiche delle similarità tra descrittori di classe e immagine al momento dell'inferenza. AutoCLIP è completamente non supervisionato, ha un overhead molto basso e può essere facilmente implementato in poche righe di codice. Dimostriamo che, per un'ampia gamma di modelli visione-linguaggio, dataset e template di prompt, AutoCLIP supera costantemente i baseline con un miglioramento fino a 3 punti percentuali in termini di accuratezza.
La previsione affidabile del comportamento futuro degli agenti stradali è un componente critico per una pianificazione sicura nei veicoli autonomi. In questo lavoro, rappresentiamo traiettorie continue come sequenze di token di movimento discreti e formuliamo la previsione del movimento multi-agente come un'attività di modellazione del linguaggio su questo dominio. Il nostro modello, MotionLM, offre diversi vantaggi: in primo luogo, non richiede ancore o un'ottimizzazione esplicita di variabili latenti per apprendere distribuzioni multimodali. Invece, sfruttiamo un unico obiettivo standard di modellazione del linguaggio, massimizzando la probabilità logaritmica media sui token di sequenza. In secondo luogo, il nostro approccio evita euristiche di interazione post-hoc in cui la generazione della traiettoria di singoli agenti viene condotta prima del punteggio interattivo. Al contrario, MotionLM produce distribuzioni congiunte sui futuri interattivi degli agenti in un unico processo di decodifica autoregressiva. Inoltre, la fattorizzazione sequenziale del modello consente rollout condizionali temporalmente causali. L'approccio proposto stabilisce nuove prestazioni all'avanguardia per la previsione del movimento multi-agente sul Waymo Open Motion Dataset, classificandosi al 1° posto nella classifica della sfida interattiva.
I recenti progressi nella generazione di immagini hanno portato alla creazione di modelli di outpaiting e inpainting in grado di produrre contenuti visivi di alta qualità e plausibili in regioni sconosciute. Tuttavia, il contenuto che questi modelli "allucinano" è necessariamente inautentico, poiché i modelli non dispongono di un contesto sufficiente sulla scena reale. In questo lavoro, proponiamo RealFill, un approccio generativo innovativo per il completamento delle immagini che riempie le regioni mancanti di un'immagine con il contenuto che avrebbe dovuto esserci. RealFill è un modello di inpainting generativo che viene personalizzato utilizzando solo poche immagini di riferimento di una scena. Queste immagini di riferimento non devono essere allineate con l'immagine target e possono essere scattate con punti di vista, condizioni di illuminazione, aperture della fotocamera o stili di immagine drasticamente diversi. Una volta personalizzato, RealFill è in grado di completare un'immagine target con contenuti visivamente convincenti e fedeli alla scena originale. Valutiamo RealFill su un nuovo benchmark di completamento delle immagini che copre una serie di scenari diversificati e impegnativi, e riscontriamo che supera di gran lunga gli approcci esistenti. Ulteriori risultati sono disponibili sulla nostra pagina del progetto: https://realfill.github.io.
Con il rapido progresso dei modelli linguistici di grandi dimensioni (LLM), emerge un'esigenza pressante di una suite di valutazione completa per valutarne le capacità e i limiti. Le classifiche esistenti degli LLM spesso fanno riferimento a punteggi riportati in altri articoli senza impostazioni e prompt coerenti, il che potrebbe involontariamente incoraggiare la selezione mirata di impostazioni e prompt preferiti per ottenere risultati migliori. In questo lavoro, presentiamo GPT-Fathom, una suite di valutazione degli LLM open-source e riproducibile, costruita su OpenAI Evals. Valutiamo sistematicamente oltre 10 LLM leader, nonché i modelli legacy di OpenAI, su oltre 20 benchmark curati in 7 categorie di capacità, tutti in impostazioni allineate. Il nostro studio retrospettivo sui modelli precedenti di OpenAI offre preziose intuizioni sul percorso evolutivo da GPT-3 a GPT-4. Attualmente, la comunità è desiderosa di sapere come GPT-3 sia progredito fino a GPT-4, inclusi dettagli tecnici come se l'aggiunta di dati di codice migliori la capacità di ragionamento degli LLM, quali aspetti delle capacità degli LLM possano essere migliorati da SFT e RLHF, quanto sia la tassa di allineamento, ecc. La nostra analisi getta luce su molte di queste domande, con l'obiettivo di migliorare la trasparenza degli LLM avanzati.
Consideriamo il compito di generare video diversificati e realistici guidati da campioni audio naturali appartenenti a un'ampia varietà di classi semantiche. Per questo compito, i video devono essere allineati sia globalmente che temporalmente con l'audio di input: globalmente, l'audio di input è semanticamente associato all'intero video di output, e temporalmente, ogni segmento dell'audio di input è associato a un corrispondente segmento del video. Utilizziamo un modello esistente di generazione di video condizionato da testo e un modello pre-addestrato di codifica audio. Il metodo proposto si basa su una rete adattatrice leggera, che impara a mappare la rappresentazione basata sull'audio alla rappresentazione di input attesa dal modello di generazione video da testo. In questo modo, consente anche la generazione di video condizionata da testo, audio e, per la prima volta per quanto ne sappiamo, da entrambi testo e audio. Validiamo il nostro metodo in modo estensivo su tre dataset che dimostrano una significativa diversità semantica di campioni audio-video e proponiamo ulteriormente una nuova metrica di valutazione (AV-Align) per valutare l'allineamento dei video generati con i campioni audio di input. AV-Align si basa sul rilevamento e sul confronto dei picchi di energia in entrambe le modalità. Rispetto ai recenti approcci all'avanguardia, il nostro metodo genera video che sono meglio allineati con il suono di input, sia per quanto riguarda il contenuto che l'asse temporale. Mostriamo inoltre che i video prodotti dal nostro metodo presentano una qualità visiva superiore e sono più diversificati.
Affinché i robot possano eseguire un'ampia gamma di compiti, è necessaria una rappresentazione 3D del mondo che sia semanticamente ricca, ma al tempo stesso compatta ed efficiente per la percezione e la pianificazione orientate al compito. Recenti approcci hanno tentato di sfruttare le caratteristiche di modelli visione-linguaggio di grandi dimensioni per codificare la semantica nelle rappresentazioni 3D. Tuttavia, questi approcci tendono a produrre mappe con vettori di caratteristiche per punto, che non si adattano bene a ambienti più grandi, né contengono relazioni spaziali semantiche tra le entità nell'ambiente, utili per la pianificazione a valle. In questo lavoro, proponiamo ConceptGraphs, una rappresentazione strutturata a grafo a vocabolario aperto per scene 3D. ConceptGraphs è costruito sfruttando modelli di base 2D e fondendo il loro output in 3D tramite associazione multi-vista. Le rappresentazioni risultanti si generalizzano a nuove classi semantiche, senza la necessità di raccogliere grandi dataset 3D o di adattare i modelli. Dimostriamo l'utilità di questa rappresentazione attraverso una serie di compiti di pianificazione a valle specificati tramite prompt astratti (linguistici) e che richiedono un ragionamento complesso su concetti spaziali e semantici. (Pagina del progetto: https://concept-graphs.github.io/ Video esplicativo: https://youtu.be/mRhNkQwRYnc)
Il successo dei modelli linguistici, in particolare delle architetture basate su trasformatori, si è esteso ad altri ambiti, dando vita ai "modelli linguistici scientifici" che operano su piccole molecole, proteine o polimeri. In chimica, i modelli linguistici contribuiscono ad accelerare il ciclo di scoperta delle molecole, come dimostrato dai promettenti risultati recenti nella fase iniziale della scoperta di farmaci. In questo articolo, esaminiamo il ruolo dei modelli linguistici nella scoperta molecolare, sottolineando il loro punto di forza nella progettazione di farmaci de novo, nella previsione delle proprietà e nella chimica delle reazioni. Mettiamo in evidenza preziose risorse software open-source, abbassando così la barriera d'ingresso nel campo della modellazione linguistica scientifica. Infine, delineiamo una visione per il futuro del design molecolare che combina un'interfaccia chatbot con l'accesso a strumenti di chimica computazionale. Il nostro contributo rappresenta una risorsa preziosa per ricercatori, chimici e appassionati di IA interessati a comprendere come i modelli linguistici possano e verranno utilizzati per accelerare la scoperta chimica.
In questo lavoro, presentiamo CCEdit, un framework versatile progettato per affrontare le sfide dell'editing video creativo e controllabile. CCEdit soddisfa un'ampia gamma di esigenze di editing degli utenti e consente un maggiore controllo creativo attraverso un approccio innovativo che separa la struttura e l'aspetto del video. Sfruttiamo l'architettura di base di ControlNet per preservare l'integrità strutturale, integrando in modo fluido moduli temporali adattabili compatibili con tecniche di personalizzazione all'avanguardia per la generazione di immagini da testo, come DreamBooth e LoRA. Inoltre, introduciamo l'editing video condizionato da riferimenti, consentendo agli utenti di esercitare un controllo creativo preciso sull'editing video attraverso il processo più gestibile di modifica dei fotogrammi chiave. Le nostre estese valutazioni sperimentali confermano l'eccezionale funzionalità e capacità di editing del framework CCEdit proposto. Il video dimostrativo è disponibile all'indirizzo https://www.youtube.com/watch?v=UQw4jq-igN4.