HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

16 papers found

I Vision Transformer necessitano di registri.
Vision Transformers Need Registers

Sep 28

ByTimothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski

I Transformer sono emersi recentemente come uno strumento potente per l'apprendimento di rappresentazioni visive. In questo articolo, identifichiamo e caratterizziamo artefatti nelle mappe di caratteristiche di reti ViT sia supervisionate che auto-supervisionate. Gli artefatti corrispondono a token con norma elevata che compaiono durante l'inferenza principalmente nelle aree di sfondo a basso contenuto informativo delle immagini, che vengono riutilizzate per calcoli interni. Proponiamo una soluzione semplice ma efficace basata sull'aggiunta di token aggiuntivi alla sequenza di input del Vision Transformer per svolgere tale ruolo. Dimostriamo che questa soluzione risolve completamente il problema sia per i modelli supervisionati che per quelli auto-supervisionati, stabilisce un nuovo stato dell'arte per i modelli visivi auto-supervisionati nelle attività di predizione visiva densa, consente metodi di scoperta degli oggetti con modelli più grandi e, soprattutto, porta a mappe di caratteristiche e mappe di attenzione più fluide per l'elaborazione visiva a valle.

AnyMAL: Un Modello Linguistico Aumentato Efficiente e Scalabile per Qualsiasi Modalità
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

Sep 27

BySeungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar

Presentiamo Any-Modality Augmented Language Model (AnyMAL), un modello unificato che ragiona su segnali di input di diverse modalità (ad esempio testo, immagine, video, audio, sensore di movimento IMU) e genera risposte testuali. AnyMAL eredita le potenti capacità di ragionamento basato su testo dei modelli linguistici all'avanguardia, tra cui LLaMA-2 (70B), e converte i segnali specifici di ciascuna modalità in uno spazio testuale condiviso attraverso un modulo di allineamento pre-addestrato. Per rafforzare ulteriormente le capacità del modello linguistico multimodale, abbiamo effettuato un fine-tuning utilizzando un set di istruzioni multimodali raccolto manualmente per coprire argomenti e compiti diversificati, andando oltre semplici domande e risposte. Abbiamo condotto un'analisi empirica completa che include valutazioni sia umane che automatiche, dimostrando prestazioni all'avanguardia in varie attività multimodali.

DreamGaussian: Splatting Gaussiano Generativo per la Creazione Efficiente di Contenuti 3D
DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

Sep 28

ByJiaxiang Tang, Jiawei Ren, Hang Zhou, Ziwei Liu, Gang Zeng

I recenti progressi nella creazione di contenuti 3D si basano principalmente su metodi di generazione 3D basati su ottimizzazione tramite il campionamento per distillazione del punteggio (SDS). Sebbene siano stati ottenuti risultati promettenti, questi metodi spesso soffrono di un'ottimizzazione lenta per campione, limitandone l'uso pratico. In questo articolo, proponiamo DreamGaussian, un nuovo framework per la generazione di contenuti 3D che raggiunge simultaneamente efficienza e qualità. La nostra intuizione chiave è progettare un modello generativo di 3D Gaussian Splatting accompagnato da estrazione di mesh e raffinatura delle texture nello spazio UV. A differenza della potatura dell'occupazione utilizzata nei Neural Radiance Fields, dimostriamo che la densificazione progressiva delle Gaussiane 3D converge significativamente più velocemente per compiti generativi 3D. Per migliorare ulteriormente la qualità delle texture e facilitare le applicazioni a valle, introduciamo un algoritmo efficiente per convertire le Gaussiane 3D in mesh con texture e applichiamo una fase di fine-tuning per affinare i dettagli. Esperimenti estensivi dimostrano la superiorità in termini di efficienza e la qualità generativa competitiva del nostro approccio proposto. In particolare, DreamGaussian produce mesh con texture di alta qualità in soli 2 minuti partendo da un'immagine a singola vista, ottenendo un'accelerazione di circa 10 volte rispetto ai metodi esistenti.

Rapporto Tecnico di Qwen
Qwen Technical Report

Sep 28

ByJinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu

I grandi modelli linguistici (LLM) hanno rivoluzionato il campo dell'intelligenza artificiale, abilitando compiti di elaborazione del linguaggio naturale che in precedenza si ritenevano esclusivi degli esseri umani. In questo lavoro, presentiamo Qwen, il primo capitolo della nostra serie di grandi modelli linguistici. Qwen è una serie completa di modelli linguistici che comprende modelli distinti con un numero variabile di parametri. Include Qwen, i modelli linguistici pre-addestrati di base, e Qwen-Chat, i modelli di chat perfezionati con tecniche di allineamento umano. I modelli linguistici di base dimostrano costantemente prestazioni superiori in una moltitudine di task downstream, mentre i modelli di chat, in particolare quelli addestrati utilizzando il Reinforcement Learning from Human Feedback (RLHF), sono altamente competitivi. I modelli di chat possiedono capacità avanzate di utilizzo di strumenti e pianificazione per la creazione di applicazioni agenti, mostrando prestazioni impressionanti anche rispetto a modelli più grandi in task complessi come l'utilizzo di un interprete di codice. Inoltre, abbiamo sviluppato modelli specializzati nella codifica, Code-Qwen e Code-Qwen-Chat, e modelli focalizzati sulla matematica, Math-Qwen-Chat, costruiti sui modelli linguistici di base. Questi modelli dimostrano prestazioni significativamente migliorate rispetto ai modelli open-source, e si posizionano leggermente dietro ai modelli proprietari.

Text-to-3D utilizzando il Gaussian Splatting
Text-to-3D using Gaussian Splatting

Sep 28

ByZilong Chen, Feng Wang, Huaping Liu

In questo articolo, presentiamo GSGEN (Gaussian Splatting based text-to-3D generation), un approccio innovativo per la generazione di oggetti 3D di alta qualità. I metodi precedenti soffrono di geometria imprecisa e fedeltà limitata a causa della mancanza di un priore 3D e di una rappresentazione adeguata. Sfruttiamo il Gaussian Splatting 3D, una rappresentazione all'avanguardia recente, per affrontare le carenze esistenti sfruttando la natura esplicita che consente l'incorporazione di un priore 3D. Nello specifico, il nostro metodo adotta una strategia di ottimizzazione progressiva, che include una fase di ottimizzazione della geometria e una fase di raffinamento dell'aspetto. Nell'ottimizzazione della geometria, viene stabilita una rappresentazione approssimativa sotto un priore di geometria 3D insieme alla normale perdita SDS 2D, garantendo una forma grezza sensata e coerente in 3D. Successivamente, i Gaussian ottenuti subiscono un raffinamento iterativo per arricchire i dettagli. In questa fase, aumentiamo il numero di Gaussian attraverso una densificazione basata sulla compattezza per migliorare la continuità e aumentare la fedeltà. Con questi accorgimenti, il nostro approccio è in grado di generare contenuti 3D con dettagli delicati e una geometria più accurata. Valutazioni estensive dimostrano l'efficacia del nostro metodo, in particolare per la cattura di componenti ad alta frequenza. I risultati video sono disponibili all'indirizzo https://gsgen3d.github.io. Il nostro codice è disponibile all'indirizzo https://github.com/gsgen3d/gsgen.

Scalabilità Efficace del Contesto Esteso nei Modelli di Base
Effective Long-Context Scaling of Foundation Models

Sep 27

ByWenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava, Rui Hou, Louis Martin, Rashi Rungta, Karthik Abinav Sankararaman, Barlas Oguz, Madian Khabsa, Han Fang, Yashar Mehdad, Sharan Narang, Kshitiz Malik, Angela Fan, Shruti Bhosale, Sergey Edunov, Mike Lewis, Sinong Wang, Hao Ma

Presentiamo una serie di LLM a contesto lungo che supportano finestre di contesto efficaci fino a 32.768 token. La nostra serie di modelli è stata costruita attraverso un pretraining continuo a partire da Llama 2, utilizzando sequenze di addestramento più lunghe e su un dataset in cui i testi lunghi sono sovracampionati. Eseguiamo una valutazione estensiva sul modeling linguistico, su task di probing sintetico del contesto e su un'ampia gamma di benchmark di ricerca. Sui benchmark di ricerca, i nostri modelli ottengono miglioramenti consistenti sulla maggior parte dei task regolari e miglioramenti significativi sui task a contesto lungo rispetto a Llama 2. In particolare, con una procedura di instruction tuning economicamente vantaggiosa che non richiede dati di istruzioni lunghe annotati manualmente, la variante da 70B può già superare le prestazioni complessive di gpt-3.5-turbo-16k su una serie di task a contesto lungo. Accanto a questi risultati, forniamo un'analisi approfondita dei singoli componenti del nostro metodo. Approfondiamo le codifiche posizionali di Llama e discutiamo i suoi limiti nella modellazione di dipendenze lunghe. Esaminiamo inoltre l'impatto di varie scelte progettuali nel processo di pretraining, inclusa la miscela di dati e il curriculum di addestramento delle lunghezze delle sequenze — i nostri esperimenti di ablazione suggeriscono che avere abbondanti testi lunghi nel dataset di pretraining non è la chiave per ottenere prestazioni forti, e verifichiamo empiricamente che il pretraining continuo a contesto lungo è più efficiente e altrettanto efficace rispetto al pretraining da zero con sequenze lunghe.

Interpolazione Profonda di Linee Cartoon Geometrizzate
Deep Geometrized Cartoon Line Inbetweening

Sep 28

ByLi Siyao, Tianpei Gu, Weiye Xiao, Henghui Ding, Ziwei Liu, Chen Change Loy

Ci proponiamo di affrontare un problema significativo ma poco studiato nell'industria degli anime, ovvero l'inbetweening dei disegni a linee dei cartoni animati. L'inbetweening consiste nella generazione di fotogrammi intermedi tra due disegni a linee in bianco e nero ed è un processo dispendioso in termini di tempo e costi che può trarre vantaggio dall'automazione. Tuttavia, i metodi esistenti di interpolazione di fotogrammi che si basano sull'abbinamento e sulla deformazione di intere immagini raster sono inadatti per l'inbetweening di linee e spesso producono artefatti di sfocatura che danneggiano le intricate strutture lineari. Per preservare la precisione e i dettagli dei disegni a linee, proponiamo un nuovo approccio, AnimeInbet, che geometrizza i disegni a linee raster in grafi di punti finali e riformula il compito di inbetweening come un problema di fusione di grafi con riposizionamento dei vertici. Il nostro metodo è in grado di catturare efficacemente la sparsità e la struttura unica dei disegni a linee preservando i dettagli durante l'inbetweening. Ciò è reso possibile grazie ai nostri moduli innovativi, ovvero l'embedding geometrico dei vertici, un Transformer per la corrispondenza dei vertici, un meccanismo efficace per il riposizionamento dei vertici e un predittore di visibilità. Per addestrare il nostro metodo, introduciamo MixamoLine240, un nuovo dataset di disegni a linee con vettorizzazione e etichette di abbinamento di riferimento. I nostri esperimenti dimostrano che AnimeInbet sintetizza disegni a linee intermedi di alta qualità, puliti e completi, superando i metodi esistenti sia quantitativamente che qualitativamente, specialmente nei casi con movimenti ampi. Dati e codice sono disponibili all'indirizzo https://github.com/lisiyao21/AnimeInbet.

Demistificare i dati di CLIP
Demystifying CLIP Data

Sep 28

ByHu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer

Il Contrastive Language-Image Pre-training (CLIP) è un approccio che ha fatto progredire la ricerca e le applicazioni nel campo della visione artificiale, alimentando i moderni sistemi di riconoscimento e i modelli generativi. Crediamo che l'ingrediente principale del successo di CLIP siano i suoi dati, piuttosto che l'architettura del modello o l'obiettivo di pre-addestramento. Tuttavia, CLIP fornisce informazioni molto limitate sui suoi dati e su come sono stati raccolti, portando a lavori che mirano a riprodurre i dati di CLIP filtrandoli con i parametri del modello. In questo lavoro, intendiamo rivelare l'approccio di curatela dei dati di CLIP e, nel nostro intento di renderlo accessibile alla comunità, introduciamo il Metadata-Curated Language-Image Pre-training (MetaCLIP). MetaCLIP prende un pool di dati grezzi e metadati (derivati dai concetti di CLIP) e produce un sottoinsieme bilanciato sulla distribuzione dei metadati. Il nostro studio sperimentale isola rigorosamente il modello e le impostazioni di addestramento, concentrandosi esclusivamente sui dati. MetaCLIP applicato a CommonCrawl con 400 milioni di coppie immagine-testo supera i dati di CLIP su molteplici benchmark standard. Nella classificazione zero-shot su ImageNet, MetaCLIP raggiunge un'accuratezza del 70,8%, superando il 68,3% di CLIP sui modelli ViT-B. Scalando a 1 miliardo di dati, mantenendo lo stesso budget di addestramento, si ottiene il 72,4%. Le nostre osservazioni si mantengono su varie dimensioni del modello, come dimostrato da ViT-H che raggiunge l'80,5%, senza alcun orpello. Il codice di curatela e la distribuzione dei dati di addestramento sui metadati sono disponibili all'indirizzo https://github.com/facebookresearch/MetaCLIP.

AutoCLIP: Ottimizzazione Automatica dei Classificatori Zero-Shot per Modelli Visione-Linguaggio
AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models

Sep 28

ByJan Hendrik Metzen, Piyapat Saranrittichai, Chaithanya Kumar Mummadi

I classificatori basati su modelli visione-linguaggio come CLIP hanno dimostrato prestazioni zero-shot notevoli in un'ampia gamma di attività di classificazione di immagini. Ricerche precedenti hanno studiato diversi modi per creare automaticamente insiemi di descrittori per ogni classe basati su template di prompt, che vanno da template progettati manualmente a template ottenuti da un modello linguistico di grandi dimensioni, fino a template costruiti da parole e caratteri casuali. Al contrario, la derivazione di classificatori zero-shot dai rispettivi descrittori di classe codificati è rimasta pressoché invariata, ovvero: classificare nella classe che massimizza la similarità coseno tra i suoi descrittori di classe codificati medi e l'immagine codificata. Tuttavia, assegnare lo stesso peso a tutti i descrittori di classe può essere subottimale quando alcuni descrittori corrispondono meglio agli indizi visivi di una determinata immagine rispetto ad altri. In questo lavoro, proponiamo AutoCLIP, un metodo per l'auto-tuning dei classificatori zero-shot. AutoCLIP assegna a ciascun template di prompt dei pesi per immagine, che sono derivati dalle statistiche delle similarità tra descrittori di classe e immagine al momento dell'inferenza. AutoCLIP è completamente non supervisionato, ha un overhead molto basso e può essere facilmente implementato in poche righe di codice. Dimostriamo che, per un'ampia gamma di modelli visione-linguaggio, dataset e template di prompt, AutoCLIP supera costantemente i baseline con un miglioramento fino a 3 punti percentuali in termini di accuratezza.

MotionLM: Previsione del Movimento Multi-Agente come Modellazione del Linguaggio
MotionLM: Multi-Agent Motion Forecasting as Language Modeling

Sep 28

ByAri Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al-Rfou, Benjamin Sapp

La previsione affidabile del comportamento futuro degli agenti stradali è un componente critico per una pianificazione sicura nei veicoli autonomi. In questo lavoro, rappresentiamo traiettorie continue come sequenze di token di movimento discreti e formuliamo la previsione del movimento multi-agente come un'attività di modellazione del linguaggio su questo dominio. Il nostro modello, MotionLM, offre diversi vantaggi: in primo luogo, non richiede ancore o un'ottimizzazione esplicita di variabili latenti per apprendere distribuzioni multimodali. Invece, sfruttiamo un unico obiettivo standard di modellazione del linguaggio, massimizzando la probabilità logaritmica media sui token di sequenza. In secondo luogo, il nostro approccio evita euristiche di interazione post-hoc in cui la generazione della traiettoria di singoli agenti viene condotta prima del punteggio interattivo. Al contrario, MotionLM produce distribuzioni congiunte sui futuri interattivi degli agenti in un unico processo di decodifica autoregressiva. Inoltre, la fattorizzazione sequenziale del modello consente rollout condizionali temporalmente causali. L'approccio proposto stabilisce nuove prestazioni all'avanguardia per la previsione del movimento multi-agente sul Waymo Open Motion Dataset, classificandosi al 1° posto nella classifica della sfida interattiva.

RealFill: Generazione Guidata da Riferimenti per il Completamento Autentico di Immagini
RealFill: Reference-Driven Generation for Authentic Image Completion

Sep 28

ByLuming Tang, Nataniel Ruiz, Qinghao Chu, Yuanzhen Li, Aleksander Holynski, David E. Jacobs, Bharath Hariharan, Yael Pritch, Neal Wadhwa, Kfir Aberman, Michael Rubinstein

I recenti progressi nella generazione di immagini hanno portato alla creazione di modelli di outpaiting e inpainting in grado di produrre contenuti visivi di alta qualità e plausibili in regioni sconosciute. Tuttavia, il contenuto che questi modelli "allucinano" è necessariamente inautentico, poiché i modelli non dispongono di un contesto sufficiente sulla scena reale. In questo lavoro, proponiamo RealFill, un approccio generativo innovativo per il completamento delle immagini che riempie le regioni mancanti di un'immagine con il contenuto che avrebbe dovuto esserci. RealFill è un modello di inpainting generativo che viene personalizzato utilizzando solo poche immagini di riferimento di una scena. Queste immagini di riferimento non devono essere allineate con l'immagine target e possono essere scattate con punti di vista, condizioni di illuminazione, aperture della fotocamera o stili di immagine drasticamente diversi. Una volta personalizzato, RealFill è in grado di completare un'immagine target con contenuti visivamente convincenti e fedeli alla scena originale. Valutiamo RealFill su un nuovo benchmark di completamento delle immagini che copre una serie di scenari diversificati e impegnativi, e riscontriamo che supera di gran lunga gli approcci esistenti. Ulteriori risultati sono disponibili sulla nostra pagina del progetto: https://realfill.github.io.

GPT-Fathom: Benchmarking dei Modelli Linguistici di Grande Scala per Decifrare il Percorso Evolutivo verso GPT-4 e Oltre
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond

Sep 28

ByShen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang

Con il rapido progresso dei modelli linguistici di grandi dimensioni (LLM), emerge un'esigenza pressante di una suite di valutazione completa per valutarne le capacità e i limiti. Le classifiche esistenti degli LLM spesso fanno riferimento a punteggi riportati in altri articoli senza impostazioni e prompt coerenti, il che potrebbe involontariamente incoraggiare la selezione mirata di impostazioni e prompt preferiti per ottenere risultati migliori. In questo lavoro, presentiamo GPT-Fathom, una suite di valutazione degli LLM open-source e riproducibile, costruita su OpenAI Evals. Valutiamo sistematicamente oltre 10 LLM leader, nonché i modelli legacy di OpenAI, su oltre 20 benchmark curati in 7 categorie di capacità, tutti in impostazioni allineate. Il nostro studio retrospettivo sui modelli precedenti di OpenAI offre preziose intuizioni sul percorso evolutivo da GPT-3 a GPT-4. Attualmente, la comunità è desiderosa di sapere come GPT-3 sia progredito fino a GPT-4, inclusi dettagli tecnici come se l'aggiunta di dati di codice migliori la capacità di ragionamento degli LLM, quali aspetti delle capacità degli LLM possano essere migliorati da SFT e RLHF, quanto sia la tassa di allineamento, ecc. La nostra analisi getta luce su molte di queste domande, con l'obiettivo di migliorare la trasparenza degli LLM avanzati.

Generazione Audio-to-Video Diversificata e Allineata tramite Adattamento di Modelli Text-to-Video
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation

Sep 28

ByGuy Yariv, Itai Gat, Sagie Benaim, Lior Wolf, Idan Schwartz, Yossi Adi

Consideriamo il compito di generare video diversificati e realistici guidati da campioni audio naturali appartenenti a un'ampia varietà di classi semantiche. Per questo compito, i video devono essere allineati sia globalmente che temporalmente con l'audio di input: globalmente, l'audio di input è semanticamente associato all'intero video di output, e temporalmente, ogni segmento dell'audio di input è associato a un corrispondente segmento del video. Utilizziamo un modello esistente di generazione di video condizionato da testo e un modello pre-addestrato di codifica audio. Il metodo proposto si basa su una rete adattatrice leggera, che impara a mappare la rappresentazione basata sull'audio alla rappresentazione di input attesa dal modello di generazione video da testo. In questo modo, consente anche la generazione di video condizionata da testo, audio e, per la prima volta per quanto ne sappiamo, da entrambi testo e audio. Validiamo il nostro metodo in modo estensivo su tre dataset che dimostrano una significativa diversità semantica di campioni audio-video e proponiamo ulteriormente una nuova metrica di valutazione (AV-Align) per valutare l'allineamento dei video generati con i campioni audio di input. AV-Align si basa sul rilevamento e sul confronto dei picchi di energia in entrambe le modalità. Rispetto ai recenti approcci all'avanguardia, il nostro metodo genera video che sono meglio allineati con il suono di input, sia per quanto riguarda il contenuto che l'asse temporale. Mostriamo inoltre che i video prodotti dal nostro metodo presentano una qualità visiva superiore e sono più diversificati.

ConceptGraphs: Grafi di Scena 3D a Vocabolario Aperto per Percezione e Pianificazione
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning

Sep 28

ByQiao Gu, Alihusein Kuwajerwala, Sacha Morin, Krishna Murthy Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul, Kirsty Ellis, Rama Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B. Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull

Affinché i robot possano eseguire un'ampia gamma di compiti, è necessaria una rappresentazione 3D del mondo che sia semanticamente ricca, ma al tempo stesso compatta ed efficiente per la percezione e la pianificazione orientate al compito. Recenti approcci hanno tentato di sfruttare le caratteristiche di modelli visione-linguaggio di grandi dimensioni per codificare la semantica nelle rappresentazioni 3D. Tuttavia, questi approcci tendono a produrre mappe con vettori di caratteristiche per punto, che non si adattano bene a ambienti più grandi, né contengono relazioni spaziali semantiche tra le entità nell'ambiente, utili per la pianificazione a valle. In questo lavoro, proponiamo ConceptGraphs, una rappresentazione strutturata a grafo a vocabolario aperto per scene 3D. ConceptGraphs è costruito sfruttando modelli di base 2D e fondendo il loro output in 3D tramite associazione multi-vista. Le rappresentazioni risultanti si generalizzano a nuove classi semantiche, senza la necessità di raccogliere grandi dataset 3D o di adattare i modelli. Dimostriamo l'utilità di questa rappresentazione attraverso una serie di compiti di pianificazione a valle specificati tramite prompt astratti (linguistici) e che richiedono un ragionamento complesso su concetti spaziali e semantici. (Pagina del progetto: https://concept-graphs.github.io/ Video esplicativo: https://youtu.be/mRhNkQwRYnc)

Modelli linguistici nella scoperta molecolare
Language models in molecular discovery

Sep 28

ByNikita Janakarajan, Tim Erdmann, Sarath Swaminathan, Teodoro Laino, Jannis Born

Il successo dei modelli linguistici, in particolare delle architetture basate su trasformatori, si è esteso ad altri ambiti, dando vita ai "modelli linguistici scientifici" che operano su piccole molecole, proteine o polimeri. In chimica, i modelli linguistici contribuiscono ad accelerare il ciclo di scoperta delle molecole, come dimostrato dai promettenti risultati recenti nella fase iniziale della scoperta di farmaci. In questo articolo, esaminiamo il ruolo dei modelli linguistici nella scoperta molecolare, sottolineando il loro punto di forza nella progettazione di farmaci de novo, nella previsione delle proprietà e nella chimica delle reazioni. Mettiamo in evidenza preziose risorse software open-source, abbassando così la barriera d'ingresso nel campo della modellazione linguistica scientifica. Infine, delineiamo una visione per il futuro del design molecolare che combina un'interfaccia chatbot con l'accesso a strumenti di chimica computazionale. Il nostro contributo rappresenta una risorsa preziosa per ricercatori, chimici e appassionati di IA interessati a comprendere come i modelli linguistici possano e verranno utilizzati per accelerare la scoperta chimica.

CCEdit: Modifica Video Creativa e Controllabile tramite Modelli di Diffusione
CCEdit: Creative and Controllable Video Editing via Diffusion Models

Sep 28

ByRuoyu Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong Luo, Zhibo Chen, Baining Guo

In questo lavoro, presentiamo CCEdit, un framework versatile progettato per affrontare le sfide dell'editing video creativo e controllabile. CCEdit soddisfa un'ampia gamma di esigenze di editing degli utenti e consente un maggiore controllo creativo attraverso un approccio innovativo che separa la struttura e l'aspetto del video. Sfruttiamo l'architettura di base di ControlNet per preservare l'integrità strutturale, integrando in modo fluido moduli temporali adattabili compatibili con tecniche di personalizzazione all'avanguardia per la generazione di immagini da testo, come DreamBooth e LoRA. Inoltre, introduciamo l'editing video condizionato da riferimenti, consentendo agli utenti di esercitare un controllo creativo preciso sull'editing video attraverso il processo più gestibile di modifica dei fotogrammi chiave. Le nostre estese valutazioni sperimentali confermano l'eccezionale funzionalità e capacità di editing del framework CCEdit proposto. Il video dimostrativo è disponibile all'indirizzo https://www.youtube.com/watch?v=UQw4jq-igN4.

Rapporto Tecnico di Qwen
Qwen Technical Report

Sep 28