Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'apprendimento contrastivo è emerso come un metodo trasformativo per apprendere rappresentazioni visive efficaci attraverso l'allineamento degli embedding di immagini e testi. Tuttavia, il calcolo della similarità a coppie nella funzione di perdita contrastiva tra coppie di immagini e testi presenta sfide computazionali. Questo articolo presenta una nuova pre-addestramento debolmente supervisionato di modelli visivi su dati immagine-testo su scala web. Il metodo proposto riformula il pre-addestramento su dati immagine-testo come un compito di classificazione. Di conseguenza, elimina la necessità di calcoli di similarità a coppie nella perdita contrastiva, ottenendo un notevole accelerazione di 2,7 volte nella velocità di addestramento rispetto all'apprendimento contrastivo su dati su scala web. Attraverso esperimenti estesi che coprono diverse attività visive, tra cui rilevamento e segmentazione, dimostriamo che il metodo proposto mantiene un'elevata qualità delle rappresentazioni. Il nostro codice sorgente, insieme ai pesi dei modelli pre-addestrati e alle ricette di addestramento, è disponibile all'indirizzo https://github.com/apple/corenet.
Proponiamo Pure and Lightning ID customization (PuLID), un nuovo metodo di personalizzazione ID senza tuning per la generazione di immagini da testo. Integrando un ramo Lightning T2I con uno standard di diffusione, PuLID introduce sia una perdita di allineamento contrastivo che una perdita ID accurata, minimizzando le perturbazioni al modello originale e garantendo un'elevata fedeltà dell'ID. Gli esperimenti dimostrano che PuLID raggiunge prestazioni superiori sia nella fedeltà dell'ID che nella capacità di modifica. Un'altra caratteristica interessante di PuLID è che gli elementi dell'immagine (ad esempio, sfondo, illuminazione, composizione e stile) prima e dopo l'inserimento dell'ID rimangono il più possibile consistenti. I codici e i modelli saranno disponibili su https://github.com/ToTheBeginning/PuLID.
Il successo del pre-addestramento contrastivo lingua-immagine (CLIP) si basa sulla supervisione derivante dall'abbinamento tra immagini e didascalie, che tende a essere rumorosa nei dati raccolti dal web. Presentiamo Mixture of Data Experts (MoDE) e apprendiamo un sistema di esperti di dati CLIP tramite clustering. Ogni esperto di dati viene addestrato su un cluster di dati, risultando meno sensibile ai rumori di falsi negativi presenti negli altri cluster. Al momento dell'inferenza, combiniamo i loro output applicando pesi determinati attraverso la correlazione tra i metadati del task e le condizioni del cluster. Per stimare con precisione la correlazione, i campioni in un cluster dovrebbero essere semanticamente simili, ma il numero di esperti di dati dovrebbe comunque essere ragionevole per l'addestramento e l'inferenza. Pertanto, consideriamo l'ontologia nel linguaggio umano e proponiamo di utilizzare centri di cluster a grana fine per rappresentare ogni esperto di dati a un livello a grana grossa. Studi sperimentali dimostrano che quattro esperti di dati CLIP su ViT-B/16 superano il ViT-L/14 di OpenAI CLIP e OpenCLIP nella classificazione zero-shot di immagini, ma con un costo di addestramento inferiore (<35%). Nel frattempo, MoDE può addestrare tutti gli esperti di dati in modo asincrono e può includere in modo flessibile nuovi esperti di dati. Il codice è disponibile all'indirizzo https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
Il rapido sviluppo dei modelli di diffusione ha dato origine a una vasta gamma di applicazioni. In particolare, la generazione di immagini da testo con conservazione dell'identità (ID-T2I) ha ricevuto notevole attenzione grazie ai suoi numerosi scenari applicativi, come i ritratti AI e la pubblicità. Sebbene i metodi ID-T2I esistenti abbiano dimostrato risultati impressionanti, permangono diverse sfide chiave: (1) È difficile mantenere con precisione le caratteristiche identitarie dei ritratti di riferimento, (2) Le immagini generate mancano di appeal estetico, specialmente quando si cerca di preservare l'identità, e (3) Esiste una limitazione che non consente la compatibilità simultanea con metodi basati su LoRA e Adapter. Per affrontare questi problemi, presentiamo ID-Aligner, un framework di apprendimento basato su feedback generale per migliorare le prestazioni ID-T2I. Per risolvere la perdita delle caratteristiche identitarie, introduciamo un fine-tuning basato su ricompensa di consistenza dell'identità, sfruttando il feedback proveniente da modelli di rilevamento e riconoscimento facciale per migliorare la conservazione dell'identità generata. Inoltre, proponiamo un fine-tuning basato su ricompensa estetica dell'identità, utilizzando ricompense derivate da dati di preferenza annotati manualmente e feedback automaticamente costruiti sulla generazione della struttura del personaggio, per fornire segnali di regolazione estetica. Grazie al suo framework universale di fine-tuning basato su feedback, il nostro metodo può essere facilmente applicato sia ai modelli LoRA che Adapter, ottenendo miglioramenti prestazionali consistenti. Esperimenti estensivi sui modelli di diffusione SD1.5 e SDXL convalidano l'efficacia del nostro approccio. Pagina del progetto: \url{https://idaligner.github.io/}
L'emergere dei modelli di diffusione ha notevolmente spinto il progresso nella generazione di immagini e video. Recentemente, alcuni sforzi sono stati compiuti nella generazione controllata di video, inclusa la generazione da testo a video e il controllo del movimento nei video, tra i quali il controllo del movimento della telecamera rappresenta un argomento importante. Tuttavia, i metodi esistenti per il controllo del movimento della telecamera si basano sull'addestramento di un modulo temporale della telecamera e richiedono risorse computazionali sostanziali a causa dell'elevato numero di parametri nei modelli di generazione video. Inoltre, i metodi esistenti pre-definiscono i tipi di movimento della telecamera durante l'addestramento, il che limita la loro flessibilità nel controllo della telecamera. Pertanto, per ridurre i costi di addestramento e ottenere un controllo flessibile della telecamera, proponiamo COMD, un nuovo modello di trasferimento del movimento video senza addestramento, che separa i movimenti della telecamera e i movimenti degli oggetti nei video sorgente e trasferisce i movimenti della telecamera estratti a nuovi video. Proponiamo innanzitutto un metodo di separazione del movimento della telecamera one-shot per estrarre il movimento della telecamera da un singolo video sorgente, che separa gli oggetti in movimento dallo sfondo e stima il movimento della telecamera nella regione degli oggetti in movimento basandosi sul movimento nello sfondo risolvendo un'equazione di Poisson. Inoltre, proponiamo un metodo di separazione del movimento della telecamera few-shot per estrarre il movimento comune della telecamera da più video con movimenti simili, che utilizza una tecnica di clustering basata su finestre per estrarre le caratteristiche comuni nelle mappe di attenzione temporale di più video. Infine, proponiamo un metodo di combinazione del movimento per combinare insieme diversi tipi di movimenti della telecamera, consentendo al nostro modello un controllo della telecamera più controllabile e flessibile. Esperimenti estensivi dimostrano che il nostro approccio senza addestramento può efficacemente separare il movimento camera-oggetto e applicare il movimento della telecamera separato a un'ampia gamma di attività di generazione video controllabile, raggiungendo un controllo del movimento della telecamera flessibile e diversificato.
Il matting umano è un compito fondamentale nell'elaborazione di immagini e video, in cui i pixel in primo piano umani vengono estratti dall'input. I lavori precedenti migliorano l'accuratezza attraverso ulteriori guide o migliorano la coerenza temporale di una singola istanza tra i fotogrammi. Proponiamo un nuovo framework chiamato MaGGIe, Masked Guided Gradual Human Instance Matting, che prevede progressivamente i matte alfa per ciascuna istanza umana mantenendo i costi computazionali, la precisione e la coerenza. Il nostro metodo sfrutta architetture moderne, inclusa l'attenzione transformer e la convoluzione sparsa, per produrre simultaneamente tutti i matte delle istanze senza esplodere la memoria e la latenza. Pur mantenendo costi di inferenza costanti nello scenario multi-istanza, il nostro framework raggiunge prestazioni robuste e versatili sui nostri benchmark sintetizzati proposti. Con benchmark di matting per immagini e video di qualità superiore, viene introdotto un nuovo approccio di sintesi multi-istanza da fonti pubbliche per aumentare la generalizzazione dei modelli negli scenari del mondo reale.
I modelli di diffusione hanno compiuto progressi significativi nei compiti di sintesi guidata da testo. Tuttavia, la modifica di immagini fornite dall'utente rimane una sfida, poiché lo spazio di input ad alta dimensionalità del rumore nei modelli di diffusione non è naturalmente adatto per l'inversione di immagini o la modifica spaziale. In questo lavoro, proponiamo una rappresentazione delle immagini che favorisce la modifica spaziale delle immagini di input utilizzando un modello di diffusione. Nello specifico, apprendiamo a codificare un input in "elementi immagine" che possono ricostruire fedelmente un'immagine di input. Questi elementi possono essere modificati in modo intuitivo da un utente e vengono decodificati da un modello di diffusione in immagini realistiche. Dimostriamo l'efficacia della nostra rappresentazione in vari compiti di modifica delle immagini, come il ridimensionamento degli oggetti, il riarrangiamento, il trascinamento, la de-occlusione, la rimozione, la variazione e la composizione di immagini. Pagina del progetto: https://jitengmu.github.io/Editable_Image_Elements/
Gli approcci di apprendimento in contesto (In-context Learning, ICL) tipicamente sfruttano il prompting per condizionare la generazione di modelli linguistici decoder-only su informazioni di riferimento. L'elaborazione just-in-time di un contesto è inefficiente a causa del costo quadratico delle operazioni di self-attention, rendendo desiderabile l'uso della memorizzazione nella cache. Tuttavia, memorizzare gli stati del transformer può facilmente richiedere quasi tanto spazio quanto i parametri del modello. Quando il contesto corretto non è noto in anticipo, la memorizzazione nella cache per l'ICL può essere impegnativa. Questo lavoro affronta queste limitazioni introducendo modelli che, ispirati dall'architettura encoder-decoder, utilizzano la cross-attention per condizionare la generazione su un testo di riferimento senza il prompt. Più precisamente, sfruttiamo modelli decoder-only pre-addestrati e addestriamo solo un piccolo numero di livelli aggiuntivi. Utilizziamo il Question-Answering (QA) come banco di prova per valutare la capacità dei nostri modelli di eseguire la generazione condizionata e osserviamo che superano l'ICL, sono comparabili ai LLM con prompt fine-tuned e riducono drasticamente l'impronta spaziale rispetto alla memorizzazione standard KV di due ordini di grandezza.
Il decoding speculativo è emerso come un metodo potente per migliorare la latenza e il throughput nell'hosting di grandi modelli linguistici. Tuttavia, la maggior parte delle implementazioni esistenti si concentra sulla generazione di una singola sequenza. Le applicazioni generative di intelligenza artificiale nel mondo reale spesso richiedono più risposte, e come eseguire il decoding speculativo in un contesto batch preservando i suoi vantaggi in termini di latenza pone sfide non banali. Questo articolo descrive un sistema di decoding speculativo in batch che stabilisce un nuovo stato dell'arte nella latenza di generazione di sequenze multiple e dimostra una superiore utilizzazione della GPU, nonché una qualità delle generazioni entro un budget di tempo. Ad esempio, per un modello di dimensioni 7.8B su una singola GPU A100 e con una dimensione del batch di 8, ogni sequenza viene generata a una velocità media di 5.8ms per token, con un throughput complessivo di 1.1K token al secondo. Questi risultati rappresentano una latenza all'avanguardia e un miglioramento di 2.15X rispetto al decoding regolare ottimizzato. Entro un budget di tempo in cui il decoding regolare non riesce a completare, il nostro sistema è in grado di generare sequenze con un HumanEval Pass@First del 43% e un Pass@All del 61%, superando di gran lunga quanto è fattibile con il decoding speculativo a singola sequenza. La nostra massima utilizzazione della GPU durante il decoding raggiunge il 15.8%, più di 3X rispetto al massimo del decoding regolare e circa 10X rispetto al decoding speculativo a singola sequenza.