Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo lavoro presenta Depth Anything, una soluzione altamente pratica per la stima robusta della profondità monoculare. Senza ricercare moduli tecnici innovativi, miriamo a costruire un modello di base semplice ma potente in grado di gestire qualsiasi immagine in qualsiasi circostanza. A tal fine, ampliamo il dataset progettando un motore di dati per raccogliere e annotare automaticamente grandi quantità di dati non etichettati (~62M), che ampliano significativamente la copertura dei dati e quindi sono in grado di ridurre l'errore di generalizzazione. Investigiamo due strategie semplici ma efficaci che rendono promettente l'ampliamento dei dati. In primo luogo, viene creato un obiettivo di ottimizzazione più impegnativo sfruttando strumenti di aumento dei dati. Ciò costringe il modello a cercare attivamente conoscenze visive aggiuntive e ad acquisire rappresentazioni robuste. In secondo luogo, viene sviluppata una supervisione ausiliaria per imporre al modello di ereditare ricchi priori semantici da encoder pre-addestrati. Valutiamo ampiamente le sue capacità zero-shot, inclusi sei dataset pubblici e foto catturate casualmente. Dimostra un'impressionante capacità di generalizzazione. Inoltre, attraverso il fine-tuning con informazioni sulla profondità metrica da NYUv2 e KITTI, vengono stabiliti nuovi SOTA. Il nostro modello di profondità migliore si traduce anche in un ControlNet condizionato alla profondità migliore. I nostri modelli sono rilasciati su https://github.com/LiheYoung/Depth-Anything.
Il parallelismo pipeline è uno dei componenti chiave per l'addestramento distribuito su larga scala, ma la sua efficienza è compromessa dalle bolle pipeline, ritenute inevitabili. In questo lavoro, introduciamo una strategia di scheduling che, a nostra conoscenza, è la prima a raggiungere con successo zero bolle pipeline sotto semantica di addestramento sincrono. L'idea centrale di questo miglioramento è dividere il calcolo all'indietro in due parti: una che calcola il gradiente per l'input e un'altra che lo calcola per i parametri. Basandoci su questa idea, abbiamo progettato manualmente nuovi scheduli pipeline che superano significativamente i metodi di base. Abbiamo inoltre sviluppato un algoritmo che trova automaticamente uno schedulo ottimale in base alla configurazione specifica del modello e al limite di memoria. Inoltre, per raggiungere veramente zero bolle, introduciamo una nuova tecnica per bypassare le sincronizzazioni durante il passo dell'ottimizzatore. Le valutazioni sperimentali mostrano che il nostro metodo supera lo schedulo 1F1B fino al 23% in termini di throughput sotto un limite di memoria simile. Questo numero può essere ulteriormente spinto al 31% quando il vincolo di memoria è rilassato. Crediamo che i nostri risultati rappresentino un importante passo avanti nello sfruttare il vero potenziale del parallelismo pipeline. Abbiamo reso open source la nostra implementazione basata sul popolare repository Megatron-LM su https://github.com/sail-sg/zero-bubble-pipeline-parallelism.
Generare uno sfondo video che si adatti al movimento del soggetto in primo piano è un problema importante per l'industria cinematografica e la comunità degli effetti visivi. Questo compito implica la sintesi di uno sfondo che si allinea con il movimento e l'aspetto del soggetto in primo piano, rispettando al contempo l'intenzione creativa dell'artista. Presentiamo ActAnywhere, un modello generativo che automatizza questo processo, tradizionalmente basato su sforzi manuali tediosi. Il nostro modello sfrutta la potenza dei modelli di diffusione video su larga scala ed è specificamente progettato per questo compito. ActAnywhere prende in input una sequenza di segmentazione del soggetto in primo piano e un'immagine che descrive la scena desiderata come condizione, per produrre un video coerente con interazioni realistiche tra primo piano e sfondo, rispettando il frame condizionale. Addestriamo il nostro modello su un ampio dataset di video di interazione uomo-scena. Valutazioni estensive dimostrano le prestazioni superiori del nostro modello, che supera significativamente i baseline. Inoltre, mostriamo che ActAnywhere si generalizza a campioni eterogenei fuori distribuzione, inclusi soggetti non umani. Visita la nostra pagina del progetto all'indirizzo https://actanywhere.github.io.
In questo articolo, presentiamo un framework basato su modelli di diffusione per animare persone a partire da una singola immagine, seguendo una sequenza di movimento 3D target. Il nostro approccio si compone di due elementi principali: a) l'apprendimento di prior riguardanti le parti invisibili del corpo umano e degli indumenti, e b) il rendering di nuove pose del corpo con indumenti e texture appropriati. Per la prima parte, apprendiamo un modello di diffusione di riempimento per immaginare le parti non visibili di una persona data una singola immagine. Addestriamo questo modello nello spazio delle mappe di texture, il che lo rende più efficiente in termini di campionamento poiché è invariante rispetto alla posa e al punto di vista. In secondo luogo, sviluppiamo una pipeline di rendering basata sulla diffusione, controllata da pose umane 3D. Questo produce rendering realistici di nuove pose della persona, inclusi indumenti, capelli e un riempimento plausibile delle regioni non visibili. Questo approccio disaccoppiato consente al nostro metodo di generare una sequenza di immagini fedeli al movimento target nella posa 3D e all'immagine di input in termini di somiglianza visiva. Inoltre, il controllo 3D permette varie traiettorie sintetiche della telecamera per rendere una persona. I nostri esperimenti dimostrano che il nostro metodo è resiliente nella generazione di movimenti prolungati e di pose complesse e sfidanti rispetto ai metodi precedenti. Per maggiori dettagli, consultate il nostro sito web: https://boyiliee.github.io/3DHM.github.io/.
Questo articolo studia il problema dell'interpretabilità basata su concetti delle rappresentazioni dei transformer per i video. Nello specifico, cerchiamo di spiegare il processo decisionale dei transformer per video basandoci su concetti spaziotemporali di alto livello che vengono scoperti automaticamente. La ricerca precedente sull'interpretabilità basata su concetti si è concentrata esclusivamente su compiti a livello di immagine. Al contrario, i modelli video devono gestire la dimensione temporale aggiuntiva, aumentando la complessità e ponendo sfide nell'identificazione di concetti dinamici nel tempo. In questo lavoro, affrontiamo sistematicamente queste sfide introducendo il primo algoritmo di Video Transformer Concept Discovery (VTCD). A tal fine, proponiamo un approccio efficiente per l'identificazione non supervisionata di unità delle rappresentazioni dei transformer per video - i concetti - e per la classificazione della loro importanza rispetto all'output di un modello. I concetti risultanti sono altamente interpretabili, rivelando meccanismi di ragionamento spaziotemporale e rappresentazioni centrate sugli oggetti nei modelli video non strutturati. Eseguendo questa analisi congiuntamente su un insieme diversificato di rappresentazioni supervisionate e auto-supervisionate, scopriamo che alcuni di questi meccanismi sono universali nei transformer per video. Infine, dimostriamo che VTCD può essere utilizzato per migliorare le prestazioni del modello in compiti di classificazione fine.
La dettatura consente un input di testo efficiente sui dispositivi mobili. Tuttavia, scrivere con la voce può produrre testi disfluenti, prolissi e incoerenti, richiedendo quindi un pesante post-processing. Questo articolo presenta Rambler, un'interfaccia grafica basata su LLM che supporta la manipolazione a livello di sintesi del testo dettato attraverso due principali insiemi di funzioni: estrazione della sintesi e revisione macro. L'estrazione della sintesi genera parole chiave e riassunti come ancore per supportare la revisione e l'interazione con il testo parlato. Le revisioni macro assistite da LLM permettono agli utenti di ridettare, dividere, unire e trasformare il testo dettato senza specificare posizioni precise di modifica. Insieme, queste funzioni aprono la strada a una dettatura e revisione interattiva che aiutano a colmare il divario tra le parole spontanee pronunciate e una scrittura ben strutturata. In uno studio comparativo con 12 partecipanti che hanno eseguito compiti di composizione verbale, Rambler ha superato la baseline di un editor di dettatura + ChatGPT, poiché facilita meglio le revisioni iterative con un maggiore controllo dell'utente sul contenuto, supportando al contempo strategie utente sorprendentemente diversificate.