Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Chameleon, una famiglia di modelli misti multimodali basati su token con fusione precoce, in grado di comprendere e generare immagini e testo in sequenze arbitrarie. Descriviamo un approccio di addestramento stabile fin dall'inizio, una ricetta di allineamento e una parametrizzazione architetturale specificamente progettata per il contesto misto multimodale basato su token con fusione precoce. I modelli vengono valutati su un'ampia gamma di task, tra cui risposta a domande visive, descrizione di immagini, generazione di testo, generazione di immagini e generazione mista multimodale di lunga durata. Chameleon dimostra capacità ampie e generali, inclusi risultati all'avanguardia nei task di descrizione di immagini, supera Llama-2 nei task esclusivamente testuali pur essendo competitivo con modelli come Mixtral 8x7B e Gemini-Pro, ed esegue una generazione di immagini non banale, tutto in un unico modello. Inoltre, eguaglia o supera le prestazioni di modelli molto più grandi, tra cui Gemini Pro e GPT-4V, secondo giudizi umani su una nuova valutazione di generazione mista multimodale di lunga durata, in cui il prompt o gli output contengono sequenze miste di immagini e testo. Chameleon rappresenta un significativo passo avanti nella modellizzazione unificata di documenti multimodali completi.
Low-Rank Adaptation (LoRA) è un metodo ampiamente utilizzato per il fine-tuning efficiente in termini di parametri per i grandi modelli linguistici. LoRA risparmia memoria addestrando solo perturbazioni di basso rango per le matrici di peso selezionate. In questo lavoro, confrontiamo le prestazioni di LoRA e del fine-tuning completo su due domini target, programmazione e matematica. Consideriamo sia il regime di dati per il fine-tuning su istruzioni (circa 100K coppie prompt-risposta) che quello per il pre-training continuato (circa 10B token non strutturati). I nostri risultati mostrano che, nella maggior parte delle configurazioni, LoRA ha prestazioni sostanzialmente inferiori rispetto al fine-tuning completo. Tuttavia, LoRA mostra una forma desiderabile di regolarizzazione: mantiene meglio le prestazioni del modello base su compiti al di fuori del dominio target. Dimostriamo che LoRA fornisce una regolarizzazione più forte rispetto a tecniche comuni come il decadimento dei pesi e il dropout; aiuta anche a mantenere generazioni più diversificate. Mostriamo che il fine-tuning completo apprende perturbazioni con un rango che è 10-100 volte maggiore rispetto alle configurazioni tipiche di LoRA, il che potrebbe spiegare alcuni dei gap riportati. Concludiamo proponendo le migliori pratiche per il fine-tuning con LoRA.
I progressi nella ricostruzione 3D hanno reso possibile una cattura 3D di alta qualità, ma richiedono all'utente di raccogliere centinaia o migliaia di immagini per creare una scena 3D. Presentiamo CAT3D, un metodo per creare qualsiasi cosa in 3D simulando questo processo di acquisizione del mondo reale con un modello di diffusione multi-vista. Dato un qualsiasi numero di immagini di input e un insieme di nuovi punti di vista target, il nostro modello genera nuove viste altamente consistenti di una scena. Queste viste generate possono essere utilizzate come input per tecniche robuste di ricostruzione 3D per produrre rappresentazioni 3D che possono essere renderizzate da qualsiasi punto di vista in tempo reale. CAT3D può creare intere scene 3D in appena un minuto e supera i metodi esistenti per la creazione di scene 3D da singola immagine o da poche viste. Visita la nostra pagina del progetto per i risultati e le demo interattive all'indirizzo https://cat3d.github.io.
È ben noto che i grandi modelli linguistici sono efficaci nell'apprendimento in-context con pochi esempi (ICL). I recenti progressi nei modelli fondazionali multimodali hanno permesso finestre di contesto di lunghezza senza precedenti, offrendo l'opportunità di esplorare la loro capacità di eseguire ICL con un numero molto maggiore di esempi dimostrativi. In questo lavoro, valutiamo le prestazioni dei modelli fondazionali multimodali passando dall'ICL con pochi esempi a quello con molti esempi. Confrontiamo GPT-4o e Gemini 1.5 Pro su 10 dataset che coprono diversi domini (immagini naturali, immagini mediche, telerilevamento e immagini molecolari) e task (classificazione multi-classe, multi-label e fine-grained). Osserviamo che l'ICL con molti esempi, fino a quasi 2.000 esempi multimodali dimostrativi, porta a miglioramenti sostanziali rispetto all'ICL con pochi esempi (<100 esempi) su tutti i dataset. Inoltre, le prestazioni di Gemini 1.5 Pro continuano a migliorare in modo log-lineare fino al numero massimo di esempi testati su molti dataset. Considerando gli elevati costi di inferenza associati ai prompt lunghi necessari per l'ICL con molti esempi, esploriamo anche l'impatto del raggruppamento di più query in una singola chiamata API. Mostriamo che raggruppare fino a 50 query può portare a miglioramenti delle prestazioni sia in condizioni zero-shot che many-shot ICL, con guadagni sostanziali nello scenario zero-shot su più dataset, riducendo drasticamente il costo e la latenza per query. Infine, misuriamo l'efficienza dei dati ICL dei modelli, ovvero la velocità con cui i modelli apprendono da un numero crescente di esempi dimostrativi. Troviamo che, sebbene GPT-4o e Gemini 1.5 Pro raggiungano prestazioni zero-shot simili sui dataset, Gemini 1.5 Pro mostra un'efficienza dei dati ICL superiore rispetto a GPT-4o sulla maggior parte dei dataset. I nostri risultati suggeriscono che l'ICL con molti esempi potrebbe consentire agli utenti di adattare in modo efficiente i modelli fondazionali multimodali a nuove applicazioni e domini. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/stanfordmlgroup/ManyICL.
Questo articolo presenta Grounding DINO 1.5, una suite di modelli avanzati per il rilevamento di oggetti in contesti aperti (open-set) sviluppata da IDEA Research, che mira a spingere il "confine" del rilevamento di oggetti in contesti aperti. La suite comprende due modelli: Grounding DINO 1.5 Pro, un modello ad alte prestazioni progettato per una maggiore capacità di generalizzazione in un'ampia gamma di scenari, e Grounding DINO 1.5 Edge, un modello efficiente ottimizzato per una velocità più elevata, richiesta in molte applicazioni che necessitano di implementazione ai margini (edge deployment). Il modello Grounding DINO 1.5 Pro migliora il suo predecessore ampliando l'architettura del modello, integrando un backbone visivo potenziato e espandendo il dataset di addestramento a oltre 20 milioni di immagini con annotazioni di grounding, ottenendo così una comprensione semantica più ricca. Il modello Grounding DINO 1.5 Edge, pur essendo progettato per l'efficienza con scale di caratteristiche ridotte, mantiene robuste capacità di rilevamento grazie all'addestramento sullo stesso dataset completo. I risultati empirici dimostrano l'efficacia di Grounding DINO 1.5, con il modello Grounding DINO 1.5 Pro che raggiunge un AP di 54,3 sul benchmark di rilevamento COCO e un AP di 55,7 sul benchmark di trasferimento zero-shot LVIS-minival, stabilendo nuovi record per il rilevamento di oggetti in contesti aperti. Inoltre, il modello Grounding DINO 1.5 Edge, quando ottimizzato con TensorRT, raggiunge una velocità di 75,2 FPS mantenendo una prestazione zero-shot di 36,2 AP sul benchmark LVIS-minival, rendendolo più adatto per scenari di edge computing. Esempi di modelli e demo con API saranno rilasciati su https://github.com/IDEA-Research/Grounding-DINO-1.5-API.
In questo lavoro, recuperiamo la struttura 3D sottostante di scene non geometricamente consistenti. Concentriamo la nostra analisi su immagini disegnate a mano tratte da cartoni animati e anime. Molti cartoni animati sono creati da artisti senza l'uso di un motore di rendering 3D, il che significa che ogni nuova immagine di una scena viene disegnata a mano. Le immagini disegnate a mano sono generalmente rappresentazioni fedeli del mondo, ma solo in senso qualitativo, poiché è difficile per gli esseri umani disegnare più prospettive di un oggetto o di una scena in modo 3D coerente. Tuttavia, le persone possono percepire facilmente scene 3D da input inconsistenti! In questo lavoro, correggiamo le incoerenze dei disegni 2D per recuperare una struttura 3D plausibile, in modo che i disegni deformati siano coerenti tra loro. La nostra pipeline consiste in uno strumento di annotazione user-friendly, stima della posa della telecamera e deformazione dell'immagine per recuperare una struttura densa. Il nostro metodo deforma le immagini per rispettare un modello di telecamera prospettica, consentendo ai nostri risultati allineati di essere integrati in metodi di ricostruzione per la sintesi di nuove visualizzazioni, permettendo di sperimentare i cartoni animati da punti di vista mai disegnati prima. La nostra pagina del progetto è https://toon3d.studio/.
Presentiamo Dual3D, un innovativo framework di generazione testo-3D in grado di produrre risorse 3D di alta qualità a partire da testi in soli 1 minuto. L'elemento chiave è un modello di diffusione latente multi-vista a doppia modalità. Dati i latenti multi-vista rumorosi, la modalità 2D può denoisarli efficientemente con una singola rete di denoising latente, mentre la modalità 3D può generare una superficie neurale tri-planare per un denoising basato su rendering coerente. La maggior parte dei moduli per entrambe le modalità è ottimizzata a partire da un modello pre-addestrato di diffusione latente testo-immagine, evitando così i costi elevati di un addestramento da zero. Per superare l'elevato costo computazionale del rendering durante l'inferenza, proponiamo una strategia di inferenza a commutazione di modalità che utilizza solo 1/10 dei passi di denoising con la modalità 3D, generando con successo una risorsa 3D in soli 10 secondi senza compromettere la qualità. La texture della risorsa 3D può essere ulteriormente migliorata dal nostro efficiente processo di raffinamento della texture in breve tempo. Esperimenti estesi dimostrano che il nostro metodo offre prestazioni all'avanguardia riducendo significativamente i tempi di generazione. La nostra pagina del progetto è disponibile all'indirizzo https://dual3d.github.io.
L'apprendimento in simulazione e il trasferimento della politica appresa nel mondo reale hanno il potenziale di abilitare robot generalisti. La sfida principale di questo approccio è affrontare i divari tra simulazione e realtà (sim-to-real). I metodi precedenti spesso richiedono conoscenze specifiche del dominio a priori. Sosteniamo che un modo diretto per ottenere tali conoscenze è chiedere agli esseri umani di osservare e assistere l'esecuzione della politica del robot nel mondo reale. I robot possono quindi apprendere dagli esseri umani per colmare vari divari sim-to-real. Proponiamo TRANSIC, un approccio basato sui dati per abilitare un trasferimento sim-to-real di successo basato su un framework human-in-the-loop. TRANSIC consente agli esseri umani di potenziare le politiche di simulazione per superare vari divari sim-to-real non modellati in modo olistico attraverso interventi e correzioni online. Politiche residue possono essere apprese dalle correzioni umane e integrate con le politiche di simulazione per l'esecuzione autonoma. Dimostriamo che il nostro approccio può ottenere un trasferimento sim-to-real di successo in compiti di manipolazione complessi e ricchi di contatti come l'assemblaggio di mobili. Attraverso l'integrazione sinergica delle politiche apprese in simulazione e dagli esseri umani, TRANSIC è efficace come approccio olistico per affrontare vari divari sim-to-real, spesso coesistenti. Mostra proprietà attraenti come la scalabilità con lo sforzo umano. Video e codice sono disponibili su https://transic-robot.github.io/