Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'allineamento delle preferenze visive coinvolge l'addestramento dei Grandi Modelli Visione-Linguaggio (LVLM) per prevedere le preferenze umane tra input visivi. Questo viene tipicamente ottenuto utilizzando set di dati etichettati di coppie scelte/rifiutate e impiegando algoritmi di ottimizzazione come l'ottimizzazione diretta delle preferenze (DPO). I metodi di allineamento visivo esistenti, principalmente progettati per scenari con singole immagini, faticano ad affrontare efficacemente la complessità dei compiti multi-immagine a causa della scarsità di dati di addestramento diversificati e dell'alto costo dell'annotazione delle coppie scelte/rifiutate. Presentiamo l'Ottimizzazione Diretta delle Preferenze con Augmentazione Multi-Immagine (MIA-DPO), un approccio all'allineamento delle preferenze visive che gestisce efficacemente gli input multi-immagine. MIA-DPO attenua la scarsità di dati di addestramento multi-immagine diversificati estendendo i dati delle singole immagini con immagini non correlate disposte in collage a griglia o in formato immagine nell'immagine, riducendo significativamente i costi associati alle annotazioni dei dati multi-immagine. La nostra osservazione rivela che i valori di attenzione dei LVLM variano considerevolmente tra diverse immagini. Utilizziamo i valori di attenzione per identificare e filtrare le risposte rifiutate su cui il modello potrebbe aver erroneamente focalizzato l'attenzione. La nostra selezione consapevole dell'attenzione per la costruzione delle coppie scelte/rifiutate avviene senza fare affidamento su (i) annotazioni umane, (ii) dati aggiuntivi e (iii) modelli o API esterni. MIA-DPO è compatibile con varie architetture e supera i metodi esistenti su cinque benchmark multi-immagine, ottenendo un aumento medio delle prestazioni del 3,0% su LLaVA-v1.5 e del 4,3% sul recente InternLM-XC2.5. Inoltre, MIA-DPO ha un effetto minimo sulla capacità del modello di comprendere singole immagini.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno mostrato progressi promettenti nella comprensione e nell'analisi dei contenuti video. Tuttavia, elaborare video lunghi rimane una sfida significativa limitata dalla dimensione del contesto degli LLM. Per affrontare questa limitazione, proponiamo LongVU, un meccanismo di compressione adattiva spazio-temporale che riduce il numero di token video preservando i dettagli visivi dei video lunghi. La nostra idea si basa sull'utilizzo di interrogazioni cross-modali e dipendenze tra frame per ridurre in modo adattivo la ridondanza temporale e spaziale nei video. In particolare, sfruttiamo le caratteristiche DINOv2 per rimuovere frame ridondanti che mostrano alta similarità. Successivamente, utilizziamo interrogazioni cross-modali guidate dal testo per la riduzione selettiva delle caratteristiche del frame. Inoltre, effettuiamo una riduzione dei token spaziali tra i frame in base alle loro dipendenze temporali. La nostra strategia di compressione adattiva elabora efficacemente un gran numero di frame con scarsa perdita di informazioni visive entro la lunghezza del contesto fornita. Il nostro LongVU supera costantemente i metodi esistenti su una varietà di benchmark di comprensione video, in particolare su compiti di comprensione video di lunga durata come VideoMME e MLVU. Dato un LLM leggero, il nostro LongVU scala efficacemente anche in una dimensione più piccola con prestazioni di comprensione video all'avanguardia.
I recenti progressi nei modelli predittivi hanno dimostrato capacità eccezionali nel prevedere lo stato futuro degli oggetti e delle scene. Tuttavia, la mancanza di categorizzazione basata su caratteristiche intrinseche continua a ostacolare il progresso nello sviluppo dei modelli predittivi. Inoltre, i benchmark esistenti non sono in grado di valutare efficacemente modelli predittivi ad alta capacità e altamente incorporati da una prospettiva incorporata. In questo lavoro, classifichiamo le funzionalità dei modelli predittivi in una gerarchia e compiamo il primo passo nella valutazione dei Simulatori del Mondo proponendo un framework di valutazione duale chiamato WorldSimBench. WorldSimBench include Valutazione Percettiva Esplicita e Valutazione Manipolativa Implicita, che comprendono valutazioni delle preferenze umane dalla prospettiva visiva e valutazioni a livello di azione in compiti incorporati, coprendo tre scenari incorporati rappresentativi: Ambiente Incorporato a Scopo Aperto, Guida Autonoma e Manipolazione di Robot. Nella Valutazione Percettiva Esplicita, introduciamo l'HF-Embodied Dataset, un dataset di valutazione video basato su feedback umani dettagliati, che utilizziamo per addestrare un Valutatore delle Preferenze Umane che si allinea con la percezione umana e valuta esplicitamente la fedeltà visiva dei Simulatori del Mondo. Nella Valutazione Manipolativa Implicita, valutiamo la coerenza video-azione dei Simulatori del Mondo valutando se il video consapevole della situazione generato possa essere tradotto accuratamente nei segnali di controllo corretti in ambienti dinamici. La nostra valutazione completa offre importanti intuizioni che possono guidare ulteriori innovazioni nei modelli di generazione video, posizionando i Simulatori del Mondo come un avanzamento cruciale verso un'intelligenza artificiale incorporata.
I Modelli di Diffusione del Linguaggio (DLMs) sono emersi come un nuovo paradigma promettente per la modellazione generativa di testo, potenzialmente risolvendo le limitazioni dei modelli autoregressivi (AR). Tuttavia, attualmente i DLMs sono stati studiati su una scala più piccola rispetto ai loro corrispettivi AR e mancano di un confronto equo su benchmark di modellazione del linguaggio. Inoltre, addestrare modelli di diffusione da zero su larga scala rimane una sfida. Date la diffusione diffusa dei modelli di linguaggio AR open-source, proponiamo di adattare questi modelli per costruire modelli di diffusione del testo. Dimostriamo le connessioni tra gli obiettivi di modellazione AR e di diffusione e introduciamo un semplice approccio di pre-addestramento continuo per addestrare modelli di diffusione. Attraverso una valutazione sistematica su benchmark di modellazione del linguaggio, ragionamento e buon senso, mostriamo che possiamo convertire modelli AR che vanno da 127M a 7B parametri (GPT2 e LLaMA) in modelli di diffusione DiffuGPT e DiffuLLaMA, utilizzando meno di 200B token per l'addestramento. I nostri risultati sperimentali rivelano che questi modelli superano i precedenti DLMs e sono competitivi con i loro corrispettivi AR. Rilasciamo una serie di DLMs (con 127M, 355M e 7B parametri) capaci di generare testo fluido, eseguire apprendimento in contesto, completare il testo senza riordinamento della richiesta e seguire istruzioni su https://github.com/HKUNLP/DiffuLLaMA.
L'ottimizzazione diretta delle preferenze (DPO) è emersa come un approccio potente per allineare i modelli di testo-immagine (T2I) con il feedback umano. Purtroppo, il successo dell'applicazione del DPO ai modelli T2I richiede una grande quantità di risorse per raccogliere e etichettare dataset su larga scala, ad esempio milioni di immagini generate accoppiate annotate con preferenze umane. Inoltre, questi dataset di preferenze umane possono diventare rapidamente obsoleti poiché i miglioramenti rapidi dei modelli T2I portano a immagini di qualità superiore. In questo lavoro, indaghiamo un approccio scalabile per la raccolta di dataset completamente sintetici su larga scala per l'addestramento del DPO. In particolare, le preferenze per le immagini accoppiate vengono generate utilizzando una funzione di ricompensa preaddestrata, eliminando la necessità di coinvolgere esseri umani nel processo di annotazione, migliorando notevolmente l'efficienza nella raccolta dei dataset. Inoltre, dimostriamo che tali dataset consentono di mediare le previsioni tra più modelli e di raccogliere preferenze classificate anziché preferenze a coppie. Inoltre, introduciamo RankDPO per potenziare i metodi basati su DPO utilizzando il feedback di classificazione. Applicando RankDPO sui modelli SDXL e SD3-Medium con il nostro dataset di preferenze generato sinteticamente "Syn-Pic", miglioriamo sia il seguire le istruzioni (su benchmark come T2I-Compbench, GenEval e DPG-Bench) che la qualità visiva (attraverso studi utente). Questo processo presenta una soluzione pratica e scalabile per sviluppare migliori dataset di preferenze al fine di migliorare le prestazioni dei modelli di testo-immagine.
La generazione di scene LiDAR ha recentemente registrato un rapido sviluppo. Tuttavia, i metodi esistenti si concentrano principalmente sulla generazione di scene statiche e singole, trascurando la natura intrinsecamente dinamica degli ambienti di guida del mondo reale. In questo lavoro, presentiamo DynamicCity, un nuovo framework di generazione LiDAR 4D in grado di generare scene LiDAR di ampia scala e di alta qualità che catturano l'evoluzione temporale degli ambienti dinamici. DynamicCity è principalmente composto da due modelli chiave. 1) Un modello VAE per apprendere HexPlane come rappresentazione compatta 4D. Invece di utilizzare operazioni di media naive, DynamicCity impiega un nuovo Modulo di Proiezione per comprimere efficacemente le caratteristiche LiDAR 4D in sei mappe di caratteristiche 2D per la costruzione di HexPlane, migliorando significativamente la qualità dell'adattamento di HexPlane (fino a un guadagno di 12,56 mIoU). Inoltre, utilizziamo una Strategia di Espansione & Compressione per ricostruire volumi di caratteristiche 3D in parallelo, migliorando sia l'efficienza dell'addestramento della rete che l'accuratezza della ricostruzione rispetto alla semplice interrogazione di ciascun punto 3D (fino a un guadagno di 7,05 mIoU, un aumento della velocità di addestramento del 2,06x e una riduzione della memoria del 70,84%). 2) Un modello di diffusione basato su DiT per la generazione di HexPlane. Per rendere HexPlane fattibile per la generazione DiT, viene proposta un'Operazione di Rollout Imbottita per riorganizzare tutte e sei le mappe di caratteristiche di HexPlane come una mappa di caratteristiche 2D quadrata. In particolare, varie condizioni possono essere introdotte nel processo di diffusione o campionamento, supportando diverse applicazioni di generazione 4D, come la generazione guidata da traiettoria e comando, l'inpainting e la generazione condizionata dalla disposizione. Esperimenti approfonditi sui dataset CarlaSC e Waymo dimostrano che DynamicCity supera significativamente i metodi di generazione LiDAR 4D all'avanguardia esistenti su molteplici metriche. Il codice sarà rilasciato per facilitare la ricerca futura.
I modelli di ricompensa (RMs) hanno guidato le prestazioni all'avanguardia dei LLMs oggi consentendo l'integrazione del feedback umano nel processo di modellazione del linguaggio. Tuttavia, i RMs sono principalmente addestrati e valutati in inglese e le loro capacità in contesti multilingue rimangono in gran parte poco studiate. In questo lavoro, conduciamo una valutazione sistematica di diversi modelli di ricompensa in contesti multilingue. Costruiamo innanzitutto il benchmark di valutazione dei modelli di ricompensa multilingue, M-RewardBench, unico nel suo genere, composto da 2,87k istanze di preferenza per 23 lingue tipologicamente diverse, che testa le capacità di chat, sicurezza, ragionamento e traduzione dei RMs. Valutiamo poi rigorosamente una vasta gamma di modelli di ricompensa su M-RewardBench, offrendo nuove intuizioni sulle loro prestazioni attraverso diverse lingue. Identifichiamo un divario significativo nelle prestazioni dei RMs tra lingue in inglese e non in inglese e mostriamo che le preferenze dei RM possono cambiare sostanzialmente da una lingua all'altra. Presentiamo inoltre diverse scoperte su come diversi aspetti multilingue influenzano le prestazioni dei RM. In particolare, mostriamo che le prestazioni dei RMs migliorano con una migliore qualità della traduzione. Allo stesso modo, dimostriamo che i modelli mostrano migliori prestazioni per le lingue ad alto livello di risorse. Rilasciamo il dataset M-RewardBench e il codice sorgente in questo studio per facilitare una migliore comprensione della valutazione dei RM in contesti multilingue.
Questo articolo introduce una nuova architettura di controllo dei telefoni cellulari, denominata "agenti delle app", per interazioni e controlli efficienti tra varie app Android. Il proposto Controllo Leggero Multi-modale delle App (LiMAC) prende come input un obiettivo testuale e una sequenza di osservazioni mobili passate, come screenshot e alberi UI corrispondenti, per generare azioni precise. Per affrontare i vincoli computazionali propri degli smartphone, all'interno di LiMAC, introduciamo un piccolo Trasformatore di Azione (AcT) integrato con un modello visione-linguaggio ottimizzato (VLM) per la presa di decisioni in tempo reale e l'esecuzione di compiti. Valutiamo LiMAC su due set di dati di controllo mobile open-source, dimostrando le prestazioni superiori del nostro approccio a fattore di forma ridotto rispetto alle versioni ottimizzate di VLM open-source, come Florence2 e Qwen2-VL. Supera significativamente anche i baselines di ingegneria di prompt che utilizzano modelli di base closed-source come GPT-4o. Più specificamente, LiMAC aumenta l'accuratezza complessiva delle azioni fino al 19% rispetto ai VLM ottimizzati e fino al 42% rispetto ai baselines di ingegneria di prompt.
Le prestazioni delle reti neurali migliorano sia con le loro dimensioni che con la quantità di dati su cui sono state addestrate. Questo è dimostrato sia nella generazione di linguaggio che di immagini. Tuttavia, ciò richiede architetture di reti adatte alla scalabilità e set di dati su larga scala. Anche se sono emerse architetture di reti adatte alla scalabilità come i trasformatori per compiti di visione 3D, il momento GPT della visione 3D rimane distante a causa della mancanza di dati di addestramento. In questo articolo, presentiamo ARKit LabelMaker, il primo dataset 3D su larga scala del mondo reale con annotazioni semantiche dense. In particolare, integriamo il dataset ARKitScenes con annotazioni semantiche dense generate automaticamente su larga scala. A tal fine, estendiamo LabelMaker, un recente flusso di lavoro di annotazione automatica, per soddisfare le esigenze del pre-addestramento su larga scala. Ciò comporta l'estensione del flusso di lavoro con modelli di segmentazione all'avanguardia e rendendolo robusto alle sfide dell'elaborazione su larga scala. Inoltre, spingiamo avanti le prestazioni all'avanguardia su ScanNet e ScanNet200 dataset con modelli diffusi di segmentazione semantica 3D, dimostrando l'efficacia del nostro dataset generato.
L'integrazione delle tecniche dei grandi modelli linguistici (LLM) nel campo dell'analisi medica ha portato a significativi progressi, tuttavia la scarsità di dataset ampi, diversificati e ben annotati rimane una sfida importante. I dati e i compiti medici, che variano in formato, dimensioni e altri parametri, richiedono un'ampia pre-elaborazione e standardizzazione per un uso efficace nell'addestramento dei LLM. Per affrontare tali sfide, presentiamo MedINST, il Meta Dataset delle Istruzioni Biomediche, un nuovo meta-dataset istruttivo multi-dominio e multi-compito. MedINST comprende 133 compiti di PNL biomedica e oltre 7 milioni di campioni di addestramento, rendendolo il dataset di istruzioni biomediche più completo ad oggi. Utilizzando MedINST come meta dataset, curiamo MedINST32, una sfida di riferimento con diverse difficoltà di compito mirata a valutare la capacità di generalizzazione dei LLM. Ottimizziamo diversi LLM su MedINST e valutiamo su MedINST32, mostrando un'accentuata generalizzazione tra compiti.
Recentemente, i modelli multimodali di grandi dimensioni per il linguaggio (MLLM) hanno ricevuto molta attenzione per le loro impressionanti capacità. L'valutazione dei MLLM sta diventando cruciale per analizzare gli attributi dei MLLM e fornire preziose intuizioni. Tuttavia, i benchmark attuali trascurano il problema della sensibilità alla richiesta - variazioni minime della richiesta possono portare a significative fluttuazioni delle prestazioni. Di conseguenza, richieste inappropriati possono oscurare le capacità dei modelli, sottovalutando le prestazioni dei modelli. Inoltre, modelli diversi hanno preferenze diverse per diverse richieste e quindi, utilizzando la stessa richiesta per tutti i modelli causerà un bias di valutazione. Questo articolo analizza questa carenza nei benchmark esistenti e introduce ulteriormente un nuovo quadro di valutazione chiamato TP-Eval, che introduce un metodo di personalizzazione della richiesta per ridurre i bias di valutazione e sfruttare il potenziale dei modelli. TP-Eval riscriverà le richieste originali in diverse richieste personalizzate per modelli diversi. In particolare, proponiamo alcuni moduli ben progettati per la personalizzazione della richiesta adattati allo scenario di valutazione dei MLLM. Estesi esperimenti dimostrano l'efficacia del nostro approccio nel mettere in luce le capacità dei modelli, e TP-Eval dovrebbe beneficiare la comunità nello sviluppo di benchmark di valutazione dei MLLM più completi e convincenti.
Proponiamo il Modello di Sintesi di Ampia Vista (LVSM), un nuovo approccio basato su trasformatori per la sintesi di nuove viste scalabile e generalizzabile da input a vista sparuta. Introduciamo due architetture: (1) un LVSM codificatore-decodificatore, che codifica i token delle immagini di input in un numero fisso di token latenti 1D, funzionando come una rappresentazione della scena completamente appresa, e decodifica le immagini di nuove viste da questi; e (2) un LVSM solo decodificatore, che mappa direttamente le immagini di input in output di nuove viste, eliminando completamente le rappresentazioni intermedie della scena. Entrambi i modelli evitano i bias induttivi 3D utilizzati nei metodi precedenti - dalle rappresentazioni 3D (ad es. NeRF, 3DGS) ai design di rete (ad es. proiezioni epipolari, scansioni piane) - affrontando la sintesi di nuove viste con un approccio completamente basato sui dati. Mentre il modello codificatore-decodificatore offre un'inferezza più veloce grazie alla sua rappresentazione latente indipendente, il LVSM solo decodificatore raggiunge una qualità superiore, scalabilità e generalizzazione zero-shot, superando i metodi precedenti all'avanguardia di 1,5 a 3,5 dB PSNR. Valutazioni complete su più set di dati dimostrano che entrambe le varianti LVSM raggiungono una qualità all'avanguardia nella sintesi di nuove viste. In particolare, i nostri modelli superano tutti i metodi precedenti anche con risorse computazionali ridotte (1-2 GPU). Si prega di visitare il nostro sito web per ulteriori dettagli: https://haian-jin.github.io/projects/LVSM/ .
Le politiche robotiche di ampia portata addestrate su insiemi di dimostrazioni diversificati hanno dimostrato di essere straordinariamente efficaci sia nel controllo di una varietà di robot in una serie di scenari diversi, sia nell'acquisizione di ampi repertori di abilità di manipolazione. Tuttavia, i dati su cui tali politiche vengono addestrate sono generalmente di qualità mista: non solo le dimostrazioni raccolte da esseri umani sono improbabili nel compiere perfettamente il compito, ma più è grande l'insieme di dati, più è difficile selezionare solo gli esempi di qualità più alta. Inoltre, rimane poco chiaro quanto siano ottimali i dati da un'incarnazione per l'addestramento su un'altra incarnazione. In questo articolo, presentiamo un approccio generale e ampiamente applicabile che migliora le prestazioni di tali politiche robotiche generaliste al momento del dispiegamento, riorientando le loro azioni in base a una funzione di valore appresa tramite RL offline. Questo approccio, che chiamiamo Value-Guided Policy Steering (V-GPS), è compatibile con una vasta gamma di politiche generaliste diverse, senza la necessità di ottimizzazioni o di accedere ai pesi della politica. Dimostriamo che la stessa funzione di valore può migliorare le prestazioni di cinque diverse politiche all'avanguardia con architetture diverse, anche se sono state addestrate su insiemi di dati distinti, ottenendo un miglioramento costante delle prestazioni su più piattaforme robotiche in un totale di 12 compiti. Il codice e i video sono disponibili su: https://nakamotoo.github.io/V-GPS