Articoli di ricerca IA selezionati quotidianamente con traduzioni
La pianificazione con osservazione parziale è una sfida centrale nell'ambito dell'IA incorporata. La maggior parte dei lavori precedenti ha affrontato questa sfida sviluppando agenti che esplorano fisicamente il loro ambiente per aggiornare le loro credenze sullo stato del mondo. Al contrario, gli esseri umani possono immaginare parti non viste del mondo attraverso un'esplorazione mentale e rivedere le loro credenze con osservazioni immaginate. Tali credenze aggiornate possono consentire loro di prendere decisioni più informate, senza la necessità di esplorare fisicamente il mondo in ogni momento. Per raggiungere questa capacità simile a quella umana, presentiamo il Generative World Explorer (Genex), un framework di esplorazione del mondo egocentrico che consente a un agente di esplorare mentalmente un mondo 3D su larga scala (ad esempio, scene urbane) e acquisire osservazioni immaginate per aggiornare le sue credenze. Queste credenze aggiornate aiuteranno quindi l'agente a prendere una decisione più informata al passo attuale. Per addestrare Genex, creiamo un dataset sintetico di scene urbane, Genex-DB. I nostri risultati sperimentali dimostrano che (1) Genex può generare osservazioni di alta qualità e coerenti durante l'esplorazione a lungo termine di un grande mondo fisico virtuale e (2) le credenze aggiornate con le osservazioni generate possono informare un modello decisionale esistente (ad esempio, un agente LLM) per formulare piani migliori.
L'emergere e la crescente popolarità dei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno un significativo potenziale per migliorare vari aspetti della vita quotidiana, dall'ottimizzazione della comunicazione alla facilitazione dell'apprendimento e della risoluzione dei problemi. I telefoni cellulari, come compagni quotidiani essenziali, rappresentano la piattaforma di distribuzione più efficace e accessibile per i MLLM, consentendo un'integrazione senza soluzione di continuità nelle attività quotidiane. Tuttavia, la distribuzione dei MLLM sui telefoni cellulari presenta sfide a causa delle limitazioni delle dimensioni della memoria e delle capacità computazionali, rendendo difficile ottenere un'elaborazione fluida e in tempo reale senza un'ampia ottimizzazione. In questo articolo, presentiamo BlueLM-V-3B, un approccio di co-progettazione algoritmico e di sistema appositamente progettato per la distribuzione efficiente dei MLLM su piattaforme mobili. In particolare, ridisegniamo lo schema di risoluzione dinamica adottato dai MLLM principali e implementiamo l'ottimizzazione di sistema per la distribuzione consapevole dell'hardware al fine di ottimizzare l'inferenza del modello sui telefoni cellulari. BlueLM-V-3B vanta i seguenti punti salienti: (1) Dimensioni ridotte: BlueLM-V-3B presenta un modello linguistico con 2,7 miliardi di parametri e un codificatore di visione con 400 milioni di parametri. (2) Velocità elevata: BlueLM-V-3B raggiunge una velocità di generazione di 24,4 token/s sul processore MediaTek Dimensity 9300 con quantizzazione dei pesi LLM a 4 bit. (3) Elevate prestazioni: BlueLM-V-3B ha ottenuto il punteggio medio più alto di 66,1 nel benchmark OpenCompass tra i modelli con parametri inferiori o uguali a 4 miliardi e ha superato una serie di modelli con dimensioni di parametri molto più grandi (ad esempio, MiniCPM-V-2.6, InternVL2-8B).
Presentiamo un approccio unificato alla generazione controllabile di video, AnimateAnything, che facilita la manipolazione precisa e coerente dei video in varie condizioni, incluse traiettorie della telecamera, prompt di testo e annotazioni del movimento dell'utente. In particolare, progettiamo attentamente una rete di fusione delle caratteristiche di controllo multi-scala per costruire una rappresentazione comune del movimento per diverse condizioni. Convertiamo esplicitamente tutte le informazioni di controllo in flussi ottici frame per frame. Successivamente incorporiamo i flussi ottici come priorità di movimento per guidare la generazione finale del video. Inoltre, per ridurre i problemi di sfarfallio causati da movimenti su larga scala, proponiamo un modulo di stabilizzazione basato sulla frequenza. Questo può migliorare la coerenza temporale garantendo la coerenza nel dominio delle frequenze del video. Gli esperimenti dimostrano che il nostro metodo supera gli approcci all'avanguardia. Per ulteriori dettagli e video, si prega di consultare la pagina web: https://yu-shaonian.github.io/Animate_Anything/.
L'evoluzione dell'apprendimento automatico ha sempre più prioritizzato lo sviluppo di modelli potenti e di segnali di supervisione più scalabili. Tuttavia, l'emergere dei modelli fondamentali presenta significativi ostacoli nel fornire segnali di supervisione efficaci necessari per potenziarne ulteriormente le capacità. Di conseguenza, c'è un urgente bisogno di esplorare nuovi segnali di supervisione e approcci tecnici. In questo articolo, proponiamo l'ingegneria del verificatore, un nuovo paradigma post-addestramento specificamente progettato per l'era dei modelli fondamentali. Il nucleo dell'ingegneria del verificatore coinvolge l'utilizzo di una serie di verificatori automatizzati per svolgere compiti di verifica e fornire feedback significativo ai modelli fondamentali. Categorizziamo sistematicamente il processo di ingegneria del verificatore in tre fasi essenziali: ricerca, verifica e feedback, e forniamo una revisione completa degli sviluppi della ricerca all'avanguardia all'interno di ciascuna fase. Riteniamo che l'ingegneria del verificatore costituisca un percorso fondamentale verso il raggiungimento dell'Intelligenza Artificiale Generale.
I modelli linguistici di grandi dimensioni (LLM) di solito utilizzano decodifica greedy o campionamento a bassa temperatura per compiti di ragionamento, riflettendo un presunto compromesso tra diversità e accuratezza. Sfidiamo questa convenzione introducendo top-nsigma, un nuovo metodo di campionamento che opera direttamente sui logit pre-softmax sfruttando una soglia statistica. La nostra intuizione chiave è che i logit si separano naturalmente in una regione rumorosa distribuita gaussianamente e una regione informativa distinta, consentendo un efficiente filtraggio dei token senza manipolazioni complesse della probabilità. A differenza dei metodi esistenti (ad esempio, top-p, min-p) che includono involontariamente più token rumorosi a temperature più alte, top-nsigma mantiene uno spazio di campionamento stabile indipendentemente dalla scala della temperatura. Forniamo anche un'analisi teorica di top-nsigma per comprendere meglio il suo comportamento. I risultati sperimentali estensivi su quattro set di dati focalizzati sul ragionamento dimostrano che il nostro metodo non solo supera gli approcci di campionamento esistenti ma supera anche la decodifica greedy, mantenendo prestazioni consistenti anche a temperature elevate.
I reranker, tipicamente cross-encoder, vengono spesso utilizzati per riesaminare i documenti recuperati dai sistemi IR iniziali più economici. Ciò avviene perché, sebbene costosi, si presume che i reranker siano più efficaci. Sfideremo questa ipotesi misurando le prestazioni del reranker per il recupero completo, non solo per il riesame del recupero di prima fase. I nostri esperimenti rivelano una tendenza sorprendente: i migliori reranker esistenti forniscono rendimenti decrescenti quando valutano progressivamente più documenti e in realtà degradano la qualità oltre un certo limite. Infatti, in questo contesto, i reranker possono spesso assegnare punteggi elevati a documenti senza sovrapposizione lessicale o semantica con la query. Ci auguriamo che le nostre scoperte stimolino futura ricerca per migliorare il reranking.
Sebbene il virtual try-on basato su immagini abbia fatto notevoli progressi, gli approcci emergenti incontrano ancora sfide nella produzione di immagini di adattamento di alta fedeltà e robuste in scenari diversi. Questi metodi spesso faticano con problemi come il mantenimento consapevole della texture e l'adattamento consapevole della taglia, che ostacolano la loro efficacia complessiva. Per affrontare queste limitazioni, proponiamo una nuova tecnica di potenziamento della percezione dell'indumento, denominata FitDiT, progettata per il virtual try-on di alta fedeltà utilizzando i Diffusion Transformers (DiT) che allocano più parametri e attenzione alle caratteristiche ad alta risoluzione. Per migliorare ulteriormente il mantenimento consapevole della texture, introduciamo un estrattore di texture dell'indumento che incorpora l'evoluzione dei priori dell'indumento per perfezionare la caratteristica dell'indumento, facilitando la cattura di dettagli ricchi come righe, motivi e testo. Inoltre, introduciamo l'apprendimento nel dominio delle frequenze personalizzando una perdita di distanza in frequenza per potenziare i dettagli ad alta frequenza dell'indumento. Per affrontare il problema dell'adattamento consapevole della taglia, utilizziamo una strategia di mascheramento dilatata-rilassata che si adatta alla lunghezza corretta degli indumenti, impedendo la generazione di indumenti che riempiono l'intera area della maschera durante il cross-category try-on. Dotato del design sopra descritto, FitDiT supera tutti i baselines sia nelle valutazioni qualitative che quantitative. Eccelle nella produzione di indumenti ben adattati con dettagli fotorealistici e intricati, raggiungendo anche tempi di inferenza competitivi di 4,57 secondi per un'immagine singola 1024x768 dopo il dimagrimento della struttura DiT, superando i metodi esistenti.
Sebbene i modelli linguistici di piccole dimensioni (SLM) mostrino promesse per la distribuzione su dispositivi mobili, le loro prestazioni e applicazioni nel mondo reale sugli smartphone rimangono poco esplorate. Presentiamo SlimLM, una serie di SLM ottimizzati per compiti di assistenza documentale su dispositivi mobili. Attraverso estesi esperimenti su un Samsung Galaxy S24, identifichiamo i compromessi ottimali tra dimensioni del modello (variano da 125M a 7B parametri), lunghezza del contesto e tempo di inferenza per un efficiente processamento on-device. SlimLM è pre-addestrato su SlimPajama-627B e affinato su DocAssist, il nostro dataset costruito per compiti di riassunto, risposta alle domande e suggerimenti. Il nostro modello più piccolo dimostra prestazioni efficienti su S24, mentre varianti più grandi offrono capacità migliorate all'interno dei vincoli mobili. Valutiamo SlimLM rispetto ai SLM esistenti, mostrando prestazioni comparabili o superiori e offrendo un punto di riferimento per futura ricerca sui modelli linguistici on-device. Forniamo inoltre un'applicazione Android, offrendo approfondimenti pratici sulla distribuzione di SLM. Le nostre scoperte forniscono preziosi spunti e illuminano le capacità di esecuzione di modelli linguistici avanzati su smartphone di fascia alta, potenzialmente riducendo i costi del server e migliorando la privacy attraverso il processamento on-device.
I recenti progressi dell'IA generativa hanno notevolmente favorito la creazione e la modifica di contenuti, dove gli studi prevalenti estendono ulteriormente questo progresso entusiasmante all'editing video. In tal modo, questi studi trasferiscono principalmente i modelli di movimento intrinseco dai video di origine a quelli modificati, dove spesso si osservano risultati con una coerenza inferiore rispetto agli input dell'utente, a causa della mancanza di allineamenti specifici tra i movimenti forniti e i contenuti modificati. Per affrontare questa limitazione, presentiamo in questo articolo un metodo di editing video basato sulla coerenza della forma, chiamato StableV2V. Il nostro metodo suddivide l'intero processo di editing in diverse procedure sequenziali, in cui modifica il primo frame video, stabilisce un allineamento tra i movimenti forniti e gli input dell'utente e infine propaga i contenuti modificati a tutti gli altri frame basandosi su tale allineamento. Inoltre, abbiamo creato un benchmark di test, chiamato DAVIS-Edit, per una valutazione completa dell'editing video, considerando vari tipi di input e difficoltà. I risultati sperimentali e le analisi illustrano le prestazioni superiori, la coerenza visiva e l'efficienza inferenziale del nostro metodo rispetto agli studi all'avanguardia esistenti.
Con l'aumentare della popolarità della ricerca sui Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM), tipicamente un modello MLLM avanzato è richiesto per gestire contemporaneamente varie attività testuali e visive (ad esempio, VQA, Rilevamento, OCR e ChartQA) per applicazioni reali. Tuttavia, a causa delle significative differenze nella rappresentazione e distribuzione dei dati provenienti da varie attività, mescolare semplicemente i dati di tutte le attività porta al noto problema del "conflitto multi-attività", che comporta una riduzione delle prestazioni in varie attività. Per affrontare questo problema, proponiamo Awaker2.5-VL, un'architettura Mixture of Experts (MoE) adatta per MLLM, che acquisisce le capacità multi-attività attraverso diversi esperti attivati in modo sparso. Per accelerare l'addestramento e l'inferenza di Awaker2.5-VL, ogni esperto nel nostro modello è progettato come una struttura di adattamento a basso rango (LoRA). Estesi esperimenti su più recenti benchmark dimostrano l'efficacia di Awaker2.5-VL. Il codice e i pesi del modello sono disponibili sulla nostra Pagina del Progetto: https://github.com/MetabrainAGI/Awaker.
Durante il decoding del modello linguistico, è noto che l'utilizzo di una temperatura più alta per il campionamento produce risposte più creative, mentre temperature più basse sono più accurate dal punto di vista fattuale. Tuttavia, tali modelli vengono comunemente applicati all'insegnamento generale, che coinvolge compiti sia creativi che di ricerca di fatti, utilizzando una singola temperatura fissa per tutti gli esempi e i token. In questo lavoro, presentiamo il Decoding Adattivo, uno strato aggiunto al modello per selezionare dinamicamente la temperatura di campionamento al momento dell'inferenza, a livello di token o di esempio, al fine di ottimizzare le prestazioni. Per apprendere i suoi parametri, introduciamo l'ottimizzazione delle Preferenze Latenti (LPO), un approccio generale per addestrare variabili latenti discrete come le scelte della temperatura. Il nostro metodo supera tutte le temperature di decoding fisse in una serie di compiti che richiedono temperature diverse, tra cui UltraFeedback, Scrittura di Storie Creative e GSM8K.
Abbiamo creato due modelli di decodifica solo in tedesco, LL\"aMmlein 120M e 1B, in modo trasparente da zero e li abbiamo pubblicati, insieme ai dati di addestramento, per la comunità di ricerca NLP tedesca. L'addestramento del modello ha coinvolto diversi passaggi chiave, tra cui un'ampia pre-elaborazione dei dati, la creazione di un tokenizzatore tedesco personalizzato, l'addestramento vero e proprio, nonché la valutazione dei modelli finali su vari benchmark. Durante il processo di addestramento, sono stati salvati e analizzati diversi checkpoint utilizzando il benchmark SuperGLEBer per monitorare la dinamica di apprendimento dei modelli. Rispetto ai modelli all'avanguardia sul benchmark SuperGLEBer, entrambi i modelli LL\"aMmlein si sono comportati in modo competitivo, corrispondendo costantemente o superando modelli con dimensioni di parametri simili. I risultati mostrano che la qualità dei modelli aumenta con la dimensione come previsto, ma i miglioramenti delle prestazioni su alcuni compiti si sono stabilizzati presto, offrendo preziose intuizioni sull'allocazione delle risorse per lo sviluppo futuro dei modelli.
I trasformatori a diffusione (DiT) sono emersi come potenti modelli generativi per varie attività, inclusa la sintesi di immagini, video e discorsi. Tuttavia, il processo di inferenza rimane computazionalmente costoso a causa della valutazione ripetuta di moduli di attenzione e feed-forward intensivi in risorse. Per affrontare questo problema, introduciamo SmoothCache, una tecnica di accelerazione dell'inferenza agnostica al modello per le architetture DiT. SmoothCache sfrutta l'alta similarità osservata tra le uscite dei livelli attraverso i passaggi di diffusione adiacenti. Analizzando gli errori di rappresentazione livello per livello da un piccolo set di calibrazione, SmoothCache memorizza e riutilizza in modo adattivo le caratteristiche chiave durante l'inferenza. I nostri esperimenti dimostrano che SmoothCache ottiene un aumento della velocità del 8% al 71%, mantenendo o addirittura migliorando la qualità della generazione attraverso diverse modalità. Mostriamo la sua efficacia su DiT-XL per la generazione di immagini, Open-Sora per il testo-video e Stable Audio Open per il testo-audio, evidenziando il suo potenziale per abilitare applicazioni in tempo reale e ampliare l'accessibilità dei potenti modelli DiT.
Le Rappresentazioni Neurali Implicite (INR) impiegano reti neurali per approssimare dati discreti come funzioni continue. Nel contesto dei dati video, tali modelli possono essere utilizzati per trasformare le coordinate delle posizioni dei pixel insieme ai tempi (o indici) di comparsa dei frame in valori di colore RGB. Sebbene gli INR facilitino una compressione efficace, non sono adatti per scopi di editing. Una soluzione potenziale è utilizzare un modello basato su Splatting Gaussiano 3D (3DGS), come la Rappresentazione Gaussiana Video (VGR), in grado di codificare video come una moltitudine di Gaussiane 3D ed è applicabile per numerose operazioni di elaborazione video, compreso l'editing. Tuttavia, in questo caso, la capacità di modifica è limitata a un insieme limitato di trasformazioni di base. Per affrontare questo problema, introduciamo il modello Video Gaussian Splatting (VeGaS), che consente modifiche realistiche dei dati video. Per costruire VeGaS, proponiamo una nuova famiglia di distribuzioni Gaussiane Pieghevoli progettate per catturare dinamiche non lineari in uno stream video e modellare frame consecutivi tramite Gaussiane 2D ottenute come rispettive distribuzioni condizionali. I nostri esperimenti dimostrano che VeGaS supera le soluzioni all'avanguardia nei compiti di ricostruzione dei frame e consente modifiche realistiche dei dati video. Il codice è disponibile su: https://github.com/gmum/VeGaS.
Il Generazione potenziata da recupero (RAG) è emerso come un approccio promettente per migliorare le prestazioni dei grandi modelli linguistici (LLM) in compiti ad alta conoscenza come quelli del dominio medico. Tuttavia, la natura sensibile del dominio medico richiede un sistema completamente accurato e affidabile. Mentre i benchmark RAG esistenti si concentrano principalmente sull'impostazione standard di recupero-risposta, trascurano molti scenari pratici che misurano aspetti cruciali di un sistema medico affidabile. Questo articolo affronta questa lacuna fornendo un quadro di valutazione completo per i sistemi di domande e risposte (QA) medico in un contesto RAG per queste situazioni, inclusa la sufficienza, l'integrazione e la robustezza. Introduciamo il Benchmark di Generazione Potenziata da Recupero Medico (MedRGB) che fornisce vari elementi supplementari a quattro set di dati di QA medico per testare la capacità dei LLM di gestire questi scenari specifici. Utilizzando MedRGB, conduciamo valutazioni approfondite sia dei LLM commerciali all'avanguardia che dei modelli open-source in diverse condizioni di recupero. I nostri risultati sperimentali rivelano la limitata capacità dei modelli attuali di gestire rumore e disinformazione nei documenti recuperati. Analizziamo inoltre i processi di ragionamento dei LLM per fornire preziose intuizioni e indicazioni future per lo sviluppo di sistemi RAG in questo critico dominio medico.
Le crescenti capacità dei grandi modelli linguistici (LLM) hanno portato al loro utilizzo come sostituti del feedback umano per addestrare e valutare altri LLM. Questi metodi spesso si basano su "costituzioni", linee guida scritte che un modello critico utilizza per fornire feedback e migliorare le generazioni. Indaghiamo come la scelta della costituzione influenzi la qualità del feedback utilizzando quattro diverse costituzioni per migliorare la comunicazione centrata sul paziente negli intervisti mediche. In confronti a coppie condotti da 215 valutatori umani, abbiamo scoperto che costituzioni dettagliate hanno portato a risultati migliori riguardo alle qualità emotive. Tuttavia, nessuna delle costituzioni ha superato il punto di riferimento nell'apprendimento di abilità più orientate alla pratica legate alla raccolta e alla fornitura di informazioni. I nostri risultati indicano che, sebbene le costituzioni dettagliate dovrebbero essere prioritarie, ci possono essere limitazioni all'efficacia del feedback dell'IA come segnale di ricompensa in determinate aree.