Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli encoder visivi generano tipicamente un gran numero di token visivi, fornendo rappresentazioni ricche di informazioni ma aumentando significativamente le esigenze computazionali. Ciò solleva la questione se tutti i token generati siano ugualmente preziosi o se alcuni di essi possano essere scartati per ridurre i costi computazionali senza compromettere la qualità. In questo articolo, introduciamo un nuovo metodo per determinare l'utilità delle feature basato sull'idea che le feature meno preziose possano essere ricostruite da quelle più preziose. Implementiamo questo concetto integrando un autoencoder con un meccanismo di selezione Gumbel-Softmax, che consente di identificare e conservare solo i token visivi più informativi. Per validare il nostro approccio, abbiamo confrontato le prestazioni del modello LLaVA-NeXT, utilizzando feature selezionate dal nostro metodo con feature selezionate casualmente. Abbiamo scoperto che, nelle attività basate su OCR, più del 50% del contesto visivo può essere rimosso con una perdita minima di prestazioni, mentre scartare casualmente la stessa proporzione di feature influisce significativamente sulle capacità del modello. Inoltre, nelle attività di dominio generale, anche conservando casualmente solo il 30% dei token si ottengono prestazioni paragonabili all'utilizzo dell'intero set di token visivi. I nostri risultati evidenziano una direzione promettente verso un pruning multimodale adattivo ed efficiente che facilita inferenze scalabili e a basso overhead senza compromettere le prestazioni.
I problemi scientifici multimodali (MSP) riguardano questioni complesse che richiedono l'integrazione di più modalità, come testo e diagrammi, rappresentando una sfida significativa nell'intelligenza artificiale. Sebbene siano stati compiuti progressi nell'affrontare problemi scientifici tradizionali, gli MSP continuano a presentare due questioni principali: la difficoltà del ragionamento multimodale completo nella risoluzione di problemi scientifici e la mancanza di capacità riflessive e di ripensamento. Per affrontare queste problematiche, introduciamo un framework multi-agente basato sulla personalità dei Big Seven e sulla guida socratica (MAPS). Questo framework impiega sette agenti distinti che sfruttano meccanismi di feedback e il metodo socratico per guidare la risoluzione degli MSP. Per risolvere la prima questione, proponiamo una strategia di risoluzione progressiva a quattro agenti, in cui ciascun agente si concentra su una fase specifica del processo di problem-solving. Per la seconda questione, introduciamo un agente Critico, ispirato al questioning socratico, che stimola il pensiero critico e favorisce l'apprendimento autonomo. Abbiamo condotto esperimenti estesi sui dataset EMMA, Olympiad e MathVista, ottenendo risultati promettenti che superano il modello SOTA attuale del 15,84% in tutte le attività. Nel frattempo, ulteriori esperimenti analitici hanno anche verificato i progressi del modello e la sua capacità di generalizzazione.
Il trattamento efficiente di contesti lunghi è stato un obiettivo persistente nel campo dell'Elaborazione del Linguaggio Naturale. Con il crescente numero di documenti estesi, dialoghi e altri dati testuali, è importante sviluppare Modelli Linguistici per Contesti Lunghi (LCLM, Long Context Language Models) in grado di elaborare e analizzare input estesi in modo efficace ed efficiente. In questo articolo, presentiamo una rassegna completa sui recenti progressi nella modellazione di contesti lunghi per i grandi modelli linguistici. La nostra rassegna è strutturata attorno a tre aspetti chiave: come ottenere LCLM efficaci ed efficienti, come addestrare e implementare LCLM in modo efficiente, e come valutare e analizzare LCLM in modo completo. Per il primo aspetto, discutiamo strategie sui dati, progetti architetturali e approcci di flusso di lavoro orientati all'elaborazione di contesti lunghi. Per il secondo aspetto, forniamo un esame dettagliato dell'infrastruttura necessaria per l'addestramento e l'inferenza degli LCLM. Per il terzo aspetto, presentiamo paradigmi di valutazione per la comprensione di contesti lunghi e la generazione di testi estesi, nonché l'analisi comportamentale e l'interpretabilità dei meccanismi degli LCLM. Oltre a questi tre aspetti chiave, esploriamo approfonditamente i diversi scenari applicativi in cui gli LCLM esistenti sono stati implementati e delineiamo promettenti direzioni di sviluppo future. Questa rassegna fornisce una revisione aggiornata della letteratura sui LCLM, che speriamo possa servire come una risorsa preziosa sia per i ricercatori che per gli ingegneri. Un repository GitHub associato, che raccoglie i più recenti articoli e repository, è disponibile all'indirizzo: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.
Il formato di base per il question-answering dei grandi modelli linguistici prevede l'inserimento di un prompt e la ricezione di una risposta, e la qualità del prompt influisce direttamente sull'efficacia della risposta. L'Ottimizzazione Automatica dei Prompt (Automated Prompt Optimization, APO) mira a liberarsi dai bias cognitivi dei prompt progettati manualmente e a esplorare uno spazio di progettazione più ampio per i prompt. Tuttavia, i metodi APO esistenti soffrono di una limitata flessibilità dovuta a modelli fissi e di una ricerca inefficiente negli spazi dei prompt come problemi chiave. A tal fine, proponiamo un framework Multi-Agent che incorpora una guida socratica (MARS), che utilizza la tecnologia di fusione multi-agente per la pianificazione automatica, con un'ottimizzazione e una valutazione graduali e continue. Nello specifico, MARS comprende sette agenti, ciascuno con funzionalità distinte, che utilizzano autonomamente il Planner per ideare un percorso di ottimizzazione che garantisca flessibilità. Inoltre, impiega un modello di dialogo socratico Insegnante-Critico-Studente per ottimizzare iterativamente i prompt mentre conduce una ricerca efficace. Eseguiamo esperimenti estesi su vari dataset per validare l'efficacia del nostro metodo e conduciamo ulteriori esperimenti analitici per valutare il progresso del modello nonché la sua interpretabilità.
Progettare sistemi multi-agente incarnati efficaci è fondamentale per risolvere compiti complessi del mondo reale in diversi ambiti. A causa della complessità dei sistemi multi-agente incarnati, i metodi esistenti non riescono a generare automaticamente dati di formazione sicuri ed efficienti per tali sistemi. A tal fine, proponiamo il concetto di vincoli composizionali per sistemi multi-agente incarnati, affrontando le sfide derivanti dalla collaborazione tra agenti incarnati. Progettiamo varie interfacce adattate a diversi tipi di vincoli, consentendo un'interazione fluida con il mondo fisico. Sfruttando i vincoli composizionali e interfacce appositamente progettate, sviluppiamo un framework automatizzato per la raccolta di dati per sistemi multi-agente incarnati e introduciamo il primo benchmark per la manipolazione multi-agente incarnata, RoboFactory. Basandoci sul benchmark RoboFactory, adattiamo e valutiamo il metodo dell'apprendimento per imitazione e analizziamo le sue prestazioni in compiti di agenti con diversi livelli di difficoltà. Inoltre, esploriamo le architetture e le strategie di formazione per l'apprendimento per imitazione multi-agente, con l'obiettivo di costruire sistemi multi-agente incarnati sicuri ed efficienti.
Poiché i compiti di scrittura creativa non hanno risposte singolarmente corrette, i grandi modelli linguistici (LLM) addestrati per eseguire tali compiti dovrebbero essere in grado di generare output validi e diversificati. Tuttavia, il post-addestramento degli LLM spesso si concentra sul miglioramento della qualità della generazione, trascurando la promozione della diversità degli output. Pertanto, nella generazione di testi creativi, esploriamo approcci di post-addestramento che favoriscano sia la diversità che la qualità degli output. La nostra idea centrale è includere la deviazione — il grado di differenza tra un campione di addestramento e tutti gli altri campioni con lo stesso prompt — nell'obiettivo di addestramento per facilitare l'apprendimento da istanze rare e di alta qualità. Adottando il nostro approccio all'ottimizzazione diretta delle preferenze (DPO) e all'ottimizzazione delle preferenze basata sul rapporto di probabilità (ORPO), dimostriamo di poter promuovere la diversità degli output dei modelli addestrati riducendo al minimo il calo di qualità. Il nostro miglior modello con 8 miliardi di parametri è stato in grado di raggiungere una diversità paragonabile a un dataset creato da esseri umani, mantenendo una qualità degli output simile ai migliori modelli ottimizzati per istruzioni che abbiamo esaminato, GPT-4o e DeepSeek-R1. Validiamo ulteriormente i nostri approcci con una valutazione umana, un'ablazione e un confronto con un approccio esistente di diversificazione, DivPO.
I modelli di generazione visiva autoregressivi si basano tipicamente su tokenizer per comprimere le immagini in token che possono essere predetti sequenzialmente. Esiste un dilemma fondamentale nella rappresentazione dei token: i token discreti consentono una modellizzazione diretta con la funzione di perdita di entropia incrociata standard, ma soffrono di perdita di informazioni e instabilità durante l'addestramento del tokenizer; i token continui preservano meglio i dettagli visivi, ma richiedono una modellizzazione complessa delle distribuzioni, complicando la pipeline di generazione. In questo articolo, proponiamo TokenBridge, che colma questa lacuna mantenendo la forte capacità rappresentativa dei token continui preservando al contempo la semplicità di modellizzazione dei token discreti. Per raggiungere questo obiettivo, disaccoppiamo la discretizzazione dal processo di addestramento del tokenizer attraverso una quantizzazione post-addestramento che ottiene direttamente token discreti da rappresentazioni continue. Nello specifico, introduciamo una strategia di quantizzazione dimensionale che discretizza indipendentemente ciascuna dimensione delle feature, abbinata a un meccanismo di predizione autoregressiva leggero che modella in modo efficiente il conseguente ampio spazio di token. Esperimenti estensivi dimostrano che il nostro approccio raggiunge una qualità di ricostruzione e generazione pari a quella dei metodi continui utilizzando la predizione categoriale standard. Questo lavoro dimostra che colmare i paradigmi discreti e continui può sfruttare efficacemente i punti di forza di entrambi gli approcci, fornendo una direzione promettente per la generazione visiva di alta qualità con una semplice modellizzazione autoregressiva. Pagina del progetto: https://yuqingwang1029.github.io/TokenBridge.
Gli avatar 3D realistici a corpo intero con capacità di parlato presentano un grande potenziale nella realtà aumentata, con applicazioni che spaziano dallo streaming live per l'e-commerce alla comunicazione olografica. Nonostante i progressi nel 3D Gaussian Splatting (3DGS) per la creazione di avatar realistici, i metodi esistenti faticano a ottenere un controllo fine delle espressioni facciali e dei movimenti del corpo nelle attività di parlato a corpo intero. Inoltre, spesso mancano di dettagli sufficienti e non possono funzionare in tempo reale su dispositivi mobili. Presentiamo TaoAvatar, un avatar parlante a corpo intero basato su 3DGS, ad alta fedeltà e leggero, guidato da vari segnali. Il nostro approccio inizia con la creazione di un modello parametrico umano vestito personalizzato che associa le Gaussiane per rappresentare l'aspetto. Successivamente, pre-addestriamo una rete basata su StyleUnet per gestire deformazioni non rigide complesse dipendenti dalla postura, in grado di catturare dettagli ad alta frequenza ma troppo dispendiose in termini di risorse per i dispositivi mobili. Per superare questo limite, "cuociamo" le deformazioni non rigide in una rete leggera basata su MLP utilizzando una tecnica di distillazione e sviluppiamo blend shapes per compensare i dettagli. Esperimenti estensivi dimostrano che TaoAvatar raggiunge una qualità di rendering all'avanguardia funzionando in tempo reale su vari dispositivi, mantenendo 90 FPS su dispositivi stereo ad alta definizione come l'Apple Vision Pro.
I recenti progressi dimostrati da DeepSeek-R1 hanno mostrato che le capacità di ragionamento complesso nei grandi modelli linguistici (LLM), inclusi comportamenti sofisticati come l'autoverifica e l'autocorrezione, possono essere raggiunti attraverso il Reinforcement Learning (RL) con ricompense verificabili, migliorando significativamente le prestazioni del modello su compiti impegnativi come l'AIME. Motivati da questi risultati, il nostro studio indaga se capacità di ragionamento simili possano essere integrate con successo nei grandi modelli visione-linguaggio (LVLM) e valuta il loro impatto su compiti impegnativi di ragionamento multimodale. Consideriamo un approccio che sfrutta iterativamente il fine-tuning supervisionato (SFT) su dati di addestramento leggeri e il Reinforcement Learning (RL) per migliorare ulteriormente la generalizzazione del modello. Inizialmente, le capacità di ragionamento sono state distillate dai modelli R1 basati su testo puro generando passaggi di ragionamento utilizzando didascalie di alta qualità delle immagini provenienti da diversi dataset visivi. Successivamente, l'addestramento iterativo con RL ha ulteriormente migliorato le capacità di ragionamento, con il modello migliorato da RL in ogni iterazione che genera dataset SFT raffinati per il round successivo. Questo processo iterativo ha prodotto OpenVLThinker, un LVLM che mostra un miglioramento costante nelle prestazioni di ragionamento su benchmark impegnativi come MathVista, MathVerse e MathVision, dimostrando il potenziale della nostra strategia per un robusto ragionamento visione-linguaggio. Il codice, il modello e i dati sono disponibili su https://github.com/yihedeng9/OpenVLThinker.
Nonostante i significativi progressi nella generazione di video da testo, il raggiungimento di un controllo preciso e flessibile sugli attributi spazio-temporali di dettaglio rimane una sfida importante e irrisolta nella ricerca sulla generazione di video. Per affrontare queste limitazioni, introduciamo VCtrl (anche denominato PP-VCtrl), un nuovo framework progettato per abilitare un controllo fine su modelli di diffusione video pre-addestrati in modo unificato. VCtrl integra segnali di controllo specificati dall'utente, come bordi Canny, maschere di segmentazione e punti chiave umani, nei modelli di diffusione video pre-addestrati attraverso un modulo condizionale generalizzabile in grado di codificare uniformemente più tipi di segnali ausiliari senza modificare il generatore sottostante. Inoltre, progettiamo una pipeline unificata per la codifica dei segnali di controllo e un meccanismo di connessione residua sparsa per incorporare in modo efficiente le rappresentazioni di controllo. Esperimenti completi e valutazioni umane dimostrano che VCtrl migliora efficacemente la controllabilità e la qualità della generazione. Il codice sorgente e i modelli pre-addestrati sono disponibili pubblicamente e implementati utilizzando il framework PaddlePaddle all'indirizzo http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
Nonostante le prestazioni impressionanti in una vasta gamma di compiti, i Modelli Linguistici Multimodali di Grande Scala (MLLMs) devono ancora dimostrare appieno il loro potenziale nella risoluzione di problemi matematici visivi, in particolare nell'accurata percezione e interpretazione dei diagrammi. Ispirati dai processi tipici degli esseri umani, ipotizziamo che le capacità percettive per estrarre informazioni significative dai diagrammi siano cruciali, poiché influenzano direttamente i successivi processi di inferenza. Per validare questa ipotesi, abbiamo sviluppato FlowVerse, un benchmark completo che categorizza tutte le informazioni utilizzate durante la risoluzione dei problemi in quattro componenti, che vengono poi combinate in sei versioni di problemi per la valutazione. I nostri risultati preliminari su FlowVerse rivelano che gli attuali MLLMs presentano limitazioni significative nell'estrazione di informazioni essenziali e proprietà ragionate dai diagrammi e nell'esecuzione di ragionamenti complessi basati su questi input visivi. In risposta, introduciamo MathFlow, una pipeline modulare per la risoluzione di problemi che separa la percezione e l'inferenza in fasi distinte, ottimizzando così ciascuna in modo indipendente. Date le limitazioni percettive osservate negli attuali MLLMs, abbiamo addestrato MathFlow-P-7B come modello di percezione dedicato. I risultati sperimentali indicano che MathFlow-P-7B produce sostanziali miglioramenti delle prestazioni quando integrato con vari modelli di inferenza sia proprietari che open-source. Ciò dimostra l'efficacia della pipeline MathFlow e la sua compatibilità con diversi framework di inferenza. Il benchmark FlowVerse e il codice sono disponibili all'indirizzo https://github.com/MathFlow-zju/MathFlow.
La personalizzazione della generazione e della modifica delle immagini è particolarmente impegnativa quando si dispone solo di poche immagini del soggetto, o addirittura di una singola immagine. Un approccio comune alla personalizzazione è l'apprendimento di concetti, che può integrare il soggetto nei modelli esistenti in modo relativamente rapido, ma produce immagini la cui qualità tende a deteriorarsi rapidamente quando il numero di immagini del soggetto è ridotto. La qualità può essere migliorata pre-addestrando un codificatore, ma l'addestramento limita la generazione alla distribuzione di addestramento ed è dispendioso in termini di tempo. Rimane una sfida aperta e complessa personalizzare la generazione e la modifica delle immagini a partire da una singola immagine senza addestramento. Qui presentiamo SISO, un nuovo approccio senza addestramento basato sull'ottimizzazione di un punteggio di similarità con un'immagine soggetto di input. Più specificamente, SISO genera iterativamente immagini e ottimizza il modello in base alla perdita di similarità con l'immagine soggetto fornita fino al raggiungimento di un livello soddisfacente di similarità, consentendo un'ottimizzazione plug-and-play per qualsiasi generatore di immagini. Abbiamo valutato SISO in due compiti, la modifica delle immagini e la generazione di immagini, utilizzando un insieme di dati diversificato di soggetti personali, e dimostriamo miglioramenti significativi rispetto ai metodi esistenti in termini di qualità dell'immagine, fedeltà al soggetto e conservazione dello sfondo.
Valutare con precisione l'allineamento semantico tra i prompt testuali e i video generati rimane una sfida nella generazione da testo a video (Text-to-Video, T2V). Le metriche esistenti per l'allineamento testo-video, come il CLIPScore, producono solo punteggi a grana grossa senza dettagli di allineamento fine, fallendo nel rispecchiare le preferenze umane. Per affrontare questa limitazione, proponiamo ETVA, un nuovo metodo di valutazione dell'allineamento testo-video basato sulla generazione e risposta a domande a grana fine. In primo luogo, un sistema multi-agente analizza i prompt in grafi semantici della scena per generare domande atomiche. Successivamente, progettiamo un framework di ragionamento multi-stadio arricchito da conoscenza per la risposta alle domande, in cui un LLM ausiliario recupera prima conoscenze di senso comune rilevanti (ad esempio, leggi fisiche), e poi un LLM video risponde alle domande generate attraverso un meccanismo di ragionamento multi-stadio. Esperimenti estensivi dimostrano che ETVA raggiunge un coefficiente di correlazione di Spearman di 58.47, mostrando una correlazione molto più alta con il giudizio umano rispetto alle metriche esistenti che raggiungono solo 31.0. Abbiamo anche costruito un benchmark completo specificamente progettato per la valutazione dell'allineamento testo-video, caratterizzato da 2k prompt diversificati e 12k domande atomiche che coprono 10 categorie. Attraverso una valutazione sistematica di 15 modelli esistenti di generazione testo-video, abbiamo identificato le loro principali capacità e limitazioni, aprendo la strada alla prossima generazione di T2V.
In questo articolo, proponiamo \textsc{FastCuRL}, un approccio semplice ma efficiente di Curriculum Reinforcement Learning con una strategia di estensione della finestra contestuale per accelerare l'efficienza dell'addestramento nel reinforcement learning per modelli di ragionamento di tipo R1, migliorando al contempo le loro prestazioni nell'affrontare compiti di ragionamento complessi con lunghe catene di pensiero, in particolare con un modello linguistico da 1,5 miliardi di parametri. \textsc{FastCuRL} consiste in due procedure principali: segmentazione dei dati di addestramento basata sulla lunghezza e addestramento con estensione della finestra contestuale. Nello specifico, la prima suddivide i dati di addestramento originali in tre livelli diversi in base alla lunghezza del prompt di input, mentre la seconda utilizza i dataset segmentati con una lunghezza progressivamente crescente della finestra contestuale per addestrare il modello di ragionamento. I risultati sperimentali dimostrano che \textsc{FastCuRL}-1.5B-Preview supera DeepScaleR-1.5B-Preview su tutti e cinque i dataset (inclusi MATH 500, AIME 2024, AMC 2023, Minerva Math e OlympiadBench) utilizzando solo il 50\% dei passi di addestramento. Inoltre, tutte le fasi di addestramento per FastCuRL-1.5B-Preview vengono completate utilizzando un singolo nodo con 8 GPU.
In questo articolo, presentiamo MapBench, il primo dataset specificamente progettato per la navigazione outdoor basata su mappe pixelate e leggibili dall'uomo, curato a partire da scenari complessi di ricerca del percorso. MapBench comprende oltre 1600 problemi di ricerca del percorso nello spazio pixel derivati da 100 mappe diverse. In MapBench, i LVLM (Large Vision-Language Models) generano istruzioni di navigazione basate sul linguaggio, dato un'immagine della mappa e una query con punti di riferimento iniziali e finali. Per ogni mappa, MapBench fornisce un Map Space Scene Graph (MSSG) come struttura dati di indicizzazione per convertire tra linguaggio naturale e valutare i risultati generati dai LVLM. Dimostriamo che MapBench rappresenta una sfida significativa per i LVLM all'avanguardia, sia nel prompting zero-shot che in un framework di ragionamento potenziato da Chain-of-Thought (CoT) che scompone la navigazione su mappa in processi cognitivi sequenziali. La nostra valutazione sia dei LVLM open-source che di quelli closed-source evidenzia la notevole difficoltà posta da MapBench, rivelando limitazioni critiche nelle loro capacità di ragionamento spaziale e di decisione strutturata. Rilasciamo tutto il codice e il dataset su https://github.com/taco-group/MapBench.
I grandi modelli visione-linguaggio (Large Vision-Language Models, LVLM) hanno compiuto progressi significativi nel combinare la comprensione visiva con la generazione linguistica. Nonostante questo successo, i dati di addestramento degli LVLM continuano a soffrire di problemi di coda lunga (Long-Tail, LT), in cui la distribuzione dei dati è altamente squilibrata. I lavori precedenti si sono principalmente concentrati su architetture VLM tradizionali, come CLIP o ViT, e su compiti specifici come il riconoscimento e la classificazione. Tuttavia, l'esplorazione degli LVLM (ad esempio LLaVA) e di compiti più generali (ad esempio Visual Question Answering e Visual Reasoning) rimane ancora poco approfondita. In questo articolo, conduciamo innanzitutto un'analisi approfondita dei problemi LT negli LVLM e identifichiamo due cause principali: la sovrarappresentazione dei concetti di testa e la sottorappresentazione dei concetti di coda. Sulla base di questa osservazione, proponiamo un Framework di Raffinamento Dati Adattivo (Adaptive Data Refinement Framework, ADR), composto da due fasi: Bilanciamento dei Dati (Data Rebalancing, DR) e Sintesi dei Dati (Data Synthesis, DS). Nella fase DR, bilanciamo in modo adattivo i dati ridondanti in base alle distribuzioni delle entità, mentre nella fase DS sfruttiamo i Modelli Probabilistici di Diffusione Denoising (Denoising Diffusion Probabilistic Models, DDPM) e immagini scarse per integrare le porzioni sottorappresentate. Attraverso valutazioni approfondite su undici benchmark, il nostro ADR proposto mitiga efficacemente il problema della coda lunga nei dati di addestramento, migliorando le prestazioni medie di LLaVA 1.5 del 4,36% in termini relativi, senza aumentare il volume dei dati di addestramento.
I modelli linguistici di grandi dimensioni per video (ViLLMs) eccellono nella comprensione generale dei video, ad esempio nel riconoscere attività come parlare e mangiare, ma hanno difficoltà nella comprensione basata sull'identità, come "Wilson sta ricevendo la chemioterapia" o "Tom sta discutendo con Sarah", limitando la loro applicabilità in contesti di sanità intelligente e ambienti domestici intelligenti. Per affrontare questa limitazione, proponiamo un framework di apprendimento one-shot chiamato PVChat, il primo ViLLM personalizzato che consente risposte a domande (QA) basate sul soggetto a partire da un singolo video per ciascun soggetto. Il nostro approccio ottimizza un ViLLM potenziato da una Mixture-of-Heads (MoH) su un dataset video-QA sinteticamente aumentato, sfruttando una strategia di apprendimento progressivo da immagine a video. Nello specifico, introduciamo una pipeline di aumento automatico che sintetizza campioni positivi che preservano l'identità e recupera campioni negativi difficili da corpora video esistenti, generando un dataset di addestramento diversificato con quattro tipi di QA: domande su esistenza, aspetto, azione e posizione. Per migliorare l'apprendimento specifico del soggetto, proponiamo un meccanismo di attenzione MoH con ReLU Routing, insieme a due nuovi obiettivi: (1) la Regolarizzazione di Prossimità Liscia per un apprendimento progressivo attraverso il ridimensionamento esponenziale della distanza e (2) il Potenziamento dell'Attivazione delle Teste per un routing bilanciato dell'attenzione. Infine, adottiamo una strategia di addestramento in due fasi, passando dalla pre-addestramento su immagini al fine-tuning su video, consentendo un processo di apprendimento graduale dagli attributi statici alle rappresentazioni dinamiche. Valutiamo PVChat su diversi dataset che coprono scenari medici, serie TV, anime e riprese del mondo reale, dimostrando la sua superiorità nella comprensione delle caratteristiche personalizzate dopo l'apprendimento da un singolo video, rispetto ai ViLLMs all'avanguardia.
Il bias implicito si riferisce a processi mentali automatici o spontanei che influenzano percezioni, giudizi e comportamenti. Le ricerche precedenti che hanno esaminato il "bias implicito" nei modelli linguistici di grandi dimensioni (LLM) hanno spesso affrontato il fenomeno in modo diverso rispetto a come viene studiato negli esseri umani, concentrandosi principalmente sugli output del modello piuttosto che sul suo processo di elaborazione. Per esaminare l'elaborazione del modello, presentiamo un metodo chiamato Reasoning Model Implicit Association Test (RM-IAT) per studiare schemi simili al bias implicito nei modelli di ragionamento: LLM che impiegano un ragionamento passo-passo per risolvere compiti complessi. Utilizzando questo metodo, scopriamo che i modelli di ragionamento richiedono più token quando elaborano informazioni incompatibili con le associazioni rispetto a informazioni compatibili con le associazioni. Questi risultati suggeriscono che i sistemi di intelligenza artificiale presentano schemi di elaborazione delle informazioni analoghi al bias implicito umano. Consideriamo le implicazioni di questi schemi simili al bias implicito per il loro utilizzo in applicazioni del mondo reale.
Negli ultimi anni, il campo della generazione di immagini ha assistito a progressi significativi, in particolare nei metodi di fine-tuning che allineano i modelli con le preferenze umane universali. Questo articolo esplora il ruolo cruciale dei dati di preferenza nel processo di addestramento dei modelli di diffusione, specialmente nel contesto di Diffusion-DPO e dei suoi successivi adattamenti. Investigiamo le complessità legate alle preferenze umane universali nella generazione di immagini, evidenziando la natura soggettiva di queste preferenze e le sfide poste dai campioni minoritari nei dataset di preferenza. Attraverso esperimenti pilota, dimostriamo l'esistenza di campioni minoritari e i loro effetti negativi sulle prestazioni del modello. Proponiamo Adaptive-DPO — un approccio innovativo che incorpora una metrica consapevole delle istanze minoritarie nell'obiettivo DPO. Questa metrica, che include la fiducia intra-annotatore e la stabilità inter-annotatore, distingue tra campioni maggioritari e minoritari. Introduciamo una funzione di perdita Adaptive-DPO che migliora la perdita DPO in due modi: potenziando l'apprendimento delle etichette maggioritarie da parte del modello mentre mitiga l'impatto negativo dei campioni minoritari. I nostri esperimenti dimostrano che questo metodo gestisce efficacemente sia i dati sintetici minoritari che i dati di preferenza del mondo reale, aprendo la strada a metodologie di addestramento più efficaci nei compiti di generazione di immagini.
La geolocalizzazione di immagini, in cui tradizionalmente un modello di IA prevede le coordinate GPS precise di un'immagine, è un compito impegnativo con molte applicazioni a valle. Tuttavia, l'utente non può utilizzare il modello per approfondire la propria conoscenza oltre alla coordinata GPS; il modello manca di una comprensione della località e della capacità conversazionale per comunicare con l'utente. Recentemente, con i notevoli progressi dei modelli multimodali di grandi dimensioni (LMMs), sia proprietari che open-source, i ricercatori hanno tentato di geolocalizzare immagini tramite LMMs. Tuttavia, i problemi rimangono irrisolti; oltre ai compiti generali, per attività più specializzate a valle, una delle quali è la geolocalizzazione, gli LMMs faticano. In questo lavoro, proponiamo di risolvere questo problema introducendo un modello conversazionale, GAEA, che può fornire informazioni riguardanti la località di un'immagine, come richiesto da un utente. Non esiste un dataset su larga scala che permetta l'addestramento di un tale modello. Pertanto, proponiamo un dataset completo, GAEA, con 800K immagini e circa 1.6M coppie domanda-risposta costruite sfruttando gli attributi di OpenStreetMap (OSM) e indizi contestuali geografici. Per la valutazione quantitativa, proponiamo un benchmark diversificato composto da 4K coppie immagine-testo per valutare le capacità conversazionali dotate di diversi tipi di domande. Consideriamo 11 LMMs open-source e proprietari all'avanguardia e dimostriamo che GAEA supera significativamente il miglior modello open-source, LLaVA-OneVision, del 25.69% e il miglior modello proprietario, GPT-4o, dell'8.28%. Il nostro dataset, modello e codici sono disponibili.
I recenti metodi di editing 3D del volto che utilizzano maschere hanno prodotto immagini modificate di alta qualità sfruttando i Neural Radiance Fields (NeRF). Nonostante le prestazioni impressionanti, i metodi esistenti spesso offrono un controllo limitato all'utente a causa dell'uso di maschere di segmentazione pre-addestrate. Per utilizzare maschere con un layout desiderato, è necessario un ampio dataset di addestramento, che è difficile da raccogliere. Presentiamo FFaceNeRF, una tecnica di editing del volto basata su NeRF che può superare la sfida del controllo limitato dell'utente dovuto all'uso di layout di maschere fissi. Il nostro metodo impiega un adattatore geometrico con iniezione di feature, consentendo una manipolazione efficace degli attributi geometrici. Inoltre, adottiamo il mixing latente per l'aumento del tri-plane, che permette l'addestramento con pochi campioni. Ciò facilita un rapido adattamento del modello ai layout di maschere desiderati, cruciale per applicazioni in campi come l'imaging medico personalizzato o l'editing creativo del volto. Le nostre valutazioni comparative dimostrano che FFaceNeRF supera i metodi esistenti di editing del volto basati su maschere in termini di flessibilità, controllo e qualità delle immagini generate, aprendo la strada a futuri progressi nell'editing 3D del volto personalizzato e ad alta fedeltà. Il codice è disponibile sulla {https://kwanyun.github.io/FFaceNeRF_page/{pagina-del-progetto}}.
La segmentazione generalizzata di nuvole di punti 3D con pochi esempi (GFS-PCS) adatta i modelli a nuove classi con un numero limitato di campioni di supporto, mantenendo al contempo la segmentazione delle classi base. I metodi esistenti di GFS-PCS migliorano i prototipi interagendo con le caratteristiche di supporto o di query, ma rimangono limitati dalla conoscenza sparsa derivante dai campioni con pochi esempi. Nel frattempo, i modelli di visione e linguaggio 3D (3D VLMs), che generalizzano attraverso classi nuove del mondo aperto, contengono una conoscenza ricca ma rumorosa delle classi nuove. In questo lavoro, introduciamo un framework GFS-PCS che sinergizza etichette pseudo dense ma rumorose provenienti da 3D VLMs con campioni precisi ma sparsi di pochi esempi per massimizzare i punti di forza di entrambi, denominato GFS-VL. Nello specifico, presentiamo una selezione di etichette pseudo guidata da prototipi per filtrare le regioni di bassa qualità, seguita da una strategia di riempimento adattivo che combina la conoscenza dai contesti delle etichette pseudo e dai campioni di pochi esempi per etichettare in modo adattivo le aree filtrate e non etichettate. Inoltre, progettiamo una strategia di miscelazione novel-base per incorporare i campioni di pochi esempi nelle scene di addestramento, preservando il contesto essenziale per un migliore apprendimento delle classi nuove. Inoltre, riconoscendo la limitata diversità negli attuali benchmark GFS-PCS, introduciamo due benchmark impegnativi con classi nuove diverse per una valutazione completa della generalizzazione. Gli esperimenti convalidano l'efficacia del nostro framework attraverso modelli e dataset. Il nostro approccio e i benchmark forniscono una solida base per avanzare la GFS-PCS nel mondo reale. Il codice è disponibile su https://github.com/ZhaochongAn/GFS-VL.