Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo rStar2-Agent, un modello di ragionamento matematico da 14B addestrato con apprendimento per rinforzo agentico per raggiungere prestazioni di livello avanzato. Oltre agli attuali approcci di Chain-of-Thought (CoT) estesi, il modello dimostra comportamenti cognitivi avanzati, come riflettere attentamente prima di utilizzare strumenti di codifica Python e analizzare il feedback dell'esecuzione del codice per esplorare, verificare e affinare autonomamente i passaggi intermedi nella risoluzione di problemi complessi. Questa capacità è resa possibile grazie a tre innovazioni chiave che rendono efficace l'apprendimento per rinforzo agentico su larga scala: (i) un'infrastruttura RL efficiente con un ambiente Python affidabile che supporta l'esecuzione ad alta velocità e mitiga i costi elevati di rollout, consentendo l'addestramento con risorse GPU limitate (64 GPU MI300X); (ii) GRPO-RoC, un algoritmo RL agentico con una strategia di rollout Resample-on-Correct che affronta i rumori intrinseci dell'ambiente derivanti dagli strumenti di codifica, permettendo al modello di ragionare in modo più efficace in un ambiente di codice; (iii) Una ricetta efficiente per l'addestramento di agenti che inizia con un SFT non orientato al ragionamento e progredisce attraverso fasi multi-RL, ottenendo abilità cognitive avanzate con un costo computazionale minimo. In questo modo, rStar2-Agent porta un modello pre-addestrato da 14B allo stato dell'arte in soli 510 passi RL entro una settimana, raggiungendo punteggi medi pass@1 dell'80,6% su AIME24 e del 69,8% su AIME25, superando DeepSeek-R1 (671B) con risposte significativamente più brevi. Oltre alla matematica, rStar2-Agent-14B dimostra anche una forte generalizzazione in compiti di allineamento, ragionamento scientifico e utilizzo di strumenti agentici. Il codice e le ricette di addestramento sono disponibili su https://github.com/microsoft/rStar.
I recenti progressi evidenziano l'importanza dei metodi di apprendimento per rinforzo basati su GRPO e del benchmarking nel migliorare la generazione da testo a immagine (T2I). Tuttavia, i metodi attuali che utilizzano modelli di ricompensa (RM) puntuali per valutare le immagini generate sono suscettibili al fenomeno del reward hacking. Riveliamo che ciò accade quando le differenze minime di punteggio tra le immagini vengono amplificate dopo la normalizzazione, creando vantaggi illusori che spingono il modello a ottimizzare eccessivamente per guadagni banali, destabilizzando infine il processo di generazione delle immagini. Per affrontare questo problema, proponiamo Pref-GRPO, un metodo GRPO basato su ricompensa per preferenze pairwise che sposta l'obiettivo di ottimizzazione dalla massimizzazione del punteggio all'adattamento delle preferenze, garantendo un addestramento più stabile. In Pref-GRPO, le immagini vengono confrontate pairwise all'interno di ciascun gruppo utilizzando un RM di preferenza, e il tasso di vittoria viene utilizzato come segnale di ricompensa. Esperimenti estensivi dimostrano che PREF-GRPO differenzia le sottili differenze di qualità delle immagini, fornendo vantaggi più stabili e mitigando il reward hacking. Inoltre, i benchmark T2I esistenti sono limitati da criteri di valutazione grossolani, ostacolando una valutazione completa del modello. Per risolvere questo problema, introduciamo UniGenBench, un benchmark T2I unificato che comprende 600 prompt suddivisi in 5 temi principali e 20 sottotemi. Valuta la coerenza semantica attraverso 10 criteri primari e 27 sub-criteri, sfruttando MLLM per la costruzione e la valutazione del benchmark. I nostri benchmark rivelano i punti di forza e di debolezza sia dei modelli T2I open-source che di quelli closed-source e convalidano l'efficacia di Pref-GRPO.
Presentiamo MCP-Bench, un benchmark per valutare i grandi modelli linguistici (LLM) su compiti realistici e multi-step che richiedono l'uso di strumenti, il coordinamento tra strumenti, il controllo preciso dei parametri e la pianificazione/ragionamento per risolvere i compiti. Basato sul Model Context Protocol (MCP), MCP-Bench collega gli LLM a 28 server MCP live rappresentativi, che coprono 250 strumenti in domini come finanza, viaggi, calcolo scientifico e ricerca accademica. A differenza dei precedenti benchmark basati su API, ogni server MCP fornisce un insieme di strumenti complementari progettati per funzionare insieme, consentendo la costruzione di compiti autentici e multi-step con un ricco accoppiamento input-output. I compiti in MCP-Bench testano la capacità degli agenti di recuperare strumenti rilevanti da istruzioni vaghe senza nomi espliciti degli strumenti, pianificare traiettorie di esecuzione multi-hop per obiettivi complessi, ancorare le risposte agli output intermedi degli strumenti e orchestrare flussi di lavoro cross-domain - capacità non adeguatamente valutate dai benchmark esistenti che si basano su specifiche esplicite degli strumenti, flussi di lavoro pochi-step superficiali e operazioni di dominio isolate. Proponiamo un framework di valutazione multi-faccettato che copre la comprensione e l'uso dello schema a livello di strumento, la pianificazione a livello di traiettoria e il completamento del compito. Esperimenti su 20 LLM avanzati rivelano sfide persistenti in MCP-Bench. Codice e dati: https://github.com/Accenture/mcp-bench.
La letteratura esistente tratta tipicamente la generazione guidata dallo stile e quella guidata dal soggetto come due compiti separati: la prima priorizza la somiglianza stilistica, mentre la seconda insiste sulla coerenza del soggetto, risultando in un apparente antagonismo. Sosteniamo che entrambi gli obiettivi possano essere unificati in un unico framework poiché riguardano in ultima analisi la separazione e la ricomposizione di contenuto e stile, un tema di lunga data nella ricerca guidata dallo stile. A tal fine, presentiamo USO, un modello di personalizzazione ottimizzato unificato per stile e soggetto. In primo luogo, costruiamo un ampio dataset di triplette costituito da immagini di contenuto, immagini di stile e le corrispondenti immagini di contenuto stilizzate. In secondo luogo, introduciamo uno schema di apprendimento separato che allinea simultaneamente le caratteristiche dello stile e separa il contenuto dallo stile attraverso due obiettivi complementari: l'addestramento all'allineamento dello stile e l'addestramento alla separazione contenuto-stile. In terzo luogo, incorporiamo un paradigma di apprendimento basato sulla ricompensa dello stile, denominato SRL, per migliorare ulteriormente le prestazioni del modello. Infine, rilasciamo USO-Bench, il primo benchmark che valuta congiuntamente la somiglianza stilistica e la fedeltà del soggetto attraverso molteplici metriche. Esperimenti estensivi dimostrano che USO raggiunge prestazioni all'avanguardia tra i modelli open-source sia in termini di coerenza del soggetto che di somiglianza stilistica. Codice e modello: https://github.com/bytedance/USO
Il paradigma dell'apprendimento attraverso la pratica è cruciale per lo sviluppo di sistemi di intelligenza artificiale agentici capaci, ma è fortemente limitato dalla generazione inefficiente di esperienze, un collo di bottiglia particolarmente evidente in benchmark complessi come GAIA. Per affrontare questo problema, introduciamo AWorld, un sistema open-source progettato per l'interazione su larga scala tra agente e ambiente. Distribuendo i compiti su un cluster, AWorld accelera la raccolta di esperienze di 14,6 volte rispetto all'esecuzione sequenziale standard su un singolo nodo. Questo significativo aumento di velocità rende l'apprendimento per rinforzo estensivo pratico e scalabile. Sfruttando questa capacità, abbiamo addestrato un agente basato su Qwen3-32B che supera significativamente il modello di base, aumentando la sua accuratezza complessiva su GAIA dal 21,59% al 32,23%. Nei livelli più impegnativi del benchmark, il nostro agente raggiunge un punteggio del 16,33%, superando le prestazioni dei principali modelli proprietari. Il nostro sistema open-source e l'agente risultante forniscono una guida pratica per un'intera pipeline di addestramento di intelligenza artificiale agentica, dall'interazione efficiente al miglioramento dimostrabile del modello.
La generazione di video lunghi è fondamentalmente un problema di memoria a lungo contesto: i modelli devono conservare e recuperare eventi salienti su un ampio intervallo senza collassare o deviare. Tuttavia, il ridimensionamento dei trasformatori di diffusione per generare video a lungo contesto è limitato dal costo quadratico dell'auto-attenzione, che rende la memoria e il calcolo intrattabili e difficili da ottimizzare per sequenze lunghe. Riformuliamo la generazione di video a lungo contesto come un compito di recupero interno delle informazioni e proponiamo un semplice modulo di routing dell'attenzione sparsa e apprendibile, Mixture of Contexts (MoC), come un efficace motore di recupero della memoria a lungo termine. In MoC, ogni query seleziona dinamicamente alcuni chunk informativi più ancore obbligatorie (didascalia, finestre locali) a cui prestare attenzione, con un routing causale che previene la chiusura di loop. Man mano che scaliamo i dati e sparsifichiamo gradualmente il routing, il modello assegna il calcolo alla storia saliente, preservando identità, azioni e scene per minuti di contenuto. L'efficienza segue come sottoprodotto del recupero (scalabilità quasi lineare), che consente un addestramento e una sintesi pratici, e l'emergere di memoria e coerenza su una scala di minuti.
Introduciamo il primo tracker 3D multi-vista basato su dati, progettato per tracciare punti arbitrari in scene dinamiche utilizzando più viste della telecamera. A differenza dei tracker monoculari esistenti, che faticano con le ambiguità di profondità e l'occlusione, o dei precedenti metodi multi-camera che richiedono oltre 20 telecamere e un'ottimizzazione laboriosa per ogni sequenza, il nostro modello feed-forward prevede direttamente le corrispondenze 3D utilizzando un numero pratico di telecamere (ad esempio, quattro), consentendo un tracciamento online robusto e accurato. Dati i pose delle telecamere noti e la profondità multi-vista basata su sensori o stimata, il nostro tracker fonde le caratteristiche multi-vista in una nuvola di punti unificata e applica la correlazione k-nearest-neighbors insieme a un aggiornamento basato su transformer per stimare in modo affidabile corrispondenze 3D a lungo raggio, anche in caso di occlusione. Addestriamo su 5K sequenze sintetiche multi-vista Kubric e valutiamo su due benchmark del mondo reale: Panoptic Studio e DexYCB, ottenendo errori mediani della traiettoria di 3,1 cm e 2,0 cm, rispettivamente. Il nostro metodo si generalizza bene a diverse configurazioni di telecamere da 1 a 8 viste con punti di vista variabili e lunghezze video da 24 a 150 fotogrammi. Rilasciando il nostro tracker insieme ai dataset di addestramento e valutazione, miriamo a stabilire un nuovo standard per la ricerca sul tracciamento 3D multi-vista e a fornire uno strumento pratico per applicazioni nel mondo reale. Pagina del progetto disponibile all'indirizzo https://ethz-vlg.github.io/mvtracker.
I dati di istruzione diversificati sono fondamentali per un efficace tuning delle istruzioni nei grandi modelli linguistici, poiché consentono al modello di generalizzare su diversi tipi di input. Costruire un dataset di istruzioni così diversificato è un passo essenziale in questo processo. Gli approcci esistenti spesso sfruttano grandi modelli linguistici per esplorare e generare automaticamente istruzioni diversificate, garantendo sia la diversità che la qualità dei dati. Tuttavia, tendono a trascurare un fattore importante nelle applicazioni reali: la rilevanza rispetto al compito. Nella pratica, solo poche applicazioni reali richiedono un modello veramente generico; la maggior parte trae vantaggio da conoscenze specifiche per il compito, adattate al loro caso d'uso particolare. Pertanto, è fondamentale sviluppare metodi di ampliamento delle istruzioni che non solo mantengano la diversità, ma siano anche ottimizzati per scenari reali specifici. Introduciamo quindi il Task Centric Instruction Augmentation (TCIA), un framework che espande sistematicamente le istruzioni preservando sia la diversità che l'allineamento al compito. Rappresentando le istruzioni in uno spazio discreto di query-vincoli, il TCIA crea un ricco insieme di istruzioni rilevanti per il compito e consente ai modelli di generalizzare su queste istruzioni specifiche senza compromettere le prestazioni complessive. Gli esperimenti dimostrano che il TCIA migliora le prestazioni dei modelli linguistici open-source in media dell'8,7% su quattro applicazioni reali specifiche per il compito, superando in alcuni casi i principali modelli closed-source. Questi miglioramenti non compromettono la capacità generale di seguire le istruzioni, rendendo il TCIA una soluzione scalabile ed efficiente per adattare i modelli linguistici a applicazioni reali focalizzate su compiti specifici.
L'allineamento alla sicurezza nei Large Language Models (LLMs) spesso implica la mediazione delle rappresentazioni interne per rifiutare richieste dannose. Ricerche recenti hanno dimostrato che questi meccanismi di sicurezza possono essere bypassati ablating o rimuovendo specifiche direzioni rappresentative all'interno del modello. In questo articolo, proponiamo l'approccio opposto: Rank-One Safety Injection (ROSI), un metodo white-box che amplifica l'allineamento alla sicurezza di un modello orientando permanentemente le sue attivazioni verso il sottospazio di mediazione del rifiuto. ROSI opera come una semplice modifica dei pesi di rango uno, applicata a tutte le matrici di scrittura del flusso residuo, senza necessità di fine-tuning. La direzione di sicurezza richiesta può essere calcolata da un piccolo insieme di coppie di istruzioni dannose e innocue. Mostriamo che ROSI aumenta costantemente i tassi di rifiuto per motivi di sicurezza - valutati da Llama Guard 3 - preservando l'utilità del modello su benchmark standard come MMLU, HellaSwag e Arc. Inoltre, dimostriamo che ROSI può riallineare modelli "non censurati" amplificando le loro direzioni di sicurezza latenti, evidenziando la sua utilità come procedura di sicurezza efficace nell'ultimo miglio. I nostri risultati suggeriscono che l'orientamento mirato e interpretabile dei pesi è un meccanismo economico e potente per migliorare la sicurezza degli LLM, complementando paradigmi di fine-tuning più dispendiosi in termini di risorse.
In questo articolo presentiamo OneReward, un framework unificato di apprendimento per rinforzo che potenzia le capacità generative del modello su più compiti, utilizzando un unico modello di ricompensa e rispettando diversi criteri di valutazione. Impiegando un singolo modello visione-linguaggio (VLM) come modello generativo di ricompensa, in grado di distinguere il vincitore e lo sconfitto per un determinato compito e un dato criterio di valutazione, esso può essere efficacemente applicato a modelli di generazione multi-task, specialmente in contesti con dati variabili e obiettivi di compito diversi. Utilizziamo OneReward per la generazione guidata da maschera di immagini, che può essere ulteriormente suddivisa in diversi sotto-compiti come il riempimento di immagini, l'estensione di immagini, la rimozione di oggetti e il rendering di testo, coinvolgendo una maschera binaria come area di modifica. Sebbene questi compiti specifici condividano lo stesso paradigma di condizionamento, differiscono significativamente nelle distribuzioni dei dati sottostanti e nelle metriche di valutazione. I metodi esistenti spesso si basano su un fine-tuning supervisionato specifico per compito (SFT), il che limita la generalizzazione e l'efficienza dell'addestramento. Basandoci su OneReward, sviluppiamo Seedream 3.0 Fill, un modello di generazione guidata da maschera addestrato tramite apprendimento per rinforzo multi-task direttamente su un modello base pre-addestrato, eliminando la necessità di SFT specifico per compito. I risultati sperimentali dimostrano che il nostro modello di modifica unificato supera costantemente sia i concorrenti commerciali che open-source, come Ideogram, Adobe Photoshop e FLUX Fill [Pro], su più dimensioni di valutazione. Codice e modello sono disponibili al seguente indirizzo: https://one-reward.github.io
I modelli linguistici potenziati da strumenti, dotati di capacità di recupero, memoria o API esterne, stanno ridefinendo l'IA, sebbene i loro vantaggi teorici rimangano poco esplorati. In questo articolo, affrontiamo questa questione dimostrando i benefici dell'apprendimento tramite strumenti (recupero esterno) rispetto all'apprendimento tramite pesi (memorizzazione) per il richiamo di fatti. Mostriamo che il numero di fatti che un modello può memorizzare esclusivamente nei suoi pesi è fondamentalmente limitato dal numero di parametri. Al contrario, dimostriamo che l'uso di strumenti consente un richiamo illimitato di fatti attraverso una costruzione di circuiti semplice ed efficiente. Questi risultati sono validati in esperimenti controllati, in cui i modelli che utilizzano strumenti superano costantemente quelli che si basano sulla memorizzazione. Inoltre, mostriamo che per i modelli linguistici pre-addestrati di grandi dimensioni, insegnare l'uso di strumenti e regole generali è più efficace rispetto al fine-tuning dei fatti nella memoria. Il nostro lavoro fornisce sia una base teorica che empirica, stabilendo perché i flussi di lavoro potenziati da strumenti non sono solo pratici, ma anche dimostrabilmente più scalabili.
I modelli linguistici di grandi dimensioni (LLM) possono avere difficoltà a bilanciare la credulità verso la disinformazione e la resistenza a correzioni valide nei dialoghi persuasivi, una sfida cruciale per un impiego affidabile. Introduciamo DuET-PD (Dual Evaluation for Trust in Persuasive Dialogues), un framework che valuta le dinamiche di cambiamento di posizione in dialoghi multi-turn lungo due dimensioni: tipo di persuasione (correttiva/ingannevole) e dominio (conoscenza tramite MMLU-Pro, e sicurezza tramite SALAD-Bench). Scopriamo che anche un modello all'avanguardia come GPT-4o raggiunge solo il 27,32% di accuratezza in MMLU-Pro sotto una persuasione ingannevole prolungata. Inoltre, i risultati rivelano una tendenza preoccupante verso una crescente sìcophancy nei modelli open-source più recenti. Per affrontare questo problema, introduciamo Holistic DPO, un approccio di addestramento che bilancia esempi di persuasione positivi e negativi. A differenza del prompting o dell'addestramento solo alla resistenza, Holistic DPO migliora sia la robustezza alla disinformazione che la ricettività alle correzioni, aumentando l'accuratezza di Llama-3.1-8B-Instruct sotto persuasione ingannevole in contesti di sicurezza dal 4,21% al 76,54%. Questi contributi offrono una via per sviluppare LLM più affidabili e adattabili per dialoghi multi-turn. Il codice è disponibile all'indirizzo https://github.com/Social-AI-Studio/DuET-PD.
I recenti modelli Vision-Language-Action (VLA) basati su modelli Vision-Language (VLM) pre-addestrati richiedono un ampio post-training, risultando in un elevato overhead computazionale che limita la scalabilità e il deployment. Proponiamo CogVLA, un framework Cognition-Aligned Vision-Language-Action che sfrutta il routing guidato da istruzioni e la sparsificazione per migliorare sia l'efficienza che le prestazioni. CogVLA trae ispirazione dalla coordinazione multimodale umana e introduce un'architettura progressiva a 3 stadi. 1) L'Encoder-FiLM based Aggregation Routing (EFA-Routing) inietta le informazioni delle istruzioni nell'encoder visivo per aggregare e comprimere selettivamente i token visivi dual-stream, formando una rappresentazione latente consapevole delle istruzioni. 2) Basandosi su questa codifica visiva compatta, l'LLM-FiLM based Pruning Routing (LFP-Routing) introduce l'intento d'azione nel modello linguistico potando i token visivi non rilevanti per le istruzioni, ottenendo così una sparsità a livello di token. 3) Per garantire che gli input percettivi compressi possano comunque supportare una generazione d'azione accurata e coerente, introduciamo il V-L-A Coupled Attention (CAtten), che combina l'attenzione causale vision-language con il decoding parallelo bidirezionale delle azioni. Esperimenti estensivi sul benchmark LIBERO e su task robotici del mondo reale dimostrano che CogVLA raggiunge prestazioni all'avanguardia con tassi di successo del 97.4% e 70.0%, rispettivamente, riducendo i costi di training di 2.5 volte e diminuendo la latenza di inferenza di 2.8 volte rispetto a OpenVLA. CogVLA è open-source e disponibile pubblicamente all'indirizzo https://github.com/JiuTian-VL/CogVLA.
Introduciamo FakeParts, una nuova classe di deepfake caratterizzata da manipolazioni sottili e localizzate in specifiche regioni spaziali o segmenti temporali di video altrimenti autentici. A differenza di contenuti completamente sintetici, queste manipolazioni parziali, che vanno da espressioni facciali alterate a sostituzioni di oggetti e modifiche dello sfondo, si fondono perfettamente con elementi reali, rendendoli particolarmente ingannevoli e difficili da rilevare. Per colmare questa lacuna critica nelle capacità di rilevamento, presentiamo FakePartsBench, il primo dataset di benchmark su larga scala specificamente progettato per catturare l'intero spettro dei deepfake parziali. Composto da oltre 25K video con annotazioni di manipolazione a livello di pixel e di fotogramma, il nostro dataset consente una valutazione completa dei metodi di rilevamento. I nostri studi sugli utenti dimostrano che FakeParts riduce l'accuratezza di rilevamento umano di oltre il 30% rispetto ai deepfake tradizionali, con una simile degradazione delle prestazioni osservata nei modelli di rilevamento all'avanguardia. Questo lavoro identifica una vulnerabilità urgente negli attuali approcci di rilevamento dei deepfake e fornisce le risorse necessarie per sviluppare metodi più robusti per le manipolazioni video parziali.
La rimozione di oggetti nei video ha raggiunto prestazioni avanzate grazie ai recenti successi dei modelli generativi video. Tuttavia, quando si affrontano gli effetti collaterali degli oggetti, come ombre e riflessi, i lavori esistenti faticano a eliminare questi effetti a causa della scarsità di dati video accoppiati come supervisione. Questo articolo presenta ROSE, acronimo di Remove Objects with Side Effects, un framework che studia sistematicamente gli effetti degli oggetti sull'ambiente, che possono essere categorizzati in cinque casi comuni: ombre, riflessi, luce, traslucenza e specchi. Data la difficoltà di curare video accoppiati che mostrano questi effetti, sfruttiamo un motore di rendering 3D per la generazione di dati sintetici. Abbiamo costruito con cura una pipeline completamente automatica per la preparazione dei dati, che simula un dataset accoppiato su larga scala con scene, oggetti, angoli di ripresa e traiettorie della fotocamera diversificati. ROSE è implementato come un modello di inpainting video basato su un transformer di diffusione. Per localizzare tutte le aree correlate agli oggetti, l'intero video viene inserito nel modello per una cancellazione basata su riferimenti. Inoltre, viene introdotta una supervisione aggiuntiva per prevedere esplicitamente le aree influenzate dagli effetti collaterali, che possono essere rivelate attraverso la maschera differenziale tra i video accoppiati. Per indagare a fondo le prestazioni del modello nella rimozione di vari effetti collaterali, presentiamo un nuovo benchmark, denominato ROSE-Bench, che incorpora sia scenari comuni che i cinque effetti collaterali speciali per una valutazione completa. I risultati sperimentali dimostrano che ROSE raggiunge prestazioni superiori rispetto ai modelli esistenti di cancellazione di oggetti nei video e si generalizza bene a scenari video del mondo reale. La pagina del progetto è https://rose2025-inpaint.github.io/.
Presentiamo Dress&Dance, un framework di diffusione video che genera video di prova virtuale di alta qualità della durata di 5 secondi a 24 FPS con risoluzione 1152x720, mostrando un utente che indossa capi desiderati mentre si muove in accordo con un video di riferimento fornito. Il nostro approccio richiede una singola immagine dell'utente e supporta una gamma di capi superiori, inferiori e completi, nonché la prova simultanea di capi superiori e inferiori in un'unica passata. Elemento chiave del nostro framework è CondNet, una rete di condizionamento innovativa che sfrutta l'attenzione per unificare input multimodali (testo, immagini e video), migliorando così la registrazione dei capi e la fedeltà del movimento. CondNet viene addestrata su dati eterogenei, combinando un numero limitato di video e un dataset di immagini più ampio e facilmente disponibile, in modo progressivo e multistadio. Dress&Dance supera le soluzioni open source e commerciali esistenti e offre un'esperienza di prova virtuale di alta qualità e flessibile.
Il contenuto 3D possiede intrinsecamente caratteristiche multimodali e può essere proiettato in diverse modalità (ad esempio, immagini RGB, RGBD e nuvole di punti). Ogni modalità presenta vantaggi distinti nella modellazione di asset 3D: le immagini RGB contengono texture 3D vivide, mentre le nuvole di punti definiscono geometrie 3D dettagliate. Tuttavia, la maggior parte delle architetture generative native 3D esistenti opera prevalentemente in paradigmi a singola modalità, trascurando così i benefici complementari dei dati multimodali, oppure si limita alle strutture 3D, riducendo così l'ampiezza dei dataset di addestramento disponibili. Per sfruttare in modo olistico le multimodali nella modellazione 3D, presentiamo TriMM, il primo modello generativo nativo 3D feed-forward che apprende da multimodali di base (ad esempio, RGB, RGBD e nuvole di punti). Nello specifico, 1) TriMM introduce innanzitutto una codifica multimodale collaborativa, che integra le caratteristiche specifiche di ciascuna modalità preservandone i punti di forza rappresentativi unici. 2) Inoltre, vengono introdotte supervisioni ausiliarie 2D e 3D per aumentare la robustezza e le prestazioni della codifica multimodale. 3) Basandosi sul codice multimodale incorporato, TriMM utilizza un modello di diffusione latente triplanare per generare asset 3D di qualità superiore, migliorando sia la texture che il dettaglio geometrico. Esperimenti estensivi su più dataset noti dimostrano che TriMM, sfruttando efficacemente le multimodali, raggiunge prestazioni competitive con modelli addestrati su dataset su larga scala, nonostante utilizzi una piccola quantità di dati di addestramento. Inoltre, conduciamo ulteriori esperimenti su recenti dataset RGB-D, verificando la fattibilità di incorporare altri dataset multimodali nella generazione 3D.
Man mano che i dialoghi multi-turn con i grandi modelli linguistici (LLM) diventano più lunghi e complessi, come possono gli utenti valutare e rivedere meglio i progressi verso i loro obiettivi conversazionali? Presentiamo OnGoal, un'interfaccia di chat con LLM che aiuta gli utenti a gestire meglio i progressi verso gli obiettivi. OnGoal fornisce feedback in tempo reale sull'allineamento agli obiettivi attraverso valutazioni assistite da LLM, spiegazioni dei risultati di valutazione con esempi e panoramiche sull'avanzamento degli obiettivi nel tempo, consentendo agli utenti di navigare in dialoghi complessi in modo più efficace. Attraverso uno studio con 20 partecipanti su un compito di scrittura, abbiamo valutato OnGoal rispetto a un'interfaccia di chat di base senza tracciamento degli obiettivi. Utilizzando OnGoal, i partecipanti hanno impiegato meno tempo e sforzo per raggiungere i loro obiettivi, esplorando nuove strategie di prompting per superare i problemi di comunicazione, suggerendo che il tracciamento e la visualizzazione degli obiettivi possono migliorare l'engagement e la resilienza nei dialoghi con LLM. Le nostre scoperte hanno ispirato implicazioni di progettazione per future interfacce di chat con LLM che migliorano la comunicazione degli obiettivi, riducono il carico cognitivo, aumentano l'interattività e abilitano feedback per migliorare le prestazioni degli LLM.
I comportamenti sociali umani sono intrinsecamente multimodali, rendendo necessario lo sviluppo di potenti modelli audiovisivi per la loro percezione. In questo articolo, presentiamo Social-MAE, il nostro modello pre-addestrato di tipo Masked Autoencoder audiovisivo basato su una versione estesa del Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), che viene pre-addestrato su dati audiovisivi di natura sociale. Nello specifico, modifichiamo CAV-MAE per ricevere un numero maggiore di frame come input e lo pre-addestriamo su un ampio dataset di interazioni sociali umane (VoxCeleb2) in modo auto-supervisionato. Dimostriamo l'efficacia di questo modello attraverso il fine-tuning e la valutazione su diversi task sociali e affettivi, ovvero il riconoscimento delle emozioni, la rilevazione delle risate e la stima della personalità apparente. Il modello raggiunge risultati all'avanguardia nel riconoscimento multimodale delle emozioni e nella rilevazione delle risate, oltre a risultati competitivi nella stima della personalità apparente, dimostrando l'efficacia del pre-training auto-supervisionato in dominio. Il codice e i pesi del modello sono disponibili qui https://github.com/HuBohy/SocialMAE.