Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo GLM-4.1V-Thinking, un modello visione-linguaggio (VLM) progettato per avanzare il ragionamento multimodale a scopo generale. In questo rapporto, condividiamo i nostri principali risultati nello sviluppo del framework di addestramento centrato sul ragionamento. Inizialmente, sviluppiamo un modello di base per la visione con un potenziale significativo attraverso un pre-addestramento su larga scala, che stabilisce di fatto il limite superiore per le prestazioni finali. Successivamente, il Reinforcement Learning con Curriculum Sampling (RLCS) sblocca il pieno potenziale del modello, portando a un miglioramento completo delle capacità su un'ampia gamma di compiti, tra cui la risoluzione di problemi STEM, la comprensione di video, il riconoscimento di contenuti, la codifica, il grounding, agenti basati su GUI e la comprensione di documenti lunghi, tra gli altri. Per facilitare la ricerca in questo campo, rendiamo open-source GLM-4.1V-9B-Thinking, che raggiunge prestazioni all'avanguardia tra i modelli di dimensioni comparabili. In una valutazione completa su 28 benchmark pubblici, il nostro modello supera Qwen2.5-VL-7B su quasi tutti i compiti e ottiene prestazioni comparabili o addirittura superiori su 18 benchmark rispetto al significativamente più grande Qwen2.5-VL-72B. In particolare, GLM-4.1V-9B-Thinking dimostra anche prestazioni competitive o superiori rispetto a modelli closed-source come GPT-4o su compiti impegnativi tra cui la comprensione di documenti lunghi e il ragionamento STEM, sottolineando ulteriormente le sue forti capacità. Codice, modelli e ulteriori informazioni sono disponibili all'indirizzo https://github.com/THUDM/GLM-4.1V-Thinking.
Il ragionamento matematico è diventato il simbolo del progresso nei grandi modelli linguistici (LLM), con nuovi modelli che superano rapidamente le prestazioni umane su benchmark come MATH e AIME. Ma mentre le classifiche matematiche migliorano settimana dopo settimana, vale la pena chiedersi: questi progressi riflettono una più ampia capacità di risoluzione dei problemi o sono semplicemente un caso di overfitting ristretto? Per rispondere a questa domanda, valutiamo oltre 20 modelli open-weight ottimizzati per il ragionamento su un'ampia gamma di task, tra cui matematica, domande scientifiche, pianificazione di agenti, codifica e il classico seguimento di istruzioni. Sorprendentemente, scopriamo che la maggior parte dei modelli che eccellono in matematica non riescono a trasferire i loro progressi ad altri domini. Per studiare rigorosamente questo fenomeno, conduciamo esperimenti controllati sui modelli Qwen3-14B utilizzando dati esclusivamente matematici ma con diversi metodi di ottimizzazione. Scopriamo che i modelli ottimizzati con apprendimento per rinforzo (RL) generalizzano bene tra i domini, mentre i modelli ottimizzati con fine-tuning supervisionato (SFT) spesso perdono capacità generali. Analisi delle rappresentazioni nello spazio latente e degli spostamenti nella distribuzione dello spazio dei token rivelano che l'SFT induce sostanziali derivate nelle rappresentazioni e negli output, mentre l'RL preserva la struttura del dominio generale. I nostri risultati suggeriscono la necessità di ripensare le ricette standard di post-training, in particolare la dipendenza dai dati distillati tramite SFT per avanzare i modelli di ragionamento.
Presentiamo SciArena, una piattaforma aperta e collaborativa per la valutazione di modelli di fondazione su compiti legati alla letteratura scientifica. A differenza dei benchmark tradizionali per la comprensione e la sintesi della letteratura scientifica, SciArena coinvolge direttamente la comunità di ricerca, seguendo l'approccio di valutazione di Chatbot Arena basato sul voto della comunità sui confronti tra modelli. Sfruttando l'intelligenza collettiva, SciArena offre una valutazione guidata dalla comunità delle prestazioni dei modelli su compiti scientifici aperti che richiedono risposte lunghe e basate sulla letteratura. La piattaforma attualmente supporta 23 modelli di fondazione open-source e proprietari e ha raccolto oltre 13.000 voti da ricercatori fidati in diversi ambiti scientifici. Analizziamo i dati raccolti finora e confermiamo che le domande sottoposte sono varie, allineate con le esigenze reali della letteratura, e che i ricercatori partecipanti dimostrano una forte coerenza interna e accordo inter-annotatore nelle loro valutazioni. Discutiamo i risultati e le intuizioni basate sulla classifica dei modelli. Per promuovere ulteriormente la ricerca nello sviluppo di sistemi di valutazione automatizzati basati su modelli per compiti legati alla letteratura, rilasciamo SciArena-Eval, un benchmark di meta-valutazione basato sui dati di preferenza raccolti. Il benchmark misura l'accuratezza dei modelli nel giudicare la qualità delle risposte confrontando le loro valutazioni a coppie con i voti umani. I nostri esperimenti evidenziano le sfide del benchmark e sottolineano la necessità di metodi di valutazione automatizzati più affidabili.
I modelli di embedding multimodali, costruiti su modelli linguistici visivi (VLMs) causali, hanno mostrato promettenti risultati in vari compiti. Tuttavia, gli approcci attuali presentano tre limitazioni principali: l'uso dell'attenzione causale nei backbone dei VLMs non è ottimale per i compiti di embedding; problemi di scalabilità dovuti alla dipendenza da dati etichettati di alta qualità per l'apprendimento contrastivo; e una diversità limitata negli obiettivi e nei dati di addestramento. Per affrontare queste problematiche, proponiamo MoCa, un framework a due fasi per trasformare VLMs pre-addestrati in efficaci modelli di embedding multimodali bidirezionali. La prima fase, il Pre-addestramento Continuo Consapevole della Modalità, introduce un obiettivo di ricostruzione congiunta che denoizza simultaneamente input testuali e visivi intervallati, migliorando il ragionamento contestuale bidirezionale. La seconda fase, l'Affinamento Contrastivo Eterogeneo, sfrutta dati multimodali diversificati e semanticamente ricchi, oltre alle semplici coppie immagine-didascalia, per migliorare la generalizzazione e l'allineamento. Il nostro metodo affronta le limitazioni menzionate introducendo l'attenzione bidirezionale attraverso il pre-addestramento continuo, scalando efficacemente con grandi dataset non etichettati tramite obiettivi di ricostruzione congiunta, e utilizzando dati multimodali diversificati per una maggiore robustezza delle rappresentazioni. Gli esperimenti dimostrano che MoCa migliora costantemente le prestazioni sui benchmark MMEB e ViDoRe-v2, raggiungendo nuovi risultati all'avanguardia, e mostra una forte scalabilità sia con la dimensione del modello che con i dati di addestramento su MMEB.
I recenti progressi nei modelli di diffusione hanno reso possibile la generazione di video di alta qualità, ma la dimensione temporale aggiuntiva aumenta significativamente i costi computazionali, rendendo proibitivamente costosi l'addestramento e l'inferenza su video lunghi. In questo articolo, identifichiamo un fenomeno che definiamo Decadimento dell'Energia Spaziotemporale nei modelli di diffusione video: i punteggi di attenzione post-softmax diminuiscono all'aumentare della distanza spaziale e temporale tra i token, simile al decadimento fisico di un segnale o di onde nello spazio e nel tempo in natura. Motivati da ciò, proponiamo l'Attenzione Radiale, un meccanismo di attenzione sparsa scalabile con complessità O(n log n) che traduce il decadimento dell'energia in una densità computazionale che decade esponenzialmente, risultando significativamente più efficiente rispetto all'attenzione densa standard O(n^2) e più espressiva rispetto all'attenzione lineare. Nello specifico, l'Attenzione Radiale utilizza una semplice maschera di attenzione statica in cui ogni token si concentra sui token spazialmente vicini, con la dimensione della finestra di attenzione che si riduce con la distanza temporale. Inoltre, consente ai modelli di diffusione video pre-addestrati di estendere la lunghezza della generazione con un efficiente fine-tuning basato su LoRA. Esperimenti estensivi dimostrano che l'Attenzione Radiale mantiene la qualità del video su Wan2.1-14B, HunyuanVideo e Mochi 1, raggiungendo un'accelerazione fino a 1,9 volte rispetto all'attenzione densa originale. Con un minimo tuning, consente la generazione di video fino a 4 volte più lunghi, riducendo i costi di addestramento fino a 4,4 volte rispetto al fine-tuning diretto e accelerando l'inferenza fino a 3,7 volte rispetto all'inferenza con attenzione densa.
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) rappresentano alternative convincenti ai modelli autoregressivi (AR) poiché i loro modelli di denoising operano sull'intera sequenza. Le caratteristiche di pianificazione globale e affinamento iterativo dei dLLM sono particolarmente utili per la generazione di codice. Tuttavia, i meccanismi di addestramento e inferenza attuali per i dLLM nel contesto della programmazione sono ancora poco esplorati. Per chiarire il comportamento di decodifica dei dLLM e sbloccare il loro potenziale per la codifica, analizziamo sistematicamente i loro processi di denoising e i metodi di apprendimento per rinforzo (RL). Addestriamo un dLLM da 7B, DiffuCoder, su 130B token di codice. Utilizzando questo modello come banco di prova, analizziamo il suo comportamento di decodifica, rivelando come differisce da quello dei modelli AR: (1) i dLLM possono decidere quanto causale debba essere la loro generazione senza fare affidamento sulla decodifica semi-AR, e (2) aumentare la temperatura di campionamento diversifica non solo le scelte dei token ma anche il loro ordine di generazione. Questa diversità crea uno spazio di ricerca ricco per i rollout di RL. Per l'addestramento RL, per ridurre la varianza delle stime di log-verosimiglianza dei token e mantenere l'efficienza dell'addestramento, proponiamo coupled-GRPO, un nuovo schema di campionamento che costruisce rumore di maschera complementare per le completazioni utilizzate nell'addestramento. Nei nostri esperimenti, coupled-GRPO migliora significativamente le prestazioni di DiffuCoder nei benchmark di generazione di codice (+4,4% su EvalPlus) e riduce la dipendenza dalla causalità AR durante la decodifica. Il nostro lavoro fornisce una comprensione più profonda del funzionamento della generazione dei dLLM e offre un framework di addestramento RL efficace e nativo per la diffusione. https://github.com/apple/ml-diffucoder.
Le macchine possono davvero pensare, ragionare e agire in domini come gli esseri umani? Questa domanda persistente continua a plasmare la ricerca dell'Intelligenza Artificiale Generale (AGI). Nonostante le crescenti capacità di modelli come GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4 e Grok 3, che mostrano fluidità multimodale e un ragionamento parziale, questi sistemi rimangono fondamentalmente limitati dalla loro dipendenza dalla previsione a livello di token e dalla mancanza di un'agenzia radicata. Questo articolo offre una sintesi interdisciplinare dello sviluppo dell'AGI, abbracciando l'intelligenza artificiale, le neuroscienze cognitive, la psicologia, i modelli generativi e i sistemi basati su agenti. Analizziamo le basi architetturali e cognitive dell'intelligenza generale, evidenziando il ruolo del ragionamento modulare, della memoria persistente e della coordinazione multi-agente. In particolare, sottolineiamo l'ascesa dei framework Agentic RAG che combinano recupero, pianificazione e uso dinamico di strumenti per consentire comportamenti più adattativi. Discutiamo strategie di generalizzazione, tra cui la compressione delle informazioni, l'adattamento al momento del test e i metodi senza addestramento, come percorsi critici verso un'intelligenza flessibile e indipendente dal dominio. I Modelli Visione-Linguaggio (VLMs) vengono riesaminati non solo come moduli di percezione, ma come interfacce in evoluzione per la comprensione incarnata e il completamento collaborativo di compiti. Sosteniamo inoltre che la vera intelligenza non deriva solo dalla scala, ma dall'integrazione di memoria e ragionamento: un'orchestrazione di componenti modulari, interattivi e auto-miglioranti, in cui la compressione abilita comportamenti adattativi. Attingendo ai progressi nei sistemi neurosimbolici, nell'apprendimento per rinforzo e nell'impalcatura cognitiva, esploriamo come le architetture recenti inizino a colmare il divario tra l'apprendimento statistico e la cognizione orientata agli obiettivi. Infine, identifichiamo le principali sfide scientifiche, tecniche ed etiche sul percorso verso l'AGI.
Con la rapida evoluzione dei modelli linguistici multimodali di grandi dimensioni, la capacità di comprendere e interpretare profondamente le intenzioni umane è emersa come una competenza critica, che richiede un ragionamento dettagliato e ponderato. Negli studi recenti, il Reinforcement Learning (RL) ha dimostrato potenziale nel migliorare le capacità di ragionamento dei Large Language Models (LLMs). Tuttavia, le sfide associate all'adattamento del RL ai dati e ai formati multimodali rimangono in gran parte irrisolte. In questo articolo, identifichiamo due problemi nei modelli esistenti di ragionamento multimodale: una comprensione insufficiente del contesto globale e i problemi di scorciatoia. La comprensione insufficiente del contesto può verificarsi quando un modello interpreta erroneamente il contesto multimodale, portando a risposte errate. Il problema della scorciatoia si verifica quando il modello trascura indizi cruciali negli input multimodali, affrontando direttamente la query senza considerare le informazioni multimodali. Per affrontare questi problemi, sottolineiamo la necessità che il modello ragioni con una chiara comprensione del contesto globale all'interno degli input multimodali. Questa comprensione del contesto globale può prevenire efficacemente che il modello trascuri indizi multimodali chiave e garantire un processo di ragionamento approfondito. Per assicurare l'interpretazione accurata delle informazioni contestuali multimodali, implementiamo una ricompensa contestuale giudicata da un large language model, insieme a ricompense di formato e accuratezza. Inoltre, per migliorare la capacità di ragionamento complesso, utilizziamo l'LLM per valutare la ricompensa logica, determinando se il processo di ragionamento integra con successo le informazioni multimodali con metodi logici. Introduciamo anche un benchmark omni-modale di ragionamento, IntentBench, mirato a valutare i modelli nella comprensione delle intenzioni e delle emozioni umane complesse. Il nostro metodo proposto dimostra prestazioni avanzate su più benchmark omni-modali rispetto ad altri modelli omni-modali open-source.
La segmentazione amodale e il completamento del contenuto amodale richiedono l'utilizzo di priorità sugli oggetti per stimare maschere e caratteristiche occluse degli oggetti in scene complesse. Fino ad ora, nessun dataset ha fornito una dimensione aggiuntiva per il contesto degli oggetti: la possibilità di più telecamere che condividono la vista di una scena. Introduciamo MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content, il più grande dataset di segmentazione amodale e il primo dataset di contenuto amodale fino ad oggi. Scene affollate di oggetti domestici generici sono simulate in video multi-camera. MOVi-MC-AC contribisce alla crescente letteratura sul rilevamento, tracciamento e segmentazione degli oggetti includendo due nuovi contributi nel mondo dell'apprendimento profondo per la visione artificiale. Le impostazioni con Multiple Camera (MC), in cui gli oggetti possono essere identificati e tracciati tra diverse prospettive uniche delle telecamere, sono rare sia nei video sintetici che in quelli del mondo reale. Introduciamo una nuova complessità nei video sintetici fornendo ID oggetto coerenti per rilevamenti e segmentazioni sia tra i frame che tra più telecamere, ciascuna con caratteristiche uniche e schemi di movimento su una singola scena. Il contenuto amodale (AC) è un compito ricostruttivo in cui i modelli prevedono l'aspetto degli oggetti target attraverso le occlusioni. Nella letteratura sulla segmentazione amodale, alcuni dataset sono stati rilasciati con etichette di rilevamento, tracciamento e segmentazione amodale. Mentre altri metodi si basano su schemi lenti di taglia e incolla per generare pseudo-etichette di contenuto amodale, non tengono conto delle occlusioni naturali presenti nelle maschere modali. MOVi-MC-AC fornisce etichette per circa 5,8 milioni di istanze di oggetti, stabilendo un nuovo massimo nella letteratura sui dataset amodali, oltre ad essere il primo a fornire contenuto amodale ground-truth. Il dataset completo è disponibile all'indirizzo https://huggingface.co/datasets/Amar-S/MOVi-MC-AC.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno dimostrato notevoli capacità di ragionamento visivo su immagini naturali, documenti ricchi di testo e design grafici. Tuttavia, la loro capacità di interpretare spartiti musicali rimane poco esplorata. Per colmare questa lacuna, introduciamo MusiXQA, il primo dataset completo per valutare e far progredire gli MLLMs nella comprensione degli spartiti. MusiXQA presenta spartiti sintetici di alta qualità generati tramite MusiXTeX, con annotazioni strutturate che coprono altezza e durata delle note, accordi, chiavi, indicazioni di tempo e testo, consentendo una varietà di task di domanda-risposta visiva. Attraverso valutazioni estensive, riveliamo significative limitazioni degli attuali MLLMs all'avanguardia in questo dominio. Oltre al benchmarking, abbiamo sviluppato Phi-3-MusiX, un MLLM addestrato sul nostro dataset, ottenendo miglioramenti significativi rispetto ai metodi basati su GPT. Il dataset e il modello proposti gettano le basi per futuri progressi negli MLLMs nella comprensione degli spartiti. Codice, dati e modello saranno rilasciati al momento dell'accettazione.
I dati sono fondamentali per l'addestramento dei modelli linguistici (LM). Ricerche recenti si sono dedicate all'efficienza dei dati, che mira a massimizzare le prestazioni selezionando un sottoinsieme minimo o ottimale di dati di addestramento. Tecniche come il filtraggio, il campionamento e la selezione dei dati svolgono un ruolo cruciale in questo ambito. Per completare tale approccio, definiamo l'Efficacia dei Dati, che si concentra sulla massimizzazione delle prestazioni ottimizzando l'organizzazione dei dati di addestramento e rimane relativamente poco esplorata. Questo lavoro introduce un paradigma generale, DELT, per considerare l'efficacia dei dati nell'addestramento dei LM, evidenziando l'importanza dell'organizzazione dei dati di addestramento. DELT comprende tre componenti: Valutazione dei Dati, Selezione dei Dati e Ordinamento dei Dati. Tra queste componenti, progettiamo il Punteggio di Apprendibilità-Qualità (LQS), come una nuova istanza di Valutazione dei Dati, che considera sia l'apprendibilità che la qualità di ciascun campione di dati dalla prospettiva della coerenza del gradiente. Proponiamo inoltre l'Ordinamento a Piega (FO), come una nuova istanza di Ordinamento dei Dati, che affronta problemi come la dimenticanza del modello e il bias nella distribuzione dei dati. Esperimenti completi convalidano l'efficacia dei dati nell'addestramento dei LM, dimostrando quanto segue: in primo luogo, varie istanze del DELT proposto migliorano le prestazioni dei LM in misura variabile senza aumentare la scala dei dati e le dimensioni del modello. In secondo luogo, tra queste istanze, la combinazione del nostro LQS per la valutazione dei dati e del Folding per l'ordinamento dei dati ottiene il miglioramento più significativo. Infine, l'efficacia dei dati può essere raggiunta insieme all'efficienza dei dati applicando la selezione dei dati. Pertanto, riteniamo che l'efficacia dei dati sia un'area promettente e fondamentale nell'addestramento dei LM.
I recenti progressi nei modelli di generazione video hanno reso possibile la creazione di video brevi di alta qualità a partire da prompt testuali. Tuttavia, estendere questi modelli a video più lunghi rimane una sfida significativa, principalmente a causa del degrado della coerenza temporale e della fedeltà visiva. Le nostre osservazioni preliminari mostrano che applicare in modo ingenuo i modelli di generazione di video brevi a sequenze più lunghe porta a un evidente deterioramento della qualità. Un'analisi più approfondita identifica una tendenza sistematica in cui le componenti ad alta frequenza diventano sempre più distorte con l'aumentare della lunghezza del video, un problema che definiamo distorsione ad alta frequenza. Per affrontare questo problema, proponiamo FreeLong, un framework senza necessità di addestramento progettato per bilanciare la distribuzione delle frequenze delle caratteristiche dei video lunghi durante il processo di denoising. FreeLong raggiunge questo obiettivo fondendo caratteristiche globali a bassa frequenza, che catturano la semantica complessiva dell'intero video, con caratteristiche locali ad alta frequenza estratte da finestre temporali brevi per preservare i dettagli fini. Su questa base, FreeLong++ estende il design a doppio ramo di FreeLong in un'architettura multi-ramo con più rami di attenzione, ciascuno operante su una scala temporale distinta. Disponendo più dimensioni di finestre da globale a locale, FreeLong++ consente la fusione multi-banda delle frequenze da basse ad alte, garantendo sia la continuità semantica che la dinamica del movimento a livello di dettaglio attraverso sequenze video più lunghe. Senza alcun addestramento aggiuntivo, FreeLong++ può essere integrato in modelli esistenti di generazione video (ad esempio, Wan2.1 e LTX-Video) per produrre video più lunghi con una coerenza temporale e una fedeltà visiva sostanzialmente migliorate. Dimostriamo che il nostro approccio supera i metodi precedenti nei compiti di generazione di video più lunghi (ad esempio, 4x e 8x della lunghezza nativa). Supporta inoltre la generazione coerente di video multi-prompt con transizioni di scena fluide e abilita la generazione controllata di video utilizzando sequenze lunghe di profondità o pose.
I modelli visione-linguaggio (VLMs) eccellono nei compiti descrittivi, ma rimane incerto se comprendano veramente le scene dalle osservazioni visive. Introduciamo IR3D-Bench, un benchmark che sfida i VLMs a dimostrare comprensione attraverso la creazione attiva piuttosto che il riconoscimento passivo. Basato sul paradigma dell'analisi-per-sintesi, IR3D-Bench assegna agli Agenti Visione-Linguaggio (VLAs) il compito di utilizzare attivamente strumenti di programmazione e rendering per ricreare la struttura 3D sottostante di un'immagine di input, raggiungendo il rendering inverso agentico attraverso l'uso di strumenti. Questo approccio "comprendere-creando" esplora la capacità generativa degli VLAs nell'uso di strumenti, andando oltre la capacità descrittiva o conversazionale misurata dai tradizionali benchmark di comprensione delle scene. Forniamo una suite completa di metriche per valutare l'accuratezza geometrica, le relazioni spaziali, gli attributi di aspetto e la plausibilità complessiva. Gli esperimenti iniziali sul rendering inverso agentico supportato da vari VLMs all'avanguardia evidenziano le attuali limitazioni, in particolare nella precisione visiva piuttosto che nell'uso di base degli strumenti. IR3D-Bench, inclusi dati e protocolli di valutazione, viene rilasciato per facilitare lo studio sistematico e lo sviluppo di VLAs che utilizzano strumenti verso una genuina comprensione delle scene attraverso la creazione.
Un rapporto dell'Agenzia per l'Applicazione della Legge dell'Unione Europea prevede che entro il 2026 fino al 90% dei contenuti online potrebbe essere generato sinteticamente, sollevando preoccupazioni tra i decisori politici, i quali hanno avvertito che "l'IA generativa potrebbe agire come un moltiplicatore di forza per la disinformazione politica. L'effetto combinato di testo, immagini, video e audio generati potrebbe superare l'influenza di qualsiasi singola modalità." In risposta, il disegno di legge AB 3211 della California impone la marcatura con filigrana di immagini, video e audio generati dall'IA. Tuttavia, permangono preoccupazioni riguardo alla vulnerabilità delle tecniche di filigrana invisibile alla manipolazione e alla possibilità che attori malintenzionati le aggirino completamente. Gli attacchi di rimozione della filigrana basati sull'IA generativa, in particolare il nuovo attacco di parafrasi visiva, hanno dimostrato la capacità di rimuovere completamente le filigrane, producendo una parafrasi dell'immagine originale. Questo articolo introduce PECCAVI, la prima tecnica di filigrana per immagini sicura contro gli attacchi di parafrasi visiva e priva di distorsioni. Negli attacchi di parafrasi visiva, un'immagine viene alterata preservando le sue regioni semantiche centrali, denominate Punti Non Fusibili (NMP). PECCAVI incorpora strategicamente le filigrane all'interno di questi NMP e utilizza la filigrana nel dominio della frequenza multi-canale. Inoltre, incorpora la brunitura rumorosa per contrastare gli sforzi di reverse engineering mirati a individuare gli NMP per interrompere la filigrana incorporata, migliorando così la durata. PECCAVI è indipendente dal modello. Tutte le risorse e i codici rilevanti saranno resi open-source.
I grandi modelli linguistici (LLM) eccellono in compiti complessi grazie a tecniche avanzate di prompting come la Catena del Pensiero (Chain-of-Thought, CoT) e l'Albero del Pensiero (Tree-of-Thought, ToT), ma la loro dipendenza da prompt specifici per ogni task, creati manualmente, limita adattabilità ed efficienza. Introduciamo il Mixture of Reasoning (MoR), un framework di addestramento che incorpora strategie di ragionamento diversificate nei LLM per un ragionamento autonomo e adattivo ai task, senza la necessità di ingegnerizzazione esterna dei prompt. MoR si articola in due fasi: Generazione del Pensiero, che crea modelli di catene di ragionamento con modelli come GPT-4o, e Costruzione del Dataset SFT, che abbina tali modelli a dataset di benchmark per il fine-tuning supervisionato. I nostri esperimenti dimostrano che MoR migliora significativamente le prestazioni, con MoR150 che raggiunge 0.730 (un miglioramento del 2.2%) utilizzando il prompting CoT e 0.734 (un miglioramento del 13.5%) rispetto ai baseline. MoR elimina la necessità di prompt specifici per ogni task, offrendo una soluzione generalizzabile per un ragionamento robusto su una vasta gamma di compiti.
Il 3D Gaussian Splatting consente un rendering in tempo reale di alta qualità, ma spesso produce milioni di splat, risultando in un eccessivo sovraccarico di archiviazione e computazione. Proponiamo un nuovo metodo di compressione lossy basato su punteggi di confidenza apprendibili modellati come distribuzioni Beta. La confidenza di ciascuno splat viene ottimizzata attraverso perdite consapevoli della ricostruzione, permettendo l'eliminazione degli splat a bassa confidenza preservando la fedeltà visiva. L'approccio proposto è indipendente dall'architettura e può essere applicato a qualsiasi variante del Gaussian Splatting. Inoltre, i valori medi di confidenza fungono da nuova metrica per valutare la qualità della scena. Esperimenti estensivi dimostrano compromessi favorevoli tra compressione e fedeltà rispetto ai lavori precedenti. Il nostro codice e i dati sono pubblicamente disponibili su https://github.com/amirhossein-razlighi/Confident-Splatting.
Una modellazione accurata dei materiali è cruciale per ottenere rendering fotorealistici, colmando il divario tra immagini generate al computer e fotografie del mondo reale. Mentre gli approcci tradizionali si basano su dati BRDF tabulati, i lavori recenti si sono orientati verso rappresentazioni neurali implicite, che offrono framework compatti e flessibili per una gamma di attività. Tuttavia, il loro comportamento nel dominio della frequenza rimane poco compreso. Per affrontare questo problema, introduciamo FreNBRDF, una rappresentazione neurale dei materiali con rettifica in frequenza. Sfruttando le armoniche sferiche, integriamo considerazioni nel dominio della frequenza nella modellazione neurale BRDF. Proponiamo una nuova funzione di perdita con rettifica in frequenza, derivata da un'analisi in frequenza dei materiali neurali, e la incorporiamo in una pipeline generalizzabile e adattabile per la ricostruzione e la modifica. Questo framework migliora fedeltà, adattabilità ed efficienza. Esperimenti estensivi dimostrano che \ours migliora l'accuratezza e la robustezza nella ricostruzione e modifica dell'aspetto dei materiali rispetto ai migliori metodi esistenti, abilitando attività e applicazioni downstream più strutturate e interpretabili.
Presentiamo Ella, un agente sociale incarnato capace di apprendimento continuo all'interno di una comunità in un mondo aperto 3D, dove gli agenti accumulano esperienze e acquisiscono conoscenza attraverso osservazioni visive quotidiane e interazioni sociali. Al centro delle capacità di Ella si trova un sistema di memoria multimodale strutturato e a lungo termine che archivia, aggiorna e recupera informazioni in modo efficace. Esso è composto da una memoria semantica centrata sui nomi per organizzare le conoscenze acquisite e da una memoria episodica spaziotemporale per catturare esperienze multimodali. Integrando questo sistema di memoria continua con modelli di base, Ella recupera informazioni rilevanti per il processo decisionale, pianifica attività quotidiane, costruisce relazioni sociali e si evolve autonomamente mentre coesiste con altri esseri intelligenti nel mondo aperto. Abbiamo condotto valutazioni orientate alle capacità in un mondo aperto 3D dinamico, dove 15 agenti si impegnano in attività sociali per giorni e vengono valutati con una serie di test controllati non visti in precedenza. I risultati sperimentali dimostrano che Ella può influenzare, guidare e cooperare efficacemente con altri agenti per raggiungere obiettivi, mostrando la sua capacità di apprendere in modo efficace attraverso l'osservazione e l'interazione sociale. Le nostre scoperte evidenziano il potenziale trasformativo della combinazione di sistemi di memoria strutturati con modelli di base per far progredire l'intelligenza incarnata. Ulteriori video sono disponibili al seguente link: https://umass-embodied-agi.github.io/Ella/.