Articoli di ricerca IA selezionati quotidianamente con traduzioni
Mentre gli agenti linguistici affrontano compiti sempre più complessi, incontrano difficoltà nella correzione efficace degli errori e nel riutilizzo delle esperienze tra diversi domini. Introduciamo Agent KB, un framework gerarchico per l'esperienza che abilita la risoluzione complessa di problemi agentici attraverso una nuova pipeline Reason-Retrieve-Refine. Agent KB affronta una limitazione fondamentale: tradizionalmente, gli agenti non possono apprendere dalle esperienze reciproche. Catturando sia strategie di alto livello che log dettagliati di esecuzione, Agent KB crea una base di conoscenza condivisa che consente il trasferimento di conoscenze tra agenti. Valutato sul benchmark GAIA, Agent KB migliora i tassi di successo fino a 16,28 punti percentuali. Nei compiti più impegnativi, Claude-3 passa dal 38,46% al 57,69%, mentre GPT-4 migliora dal 53,49% al 73,26% nei compiti intermedi. Nella riparazione del codice SWE-bench, Agent KB consente a Claude-3 di passare dal 41,33% al 53,33%. I nostri risultati suggeriscono che Agent KB fornisce un'infrastruttura modulare e indipendente dal framework, che consente agli agenti di apprendere dalle esperienze passate e generalizzare strategie di successo per nuovi compiti.
I Large Language Model (LLM) sono diventati un'infrastruttura essenziale per l'Intelligenza Artificiale Generale (AGI), tuttavia la mancanza di sistemi di gestione della memoria ben definiti ostacola lo sviluppo del ragionamento a lungo contesto, della personalizzazione continua e della coerenza delle conoscenze. I modelli esistenti si basano principalmente su parametri statici e stati contestuali di breve durata, limitando la loro capacità di tracciare le preferenze degli utenti o aggiornare le conoscenze su periodi prolungati. Sebbene la Generazione Aumentata dal Recupero (RAG) introduca conoscenze esterne in testo semplice, rimane una soluzione temporanea senza stato, priva di controllo del ciclo di vita o integrazione con rappresentazioni persistenti. Recenti lavori hanno modellato il costo di addestramento e inferenza degli LLM da una prospettiva gerarchica della memoria, dimostrando che l'introduzione di un livello di memoria esplicito tra la memoria dei parametri e il recupero esterno può ridurre sostanzialmente questi costi esternalizzando conoscenze specifiche. Oltre all'efficienza computazionale, gli LLM affrontano sfide più ampie derivanti dalla distribuzione delle informazioni nel tempo e nel contesto, richiedendo sistemi in grado di gestire conoscenze eterogenee che abbracciano diverse scale temporali e fonti. Per affrontare questa sfida, proponiamo MemOS, un sistema operativo della memoria che tratta la memoria come una risorsa di sistema gestibile. Esso unifica la rappresentazione, la pianificazione e l'evoluzione di memorie in testo semplice, basate sull'attivazione e a livello di parametri, consentendo uno stoccaggio e un recupero efficienti in termini di costi. Come unità di base, un MemCube incapsula sia il contenuto della memoria che i metadati come la provenienza e il versionamento. I MemCube possono essere composti, migrati e fusi nel tempo, consentendo transizioni flessibili tra tipi di memoria e collegando il recupero con l'apprendimento basato su parametri. MemOS stabilisce un framework di sistema centrato sulla memoria che porta controllabilità, plasticità e evolvibilità agli LLM, gettando le basi per l'apprendimento continuo e la modellazione personalizzata.
L'apprendimento di rappresentazioni testuali di alta qualità è fondamentale per un'ampia gamma di attività di NLP. Sebbene il pre-addestramento degli encoder si sia tradizionalmente basato sul Masked Language Modeling (MLM), recenti evidenze suggeriscono che i modelli decoder pre-addestrati con Causal Language Modeling (CLM) possono essere efficacemente riutilizzati come encoder, spesso superando gli encoder tradizionali nei benchmark di rappresentazione testuale. Tuttavia, non è chiaro se questi miglioramenti riflettano un vantaggio intrinseco dell'obiettivo CLM o derivino da fattori confondenti come la scala del modello e dei dati. In questo articolo, affrontiamo questa questione attraverso una serie di ablazioni di pre-addestramento su larga scala e accuratamente controllate, addestrando un totale di 30 modelli che vanno da 210 milioni a 1 miliardo di parametri, e conducendo oltre 15.000 esecuzioni di fine-tuning e valutazione. Scopriamo che, sebbene l'addestramento con MLM generalmente produca prestazioni migliori nelle attività di rappresentazione testuale, i modelli addestrati con CLM sono più efficienti in termini di dati e dimostrano una maggiore stabilità nel fine-tuning. Basandoci su questi risultati, mostriamo sperimentalmente che una strategia di addestramento bifasica che applica sequenzialmente CLM e poi MLM, raggiunge prestazioni ottimali con un budget computazionale di addestramento fisso. Inoltre, dimostriamo che questa strategia diventa più vantaggiosa quando si inizializza da modelli CLM pre-addestrati già disponibili (dall'ecosistema esistente di LLM), riducendo il carico computazionale necessario per addestrare modelli encoder di prima classe. Rilasciamo tutti gli artefatti del progetto su https://hf.co/MLMvsCLM per favorire ulteriori ricerche.
I recenti progressi nei modelli visione-linguaggio-azione (VLA) hanno mostrato promettenti risultati nell'integrazione della generazione di immagini con la previsione delle azioni, migliorando la generalizzazione e il ragionamento nella manipolazione robotica. Tuttavia, i metodi esistenti si limitano a previsioni basate su immagini, che soffrono di informazioni ridondanti e mancano di una conoscenza del mondo completa e critica, includendo informazioni dinamiche, spaziali e semantiche. Per affrontare queste limitazioni, proponiamo DreamVLA, un nuovo framework VLA che integra una previsione completa della conoscenza del mondo per abilitare la modellazione della dinamica inversa, stabilendo così un ciclo percezione-predizione-azione per i compiti di manipolazione. Nello specifico, DreamVLA introduce una previsione della conoscenza del mondo guidata da regioni dinamiche, integrata con indizi spaziali e semantici, che forniscono rappresentazioni compatte ma complete per la pianificazione delle azioni. Questo design si allinea con il modo in cui gli esseri umani interagiscono con il mondo, formando prima catene di ragionamento multimodali astratte prima di agire. Per mitigare l'interferenza tra le informazioni dinamiche, spaziali e semantiche durante l'addestramento, adottiamo un meccanismo di attenzione strutturato a blocchi che maschera la loro attenzione reciproca, prevenendo la fuoriuscita di informazioni e mantenendo ciascuna rappresentazione pulita e disaccoppiata. Inoltre, per modellare la distribuzione condizionale sulle azioni future, utilizziamo un transformer basato su diffusione che disaccoppia le rappresentazioni delle azioni dalle caratteristiche latenti condivise. Esperimenti estensivi sia in ambienti reali che di simulazione dimostrano che DreamVLA raggiunge un tasso di successo del 76.7% nei compiti robotici reali e una lunghezza media di 4.44 sui benchmark CALVIN ABC-D.
La ricostruzione di scene a dinamica rapida da video multi-vista è cruciale per l'analisi del movimento ad alta velocità e la ricostruzione realistica 4D. Tuttavia, la maggior parte dei sistemi di acquisizione 4D è limitata a frame rate inferiori a 30 FPS (fotogrammi al secondo), e una ricostruzione 4D diretta di movimenti ad alta velocità da input a basso FPS può portare a risultati indesiderati. In questo lavoro, proponiamo un sistema di acquisizione 4D ad alta velocità che utilizza solo telecamere a basso FPS, attraverso moduli innovativi di acquisizione e elaborazione. Sul lato dell'acquisizione, proponiamo uno schema di acquisizione asincrona che aumenta il frame rate effettivo sfalsando i tempi di inizio delle telecamere. Raggruppando le telecamere e sfruttando un frame rate base di 25 FPS, il nostro metodo raggiunge un frame rate equivalente di 100-200 FPS senza richiedere telecamere specializzate ad alta velocità. Sul lato dell'elaborazione, proponiamo anche un nuovo modello generativo per correggere gli artefatti causati dalla ricostruzione 4D a vista sparsa, poiché l'asincronia riduce il numero di punti di vista in ciascun istante temporale. Nello specifico, proponiamo di addestrare un modello basato su video-diffusion per la correzione degli artefatti nella ricostruzione 4D sparsa, che affina i dettagli mancanti, mantiene la coerenza temporale e migliora la qualità complessiva della ricostruzione. I risultati sperimentali dimostrano che il nostro metodo migliora significativamente la ricostruzione 4D ad alta velocità rispetto all'acquisizione sincrona.
Offriamo una nuova prospettiva sulla modellazione delle ricompense formulandola come un discriminatore di politiche, che quantifica la differenza tra due politiche per generare un segnale di ricompensa, guidando la politica di addestramento verso una politica target con comportamenti desiderati. Basandoci su questa intuizione concettuale, proponiamo un metodo scalabile di pre-addestramento denominato Policy Discriminative Learning (POLAR), che addestra un modello di ricompensa (RM) a discernere politiche identiche e discriminare quelle diverse. A differenza dei tradizionali metodi di modellazione delle ricompense che si basano su preferenze assolute, POLAR cattura la differenza relativa tra una politica e una politica target arbitraria, rappresentando un obiettivo di ottimizzazione scalabile e di alto livello adatto per modellare relazioni di ranking generiche. Sfruttando il paradigma di pre-addestramento POLAR, presentiamo una serie di RM con scale di parametri da 1,8B a 7B. I risultati empirici dimostrano che POLAR supera sostanzialmente i metodi tradizionali non pre-addestrati, migliorando significativamente le prestazioni degli RM. Ad esempio, POLAR-7B potrebbe migliorare l'accuratezza delle preferenze dal 54,8% all'81,0% nei compiti STEM e dal 57,9% all'85,5% nei compiti di scrittura creativa rispetto ai baseline SOTA. POLAR mostra anche robuste capacità di generalizzazione nell'RLHF utilizzando il Reinforcement Fine-tuning (RFT), fornendo segnali di ricompensa affidabili e migliorando notevolmente le prestazioni delle politiche—migliorando LLaMa3.1-8B da una media del 47,36% al 56,33% e Qwen2.5-32B dal 64,49% al 70,47% su 20 benchmark. Inoltre, esperimenti di scalabilità rivelano una chiara relazione di legge di potenza tra calcolo e prestazioni, supportata da coefficienti di correlazione lineare che si avvicinano a 0,99. Le prestazioni impressionanti, la forte generalizzazione e le proprietà di scalabilità suggeriscono che POLAR rappresenta una direzione promettente per lo sviluppo di modelli di ricompensa generali e robusti.
I grandi modelli linguistici (LLM) hanno dimostrato prestazioni impressionanti in compiti di carattere generale, ma adattarli a domini specifici rimane una sfida a causa della scarsità di dati di alta qualità relativi al dominio. Gli strumenti esistenti per la sintesi dei dati spesso faticano a estrarre in modo efficace dati affidabili per il fine-tuning da documenti eterogenei. Per affrontare questa limitazione, proponiamo Easy Dataset, un framework unificato per sintetizzare dati di fine-tuning da documenti non strutturati attraverso un'interfaccia grafica intuitiva (GUI). Nello specifico, Easy Dataset consente agli utenti di configurare facilmente modelli di estrazione del testo e strategie di suddivisione per trasformare documenti grezzi in frammenti di testo coerenti. Successivamente, sfrutta un approccio basato su prompt guidati da personaggi per generare coppie domanda-risposta diverse utilizzando LLM disponibili pubblicamente. Durante l'intero processo, un'interfaccia visiva con un umano nel ciclo facilita la revisione e il perfezionamento degli output intermedi per garantire la qualità dei dati. Esperimenti su un'attività di risposta alle domande finanziarie dimostrano che il fine-tuning dei LLM sul dataset sintetizzato migliora significativamente le prestazioni specifiche del dominio preservando al contempo la conoscenza generale. Il codice sorgente e il pacchetto installabile sono disponibili all'indirizzo https://github.com/ConardLi/easy-dataset e hanno ottenuto oltre 9.000 stelle su GitHub.
Presentiamo RoboBrain 2.0, la nostra ultima generazione di modelli fondazionali visione-linguaggio incarnati, progettati per unificare percezione, ragionamento e pianificazione per compiti complessi in ambienti fisici. È disponibile in due varianti: un modello leggero da 7B e un modello completo da 32B, caratterizzato da un'architettura eterogenea con un encoder visivo e un modello linguistico. Nonostante le dimensioni compatte, RoboBrain 2.0 raggiunge prestazioni solide in un'ampia gamma di compiti di ragionamento incarnato. Su benchmark sia spaziali che temporali, la variante da 32B ottiene risultati leader, superando modelli open-source e proprietari precedenti. In particolare, supporta capacità chiave dell'AI incarnata nel mondo reale, tra cui comprensione spaziale (ad esempio, previsione di affordance, riferimento spaziale, previsione di traiettorie) e decision-making temporale (ad esempio, interazione a ciclo chiuso, pianificazione a lungo termine multi-agente e aggiornamento di grafi di scena). Questo rapporto dettaglia l'architettura del modello, la costruzione dei dati, le strategie di addestramento multi-stadio, l'infrastruttura e le applicazioni pratiche. Speriamo che RoboBrain 2.0 avanzi la ricerca sull'AI incarnata e rappresenti un passo pratico verso la costruzione di agenti incarnati generalisti. Il codice, il checkpoint e i benchmark sono disponibili su https://superrobobrain.github.io.
Recentemente, sono stati compiuti notevoli progressi nella generazione di video da testo (T2V) grazie al ridimensionamento di modelli di diffusione basati su transformer a miliardi di parametri, in grado di produrre video di alta qualità. Tuttavia, i modelli esistenti generano tipicamente solo brevi clip offline, limitando il loro utilizzo in applicazioni interattive e in tempo reale. Questo articolo affronta queste sfide proponendo StreamDiT, un modello di generazione di video in streaming. L'addestramento di StreamDiT si basa sul flow matching con l'aggiunta di un buffer in movimento. Progettiamo un addestramento misto con diversi schemi di partizionamento dei frame bufferizzati per migliorare sia la coerenza del contenuto che la qualità visiva. La modellazione di StreamDiT si basa su adaLN DiT con incorporamento temporale variabile e attenzione a finestra. Per mettere in pratica il metodo proposto, addestriamo un modello StreamDiT con 4 miliardi di parametri. Inoltre, proponiamo un metodo di distillazione multistep specifico per StreamDiT. La distillazione del campionamento viene eseguita in ogni segmento di uno schema di partizionamento scelto. Dopo la distillazione, il numero totale di valutazioni di funzione (NFE) viene ridotto al numero di blocchi in un buffer. Infine, il nostro modello distillato raggiunge prestazioni in tempo reale a 16 FPS su una GPU, generando flussi video a risoluzione 512p. Valutiamo il nostro metodo sia attraverso metriche quantitative che valutazioni umane. Il nostro modello abilita applicazioni in tempo reale, come la generazione in streaming, la generazione interattiva e il video-to-video. Forniamo risultati video e ulteriori esempi sul sito web del nostro progetto: <a href="https://cumulo-autumn.github.io/StreamDiT/">questo URL https.</a>
In questo articolo presentiamo BMMR, un dataset su larga scala bilingue, multimodale e multidisciplinare per il ragionamento, destinato alla comunità per sviluppare e valutare modelli multimodali di grandi dimensioni (LMM). BMMR comprende 110k domande di livello universitario che coprono 300 materie definite dall'UNESCO, con formati diversificati—scelta multipla, completamento e domande aperte—e provenienti sia da fonti cartacee che digitali come libri, esami e quiz. Tutti i dati sono curati e filtrati attraverso un framework scalabile con un approccio human-in-the-loop, e ogni istanza è associata a un percorso di ragionamento di alta qualità. Il dataset è organizzato in due parti: BMMR-Eval, che comprende 20.458 istanze di alta qualità per valutare in modo completo le conoscenze e il ragionamento degli LMM in diverse discipline sia in cinese che in inglese; e BMMR-Train, che contiene 88.991 istanze per supportare ulteriori ricerche e sviluppi, estendendo l'attuale focus sul ragionamento matematico a discipline e domini diversificati. Inoltre, proponiamo il verificatore multidisciplinare basato sul processo (cioè BMMR-Verifier) per una valutazione accurata e granulare dei percorsi di ragionamento. Esperimenti estesi su 24 modelli rivelano che (i) anche i modelli all'avanguardia (ad esempio, o3 e Gemini-2.5-Pro) lasciano un margine significativo su BMMR-Eval; (ii) i modelli di ragionamento mostrano un bias disciplinare e superano gli LMM solo su materie specifiche; (iii) i modelli open-source sono ancora indietro rispetto alle loro controparti proprietarie; e (iv) il fine-tuning su BMMR-Train riduce questo divario. Inoltre, conduciamo analisi delle catene di ragionamento utilizzando BMMR-Verifier e altri studi approfonditi, evidenziando le sfide che gli LMM affrontano attualmente nel ragionamento multidisciplinare. Rilasceremo i dati e speriamo che il nostro lavoro possa offrire spunti e contributi alla comunità.
Le capacità fondamentali dei grandi modelli linguistici (LLM) sono profondamente influenzate dalla qualità dei loro corpora di pre-addestramento. Tuttavia, migliorare la qualità dei dati su larga scala rimane una sfida significativa, principalmente a causa del compromesso tra efficacia di raffinamento ed efficienza di elaborazione. Sebbene il filtraggio basato su regole rimanga il paradigma dominante, opera tipicamente a livello di documento e manca della granularità necessaria per affinare contenuti specifici all'interno dei documenti. Ispirati da lavori emergenti come ProX, proponiamo RefineX, un nuovo framework per il raffinamento chirurgico su larga scala dei dati di pre-addestramento attraverso task di editing programmatico. RefineX consente un raffinamento dei dati efficiente e granulare, preservando in modo affidabile la diversità e la naturalezza del testo grezzo. La forza principale di RefineX risiede nel distillare risultati di raffinamento end-to-end di alta qualità e guidati da esperti in programmi di cancellazione basati su modifiche minime. Questa pipeline di distillazione ad alta precisione viene utilizzata per addestrare un modello di raffinamento efficiente e affidabile che può migliorare sistematicamente ogni istanza del corpus su larga scala. Valutiamo RefineX attraverso il pre-addestramento da zero su più scale di modelli e riscontriamo che supera costantemente i modelli addestrati su dati grezzi, filtrati o alternativamente raffinati in una vasta gamma di task downstream. Sul modello da 750M, RefineX produce guadagni medi del 2,6%-7,2% sui task lighteval e raggiunge prestazioni comparabili utilizzando significativamente meno token di addestramento. Un'ulteriore analisi mostra che RefineX migliora in modo affidabile la qualità del testo con alta efficienza e precisione, superando approcci precedenti come la generazione end-to-end e Prox-C. Questi risultati posizionano RefineX come una soluzione scalabile, efficace e affidabile per ottimizzare i dati di pre-addestramento nelle pipeline moderne di LLM.
I modelli di embedding multimodali sono stati cruciali per abilitare varie attività downstream come la similarità semantica, il recupero delle informazioni e il clustering su diverse modalità. Tuttavia, gli embedding multimodali esistenti come VLM2Vec, E5-V e GME si concentrano principalmente su immagini naturali, con un supporto limitato per altre forme visive come video e documenti visivi. Ciò ne limita l'applicabilità in scenari reali, inclusi agenti AI, ricerca e raccomandazione multimodale, e generazione aumentata dal recupero (RAG). Per colmare questa lacuna, proponiamo VLM2Vec-V2, un framework unificato per l'apprendimento di embedding su diverse forme visive. In primo luogo, introduciamo MMEB-V2, un benchmark completo che estende MMEB con cinque nuovi tipi di attività: recupero di documenti visivi, recupero di video, grounding temporale, classificazione di video e risposta a domande su video, che coprono input di testo, immagini, video e documenti visivi. Successivamente, addestriamo VLM2Vec-V2, un modello di embedding generico che supporta input di testo, immagini, video e documenti visivi. Esperimenti estensivi dimostrano che VLM2Vec-V2 ottiene prestazioni solide non solo sulle nuove attività di recupero di video e documenti, ma migliora anche rispetto ai precedenti benchmark sulle immagini originali. Attraverso una valutazione approfondita, il nostro studio offre approfondimenti sulla generalizzabilità di vari modelli di embedding multimodali e mette in luce strategie efficaci per l'apprendimento unificato di embedding, gettando le basi per un apprendimento delle rappresentazioni più scalabile e adattabile sia in ambito di ricerca che in contesti reali.
Studiamo se i modelli di embedding visivi catturino attributi continui e ordinali lungo direzioni lineari, che definiamo _assi di rango_. Definiamo un modello come _rankabile_ per un attributo se la proiezione degli embedding su tale asse preserva l'ordine dell'attributo. Attraverso 7 encoder popolari e 9 dataset con attributi come età, numero di persone, orientamento della testa, estetica e recentezza, scopriamo che molti embedding sono intrinsecamente rankabili. Sorprendentemente, un piccolo numero di campioni, o anche solo due esempi estremi, spesso sono sufficienti per recuperare assi di rango significativi, senza una supervisione su larga scala. Questi risultati aprono nuovi casi d'uso per il ranking di immagini nei database vettoriali e motivano ulteriori studi sulla struttura e l'apprendimento di embedding rankabili. Il nostro codice è disponibile all'indirizzo https://github.com/aktsonthalia/rankable-vision-embeddings.
La decodifica speculativa generalmente richiede l'utilizzo di un modello draft piccolo ed efficiente che sia pre-addestrato o distillato offline per una specifica serie di modelli target, ad esempio i modelli Llama o Qwen. Tuttavia, negli ambienti di deployment online, ci sono due principali sfide: 1) l'uso di un modello target incompatibile con il modello draft; 2) l'aspettativa di miglioramenti nella latenza nel tempo e durante l'uso. In questo lavoro, proponiamo OmniDraft, un framework unificato che consente a un singolo modello draft di operare con qualsiasi modello target e di adattarsi dinamicamente ai dati dell'utente. Introduciamo una cache n-gram online con fine-tuning di distillazione ibrida per affrontare il disallineamento del vocabolario tra i modelli draft e target; e miglioriamo ulteriormente la velocità di decodifica sfruttando tecniche di drafting adattivo. OmniDraft è particolarmente adatto per applicazioni LLM su dispositivo in cui il costo del modello, l'efficienza e la personalizzazione dell'utente sono i principali punti di contesa. Ciò evidenzia ulteriormente la necessità di affrontare le sfide sopra menzionate e motiva il paradigma "un draft per tutti". Dimostriamo la competenza del framework OmniDraft eseguendo apprendimento online su compiti di ragionamento matematico, codifica e generazione di testo. In particolare, OmniDraft consente a un singolo modello Llama-68M di accoppiarsi con vari modelli target, inclusi Vicuna-7B, Qwen2-7B e Llama3-8B, per la decodifica speculativa; e fornisce inoltre un aumento di velocità fino a 1,5-2x.
I documenti storici rappresentano un patrimonio culturale inestimabile, ma hanno subito un significativo degrado nel tempo a causa di strappi, erosione idrica e ossidazione. I metodi esistenti per il Restauro di Documenti Storici (HDR) si concentrano principalmente su una singola modalità o su un restauro di dimensioni limitate, non riuscendo a soddisfare le esigenze pratiche. Per colmare questa lacuna, presentiamo un dataset HDR a pagina intera (FPHDR) e una nuova soluzione automatizzata per l'HDR (AutoHDR). Nello specifico, FPHDR comprende 1.633 immagini reali e 6.543 immagini sintetiche con localizzazioni a livello di carattere e di riga, nonché annotazioni di caratteri in diversi gradi di danneggiamento. AutoHDR imita i flussi di lavoro di restauro degli storici attraverso un approccio in tre fasi: localizzazione del danno assistita da OCR, previsione del contesto testo-immagine e restauro autoregressivo dell'aspetto a livello di patch. L'architettura modulare di AutoHDR consente una collaborazione uomo-macchina senza soluzione di continuità, permettendo un intervento e un'ottimizzazione flessibili in ogni fase del restauro. Gli esperimenti dimostrano le prestazioni eccezionali di AutoHDR nell'HDR. Quando si elaborano documenti gravemente danneggiati, il nostro metodo migliora l'accuratezza dell'OCR dal 46,83\% all'84,05\%, con un ulteriore incremento al 94,25\% attraverso la collaborazione uomo-macchina. Crediamo che questo lavoro rappresenti un significativo progresso nel restauro automatizzato di documenti storici e contribuisca sostanzialmente alla preservazione del patrimonio culturale. Il modello e il dataset sono disponibili all'indirizzo https://github.com/SCUT-DLVCLab/AutoHDR.
I metodi di segmentazione basati su Neural Radiance Field (NeRF) si concentrano sulla semantica degli oggetti e si affidano esclusivamente ai dati RGB, mancando di proprietà intrinseche dei materiali. Questa limitazione ostacola una percezione accurata dei materiali, che è cruciale per la robotica, la realtà aumentata, la simulazione e altre applicazioni. Introduciamo UnMix-NeRF, un framework che integra lo scomposizione spettrale nel NeRF, consentendo la sintesi di nuove viste iperspettrali congiunta e la segmentazione non supervisionata dei materiali. Il nostro metodo modella la riflettanza spettrale attraverso componenti diffuse e speculari, dove un dizionario appreso di endmember globali rappresenta le firme pure dei materiali, e le abbondanze per punto catturano la loro distribuzione. Per la segmentazione dei materiali, utilizziamo previsioni di firme spettrali lungo gli endmember appresi, consentendo il clustering non supervisionato dei materiali. Inoltre, UnMix-NeRF consente la modifica della scena alterando i dizionari di endmember appresi per una manipolazione flessibile dell'aspetto basata sui materiali. Esperimenti estensivi convalidano il nostro approccio, dimostrando una ricostruzione spettrale e una segmentazione dei materiali superiori rispetto ai metodi esistenti. Pagina del progetto: https://www.factral.co/UnMix-NeRF.
I recenti benchmark per gli agenti di Large Language Model (LLM) si concentrano principalmente sulla valutazione delle capacità di ragionamento, pianificazione ed esecuzione, mentre un altro componente critico - la memoria, che comprende come gli agenti memorizzano, aggiornano e recuperano informazioni a lungo termine - è sottovalutato a causa della mancanza di benchmark. Definiamo gli agenti con meccanismi di memoria come agenti di memoria. In questo articolo, identifichiamo quattro competenze fondamentali essenziali per gli agenti di memoria: recupero accurato, apprendimento al momento del test, comprensione a lungo raggio e risoluzione dei conflitti. I dataset esistenti si basano su lunghezze di contesto limitate o sono progettati per contesti statici e lunghi come il QA basato su libri, che non riflettono la natura interattiva e multi-turn degli agenti di memoria che accumulano informazioni in modo incrementale. Inoltre, nessun benchmark esistente copre tutte e quattro le competenze. Pertanto, introduciamo MemoryAgentBench, un nuovo benchmark specificamente progettato per gli agenti di memoria. Il nostro benchmark combina dataset esistenti riformulati con nuovi dataset costruiti appositamente, coprendo le quattro competenze di memoria sopra menzionate, fornendo un banco di prova sistematico e impegnativo per valutare la qualità della memoria. Valutiamo una gamma diversificata di agenti di memoria, che vanno da semplici sistemi basati su contesto e generazione aumentata dal recupero (RAG) ad agenti avanzati con moduli di memoria esterni e integrazione di strumenti. I risultati empirici rivelano che i metodi attuali non riescono a padroneggiare tutte e quattro le competenze, sottolineando la necessità di ulteriori ricerche su meccanismi di memoria completi per gli agenti LLM.
Le capacità generative dei Large Language Models (LLM) si stanno rapidamente espandendo da codice statico a manufatti visivi dinamici e interattivi. Questo progresso è ostacolato da un gap critico di valutazione: i benchmark consolidati si concentrano sulla correttezza algoritmica e sono ciechi rispetto alla fedeltà visiva e all'integrità interattiva che definiscono le esperienze utente moderne. Per colmare questa lacuna, introduciamo ArtifactsBench, un nuovo benchmark e paradigma per la valutazione automatizzata e multimodale della generazione di codice visivo. Il nostro framework rende programmaticamente ogni manufatto generato e ne cattura il comportamento dinamico attraverso screenshot temporali. Questa evidenza visiva, insieme al codice sorgente, viene poi valutata da un Multimodal LLM (MLLM)-as-Judge, rigorosamente guidato da una checklist dettagliata per task, per garantire una valutazione olistica e riproducibile. Costruiamo un nuovo benchmark di 1.825 task diversificati e valutiamo oltre 30 LLM leader. La nostra valutazione automatizzata raggiunge un impressionante 94,4% di coerenza di ranking con WebDev Arena, lo standard di riferimento per le preferenze umane nello sviluppo web, e oltre il 90% di accordo pairwise con esperti umani. Questo stabilisce ArtifactsBench come il primo framework in grado di automatizzare in modo affidabile la valutazione della qualità percepita dall'uomo su larga scala. La nostra analisi fornisce una mappa ad alta risoluzione dello stato dell'arte attuale, rivelando che i modelli generalisti spesso superano quelli specifici per dominio. Rendiamo open-source ArtifactsBench, includendo il benchmark, il sistema di valutazione e i risultati di base su https://artifactsbenchmark.github.io/, per fornire alla comunità uno strumento scalabile e accurato per accelerare lo sviluppo di modelli generativi centrati sull'utente.
Presentiamo PresentAgent, un agente multimodale che trasforma documenti di lunga durata in video di presentazione narrati. Mentre gli approcci esistenti si limitano a generare slide statiche o riassunti testuali, il nostro metodo supera queste limitazioni producendo contenuti visivi e parlati completamente sincronizzati che imitano da vicino lo stile delle presentazioni umane. Per ottenere questa integrazione, PresentAgent utilizza una pipeline modulare che segmenta sistematicamente il documento di input, pianifica e renderizza frame visivi in stile slide, genera una narrazione parlata contestuale con modelli linguistici di grandi dimensioni e modelli di sintesi vocale, e compone in modo fluido il video finale con un preciso allineamento audio-visivo. Data la complessità della valutazione di tali output multimodali, introduciamo PresentEval, un framework di valutazione unificato basato su modelli visione-linguaggio che assegna punteggi completi ai video attraverso tre dimensioni critiche: fedeltà del contenuto, chiarezza visiva e comprensione del pubblico mediante valutazione basata su prompt. La nostra validazione sperimentale su un dataset curato di 30 coppie documento-presentazione dimostra che PresentAgent si avvicina alla qualità umana in tutte le metriche di valutazione. Questi risultati evidenziano il significativo potenziale degli agenti multimodali controllabili nel trasformare materiali testuali statici in formati di presentazione dinamici, efficaci e accessibili. Il codice sarà disponibile all'indirizzo https://github.com/AIGeeksGroup/PresentAgent.
Contesto: La documentazione clinica rappresenta un onere significativo per i professionisti sanitari, con i medici che dedicano fino a 2 ore al giorno a compiti amministrativi. I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) offrono soluzioni promettenti, ma le preoccupazioni relative alla privacy e i requisiti computazionali ne limitano l'adozione in ambito sanitario. Obiettivo: Sviluppare e valutare un sistema di trascrizione medica che preservi la privacy e funzioni direttamente sul dispositivo, utilizzando un modello Llama 3.2 1B ottimizzato, in grado di generare note mediche strutturate da trascrizioni mediche mantenendo la completa sovranità dei dati interamente nel browser. Metodi: Abbiamo ottimizzato un modello Llama 3.2 1B utilizzando il fine-tuning efficiente dei parametri (PEFT) con LoRA su 1.500 coppie sintetiche di trascrizioni mediche e note strutturate. Il modello è stato valutato rispetto al modello base Llama 3.2 1B su due dataset: 100 trascrizioni endocrinologiche e 140 casi modificati del benchmark ACI. La valutazione ha impiegato sia metriche statistiche (ROUGE, BERTScore, BLEURT) che valutazioni basate su LLM-as-judge su molteplici dimensioni della qualità clinica. Risultati: Il modello OnDevice ottimizzato ha mostrato miglioramenti sostanziali rispetto al modello base. Sul benchmark ACI, i punteggi ROUGE-1 sono aumentati da 0,346 a 0,496, mentre il BERTScore F1 è migliorato da 0,832 a 0,866. Le valutazioni della qualità clinica hanno evidenziato una riduzione marcata delle allucinazioni maggiori (da 85 a 35 casi) e una maggiore correttezza fattuale (da 2,81 a 3,54 su una scala a 5 punti). Miglioramenti simili sono stati osservati sul dataset di valutazione interno, con punteggi compositi aumentati da 3,13 a 4,43 (+41,5%). Conclusioni: L'ottimizzazione di LLM compatti per la trascrizione medica produce miglioramenti clinicamente significativi, consentendo al contempo una distribuzione completa sul dispositivo tramite browser. Questo approccio affronta le principali barriere all'adozione dell'IA in ambito sanitario: preservazione della privacy, riduzione dei costi e accessibilità per ambienti con risorse limitate.
L'addestramento di modelli generativi nativi per texture 3D rimane un problema fondamentale ma impegnativo, principalmente a causa della limitata disponibilità di dataset su larga scala e di alta qualità per texture 3D. Questa scarsità ostacola la generalizzazione a scenari del mondo reale. Per affrontare questo problema, la maggior parte dei metodi esistenti effettua il fine-tuning di modelli generativi di immagini di base per sfruttare i loro prior visivi appresi. Tuttavia, questi approcci generano tipicamente solo immagini multi-vista e si affidano a post-elaborazioni per produrre mappe di texture UV, una rappresentazione essenziale nelle pipeline grafiche moderne. Tali pipeline a due stadi spesso soffrono di accumulo di errori e inconsistenze spaziali sulla superficie 3D. In questo articolo, introduciamo SeqTex, un nuovo framework end-to-end che sfrutta la conoscenza visiva codificata in modelli di base pre-addestrati per video per generare direttamente mappe di texture UV complete. A differenza dei metodi precedenti che modellano la distribuzione delle texture UV in isolamento, SeqTex riformula il compito come un problema di generazione sequenziale, consentendo al modello di apprendere la distribuzione congiunta di rendering multi-vista e texture UV. Questo design trasferisce efficacemente i prior coerenti nello spazio delle immagini dai modelli di base per video al dominio UV. Per migliorare ulteriormente le prestazioni, proponiamo diverse innovazioni architetturali: un design a rami separati per multi-vista e UV, un'attenzione informata dalla geometria per guidare l'allineamento delle feature cross-dominio e una risoluzione adattiva dei token per preservare i dettagli fini delle texture mantenendo l'efficienza computazionale. Insieme, questi componenti consentono a SeqTex di sfruttare appieno i prior pre-addestrati per video e sintetizzare mappe di texture UV ad alta fedeltà senza la necessità di post-elaborazione. Esperimenti estensivi dimostrano che SeqTex raggiunge prestazioni all'avanguardia sia in compiti di generazione di texture 3D condizionati da immagini che da testo, con una superiore consistenza 3D, allineamento texture-geometria e generalizzazione al mondo reale.
L'estrazione di relazioni (RE) è un compito fondamentale nell'elaborazione del linguaggio naturale. Gli approcci tradizionali inquadrano tipicamente la RE come un problema di apprendimento supervisionato, mappando direttamente il contesto alle etichette, un metodo che spesso soffre di una scarsa generalizzazione fuori dominio (OOD). Ispirati dal flusso di lavoro degli annotatori umani, riformuliamo la RE come un compito di ragionamento guidato da linee guida di annotazione e introduciamo R1-RE, il primo framework di apprendimento per rinforzo con ricompensa verificabile (RLVR) per i compiti di RE. Il nostro metodo stimola le capacità di ragionamento di modelli linguistici di piccole dimensioni per i compiti di annotazione, ottenendo una robustezza OOD significativamente migliorata. Valutiamo il nostro approccio sul dataset pubblico Sem-2010 e su un dataset privato MDKG. Il modello R1-RE-7B raggiunge un'accuratezza OOD media di circa il 70%, in linea con i principali modelli proprietari come GPT-4o. Inoltre, la nostra analisi completa fornisce nuove intuizioni sulla dinamica di addestramento e sui comportamenti di ragionamento emergenti del paradigma RLVR per la RE.
Questo articolo presenta VLAI, un modello basato su transformer che prevede i livelli di gravità delle vulnerabilità software direttamente dalle descrizioni testuali. Costruito su RoBERTa, VLAI è stato addestrato su oltre 600.000 vulnerabilità reali e raggiunge un'accuratezza superiore all'82% nella previsione delle categorie di gravità, consentendo una classificazione più rapida e coerente prima della valutazione manuale CVSS. Il modello e il dataset sono open-source e integrati nel servizio Vulnerability-Lookup.
I recenti metodi di editing basati sulla diffusione hanno compiuto progressi significativi nei task guidati da testo, ma spesso faticano a interpretare istruzioni complesse e indirette. Inoltre, i modelli attuali soffrono frequentemente di una scarsa conservazione dell'identità, modifiche indesiderate o di una forte dipendenza da maschere manuali. Per affrontare queste sfide, introduciamo X-Planner, un sistema di pianificazione basato su un Modello Linguistico Multimodale di Grande Scala (MLLM) che collega efficacemente l'intento dell'utente con le capacità del modello di editing. X-Planner utilizza il ragionamento a catena di pensiero per scomporre sistematicamente istruzioni complesse in sotto-istruzioni più semplici e chiare. Per ogni sotto-istruzione, X-Planner genera automaticamente tipi di modifica precisi e maschere di segmentazione, eliminando l'intervento manuale e garantendo modifiche localizzate che preservano l'identità. Inoltre, proponiamo una nuova pipeline automatizzata per generare dati su larga scala per addestrare X-Planner, che raggiunge risultati all'avanguardia sia sui benchmark esistenti che sul nostro nuovo benchmark di editing complesso.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più chiamati a invocare API aziendali, ma spesso falliscono quando strumenti quasi duplicati competono per la stessa intenzione dell'utente o quando gli argomenti richiesti sono lasciati sottospecificati. Introduciamo DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), una pipeline a tre fasi incentrata sulla disambiguazione che (i) sintetizza dialoghi multi-turn guidati da una persona in cui l'assistente deve distinguere tra strumenti altamente simili, (ii) esegue un fine-tuning supervisionato di modelli open-source con tracce di ragionamento su un range di parametri da 3B a 70B, e (iii) valuta la prontezza per il mondo reale attraverso una suite dinamica che ridistribuisce ciascun modello in un ciclo agente attivo e riporta il completamento end-to-end degli obiettivi insieme a metriche statiche convenzionali. Sul nostro benchmark dinamico DiaBENCH, i modelli addestrati con DiaFORGE aumentano il successo nell'invocazione degli strumenti del 27% rispetto a GPT-4o e del 49% rispetto a Claude-3.5-Sonnet, entrambi sotto prompt ottimizzati. Per stimolare ulteriori ricerche, rilasciamo un corpus aperto di 5000 specifiche API aziendali di livello produttivo accoppiate a dialoghi rigorosamente validati e focalizzati sulla disambiguazione, offrendo una guida pratica per costruire agenti affidabili e pronti per l'uso aziendale.
Man mano che i sistemi di Intelligenza Artificiale evolvono da modelli monolitici a ecosistemi di agenti specializzati, la necessità di protocolli di comunicazione standardizzati diventa sempre più critica. Questo articolo introduce MOD-X (Modular Open Decentralized eXchange), una nuova proposta di framework architetturale per l'interoperabilità degli agenti che affronta le principali limitazioni dei protocolli esistenti. A differenza degli approcci attuali, MOD-X propone un'architettura stratificata con un Universal Message Bus, una gestione completa dello stato, capacità di traduzione e meccanismi di sicurezza basati su blockchain. Presentiamo l'architettura di MOD-X, la confrontiamo con i protocolli esistenti e ne dimostriamo l'applicazione attraverso un esempio pratico, mostrando come consenta l'integrazione tra agenti specializzati eterogenei (agenti con diverse architetture, fornitori, capacità e rappresentazioni della conoscenza—inclusi sistemi basati su regole, reti neurali, motori di ragionamento simbolico e software legacy con wrapper per agenti). Le principali innovazioni di MOD-X includono un modello di comunicazione publish-subscribe, la scoperta semantica delle capacità e l'orchestrazione dinamica dei flussi di lavoro—fornendo un framework che collega il formalismo teorico con l'implementazione pratica. Questa architettura risponde alla crescente necessità di ecosistemi di agenti veramente decentralizzati e interoperabili che possano scalare efficacemente senza la necessità di coordinamento centrale.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli in una vasta gamma di compiti, ma la loro abilità nel prevedere eventi futuri rimane poco studiata. Un anno fa, i grandi modelli linguistici faticavano ad avvicinarsi all'accuratezza di una folla umana. Valuto i migliori LLM all'avanguardia su 464 domande di previsione provenienti da Metaculus, confrontando le loro prestazioni con quelle dei superprevisori umani. I modelli di frontiera raggiungono punteggi Brier che apparentemente superano la folla umana, ma continuano a sottoperformare in modo significativo rispetto a un gruppo di superprevisori.