Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo rapporto presenta VibeVoice, un modello innovativo progettato per sintetizzare discorsi di lunga durata con più parlanti utilizzando la diffusione del token successivo, un metodo unificato per modellare dati continui attraverso la generazione autoregressiva di vettori latenti tramite diffusione. Per rendere ciò possibile, introduciamo un nuovo tokenizzatore continuo per il parlato che, rispetto al popolare modello Encodec, migliora la compressione dei dati di 80 volte mantenendo prestazioni comparabili. Il tokenizzatore preserva efficacemente la fedeltà audio mentre aumenta significativamente l'efficienza computazionale per l'elaborazione di sequenze lunghe. Di conseguenza, VibeVoice è in grado di sintetizzare discorsi di lunga durata fino a 90 minuti (in una finestra di contesto di 64K) con un massimo di 4 parlanti, catturando l'autentica "vibrazione" conversazionale e superando i modelli di dialogo open-source e proprietari.
I recenti progressi nell'allineamento di modelli linguistici di grandi dimensioni tramite apprendimento per rinforzo hanno ottenuto risultati notevoli nella risoluzione di problemi complessi di ragionamento, ma al costo di rollout on-policy dispendiosi e di un'esplorazione limitata di percorsi di ragionamento diversi. In questo lavoro, introduciamo TreePO, che coinvolge un algoritmo di rollout autoguidato che considera la generazione di sequenze come un processo di ricerca strutturato ad albero. Composto da una politica di campionamento dinamica ad albero e da un decoding a segmenti di lunghezza fissa, TreePO sfrutta l'incertezza locale per garantire ramificazioni aggiuntive. Ammortizzando il calcolo attraverso prefissi comuni e potando precocemente i percorsi a basso valore, TreePO riduce sostanzialmente il carico computazionale per aggiornamento, preservando o migliorando la diversità dell'esplorazione. I contributi chiave includono: (1) un algoritmo di campionamento segmentale che allevia il carico della cache KV attraverso segmenti contigui e genera nuovi rami insieme a un meccanismo di arresto anticipato; (2) una stima del vantaggio a livello di segmento basata su albero che considera sia l'ottimizzazione della politica prossimale globale che locale; e (3) un'analisi sull'efficacia della divergenza dinamica guidata da probabilità e qualità e della strategia di fallback. Validiamo empiricamente il guadagno di prestazioni di TreePO su una serie di benchmark di ragionamento e il risparmio di efficienza in ore GPU dal 22% fino al 43% del design di campionamento per i modelli addestrati, mostrando nel frattempo una riduzione fino al 40% a livello di traiettoria e del 35% a livello di token nel calcolo di campionamento per i modelli esistenti. Offrendo un "pranzo gratis" in termini di efficienza di inferenza, TreePO rivela un percorso pratico verso il ridimensionamento del post-training basato su RL con meno campioni e meno calcolo. La pagina principale si trova all'indirizzo https://m-a-p.ai/TreePO.
Introduciamo CMPhysBench, progettato per valutare la competenza dei Modelli Linguistici di Grande Dimensione (LLMs) nella Fisica della Materia Condensata, come un nuovo benchmark. CMPhysBench è composto da oltre 520 domande accuratamente curate a livello di laurea magistrale, che coprono sia sottocampi rappresentativi che framework teorici fondamentali della fisica della materia condensata, come il magnetismo, la superconduttività, i sistemi fortemente correlati, ecc. Per garantire una profonda comprensione del processo di risoluzione dei problemi, ci concentriamo esclusivamente su problemi di calcolo, richiedendo ai LLMs di generare autonomamente soluzioni complete. Nel frattempo, sfruttando rappresentazioni ad albero delle espressioni, introduciamo il punteggio Scalable Expression Edit Distance (SEED), che fornisce un credito parziale granulare (non binario) e produce una valutazione più accurata della somiglianza tra previsione e verità di riferimento. I nostri risultati mostrano che anche i migliori modelli, come Grok-4, raggiungono solo un punteggio SEED medio di 36 e una precisione del 28% su CMPhysBench, evidenziando un significativo divario di capacità, specialmente per questo dominio pratico e di frontiera rispetto alla fisica tradizionale. Il codice e il dataset sono pubblicamente disponibili all'indirizzo https://github.com/CMPhysBench/CMPhysBench.
I modelli esistenti di avatar video sono in grado di produrre animazioni umane fluide, ma faticano ad andare oltre la semplice somiglianza fisica per catturare l'essenza autentica di un personaggio. I loro movimenti sono tipicamente sincronizzati con segnali di basso livello come il ritmo audio, mancando di una comprensione semantica più profonda delle emozioni, delle intenzioni o del contesto. Per colmare questa lacuna, proponiamo un framework progettato per generare animazioni di personaggi che non solo siano fisicamente plausibili, ma anche semanticamente coerenti ed espressive. Il nostro modello, OmniHuman-1.5, si basa su due contributi tecnici chiave. In primo luogo, sfruttiamo i Modelli Linguistici Multimodali di Grande Scala per sintetizzare una rappresentazione testuale strutturata delle condizioni che fornisce una guida semantica di alto livello. Questa guida orienta il nostro generatore di movimenti oltre la semplice sincronizzazione ritmica, consentendo la produzione di azioni che risuonano contestualmente ed emotivamente. In secondo luogo, per garantire l'effettiva fusione di questi input multimodali e mitigare i conflitti intermodali, introduciamo un'architettura Multimodale DiT specializzata con un nuovo design Pseudo Last Frame. La sinergia di questi componenti permette al nostro modello di interpretare accuratamente la semantica congiunta di audio, immagini e testo, generando così movimenti profondamente coerenti con il personaggio, la scena e il contenuto linguistico. Esperimenti estensivi dimostrano che il nostro modello raggiunge prestazioni leader in un'ampia gamma di metriche, tra cui l'accuratezza del lip-sync, la qualità video, la naturalezza del movimento e la coerenza semantica con i prompt testuali. Inoltre, il nostro approccio mostra una notevole estensibilità a scenari complessi, come quelli che coinvolgono più persone e soggetti non umani. Homepage: https://omnihuman-lab.github.io/v1_5/
La modifica locale 3D di regioni specifiche è cruciale per l'industria dei videogiochi e l'interazione con i robot. I metodi recenti tipicamente modificano immagini multi-vista renderizzate e poi ricostruiscono modelli 3D, ma affrontano sfide nel preservare con precisione le regioni non modificate e la coerenza complessiva. Ispirati dai modelli generativi 3D strutturati, proponiamo VoxHammer, un approccio innovativo senza addestramento che esegue modifiche precise e coerenti nello spazio latente 3D. Dato un modello 3D, VoxHammer predice prima la sua traiettoria di inversione e ottiene i suoi latenti invertiti e i token chiave-valore a ogni passo temporale. Successivamente, nella fase di denoising e modifica, sostituiamo le caratteristiche di denoising delle regioni preservate con i corrispondenti latenti invertiti e i token chiave-valore memorizzati. Mantenendo queste caratteristiche contestuali, questo approccio garantisce una ricostruzione coerente delle aree preservate e un'integrazione armoniosa delle parti modificate. Per valutare la coerenza delle regioni preservate, abbiamo costruito Edit3D-Bench, un dataset annotato manualmente composto da centinaia di campioni, ciascuno con regioni di modifica 3D etichettate con cura. Gli esperimenti dimostrano che VoxHammer supera significativamente i metodi esistenti sia in termini di coerenza 3D delle regioni preservate che di qualità complessiva. Il nostro metodo promette di sintetizzare dati modificati di alta qualità, ponendo così le basi per la generazione 3D in contesto. Visita la nostra pagina del progetto all'indirizzo https://huanngzh.github.io/VoxHammer-Page/.
Inferire le proprietà fisiche di scene 3D a partire da informazioni visive è un compito cruciale ma impegnativo per la creazione di mondi virtuali interattivi e realistici. Mentre gli esseri umani comprendono intuitivamente caratteristiche dei materiali come elasticità o rigidità, i metodi esistenti spesso si basano su un'ottimizzazione lenta e specifica per ogni scena, limitandone la generalizzabilità e l'applicabilità. Per affrontare questo problema, introduciamo PIXIE, un metodo innovativo che addestra una rete neurale generalizzabile a prevedere le proprietà fisiche in più scene a partire da caratteristiche visive 3D, utilizzando esclusivamente perdite supervisionate. Una volta addestrata, la nostra rete feed-forward può eseguire un'inferenza rapida di campi di materiali plausibili, che, accoppiati con una rappresentazione statica della scena appresa come lo Gaussian Splatting, abilita simulazioni fisiche realistiche sotto forze esterne. Per facilitare questa ricerca, abbiamo anche raccolto PIXIEVERSE, uno dei più grandi dataset noti di asset 3D accoppiati con annotazioni di materiali fisici. Valutazioni estensive dimostrano che PIXIE è circa 1,46-4,39 volte migliore e ordini di grandezza più veloce rispetto ai metodi di ottimizzazione al momento del test. Sfruttando caratteristiche visive pre-addestrate come CLIP, il nostro metodo può anche generalizzare in modo zero-shot a scene del mondo reale nonostante sia stato addestrato esclusivamente su dati sintetici. https://pixie-3d.github.io/
Mentre i modelli Mixture of Experts (MoE) raggiungono un'efficienza notevole attivando solo sottoinsiemi di parametri, soffrono di elevati costi di accesso alla memoria durante l'inferenza. Le architetture a strati di memoria offrono un'alternativa interessante con pochissimi accessi alla memoria, ma tentativi precedenti come UltraMem hanno eguagliato solo le prestazioni di modelli MoE a 2 esperti, rimanendo significativamente al di sotto delle configurazioni all'avanguardia a 8 esperti. Presentiamo UltraMemV2, un'architettura a strati di memoria riprogettata che colma questo divario prestazionale. Il nostro approccio introduce cinque miglioramenti chiave: integrazione degli strati di memoria in ogni blocco transformer, semplificazione dell'espansione dei valori con proiezioni lineari singole, adozione dell'elaborazione dei valori basata su FFN da PEER, implementazione di un'inizializzazione dei parametri basata su principi e riequilibrio dei rapporti di calcolo tra memoria e FFN. Attraverso una valutazione estensiva, dimostriamo che UltraMemV2 raggiunge la parità prestazionale con i modelli MoE a 8 esperti a parità di calcolo e parametri, ma con un accesso alla memoria significativamente inferiore. In particolare, UltraMemV2 mostra prestazioni superiori nei task intensivi di memoria, con miglioramenti di +1,6 punti nella memorizzazione a contesto lungo, +6,2 punti nella memorizzazione multi-round e +7,9 punti nell'apprendimento in-context. Convalidiamo il nostro approccio su larga scala con modelli fino a 2,5 miliardi di parametri attivati su un totale di 120 miliardi, e stabiliamo che la densità di attivazione ha un impatto maggiore sulle prestazioni rispetto al conteggio totale dei parametri sparsi. Il nostro lavoro porta le architetture a strati di memoria alla parità prestazionale con i modelli MoE all'avanguardia, presentando un'alternativa convincente per il calcolo sparso efficiente.
I recenti progressi nei LLM hanno reso la ricerca scientifica automatizzata la prossima frontiera nel percorso verso la superintelligenza artificiale. Tuttavia, questi sistemi sono limitati a compiti di ambito ristretto o alle capacità creative limitate dei LLM. Proponiamo Spacer, un sistema di scoperta scientifica che sviluppa concetti creativi e fondati su fatti senza interventi esterni. Spacer cerca di raggiungere questo obiettivo attraverso la "decontestualizzazione deliberata", un approccio che scompone le informazioni in unità atomiche - parole chiave - e trae creatività da connessioni inesplorate tra di esse. Spacer è composto da (i) Nuri, un motore di ispirazione che costruisce insiemi di parole chiave, e (ii) il Manifesting Pipeline che affina questi insiemi in dichiarazioni scientifiche elaborate. Nuri estrae insiemi di parole chiave nuovi e ad alto potenziale da un grafo di parole chiave costruito con 180.000 pubblicazioni accademiche in campi biologici. Il Manifesting Pipeline trova collegamenti tra le parole chiave, analizza la loro struttura logica, ne valuta la plausibilità e infine redige concetti scientifici originali. Secondo i nostri esperimenti, la metrica di valutazione di Nuri classifica accuratamente pubblicazioni ad alto impatto con un punteggio AUROC di 0.737. Il nostro Manifesting Pipeline ricostruisce con successo anche i concetti chiave degli articoli più recenti delle principali riviste scientifiche partendo esclusivamente dai loro insiemi di parole chiave. Un sistema di punteggio basato su LLM stima che questa ricostruzione sia stata valida in oltre l'85% dei casi. Infine, la nostra analisi dello spazio di embedding mostra che gli output di Spacer sono significativamente più simili alle pubblicazioni leader rispetto a quelli dei LLM SOTA.
I recenti modelli di base per video come SAM2 eccellono nella segmentazione video guidata trattando le maschere come un primitivo generico. Tuttavia, molti contesti reali richiedono una segmentazione non guidata che mira a rilevare e tracciare tutti gli oggetti in un video senza suggerimenti esterni, lasciando l'attuale panorama frammentato tra modelli e pipeline specifici per compiti. Riformuliamo la segmentazione video in streaming come previsione sequenziale di maschere, analoga alla modellazione del linguaggio, e introduciamo l'Autoregressive Universal Segmentation Model (AUSM), un'unica architettura che unifica sia la segmentazione video guidata che quella non guidata. Basato su recenti modelli a stati spazio, AUSM mantiene uno stato spaziale di dimensione fissa e si adatta a flussi video di lunghezza arbitraria. Inoltre, tutti i componenti di AUSM sono progettati per l'addestramento parallelo tra frame, ottenendo sostanziali accelerazioni rispetto all'addestramento iterativo. Su benchmark standard (DAVIS17, YouTube-VOS 2018 & 2019, MOSE, YouTube-VIS 2019 & 2021 e OVIS) AUSM supera i precedenti metodi di segmentazione video in streaming universale e raggiunge fino a 2,5x tempi di addestramento più rapidi su sequenze di 16 frame.
I modelli di diffusione visiva hanno compiuto progressi notevoli, ma sono tipicamente addestrati a risoluzioni limitate a causa della mancanza di dati ad alta risoluzione e di risorse computazionali ridotte, compromettendo la loro capacità di generare immagini o video ad alta fedeltà a risoluzioni più elevate. Recenti sforzi hanno esplorato strategie senza tuning per sfruttare il potenziale inesplorato della generazione visiva ad alta risoluzione di modelli pre-addestrati. Tuttavia, questi metodi sono ancora inclini a produrre contenuti visivi di bassa qualità con schemi ripetitivi. L'ostacolo principale risiede nell'inevitabile aumento delle informazioni ad alta frequenza quando il modello genera contenuti visivi che superano la risoluzione di addestramento, portando a schemi ripetitivi indesiderati derivanti da errori accumulati. In questo lavoro, proponiamo CineScale, un nuovo paradigma di inferenza per abilitare la generazione visiva ad alta risoluzione. Per affrontare i vari problemi introdotti dai due tipi di architetture di generazione video, proponiamo varianti dedicate specifiche per ciascuna. A differenza dei metodi di base esistenti che si limitano alla generazione T2I e T2V ad alta risoluzione, CineScale amplia l'ambito consentendo la sintesi I2V e V2V ad alta risoluzione, costruita su framework di generazione video open-source all'avanguardia. Esperimenti estesi convalidano la superiorità del nostro paradigma nell'estendere le capacità di generazione visiva ad alta risoluzione sia per i modelli di immagine che per quelli video. In modo significativo, il nostro approccio consente la generazione di immagini 8k senza alcun fine-tuning e raggiunge la generazione di video 4k con solo un minimo fine-tuning LoRA. Campioni video generati sono disponibili sul nostro sito web: https://eyeline-labs.github.io/CineScale/.
I metodi all'avanguardia (SOTA) attuali per l'animazione di personaggi guidata dall'audio dimostrano prestazioni promettenti in scenari che coinvolgono principalmente discorsi e canto. Tuttavia, spesso risultano carenti in produzioni cinematografiche e televisive più complesse, che richiedono elementi sofisticati come interazioni caratteriali sfumate, movimenti corporei realistici e dinamiche di ripresa. Per affrontare questa sfida di lunga data nel raggiungere un'animazione di personaggi di livello cinematografico, proponiamo un modello guidato dall'audio, che chiamiamo Wan-S2V, basato su Wan. Il nostro modello raggiunge un'espressività e una fedeltà significativamente migliorate in contesti cinematografici rispetto agli approcci esistenti. Abbiamo condotto esperimenti estesi, confrontando il nostro metodo con modelli all'avanguardia come Hunyuan-Avatar e Omnihuman. I risultati sperimentali dimostrano costantemente che il nostro approccio supera significativamente queste soluzioni esistenti. Inoltre, esploriamo la versatilità del nostro metodo attraverso le sue applicazioni nella generazione di video di lunga durata e nell'editing preciso della sincronizzazione labiale nei video.
I recenti approcci alla generazione di mesh tipicamente tokenizzano le mesh triangolari in sequenze di token e addestrano modelli autoregressivi per generare questi token in modo sequenziale. Nonostante i notevoli progressi, tali sequenze di token riutilizzano inevitabilmente i vertici più volte per rappresentare completamente le mesh manifold, poiché ogni vertice è condiviso da più facce. Questa ridondanza porta a sequenze di token eccessivamente lunghe e a processi di generazione inefficienti. In questo articolo, proponiamo un framework efficiente che genera mesh artistiche trattando separatamente vertici e facce, riducendo significativamente la ridondanza. Utilizziamo un modello autoregressivo esclusivamente per la generazione dei vertici, diminuendo il numero di token a circa il 23\% di quello richiesto dal tokenizer esistente più compatto. Successivamente, sfruttiamo un trasformatore bidirezionale per completare la mesh in un unico passo, catturando le relazioni tra i vertici e costruendo la matrice di adiacenza che definisce le facce della mesh. Per migliorare ulteriormente la qualità della generazione, introduciamo un potenziatore di fedeltà per affinare il posizionamento dei vertici in arrangiamenti più naturali e proponiamo un framework di post-processing per rimuovere connessioni di bordo indesiderate. I risultati sperimentali dimostrano che il nostro metodo raggiunge una velocità di generazione delle mesh più di 8 volte superiore rispetto agli approcci all'avanguardia, producendo al contempo una qualità delle mesh più elevata.
I modelli linguistici di grandi dimensioni (LLM) con ragionamento a catena di pensiero hanno dimostrato capacità di problem solving notevoli, ma il controllo del loro sforzo computazionale rimane una sfida significativa per un utilizzo pratico. Sistemi proprietari recenti come la serie gpt-oss di OpenAI hanno introdotto modalità operative discrete per un controllo intuitivo del ragionamento, ma la comunità open-source non è riuscita a raggiungere tali capacità. In questo articolo, presentiamo ThinkDial, il primo framework end-to-end open-recipe che implementa con successo un ragionamento controllabile in stile gpt-oss attraverso modalità operative discrete. Il nostro sistema consente di passare in modo fluido tra tre distinti regimi di ragionamento: Modalità Alta (capacità di ragionamento completa), Modalità Media (riduzione del 50% dei token con un degrado delle prestazioni inferiore al 10%) e Modalità Bassa (riduzione del 75% dei token con un degrado delle prestazioni inferiore al 15%). Raggiungiamo questo obiettivo attraverso un paradigma di addestramento end-to-end che integra il controllo della modalità budget in tutta la pipeline: fine-tuning supervisionato in modalità budget che incorpora direttamente le capacità di ragionamento controllabile nel processo di apprendimento, e apprendimento per rinforzo a due fasi con consapevolezza del budget e modellazione adattiva delle ricompense. Esperimenti estensivi dimostrano che ThinkDial raggiunge compromessi target tra compressione e prestazioni con chiare riduzioni della lunghezza delle risposte mantenendo soglie di prestazione. Il framework mostra anche forti capacità di generalizzazione su compiti fuori distribuzione.
L'avvento degli agenti di Deep Research ha ridotto significativamente il tempo necessario per svolgere compiti di ricerca estesi. Tuttavia, questi compiti richiedono intrinsecamente standard rigorosi di accuratezza fattuale e completezza, rendendo necessaria una valutazione approfondita prima di un'adozione diffusa. In questo articolo, proponiamo ReportBench, un benchmark sistematico progettato per valutare la qualità del contenuto dei rapporti di ricerca generati da modelli linguistici di grandi dimensioni (LLM). La nostra valutazione si concentra su due dimensioni critiche: (1) la qualità e la pertinenza della letteratura citata, e (2) la fedeltà e la veridicità delle affermazioni contenute nei rapporti generati. ReportBench utilizza articoli di survey di alta qualità pubblicati su arXiv come riferimenti di standard aureo, dai quali applichiamo il reverse prompt engineering per derivare prompt specifici per dominio e stabilire un corpus di valutazione completo. Inoltre, sviluppiamo un framework automatizzato basato su agenti all'interno di ReportBench che analizza sistematicamente i rapporti generati estraendo citazioni e affermazioni, verificando la fedeltà del contenuto citato rispetto alle fonti originali e validando le affermazioni non citate utilizzando risorse basate sul web. Le valutazioni empiriche dimostrano che gli agenti di Deep Research commerciali, come quelli sviluppati da OpenAI e Google, generano rapporti più completi e affidabili rispetto agli LLM autonomi potenziati con strumenti di ricerca o navigazione. Tuttavia, rimane un ampio margine di miglioramento in termini di ampiezza e profondità della copertura della ricerca, nonché di coerenza fattuale. Il codice completo e i dati saranno rilasciati al seguente link: https://github.com/ByteDance-BandAI/ReportBench.
La scoperta di farmaci è un processo complesso e ad alto consumo di risorse, rendendo la previsione precoce degli esiti di approvazione cruciale per ottimizzare gli investimenti nella ricerca. Sebbene i metodi classici di machine learning e deep learning abbiano mostrato potenziale nella previsione dell'approvazione dei farmaci, la loro limitata interpretabilità ne riduce l'impatto. Qui presentiamo DrugReasoner, un modello linguistico di grandi dimensioni (LLM) basato sul ragionamento, costruito sull'architettura LLaMA e ottimizzato con la group relative policy optimization (GRPO) per prevedere la probabilità di approvazione di molecole piccole. DrugReasoner integra descrittori molecolari con un ragionamento comparativo rispetto a composti approvati e non approvati strutturalmente simili, generando previsioni accompagnate da razionali passo-passo e punteggi di confidenza. DrugReasoner ha ottenuto prestazioni robuste con un AUC di 0,732 e un punteggio F1 di 0,729 sul set di validazione e rispettivamente 0,725 e 0,718 sul set di test. Questi risultati hanno superato i baseline convenzionali, inclusi la regressione logistica, le macchine a vettori di supporto e i k-vicini più prossimi, e hanno mostrato prestazioni competitive rispetto a XGBoost. Su un dataset esterno indipendente, DrugReasoner ha superato sia i baseline sia il modello ChemAP recentemente sviluppato, raggiungendo un AUC di 0,728 e un punteggio F1 di 0,774, mantenendo un'elevata precisione e una sensibilità bilanciata, dimostrando robustezza in scenari reali. Questi risultati dimostrano che DrugReasoner non solo offre un'accuratezza predittiva competitiva, ma migliora anche la trasparenza attraverso i suoi output di ragionamento, affrontando così un collo di bottiglia chiave nella scoperta di farmaci assistita dall'IA. Questo studio evidenzia il potenziale degli LLM potenziati dal ragionamento come strumenti interpretabili ed efficaci per il processo decisionale farmaceutico.
Le leggi di scala empiriche hanno guidato l'evoluzione dei grandi modelli linguistici (LLM), tuttavia i loro coefficienti cambiano ogni volta che l'architettura del modello o la pipeline dei dati viene modificata. I modelli Mixture-of-Experts (MoE), ormai standard nei sistemi all'avanguardia, introducono una nuova dimensione di sparsità che le frontiere attuali dei modelli densi trascurano. Investigiamo come la sparsità dei MoE influenzi due regimi di capacità distinti: memorizzazione e ragionamento. Addestriamo famiglie di Transformer MoE che variano sistematicamente il numero totale di parametri, i parametri attivi e il routing top-k, mantenendo fisso il budget computazionale. Per ogni modello registriamo la perdita durante il pre-training, la perdita nei task downstream e l'accuratezza del task, permettendoci di separare il gap di generalizzazione train-test dal gap perdita-accuratezza. I benchmark di memorizzazione migliorano monotonamente con l'aumento dei parametri totali, riflettendo la perdita di addestramento. Al contrario, le prestazioni di ragionamento si saturano e possono persino regredire nonostante i continui guadagni sia nei parametri totali che nella perdita di addestramento. Modificare solo il top-k ha poco effetto quando i parametri attivi sono costanti, e i classici iperparametri come il tasso di apprendimento e l'inizializzazione modulano il gap di generalizzazione nella stessa direzione della sparsità. Né il reinforcement learning post-training (GRPO) né l'aggiunta di risorse computazionali al momento del test riescono a recuperare il deficit di ragionamento dei modelli eccessivamente sparsi. I nostri checkpoint, codice e log sono open-source all'indirizzo https://github.com/rioyokotalab/optimal-sparsity.
I Large Language Model (LLM) ottengono buoni risultati nel question answering generale, ma spesso incontrano difficoltà in scenari specifici di dominio. Il Retrieval-Augmented Generation (RAG) introduce conoscenza esterna, ma soffre di allucinazioni e latenze a causa di recuperi rumorosi. Il pretraining continuo internalizza la conoscenza di dominio, ma è costoso e manca di flessibilità cross-dominio. Attribuiamo questa sfida alla distribuzione a coda lunga della conoscenza di dominio, che lascia parzialmente inutilizzata una conoscenza interna comunque utile. Sosteniamo inoltre che l'acquisizione di conoscenza dovrebbe essere progressiva, riflettendo l'apprendimento umano: prima comprendere i concetti, poi applicarli a ragionamenti complessi. Per affrontare questo problema, proponiamo Selct2Know (S2K), un framework economicamente vantaggioso che internalizza la conoscenza di dominio attraverso una strategia di autoselezione della conoscenza interna-esterna e un fine-tuning supervisionato selettivo. Introduciamo anche una pipeline di generazione di dati strutturati per il ragionamento e integriamo GRPO per potenziare la capacità di ragionamento. Esperimenti su benchmark di question answering medico, legale e finanziario dimostrano che S2K supera costantemente i metodi esistenti e raggiunge le prestazioni di LLM addestrati su dominio specifico con un costo significativamente inferiore.
Il 3D inpainting si basa spesso sull'inpainting di immagini 2D multi-vista, dove le inconsistenze intrinseche tra le diverse viste ricostruite possono portare a texture sfocate, discontinuità spaziali e artefatti visivi distraenti. Queste inconsistenze rappresentano sfide significative quando si cerca di ottenere un completamento di oggetti 3D accurato e realistico, specialmente in applicazioni che richiedono un'elevata fedeltà e coerenza strutturale. Per superare queste limitazioni, proponiamo ObjFiller-3D, un metodo innovativo progettato per il completamento e la modifica di oggetti 3D di alta qualità e coerenti. Invece di utilizzare un tradizionale modello di inpainting di immagini 2D, il nostro approccio sfrutta una selezione curata di modelli all'avanguardia per l'editing video per riempire le regioni mascherate degli oggetti 3D. Analizziamo il divario rappresentativo tra il 3D e i video, e proponiamo un adattamento di un modello di inpainting video per l'inpainting di scene 3D. Inoltre, introduciamo un metodo di inpainting 3D basato su riferimento per migliorare ulteriormente la qualità della ricostruzione. Esperimenti su diversi dataset dimostrano che, rispetto ai metodi precedenti, ObjFiller-3D produce ricostruzioni più fedeli e dettagliate (PSNR di 26.6 rispetto a NeRFiller (15.9) e LPIPS di 0.19 rispetto a Instant3dit (0.25)). Inoltre, mostra un forte potenziale per un'implementazione pratica in applicazioni reali di editing 3D. Pagina del progetto: https://objfiller3d.github.io/ Codice: https://github.com/objfiller3d/ObjFiller-3D .
La risoluzione di problemi scientifici presenta sfide uniche per i modelli linguistici di grandi dimensioni (LLMs), richiedendo sia una profonda conoscenza del dominio che la capacità di applicare tale conoscenza attraverso ragionamenti complessi. Sebbene i sistemi automatizzati di ragionamento scientifico promettano di essere di grande aiuto per gli scienziati umani, attualmente non esiste un benchmark olistico ampiamente adottato per valutare il ragionamento scientifico, e pochi approcci separano sistematicamente i ruoli distinti della conoscenza e del ragionamento in questi compiti. Per colmare queste lacune, introduciamo SciReas, una suite diversificata di benchmark esistenti per compiti di ragionamento scientifico, e SciReas-Pro, un sottoinsieme selettivo che richiede un ragionamento più complesso. La nostra valutazione olistica rivela intuizioni sulle prestazioni del ragionamento scientifico che rimangono nascoste quando ci si affida a singoli benchmark. Proponiamo poi KRUX, un framework di analisi per studiare i ruoli distinti del ragionamento e della conoscenza nei compiti scientifici. Combinando i due, conduciamo un'analisi approfondita che produce diversi risultati chiave: (1) Il recupero della conoscenza rilevante per il compito dai parametri del modello rappresenta un collo di bottiglia critico per gli LLMs nel ragionamento scientifico; (2) I modelli di ragionamento traggono costantemente beneficio dalla conoscenza esterna aggiunta in-context, oltre al miglioramento del ragionamento; (3) Migliorare il ragionamento verbalizzato aumenta la capacità degli LLMs di far emergere la conoscenza rilevante per il compito. Infine, conduciamo un'analisi leggera, confrontando la nostra composizione di dati focalizzata sulla scienza con gli sforzi contemporanei sul long CoT SFT, e rilasciamo SciLit01, un solido baseline da 8B per il ragionamento scientifico.
Questo articolo presenta MovieCORE, un nuovo dataset per il video question answering (VQA) progettato per esplorare una comprensione cognitiva più profonda dei contenuti cinematografici. A differenza dei dataset esistenti che si concentrano su una comprensione superficiale, MovieCORE enfatizza domande che coinvolgono il pensiero di Sistema-2, rimanendo specifiche al materiale video. Presentiamo un approccio innovativo di brainstorming agentico, utilizzando più modelli linguistici di grandi dimensioni (LLM) come agenti di pensiero per generare e affinare coppie domanda-risposta di alta qualità. Per valutare la qualità del dataset, sviluppiamo una serie di test cognitivi che valutano profondità, potenziale di stimolazione del pensiero e complessità sintattica. Proponiamo inoltre uno schema di valutazione completo per valutare le prestazioni dei modelli VQA su compiti cognitivi più profondi. Per affrontare i limiti dei modelli video-linguistici (VLM) esistenti, introduciamo un modulo di potenziamento agentico, Agentic Choice Enhancement (ACE), che migliora le capacità di ragionamento del modello post-addestramento fino al 25%. Il nostro lavoro contribuisce a far progredire la comprensione cinematografica nei sistemi di intelligenza artificiale e fornisce preziose intuizioni sulle capacità e i limiti degli attuali modelli VQA quando affrontano domande più complesse e sfumate sui contenuti cinematografici. La nostra pagina del progetto, il dataset e il codice sono disponibili all'indirizzo https://joslefaure.github.io/assets/html/moviecore.html.
I Large Language Model (LLM) hanno trasformato il nostro mondo con progressi significativi nella scienza, nell'ingegneria e nella società, attraverso applicazioni che spaziano dalle scoperte scientifiche e la diagnostica medica ai chatbot. Nonostante la loro ubiquità e utilità, i meccanismi sottostanti degli LLM rimangono nascosti all'interno di miliardi di parametri e strutture complesse, rendendo la loro architettura interna e i processi cognitivi difficili da comprendere. Affrontiamo questa lacuna adottando approcci per comprendere la cognizione emergente in biologia e sviluppando un framework basato su reti che collega abilità cognitive, architetture degli LLM e dataset, introducendo un cambiamento di paradigma nell'analisi dei modelli di base. La distribuzione delle abilità nelle comunità di moduli dimostra che, sebbene gli LLM non rispecchino strettamente la specializzazione focalizzata osservata in specifici sistemi biologici, presentano comunità uniche di moduli i cui schemi di abilità emergenti riflettono parzialmente l'organizzazione cognitiva distribuita ma interconnessa osservata nei cervelli degli uccelli e dei piccoli mammiferi. I nostri risultati numerici evidenziano una divergenza chiave tra i sistemi biologici e gli LLM, in cui l'acquisizione di abilità beneficia in modo sostanziale da interazioni dinamiche e transregionali e dalla plasticità neurale. Integrando i principi della scienza cognitiva con il machine learning, il nostro framework offre nuove intuizioni sull'interpretabilità degli LLM e suggerisce che strategie efficaci di fine-tuning dovrebbero sfruttare dinamiche di apprendimento distribuito piuttosto che interventi modulari rigidi.
Le capacità di ragionamento avanzato nei Large Language Models (LLMs) hanno portato a una maggiore prevalenza di allucinazioni; tuttavia, la maggior parte del lavoro di mitigazione si concentra su filtraggi a posteriori piuttosto che sulla modellazione delle query che le scatenano. Introduciamo QueryBandits, un framework basato su bandit che progetta strategie di riscrittura per massimizzare un modello di ricompensa, che incapsula la propensione all'allucinazione basandosi sulle sensibilità di 17 caratteristiche linguistiche della query di input, e quindi orienta proattivamente gli LLMs lontano dalla generazione di allucinazioni. Su 13 benchmark QA diversificati e 1.050 query perturbate lessicalmente per dataset, il nostro QueryBandit contestuale migliore (Thompson Sampling) raggiunge un tasso di successo dell'87,5% rispetto a una baseline senza riscrittura e supera anche il prompting statico zero-shot ("parafrasa" o "espandi") rispettivamente del 42,6% e del 60,3%. Pertanto, dimostriamo empiricamente l'efficacia di QueryBandits nel mitigare le allucinazioni attraverso un intervento che assume la forma di una riscrittura della query. È interessante notare che alcune strategie di prompting statico, che costituiscono una parte considerevole della letteratura attuale sulla riscrittura delle query, hanno un rimpianto cumulativo maggiore rispetto alla baseline senza riscrittura, indicando che le riscritture statiche possono peggiorare le allucinazioni. Inoltre, scopriamo che i vettori di peso delle caratteristiche di regressione convergente per braccio confermano che non esiste una singola strategia di riscrittura ottimale per tutte le query. In questo contesto, la riscrittura guidata sfruttando le caratteristiche semantiche con QueryBandits può indurre significativi cambiamenti nel comportamento dell'output attraverso meccanismi di forward-pass, bypassando la necessità di riaddestramento o adattamento basato su gradienti.
I grandi modelli linguistici (LLM) hanno dimostrato capacità eccezionali quando addestrati all'interno di ambienti di runtime eseguibili, eccellendo in particolare nei compiti di ingegneria del software attraverso cicli di feedback verificati. Tuttavia, ambienti eseguibili scalabili e generalizzabili rimangono scarsi, limitando i progressi nell'addestramento di agenti di machine learning più capaci. Introduciamo CTF-Dojo, il primo runtime eseguibile su larga scala progettato specificamente per l'addestramento di LLM con feedback verificabile, caratterizzato da 658 sfide Capture-The-Flag (CTF) completamente funzionali containerizzate in Docker con riproducibilità garantita. Per consentire una rapida scalabilità senza intervento manuale, abbiamo sviluppato CTF-Forge, una pipeline automatizzata che trasforma artefatti pubblicamente disponibili in ambienti eseguibili pronti all'uso in pochi minuti, eliminando le settimane di configurazione esperta tradizionalmente richieste. Abbiamo addestrato agenti basati su LLM utilizzando solo 486 traiettorie di alta qualità verificate esecutivamente da CTF-Dojo, ottenendo miglioramenti assoluti fino all'11,6% rispetto a baseline solide su tre benchmark competitivi: InterCode-CTF, NYU CTF Bench e Cybench. Il nostro modello da 32B con le migliori prestazioni raggiunge un Pass@1 del 31,9%, stabilendo un nuovo stato dell'arte open-weight che rivaleggia con modelli all'avanguardia come DeepSeek-V3-0324 e Gemini-2.5-Flash. Inquadrando le attività in stile CTF come benchmark per l'apprendimento di agenti eseguibili, CTF-Dojo dimostra che i segnali di addestramento basati sull'esecuzione non sono solo efficaci ma cruciali per il progresso di agenti ML ad alte prestazioni senza dipendere da costosi sistemi proprietari.
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto prestazioni notevoli in molti compiti di generazione. Tuttavia, allinearli efficacemente ai comportamenti desiderati rimane una sfida significativa. Lo steering delle attivazioni è un approccio efficace ed efficiente in termini di costi che modifica direttamente le attivazioni dei LLM durante la fase di inferenza, allineando le loro risposte ai comportamenti desiderati ed evitando l'elevato costo del fine-tuning. I metodi esistenti tipicamente intervengono indiscriminatamente su tutte le generazioni o si basano esclusivamente sulla domanda per determinare l'intervento, il che limita una valutazione accurata della forza dell'intervento. A tal fine, proponiamo il framework Flexible Activation Steering with Backtracking (FASB), che determina dinamicamente sia la necessità che la forza dell'intervento monitorando gli stati interni dei LLM durante la generazione, considerando sia la domanda che il contenuto generato. Poiché intervenire dopo aver rilevato una deviazione dal comportamento desiderato è spesso troppo tardi, proponiamo ulteriormente il meccanismo di backtracking per correggere i token deviati e orientare i LLM verso il comportamento desiderato. Esperimenti estensivi sul dataset TruthfulQA e su sei dataset a scelta multipla dimostrano che il nostro metodo supera i baseline. Il nostro codice sarà rilasciato su https://github.com/gjw185/FASB.
Le rivendicazioni legali si riferiscono alle richeste del querelante in un caso e sono essenziali per guidare il ragionamento giudiziario e la risoluzione del caso. Mentre molti lavori si sono concentrati sul miglioramento dell'efficienza dei professionisti del diritto, la ricerca sull'aiuto ai non professionisti (ad esempio, i querelanti) rimane inesplorata. Questo articolo esplora il problema della generazione di rivendicazioni legali basate sui fatti del caso. In primo luogo, costruiamo ClaimGen-CN, il primo dataset per il compito di generazione di rivendicazioni legali in cinese, derivato da varie controversie legali del mondo reale. Inoltre, progettiamo una metrica di valutazione specifica per valutare le rivendicazioni generate, che comprende due dimensioni essenziali: la fattualità e la chiarezza. Sulla base di ciò, conduciamo una valutazione zero-shot completa dei modelli linguistici di grandi dimensioni generali e specifici per il dominio legale. I nostri risultati evidenziano i limiti dei modelli attuali nella precisione fattuale e nella chiarezza espressiva, indicando la necessità di uno sviluppo più mirato in questo ambito. Per incoraggiare ulteriori esplorazioni di questo importante compito, renderemo il dataset disponibile pubblicamente.
Questo studio valuta le reti neurali profonde per la previsione delle distribuzioni di probabilità dei rendimenti finanziari. Vengono utilizzate reti neurali convoluzionali 1D (CNN) e architetture Long Short-Term Memory (LSTM) per prevedere i parametri di tre distribuzioni di probabilità: Normale, t di Student e t di Student asimmetrica. Utilizzando funzioni di perdita personalizzate basate sulla log-verosimiglianza negativa, i parametri delle distribuzioni vengono ottimizzati direttamente. I modelli sono testati su sei principali indici azionari (S\&P 500, BOVESPA, DAX, WIG, Nikkei 225 e KOSPI) utilizzando metriche di valutazione probabilistica, tra cui il Log Predictive Score (LPS), il Continuous Ranked Probability Score (CRPS) e la Probability Integral Transform (PIT). I risultati mostrano che i modelli di deep learning forniscono previsioni distribuzionali accurate e competono con i classici modelli GARCH per la stima del Value-at-Risk. L'LSTM con distribuzione t di Student asimmetrica ottiene le migliori prestazioni secondo molteplici criteri di valutazione, catturando sia le code pesanti che l'asimmetria nei rendimenti finanziari. Questo lavoro dimostra che le reti neurali profonde sono alternative valide ai modelli econometrici tradizionali per la valutazione del rischio finanziario e la gestione del portafoglio.