Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo BlenderFusion, un framework generativo di composizione visiva che sintetizza nuove scene ricomponendo oggetti, camera e sfondo. Segue una pipeline di stratificazione-modifica-composizione: (i) segmentazione e conversione degli input visivi in entità 3D modificabili (stratificazione), (ii) modifica di queste entità in Blender con controlli ancorati al 3D (modifica), e (iii) fusione in una scena coerente utilizzando un compositore generativo (composizione). Il nostro compositore generativo estende un modello di diffusione pre-addestrato per elaborare in parallelo sia le scene originali (sorgente) che quelle modificate (target). È affinato su fotogrammi video con due strategie di addestramento chiave: (i) mascheramento della sorgente, che consente modifiche flessibili come la sostituzione dello sfondo; (ii) simulazione di tremolio degli oggetti, facilitando un controllo disaccoppiato su oggetti e camera. BlenderFusion supera significativamente i metodi precedenti in compiti complessi di editing compositivo delle scene.
In questo articolo presentiamo LLaVA-Scissor, una strategia di compressione dei token senza addestramento progettata per modelli linguistici multimodali di grandi dimensioni applicati ai video. I metodi precedenti tentano principalmente di comprimere i token basandosi sui punteggi di attenzione, ma non riescono a catturare efficacemente tutte le regioni semantiche e spesso portano a ridondanza dei token. In modo diverso, proponiamo di sfruttare l'approccio delle Componenti Connesse Semantiche (SCC), che assegna i token a distinte regioni semantiche all'interno dell'insieme di token, garantendo una copertura semantica completa. Il risultato è una strategia di compressione spaziotemporale dei token in due fasi che utilizza SCC sia nel dominio spaziale che in quello temporale. Questa strategia può comprimere efficacemente i token rappresentando l'intero video con un insieme di token semantici non sovrapposti. Abbiamo condotto valutazioni estensive delle capacità di compressione dei token di LLaVA-Scissor su diversi benchmark di comprensione video, tra cui risposte a domande sui video, comprensione di video lunghi e benchmark completi a scelta multipla. I risultati sperimentali dimostrano che il proposto LLaVA-Scissor supera altri metodi di compressione dei token, ottenendo prestazioni superiori in vari benchmark di comprensione video, specialmente con bassi rapporti di ritenzione dei token. Pagina del progetto: https://github.com/HumanMLLM/LLaVA-Scissor.
Il raggiungimento di un controllo granulare sull'identità del soggetto e sugli attributi semantici (posa, stile, illuminazione) nella generazione di immagini da testo, specialmente per più soggetti, spesso compromette l'editabilità e la coerenza dei Diffusion Transformers (DiTs). Molti approcci introducono artefatti o soffrono di entanglement degli attributi. Per superare queste sfide, proponiamo un nuovo modello di generazione controllata multi-soggetto chiamato XVerse. Trasformando le immagini di riferimento in offset per la modulazione specifica del flusso di testo, XVerse consente un controllo preciso e indipendente per soggetti specifici senza alterare i latenti o le caratteristiche dell'immagine. Di conseguenza, XVerse offre una sintesi di immagini multi-soggetto ad alta fedeltà e modificabile, con un controllo robusto sulle caratteristiche individuali dei soggetti e sugli attributi semantici. Questo progresso migliora significativamente le capacità di generazione di scene personalizzate e complesse.
I modelli interni del mondo (World Models, WMs) consentono agli agenti di comprendere lo stato del mondo e prevedere le transizioni, fungendo da base per un ragionamento deliberativo avanzato. I recenti modelli visione-linguaggio (Vision-Language Models, VLMs) di grandi dimensioni, come OpenAI o3, GPT-4o e Gemini, mostrano potenziale come WMs a scopo generale. Sebbene gli studi più recenti abbiano valutato e evidenziato limitazioni in capacità specifiche come la comprensione visiva, manca ancora una valutazione sistematica delle abilità fondamentali dei VLMs come WMs. Attingendo dalla psicologia comparata e dalle scienze cognitive, proponiamo un framework in due fasi che valuta la Percezione (visiva, spaziale, temporale, quantitativa e del movimento) e la Previsione (simulazione meccanicistica, inferenza transitiva, inferenza composizionale) per fornire una valutazione atomica dei VLMs come WMs. Guidati da questo framework, introduciamo WM-ABench, un benchmark su larga scala che comprende 23 dimensioni di valutazione granulari in 6 ambienti simulati diversi con simulazioni controfattuali controllate. Attraverso 660 esperimenti su 15 dei più recenti VLMs commerciali e open-source, scopriamo che questi modelli presentano limitazioni sorprendenti nelle abilità di base di modellazione del mondo. Ad esempio, quasi tutti i modelli ottengono un'accuratezza vicina al caso casuale nel distinguere le traiettorie di movimento. Inoltre, mancano di una comprensione disaccoppiata: ad esempio, alcuni modelli tendono a credere che gli oggetti blu si muovano più velocemente di quelli verdi. Risultati e analisi più approfonditi rivelano significativi divari tra i VLMs e la modellazione del mondo a livello umano.
La cinematografia, il linguaggio visivo fondamentale del cinema, è essenziale per trasmettere narrativa, emozione e qualità estetica. Sebbene i recenti Modelli Visione-Linguaggio (VLMs) dimostrino una forte comprensione visiva generale, la loro competenza nel comprendere la grammatica cinematografica sfumata incorporata nelle singole inquadrature rimane in gran parte inesplorata e manca di una valutazione robusta. Questa lacuna critica limita sia la comprensione visiva fine sia la precisione della generazione video assistita dall'IA. Per affrontare questo problema, introduciamo ShotBench, un benchmark completo specificamente progettato per la comprensione del linguaggio cinematografico. Esso presenta oltre 3.5k coppie QA annotate da esperti provenienti da immagini e clip video, accuratamente selezionate da oltre 200 film acclamati (prevalentemente nominati agli Oscar) e che coprono otto dimensioni chiave della cinematografia. La nostra valutazione di 24 VLMs leader su ShotBench rivela le loro sostanziali limitazioni: anche il modello con le migliori prestazioni raggiunge meno del 60% di accuratezza media, in particolare lottando con indizi visivi fini e ragionamenti spaziali complessi. Per catalizzare il progresso in questo dominio, costruiamo ShotQA, un ampio dataset multimodale che comprende circa 70k coppie QA cinematografiche. Sfruttando ShotQA, sviluppiamo ShotVL attraverso la messa a punto supervisionata e l'ottimizzazione delle politiche relative al gruppo. ShotVL supera significativamente tutti i modelli open-source e proprietari esistenti su ShotBench, stabilendo nuove prestazioni all'avanguardia. Rendiamo open-source i nostri modelli, dati e codice per favorire un rapido progresso in questa cruciale area della comprensione e generazione cinematografica guidata dall'IA.
I compiti di predizione densa rivestono un'importanza significativa nella visione artificiale, mirando a apprendere etichette annotate a livello di pixel per un'immagine in input. Nonostante i progressi in questo campo, i metodi esistenti si concentrano principalmente su condizioni idealizzate, con una generalizzazione limitata agli scenari del mondo reale e affrontando la sfidante scarsità di dati reali. Per studiare sistematicamente questo problema, introduciamo prima DenseWorld, un benchmark che copre un ampio insieme di 25 compiti di predizione densa corrispondenti a urgenti applicazioni del mondo reale, caratterizzato da una valutazione unificata tra i compiti. Successivamente, proponiamo DenseDiT, che sfrutta al massimo i prior visivi dei modelli generativi per eseguire vari compiti di predizione densa del mondo reale attraverso una strategia unificata. DenseDiT combina un meccanismo di riutilizzo dei parametri e due rami leggeri che integrano adattivamente il contesto multi-scala, operando con meno dello 0,1% di parametri aggiuntivi. Le valutazioni su DenseWorld rivelano significativi cali di prestazioni nei baseline generali e specializzati esistenti, evidenziando la loro limitata generalizzazione al mondo reale. Al contrario, DenseDiT ottiene risultati superiori utilizzando meno dello 0,01% dei dati di addestramento dei baseline, sottolineando il suo valore pratico per il dispiegamento nel mondo reale. I nostri dati, checkpoint e codici sono disponibili all'indirizzo https://xcltql666.github.io/DenseDiTProj.
L'emergenza della Mixture of Experts (MoE) nei Large Language Models promette un costo di esecuzione ridotto per un numero di parametri del modello molto più elevato e una maggiore capacità di apprendimento, poiché solo una piccola frazione dei parametri viene attivata per ogni token di input. Tuttavia, è comunemente osservato che alcuni esperti vengono attivati molto più frequentemente di altri, portando a inefficienze del sistema quando gli esperti vengono eseguiti su dispositivi diversi in parallelo. Pertanto, introduciamo la Mixture of Grouped Experts (MoGE), che raggruppa gli esperti durante la selezione e bilancia il carico di lavoro degli esperti in modo più naturale rispetto alla MoE. Questo approccio vincola i token ad attivare un numero uguale di esperti all'interno di ciascun gruppo di esperti predefinito. Quando l'esecuzione di un modello è distribuita su più dispositivi, questo design architetturale garantisce un carico computazionale bilanciato tra i dispositivi, migliorando significativamente la velocità di elaborazione, in particolare durante la fase di inferenza. Inoltre, abbiamo sviluppato Pangu Pro MoE su Ascend NPU, un modello sparso basato su MoGE con un totale di 72 miliardi di parametri, di cui 16 miliardi vengono attivati per ogni token. La configurazione di Pangu Pro MoE è ottimizzata per Ascend 300I Duo e 800I A2 attraverso ampi studi di simulazione del sistema. I nostri esperimenti indicano che MoGE porta effettivamente a un migliore bilanciamento del carico degli esperti e a un'esecuzione più efficiente sia per l'addestramento che per l'inferenza del modello su Ascend NPU. Le prestazioni di inferenza di Pangu Pro MoE raggiungono 1148 token/s per scheda e possono essere ulteriormente migliorate a 1528 token/s per scheda grazie all'accelerazione speculativa, superando modelli Dense comparabili da 32B e 72B. Inoltre, otteniamo un eccellente rapporto costo-prestazioni per l'inferenza del modello su Ascend 300I Duo. I nostri studi dimostrano che le Ascend NPU sono in grado di addestrare Pangu Pro MoE con una massiccia parallelizzazione, rendendolo un modello leader nella classe con meno di 100 miliardi di parametri totali, superando modelli open-source di rilievo come GLM-Z1-32B e Qwen3-32B.
La robotica ha compiuto notevoli progressi hardware, dalle sfide urbane e robotiche di DARPA al primo torneo di kickboxing tra robot umanoidi, eppure l'autonomia commerciale rimane indietro rispetto ai progressi nel machine learning. Un collo di bottiglia significativo è il software: gli attuali stack robotici richiedono curve di apprendimento ripide, competenze di basso livello in C/C++, strumenti frammentati e un'integrazione hardware complessa, in netto contrasto con gli ecosistemi Python-centrici e ben documentati che hanno spinto l'IA moderna. Introduciamo ARK, un framework robotico open-source e Python-first progettato per colmare questo divario. ARK presenta un'interfaccia di ambiente in stile Gym che consente agli utenti di raccogliere dati, preprocessarli e addestrare politiche utilizzando algoritmi di apprendimento per imitazione all'avanguardia (ad esempio, ACT, Diffusion Policy), passando senza soluzione di continuità tra simulazione ad alta fedeltà e robot fisici. Un'architettura client-server leggera fornisce una comunicazione publisher-subscriber in rete, e i binding opzionali in C/C++ garantiscono prestazioni in tempo reale quando necessario. ARK include moduli riutilizzabili per il controllo, SLAM, pianificazione del movimento, identificazione del sistema e visualizzazione, insieme a un'interoperabilità nativa con ROS. Documentazione completa e casi di studio—dalla manipolazione alla navigazione mobile—dimostrano una prototipazione rapida, uno scambio hardware senza sforzo e pipeline end-to-end che rivaleggiano con la comodità dei flussi di lavoro mainstream del machine learning. Unificando le pratiche della robotica e dell'IA sotto un comune ombrello Python, ARK abbassa le barriere di ingresso e accelera la ricerca e il dispiegamento commerciale di robot autonomi.
I recenti progressi nella modellazione generativa profonda hanno sbloccato opportunità senza precedenti per la sintesi video. Tuttavia, nelle applicazioni del mondo reale, gli utenti spesso cercano strumenti per realizzare fedelmente le proprie intenzioni creative di editing con un controllo preciso e coerente. Nonostante i progressi ottenuti dai metodi esistenti, garantire un allineamento granulare con le intenzioni dell'utente rimane un problema aperto e complesso. In questo lavoro, presentiamo Shape-for-Motion, un nuovo framework che incorpora un proxy 3D per un editing video preciso e coerente. Shape-for-Motion raggiunge questo obiettivo convertendo l'oggetto target nel video di input in una mesh coerente nel tempo, ovvero un proxy 3D, consentendo di eseguire modifiche direttamente sul proxy e poi di inferirle nuovamente nei fotogrammi del video. Per semplificare il processo di editing, progettiamo una nuova Dual-Propagation Strategy che permette agli utenti di eseguire modifiche sulla mesh 3D di un singolo fotogramma, e le modifiche vengono poi propagate automaticamente alle mesh 3D degli altri fotogrammi. Le mesh 3D per i diversi fotogrammi vengono ulteriormente proiettate nello spazio 2D per produrre rendering di geometria e texture modificati, che servono come input a un modello di diffusione video disaccoppiato per generare i risultati editati. Il nostro framework supporta varie manipolazioni precise e fisicamente coerenti attraverso i fotogrammi video, tra cui editing della posa, rotazione, scalatura, traslazione, modifica della texture e composizione di oggetti. Il nostro approccio rappresenta un passo fondamentale verso flussi di lavoro di editing video di alta qualità e controllabili. Esperimenti estensivi dimostrano la superiorità e l'efficacia del nostro approccio. Pagina del progetto: https://shapeformotion.github.io/
I modelli visione-linguaggio (VLMs) attuali presentano difficoltà nel ragionamento spaziale fine, in particolare quando sono richiesti una logica multi-step e un allineamento spaziale preciso. In questo lavoro, introduciamo SpatialReasoner-R1, un modello di ragionamento visione-linguaggio progettato per affrontare queste limitazioni. Per costruire una supervisione di alta qualità per il ragionamento spaziale, abbiamo sviluppato un metodo Multi-Model Monte Carlo Tree Search (M3CTS) che genera traiettorie di ragionamento Long Chain-of-Thought (LongCoT) diverse e logicamente consistenti. Inoltre, proponiamo il fine-grained Direct Preference Optimization (fDPO), che introduce una granularità specifica per segmenti nelle preferenze per il grounding descrittivo e il ragionamento logico, guidato da un meccanismo di ricompensa spaziale che valuta le risposte candidate in base alla coerenza visiva, al grounding spaziale e alla coerenza logica. I risultati sperimentali dimostrano che fDPO ottiene un miglioramento medio del 4,1% rispetto al DPO standard nei compiti di qualità spaziale e un guadagno del 9,0% nei compiti di quantità spaziale. SpatialReasoner-R1, addestrato con fDPO, stabilisce un nuovo stato dell'arte su SPATIALRGPT-Bench, superando il baseline più forte del 9,8% in accuratezza media, mantenendo al contempo prestazioni competitive nei compiti generali di visione-linguaggio.
I modelli linguistico-visivi (VLMs) possono immaginare l'intera scena a partire da poche visualizzazioni, come fanno gli esseri umani? Gli esseri umani formano modelli mentali spaziali, rappresentazioni interne di spazi non visti, per ragionare su layout, prospettiva e movimento. Il nostro nuovo benchmark MindCube, con 21.154 domande su 3.268 immagini, evidenzia questo divario critico, in cui i VLMs esistenti mostrano prestazioni quasi casuali. Utilizzando MindCube, valutiamo sistematicamente quanto bene i VLMs costruiscono modelli mentali spaziali robusti rappresentando posizioni (mappatura cognitiva), orientamenti (presa di prospettiva) e dinamiche (simulazione mentale per movimenti "what-if"). Esploriamo quindi tre approcci per aiutare i VLMs ad approssimare modelli mentali spaziali, inclusi punti di vista intermedi non visti, catene di ragionamento in linguaggio naturale e mappe cognitive. Il miglioramento significativo deriva da un approccio sinergico, "mappare poi ragionare", che addestra congiuntamente il modello a generare prima una mappa cognitiva e poi a ragionare su di essa. Addestrando i modelli a ragionare su queste mappe interne, abbiamo aumentato l'accuratezza dal 37,8% al 60,8% (+23,0%). L'aggiunta del reinforcement learning ha spinto ulteriormente le prestazioni al 70,7% (+32,9%). La nostra intuizione chiave è che tale impalcatura di modelli mentali spaziali, costruendo e utilizzando attivamente rappresentazioni spaziali strutturate interne con processi di ragionamento flessibili, migliora significativamente la comprensione dello spazio non osservabile.
I rapidi progressi nei grandi modelli linguistici (LLM) hanno il potenziale di contribuire al progresso scientifico. Una capacità cruciale per questo obiettivo è la possibilità di riprodurre lavori esistenti. Per valutare l'abilità degli agenti di intelligenza artificiale nel riprodurre i risultati in un'area di ricerca attiva, introduciamo il benchmark Automated LLM Speedrunning, sfruttando i contributi della comunità di ricerca sul NanoGPT speedrun, una competizione per addestrare un modello GPT-2 nel minor tempo possibile. Ciascuno dei 19 task di speedrun fornisce all'agente lo script di addestramento dei record precedenti, eventualmente abbinato a uno dei tre formati di suggerimento, che vanno da pseudocodici a descrizioni simili a quelle di articoli scientifici sui miglioramenti dei nuovi record. I record sono progettati per essere eseguiti rapidamente e i miglioramenti negli speedrun comprendono una vasta gamma di modifiche a livello di codice, che vanno da avanzamenti algoritmici di alto livello a ottimizzazioni specifiche per l'hardware. Queste caratteristiche rendono il benchmark sia accessibile che realistico per il problema di frontiera del miglioramento dell'addestramento degli LLM. Scopriamo che i recenti LLM dotati di capacità di ragionamento, combinati con impalcature all'avanguardia, faticano a reimplementare innovazioni già note nel nostro benchmark, anche quando vengono forniti suggerimenti dettagliati. Il nostro benchmark fornisce quindi una misura semplice e non satura dell'abilità degli LLM di automatizzare la riproduzione scientifica, una competenza necessaria (ma non sufficiente) per un agente di ricerca autonomo.
Questo lavoro esplora l'abilitazione del ragionamento a Catena di Pensiero (CoT) per collegare indizi visivi attraverso più immagini. Una soluzione diretta consiste nell'adattare l'apprendimento per rinforzo basato su regole per i Modelli Visione-Linguaggio (VLMs). Tuttavia, tali metodi si basano tipicamente su coppie domanda-risposta curate manualmente, il che può risultare particolarmente impegnativo quando si ha a che fare con dettagli visivi fini e logiche complesse tra immagini. Ispirati dall'apprendimento auto-supervisionato delle rappresentazioni visive, osserviamo che le immagini contengono vincoli intrinseci che possono fungere da supervisione. Basandoci su questa intuizione, costruiamo triplette di immagini comprendenti due viste aumentate della stessa immagine e una terza immagine simile ma distinta. Durante l'addestramento, il modello viene sollecitato a generare un processo di ragionamento per confrontare queste immagini (ad esempio, determinare se sono uguali o diverse). Successivamente, ottimizziamo il modello con l'apprendimento per rinforzo basato su regole. A causa dell'elevata somiglianza visiva e della presenza di aumentazioni, il modello deve prestare attenzione a sottili cambiamenti visivi e svolgere un ragionamento logico per avere successo. Gli esperimenti dimostrano che, sebbene addestrato esclusivamente su compiti di confronto visivo, la capacità di ragionamento appresa si generalizza efficacemente a un'ampia gamma di domande. Senza fare affidamento su alcuna coppia domanda-risposta annotata manualmente, il nostro metodo ottiene miglioramenti significativi nei benchmark di ragionamento su più immagini e mostra prestazioni solide in compiti visivi generali.
L'apprendimento in contesto (ICL) multimodale rimane poco esplorato nonostante il suo significativo potenziale in ambiti come la medicina. I clinici si trovano regolarmente di fronte a compiti diversificati e specializzati che richiedono adattamento a partire da esempi limitati, come trarre intuizioni da alcuni casi precedenti rilevanti o considerare un insieme ristretto di diagnosi differenziali. Sebbene i modelli linguistici multimodali di grandi dimensioni (MLLMs) abbiano mostrato progressi nel rispondere a domande visive (VQA) in ambito medico, la loro capacità di apprendere compiti multimodali dal contesto è in gran parte sconosciuta. Introduciamo SMMILE, il primo benchmark multimodale ICL guidato da esperti per compiti medici. Undici esperti medici hanno curato problemi, ciascuno comprendente una query multimodale e esempi multimodali in contesto come dimostrazioni del compito. SMMILE comprende 111 problemi (517 triplette domanda-immagine-risposta) che coprono 6 specialità mediche e 13 modalità di imaging. Introduciamo inoltre SMMILE++, una variante ampliata con 1038 problemi permutati. Una valutazione completa di 15 MLLMs dimostra che la maggior parte dei modelli mostra una capacità ICL multimodale da moderata a scarsa nei compiti medici. Nelle valutazioni a risposta aperta, l'ICL contribuisce solo a un miglioramento medio dell'8% rispetto allo zero-shot su SMMILE e del 9,4% su SMMILE++. Osserviamo una suscettibilità agli esempi in contesto irrilevanti: anche un singolo esempio rumoroso o irrilevante può degradare le prestazioni fino al 9,5%. Inoltre, l'ordine degli esempi mostra un bias di recentezza, ovvero posizionare l'esempio più rilevante per ultimo può portare a sostanziali miglioramenti delle prestazioni fino al 71%. I nostri risultati evidenziano limitazioni e bias critici negli attuali MLLMs quando apprendono compiti medici multimodali dal contesto.
Recenti lavori che analizzano l'apprendimento in contesto (ICL) hanno identificato un ampio insieme di strategie che descrivono il comportamento del modello in diverse condizioni sperimentali. Il nostro obiettivo è unificare questi risultati chiedendoci perché un modello apprenda in primo luogo queste strategie disparate. Nello specifico, partiamo dall'osservazione che, quando addestrato per apprendere una miscela di compiti, come è comune nella letteratura, le strategie apprese da un modello per eseguire l'ICL possono essere catturate da una famiglia di predittori bayesiani: un predittore memorizzante, che assume un prior discreto sull'insieme di compiti visti, e un predittore generalizzante, in cui il prior corrisponde alla distribuzione sottostante dei compiti. Adottando la lente normativa dell'analisi razionale, in cui il comportamento di un apprendista è spiegato come un adattamento ottimale ai dati dati i vincoli computazionali, sviluppiamo un framework bayesiano gerarchico che predice quasi perfettamente le previsioni del prossimo token dei Transformer durante l'addestramento — senza assumere l'accesso ai suoi pesi. In questo framework, il pre-addestramento è visto come un processo di aggiornamento della probabilità a posteriori di diverse strategie, e il comportamento al momento dell'inferenza come una media ponderata a posteriori sulle previsioni di queste strategie. Il nostro framework si basa su ipotesi comuni riguardanti le dinamiche di apprendimento delle reti neurali, che rendono esplicito un compromesso tra perdita e complessità tra le strategie candidate: oltre a quanto bene una strategia spieghi i dati, la preferenza di un modello nell'implementare una strategia è dettata dalla sua complessità. Questo aiuta a spiegare fenomeni noti dell'ICL, offrendo al contempo nuove previsioni: ad esempio, mostriamo una tendenza superlineare nella scala temporale per la transizione dalla generalizzazione alla memorizzazione all'aumentare della diversità dei compiti. Nel complesso, il nostro lavoro avanza una spiegazione e una previsione dell'ICL basata su compromessi tra perdita e complessità delle strategie.
La maggior parte dei modelli linguistici affronta un compromesso fondamentale in cui capacità potenti richiedono risorse computazionali sostanziali. Con Jan-nano, un modello linguistico da 4 miliardi di parametri, superiamo questo vincolo ridefinendo l'efficienza attraverso una specializzazione radicale: invece di cercare di sapere tutto, padroneggia l'arte di trovare qualsiasi cosa all'istante. Addestrato a partire da Qwen3-4B utilizzando il nostro innovativo sistema multi-stadio RLVR, che elimina completamente la dipendenza dall'addestramento basato sulla previsione del token successivo (SFT), Jan-nano raggiunge l'83,2% sul benchmark SimpleQA con integrazione MCP, pur funzionando su hardware consumer. Con una lunghezza contestuale di 128K, Jan-nano dimostra che l'intelligenza non riguarda la scala, ma la strategia.
Presentiamo Gazal-R1, un modello linguistico da 32 miliardi di parametri che raggiunge prestazioni all'avanguardia nel ragionamento medico, fornendo spiegazioni trasparenti e passo-passo per il processo decisionale clinico. Basato su Qwen3 32B, il nostro modello dimostra che un addestramento strategico può consentire a modelli di medie dimensioni di superare controparti significativamente più grandi in domini specializzati. Abbiamo sviluppato una pipeline di addestramento innovativa in due fasi: prima, un fine-tuning supervisionato su un dataset accuratamente curato di 107.033 esempi sintetici di ragionamento medico che insegna un pensiero clinico strutturato, potenziato da tecniche avanzate di efficienza parametrica tra cui Weight-Decomposed Low-Rank Adaptation (DoRA) e Rank-Stabilized LoRA (rsLoRA); seconda, un apprendimento per rinforzo utilizzando Group Relative Policy Optimization (GRPO) con un sofisticato sistema di ricompensa multi-componente che affina precisione, aderenza al formato e qualità del ragionamento. Gazal-R1 ottiene prestazioni eccezionali su benchmark medici, raggiungendo l'87,1% su MedQA, l'81,6% su MMLU Pro (Medical) e il 79,6% su PubMedQA, superando modelli fino a 12 volte più grandi. Oltre ai suoi solidi risultati empirici, questo lavoro fornisce approfondimenti dettagliati sulle sfide dell'addestramento di modelli capaci di ragionamento in domini specializzati, inclusi problemi di reward hacking, instabilità dell'addestramento e la tensione fondamentale tra richiamo fattuale e ragionamento dettagliato. La nostra metodologia offre un framework riproducibile per sviluppare modelli linguistici ad alta capacità e specifici per dominio che bilanciano prestazioni, efficienza e spiegabilità.
In molti settori, la previsione di metriche relative a sistemi di grandi dimensioni rappresenta un problema fondamentale, affrontato principalmente attraverso la regressione tabulare tradizionale. Tuttavia, tali metodi incontrano difficoltà con dati complessi provenienti da sistemi reali, come file di configurazione o log di sistema, dove l'ingegnerizzazione delle feature è spesso impraticabile. Proponiamo la regressione testo-testo come alternativa generale e scalabile. Per la previsione dell'efficienza delle risorse su Borg, il sistema di scheduling di cluster computazionali su larga scala di Google, un modello encoder-decoder da 60 milioni di parametri, addestrato partendo da un'inizializzazione casuale, raggiunge una correlazione di rango quasi perfetta di 0.99 (media di 0.9) sull'intera flotta e un errore quadratico medio (MSE) 100 volte inferiore rispetto agli approcci tabulari. Il modello si adatta facilmente a nuovi task con soli 500 esempi few-shot e cattura le densità di distribuzioni complesse dei risultati. Studi di ablazione evidenziano l'importanza dell'uso di encoder, dell'aumento della lunghezza delle sequenze e della quantificazione intrinseca dell'incertezza del modello. Questi risultati aprono la strada a simulatori universali di risultati del mondo reale.
La ricerca di una generazione di contenuti di alta qualità, efficiente e controllabile rimane una sfida centrale nel campo dei contenuti generati dall'intelligenza artificiale (AIGC). Sebbene i generatori one-step, abilitati da tecniche di distillazione della diffusione, offrano un'eccellente qualità di generazione e un'efficienza computazionale, adattarli a nuove condizioni di controllo—come vincoli strutturali, linee guida semantiche o input esterni—rappresenta una sfida significativa. Gli approcci convenzionali spesso richiedono modifiche computazionalmente costose al modello di base e una successiva distillazione della diffusione. Questo articolo introduce il Noise Consistency Training (NCT), un approccio innovativo e leggero per integrare direttamente nuovi segnali di controllo in generatori one-step pre-addestrati, senza la necessità di accedere alle immagini di training originali o di riaddestrare il modello di diffusione di base. NCT opera introducendo un modulo adattatore e impiegando una funzione di perdita di consistenza del rumore nello spazio del rumore del generatore. Questa perdita allinea il comportamento di generazione del modello adattato attraverso rumori che sono condizionalmente dipendenti in misura variabile, guidandolo implicitamente a rispettare il nuovo controllo. Teoricamente, questo obiettivo di training può essere interpretato come la minimizzazione della distanza distributiva tra il generatore adattato e la distribuzione condizionale indotta dalle nuove condizioni. NCT è modulare, efficiente dal punto di vista dei dati e facilmente implementabile, basandosi solo sul generatore one-step pre-addestrato e su un modello di segnale di controllo. Esperimenti estesi dimostrano che NCT raggiunge una generazione controllabile all'avanguardia in un singolo passaggio in avanti, superando i metodi esistenti basati su multi-step e distillazione sia nella qualità della generazione che nell'efficienza computazionale. Il codice è disponibile all'indirizzo https://github.com/Luo-Yihong/NCT.
Presentiamo Confucius3-Math, un modello di linguaggio open-source di grandi dimensioni con 14 miliardi di parametri che (1) funziona in modo efficiente su una singola GPU di livello consumer; (2) raggiunge prestazioni all'avanguardia (SOTA) in una gamma di compiti di ragionamento matematico, superando molti modelli di dimensioni significativamente maggiori. In particolare, come parte della nostra missione di migliorare l'educazione e la diffusione della conoscenza con l'IA, Confucius3-Math è specificamente dedicato all'apprendimento della matematica per studenti e educatori cinesi del ciclo K-12. Costruito attraverso un post-addestramento con apprendimento per rinforzo (RL) su larga scala, Confucius3-Math è allineato con il curriculum nazionale e eccelle nel risolvere i principali problemi matematici del ciclo K-12 cinese a basso costo. In questo rapporto condividiamo la nostra ricetta di sviluppo, le sfide che abbiamo incontrato e le tecniche che abbiamo sviluppato per superarle. In particolare, introduciamo tre innovazioni tecniche: Targeted Entropy Regularization, Recent Sample Recovery e Policy-Specific Hardness Weighting. Queste innovazioni comprendono una nuova regolarizzazione dell'entropia, una politica di pianificazione dei dati innovativa e un migliorato stimatore del vantaggio relativo al gruppo. Collettivamente, stabilizzano significativamente l'addestramento RL, migliorano l'efficienza dei dati e aumentano le prestazioni. Il nostro lavoro dimostra la fattibilità di costruire modelli di ragionamento forti in un dominio specifico a basso costo. Rendiamo open-source il nostro modello e il codice su https://github.com/netease-youdao/Confucius3-Math.
L'ascesa delle tecniche di imaging come la tomografia a coerenza ottica (OCT) e i progressi nel deep learning (DL) hanno permesso a clinici e ricercatori di semplificare la stadiazione delle malattie retiniche. Un approccio DL popolare è l'apprendimento auto-supervisionato (SSL), in cui i modelli apprendono da grandi quantità di dati non etichettati, evitando costose annotazioni. L'SSL ha permesso lo sviluppo di modelli di base (FMs), modelli di grandi dimensioni che possono essere utilizzati per una varietà di task downstream. Tuttavia, gli attuali FMs per OCT, addestrati esclusivamente su dati di immagini, mancano di una comprensione semantica completa e robusta delle immagini, come evidenziato dalle loro prestazioni downstream (soprattutto per task complessi), e richiedono quindi una messa a punto supervisionata (che potrebbe non essere fattibile) per adattarsi meglio a specifiche applicazioni e popolazioni. Per affrontare questo problema, proponiamo RetFiner, uno schema di raffinamento SSL visione-linguaggio che migliora le rappresentazioni degli FMs esistenti e ne consente un adattamento efficiente e diretto a popolazioni specifiche per migliorare le prestazioni downstream. Il nostro metodo utilizza un insieme diversificato di obiettivi di addestramento che sfruttano il ricco segnale di supervisione presente nei dati testuali. Abbiamo testato RetFiner sui FMs retinici RETFound, UrFound e VisionFM, mostrando miglioramenti significativi nelle prestazioni di linear probing su sette task di classificazione OCT altamente diversificati, con un aumento medio rispettivamente di 5,8, 3,9 e 2,1 punti percentuali rispetto alle loro baseline. Il nostro codice e i pesi del modello sono disponibili pubblicamente all'indirizzo https://github.com/ronnief1/RetFiner.
I moderni modelli linguistici di grandi dimensioni, come le serie LLaMA, Qwen e DeepSeek, adottano prevalentemente l'architettura Transformer con Pre-LayerNorm (Pre-LN). Sebbene sia stabile durante il pre-addestramento e scalabile a dimensioni di modello elevate, Pre-LN soffre di una crescita esponenziale della varianza delle attivazioni attraverso i livelli, causando la dominanza del percorso residuo rispetto alle uscite dei sottolivelli e limitando la capacità di apprendimento degli strati più profondi. Per mitigare questo problema, proponiamo il Gradient-Preserving Activation Scaling (GPAS), una tecnica semplice che può essere utilizzata in combinazione con approcci esistenti. GPAS funziona ridimensionando le attivazioni intermedie mantenendo inalterati i loro gradienti. Ciò preserva intatte le informazioni nelle attivazioni ed evita il problema della scomparsa del gradiente associato alla riduzione del gradiente. Esperimenti estesi su varie dimensioni di modello, da 71M a 1B, dimostrano che GPAS ottiene miglioramenti di prestazioni consistenti. Oltre a potenziare i Transformer con Pre-LN, GPAS mostra anche promettenti miglioramenti in architetture alternative come Sandwich-LN e DeepNorm, dimostrando la sua versatilità e il potenziale per migliorare le dinamiche di addestramento in un'ampia gamma di contesti.
Il calcolo al momento del test è emerso come un paradigma potente per migliorare le prestazioni dei grandi modelli linguistici (LLM), dove generare più output o affinare singole catene di ragionamento può aumentare significativamente l'accuratezza delle risposte. Tuttavia, i metodi esistenti come Best-of-N, voto a maggioranza e auto-riflessione applicano tipicamente il ragionamento in modo uniforme su tutti gli input, trascurando il fatto che problemi diversi possono richiedere livelli di profondità di ragionamento differenti. In questo lavoro, proponiamo il Ragionamento Frazionario, un framework privo di addestramento e agnostico rispetto al modello, che consente un controllo continuo sull'intensità del ragionamento al momento dell'inferenza, superando i limiti delle istruzioni fisse. Il nostro metodo opera estraendo il vettore di controllo latente associato a un ragionamento più profondo e riapplicandolo con un fattore di scala regolabile, permettendo al modello di adattare il proprio processo di ragionamento alla complessità di ciascun input. Ciò supporta due modalità chiave di scalabilità al momento del test: (1) migliorare la qualità dell'output nelle strategie basate sull'ampiezza (ad esempio, Best-of-N, voto a maggioranza), e (2) aumentare la correttezza delle singole catene di ragionamento nelle strategie basate sulla profondità (ad esempio, auto-riflessione). Gli esperimenti su GSM8K, MATH500 e GPQA dimostrano che il Ragionamento Frazionario migliora costantemente le prestazioni su una varietà di compiti di ragionamento e modelli.
L'apprendimento della struttura gerarchica dei dati nei modelli visione-linguaggio rappresenta una sfida significativa. I lavori precedenti hanno tentato di affrontare questa sfida utilizzando l'apprendimento per implicazione. Tuttavia, questi approcci non riescono a modellare esplicitamente la natura transitiva dell'implicazione, che stabilisce la relazione tra ordine e semantica all'interno di uno spazio di rappresentazione. In questo lavoro, introduciamo Radial Cross-Modal Embeddings (RCME), un framework che consente la modellazione esplicita dell'implicazione con transitività forzata. Il nostro framework proposto ottimizza l'ordine parziale dei concetti all'interno dei modelli visione-linguaggio. Sfruttando il nostro framework, sviluppiamo un modello di base visione-linguaggio gerarchico in grado di rappresentare la gerarchia nell'Albero della Vita. I nostri esperimenti sulla classificazione gerarchica delle specie e sui task di recupero gerarchico dimostrano le prestazioni migliorate dei nostri modelli rispetto ai modelli state-of-the-art esistenti. Il nostro codice e i nostri modelli sono open-source all'indirizzo https://vishu26.github.io/RCME/index.html.
Presentiamo TAPAS (Task-based Adaptation and Planning using AgentS), un framework multi-agente che integra Modelli Linguistici di Grande Dimensione (LLM) con la pianificazione simbolica per risolvere compiti complessi senza la necessità di modelli ambientali definiti manualmente. TAPAS utilizza agenti specializzati basati su LLM che collaborano per generare e adattare modelli di dominio, stati iniziali e specifiche degli obiettivi secondo necessità, impiegando meccanismi strutturati di chiamata di strumenti. Attraverso questa interazione basata su strumenti, gli agenti a valle possono richiedere modifiche agli agenti a monte, consentendo l'adattamento a nuovi attributi e vincoli senza la ridefinizione manuale del dominio. Un agente di esecuzione in stile ReAct (Reason+Act), abbinato alla traduzione in linguaggio naturale dei piani, colma il divario tra piani generati dinamicamente e le capacità reali dei robot. TAPAS dimostra prestazioni solide nei domini di pianificazione di riferimento e nell'ambiente simulato VirtualHome.