Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene i grandi modelli linguistici (LLM) basati sul ragionamento abbiano eccelso in matematica e programmazione, le loro capacità nel rispondere a domande mediche ad alta intensità di conoscenza rimangono poco esplorate. Per affrontare questa lacuna, introduciamo ReasonMed, il più grande dataset di ragionamento medico, composto da 370k esempi di alta qualità distillati da 1,7 milioni di percorsi di ragionamento iniziali generati da vari LLM. ReasonMed è costruito attraverso un processo di verifica e affinamento multi-agente, in cui progettiamo un Error Refiner per migliorare i percorsi di ragionamento identificando e correggendo i passaggi soggetti a errori segnalati da un verificatore. Sfruttando ReasonMed, investigiamo sistematicamente le migliori pratiche per addestrare modelli di ragionamento medico e scopriamo che combinare un ragionamento dettagliato a catena di pensiero (Chain-of-Thought, CoT) con riassunti concisi delle risposte rappresenta la strategia di fine-tuning più efficace. Basandoci su questa strategia, addestriamo ReasonMed-7B, che stabilisce un nuovo benchmark per i modelli sotto i 10 miliardi di parametri, superando il precedente migliore del 4,17% e superando persino LLaMA3.1-70B su PubMedQA del 4,60%.
La costruzione di dataset su larga scala per il task di risoluzione delle issue di GitHub è cruciale sia per l'addestramento che per la valutazione delle capacità di ingegneria del software dei Large Language Models (LLMs). Tuttavia, il processo tradizionale per creare tali benchmark è notoriamente impegnativo e laborioso, in particolare nelle fasi di configurazione degli ambienti di valutazione, valutazione dei risultati dei test e validazione delle istanze del task. In questo articolo, proponiamo SWE-Factory, una pipeline automatizzata progettata per affrontare queste sfide. Per risolvere questi problemi, la nostra pipeline integra tre componenti automatizzati fondamentali. Innanzitutto, introduciamo SWE-Builder, un sistema multi-agente che automatizza la costruzione degli ambienti di valutazione, impiegando quattro agenti specializzati che operano in un ciclo collaborativo e iterativo e sfruttano un pool di memoria ambientale per migliorare l'efficienza. In secondo luogo, introduciamo un metodo di valutazione standardizzato basato sui codici di uscita, che elimina la necessità di scrivere manualmente parser personalizzati. Infine, automatizziamo il processo di validazione fail2pass utilizzando questi segnali affidabili di codice di uscita. Esperimenti su 671 issue in quattro linguaggi di programmazione dimostrano che la nostra pipeline può costruire efficacemente istanze di task valide; ad esempio, con GPT-4.1-mini, il nostro SWE-Builder costruisce 269 istanze valide a un costo di 0.045 per istanza, mentre con Gemini-2.5-flash raggiunge prestazioni comparabili al costo più basso di 0.024 per istanza. Dimostriamo inoltre che la nostra valutazione basata sui codici di uscita raggiunge un'accuratezza del 100% rispetto all'ispezione manuale, e la nostra validazione automatizzata fail2pass raggiunge una precisione di 0.92 e un recall di 1.00. Speriamo che la nostra pipeline automatizzata acceleri la raccolta di dataset su larga scala e di alta qualità per la risoluzione delle issue di GitHub, sia per l'addestramento che per la valutazione. Il nostro codice e i dataset sono disponibili all'indirizzo https://github.com/DeepSoftwareAnalytics/swe-factory.
Il ripristino delle immagini mira a recuperare immagini degradate. Tuttavia, i metodi di ripristino basati sulla diffusione, nonostante il grande successo nel ripristino di immagini naturali, spesso faticano a ricostruire fedelmente le regioni testuali nelle immagini degradate. Questi metodi generano frequentemente pattern simili al testo che sono plausibili ma errati, un fenomeno che definiamo allucinazione testo-immagine. In questo articolo, introduciamo il ripristino delle immagini con consapevolezza del testo (Text-Aware Image Restoration, TAIR), un nuovo compito di ripristino che richiede il recupero simultaneo dei contenuti visivi e della fedeltà testuale. Per affrontare questo compito, presentiamo SA-Text, un benchmark su larga scala di 100K immagini di scene di alta qualità densamente annotate con istanze di testo diverse e complesse. Inoltre, proponiamo un framework di diffusione multi-task, chiamato TeReDiff, che integra le caratteristiche interne dei modelli di diffusione in un modulo di rilevamento del testo, consentendo a entrambi i componenti di beneficiare di un addestramento congiunto. Ciò permette l'estrazione di rappresentazioni testuali ricche, che vengono utilizzate come prompt nei successivi passaggi di riduzione del rumore. Esperimenti estensivi dimostrano che il nostro approccio supera costantemente i metodi di ripristino all'avanguardia, ottenendo miglioramenti significativi nell'accuratezza del riconoscimento del testo. Visita la nostra pagina del progetto: https://cvlab-kaist.github.io/TAIR/
Nonostante i rapidi progressi nei modelli di generazione video, creare video narrativi coerenti che si estendono su più scene e personaggi rimane una sfida. I metodi attuali spesso convertono rigidamente fotogrammi chiave pre-generati in clip di lunghezza fissa, risultando in narrazioni disgiunte e problemi di ritmo. Inoltre, l'instabilità intrinseca dei modelli di generazione video significa che anche una singola clip di bassa qualità può degradare significativamente la coerenza logica e la continuità visiva dell'intera animazione. Per superare questi ostacoli, introduciamo AniMaker, un framework multi-agente che consente una generazione efficiente di clip multi-candidato e una selezione di clip consapevole della narrazione, creando così animazioni globalmente consistenti e coerenti con la storia esclusivamente da input testuali. Il framework è strutturato attorno a agenti specializzati, tra cui il Director Agent per la generazione dello storyboard, il Photography Agent per la generazione delle clip video, il Reviewer Agent per la valutazione e il Post-Production Agent per l'editing e il doppiaggio. Al centro dell'approccio di AniMaker ci sono due componenti tecnici chiave: MCTS-Gen nel Photography Agent, una strategia efficiente ispirata al Monte Carlo Tree Search (MCTS) che naviga in modo intelligente lo spazio dei candidati per generare clip ad alto potenziale ottimizzando l'uso delle risorse; e AniEval nel Reviewer Agent, il primo framework specificamente progettato per la valutazione di animazioni multi-shot, che valuta aspetti critici come la coerenza a livello di storia, il completamento delle azioni e le caratteristiche specifiche dell'animazione considerando ogni clip nel contesto delle clip precedenti e successive. Gli esperimenti dimostrano che AniMaker raggiunge una qualità superiore misurata da metriche popolari come VBench e il nostro framework AniEval proposto, migliorando significativamente l'efficienza della generazione multi-candidato e avvicinando l'animazione narrativa generata dall'IA agli standard di produzione.
Presentiamo Magistral, il primo modello di ragionamento di Mistral e la nostra pipeline scalabile di apprendimento per rinforzo (RL). Invece di affidarci a implementazioni esistenti e tracce di RL distillate da modelli precedenti, seguiamo un approccio dal basso, basandoci esclusivamente sui nostri modelli e infrastrutture. In particolare, dimostriamo uno stack che ci ha permesso di esplorare i limiti dell'addestramento puro di LLM tramite RL, presentiamo un metodo semplice per forzare il linguaggio di ragionamento del modello e mostriamo che l'RL su dati testuali mantiene la maggior parte delle capacità del checkpoint iniziale. Scopriamo che l'RL su testo mantiene o migliora la comprensione multimodale, il rispetto delle istruzioni e il richiamo di funzioni. Presentiamo Magistral Medium, addestrato per il ragionamento su Mistral Medium 3 utilizzando esclusivamente RL, e rendiamo open-source Magistral Small (Apache 2.0), che include ulteriormente dati di avvio a freddo da Magistral Medium.
Presentiamo VRBench, il primo benchmark di video narrativi lunghi progettato per valutare le capacità di ragionamento multi-step dei modelli di grandi dimensioni, affrontando le limitazioni delle valutazioni esistenti che trascurano il ragionamento temporale e la validità procedurale. Esso comprende 1.010 video lunghi (con una durata media di 1,6 ore), insieme a 9.468 coppie domanda-risposta multi-step etichettate manualmente e 30.292 passaggi di ragionamento con timestamp. Questi video sono selezionati attraverso un processo di filtraggio multi-fase che include una revisione inter-rater da parte di esperti per garantire la coerenza della trama. Sviluppiamo un framework collaborativo uomo-IA che genera catene di ragionamento coerenti, ciascuna delle quali richiede più passaggi temporalmente ancorati, abbracciando sette tipologie (ad esempio, attribuzione di eventi, inferenza implicita). VRBench progetta una pipeline di valutazione multi-fase che valuta i modelli sia a livello di risultato che di processo. Oltre ai MCQ per i risultati finali, proponiamo una metrica di punteggio guidata da LLM a livello di progresso per valutare la qualità della catena di ragionamento da molteplici dimensioni in modo completo. Attraverso valutazioni estensive di 12 LLM e 16 VLM su VRBench, conduciamo un'analisi approfondita e forniamo preziose intuizioni che fanno progredire il campo del ragionamento multi-step.
I token audio discreti sono rappresentazioni compatte che mirano a preservare la qualità percettiva, il contenuto fonetico e le caratteristiche del parlante, consentendo al contempo un'archiviazione e un'inferenza efficienti, nonché prestazioni competitive in una vasta gamma di task downstream. Essi rappresentano un'alternativa pratica alle feature continue, permettendo l'integrazione di voce e audio nei moderni modelli linguistici di grandi dimensioni (LLM). Con il crescente interesse per l'elaborazione audio basata su token, sono emersi vari metodi di tokenizzazione, e diverse rassegne hanno esaminato i progressi più recenti nel campo. Tuttavia, gli studi esistenti spesso si concentrano su domini o task specifici e mancano di un confronto unificato su vari benchmark. Questo articolo presenta una revisione sistematica e un benchmark dei tokenizzatori audio discreti, coprendo tre domini: parlato, musica e audio generico. Proponiamo una tassonomia degli approcci di tokenizzazione basata su encoder-decoder, tecniche di quantizzazione, paradigma di addestramento, streamability e domini di applicazione. Valutiamo i tokenizzatori su più benchmark per la ricostruzione, le prestazioni downstream e la modellazione linguistica acustica, e analizziamo i compromessi attraverso studi di ablazione controllati. I nostri risultati evidenziano limitazioni chiave, considerazioni pratiche e sfide aperte, fornendo intuizioni e linee guida per la ricerca futura in questo settore in rapida evoluzione. Per ulteriori informazioni, inclusi i nostri risultati principali e il database dei tokenizzatori, si prega di consultare il nostro sito web: https://poonehmousavi.github.io/dates-website/.
Introduciamo Domain2Vec, un approccio innovativo che scompone qualsiasi dataset in una combinazione lineare di diversi meta-domini, un nuovo concetto progettato per catturare le caratteristiche fondamentali sottostanti dei dataset. Domain2Vec mantiene un vocabolario di meta-domini e utilizza un classificatore per scomporre qualsiasi dataset dato in un vettore di dominio che corrisponde a una distribuzione su questo vocabolario. Questi vettori di dominio consentono l'identificazione della miscela di dati ottimale per il pre-addestramento di modelli linguistici (LM) in modo privo di addestramento, sotto l'**Assunzione di Allineamento della Distribuzione** (DA^{2}), che suggerisce che quando le distribuzioni di dati del set di addestramento e del set di validazione sono meglio allineate, si ottiene una perdita di validazione inferiore. Inoltre, Domain2Vec può essere integrato senza soluzione di continuità in lavori precedenti per modellare la relazione tra vettori di dominio e prestazioni del LM, migliorando notevolmente l'efficienza e la scalabilità dei metodi precedenti. Esperimenti estensivi dimostrano che Domain2Vec aiuta a trovare la miscela di dati che migliora le prestazioni nei task downstream con un sovraccarico computazionale minimo. Nello specifico, Domain2Vec raggiunge la stessa perdita di validazione su Pile-CC utilizzando solo il 51,5% del calcolo richiesto quando si addestra sulla miscela originale del dataset The Pile. Con un budget computazionale equivalente, Domain2Vec migliora le prestazioni downstream in media del 2,83%.
Recentemente, gli agenti basati su modelli linguistici multimodali di grandi dimensioni (MLLM) hanno ottenuto progressi significativi in vari domini. Tuttavia, costruire un agente generalista con capacità come percezione, pianificazione, azione, grounding e riflessione in ambienti open-world come Minecraft rimane una sfida: dati specifici del dominio insufficienti, interferenza tra compiti eterogenei e diversità visiva negli ambienti open-world. In questo articolo, affrontiamo queste sfide attraverso tre contributi chiave. 1) Proponiamo una pipeline di generazione dei dati potenziata dalla conoscenza per fornire dati di addestramento scalabili e di alta qualità per lo sviluppo degli agenti. 2) Per mitigare l'interferenza tra compiti eterogenei, introduciamo un'architettura Mixture-of-Experts (MoE) con routing a livello di compito. 3) Sviluppiamo un approccio di Reinforcement Learning Aumentato dal Ragionamento Multimodale per migliorare la capacità di ragionamento dell'agente di fronte alla diversità visiva in Minecraft. Basandoci su queste innovazioni, presentiamo Optimus-3, un agente generico per Minecraft. I risultati sperimentali dimostrano che Optimus-3 supera sia i modelli linguistici multimodali generalisti che gli agenti all'avanguardia esistenti in un'ampia gamma di compiti nell'ambiente Minecraft. Pagina del progetto: https://cybertronagent.github.io/Optimus-3.github.io/
Generare poster estetici è più impegnativo rispetto alla creazione di semplici immagini di design: richiede non solo un rendering preciso del testo, ma anche l'integrazione senza soluzione di continuità di contenuti artistici astratti, layout accattivanti e un'armonia stilistica complessiva. Per affrontare questa sfida, proponiamo PosterCraft, un framework unificato che abbandona le precedenti pipeline modulari e i layout rigidi e predefiniti, consentendo al modello di esplorare liberamente composizioni coerenti e visivamente coinvolgenti. PosterCraft utilizza un flusso di lavoro a cascata attentamente progettato per ottimizzare la generazione di poster ad alta estetica: (i) ottimizzazione su larga scala del rendering del testo sul nostro nuovo dataset Text-Render-2M; (ii) fine-tuning supervisionato con consapevolezza regionale su HQ-Poster100K; (iii) rinforzo estetico del testo tramite ottimizzazione delle preferenze best-of-n; e (iv) affinamento congiunto tramite feedback visivo-linguistico. Ogni fase è supportata da una pipeline di costruzione dei dati completamente automatizzata, progettata per soddisfare le sue esigenze specifiche, consentendo un addestramento robusto senza complesse modifiche architetturali. Valutato in numerosi esperimenti, PosterCraft supera significativamente i benchmark open-source in termini di accuratezza del rendering, coerenza del layout e attrattiva visiva complessiva, avvicinandosi alla qualità dei sistemi commerciali SOTA. Il nostro codice, modelli e dataset sono disponibili nella pagina del progetto: https://ephemeral182.github.io/PosterCraft.
I recenti metodi di guida nei modelli di diffusione dirigono il campionamento inverso perturbando il modello per costruire un modello debole implicito e guidare la generazione lontano da esso. Tra questi approcci, la perturbazione dell'attenzione ha dimostrato forti prestazioni empiriche in scenari incondizionati dove la guida senza classificatore non è applicabile. Tuttavia, i metodi esistenti di perturbazione dell'attenzione mancano di approcci principiati per determinare dove dovrebbero essere applicate le perturbazioni, specialmente nelle architetture Diffusion Transformer (DiT) dove i calcoli rilevanti per la qualità sono distribuiti tra i livelli. In questo articolo, investigiamo la granularità delle perturbazioni dell'attenzione, dal livello del livello fino ai singoli head di attenzione, e scopriamo che specifici head governano concetti visivi distinti come struttura, stile e qualità della texture. Basandoci su questa intuizione, proponiamo "HeadHunter", un framework sistematico per selezionare iterativamente gli head di attenzione che si allineano con obiettivi centrati sull'utente, consentendo un controllo fine sulla qualità della generazione e sugli attributi visivi. Inoltre, introduciamo SoftPAG, che interpola linearmente la mappa di attenzione di ciascun head selezionato verso una matrice identità, fornendo una manopola continua per regolare la forza della perturbazione e sopprimere gli artefatti. Il nostro approccio non solo mitiga i problemi di eccessiva levigatezza delle perturbazioni a livello di livello esistenti, ma consente anche la manipolazione mirata di specifici stili visivi attraverso la selezione compositiva degli head. Validiamo il nostro metodo su moderni modelli DiT su larga scala per la generazione di immagini da testo, inclusi Stable Diffusion 3 e FLUX.1, dimostrando prestazioni superiori sia nel miglioramento della qualità generale che nella guida specifica per lo stile. Il nostro lavoro fornisce la prima analisi a livello di head della perturbazione dell'attenzione nei modelli di diffusione, scoprendo una specializzazione interpretabile all'interno dei livelli di attenzione e consentendo la progettazione pratica di strategie di perturbazione efficaci.
Proponiamo Ming-Omni, un modello multimodale unificato in grado di elaborare immagini, testo, audio e video, dimostrando una forte competenza sia nella generazione vocale che in quella di immagini. Ming-Omni utilizza encoder dedicati per estrarre token da diverse modalità, che vengono poi elaborati da Ling, un'architettura MoE dotata di router specifici per modalità di nuova concezione. Questo design consente a un singolo modello di elaborare e fondere in modo efficiente input multimodali all'interno di un framework unificato, facilitando così diverse attività senza richiedere modelli separati, fine-tuning specifici per task o riprogettazioni strutturali. In modo significativo, Ming-Omni va oltre i modelli multimodali convenzionali supportando la generazione di audio e immagini. Ciò è reso possibile grazie all'integrazione di un decoder audio avanzato per una sintesi vocale naturale e di Ming-Lite-Uni per la generazione di immagini di alta qualità, che consentono inoltre al modello di impegnarsi in chat contestuali, eseguire la conversione da testo a voce e condurre un'editing di immagini versatile. I nostri risultati sperimentali dimostrano che Ming-Omni offre una soluzione potente per la percezione e la generazione unificate in tutte le modalità. In particolare, il nostro Ming-Omni è il primo modello open-source, a nostra conoscenza, a eguagliare GPT-4o nel supporto alle modalità, e rilasciamo tutto il codice e i pesi del modello per incoraggiare ulteriori ricerche e sviluppi nella comunità.
Con quale efficienza in termini di costi possiamo stimolare un ragionamento avanzato nei modelli linguistici sfruttando le loro rappresentazioni sottostanti? Rispondiamo a questa domanda con Resa, una famiglia di modelli di ragionamento da 1,5 miliardi di parametri addestrati attraverso una nuova ed efficiente procedura di tuning con autoencoder sparsi (SAE-Tuning). Questo metodo addestra prima un SAE per catturare le capacità di ragionamento da un modello sorgente, e poi utilizza il SAE addestrato per guidare un processo standard di fine-tuning supervisionato per stimolare tali capacità in un modello target, tutto utilizzando dati verificati di domande e risposte senza tracce di ragionamento. È degno di nota che, quando applicato a determinati modelli di base prima di un ulteriore addestramento con rinforzo (RL), SAE-Tuning mantiene oltre il 97% delle prestazioni di ragionamento della sua controparte addestrata con RL, riducendo i costi di addestramento di oltre 2000 volte a circa \$1 e il tempo di addestramento di oltre 450 volte a circa 20 minuti. Inoltre, quando applicato a modelli leggermente addestrati con RL (ad esempio, entro 1 ora su 2 GPU), consente prestazioni di ragionamento come il 43,33% di Pass@1 su AIME24 e il 90% di Pass@1 su AMC23 per un costo aggiuntivo di circa \$1. Sorprendentemente, le capacità di ragionamento estratte tramite SAE sono potenzialmente sia generalizzabili che modulari. La generalizzabilità significa che le capacità estratte da un dataset migliorano ancora le prestazioni su un corpus più ampio e sovrapposto. La modularità significa che le capacità estratte da Qwen o Qwen-Math possono essere aggiunte al modello R1-Distill al momento del test, senza alcun riaddestramento, e produrre guadagni comparabili. Estese analisi di ablazione convalidano questi risultati e tutti gli artefatti sono completamente open-source.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un grande potenziale nell'affrontare problemi di data science del mondo reale. Gli agenti di data science guidati da LLM promettono di automatizzare l'intera pipeline di machine learning, ma la loro efficacia nel mondo reale rimane limitata. I framework esistenti dipendono da flussi di lavoro rigidi e predefiniti e da strategie di codifica inflessibili; di conseguenza, eccellono solo su problemi relativamente semplici e classici e non riescono a catturare l'esperienza empirica che i professionisti umani portano a compiti complessi e innovativi. In questo lavoro, introduciamo AutoMind, un framework adattivo e informato per agenti LLM che supera queste carenze attraverso tre progressi chiave: (1) una base di conoscenza esperta curata che radica l'agente nella conoscenza degli esperti di dominio, (2) un algoritmo di ricerca ad albero agente informato che esplora strategicamente le possibili soluzioni, e (3) una strategia di codifica auto-adattiva che adatta dinamicamente la generazione del codice alla complessità del compito. Le valutazioni su due benchmark automatizzati di data science dimostrano che AutoMind offre prestazioni superiori rispetto alle baseline all'avanguardia. Analisi aggiuntive confermano un'efficacia, un'efficienza e una qualità qualitativa delle soluzioni favorevoli, evidenziando AutoMind come un passo efficiente e robusto verso la data science completamente automatizzata.
I recenti progressi nei Large Language Models (LLM) e nelle loro controparti multimodali hanno suscitato un notevole interesse nello sviluppo di agenti web — sistemi di intelligenza artificiale in grado di navigare autonomamente e completare attività all'interno di ambienti web. Sebbene promettano di automatizzare interazioni web complesse, gli approcci attuali affrontano sfide significative a causa del disallineamento fondamentale tra le interfacce progettate per gli esseri umani e le capacità degli LLM. I metodi attuali faticano a gestire la complessità intrinseca degli input web, che si tratti di elaborare alberi DOM di grandi dimensioni, fare affidamento su screenshot arricchiti con informazioni aggiuntive o bypassare completamente l'interfaccia utente attraverso interazioni API. Questo position paper propone un cambio di paradigma nella ricerca sugli agenti web: invece di costringere gli agenti web ad adattarsi a interfacce progettate per gli esseri umani, dovremmo sviluppare un nuovo paradigma di interazione specificamente ottimizzato per le capacità agentiche. A tal fine, introduciamo il concetto di Interfaccia Web Agente (Agentic Web Interface, AWI), un'interfaccia progettata specificamente per consentire agli agenti di navigare un sito web. Definiamo sei principi guida per la progettazione dell'AWI, enfatizzando sicurezza, efficienza e standardizzazione, per tenere conto degli interessi di tutte le parti interessate principali. Questo riquadramento mira a superare le limitazioni fondamentali delle interfacce esistenti, aprendo la strada a una progettazione di agenti web più efficiente, affidabile e trasparente, che sarà uno sforzo collaborativo che coinvolgerà la più ampia comunità di machine learning.
La comprensione di video lunghi (Long Video Understanding, LVU) rappresenta una sfida significativa per gli attuali modelli linguistici multimodali di grandi dimensioni (Multi-modal Large Language Models, MLLMs) a causa della complessità intrinseca del compito e dei vincoli legati alla finestra contestuale. Si ritiene comunemente che affrontare i compiti di LVU richieda MLLMs di base con finestre contestuali estese, forti capacità di percezione visiva e una competenza avanzata nel dominio specifico. In questo lavoro, mettiamo in discussione questa convinzione comune introducendo VideoDeepResearch, un nuovo framework agentico per la comprensione di video lunghi. Il nostro approccio si basa esclusivamente su un modello di ragionamento di grandi dimensioni (Large Reasoning Model, LRM) basato solo su testo, combinato con un toolkit multimodale modulare, che include strumenti di recupero multimodale e percezione visiva, tutti facilmente disponibili nella pratica. Per ogni compito di LVU, il sistema formula una strategia di risoluzione dei problemi attraverso il ragionamento, accedendo e utilizzando selettivamente i contenuti video essenziali tramite l'uso di strumenti. Abbiamo condotto esperimenti estesi su benchmark LVU popolari, tra cui MLVU, Video-MME e LVBench. I nostri risultati dimostrano che VideoDeepResearch ottiene miglioramenti sostanziali rispetto ai baseline MLLM esistenti, superando lo stato dell'arte precedente del 9,6%, 6,6% e 3,9% rispettivamente su MLVU (test), LVBench e LongVideoBench. Questi risultati evidenziano il potenziale dei sistemi agentici nel superare le principali sfide nei problemi di LVU.
La progettazione grafica svolge un ruolo cruciale sia in contesti commerciali che personali, tuttavia la creazione di composizioni grafiche di alta qualità, modificabili e esteticamente piacevoli rimane un compito dispendioso in termini di tempo e di competenze, specialmente per i principianti. Gli attuali strumenti di automazione basati sull'intelligenza artificiale automatizzano parti del flusso di lavoro, ma faticano a incorporare con precisione gli asset forniti dall'utente, mantenere la modificabilità e raggiungere un aspetto visivo professionale. I sistemi commerciali, come Canva Magic Design, si basano su ampie librerie di modelli, che sono impraticabili da replicare. In questo articolo, presentiamo CreatiPoster, un framework che genera composizioni modificabili e multi-strato a partire da istruzioni in linguaggio naturale o asset opzionali. Un modello protocollo, un modello multimodale RGBA di grandi dimensioni, produce inizialmente una specifica JSON che dettaglia ogni strato (testo o asset) con layout preciso, gerarchia, contenuto e stile, oltre a un prompt di sfondo conciso. Un modello di sfondo condizionale sintetizza quindi uno sfondo coerente condizionato da questi strati in primo piano renderizzati. Costruiamo un benchmark con metriche automatizzate per la generazione di design grafici e dimostriamo che CreatiPoster supera i principali approcci open-source e i sistemi commerciali proprietari. Per catalizzare ulteriori ricerche, rilasciamo un corpus libero da diritti d'autore di 100.000 design multi-strato. CreatiPoster supporta diverse applicazioni come l'editing su tela, la sovrapposizione di testo, il ridimensionamento responsivo, l'adattamento multilingue e i poster animati, avanzando la democratizzazione della progettazione grafica assistita dall'intelligenza artificiale. Pagina del progetto: https://github.com/graphic-design-ai/creatiposter
I modelli linguistici di grandi dimensioni (LLM) sono stati sempre più applicati ai compiti di rilevamento automatico di contenuti dannosi, assistendo i moderatori nell'identificazione di violazioni delle politiche e migliorando l'efficienza e l'accuratezza complessive della revisione dei contenuti. Tuttavia, le risorse esistenti per il rilevamento di contenuti dannosi sono prevalentemente focalizzate sull'inglese, con i dataset in cinese che rimangono scarsi e spesso limitati nell'ambito. Presentiamo un benchmark completo e professionalmente annotato per il rilevamento di contenuti dannosi in cinese, che copre sei categorie rappresentative ed è interamente costruito da dati del mondo reale. Il nostro processo di annotazione produce inoltre una base di regole di conoscenza che fornisce conoscenze esplicite di esperti per assistere gli LLM nel rilevamento di contenuti dannosi in cinese. Inoltre, proponiamo una baseline potenziata dalla conoscenza che integra sia regole di conoscenza annotate da esseri umani sia conoscenze implicite provenienti da modelli linguistici di grandi dimensioni, consentendo a modelli più piccoli di raggiungere prestazioni paragonabili a quelle degli LLM all'avanguardia. Il codice e i dati sono disponibili all'indirizzo https://github.com/zjunlp/ChineseHarm-bench.
I recenti progressi nei modelli fondazionali multimodali che unificano la comprensione e la generazione di immagini hanno aperto nuove e entusiasmanti possibilità per affrontare un'ampia gamma di compiti di visione e linguaggio all'interno di un unico framework. Nonostante i progressi, i modelli unificati esistenti richiedono tipicamente un'estesa pre-addestramento e faticano a raggiungere lo stesso livello di prestazioni rispetto ai modelli dedicati a ciascun compito. Inoltre, molti di questi modelli soffrono di velocità di generazione delle immagini lente, limitando il loro impiego pratico in contesti in tempo reale o con risorse limitate. In questo lavoro, proponiamo Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow), un'architettura innovativa ed efficiente che unisce la comprensione e la generazione di immagini all'interno di un unico modello multimodale. LaTtE-Flow si basa su potenti modelli pre-addestrati di visione e linguaggio (VLMs) per ereditare solide capacità di comprensione multimodale, e li estende con una nuova architettura basata su flusso di Layerwise Timestep Experts per una generazione efficiente delle immagini. LaTtE-Flow distribuisce il processo di flow-matching tra gruppi specializzati di layer Transformer, ciascuno responsabile di un sottoinsieme distinto di timestep. Questo design migliora significativamente l'efficienza del campionamento attivando solo un piccolo sottoinsieme di layer a ciascun timestep di campionamento. Per ulteriormente migliorare le prestazioni, proponiamo un meccanismo di Timestep-Conditioned Residual Attention per un riutilizzo efficiente delle informazioni tra i layer. Gli esperimenti dimostrano che LaTtE-Flow raggiunge prestazioni solide nei compiti di comprensione multimodale, ottenendo una qualità di generazione delle immagini competitiva con una velocità di inferenza circa 6 volte più veloce rispetto ai recenti modelli multimodali unificati.
Shojaee et al. (2025) riportano che i Large Reasoning Models (LRM) mostrano un "crollo dell'accuratezza" nei puzzle di pianificazione oltre determinate soglie di complessità. Dimostriamo che i loro risultati riflettono principalmente limitazioni del disegno sperimentale piuttosto che fallimenti fondamentali del ragionamento. La nostra analisi rivela tre problemi critici: (1) Gli esperimenti sulla Torre di Hanoi superano sistematicamente i limiti di token di output del modello nei punti di fallimento segnalati, con i modelli che riconoscono esplicitamente questi vincoli nei loro output; (2) Il framework di valutazione automatizzato degli autori non riesce a distinguere tra fallimenti di ragionamento e vincoli pratici, portando a una errata classificazione delle capacità del modello; (3) Più preoccupante, i loro benchmark di River Crossing includono istanze matematicamente impossibili per N > 5 a causa di una capacità insufficiente della barca, eppure i modelli vengono valutati come fallimenti per non aver risolto questi problemi irrisolvibili. Quando controlliamo questi artefatti sperimentali, richiedendo funzioni generatrici invece di elenchi esaustivi di mosse, esperimenti preliminari su più modelli indicano un'elevata accuratezza nelle istanze della Torre di Hanoi precedentemente riportate come fallimenti completi. Questi risultati evidenziano l'importanza di un attento disegno sperimentale nella valutazione delle capacità di ragionamento dell'IA.
Man mano che il fine-tuning (FT) diventa sempre più impraticabile su larga scala, il probing sta emergendo come protocollo di valutazione preferito per l'apprendimento auto-supervisionato (SSL). Tuttavia, il classico linear probing (LP) non riesce a riflettere adeguatamente il potenziale dei modelli addestrati con Masked Image Modeling (MIM), a causa della natura distribuita dei token di patch. Ciò motiva la necessità di un attentive probing, un'alternativa che utilizza l'attenzione per aggregare selettivamente le caratteristiche a livello di patch. Nonostante la sua crescente adozione, l'attentive probing rimane poco esplorato, con i metodi esistenti che soffrono di un'eccessiva parametrizzazione e di una scarsa efficienza computazionale. In questo lavoro, riprendiamo l'attentive probing attraverso la lente del compromesso precisione-efficienza. Condurremo uno studio sistematico dei metodi esistenti, analizzandone i meccanismi e confrontandone le prestazioni. Introduciamo l'efficient probing (EP), un meccanismo di cross-attention multi-query che elimina le proiezioni ridondanti, riduce il numero di parametri addestrabili e raggiunge un'accelerazione fino a 10 volte rispetto alla classica multi-head attention. Nonostante la sua semplicità, EP supera LP e i precedenti approcci di attentive probing su sette benchmark, generalizza bene oltre il MIM a diversi paradigmi di pre-training, produce mappe di attenzione interpretabili e ottiene forti guadagni in contesti low-shot e layer-wise. Il codice è disponibile all'indirizzo https://github.com/billpsomas/efficient-probing.
L'apprendimento per rinforzo con ricompense verificabili (RLVR) è diventato una tecnica chiave per migliorare i grandi modelli linguistici (LLM), con l'ingegneria della verifica che svolge un ruolo centrale. Tuttavia, le migliori pratiche per l'apprendimento per rinforzo nel seguire le istruzioni rimangono poco esplorate. In questo lavoro, esploriamo la sfida della verifica nell'apprendimento per rinforzo per il seguire le istruzioni e proponiamo VerIF, un metodo di verifica che combina la verifica del codice basata su regole con la verifica basata su LLM da un grande modello di ragionamento (ad esempio, QwQ-32B). Per supportare questo approccio, costruiamo un dataset di alta qualità per il seguire le istruzioni, VerInstruct, contenente circa 22.000 istanze con segnali di verifica associati. Applichiamo l'addestramento per rinforzo con VerIF a due modelli, ottenendo miglioramenti significativi su diversi benchmark rappresentativi per il seguire le istruzioni. I modelli addestrati raggiungono prestazioni all'avanguardia tra i modelli di dimensioni comparabili e si generalizzano bene a vincoli non visti. Osserviamo inoltre che le loro capacità generali rimangono inalterate, suggerendo che l'apprendimento per rinforzo con VerIF può essere integrato nelle ricette esistenti di RL per migliorare le prestazioni complessive del modello. Abbiamo rilasciato i nostri dataset, codici e modelli per facilitare la ricerca futura all'indirizzo https://github.com/THU-KEG/VerIF.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) e nei sistemi di intelligenza artificiale hanno portato a un cambiamento di paradigma nella progettazione e ottimizzazione di flussi di lavoro complessi nell'ambito dell'IA. Integrando più componenti, i sistemi di IA composti sono diventati sempre più abili nell'eseguire compiti sofisticati. Tuttavia, con l'aumentare della complessità di questi sistemi, emergono nuove sfide nell'ottimizzazione non solo dei singoli componenti, ma anche delle loro interazioni. Sebbene i metodi tradizionali di ottimizzazione come il fine-tuning supervisionato (SFT) e l'apprendimento per rinforzo (RL) rimangano fondamentali, l'emergere del feedback in linguaggio naturale introduce approcci promettenti, specialmente per l'ottimizzazione di sistemi non differenziabili. Questo articolo fornisce una revisione sistematica dei recenti progressi nell'ottimizzazione dei sistemi di IA composti, comprendendo sia tecniche numeriche che basate sul linguaggio. Formalizziamo il concetto di ottimizzazione dei sistemi di IA composti, classifichiamo i metodi esistenti lungo diverse dimensioni chiave e evidenziamo le sfide di ricerca aperte e le direzioni future in questo campo in rapida evoluzione. Un elenco dei documenti esaminati è disponibile pubblicamente all'indirizzo https://github.com/MiuLab/AISysOpt-Survey.
I grandi modelli linguistici hanno rivoluzionato l'elaborazione del linguaggio naturale, tuttavia il fine-tuning supervisionato (SFT) rimane computazionalmente intensivo. Questo articolo dimostra formalmente che le capacità acquisite attraverso l'SFT possono essere approssimate da un modello trasformatore di base utilizzando tecniche di inferenza, in particolare l'apprendimento in contesto (ICL), senza modificare i parametri del modello, sotto ipotesi idealizzate che includono risorse computazionali illimitate e accesso al dataset di fine-tuning. Estendiamo questi risultati a scenari pratici con lunghezze di contesto finite e accesso parziale al dataset. Per compiti di generazione di testo con lunghezza di output fissa l, dataset di dimensione \( O\left( \frac{m}{\varepsilon^2} \log \frac{m}{\delta} \right) \) o, con contesto limitato, \( O\left( l \log \frac{V}{\varepsilon^2} \log \frac{1}{\delta} \right) \) sono sufficienti per approssimare il comportamento fine-tuned su m contesti con un errore \(\varepsilon\), dove \( V \) è la dimensione del vocabolario e \(\delta\) è la probabilità di fallimento. Per la classificazione lineare, dataset di dimensione \( O\left( \frac{d}{\varepsilon} \right) \) o, con contesto fisso, \( O\left( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} \right) \) sono sufficienti, dove \( d \) è la dimensione dell'input. Basandosi sulla completezza di Turing dei trasformatori, questi risultati forniscono una fondazione teorica per il dispiegamento efficiente delle risorse dei grandi modelli linguistici, con tecniche pratiche come la generazione aumentata dal recupero che collegano la teoria alle applicazioni nel mondo reale.
Nel settore dell'e-commerce e del marketing digitale, la generazione di video dimostrativi ad alta fedeltà che mostrano l'interazione tra esseri umani e prodotti è fondamentale per una presentazione efficace dei prodotti. Tuttavia, la maggior parte dei framework esistenti non riesce a preservare le identità sia degli esseri umani che dei prodotti o manca di una comprensione delle relazioni spaziali tra esseri umani e prodotti, portando a rappresentazioni irrealistiche e interazioni innaturali. Per affrontare queste sfide, proponiamo un framework basato su un Transformer a Diffusione (DiT). Il nostro metodo preserva simultaneamente le identità umane e i dettagli specifici dei prodotti, come loghi e texture, iniettando informazioni di riferimento accoppiate tra esseri umani e prodotti e utilizzando un meccanismo aggiuntivo di cross-attention mascherata. Impieghiamo un modello di mesh corporea 3D e bounding box dei prodotti per fornire una guida precisa ai movimenti, consentendo un allineamento intuitivo dei gesti delle mani con il posizionamento dei prodotti. Inoltre, utilizziamo una codifica testuale strutturata per incorporare semantiche a livello di categoria, migliorando la coerenza 3D durante piccoli cambiamenti rotazionali tra i fotogrammi. Addestrato su un dataset ibrido con strategie estese di aumento dei dati, il nostro approccio supera le tecniche all'avanguardia nel mantenere l'integrità dell'identità sia degli esseri umani che dei prodotti e nel generare movimenti dimostrativi realistici. Pagina del progetto: https://submit2025-dream.github.io/DreamActor-H1/.
La diversità di scala dei dati di point cloud presenta sfide significative nello sviluppo di tecniche unificate di apprendimento di rappresentazione per la visione 3D. Attualmente, esistono pochi modelli 3D unificati, e nessun metodo di pre-training esistente è ugualmente efficace sia per point cloud a livello di oggetto che di scena. In questo articolo, introduciamo UniPre3D, il primo metodo di pre-training unificato che può essere applicato senza soluzione di continuità a point cloud di qualsiasi scala e a modelli 3D di qualsiasi architettura. Il nostro approccio prevede la previsione di primitive gaussiane come compito di pre-training e utilizza il rendering differenziabile tramite splatting gaussiano per generare immagini, consentendo una supervisione precisa a livello di pixel e un'ottimizzazione end-to-end. Per regolare ulteriormente la complessità del compito di pre-training e indirizzare l'attenzione del modello verso le strutture geometriche, integriamo caratteristiche 2D da modelli di immagini pre-addestrati per incorporare conoscenze consolidate sulle texture. Validiamo l'efficacia universale del metodo proposto attraverso esperimenti estesi su una varietà di compiti a livello di oggetto e di scena, utilizzando diversi modelli di point cloud come backbone. Il codice è disponibile all'indirizzo https://github.com/wangzy22/UniPre3D.
Man mano che i modelli linguistici di grandi dimensioni (LLM) hanno progredito verso comunicazioni più simili a quelle umane e le interazioni uomo-IA sono diventate prevalenti, il prompting è emerso come un componente decisivo. Tuttavia, esiste un consenso concettuale limitato su cosa esattamente quantifichi i prompt in linguaggio naturale. Cerchiamo di affrontare questa questione conducendo una meta-analisi che esamina oltre 150 articoli relativi al prompting provenienti dalle principali conferenze di NLP e IA dal 2022 al 2025 e da blog. Proponiamo un framework centrato sulle proprietà e sull'uomo per valutare la qualità dei prompt, che comprende 21 proprietà categorizzate in sei dimensioni. Esaminiamo poi come gli studi esistenti valutano il loro impatto sugli LLM, rivelando un supporto squilibrato tra modelli e task, e significative lacune di ricerca. Inoltre, analizziamo le correlazioni tra le proprietà nei prompt di linguaggio naturale di alta qualità, derivando raccomandazioni per il prompting. Esploriamo empiricamente i miglioramenti dei prompt multi-proprietà nei task di ragionamento, osservando che i miglioramenti a singola proprietà spesso hanno il maggiore impatto. Infine, scopriamo che l'instruction-tuning su prompt potenziati con proprietà può portare a modelli di ragionamento migliori. I nostri risultati stabiliscono una base per la valutazione e l'ottimizzazione dei prompt centrati sulle proprietà, colmando le lacune tra le comunicazioni uomo-IA e aprendo nuove direzioni di ricerca sul prompting.
Un obiettivo centrale per l'interpretabilità meccanicistica è stato quello di identificare le unità di analisi appropriate nei grandi modelli linguistici (LLM) che spieghino causalmente i loro output. Mentre i primi lavori si concentravano sui singoli neuroni, l'evidenza che i neuroni spesso codificano più concetti ha motivato un passaggio verso l'analisi delle direzioni nello spazio di attivazione. Una domanda chiave è come trovare direzioni che catturino caratteristiche interpretabili in modo non supervisionato. I metodi attuali si basano sull'apprendimento di dizionari con autoencoder sparsi (SAE), comunemente addestrati sulle attivazioni del flusso residuo per apprendere direzioni da zero. Tuttavia, gli SAE spesso incontrano difficoltà nelle valutazioni causali e mancano di interpretabilità intrinseca, poiché il loro apprendimento non è esplicitamente legato ai calcoli del modello. Qui, affrontiamo queste limitazioni decomponendo direttamente le attivazioni degli MLP con la fattorizzazione semi-non negativa di matrici (SNMF), in modo che le caratteristiche apprese siano (a) combinazioni lineari sparse di neuroni co-attivati e (b) mappate ai loro input attivanti, rendendole direttamente interpretabili. Esperimenti su Llama 3.1, Gemma 2 e GPT-2 mostrano che le caratteristiche derivate da SNMF superano gli SAE e una forte baseline supervisionata (differenza nelle medie) nel controllo causale, allineandosi con concetti interpretabili dall'uomo. Un'ulteriore analisi rivela che combinazioni specifiche di neuroni vengono riutilizzate tra caratteristiche semanticamente correlate, esponendo una struttura gerarchica nello spazio di attivazione dell'MLP. Insieme, questi risultati posizionano la SNMF come uno strumento semplice ed efficace per identificare caratteristiche interpretabili e scomporre le rappresentazioni di concetti negli LLM.
L'addestramento di grandi modelli linguistici viene generalmente effettuato tramite metodi di ottimizzazione su cluster contenenti decine di migliaia di acceleratori, che comunicano attraverso un'interconnessione ad alta larghezza di banda. Scalare questi cluster è costoso e può diventare impraticabile, imponendo limiti sulla dimensione dei modelli che possono essere addestrati. Diversi studi recenti hanno proposto metodi di addestramento meno intensivi dal punto di vista della comunicazione, evitando la necessità di un cluster di calcolo altamente connesso. Questi metodi di addestramento a bassa comunicazione all'avanguardia impiegano comunque un passaggio di sincronizzazione per i parametri del modello, che, quando eseguito su tutte le repliche del modello, può diventare costoso su una rete a bassa larghezza di banda. In questo lavoro, proponiamo un nuovo metodo di ottimizzazione, NoLoCo, che non sincronizza esplicitamente tutti i parametri del modello durante l'addestramento e, di conseguenza, non richiede alcuna comunicazione collettiva. NoLoCo sincronizza implicitamente i pesi del modello tramite una nuova variante dell'ottimizzatore a momento di Nesterov, parzialmente mediando i pesi del modello con un altro selezionato casualmente. Forniamo sia un'analisi teorica della convergenza per il nostro ottimizzatore proposto, sia risultati empirici derivanti dall'addestramento di modelli linguistici. Abbiamo valutato NoLoCo su un'ampia gamma di conteggi di acceleratori e dimensioni di modelli, tra 125M e 6.8B di parametri. Il nostro metodo richiede un sovraccarico di comunicazione significativamente inferiore rispetto all'addestramento parallelo completamente frammentato sui dati o persino al metodo di addestramento a bassa comunicazione ampiamente utilizzato, DiLoCo. Il passaggio di sincronizzazione stesso è stimato essere di un ordine di grandezza più veloce rispetto all'operazione all-reduce utilizzata in DiLoCo per l'addestramento su poche centinaia di acceleratori su internet. Inoltre, non abbiamo alcuna comunicazione globale bloccante che riduca il tempo di inattività degli acceleratori. Rispetto a DiLoCo, osserviamo anche un tasso di convergenza fino al 4% più veloce con un'ampia gamma di dimensioni di modelli e conteggi di acceleratori.
La crescente adozione dell'intelligenza artificiale nel settore delle telecomunicazioni ha suscitato interesse riguardo alla capacità dei Modelli Linguistici di Grande Dimensione (LLM) di affrontare compiti specifici del dominio e ad alta intensità matematica. Sebbene i recenti progressi abbiano migliorato le prestazioni degli LLM nel ragionamento matematico generale, la loro efficacia all'interno di domini specializzati, come l'elaborazione dei segnali, l'ottimizzazione delle reti e l'analisi delle prestazioni, rimane in gran parte inesplorata. Per colmare questa lacuna, introduciamo TeleMath, il primo dataset di benchmark specificamente progettato per valutare le prestazioni degli LLM nella risoluzione di problemi matematici con soluzioni numeriche nel dominio delle telecomunicazioni. Composto da 500 coppie domanda-risposta (QnA), TeleMath copre un ampio spettro di argomenti nel campo delle telecomunicazioni. Questo articolo descrive la pipeline proposta per la generazione delle QnA, a partire da un insieme selezionato di problemi creati da esperti del settore. La valutazione di una vasta gamma di LLM open-source rivela che le migliori prestazioni su TeleMath sono ottenute da modelli recenti progettati esplicitamente per il ragionamento matematico o logico. Al contrario, i modelli generici, anche quelli con un numero elevato di parametri, spesso incontrano difficoltà con queste sfide. Abbiamo rilasciato il dataset e il codice di valutazione per facilitare la riproducibilità dei risultati e supportare la ricerca futura.
La guida senza classificatore (Classifier-free Guidance, CFG) è diventata un componente essenziale dei moderni modelli di diffusione per migliorare sia la qualità della generazione che l'allineamento con le condizioni di input. Tuttavia, la CFG richiede procedure di addestramento specifiche ed è limitata alla generazione condizionata. Per affrontare queste limitazioni, proponiamo la Guida per Perturbazione dei Token (Token Perturbation Guidance, TPG), un metodo innovativo che applica matrici di perturbazione direttamente alle rappresentazioni intermedie dei token all'interno della rete di diffusione. La TPG utilizza un'operazione di rimescolamento che preserva la norma per fornire segnali di guida efficaci e stabili, migliorando la qualità della generazione senza modifiche architetturali. Di conseguenza, la TPG è priva di addestramento e agnostica rispetto alle condizioni di input, rendendola facilmente applicabile sia alla generazione condizionata che a quella incondizionata. Analizziamo ulteriormente il termine di guida fornito dalla TPG e dimostriamo che il suo effetto sul campionamento assomiglia più da vicino alla CFG rispetto alle tecniche di guida esistenti prive di addestramento. Esperimenti estesi su SDXL e Stable Diffusion 2.1 mostrano che la TPG raggiunge un miglioramento di quasi 2 volte nell'FID per la generazione incondizionata rispetto alla baseline di SDXL, mentre si avvicina molto alla CFG nell'allineamento con i prompt. Questi risultati stabiliscono la TPG come un metodo di guida generale e agnostico alle condizioni, che porta i benefici simili alla CFG a una più ampia classe di modelli di diffusione. Il codice è disponibile all'indirizzo https://github.com/TaatiTeam/Token-Perturbation-Guidance.
Il disimparamento (unlearning) nei Large Language Model (LLM) mira a cancellare o sopprimere conoscenze indesiderate all'interno del modello, offrendo potenzialità per controllare informazioni dannose o private e prevenirne l'uso improprio. Tuttavia, studi recenti evidenziano la sua limitata efficacia in scenari reali, ostacolandone l'adozione pratica. In questo studio, identifichiamo un problema pervasivo alla base di molti fallimenti a valle: l'efficacia dei metodi di disimparamento esistenti dipende fortemente dalla forma dei campioni di addestramento e spesso non riesce a generalizzare a espressioni alternative della stessa conoscenza. Formalizziamo questo problema come Form-Dependent Bias (Bias Dipendente dalla Forma) e ne investigiamo sistematicamente i modelli di manifestazione specifici in vari task a valle. Per quantificarne la diffusione e supportare ricerche future, introduciamo ORT, un nuovo benchmark progettato per valutare la robustezza dei metodi di disimparamento rispetto alle variazioni nell'espressione della conoscenza. I risultati rivelano che il Form-Dependent Bias è sia diffuso che grave tra le tecniche attuali. Sosteniamo che il disimparamento nei LLM dovrebbe essere indipendente dalla forma per affrontare le infinite varianti di task a valle incontrate in scenari reali critici per la sicurezza. Verso questo obiettivo, introduciamo Rank-one Concept Redirection (ROCR), un nuovo metodo senza addestramento, come una soluzione promettente. ROCR esegue il disimparamento mirando agli invarianti nei task a valle, in particolare ai concetti pericolosi attivati. È in grado di modificare i parametri del modello in pochi secondi per reindirizzare la percezione del modello di un specifico concetto target di disimparamento verso un altro concetto innocuo. Esperimenti estensivi dimostrano che ROCR migliora significativamente l'efficacia del disimparamento rispetto ai metodi tradizionali, generando output altamente naturali.
La rapida evoluzione dei campi scientifici introduce sfide nell'organizzazione e nel recupero della letteratura scientifica. Sebbene le tassonomie curate da esperti abbiano tradizionalmente affrontato questa esigenza, il processo è dispendioso in termini di tempo e costoso. Inoltre, i recenti metodi automatici di costruzione delle tassonomie (1) si affidano eccessivamente a un corpus specifico, sacrificando la generalizzabilità, o (2) dipendono fortemente dalla conoscenza generale dei grandi modelli linguistici (LLM) contenuta nei loro dataset di pre-addestramento, spesso trascurando la natura dinamica dei domini scientifici in evoluzione. In aggiunta, questi approcci non tengono conto della natura multidimensionale della letteratura scientifica, in cui un singolo articolo di ricerca può contribuire a più dimensioni (ad esempio, metodologia, nuovi compiti, metriche di valutazione, benchmark). Per colmare queste lacune, proponiamo TaxoAdapt, un framework che adatta dinamicamente una tassonomia generata da LLM a un determinato corpus attraverso più dimensioni. TaxoAdapt esegue una classificazione gerarchica iterativa, espandendo sia la larghezza che la profondità della tassonomia in base alla distribuzione tematica del corpus. Dimostriamo le sue prestazioni all'avanguardia su un insieme diversificato di conferenze di informatica nel corso degli anni, evidenziando la sua capacità di strutturare e catturare l'evoluzione dei campi scientifici. Come metodo multidimensionale, TaxoAdapt genera tassonomie che preservano il 26,51% in più di granularità e sono il 50,41% più coerenti rispetto ai baseline più competitivi valutati da LLM.
Le affermazioni fatte da individui o entità sono spesso sfumate e non possono essere chiaramente etichettate come interamente "vere" o "false" — come accade frequentemente con le affermazioni scientifiche e politiche. Tuttavia, un'affermazione (ad esempio, "il vaccino A è migliore del vaccino B") può essere scomposta nei suoi aspetti integrali e sotto-aspetti (ad esempio, efficacia, sicurezza, distribuzione), che sono individualmente più facili da validare. Ciò consente una risposta più completa e strutturata che fornisce una prospettiva ben articolata su un determinato problema, permettendo anche al lettore di dare priorità a specifici angoli di interesse all'interno dell'affermazione (ad esempio, la sicurezza nei confronti dei bambini). Proponiamo quindi ClaimSpect, un framework basato su generazione aumentata da recupero per costruire automaticamente una gerarchia di aspetti tipicamente considerati quando si affronta un'affermazione e arricchirli con prospettive specifiche del corpus. Questa struttura partiziona gerarchicamente un corpus di input per recuperare segmenti rilevanti, che aiutano a scoprire nuovi sotto-aspetti. Inoltre, questi segmenti consentono di scoprire prospettive diverse riguardo a un aspetto dell'affermazione (ad esempio, supporto, neutralità o opposizione) e la loro rispettiva prevalenza (ad esempio, "quanti articoli biomedici ritengono che il vaccino A sia più trasportabile del vaccino B?"). Applichiamo ClaimSpect a una vasta gamma di affermazioni scientifiche e politiche del mondo reale presenti nel nostro dataset costruito, dimostrando la sua robustezza e accuratezza nel decostruire un'affermazione sfumata e nel rappresentare le prospettive all'interno di un corpus. Attraverso studi di casi reali e valutazioni umane, convalidiamo la sua efficacia rispetto a molteplici baseline.
L'ottimizzazione dell'inferenza per i modelli linguistici di grandi dimensioni (LLM) con contesti lunghi sta diventando sempre più importante a causa della complessità computazionale quadratica e della complessità di memoria lineare dei Transformer. I metodi di approssimazione esistenti, come l'eliminazione della cache chiave-valore (KV), l'attenzione sparsa e la compressione del prompt, si basano tipicamente su previsioni approssimative dell'importanza dei token o delle coppie KV. Proponiamo un nuovo framework per l'inferenza approssimata degli LLM che sfrutta piccoli modelli di bozza per prevedere con maggiore precisione l'importanza dei token e delle coppie KV. Nello specifico, introduciamo due istanze del nostro framework proposto: (i) SpecKV, che utilizza un output di bozza per valutare accuratamente l'importanza di ciascuna coppia KV per un'eliminazione più efficace della cache KV, e (ii) SpecPC, che utilizza le attivazioni di attenzione del modello di bozza per identificare e scartare i token del prompt non importanti. Per quanto ne sappiamo, questo è il primo lavoro che utilizza modelli di bozza per accelerare l'inferenza approssimata degli LLM, estendendo la loro utilità oltre il tradizionale decoding speculativo senza perdita. Motiviamo i nostri metodi con analisi teoriche ed empiriche, e mostriamo una forte correlazione tra i pattern di attenzione dei modelli di bozza e quelli target. Esperimenti estesi su benchmark a contesto lungo dimostrano che i nostri metodi raggiungono costantemente una maggiore accuratezza rispetto alle baseline esistenti, preservando allo stesso tempo i miglioramenti nell'uso della memoria, nella latenza e nel throughput. Il nostro codice è disponibile all'indirizzo https://github.com/furiosa-ai/draft-based-approx-llm.
I modelli di base hanno rivoluzionato campi come l'elaborazione del linguaggio naturale e la visione artificiale, abilitando l'apprendimento generico su una vasta gamma di compiti e dataset. Tuttavia, costruire modelli analoghi per la mobilità umana rimane una sfida a causa della natura sensibile alla privacy dei dati di mobilità e dei conseguenti silos di dati tra le istituzioni. Per colmare questa lacuna, proponiamo MoveGCL, un framework scalabile e rispettoso della privacy per l'addestramento di modelli di base per la mobilità attraverso l'apprendimento continuo generativo. Senza condividere dati grezzi, MoveGCL abilita un'evoluzione decentralizzata e progressiva del modello riproducendo traiettorie sintetiche generate da un modello insegnante congelato, e rafforza la ritenzione della conoscenza attraverso una strategia di distillazione personalizzata che mitiga l'oblio catastrofico. Per affrontare l'eterogeneità dei modelli di mobilità, MoveGCL incorpora un Transformer a Miscela di Esperti con un meccanismo di routing degli esperti consapevole della mobilità, e impiega una strategia di adattamento progressivo strato per strato per stabilizzare gli aggiornamenti continui. Esperimenti su sei dataset urbani del mondo reale dimostrano che MoveGCL raggiunge prestazioni paragonabili all'addestramento congiunto e supera significativamente i benchmark di apprendimento federato, offrendo al contempo una forte protezione della privacy. MoveGCL rappresenta un passo cruciale verso lo sblocco di modelli di base per la mobilità, offrendo una guida pratica per lo sviluppo di modelli aperti, scalabili e rispettosi della privacy nell'era dei modelli di base.
La costruzione di un mondo simulato 3D fisicamente realistico e accuratamente scalato è cruciale per l'addestramento e la valutazione di compiti di intelligenza incarnata. La diversità, il realismo, l'accessibilità a basso costo e l'abbordabilità degli asset di dati 3D sono fondamentali per raggiungere la generalizzazione e la scalabilità nell'IA incarnata. Tuttavia, la maggior parte dei compiti di intelligenza incarnata attuali si basa ancora pesantemente su asset di grafica 3D tradizionali creati e annotati manualmente, che soffrono di alti costi di produzione e di un realismo limitato. Queste limitazioni ostacolano significativamente la scalabilità degli approcci basati sui dati. Presentiamo EmbodiedGen, una piattaforma fondamentale per la generazione interattiva di mondi 3D. Essa consente la generazione scalabile di asset 3D di alta qualità, controllabili e fotorealistici, con proprietà fisiche accurate e scala reale nel formato Unified Robotics Description Format (URDF) a basso costo. Questi asset possono essere importati direttamente in vari motori di simulazione fisica per un controllo fisico granulare, supportando compiti a valle nell'addestramento e nella valutazione. EmbodiedGen è un toolkit facile da usare e completo, composto da sei moduli chiave: Image-to-3D, Text-to-3D, Generazione di Texture, Generazione di Oggetti Articolati, Generazione di Scene e Generazione di Layout. EmbodiedGen genera mondi 3D diversificati e interattivi composti da asset 3D generativi, sfruttando l'IA generativa per affrontare le sfide della generalizzazione e della valutazione in base alle esigenze della ricerca legata all'intelligenza incarnata. Il codice è disponibile all'indirizzo https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.
Una valutazione accurata delle capacità dei modelli linguistici è cruciale per ottenere intuizioni operative che possano guidare lo sviluppo dei modelli. Tuttavia, valutazioni causali rigorose in questo ambito affrontano significative sfide metodologiche, tra cui complessi effetti di confondimento e costi computazionali proibitivi associati a estesi processi di riaddestramento. Per affrontare queste sfide, proponiamo un framework di apprendimento di rappresentazioni causali in cui le prestazioni osservate nei benchmark sono modellate come una trasformazione lineare di pochi fattori latenti di capacità. Fondamentalmente, questi fattori latenti sono identificati come causalmente interconnessi dopo aver opportunamente controllato il modello di base come un comune confonditore. Applicando questo approccio a un dataset completo che comprende oltre 1500 modelli valutati su sei benchmark del Open LLM Leaderboard, identifichiamo una struttura causale lineare composta da tre nodi che spiega in modo affidabile le variazioni di prestazione osservate. Un'ulteriore interpretazione di questa struttura causale fornisce sostanziali intuizioni scientifiche oltre le semplici classificazioni numeriche: in particolare, riveliamo una chiara direzione causale che parte dalle capacità generali di risoluzione dei problemi, progredisce attraverso la competenza nel seguire le istruzioni e culmina nell'abilità di ragionamento matematico. I nostri risultati sottolineano il ruolo essenziale di un attento controllo delle variazioni del modello di base durante la valutazione, un passaggio critico per scoprire con precisione le relazioni causali sottostanti tra le capacità latenti dei modelli.
Le didascalie delle figure sono cruciali per aiutare i lettori a comprendere e ricordare il messaggio chiave di una figura. Sono stati sviluppati molti modelli per generare queste didascalie, aiutando gli autori a comporre didascalie di qualità superiore più facilmente. Tuttavia, gli autori quasi sempre devono rivedere le didascalie generiche prodotte dall'IA per adattarle al loro stile di scrittura e allo stile del dominio, evidenziando la necessità di personalizzazione. Nonostante i progressi nella personalizzazione dei modelli linguistici (LaMP), queste tecnologie si concentrano spesso su contesti esclusivamente testuali e raramente affrontano scenari in cui sia gli input che i profili sono multimodali. Questo articolo introduce LaMP-Cap, un dataset per la generazione personalizzata di didascalie di figure con profili multimodali delle figure. Per ogni figura target, LaMP-Cap fornisce non solo gli input necessari, come le immagini delle figure, ma anche fino a tre altre figure dello stesso documento—ciascuna con la sua immagine, didascalia e paragrafi che menzionano la figura—come profilo per caratterizzare il contesto. Esperimenti con quattro LLM dimostrano che l'uso delle informazioni del profilo aiuta costantemente a generare didascalie più vicine a quelle scritte dall'autore originale. Studi di ablazione rivelano che le immagini nel profilo sono più utili dei paragrafi che menzionano la figura, evidenziando il vantaggio dell'uso di profili multimodali rispetto a quelli esclusivamente testuali.
Con il rapido avanzamento delle tecniche di attacco automatizzate, i CAPTCHA rimangono un meccanismo di difesa cruciale contro i bot malevoli. Tuttavia, gli schemi di CAPTCHA esistenti comprendono una vasta gamma di modalità, che vanno da testi distorti statici e immagini offuscate a clic interattivi, puzzle scorrevoli e domande basate sulla logica, eppure la comunità manca ancora di un benchmark unificato, su larga scala e multimodale per valutare rigorosamente la loro robustezza in termini di sicurezza. Per colmare questa lacuna, introduciamo MCA-Bench, una suite di benchmarking completa e riproducibile che integra tipi eterogenei di CAPTCHA in un unico protocollo di valutazione. Sfruttando un modello backbone condiviso di visione e linguaggio, ottimizziamo agenti di cracking specializzati per ogni categoria di CAPTCHA, consentendo valutazioni coerenti e cross-modali. Esperimenti estensivi rivelano che MCA-Bench mappa efficacemente lo spettro di vulnerabilità dei design moderni di CAPTCHA in vari contesti di attacco e, in modo cruciale, offre la prima analisi quantitativa di come la complessità della sfida, la profondità dell'interazione e la risolvibilità del modello siano interconnesse. Sulla base di questi risultati, proponiamo tre principi di design attuabili e identifichiamo le principali sfide aperte, gettando le basi per un rafforzamento sistematico dei CAPTCHA, un benchmarking equo e una più ampia collaborazione comunitaria. I dataset e il codice sono disponibili online.
La ricostruzione in tempo reale di scene 3D dinamiche da flussi video non calibrati è cruciale per numerose applicazioni nel mondo reale. Tuttavia, i metodi esistenti faticano a risolvere congiuntamente tre sfide chiave: 1) elaborare input non calibrati in tempo reale, 2) modellare accuratamente l'evoluzione dinamica della scena e 3) mantenere stabilità a lungo termine ed efficienza computazionale. A tal fine, introduciamo StreamSplat, il primo framework completamente feed-forward che trasforma flussi video non calibrati di lunghezza arbitraria in rappresentazioni dinamiche di 3D Gaussian Splatting (3DGS) in modo online, capace di recuperare la dinamica della scena da osservazioni temporali locali. Proponiamo due innovazioni tecniche chiave: un meccanismo di campionamento probabilistico nell'encoder statico per la previsione della posizione 3DGS e un campo di deformazione bidirezionale nel decoder dinamico che consente una modellazione dinamica robusta ed efficiente. Esperimenti estesi su benchmark statici e dinamici dimostrano che StreamSplat supera costantemente i lavori precedenti sia nella qualità della ricostruzione che nella modellazione di scene dinamiche, supportando in modo unico la ricostruzione online di flussi video di lunghezza arbitraria. Codice e modelli sono disponibili su https://github.com/nickwzk/StreamSplat.