Articoli di ricerca IA selezionati quotidianamente con traduzioni
La generazione di poster accademici è un compito cruciale ma impegnativo nella comunicazione scientifica, che richiede la compressione di documenti interconnessi a lungo contesto in una singola pagina visivamente coerente. Per affrontare questa sfida, introduciamo il primo benchmark e suite di metriche per la generazione di poster, che abbina articoli recenti di conferenze a poster progettati dagli autori e valuta gli output su (i) Qualità Visiva - allineamento semantico con i poster umani, (ii) Coerenza Testuale - fluidità linguistica, (iii) Valutazione Olistica - sei criteri estetici e informativi dettagliati valutati da un VLM come giudice, e in particolare (iv) PaperQuiz - la capacità del poster di trasmettere il contenuto principale dell'articolo misurata da VLM che rispondono a quiz generati. Basandoci su questo benchmark, proponiamo PosterAgent, una pipeline multi-agente top-down con loop visivo: il (a) Parser estrae l'articolo in una libreria strutturata di asset; il (b) Planner allinea coppie testo-visivo in un layout ad albero binario che preserva l'ordine di lettura e l'equilibrio spaziale; e il (c) loop Painter-Commenter perfeziona ogni pannello eseguendo codice di rendering e utilizzando il feedback del VLM per eliminare gli overflow e garantire l'allineamento. Nella nostra valutazione completa, scopriamo che gli output di GPT-4o, sebbene visivamente accattivanti a prima vista, spesso presentano testo rumoroso e punteggi PaperQuiz scarsi, e troviamo che l'engagement del lettore è il principale collo di bottiglia estetico, poiché i poster progettati da esseri umani si basano in gran parte sulla semantica visiva per trasmettere significato. Le nostre varianti completamente open-source (ad esempio basate sulla serie Qwen-2.5) superano i sistemi multi-agente esistenti guidati da 4o in quasi tutte le metriche, utilizzando l'87% in meno di token. Trasforma un articolo di 22 pagine in un poster .pptx finalizzato ma modificabile - tutto per soli $0.005. Questi risultati tracciano direzioni chiare per la prossima generazione di modelli di generazione di poster completamente automatizzati. Il codice e i dataset sono disponibili su https://github.com/Paper2Poster/Paper2Poster.
I Large Language Model (LLM) hanno esteso il loro impatto oltre l'elaborazione del linguaggio naturale, contribuendo in modo significativo allo sviluppo della ricerca interdisciplinare. Recentemente, sono stati sviluppati vari agenti basati su LLM per supportare il progresso della scoperta scientifica in molteplici aspetti e domini. Tra questi, gli agenti in grado di utilizzare il computer, capaci di interagire con i sistemi operativi come farebbero gli esseri umani, stanno aprendo la strada alla risoluzione automatizzata di problemi scientifici e alla gestione di routine nei flussi di lavoro dei ricercatori. Riconoscendo il potenziale trasformativo di questi agenti, introduciamo ScienceBoard, che comprende due contributi complementari: (i) un ambiente realistico e multi-dominio caratterizzato da flussi di lavoro scientifici dinamici e visivamente ricchi con software professionali integrati, dove gli agenti possono interagire autonomamente attraverso diverse interfacce per accelerare compiti di ricerca complessi e esperimenti; e (ii) un benchmark impegnativo di 169 task di alta qualità, rigorosamente validati e curati da esseri umani, che abbracciano flussi di lavoro di scoperta scientifica in domini come biochimica, astronomia e geoinformatica. Valutazioni estensive di agenti con architetture all'avanguardia (ad esempio, GPT-4o, Claude 3.7, UI-TARS) mostrano che, nonostante alcuni risultati promettenti, essi non sono ancora in grado di assistere in modo affidabile gli scienziati in flussi di lavoro complessi, raggiungendo solo un tasso di successo complessivo del 15%. Un'analisi approfondita fornisce ulteriori spunti preziosi per affrontare le attuali limitazioni degli agenti e per principi di progettazione più efficaci, aprendo la strada alla creazione di agenti più capaci per la scoperta scientifica. Il nostro codice, ambiente e benchmark sono disponibili su https://qiushisun.github.io/ScienceBoard-Home/.
Il ragionamento logico è un aspetto fondamentale dell'intelligenza umana e una capacità essenziale per i modelli linguistici multimodali di grandi dimensioni (MLLM). Nonostante i significativi progressi nel ragionamento multimodale, i benchmark esistenti non riescono a valutare in modo completo le loro capacità di ragionamento a causa della mancanza di una categorizzazione esplicita dei tipi di ragionamento logico e di una comprensione chiara del ragionamento. Per affrontare questi problemi, introduciamo MME-Reasoning, un benchmark completo progettato per valutare la capacità di ragionamento degli MLLM, che copre tutti e tre i tipi di ragionamento (cioè induttivo, deduttivo e abduttivo) nelle sue domande. Abbiamo curato attentamente i dati per garantire che ogni domanda valuti efficacemente la capacità di ragionamento piuttosto che le abilità percettive o l'ampiezza delle conoscenze, e abbiamo esteso i protocolli di valutazione per coprire la valutazione di domande diverse. La nostra valutazione rivela sostanziali limitazioni degli MLLM all'avanguardia quando sottoposti a valutazioni olistiche delle capacità di ragionamento logico. Anche gli MLLM più avanzati mostrano prestazioni limitate nel ragionamento logico completo, con squilibri di prestazione notevoli tra i tipi di ragionamento. Inoltre, abbiamo condotto un'analisi approfondita di approcci come il "modalità di pensiero" e il RL basato su regole, che si ritiene comunemente migliorino le capacità di ragionamento. Questi risultati evidenziano le limitazioni critiche e gli squilibri di prestazione degli attuali MLLM in scenari di ragionamento logico diversificati, fornendo intuizioni complete e sistematiche sulla comprensione e la valutazione delle capacità di ragionamento.
I recenti progressi come OpenAI-o1 e DeepSeek R1 hanno dimostrato il potenziale del Reinforcement Learning (RL) nel migliorare le capacità di ragionamento nei Large Language Models (LLMs). Sebbene gli sforzi di replicazione open-source si siano concentrati principalmente sui domini matematici e di programmazione, i metodi e le risorse per sviluppare capacità di ragionamento generale rimangono poco esplorati. Questa lacuna è in parte dovuta alla difficoltà di raccogliere dati di ragionamento diversificati e verificabili adatti all'RL. Ipotesizziamo che il ragionamento logico sia fondamentale per sviluppare capacità di ragionamento generale, poiché la logica costituisce un blocco fondamentale del ragionamento. In questo lavoro, presentiamo SynLogic, un framework di sintesi dati e un dataset che genera dati di ragionamento logico diversificati su larga scala, comprendendo 35 diverse attività di ragionamento logico. L'approccio SynLogic consente la sintesi controllata di dati con difficoltà e quantità regolabili. Importante, tutti gli esempi possono essere verificati da semplici regole, rendendoli ideali per l'RL con ricompense verificabili. Nei nostri esperimenti, validiamo l'efficacia dell'addestramento RL sul dataset SynLogic basato su modelli da 7B e 32B. SynLogic porta a prestazioni di ragionamento logico all'avanguardia tra i dataset open-source, superando DeepSeek-R1-Distill-Qwen-32B di 6 punti su BBEH. Inoltre, la miscelazione dei dati SynLogic con attività matematiche e di programmazione migliora l'efficienza dell'addestramento in questi domini e migliora significativamente la generalizzazione del ragionamento. In particolare, il nostro modello di addestramento misto supera DeepSeek-R1-Zero-Qwen-32B su più benchmark. Questi risultati posizionano SynLogic come una risorsa preziosa per avanzare le capacità di ragionamento più ampie degli LLMs. Rendiamo open-source sia la pipeline di sintesi dati che il dataset SynLogic su https://github.com/MiniMax-AI/SynLogic.
I modelli di diffusione hanno fatto avanzare significativamente la stilizzazione delle immagini, ma persistono due sfide principali: (1) mantenere una stilizzazione coerente in scene complesse, in particolare per quanto riguarda l'identità, la composizione e i dettagli fini, e (2) prevenire il degrado dello stile nelle pipeline immagine-immagine con LoRA di stile. L'eccezionale coerenza nella stilizzazione di GPT-4o evidenzia il divario di prestazioni tra i metodi open-source e i modelli proprietari. Per colmare questo divario, proponiamo OmniConsistency, un plugin universale di coerenza che sfrutta i Transformer di Diffusione su larga scala (DiT). OmniConsistency contribuisce con: (1) un framework di apprendimento della coerenza in-context addestrato su coppie di immagini allineate per una generalizzazione robusta; (2) una strategia di apprendimento progressivo in due fasi che separa l'apprendimento dello stile dalla preservazione della coerenza per mitigare il degrado dello stile; e (3) un design completamente plug-and-play compatibile con qualsiasi LoRA di stile all'interno del framework Flux. Esperimenti estensivi dimostrano che OmniConsistency migliora significativamente la coerenza visiva e la qualità estetica, raggiungendo prestazioni paragonabili al modello commerciale all'avanguardia GPT-4o.
Uno studio recente ha dimostrato che i grandi modelli linguistici (LLM) possono ricostruire testi sorprendentemente lunghi - fino a migliaia di token - tramite generazione autoregressiva a partire da un singolo embedding di input appositamente addestrato. In questo lavoro, esploriamo se tale ricostruzione sia possibile senza autoregressione. Mostriamo che LLM congelati possono generare centinaia di token accurati in un solo passaggio in avanti, quando vengono forniti solo due embedding appresi. Ciò rivela una capacità sorprendente e poco esplorata degli LLM: la generazione multi-token senza decodifica iterativa. Investigiamo il comportamento di questi embedding e forniamo approfondimenti sul tipo di informazioni che codificano. Dimostriamo inoltre empiricamente che, sebbene queste rappresentazioni non siano univoche per un dato testo, formano regioni connesse e locali nello spazio degli embedding - una proprietà che suggerisce il potenziale di apprendere un encoder dedicato in quello spazio.
I modelli linguistici di grandi dimensioni (LLM) per il ragionamento si basano fortemente sul ridimensionamento del calcolo al momento del test per eseguire compiti di ragionamento complessi generando catene di "pensiero" estese. Sebbene dimostrino risultati impressionanti, questo approccio comporta costi computazionali e tempi di inferenza significativi. In questo lavoro, mettiamo in discussione l'assunzione che catene di pensiero più lunghe portino a migliori capacità di ragionamento. Dimostriamo innanzitutto che catene di ragionamento più brevi all'interno di singole domande hanno una probabilità significativamente maggiore di produrre risposte corrette, fino al 34,5% più accurate rispetto alla catena più lunga campionata per la stessa domanda. Sulla base di questi risultati, proponiamo short-m@k, un nuovo metodo di inferenza per LLM di ragionamento. Il nostro metodo esegue k generazioni indipendenti in parallelo e interrompe il calcolo una volta completati i primi m processi di pensiero. La risposta finale viene scelta utilizzando il voto a maggioranza tra queste m catene. Il metodo base short-1@k dimostra prestazioni simili o addirittura superiori rispetto al voto a maggioranza standard in contesti a basso calcolo, utilizzando fino al 40% in meno di token di pensiero. short-3@k, sebbene leggermente meno efficiente di short-1@k, supera costantemente il voto a maggioranza in tutti i budget di calcolo, pur essendo sostanzialmente più veloce (fino al 33% di riduzione del tempo di esecuzione). Ispirati dai nostri risultati, ottimizziamo un LLM utilizzando catene di ragionamento brevi, lunghe e selezionate casualmente. Osserviamo poi che l'addestramento su quelle più brevi porta a prestazioni migliori. Le nostre scoperte suggeriscono di ripensare i metodi attuali di calcolo al momento del test nei LLM di ragionamento, sottolineando che un "pensiero" più lungo non si traduce necessariamente in un miglioramento delle prestazioni e può, controintuitivamente, portare a risultati peggiori.
La generazione da Soggetto a Video (S2V) mira a creare video che incorporino fedelmente contenuti di riferimento, offrendo una maggiore flessibilità nella produzione di video. Per stabilire l'infrastruttura per la generazione S2V, proponiamo OpenS2V-Nexus, composto da (i) OpenS2V-Eval, un benchmark granulare, e (ii) OpenS2V-5M, un dataset su scala milionaria. A differenza dei benchmark S2V esistenti ereditati da VBench che si concentrano su una valutazione globale e grossolana dei video generati, OpenS2V-Eval si focalizza sulla capacità del modello di generare video coerenti con il soggetto, con un aspetto naturale e una fedeltà all'identità del soggetto. A tal fine, OpenS2V-Eval introduce 180 prompt provenienti da sette categorie principali di S2V, che incorporano sia dati di test reali che sintetici. Inoltre, per allineare accuratamente le preferenze umane con i benchmark S2V, proponiamo tre metriche automatiche, NexusScore, NaturalScore e GmeScore, per quantificare separatamente la coerenza del soggetto, la naturalezza e la rilevanza del testo nei video generati. Sulla base di ciò, conduciamo una valutazione completa di 16 modelli S2V rappresentativi, evidenziandone punti di forza e debolezze in diversi contenuti. Inoltre, creiamo il primo dataset open-source su larga scala per la generazione S2V, OpenS2V-5M, che consiste in cinque milioni di triplette soggetto-testo-video di alta qualità in 720P. Nello specifico, garantiamo la diversità delle informazioni sul soggetto nel nostro dataset (1) segmentando i soggetti e costruendo informazioni di accoppiamento attraverso associazioni cross-video e (2) utilizzando GPT-Image-1 sui frame grezzi per sintetizzare rappresentazioni multi-vista. Attraverso OpenS2V-Nexus, forniamo un'infrastruttura robusta per accelerare la futura ricerca sulla generazione S2V.
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno mostrato promettenti risultati nella generazione di codice a livello di funzione, ma i compiti di ingegneria del software a livello di repository rimangono impegnativi. Le soluzioni attuali si basano prevalentemente su agenti LLM proprietari, che introducono imprevedibilità e limitano l'accessibilità, sollevando preoccupazioni riguardo alla privacy dei dati e alla personalizzazione del modello. Questo articolo indaga se gli LLM open-source possano affrontare efficacemente i compiti a livello di repository senza richiedere approcci basati su agenti. Dimostriamo che ciò è possibile abilitando gli LLM a comprendere funzioni e file all'interno delle codebase attraverso le loro informazioni semantiche e dipendenze strutturali. A tal fine, introduciamo i Modelli a Grafo di Codice (CGM), che integrano le strutture del grafo di codice del repository nel meccanismo di attenzione dell'LLM e mappano gli attributi dei nodi nello spazio di input dell'LLM utilizzando un adattatore specializzato. Quando combinato con un framework RAG a grafo senza agenti, il nostro approccio raggiunge un tasso di risoluzione del 43,00% sul benchmark SWE-bench Lite utilizzando il modello open-source Qwen2.5-72B. Questa performance si colloca al primo posto tra i modelli open weight, al secondo posto tra i metodi con sistemi open-source e all'ottavo posto in generale, superando il precedente miglior metodo basato su modelli open-source del 12,33%.
I metodi di Test-Time Scaling (TTS) per migliorare il ragionamento dei Large Language Model (LLM) spesso comportano costi computazionali significativi, principalmente a causa dell'ampio affidamento su modelli esterni di Process Reward Models (PRM) o su metodi di campionamento come Best-of-N (BoN). Questo articolo introduce Guided by Gut (GG), un framework TTS autoguidato ed efficiente che raggiunge prestazioni paragonabili ai PRM senza l'uso costoso di modelli verificatori esterni. Il nostro metodo utilizza una ricerca ad albero leggera guidata esclusivamente da segnali intrinseci del LLM, come la confidenza a livello di token e la novità del passo. Un'innovazione cruciale è il miglioramento dell'affidabilità delle stime di confidenza interne attraverso una fase di fine-tuning mirata con apprendimento per rinforzo. Valutazioni empiriche su benchmark impegnativi di ragionamento matematico dimostrano che GG consente a modelli più piccoli (ad esempio, 1,5 miliardi di parametri) di raggiungere un'accuratezza pari o superiore a modelli significativamente più grandi (ad esempio, 32-70 miliardi di parametri), riducendo l'uso della memoria GPU fino a 10 volte. Rispetto ai metodi basati su PRM, GG raggiunge un'accuratezza comparabile con velocità di inferenza 8 volte più veloci e un uso della memoria 4-5 volte inferiore. Inoltre, GG riduce l'uso della memoria della cache KV di circa il 50% rispetto alla strategia BoN, facilitando un'implementazione più efficiente e pratica delle tecniche TTS.
I recenti progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno consentito l'elaborazione unificata di linguaggio, visione e input strutturati, aprendo la strada a compiti complessi come la deduzione logica, il ragionamento spaziale e l'analisi scientifica. Nonostante il loro potenziale, le capacità di ragionamento degli MLLMs, in particolare quelli potenziati con tracce di pensiero intermedie (MLLMs-T), rimangono poco comprese e mancano di benchmark di valutazione standardizzati. Il lavoro esistente si concentra principalmente sulla percezione o sulla correttezza delle risposte finali, offrendo una visione limitata su come i modelli ragionano o falliscono attraverso le modalità. Per colmare questa lacuna, introduciamo il MMMR, un nuovo benchmark progettato per valutare rigorosamente il ragionamento multimodale con pensiero esplicito. Il MMMR comprende 1) un dataset ad alta difficoltà di 1.083 domande che coprono sei tipi di ragionamento diversi con profondità simbolica e richieste multi-hop e 2) una pipeline modulare di valutazione delle tracce di ragionamento (RTEP) per valutare la qualità del ragionamento oltre l'accuratezza attraverso metriche come rilevanza, coerenza e annotazioni strutturate degli errori. I risultati empirici mostrano che gli MLLMs-T superano complessivamente le controparti senza pensiero, ma anche i modelli migliori come Claude-3.7-Sonnet e Gemini-2.5 Pro soffrono di patologie di ragionamento come incoerenza e sovrappensiero. Questo benchmark rivela persistenti lacune tra accuratezza e qualità del ragionamento e fornisce una pipeline di valutazione azionabile per lo sviluppo futuro dei modelli. Nel complesso, il MMMR offre una base scalabile per valutare, confrontare e migliorare la prossima generazione di sistemi di ragionamento multimodale.
L'applicazione del Reinforcement Learning (RL) ai Modelli Linguistici di Grande Scala per Video (Video-LLMs) mostra un potenziale significativo per il ragionamento complesso sui video. Tuttavia, i metodi popolari di Raffinamento con Rinforzo (RFT), come l'ottimizzazione delle politiche relative ai gruppi basata sui risultati (GRPO), sono limitati da colli di bottiglia nella preparazione dei dati (ad esempio, rumore o costi elevati) e mostrano miglioramenti instabili nella qualità delle lunghe catene di pensiero (CoTs) e nelle prestazioni a valle. Per affrontare queste limitazioni, proponiamo VerIPO, un metodo di Ottimizzazione Iterativa delle Politiche guidata da Verificatore, progettato per migliorare gradualmente la capacità dei Video-LLMs di generare catene di ragionamento profonde e a lungo termine. Il componente centrale è il Verificatore Consapevole dei Rollout, posizionato tra le fasi di addestramento GRPO e Ottimizzazione Diretta delle Preferenze (DPO) per formare il ciclo di addestramento GRPO-Verificatore-DPO. Questo verificatore utilizza piccoli LLMs come giudici per valutare la logica di ragionamento dei rollout, consentendo la costruzione di dati contrastivi di alta qualità, inclusi CoT riflessivi e contestualmente coerenti. Questi campioni di preferenza curati guidano la fase efficiente di DPO (7 volte più veloce rispetto a GRPO), portando a miglioramenti marcati nella qualità delle catene di ragionamento, specialmente in termini di lunghezza e coerenza contestuale. Questo ciclo di addestramento beneficia della ricerca estensiva di GRPO e dell'ottimizzazione mirata di DPO. I risultati sperimentali dimostrano: 1) Un'ottimizzazione significativamente più veloce ed efficace rispetto alle varianti standard di GRPO, ottenendo prestazioni superiori; 2) I nostri modelli addestrati superano l'inferenza diretta di Video-LLMs su larga scala addestrati con istruzioni, producendo CoT lunghi e contestualmente coerenti su diverse attività di ragionamento video; e 3) Il nostro modello con una singola iterazione supera potenti LMM (ad esempio, Kimi-VL) e modelli di ragionamento lungo (ad esempio, Video-R1), evidenziandone l'efficacia e la stabilità.
I Diffusion Transformer (DiT) sono essenziali per la generazione di video, ma soffrono di una latenza significativa a causa della complessità quadratica dell'attenzione. Calcolando solo i token critici, l'attenzione sparsa riduce i costi computazionali e offre un approccio promettente per l'accelerazione. Tuttavia, abbiamo identificato che i metodi esistenti non riescono a raggiungere una qualità di generazione ottimale con lo stesso budget computazionale per due motivi: (1) Identificazione imprecisa dei token critici: i metodi attuali raggruppano i token in base alla posizione piuttosto che alla semantica, portando a rappresentazioni aggregate imprecise. (2) Eccessivo spreco computazionale: i token critici sono dispersi tra quelli non critici, causando uno spreco di calcolo sulle GPU, che sono ottimizzate per elaborare token contigui. In questo articolo, proponiamo SVG2, un framework senza addestramento che massimizza l'accuratezza dell'identificazione e minimizza lo spreco computazionale, raggiungendo un compromesso ottimale tra qualità di generazione ed efficienza. Il cuore di SVG2 è la permutazione semantica, che raggruppa e riordina i token in base alla similarità semantica utilizzando k-means. Questo approccio garantisce sia una rappresentazione precisa dei cluster, migliorando l'accuratezza dell'identificazione, sia un layout densificato dei token critici, consentendo un calcolo efficiente senza padding. Inoltre, SVG2 integra un controllo dinamico del budget top-p e implementazioni kernel personalizzate, raggiungendo un'accelerazione fino a 2,30x e 1,89x mantenendo un PSNR fino a 30 e 26 rispettivamente su HunyuanVideo e Wan 2.1.
In questo articolo presentiamo UI-Genie, un framework auto-migliorante che affronta due sfide chiave negli agenti GUI: la verifica dell'esito della traiettoria è complessa e i dati di addestramento di alta qualità non sono scalabili. Queste sfide vengono rispettivamente affrontate da un modello di ricompensa e da una pipeline di auto-miglioramento. Il modello di ricompensa, UI-Genie-RM, presenta un'architettura intervallata immagine-testo che elabora in modo efficiente il contesto storico e unisce le ricompense a livello di azione e a livello di task. Per supportare l'addestramento di UI-Genie-RM, sviluppiamo strategie di generazione dei dati appositamente progettate, tra cui verifica basata su regole, corruzione controllata della traiettoria e hard negative mining. Per affrontare la seconda sfida, una pipeline di auto-miglioramento espande progressivamente task GUI complessi risolvibili, migliorando sia l'agente che i modelli di ricompensa attraverso l'esplorazione guidata dalle ricompense e la verifica degli esiti in ambienti dinamici. Per l'addestramento del modello, generiamo UI-Genie-RM-517k e UI-Genie-Agent-16k, stabilendo il primo dataset specifico per le ricompense per gli agenti GUI, dimostrando al contempo la generazione di traiettorie sintetiche di alta qualità senza annotazione manuale. I risultati sperimentali mostrano che UI-Genie raggiunge prestazioni all'avanguardia su più benchmark per agenti GUI con tre generazioni di auto-miglioramento dati-modello. Rendiamo disponibile in open-source l'implementazione completa del framework e i dataset generati per facilitare ulteriori ricerche su https://github.com/Euphoria16/UI-Genie.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno raggiunto una precisione considerevole nel Riconoscimento Ottico dei Caratteri (OCR) da immagini statiche. Tuttavia, la loro efficacia nell'OCR video è significativamente ridotta a causa di fattori come il mosso, le variazioni temporali e gli effetti visivi intrinseci nei contenuti video. Per fornire una guida più chiara per l'addestramento di MLLM pratici, introduciamo il benchmark MME-VideoOCR, che comprende una gamma completa di scenari applicativi di OCR video. MME-VideoOCR presenta 10 categorie di task che comprendono 25 task individuali e copre 44 scenari diversi. Questi task vanno oltre il riconoscimento del testo per incorporare una comprensione e un ragionamento più approfonditi del contenuto testuale all'interno dei video. Il benchmark è composto da 1.464 video con risoluzioni, proporzioni e durate variabili, insieme a 2.000 coppie domanda-risposta curate meticolosamente e annotate manualmente. Valutiamo 18 MLLM all'avanguardia su MME-VideoOCR, rivelando che anche il modello con le migliori prestazioni (Gemini-2.5 Pro) raggiunge un'accuratezza di solo il 73,7%. Un'analisi granulare indica che, sebbene gli MLLM esistenti dimostrino prestazioni solide su task in cui i testi rilevanti sono contenuti in uno o pochi fotogrammi, mostrano una capacità limitata nel gestire efficacemente task che richiedono una comprensione olistica del video. Queste limitazioni sono particolarmente evidenti negli scenari che richiedono ragionamento spazio-temporale, integrazione di informazioni tra fotogrammi o resistenza ai pregiudizi linguistici. I nostri risultati evidenziano anche l'importanza di un input visivo ad alta risoluzione e di una copertura temporale sufficiente per un OCR affidabile in scenari video dinamici.
La Low-Rank Adaptation (LoRA) è un metodo popolare per il fine-tuning efficiente in termini di parametri (PEFT) di modelli generativi, apprezzato per la sua semplicità ed efficacia. Nonostante i recenti miglioramenti, LoRA soffre ancora di una limitazione fondamentale: l'overfitting quando il collo di bottiglia viene ampliato. Funziona al meglio con ranghi compresi tra 32 e 64, ma la sua accuratezza ristagna o diminuisce a ranghi più elevati, rimanendo comunque inferiore alle prestazioni del fine-tuning completo (FFT). Identifichiamo la causa principale nel collo di bottiglia strutturale di LoRA, che introduce un intreccio di gradienti nei canali di input non correlati e distorce la propagazione del gradiente. Per risolvere questo problema, introduciamo una nuova struttura, la Granular Low-Rank Adaptation (GraLoRA), che suddivide le matrici dei pesi in sottoblocchi, ciascuno con il proprio adattatore a basso rango. Con un costo computazionale o di archiviazione trascurabile, GraLoRA supera i limiti di LoRA, aumenta efficacemente la capacità rappresentativa e si avvicina maggiormente al comportamento del FFT. Esperimenti su benchmark di generazione di codice e ragionamento di senso comune dimostrano che GraLoRA supera costantemente LoRA e altre baseline, raggiungendo un guadagno assoluto fino a +8,5% in Pass@1 su HumanEval+. Questi miglioramenti si mantengono su diverse dimensioni del modello e impostazioni di rango, rendendo GraLoRA una soluzione scalabile e robusta per il PEFT. Codice, dati e script sono disponibili all'indirizzo https://github.com/SqueezeBits/GraLoRA.git.
I clienti aziendali stanno adottando sempre più i Large Language Models (LLM) per attività di comunicazione critiche, come la stesura di email, la creazione di presentazioni commerciali e la composizione di messaggi informali. Il dispiegamento di tali modelli in diverse regioni richiede che essi comprendano contesti culturali e linguistici vari e generino risposte sicure e rispettose. Per le applicazioni aziendali, è cruciale mitigare i rischi reputazionali, mantenere la fiducia e garantire la conformità, identificando e gestendo efficacemente il linguaggio non sicuro o offensivo. Per affrontare questo problema, introduciamo SweEval, un benchmark che simula scenari del mondo reale con variazioni di tono (positivo o negativo) e contesto (formale o informale). I prompt istruiscono esplicitamente il modello a includere specifiche parole volgari durante il completamento del compito. Questo benchmark valuta se i LLM rispettano o resistono a tali istruzioni inappropriate e valuta il loro allineamento con framework etici, sfumature culturali e capacità di comprensione del linguaggio. Al fine di promuovere la ricerca nella costruzione di sistemi di IA allineati eticamente per uso aziendale e non solo, rilasciamo il dataset e il codice: https://github.com/amitbcp/multilingual_profanity.
Il progresso nel ragionamento sul codice nei grandi modelli linguistici (LLM) è fondamentalmente limitato dalla scarsità di dataset ad alta difficoltà, in particolare quelli con casi di test input-output verificabili necessari per una validazione rigorosa delle soluzioni su larga scala. Introduciamo rStar-Coder, che migliora significativamente le capacità di ragionamento sul codice degli LLM costruendo un dataset su larga scala e verificato di 418K problemi di codice di livello competitivo, 580K soluzioni con ragionamenti estesi insieme a ricchi casi di test di varia difficoltà. Questo è stato raggiunto attraverso tre contributi principali: (1) selezioniamo problemi di programmazione competitiva e soluzioni oracolo per sintetizzare nuovi problemi risolvibili; (2) introduciamo una pipeline affidabile per la sintesi di casi di test input-output che scompone la generazione in un metodo a tre passi per la generazione degli input e un meccanismo di verifica reciproca per un'etichettatura efficace degli output; (3) arricchiamo i problemi con soluzioni di ragionamento esteso di alta qualità, verificate tramite casi di test. Esperimenti estensivi sui modelli Qwen (1.5B-14B) su vari benchmark di ragionamento sul codice dimostrano la superiorità del dataset rStar-Coder, raggiungendo prestazioni leader paragonabili ai migliori LLM di ragionamento con dimensioni del modello molto più ridotte. Su LiveCodeBench, rStar-Coder migliora Qwen2.5-7B dal 17.4% a un impressionante 57.3%, e Qwen2.5-14B dal 23.3% al 62.5%, superando o3-mini (low) del 3.1%. Sul più impegnativo USA Computing Olympiad, il nostro modello da 7B raggiunge una precisione media pass@1 del 16.15%, superando il livello di frontiera QWQ-32B. Il codice e il dataset saranno rilasciati su https://github.com/microsoft/rStar.
I recenti progressi nel ragionamento CoT e nel post-addestramento RL sono stati segnalati per migliorare le capacità di ragionamento video dei MLLM. Questo progresso solleva naturalmente una domanda: questi modelli possono eseguire ragionamenti video complessi in modo paragonabile a esperti umani? Tuttavia, i benchmark video esistenti valutano principalmente le capacità di percezione visiva e di grounding, con domande che possono essere risposte basandosi su prompt espliciti o indizi visivi isolati. Tali benchmark non catturano appieno le complessità del ragionamento nel mondo reale, dove gli esseri umani devono cercare attivamente, integrare e analizzare molteplici indizi prima di giungere a una conclusione. Per affrontare questo problema, presentiamo Video-Holmes, un benchmark ispirato al processo di ragionamento di Sherlock Holmes, progettato per valutare le capacità di ragionamento video complesso dei MLLM. Video-Holmes consiste in 1.837 domande derivate da 270 cortometraggi di suspense annotati manualmente, che coprono sette task progettati con cura. Ogni task è costruito identificando prima eventi chiave e relazioni causali all'interno dei film, e poi progettando domande che richiedono ai modelli di individuare attivamente e connettere molteplici indizi visivi rilevanti sparsi in diversi segmenti video. La nostra valutazione completa dei MLLM all'avanguardia rivela che, sebbene questi modelli eccellano generalmente nella percezione visiva, incontrano notevoli difficoltà nell'integrazione delle informazioni e spesso perdono indizi critici. Ad esempio, il modello con le migliori prestazioni, Gemini-2.5-Pro, raggiunge un'accuratezza di solo il 45%, con la maggior parte dei modelli che si attestano al di sotto del 40%. Ci auguriamo che Video-Holmes possa servire come un "test-Holmes" per il ragionamento multimodale, motivando i modelli a ragionare più come gli esseri umani e sottolineando le sfide in corso in questo campo. Il benchmark è rilasciato su https://github.com/TencentARC/Video-Holmes.
Il recente cambio di paradigma verso l'addestramento di grandi modelli linguistici (LLM) utilizzando l'apprendimento per rinforzo (RL) in stile DeepSeek-R1-Zero su ricompense verificabili ha portato a impressionanti progressi nel ragionamento matematico e nella programmazione. Tuttavia, questa metodologia è limitata a compiti in cui è possibile una verifica delle risposte basata su regole e non si estende naturalmente a domini del mondo reale come la chimica, la sanità, l'ingegneria, il diritto, la biologia, gli affari e l'economia. Le attuali soluzioni pratiche utilizzano un LLM aggiuntivo come verificatore basato su modello; tuttavia, ciò introduce problemi come la dipendenza da un LLM verificatore potente, la suscettibilità all'hacking delle ricompense e l'onere pratico di mantenere il modello verificatore in memoria durante l'addestramento. Per affrontare questo problema ed estendere l'addestramento in stile DeepSeek-R1-Zero a domini di ragionamento generale, proponiamo un metodo senza verificatore (VeriFree) che bypassa la verifica delle risposte e utilizza invece l'RL per massimizzare direttamente la probabilità di generare la risposta di riferimento. Confrontiamo VeriFree con metodi basati su verificatore e dimostriamo che, oltre ai suoi significativi vantaggi pratici e ai ridotti requisiti computazionali, VeriFree eguaglia e persino supera i metodi basati su verificatore in valutazioni estese su MMLU-Pro, GPQA, SuperGPQA e benchmark relativi alla matematica. Inoltre, forniamo approfondimenti su questo metodo da molteplici prospettive: come un'elegante integrazione dell'addestramento sia della politica che del verificatore implicito in un unico modello, e come un approccio di ottimizzazione variazionale. Il codice è disponibile all'indirizzo https://github.com/sail-sg/VeriFree.
Le interazioni sociali umane dipendono dalla capacità di inferire intenzioni, emozioni e credenze non espresse degli altri, un'abilità cognitiva radicata nel concetto psicologico di Teoria della Mente (ToM). Mentre i grandi modelli linguistici (LLM) eccellono nei compiti di comprensione semantica, faticano a gestire l'ambiguità e le sfumature contestuali intrinseche nella comunicazione umana. Per colmare questa lacuna, introduciamo MetaMind, un framework multi-agente ispirato alle teorie psicologiche della metacognizione, progettato per emulare il ragionamento sociale simile a quello umano. MetaMind scompone la comprensione sociale in tre fasi collaborative: (1) un Agente Teoria della Mente genera ipotesi sugli stati mentali dell'utente (ad esempio, intenzione, emozione), (2) un Agente di Dominio affina queste ipotesi utilizzando norme culturali e vincoli etici, e (3) un Agente di Risposta genera risposte contestualmente appropriate, validando l'allineamento con l'intenzione inferita. Il nostro framework raggiunge prestazioni all'avanguardia in tre benchmark impegnativi, con un miglioramento del 35,7% negli scenari sociali del mondo reale e un guadagno del 6,2% nel ragionamento ToM. In particolare, consente per la prima volta agli LLM di eguagliare le prestazioni umane in compiti chiave di ToM. Studi di ablazione confermano la necessità di tutti i componenti, dimostrando la capacità del framework di bilanciare plausibilità contestuale, appropriatezza sociale e adattamento all'utente. Questo lavoro avanza i sistemi di IA verso un'intelligenza sociale simile a quella umana, con applicazioni nel dialogo empatico e nelle interazioni culturalmente sensibili. Il codice è disponibile all'indirizzo https://github.com/XMZhangAI/MetaMind.
I modelli linguistici di grandi dimensioni per video (video LLM) eccellono nella comprensione video, ma affrontano una significativa inefficienza computazionale a causa della ridondanza dei token video. I metodi esistenti di pruning dei token offrono soluzioni. Tuttavia, gli approcci che operano all'interno del LLM (pruning interno-LLM), come FastV, comportano un sovraccarico computazionale intrinseco negli strati superficiali. Al contrario, i metodi che eseguono il pruning dei token prima del LLM (pruning esterno-LLM) affrontano principalmente la ridondanza spaziale all'interno di singoli fotogrammi o di finestre temporali limitate, trascurando le cruciali dinamiche temporali globali e le correlazioni attraverso sequenze video più lunghe. Ciò porta a una riduzione spazio-temporale subottimale e non sfrutta appieno la comprimibilità del video. In modo cruciale, il potenziale sinergico e l'influenza reciproca della combinazione di queste strategie rimangono inesplorati. Per ridurre ulteriormente la ridondanza, introduciamo HoliTom, un nuovo framework di fusione olistica dei token senza addestramento. HoliTom utilizza il pruning esterno-LLM attraverso la segmentazione temporale globale consapevole della ridondanza, seguita dalla fusione spazio-temporale per ridurre i token visivi di oltre il 90%, alleviando significativamente il carico computazionale del LLM. A complemento, introduciamo un robusto approccio di fusione basato sulla similarità dei token interno-LLM, progettato per prestazioni superiori e compatibilità con il pruning esterno-LLM. Le valutazioni dimostrano il promettente compromesso efficienza-prestazioni del nostro metodo su LLaVA-OneVision-7B, riducendo i costi computazionali al 6,9% dei FLOP mantenendo il 99,1% delle prestazioni originali. Inoltre, otteniamo una riduzione di 2,28x nel Time-To-First-Token (TTFT) e un'accelerazione di 1,32x nel throughput di decodifica, evidenziando i benefici pratici del nostro approccio integrato di pruning per un'inferenza efficiente dei video LLM.
L'animazione di immagini con controllo interattivo del movimento ha guadagnato popolarità nella generazione da immagine a video (I2V). Gli approcci moderni si basano tipicamente su ampi kernel gaussiani per estendere le traiettorie del movimento come condizione senza definire esplicitamente la regione di movimento, portando a un controllo grossolano del movimento e fallendo nel distinguere il movimento dell'oggetto da quello della telecamera. Per mitigare questi problemi, presentiamo MotionPro, un controllore di movimento preciso che sfrutta in modo innovativo le traiettorie per regione e una maschera di movimento per regolare la sintesi del movimento a grana fine e identificare la categoria del movimento target (ovvero, movimento dell'oggetto o della telecamera), rispettivamente. Tecnicamente, MotionPro stima prima le mappe di flusso su ciascun video di addestramento tramite un modello di tracciamento, e poi campiona le traiettorie per regione per simulare lo scenario di inferenza. Invece di estendere il flusso attraverso ampi kernel gaussiani, il nostro approccio basato su traiettorie per regione consente un controllo più preciso utilizzando direttamente le traiettorie all'interno di regioni locali, caratterizzando così efficacemente i movimenti a grana fine. Una maschera di movimento viene simultaneamente derivata dalle mappe di flusso predette per catturare la dinamica complessiva del movimento delle regioni. Per perseguire un controllo naturale del movimento, MotionPro rafforza ulteriormente la riduzione del rumore video incorporando sia le traiettorie per regione che la maschera di movimento attraverso la modulazione delle caratteristiche. Ancora più notevole, abbiamo meticolosamente costruito un benchmark, ovvero MC-Bench, con 1.1K coppie immagine-traiettoria annotate dagli utenti, per la valutazione del controllo del movimento I2V sia a grana fine che a livello di oggetto. Esperimenti estensivi condotti su WebVid-10M e MC-Bench dimostrano l'efficacia di MotionPro. Si prega di consultare la nostra pagina del progetto per ulteriori risultati: https://zhw-zhang.github.io/MotionPro-page/.
Migliorare le prestazioni su compiti complessi e abilitare decisioni interpretabili nei grandi modelli linguistici (LLM), specialmente per applicazioni cliniche, richiede un ragionamento efficace. Tuttavia, ciò rimane una sfida senza un fine-tuning supervisionato (SFT) su costosi dati di catena di pensiero (CoT) distillati da modelli closed-source (ad esempio, GPT-4o). In questo lavoro, presentiamo AlphaMed, il primo LLM medico a dimostrare che la capacità di ragionamento può emergere esclusivamente attraverso l'apprendimento per rinforzo (RL), utilizzando ricompense minimaliste basate su regole su dataset pubblici di domande a scelta multipla, senza fare affidamento su SFT o dati CoT distillati. AlphaMed raggiunge risultati all'avanguardia su sei benchmark di domande mediche, superando i modelli addestrati con pipeline convenzionali SFT+RL. Su benchmark impegnativi (ad esempio, MedXpert), AlphaMed supera persino modelli più grandi o closed-source come DeepSeek-V3-671B e Claude-3.5-Sonnet. Per comprendere i fattori alla base di questo successo, conduciamo un'analisi completa centrata sui dati guidata da tre domande: (i) L'RL minimalista basato su regole può incentivare il ragionamento senza supervisione CoT distillata? (ii) In che modo quantità e diversità del dataset influenzano il ragionamento? (iii) In che modo la difficoltà delle domande modella l'emergere e la generalizzazione del ragionamento? I nostri risultati mostrano che l'informatività del dataset è un fattore chiave per le prestazioni di ragionamento e che l'RL minimalista su dati informativi di domande a scelta multipla è efficace nell'indurre il ragionamento senza supervisione CoT. Osserviamo anche tendenze divergenti tra i benchmark, evidenziando limitazioni nelle valutazioni attuali e la necessità di benchmark più impegnativi e orientati al ragionamento per domande mediche.
L'allineamento multilingue rappresenta un paradigma efficace e rappresentativo per potenziare le capacità multilingue dei modelli linguistici di grandi dimensioni (LLM), trasferendo le competenze dalle lingue ad alta risorsa a quelle a bassa risorsa. Nel frattempo, alcune ricerche sui neuroni specifici per lingua rivelano l'esistenza di neuroni che si attivano selettivamente nei LLM durante l'elaborazione di lingue diverse. Ciò offre una nuova prospettiva per analizzare e comprendere in modo più specifico i meccanismi dei LLM in contesti multilingue. In questo lavoro, proponiamo un nuovo algoritmo di identificazione dei neuroni più granulare, che rileva i neuroni linguistici (inclusi i neuroni specifici per lingua e quelli correlati alla lingua) e i neuroni indipendenti dalla lingua. Inoltre, basandoci sulle caratteristiche distributive dei diversi tipi di neuroni, suddividiamo il processo interno dei LLM per l'inferenza multilingue in quattro parti: (1) comprensione multilingue, (2) ragionamento nello spazio semantico condiviso, (3) trasformazione dello spazio di output multilingue e (4) output nello spazio del vocabolario. In aggiunta, analizziamo sistematicamente i modelli prima e dopo l'allineamento, con un focus sui diversi tipi di neuroni. Esaminiamo anche il fenomeno dell'"Allineamento Multilingue Spontaneo". Nel complesso, il nostro lavoro conduce un'indagine approfondita basata sui diversi tipi di neuroni, fornendo risultati empirici e intuizioni preziose per una migliore comprensione dell'allineamento multilingue e delle capacità multilingue dei LLM.
La controllabilità, la coerenza temporale e la sintesi dei dettagli rimangono le sfide più critiche nella generazione di video. In questo articolo, ci concentriamo su una tecnica cinematografica comunemente utilizzata ma ancora poco esplorata, nota come Frame In e Frame Out. Nello specifico, partendo dalla generazione da immagine a video, gli utenti possono controllare gli oggetti nell'immagine per farli uscire naturalmente dalla scena o introdurre nuove identità di riferimento per farli entrare nella scena, guidati da una traiettoria di movimento specificata dall'utente. Per supportare questo compito, introduciamo un nuovo dataset curato in modo semi-automatico, un protocollo di valutazione completo mirato a questa impostazione e un'architettura efficiente di Diffusion Transformer per video con controllo del movimento e preservazione dell'identità. La nostra valutazione dimostra che l'approccio proposto supera significativamente i baseline esistenti.
I recenti progressi nei modelli generativi hanno reso possibile la generazione di immagini ad alta fedeltà a partire da testo. Tuttavia, i modelli open-source per l'editing di immagini rimangono indietro rispetto alle loro controparti proprietarie, principalmente a causa della limitata disponibilità di dati di alta qualità e di benchmark insufficienti. Per superare queste limitazioni, introduciamo ImgEdit, un dataset su larga scala e di alta qualità per l'editing di immagini, composto da 1,2 milioni di coppie di modifiche accuratamente curate, che includono sia modifiche singole nuove e complesse, sia compiti multi-turn impegnativi. Per garantire la qualità dei dati, utilizziamo una pipeline multi-stadio che integra un modello all'avanguardia di visione e linguaggio, un modello di rilevamento, un modello di segmentazione, insieme a procedure specifiche di in-painting e un rigoroso post-processing. ImgEdit supera i dataset esistenti sia nella novità dei compiti che nella qualità dei dati. Utilizzando ImgEdit, addestriamo ImgEdit-E1, un modello di editing che utilizza un modello di visione e linguaggio per elaborare l'immagine di riferimento e la richiesta di modifica, che supera i modelli open-source esistenti in molteplici compiti, evidenziando il valore di ImgEdit e del design del modello. Per una valutazione completa, introduciamo ImgEdit-Bench, un benchmark progettato per valutare le prestazioni di editing delle immagini in termini di aderenza alle istruzioni, qualità della modifica e conservazione dei dettagli. Include una suite di test di base, una suite impegnativa per modifiche singole e una suite dedicata per compiti multi-turn. Valutiamo sia modelli open-source che proprietari, nonché ImgEdit-E1, fornendo un'analisi approfondita e intuizioni pratiche sul comportamento attuale dei modelli di editing di immagini. I dati sorgente sono pubblicamente disponibili su https://github.com/PKU-YuanGroup/ImgEdit.
In molte applicazioni del mondo reale, i modelli implementati si trovano ad affrontare input che differiscono dai dati visti durante l'addestramento. Il rilevamento fuori distribuzione (out-of-distribution detection) identifica se un input proviene da una distribuzione non vista in precedenza, mentre il riconoscimento in mondo aperto (open-world recognition) segnala tali input per garantire che il sistema rimanga robusto man mano che emergono categorie precedentemente sconosciute che devono essere gestite senza necessità di riaddestramento. I modelli di base (foundation models) e i modelli visione-linguaggio (vision-language models) vengono pre-addestrati su dataset ampi e diversificati con l'aspettativa di una generalizzazione ampia tra domini, inclusa l'imaging medico. Tuttavia, valutare questi modelli su set di test con solo pochi tipi comuni di outlier riduce silenziosamente la valutazione a un problema a insieme chiuso (closed-set problem), nascondendo i fallimenti su condizioni rare o veramente nuove incontrate nell'uso clinico. Presentiamo quindi NOVA, un benchmark di valutazione impegnativo e realistico basato su 900 scansioni MRI cerebrali che coprono 281 patologie rare e protocolli di acquisizione eterogenei. Ogni caso include narrazioni cliniche dettagliate e annotazioni con bounding box in doppio cieco da parte di esperti. Insieme, questi elementi consentono una valutazione congiunta della localizzazione delle anomalie, della descrizione visiva (visual captioning) e del ragionamento diagnostico. Poiché NOVA non viene mai utilizzato per l'addestramento, funziona come un test estremo per la generalizzazione fuori distribuzione: i modelli devono colmare un divario sia nell'aspetto dei campioni che nello spazio semantico. I risultati di base con i principali modelli visione-linguaggio (GPT-4o, Gemini 2.0 Flash e Qwen2.5-VL-72B) rivelano cali significativi delle prestazioni in tutti i compiti, stabilendo NOVA come un banco di prova rigoroso per avanzare modelli in grado di rilevare, localizzare e ragionare su anomalie veramente sconosciute.
Questo articolo presenta DetailFlow, un metodo di generazione di immagini autoregressivo (AR) 1D da grossolano a fine che modella le immagini attraverso una nuova strategia di predizione del dettaglio successivo. Apprendendo una sequenza di token consapevole della risoluzione supervisionata con immagini progressivamente degradate, DetailFlow consente al processo di generazione di partire dalla struttura globale e di affinare gradualmente i dettagli. Questa sequenza di token 1D da grossolano a fine si allinea bene con il meccanismo di inferenza autoregressiva, fornendo un modo più naturale ed efficiente per il modello AR di generare contenuti visivi complessi. Il nostro modello AR 1D compatto raggiunge una sintesi di immagini di alta qualità con un numero significativamente inferiore di token rispetto agli approcci precedenti, come VAR/VQGAN. Proponiamo inoltre un meccanismo di inferenza parallela con autocorrezione che accelera la velocità di generazione di circa 8 volte, riducendo al contempo l'errore di campionamento accumulato intrinseco nella supervisione teacher-forcing. Sul benchmark ImageNet 256x256, il nostro metodo raggiunge un gFID di 2.96 con 128 token, superando VAR (3.3 FID) e FlexVAR (3.05 FID), che richiedono entrambi 680 token nei loro modelli AR. Inoltre, grazie al numero significativamente ridotto di token e al meccanismo di inferenza parallela, il nostro metodo esegue l'inferenza quasi 2 volte più velocemente rispetto a VAR e FlexVAR. I risultati sperimentali estesi dimostrano la qualità e l'efficienza di generazione superiori di DetailFlow rispetto ai metodi all'avanguardia esistenti.
Presentiamo FinTagging, il primo benchmark XBRL a pieno spettro e consapevole delle tabelle, progettato per valutare le capacità di estrazione strutturata delle informazioni e allineamento semantico dei modelli linguistici di grandi dimensioni (LLM) nel contesto della rendicontazione finanziaria basata su XBRL. A differenza dei benchmark precedenti che semplificano eccessivamente l'etichettatura XBRL come una classificazione multiclasse piatta e si concentrano esclusivamente sul testo narrativo, FinTagging scompone il problema dell'etichettatura XBRL in due sottocompiti: FinNI per l'estrazione delle entità finanziarie e FinCL per l'allineamento dei concetti guidato dalla tassonomia. Richiede ai modelli di estrarre congiuntamente i fatti e allinearli con l'intera tassonomia US-GAAP di oltre 10.000 elementi, sia nel testo non strutturato che nelle tabelle strutturate, consentendo una valutazione realistica e granulare. Valutiamo un insieme diversificato di LLM in contesti zero-shot, analizzando sistematicamente le loro prestazioni su entrambi i sottocompiti e sull'accuratezza complessiva dell'etichettatura. I nostri risultati rivelano che, sebbene gli LLM dimostrino una forte generalizzazione nell'estrazione delle informazioni, faticano nell'allineamento fine dei concetti, in particolare nel disambiguare voci tassonomiche strettamente correlate. Questi risultati evidenziano i limiti degli attuali LLM nell'automatizzare completamente l'etichettatura XBRL e sottolineano la necessità di migliorare il ragionamento semantico e la modellazione consapevole dello schema per soddisfare le esigenze di una rendicontazione finanziaria accurata. Il codice è disponibile nel nostro repository GitHub e i dati nel nostro repository Hugging Face.
La visione attiva, nota anche come percezione attiva, si riferisce al processo di selezionare attivamente dove e come guardare per raccogliere informazioni rilevanti per il compito. È un componente critico per una percezione e una presa di decisione efficienti negli esseri umani e negli agenti incarnati avanzati. Recentemente, l'uso di Modelli Linguistici Multimodali di Grande Scala (MLLMs) come moduli centrali di pianificazione e decisione nei sistemi robotici ha attirato molta attenzione. Tuttavia, nonostante l'importanza della percezione attiva nell'intelligenza incarnata, c'è poca o nessuna esplorazione su come gli MLLMs possano essere dotati o apprendere capacità di percezione attiva. In questo articolo, forniamo innanzitutto una definizione sistematica dei compiti di percezione attiva basati su MLLM. Osserviamo che la strategia di ricerca di zoom-in del modello GPT-o3, recentemente proposto, può essere considerata un caso speciale di percezione attiva; tuttavia, soffre ancora di bassa efficienza di ricerca e di una selezione imprecisa delle regioni. Per affrontare questi problemi, proponiamo ACTIVE-O3, un framework di addestramento basato esclusivamente sull'apprendimento per rinforzo, costruito su GRPO, progettato per dotare gli MLLMs di capacità di percezione attiva. Inoltre, stabiliamo una suite di benchmark completa per valutare ACTIVE-O3 sia in compiti generali del mondo aperto, come il grounding di oggetti piccoli e densi, sia in scenari specifici di dominio, inclusi il rilevamento di oggetti piccoli nel telerilevamento e nella guida autonoma, nonché la segmentazione interattiva fine-grana. In aggiunta, ACTIVE-O3 dimostra anche forti capacità di ragionamento zero-shot sul Benchmark V*, senza fare affidamento su dati espliciti di ragionamento. Speriamo che il nostro lavoro possa fornire una semplice base di codice e un protocollo di valutazione per facilitare future ricerche sulla percezione attiva negli MLLMs.
Il controllo preciso sulla generazione dei modelli linguistici è fondamentale per garantire sia la sicurezza che l'affidabilità. Sebbene l'ingegneria dei prompt e il pilotaggio siano comunemente utilizzati per intervenire sui comportamenti dei modelli, l'enorme numero di parametri nei modelli spesso porta a rappresentazioni interne altamente interconnesse. Questa interdipendenza può limitare la precisione del controllo e talvolta causare effetti collaterali indesiderati. Ricerche recenti hanno esplorato l'uso di autoencoder sparsi (SAE) per separare la conoscenza in spazi ad alta dimensionalità per il pilotaggio. Tuttavia, queste applicazioni sono state limitate a compiti semplici a causa del problema non banale di individuare componenti di conoscenza atomici. In questo articolo, proponiamo Steering Target Atoms (STA), un metodo innovativo che isola e manipola componenti di conoscenza separati per migliorare la sicurezza. Esperimenti completi dimostrano l'efficacia del nostro approccio. Un'ulteriore analisi rivela che il pilotaggio mostra una robustezza e una flessibilità superiori, specialmente in scenari avversari. Applichiamo inoltre la strategia di pilotaggio al modello di ragionamento su larga scala, confermandone l'efficacia nel controllo preciso del ragionamento.
I modelli visione-linguaggio (VLMs) hanno dimostrato capacità notevoli nella comprensione e nel ragionamento sul contenuto visivo, ma persistono sfide significative nei compiti che richiedono una comprensione multi-prospettica e un ragionamento spaziale. Identifichiamo una limitazione critica: i VLMs attuali eccellono principalmente nel ragionamento spaziale egocentrico (dalla prospettiva della telecamera) ma non riescono a generalizzare a prospettive allocentriche quando è necessario adottare il sistema di riferimento spaziale di un'altra entità. Introduciamo ViewSpatial-Bench, il primo benchmark completo progettato specificamente per la valutazione del riconoscimento della localizzazione spaziale multi-prospettica attraverso cinque tipi di compiti distinti, supportato da una pipeline di annotazione 3D automatizzata che genera etichette direzionali precise. Una valutazione completa di vari VLMs su ViewSpatial-Bench rivela una significativa disparità di prestazioni: i modelli dimostrano prestazioni ragionevoli nei compiti dalla prospettiva della telecamera, ma mostrano una ridotta accuratezza quando ragionano da una prospettiva umana. Ottimizzando i VLMs sul nostro dataset spaziale multi-prospettico, otteniamo un miglioramento complessivo delle prestazioni del 46,24% tra i compiti, evidenziando l'efficacia del nostro approccio. Il nostro lavoro stabilisce un benchmark cruciale per l'intelligenza spaziale nei sistemi AI incarnati e fornisce prove empiriche che la modellazione delle relazioni spaziali 3D migliora le corrispondenti capacità di comprensione spaziale dei VLMs.
Studi recenti dimostrano che le capacità di ragionamento dei Large Language Models (LLM) possono essere migliorate applicando il Reinforcement Learning (RL) a task di question-answering (QA) in aree come la matematica e la programmazione. Con un contesto di lunga durata, gli LLM possono imparare a eseguire ricerche, come indicato dal comportamento di autocorrezione osservato in DeepSeek R1. Tuttavia, questo comportamento di ricerca è spesso impreciso e manca di sicurezza, portando a risposte lunghe e ridondanti e mettendo in luce carenze nell'intuizione e nella verifica. Ispirati dalla Dual Process Theory in psicologia, introduciamo una semplice modifica al task di QA che include quattro fasi: Fast Thinking, in cui l'LLM deve rispondere entro un budget rigoroso di token; Verifica, in cui il modello valuta la sua risposta iniziale; Slow Thinking, in cui affina la risposta iniziale con maggiore deliberazione; e Riassunto, in cui sintetizza il perfezionamento della fase precedente in passaggi precisi. Il nostro task proposto migliora l'accuratezza media dal 24,9% al 27,9% per Qwen2.5-1.5B e dal 45,9% al 49,8% per DeepSeek-R1-Qwen-1.5B. In particolare, per Qwen2.5-1.5B, la modalità Fast Thinking da sola raggiunge un'accuratezza del 26,8% utilizzando meno di 1000 token, dimostrando sostanziali guadagni in efficienza inferenziale. Questi risultati suggeriscono che l'intuizione e il ragionamento deliberativo sono sistemi distinti e complementari che beneficiano di un training mirato.
Scalable Vector Graphics (SVG) offrono un formato potente per rappresentare design visivi come codice interpretabile. I recenti progressi nei modelli visione-linguaggio (VLMs) hanno abilitato la generazione di SVG di alta qualità inquadrando il problema come un task di generazione di codice e sfruttando il pretraining su larga scala. I VLMs sono particolarmente adatti per questo compito poiché catturano sia la semantica globale che i pattern visivi dettagliati, trasferendo conoscenze tra i domini della visione, del linguaggio naturale e del codice. Tuttavia, gli approcci VLM esistenti spesso faticano a produrre SVG fedeli ed efficienti perché non osservano mai le immagini renderizzate durante l'addestramento. Sebbene il rendering differenziabile per la generazione autoregressiva di codice SVG rimanga indisponibile, gli output renderizzati possono comunque essere confrontati con gli input originali, consentendo un feedback valutativo adatto al reinforcement learning (RL). Introduciamo RLRF (Reinforcement Learning from Rendering Feedback), un metodo RL che migliora la generazione di SVG nei VLMs autoregressivi sfruttando il feedback dagli output SVG renderizzati. Data un'immagine in input, il modello genera sequenze SVG che vengono renderizzate e confrontate con l'immagine originale per calcolare una ricompensa. Questo feedback sulla fedeltà visiva guida il modello verso la produzione di SVG più accurati, efficienti e semanticamente coerenti. RLRF supera significativamente il fine-tuning supervisionato, affrontando i comuni casi di fallimento e abilitando una generazione di SVG precisa e di alta qualità con una forte comprensione strutturale e capacità di generalizzazione.
Presentiamo VisTA, un nuovo framework di apprendimento per rinforzo che consente agli agenti visivi di esplorare, selezionare e combinare dinamicamente strumenti da una libreria diversificata basandosi sulle prestazioni empiriche. I metodi esistenti per il ragionamento potenziato da strumenti si affidano a prompt senza addestramento o a fine-tuning su larga scala; entrambi mancano di un'esplorazione attiva degli strumenti e assumono tipicamente una diversità limitata degli stessi, mentre i metodi di fine-tuning richiedono inoltre un'ampia supervisione umana. Al contrario, VisTA sfrutta l'apprendimento per rinforzo end-to-end per affinare iterativamente strategie sofisticate e specifiche per la selezione degli strumenti, utilizzando i risultati delle attività come segnali di feedback. Attraverso l'ottimizzazione relativa delle politiche di gruppo (GRPO), il nostro framework consente a un agente di scoprire autonomamente percorsi efficaci per la selezione degli strumenti senza richiedere una supervisione esplicita del ragionamento. Gli esperimenti sui benchmark ChartQA, Geometry3K e BlindTest dimostrano che VisTA ottiene significativi miglioramenti delle prestazioni rispetto ai baseline senza addestramento, specialmente su esempi fuori distribuzione. Questi risultati evidenziano la capacità di VisTA di migliorare la generalizzazione, utilizzare in modo adattivo strumenti diversificati e aprire la strada a sistemi di ragionamento visivo flessibili e guidati dall'esperienza.
I modelli linguistici multimodali di grandi dimensioni (MLLMs) rimangono vulnerabili a esempi avversari trasferibili. Mentre i metodi esistenti tipicamente ottengono attacchi mirati allineando caratteristiche globali—come il token [CLS] di CLIP—tra campioni avversari e target, spesso trascurano le ricche informazioni locali codificate nei token di patch. Ciò porta a un allineamento subottimale e a una trasferibilità limitata, specialmente per i modelli closed-source. Per affrontare questa limitazione, proponiamo un metodo di attacco avversario trasferibile mirato basato sull'allineamento ottimale delle caratteristiche, chiamato FOA-Attack, per migliorare la capacità trasferibile degli attacchi avversari. Nello specifico, a livello globale, introduciamo una perdita di caratteristiche globali basata sulla similarità del coseno per allineare le caratteristiche grossolane dei campioni avversari con quelle dei campioni target. A livello locale, data la ricca rappresentazione locale all'interno dei Transformer, sfruttiamo tecniche di clustering per estrarre pattern locali compatti per alleviare le caratteristiche locali ridondanti. Formuliamo quindi l'allineamento delle caratteristiche locali tra campioni avversari e target come un problema di trasporto ottimale (OT) e proponiamo una perdita di trasporto ottimale con clustering locale per affinare l'allineamento delle caratteristiche fini. Inoltre, proponiamo una strategia di ponderazione dinamica dei modelli ensemble per bilanciare adattivamente l'influenza di più modelli durante la generazione di esempi avversari, migliorando ulteriormente la trasferibilità. Esperimenti estesi su vari modelli dimostrano la superiorità del metodo proposto, superando i metodi all'avanguardia, specialmente nel trasferimento a MLLMs closed-source. Il codice è rilasciato su https://github.com/jiaxiaojunQAQ/FOA-Attack.
Presentiamo SeePhys, un benchmark multimodale su larga scala per il ragionamento dei modelli linguistici di grandi dimensioni (LLM) basato su domande di fisica che spaziano dal livello di scuola media agli esami di qualifica per il dottorato. Il benchmark copre 7 domini fondamentali che abbracciano la disciplina della fisica, incorporando 21 categorie di diagrammi altamente eterogenei. A differenza dei lavori precedenti, in cui gli elementi visivi svolgono principalmente un ruolo ausiliario, il nostro benchmark presenta una proporzione significativa di problemi essenzialmente visivi (75%) che richiedono l'estrazione di informazioni visive per ottenere soluzioni corrette. Attraverso una valutazione approfondita, osserviamo che anche i modelli di ragionamento visivo più avanzati (ad esempio, Gemini-2.5-pro e o4-mini) raggiungono un'accuratezza inferiore al 60% sul nostro benchmark. Questi risultati rivelano sfide fondamentali nelle capacità attuali di comprensione visiva dei modelli linguistici di grandi dimensioni, in particolare: (i) nell'instaurare un accoppiamento rigoroso tra l'interpretazione dei diagrammi e il ragionamento fisico, e (ii) nel superare la loro persistente dipendenza da indizi testuali come scorciatoie cognitive.
La valutazione automatica della generazione multimodale rappresenta una sfida significativa, poiché le metriche automatizzate spesso faticano ad allinearsi in modo affidabile con la valutazione umana, specialmente per compiti complessi che coinvolgono più modalità. Per affrontare questo problema, presentiamo MMMG, un benchmark completo e allineato con la valutazione umana per la generazione multimodale attraverso 4 combinazioni di modalità (immagine, audio, testo e immagine intervallati, testo e audio intervallati), con un focus su compiti che presentano sfide significative per i modelli di generazione, pur consentendo una valutazione automatica affidabile attraverso una combinazione di modelli e programmi. MMMG comprende 49 compiti (inclusi 29 di nuova concezione), ciascuno con una pipeline di valutazione accuratamente progettata, e 937 istruzioni per valutare sistematicamente il ragionamento, la controllabilità e altre capacità chiave dei modelli di generazione multimodale. Un'ampia validazione dimostra che MMMG è altamente allineato con la valutazione umana, raggiungendo un accordo medio del 94,3%. I risultati del benchmarking su 24 modelli di generazione multimodale rivelano che, sebbene il modello all'avanguardia, GPT Image, raggiunga un'accuratezza del 78,3% per la generazione di immagini, risulta carente nel ragionamento multimodale e nella generazione intervallata. Inoltre, i risultati suggeriscono un ampio margine di miglioramento nella generazione audio, evidenziando un'importante direzione per la ricerca futura.
I grandi modelli linguistici hanno dimostrato impressionanti capacità di ragionamento, ma sono intrinsecamente limitati dal loro serbatoio di conoscenze. Il ragionamento potenziato dal retrieval mitiga questa limitazione consentendo ai LLM di interrogare risorse esterne, ma i metodi esistenti spesso recuperano informazioni irrilevanti o rumorose, ostacolando un ragionamento accurato. In questo articolo, proponiamo AutoRefine, un framework di post-addestramento basato su apprendimento per rinforzo che adotta un nuovo paradigma di "ricerca e raffinamento durante il pensiero". AutoRefine introduce espliciti passaggi di raffinamento della conoscenza tra chiamate di ricerca successive, consentendo al modello di filtrare, distillare e organizzare le prove in modo iterativo prima di generare una risposta. Inoltre, incorporiamo ricompense specifiche per il retrieval insieme a ricompense per la correttezza delle risposte utilizzando l'ottimizzazione relativa delle politiche di gruppo. Esperimenti su benchmark di QA a singolo e multi-hop dimostrano che AutoRefine supera significativamente gli approcci esistenti, in particolare negli scenari di ragionamento complesso e multi-hop. Un'analisi dettagliata mostra che AutoRefine effettua ricerche frequenti e di qualità superiore, sintetizzando efficacemente le prove.
I Large Language Model (LLM) addestrati tramite Reinforcement Learning (RL) hanno dimostrato forti capacità di ragionamento e comportamenti riflessivi emergenti, come il backtracking e la correzione degli errori. Tuttavia, il RL markoviano convenzionale limita l'esplorazione alla fase di addestramento per apprendere una politica deterministica ottimale e dipende dai contesti storici solo attraverso lo stato corrente. Pertanto, rimane poco chiaro se il ragionamento riflessivo emergerà durante l'addestramento RL markoviano o perché sia vantaggioso al momento del test. Per rimediare a ciò, riformuliamo l'esplorazione riflessiva all'interno del framework Bayes-Adaptive RL, che ottimizza esplicitamente il rendimento atteso sotto una distribuzione a posteriori sui processi decisionali markoviani. Questa formulazione bayesiana incentiva intrinsecamente sia lo sfruttamento massimizzante la ricompensa che l'esplorazione di raccolta di informazioni tramite aggiornamenti delle credenze. Il nostro algoritmo risultante, BARL, istruisce il LLM a cucire e cambiare strategie in base ai risultati osservati, offrendo una guida principiata su quando e come il modello dovrebbe esplorare in modo riflessivo. I risultati empirici su compiti sia sintetici che di ragionamento matematico dimostrano che BARL supera gli approcci RL markoviani standard al momento del test, raggiungendo una superiore efficienza dei token con una migliore efficacia dell'esplorazione. Il nostro codice è disponibile all'indirizzo https://github.com/shenao-zhang/BARL.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno consentito agli agenti di eseguire autonomamente compiti complessi e aperti. Tuttavia, molti framework esistenti dipendono fortemente da strumenti e flussi di lavoro predefiniti manualmente, il che ne ostacola l'adattabilità, la scalabilità e la generalizzazione tra i domini. In questo lavoro, introduciamo Alita—un agente generalista progettato con il principio "La semplicità è la massima sofisticazione", che abilita un ragionamento agentivo scalabile attraverso una predefinizione minima e una massima auto-evoluzione. Per la predefinizione minima, Alita è dotato di un solo componente per la risoluzione diretta dei problemi, rendendolo molto più semplice e lineare rispetto agli approcci precedenti che si basavano pesantemente su strumenti e flussi di lavoro elaborati e creati manualmente. Questo design pulito ne aumenta il potenziale di generalizzazione a domande complesse, senza essere limitato dagli strumenti. Per la massima auto-evoluzione, abilitiamo la creatività di Alita fornendo una suite di componenti generici per costruire, affinare e riutilizzare autonomamente capacità esterne generando protocolli di contesto del modello (MCP) relativi ai task da fonti open source, contribuendo così a un ragionamento agentivo scalabile. In particolare, Alita raggiunge un'accuratezza del 75,15% in pass@1 e dell'87,27% in pass@3, posizionandosi ai vertici tra gli agenti general-purpose, sul dataset di validazione del benchmark GAIA, e rispettivamente il 74,00% e il 52,00% in pass@1 su Mathvista e PathVQA, superando molti sistemi agentivi con una complessità molto maggiore. Ulteriori dettagli saranno aggiornati su https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}.
Man mano che il ridimensionamento al momento del test diventa una frontiera di ricerca cruciale nello sviluppo dei Large Language Models (LLM), le metodologie avanzate e contemporanee di post-addestramento si concentrano sempre più sull'estensione della lunghezza di generazione delle risposte lunghe a catena di pensiero (Chain-of-Thought, CoT) per migliorare le capacità di ragionamento verso prestazioni simili a DeepSeek R1. Tuttavia, studi recenti rivelano un fenomeno persistente di sovrapensiero nei modelli di ragionamento all'avanguardia, che si manifesta come ridondanza eccessiva o schemi di pensiero ripetitivi nelle risposte CoT lunghe. Per affrontare questo problema, in questo articolo proponiamo un framework di apprendimento per rinforzo semplice ma efficace in due fasi per ottenere un ragionamento conciso nei LLM, denominato ConciseR. Nello specifico, la prima fase, che utilizza più passi di addestramento, mira a incentivare le capacità di ragionamento del modello tramite l'ottimizzazione relativa delle politiche di gruppo con componenti di clip-higher e campionamento dinamico (GRPO++), mentre la seconda fase, che utilizza meno passi di addestramento, impone esplicitamente la concisione e migliora l'efficienza tramite l'ottimizzazione relativa delle politiche di gruppo con consapevolezza della lunghezza (L-GRPO). In modo significativo, ConciseR ottimizza la lunghezza della risposta solo dopo che tutti i rollout di un campione sono corretti, seguendo il principio "cammina prima di correre". I risultati sperimentali estesi dimostrano che il nostro modello ConciseR, che genera risposte CoT di ragionamento più concise, supera i recenti modelli di ragionamento all'avanguardia con paradigma RL zero su benchmark come AIME 2024, MATH-500, AMC 2023, Minerva e Olympiad.
Comprendere la prospettiva è fondamentale per la percezione visiva umana, ma rimane poco chiaro fino a che punto i modelli linguistici multimodali di grandi dimensioni (MLLMs) interiorizzino la geometria prospettica. Introduciamo MMPerspective, il primo benchmark specificamente progettato per valutare sistematicamente la comprensione della prospettiva da parte degli MLLMs attraverso 10 task accuratamente elaborati, suddivisi in tre dimensioni complementari: Percezione della Prospettiva, Ragionamento e Robustezza. Il nostro benchmark comprende 2.711 istanze di immagini reali e sintetiche con 5.083 coppie domanda-risposta che esplorano capacità chiave, come la percezione dei punti di fuga e il conteggio, il ragionamento sul tipo di prospettiva, la comprensione delle relazioni tra linee nello spazio 3D, l'invarianza alle trasformazioni che preservano la prospettiva, ecc. Attraverso una valutazione completa di 43 MLLMs all'avanguardia, emergono limitazioni significative: mentre i modelli dimostrano competenza nei task percettivi superficiali, faticano nel ragionamento compositivo e nel mantenere la coerenza spaziale sotto perturbazioni. La nostra analisi rivela inoltre schemi interessanti tra architettura del modello, scala e capacità prospettiche, evidenziando sia colli di bottiglia nella robustezza che i benefici del prompting a catena di pensiero. MMPerspective stabilisce un banco di prova prezioso per diagnosticare e avanzare la comprensione spaziale nei sistemi visione-linguaggio. Risorse disponibili su: https://yunlong10.github.io/MMPerspective/
I modelli visione-linguaggio (VLMs) hanno ottenuto risultati significativi su benchmark di codifica e matematica che sono impegnativi per gli esseri umani, ma la loro capacità di eseguire compiti che risultano naturali per gli umani—come la percezione, la navigazione spaziale e la gestione della memoria—rimane poco studiata. I videogiochi reali sono progettati per essere intuitivi da apprendere e padroneggiare sfruttando i bias induttivi innati, rendendoli un banco di prova ideale per valutare tali capacità nei VLMs. A tal fine, introduciamo VideoGameBench, un benchmark composto da 10 videogiochi popolari degli anni '90 con cui i VLMs interagiscono direttamente in tempo reale. VideoGameBench mette alla prova i modelli chiedendo loro di completare interi giochi avendo accesso solo a input visivi grezzi e a una descrizione ad alto livello degli obiettivi e dei controlli, un approccio significativamente diverso dalle configurazioni esistenti che si basano su impalcature specifiche per il gioco e informazioni ausiliarie. Manteniamo segreti tre dei giochi per incentivare soluzioni che generalizzino a ambienti non visti. I nostri esperimenti mostrano che i modelli visione-linguaggio all'avanguardia faticano a progredire oltre l'inizio di ciascun gioco. Riteniamo che la latenza di inferenza sia una limitazione significativa per i modelli all'avanguardia in un contesto in tempo reale; pertanto, introduciamo VideoGameBench Lite, una configurazione in cui il gioco si mette in pausa mentre attende la prossima azione del modello linguistico. Il modello con le migliori prestazioni, Gemini 2.5 Pro, completa solo lo 0,48% di VideoGameBench e l'1,6% di VideoGameBench Lite. Speriamo che la formalizzazione delle abilità umane menzionate in questo benchmark stimoli progressi in queste direzioni di ricerca.
Con il rapido avanzamento delle tecniche post-addestramento per il ragionamento e la ricerca di informazioni, i grandi modelli linguistici (LLM) possono incorporare una grande quantità di conoscenze recuperate per risolvere compiti complessi. Tuttavia, la finestra di contesto limitata dei LLM ostacola la scalabilità della quantità di conoscenza esterna in input, impedendo ulteriori miglioramenti, specialmente per compiti che richiedono una quantità significativa di conoscenza esterna. I metodi esistenti per l'estensione della finestra di contesto causano inevitabilmente una perdita di informazioni. I metodi multi-agente basati su LLM emergono come un nuovo paradigma per gestire input massicci in modo distribuito, dove identifichiamo due colli di bottiglia principali nei processi esistenti di sincronizzazione della conoscenza e di ragionamento. In questo lavoro, sviluppiamo un framework multi-agente, ExtAgents, per superare questi colli di bottiglia e consentire una migliore scalabilità nell'integrazione della conoscenza al momento dell'inferenza senza un addestramento a contesto più lungo. Testato con il nostro test avanzato di risposta a domande multi-hop, $boldsymbol{inftyBench+}$, e altri set di test pubblici inclusa la generazione di sondaggi lunghi, ExtAgents migliora significativamente le prestazioni rispetto ai metodi esistenti senza addestramento con la stessa quantità di conoscenza esterna in input, indipendentemente dal fatto che rientri o superi la finestra di contesto$. Inoltre, il metodo mantiene un'elevata efficienza grazie all'elevato parallelismo. Ulteriori studi sulla coordinazione degli agenti LLM con l'aumento della conoscenza esterna in input potrebbero beneficiare applicazioni del mondo reale.
L'interpolazione di fotogrammi intermedi mira a sintetizzare sequenze video intermedie condizionate dai fotogrammi iniziali e finali forniti. I metodi attuali all'avanguardia estendono principalmente modelli di diffusione pre-addestrati su larga scala da immagine a video (I2V-DM) incorporando vincoli sul fotogramma finale attraverso un fine-tuning diretto o omettendo l'addestramento. Identifichiamo una limitazione critica nel loro design: l'inserimento del vincolo del fotogramma finale utilizza solitamente lo stesso meccanismo che originariamente imponeva il vincolo del fotogramma iniziale (singola immagine). Tuttavia, poiché i modelli I2V-DM originali sono adeguatamente addestrati in anticipo per la condizione del fotogramma iniziale, introdurre ingenuamente il vincolo del fotogramma finale con lo stesso meccanismo e con un addestramento specializzato molto meno (o addirittura nullo) probabilmente non può conferire al fotogramma finale un impatto sufficientemente forte sul contenuto intermedio come il fotogramma iniziale. Questa asimmetria nella forza di controllo dei due fotogrammi sul contenuto intermedio può portare a movimenti incoerenti o a un collasso dell'aspetto nei fotogrammi generati. Per raggiungere in modo efficiente vincoli simmetrici per i fotogrammi iniziali e finali, proponiamo un nuovo framework, denominato Sci-Fi, che applica un'inserzione più forte per il vincolo di una scala di addestramento ridotta. Nello specifico, gestisce il vincolo del fotogramma iniziale come in precedenza, mentre introduce il vincolo del fotogramma finale attraverso un meccanismo migliorato. Il nuovo meccanismo si basa su un modulo leggero ben progettato, chiamato EF-Net, che codifica solo il fotogramma finale e lo espande in caratteristiche temporali adattive per fotogramma, iniettate nel modello I2V-DM. Ciò rende il vincolo del fotogramma finale altrettanto forte di quello del fotogramma iniziale, consentendo a Sci-Fi di produrre transizioni più armoniose in vari scenari. Esperimenti estensivi dimostrano la superiorità del nostro Sci-Fi rispetto ad altre baseline.
I modelli di diffusione video basati su Diffusion Transformer (DiT) generano video di alta qualità su larga scala, ma comportano una latenza di elaborazione e costi di memoria proibitivi per video lunghi. Per affrontare questo problema, proponiamo una nuova strategia di inferenza distribuita, denominata DualParal. L'idea centrale è che, invece di generare un intero video su una singola GPU, parallelizziamo sia i frame temporali che i livelli del modello su più GPU. Tuttavia, un'implementazione ingenua di questa divisione incontra una limitazione chiave: poiché i modelli di diffusione richiedono livelli di rumore sincronizzati tra i frame, questa implementazione porta alla serializzazione dei parallelismi originali. Sfruttiamo uno schema di denoising a blocchi per gestire questo problema. In particolare, elaboriamo una sequenza di blocchi di frame attraverso la pipeline con livelli di rumore progressivamente decrescenti. Ogni GPU gestisce un blocco specifico e un sottoinsieme di livelli, passando i risultati precedenti alla GPU successiva, consentendo calcoli e comunicazioni asincroni. Per ottimizzare ulteriormente le prestazioni, incorporiamo due miglioramenti chiave. In primo luogo, viene implementata una cache delle feature su ciascuna GPU per memorizzare e riutilizzare le feature del blocco precedente come contesto, minimizzando la comunicazione inter-GPU e i calcoli ridondanti. In secondo luogo, utilizziamo una strategia coordinata di inizializzazione del rumore, garantendo dinamiche temporali globalmente coerenti condividendo i pattern di rumore iniziali tra le GPU senza costi aggiuntivi di risorse. Insieme, questi elementi consentono una generazione video rapida, priva di artefatti e potenzialmente infinita. Applicato all'ultimo generatore video basato su diffusion transformer, il nostro metodo produce in modo efficiente video da 1.025 frame con una latenza fino a 6,54 volte inferiore e un costo di memoria 1,48 volte inferiore su 8 GPU RTX 4090.
La compressione post-addestramento riduce i costi computazionali e di memoria dei grandi modelli linguistici (LLM), consentendo un dispiegamento efficiente delle risorse. Tuttavia, i benchmark di compressione esistenti si concentrano solo sulla modellazione del linguaggio (ad esempio, la perplessità) e sui compiti di comprensione del linguaggio naturale (ad esempio, l'accuratezza su GLUE), ignorando le capacità agentiche - flusso di lavoro, uso di strumenti/chiamate di funzione, comprensione del contesto lungo e applicazione nel mondo reale. Introduciamo l'Agent Compression Benchmark (ACBench), il primo benchmark completo per valutare come la compressione influisce sulle capacità agentiche degli LLM. ACBench copre (1) 12 compiti in 4 capacità (ad esempio, WorfBench per la generazione del flusso di lavoro, Needle-in-Haystack per il recupero del contesto lungo), (2) quantizzazione (GPTQ, AWQ) e pruning (Wanda, SparseGPT), e (3) 15 modelli, inclusi LLM piccoli (Gemma-2B), standard (Qwen2.5 7B-32B) e distillati per il ragionamento (DeepSeek-R1-Distill). I nostri esperimenti rivelano compromessi nella compressione: la quantizzazione a 4 bit preserva la generazione del flusso di lavoro e l'uso di strumenti (calo dell'1%-3%) ma degrada l'accuratezza dell'applicazione nel mondo reale del 10%-15%. Introduciamo ERank, Top-k Ranking Correlation e Energy per sistematizzare l'analisi. ACBench fornisce intuizioni pratiche per ottimizzare la compressione degli LLM in scenari agentici. Il codice è disponibile su https://github.com/pprp/ACBench.
I recenti progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno mostrato risultati promettenti nell'integrazione di diverse modalità come testi e immagini. Gli MLLMs sono fortemente influenzati dal bias modale, spesso affidandosi al linguaggio mentre sottoutilizzano altre modalità come gli input visivi. Questo position paper sostiene che gli MLLMs sono profondamente affetti dal bias modale. In primo luogo, diagnostichiamo lo stato attuale del bias modale, evidenziandone le manifestazioni in vari compiti. In secondo luogo, proponiamo una roadmap di ricerca sistematica relativa al bias modale negli MLLMs. In terzo luogo, identifichiamo i fattori chiave del bias modale negli MLLMs e offriamo suggerimenti praticabili per future ricerche per mitigarlo. Per corroborare questi risultati, conduciamo esperimenti che dimostrano l'influenza di ciascun fattore: 1. Caratteristiche dei Dati: I dati linguistici sono compatti e astratti, mentre i dati visivi sono ridondanti e complessi, creando uno squilibrio intrinseco nelle dinamiche di apprendimento. 2. Capacità Sbilanciate del Backbone: La predominanza di modelli linguistici pre-addestrati negli MLLMs porta a un'eccessiva dipendenza dal linguaggio e alla trascuratezza delle informazioni visive. 3. Obiettivi di Addestramento: Gli obiettivi attuali spesso non promuovono un allineamento cross-modale bilanciato, risultando in un apprendimento scorciatoia sbilanciato verso il linguaggio. Questi risultati evidenziano la necessità di strategie di addestramento e architetture di modello bilanciate per integrare meglio più modalità negli MLLMs. Invitiamo a sforzi interdisciplinari per affrontare queste sfide e guidare l'innovazione nella ricerca sugli MLLMs. Il nostro lavoro offre una nuova prospettiva sul bias modale negli MLLMs e fornisce spunti per sviluppare sistemi multimodali più robusti e generalizzabili, avanzando il progresso verso l'Intelligenza Artificiale Generale.
I ricercatori biomedici si affidano sempre più a database strutturati su larga scala per svolgere compiti analitici complessi. Tuttavia, gli attuali sistemi text-to-SQL spesso faticano a tradurre domande scientifiche qualitative in SQL eseguibile, specialmente quando è richiesto un ragionamento implicito sul dominio. Introduciamo BiomedSQL, il primo benchmark progettato esplicitamente per valutare il ragionamento scientifico nella generazione di SQL a partire da testo, su una base di conoscenza biomedica reale. BiomedSQL comprende 68.000 triplette domanda/query SQL/risposta, basate su una base di conoscenza armonizzata in BigQuery che integra associazioni gene-malattia, inferenze causali da dati omici e registri di approvazione di farmaci. Ogni domanda richiede ai modelli di dedurre criteri specifici del dominio, come soglie di significatività a livello genomico, direzionalità degli effetti o filtri sulla fase di sperimentazione, piuttosto che affidarsi esclusivamente alla traduzione sintattica. Valutiamo una gamma di LLM open-source e proprietari, esplorando diverse strategie di prompting e paradigmi di interazione. I nostri risultati rivelano un divario prestazionale significativo: GPT-o3-mini raggiunge un'accuratezza di esecuzione del 59,0%, mentre il nostro agente personalizzato multi-step, BMSQL, arriva al 62,6%, entrambi ben al di sotto della linea di base esperta del 90,0%. BiomedSQL fornisce una nuova base per avanzare i sistemi text-to-SQL in grado di supportare la scoperta scientifica attraverso un ragionamento robusto su basi di conoscenza biomediche strutturate. Il nostro dataset è disponibile pubblicamente all'indirizzo https://huggingface.co/datasets/NIH-CARD/BiomedSQL, e il nostro codice è open-source all'indirizzo https://github.com/NIH-CARD/biomedsql.
I Large Language Model (LLM) sono potenti ma inclini ad allucinazioni a causa della conoscenza statica. La Generazione Aumentata dal Recupero (RAG) aiuta iniettando informazioni esterne, ma i metodi attuali sono spesso costosi, generalizzano male o ignorano la conoscenza interna del modello. In questo articolo, introduciamo R1-Searcher++, un nuovo framework progettato per addestrare gli LLM a sfruttare in modo adattivo sia le fonti di conoscenza interne che esterne. R1-Searcher++ impiega una strategia di addestramento in due fasi: una fase iniziale di Cold-start SFT per l'apprendimento preliminare del formato, seguita da RL per l'Acquisizione Dinamica della Conoscenza. La fase RL utilizza la supervisione dei risultati per incoraggiare l'esplorazione, incorpora un meccanismo di ricompensa per l'utilizzo della conoscenza interna e integra un meccanismo di memorizzazione per assimilare continuamente le informazioni recuperate, arricchendo così la conoscenza interna del modello. Sfruttando la conoscenza interna e un motore di ricerca esterno, il modello migliora continuamente le sue capacità, consentendo un ragionamento aumentato dal recupero efficiente. I nostri esperimenti dimostrano che R1-Searcher++ supera i precedenti metodi RAG e di ragionamento e raggiunge un recupero efficiente. Il codice è disponibile all'indirizzo https://github.com/RUCAIBox/R1-Searcher-plus.
Il rapido progresso dei Modelli Multimodali di Grande Dimensione (LMMs) per immagini e video 2D ha motivato l'estensione di questi modelli alla comprensione di scene 3D, con l'obiettivo di raggiungere un'intelligenza visivo-spaziale simile a quella umana. Tuttavia, ottenere una comprensione spaziale profonda paragonabile alle capacità umane presenta sfide significative nella codifica del modello e nell'acquisizione dei dati. I metodi esistenti spesso dipendono da sensori di profondità esterni per la cattura della geometria o utilizzano algoritmi predefiniti per la pre-costruzione di mappe 3D, limitando così la loro scalabilità, specialmente con input di video monoculari prevalenti e per applicazioni sensibili al tempo. In questo lavoro, introduciamo VLM-3R, un framework unificato per Modelli Visione-Linguaggio (VLMs) che incorpora la sintonizzazione di istruzioni ricostruttive 3D. VLM-3R elabora fotogrammi di video monoculari impiegando un codificatore geometrico per derivare token 3D impliciti che rappresentano la comprensione spaziale. Sfruttando la nostra Fusione Spaziale-Visuale-Visuale e oltre 200K coppie di domande-risposte (QA) curate per la sintonizzazione di istruzioni ricostruttive 3D, VLM-3R allinea efficacemente il contesto spaziale del mondo reale con le istruzioni linguistiche. Ciò consente un'assistenza spaziale 3D monoculare e un ragionamento incarnato. Per facilitare la valutazione del ragionamento temporale, introduciamo il benchmark Visione-Spaziale-Temporale, che presenta oltre 138.6K coppie QA in cinque distinti compiti focalizzati su relazioni spaziali in evoluzione. Esperimenti estensivi dimostrano che il nostro modello, VLM-3R, non solo facilita un robusto ragionamento visivo-spaziale, ma consente anche la comprensione dei cambiamenti contestuali 3D temporali, eccellendo sia in accuratezza che in scalabilità.
Il recupero di informazioni multimodali (MIR) affronta sfide intrinseche dovute all'eterogeneità delle fonti di dati e alla complessità dell'allineamento cross-modale. Sebbene studi precedenti abbiano identificato lacune modali negli spazi delle caratteristiche, un approccio sistematico per affrontare queste sfide rimane inesplorato. In questo lavoro, introduciamo UNITE, un framework universale che affronta queste sfide attraverso due aspetti critici ma poco esplorati: la cura dei dati e le configurazioni di addestramento consapevoli della modalità. Il nostro lavoro fornisce la prima analisi completa di come le proprietà specifiche dei dati influenzano le prestazioni delle attività downstream in diversi scenari. Inoltre, proponiamo il Modal-Aware Masked Contrastive Learning (MAMCL) per mitigare le relazioni competitive tra le istanze di diverse modalità. Il nostro framework raggiunge risultati all'avanguardia su molteplici benchmark di recupero multimodale, superando i metodi esistenti con margini significativi. Attraverso esperimenti estesi, dimostriamo che la cura strategica delle modalità e i protocolli di addestramento su misura sono fondamentali per un apprendimento robusto delle rappresentazioni cross-modali. Questo lavoro non solo avanza le prestazioni del MIR, ma fornisce anche un progetto di base per la ricerca futura nei sistemi multimodali. Il nostro progetto è disponibile all'indirizzo https://friedrichor.github.io/projects/UNITE.
L'estrazione del parlato target (Target Speech Extraction, TSE) mira a isolare la voce di un parlante specifico da una miscela di più parlanti sfruttando indizi specifici del parlante, tipicamente forniti come audio ausiliario (noto anche come cue audio). Sebbene i recenti progressi nel TSE abbiano principalmente impiegato modelli discriminativi che offrono un'elevata qualità percettiva, questi modelli spesso introducono artefatti indesiderati, riducono la naturalezza e sono sensibili alle discrepanze tra gli ambienti di addestramento e test. D'altra parte, i modelli generativi per il TSE sono inferiori in termini di qualità percettiva e intelligibilità. Per affrontare queste sfide, presentiamo SoloSpeech, una nuova pipeline generativa a cascata che integra processi di compressione, estrazione, ricostruzione e correzione. SoloSpeech include un estrattore target privo di embedding del parlante che utilizza informazioni condizionali dallo spazio latente del cue audio, allineandolo con lo spazio latente dell'audio miscelato per prevenire disallineamenti. Valutato sul dataset ampiamente utilizzato Libri2Mix, SoloSpeech raggiunge il nuovo stato dell'arte in termini di intelligibilità e qualità nelle attività di estrazione del parlato target e separazione del parlato, dimostrando un'eccezionale generalizzazione su dati fuori dominio e scenari reali.
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno notevolmente migliorato le loro capacità; tuttavia, le loro abilità di percezione spaziale rimangono una limitazione significativa. Per affrontare questa sfida, la sintesi di dati multimodali offre una soluzione promettente. Tuttavia, garantire che i dati sintetizzati rispettino il senso comune spaziale è un compito non banale. In questo lavoro, introduciamo SKG2Data, un nuovo approccio di sintesi multimodale guidato da grafi di conoscenza spaziale, basato sul concetto di generazione da conoscenza a dati. SKG2Data costruisce automaticamente un Grafo di Conoscenza Spaziale (SKG) per emulare la percezione umana delle direzioni e delle distanze spaziali, che viene successivamente utilizzato per guidare la sintesi di dati multimodali. Esperimenti estensivi dimostrano che i dati sintetizzati da diversi tipi di conoscenza spaziale, inclusi direzione e distanza, non solo migliorano le capacità di percezione e ragionamento spaziale degli MLLM, ma mostrano anche forti capacità di generalizzazione. Speriamo che l'idea della sintesi di dati basata sulla conoscenza possa avanzare lo sviluppo dell'intelligenza spaziale.
Mentre i sistemi di virtual try-on (VTON) mirano a renderizzare un capo d'abbigliamento su un'immagine di una persona target, questo articolo affronta il nuovo compito del virtual try-off (VTOFF), che si occupa del problema inverso: generare immagini standardizzate di prodotti di abbigliamento a partire da foto reali di individui vestiti. A differenza del VTON, che deve gestire variazioni di pose e stili diverse, il VTOFF beneficia di un formato di output coerente e ben definito -- tipicamente una rappresentazione piatta e distesa del capo -- rendendolo uno strumento promettente per la generazione di dati e il miglioramento dei dataset. Tuttavia, gli approcci esistenti al VTOFF presentano due principali limitazioni: (i) difficoltà nel separare le caratteristiche del capo dalle occlusioni e dalle pose complesse, spesso portando ad artefatti visivi, e (ii) applicabilità limitata a capi di una singola categoria (ad esempio, solo abiti per la parte superiore del corpo), riducendo la generalizzazione. Per affrontare queste sfide, presentiamo Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), una nuova architettura che include un backbone duale basato su DiT con un meccanismo di attenzione multimodale modificato per un'estrazione robusta delle caratteristiche del capo. La nostra architettura è progettata per ricevere informazioni sul capo da più modalità come immagini, testo e maschere, operando in un contesto multi-categoria. Infine, proponiamo un modulo aggiuntivo di allineamento per affinare ulteriormente i dettagli visivi generati. Gli esperimenti condotti sui dataset VITON-HD e Dress Code dimostrano che TEMU-VTOFF stabilisce un nuovo stato dell'arte nel compito VTOFF, migliorando significativamente sia la qualità visiva che la fedeltà ai capi target.
Man mano che i modelli linguistici di grandi dimensioni aumentano in capacità e autonomia, identificare le vulnerabilità attraverso il red-teaming diventa fondamentale per un dispiegamento sicuro. Tuttavia, gli approcci tradizionali di prompt-engineering potrebbero rivelarsi inefficaci una volta che il red-teaming si trasforma in un problema da debole a forte, in cui i modelli target superano i red-teamer in termini di capacità. Per studiare questo cambiamento, inquadriamo il red-teaming attraverso la lente del divario di capacità tra attaccante e target. Valutiamo più di 500 coppie attaccante-target utilizzando attacchi di jailbreak basati su LLM che imitano i red-teamer umani attraverso diverse famiglie, dimensioni e livelli di capacità. Emergono tre forti tendenze: (i) i modelli più capaci sono migliori attaccanti, (ii) il successo dell'attacco diminuisce drasticamente una volta che la capacità del target supera quella dell'attaccante, e (iii) i tassi di successo degli attacchi correlano con alte prestazioni sulle sezioni di scienze sociali del benchmark MMLU-Pro. Da queste tendenze, deriviamo una legge di scalabilità del jailbreaking che predice il successo dell'attacco per un target fisso basandosi sul divario di capacità tra attaccante e target. Questi risultati suggeriscono che attaccanti con capacità fisse (ad esempio, esseri umani) potrebbero diventare inefficaci contro i modelli futuri, i modelli open-source sempre più capaci amplificano i rischi per i sistemi esistenti, e i fornitori di modelli devono misurare e controllare accuratamente le capacità persuasive e manipolative dei modelli per limitare la loro efficacia come attaccanti.
La Digital Forensics and Incident Response (DFIR) consiste nell'analisi di prove digitali per supportare indagini legali. I Large Language Models (LLM) offrono nuove opportunità nelle attività DFIR come l'analisi dei log e la memoria forense, ma la loro suscettibilità a errori e allucinazioni solleva preoccupazioni in contesti ad alto rischio. Nonostante il crescente interesse, manca un benchmark completo per valutare gli LLM sia nei domini teorici che pratici della DFIR. Per colmare questa lacuna, presentiamo DFIR-Metric, un benchmark composto da tre componenti: (1) Valutazione delle Conoscenze: un set di 700 domande a scelta multipla revisionate da esperti, tratte da certificazioni di settore e documentazione ufficiale; (2) Sfide Forensi Realistiche: 150 task in stile CTF che testano il ragionamento a più passi e la correlazione delle prove; e (3) Analisi Pratica: 500 casi di forensics su disco e memoria provenienti dal NIST Computer Forensics Tool Testing Program (CFTT). Abbiamo valutato 14 LLM utilizzando DFIR-Metric, analizzando sia la loro accuratezza che la coerenza tra le prove. Introduciamo inoltre una nuova metrica, il Task Understanding Score (TUS), progettata per valutare più efficacemente i modelli in scenari in cui raggiungono un'accuratezza quasi nulla. Questo benchmark offre una base rigorosa e riproducibile per far progredire l'IA nel campo della digital forensics. Tutti gli script, gli artefatti e i risultati sono disponibili sul sito del progetto all'indirizzo https://github.com/DFIR-Metric.
I modelli all'avanguardia per la generazione di movimento da testo si basano sulla rappresentazione cinematica locale-relativa del movimento, resa popolare da HumanML3D, che codifica il movimento rispetto al bacino e al fotogramma precedente con una ridondanza integrata. Sebbene questo design semplifichi l'addestramento per i modelli di generazione precedenti, introduce limitazioni critiche per i modelli di diffusione e ostacola l'applicabilità ai task downstream. In questo lavoro, rivisitiamo la rappresentazione del movimento e proponiamo un'alternativa radicalmente semplificata e a lungo abbandonata per la generazione di movimento da testo: le coordinate assolute delle articolazioni nello spazio globale. Attraverso un'analisi sistematica delle scelte progettuali, dimostriamo che questa formulazione raggiunge una fedeltà del movimento significativamente superiore, un migliore allineamento al testo e una forte scalabilità, anche con un semplice backbone Transformer e senza perdite ausiliarie cinematica-consapevoli. Inoltre, la nostra formulazione supporta naturalmente task downstream come il controllo del movimento guidato da testo e l'editing temporale/spaziale senza ulteriori riprogettazioni specifiche per il task e la generazione costosa di guida classificatore dai segnali di controllo. Infine, dimostriamo una promettente generalizzazione per generare direttamente i vertici della mesh SMPL-H in movimento da testo, gettando una solida base per la ricerca futura e le applicazioni legate al movimento.
Con il rapido avanzamento dei modelli generativi, la generazione a scopo generale ha attirato un'attenzione crescente come approccio promettente per unificare compiti diversi attraverso diverse modalità all'interno di un unico sistema. Nonostante questi progressi, i framework open-source esistenti spesso rimangono fragili e faticano a supportare applicazioni complesse del mondo reale a causa della mancanza di pianificazione strutturata del flusso di lavoro e di feedback a livello di esecuzione. Per affrontare queste limitazioni, presentiamo ComfyMind, un sistema AI collaborativo progettato per abilitare una generazione a scopo generale robusta e scalabile, costruito sulla piattaforma ComfyUI. ComfyMind introduce due innovazioni principali: l'Interfaccia di Flusso di Lavoro Semantico (SWI) che astrae i grafi di nodi di basso livello in moduli funzionali richiamabili descritti in linguaggio naturale, consentendo una composizione di alto livello e riducendo gli errori strutturali; il meccanismo di Pianificazione ad Albero di Ricerca con esecuzione a feedback localizzato, che modella la generazione come un processo decisionale gerarchico e consente correzioni adattive in ogni fase. Insieme, questi componenti migliorano la stabilità e la flessibilità dei flussi di lavoro generativi complessi. Valutiamo ComfyMind su tre benchmark pubblici: ComfyBench, GenEval e Reason-Edit, che coprono compiti di generazione, modifica e ragionamento. I risultati mostrano che ComfyMind supera costantemente i baseline open-source esistenti e raggiunge prestazioni comparabili a GPT-Image-1. ComfyMind apre una strada promettente per lo sviluppo di sistemi AI generativi a scopo generale open-source. Pagina del progetto: https://github.com/LitaoGuo/ComfyMind
I modelli Vision-Language (VLM) basati su Web Agent rappresentano un passo significativo verso l'automazione di compiti complessi simulando interazioni simili a quelle umane con i siti web. Tuttavia, il loro dispiegamento in ambienti web non controllati introduce significative vulnerabilità di sicurezza. La ricerca esistente sugli attacchi di iniezione ambientale avversaria spesso si basa su presupposti irrealistici, come la manipolazione diretta dell'HTML, la conoscenza dell'intento dell'utente o l'accesso ai parametri del modello dell'agente, limitandone l'applicabilità pratica. In questo articolo, proponiamo AdInject, un nuovo metodo di attacco black-box realistico che sfrutta la consegna della pubblicità online per iniettare contenuti malevoli nell'ambiente del Web Agent. AdInject opera con un modello di minaccia significativamente più realistico rispetto ai lavori precedenti, assumendo un agente black-box, vincoli di contenuto malevolo statico e nessuna conoscenza specifica dell'intento dell'utente. AdInject include strategie per progettare contenuti pubblicitari malevoli mirati a indurre gli agenti a cliccare, e una tecnica di ottimizzazione del contenuto pubblicitario basata su VLM che inferisce potenziali intenti dell'utente dal contesto del sito web target e integra questi intenti nel contenuto pubblicitario per renderlo più rilevante o critico per il compito dell'agente, aumentando così l'efficacia dell'attacco. Le valutazioni sperimentali dimostrano l'efficacia di AdInject, con tassi di successo dell'attacco che superano il 60% nella maggior parte degli scenari e si avvicinano al 100% in alcuni casi. Ciò dimostra fortemente che la consegna pubblicitaria prevalente costituisce un vettore potente e realistico per attacchi di iniezione ambientale contro i Web Agent. Questo lavoro evidenzia una vulnerabilità critica nella sicurezza dei Web Agent derivante da canali di manipolazione ambientale reali, sottolineando l'urgente necessità di sviluppare meccanismi di difesa robusti contro tali minacce. Il nostro codice è disponibile all'indirizzo https://github.com/NicerWang/AdInject.
I modelli visione-linguaggio (VLMs) eccellono in una vasta gamma di compiti, ma soffrono di elevati costi di inferenza in termini di tempo e memoria. La sparsità dei token mitiga le inefficienze nell'uso dei token, mentre la sparsità dei neuroni riduce i calcoli ad alta dimensionalità, offrendo entrambe soluzioni promettenti per migliorare l'efficienza. Recentemente, questi due paradigmi di sparsità si sono evoluti principalmente in parallelo, alimentando l'assunzione prevalente che funzionino in modo indipendente. Tuttavia, rimane una domanda fondamentale ma poco esplorata: operano veramente in isolamento, o esiste un'interazione sottostante più profonda che deve ancora essere scoperta? In questo articolo, conduciamo la prima indagine completa su questa questione. Introducendo e analizzando il meccanismo di corrispondenza tra Neuroni Core e Token Core, abbiamo scoperto che i neuroni e i token chiave per l'inferenza si influenzano e si rafforzano reciprocamente. Basandoci su questa intuizione, proponiamo CoreMatching, un framework di inferenza sparsa co-adattativo, che sfrutta la sinergia tra la sparsità dei token e dei neuroni per migliorare l'efficienza dell'inferenza. Attraverso analisi teoriche e valutazioni di efficienza, dimostriamo che il metodo proposto supera i baseline più avanzati su dieci compiti di comprensione delle immagini e tre dispositivi hardware. In particolare, su NVIDIA Titan Xp, ha ottenuto una riduzione di 5x dei FLOP e un'accelerazione complessiva di 10x. Il codice è rilasciato su https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
DeepSeek-R1 ha dimostrato potenti capacità di ragionamento nel dominio testuale attraverso un apprendimento per rinforzo (RL) stabile. Recentemente, nel dominio multimodale, alcuni lavori hanno iniziato ad applicare direttamente il RL per generare ragionamenti liberi simili a R1 per i compiti di Visual Question Answering (VQA). Tuttavia, i compiti multimodali presentano una natura intrinsecamente diversa rispetto a quelli testuali, che si basano fortemente sulla comprensione dell'immagine in input per risolvere il problema. Pertanto, tale ragionamento libero affronta due limitazioni critiche nel compito VQA: (1) Le catene di ragionamento estese disperdono il focus visivo dalle regioni critiche per il compito, degradando l'accuratezza delle risposte. (2) I passaggi intermedi non verificabili amplificano la varianza del gradiente della politica e i costi computazionali aggiuntivi. Per affrontare questi problemi, in questo articolo introduciamo SATORI (Spatially Anchored Task Optimization with Reinforcement Learning), che scompone il VQA in tre fasi verificabili, tra cui la descrizione globale dell'immagine, la localizzazione delle regioni e la previsione della risposta, ciascuna delle quali fornisce segnali di ricompensa espliciti. Inoltre, introduciamo anche VQA-Verify, un dataset di 12k annotato con descrizioni e bounding-box allineate alle risposte per facilitare l'addestramento. Gli esperimenti dimostrano miglioramenti consistenti delle prestazioni su sette benchmark VQA, raggiungendo un miglioramento fino al 15,7% in accuratezza rispetto alla baseline simile a R1. La nostra analisi della mappa di attenzione conferma un focus migliorato sulle regioni critiche, che porta a miglioramenti in accuratezza. Il nostro codice è disponibile all'indirizzo https://github.com/justairr/SATORI-R1.
Le architetture Mixture-of-Experts (MoE) consentono di scalare modelli linguistici di grandi dimensioni (LLM) a conteggi di parametri elevati senza un aumento proporzionale dei costi computazionali. Tuttavia, le significative esigenze di memoria dei grandi modelli MoE ostacolano il loro dispiegamento in vari ambienti computazionali, dai server cloud ai dispositivi consumer. Questo studio dimostra innanzitutto una marcata specializzazione specifica per task nei modelli di attivazione degli esperti all'interno degli strati MoE. Basandoci su questo, introduciamo PreMoe, un nuovo framework che consente il dispiegamento efficiente di modelli MoE di grandi dimensioni in ambienti con memoria limitata. PreMoe presenta due componenti principali: il pruning probabilistico degli esperti (PEP) e il recupero adattivo degli esperti in base al task (TAER). Il PEP utilizza una nuova metrica, il punteggio di selezione atteso condizionato al task (TCESS), derivato dai logit del router per quantificare l'importanza degli esperti per task specifici, identificando così un insieme minimo di esperti critici. Il TAER sfrutta questi profili di importanza degli esperti specifici per task per un'inferenza efficiente. Pre-calcola e memorizza modelli compatti di esperti per task diversi. Quando viene ricevuta una query dell'utente, il TAER identifica rapidamente il modello di task memorizzato più rilevante e ricostruisce il modello caricando solo il piccolo sottoinsieme di esperti cruciali per quel task. Questo approccio riduce drasticamente l'impronta di memoria in tutti gli scenari di dispiegamento. DeepSeek-R1 671B mantiene il 97,2\% di accuratezza su MATH500 quando viene potato alla configurazione 8/128 (riduzione del 50\% degli esperti), e raggiunge ancora il 72,0\% con un pruning aggressivo 8/32 (riduzione dell'87,5\% degli esperti). Pangu-Ultra-MoE 718B raggiunge il 97,15\% su MATH500 e l'81,3\% su AIME24 con il pruning 8/128, mentre un pruning ancora più aggressivo a 4/64 (390GB di memoria) preserva il 96,95\% di accuratezza su MATH500. Rendiamo il nostro codice disponibile pubblicamente all'indirizzo https://github.com/JarvisPei/PreMoe.
In questo lavoro, miriamo a incentivare la capacità di ragionamento dei Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) attraverso l'apprendimento per rinforzo (RL) e sviluppare un approccio efficace che mitighi i problemi di ricompensa sparsa e scomparsa del vantaggio durante l'RL. A tal fine, proponiamo Share-GRPO, un nuovo approccio RL che affronta questi problemi esplorando e condividendo traiettorie di ragionamento diverse su uno spazio di domande ampliato. Nello specifico, Share-GRPO espande prima lo spazio delle domande per una data domanda utilizzando tecniche di trasformazione dei dati, e poi incoraggia l'MLLM a esplorare efficacemente diverse traiettorie di ragionamento sullo spazio di domande ampliato e a condividere le traiettorie di ragionamento scoperte tra le domande ampliate durante l'RL. Inoltre, Share-GRPO condivide anche le informazioni sulle ricompense durante il calcolo del vantaggio, stimando i vantaggi delle soluzioni in modo gerarchico tra e all'interno delle varianti delle domande, consentendo una stima più accurata dei vantaggi relativi e migliorando la stabilità dell'addestramento delle politiche. Valutazioni estensive su sei benchmark di ragionamento ampiamente utilizzati dimostrano la performance superiore del nostro metodo. Il codice sarà disponibile all'indirizzo https://github.com/HJYao00/R1-ShareVL.
Comprendere le fonti dell'incertezza di un modello riguardo alle sue previsioni è cruciale per una collaborazione efficace tra uomo e intelligenza artificiale. I lavori precedenti propongono l'uso di incertezza numerica o espressioni attenuanti ("Non sono sicuro, ma..."), che non spiegano l'incertezza derivante da prove contrastanti, lasciando gli utenti incapaci di risolvere disaccordi o fare affidamento sull'output. Introduciamo CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), il primo framework in grado di generare spiegazioni in linguaggio naturale dell'incertezza del modello, attraverso (i) l'identificazione di relazioni tra porzioni di testo che rivelano conflitti o accordi tra affermazioni e prove o tra prove stesse, che guidano l'incertezza predittiva del modello in modo non supervisionato, e (ii) la generazione di spiegazioni tramite prompting e steering dell'attenzione che verbalizzano queste interazioni critiche. Su tre modelli linguistici e due dataset di fact-checking, dimostriamo che CLUE produce spiegazioni più fedeli all'incertezza del modello e più coerenti con le decisioni di fact-checking rispetto al prompting per spiegazioni di incertezza senza guida sulle interazioni tra porzioni di testo. I valutatori umani giudicano le nostre spiegazioni più utili, più informative, meno ridondanti e più logicamente coerenti con l'input rispetto a questa baseline. CLUE non richiede fine-tuning o modifiche architetturali, rendendolo plug-and-play per qualsiasi modello linguistico white-box. Collegando esplicitamente l'incertezza ai conflitti di prove, offre un supporto pratico per il fact-checking e si generalizza facilmente ad altri compiti che richiedono ragionamento su informazioni complesse.
Gli algoritmi di programmazione dinamica (DP) per problemi di ottimizzazione combinatoria operano utilizzando massimizzazione, minimizzazione e addizione classica nei loro algoritmi ricorsivi. Le funzioni di valore associate corrispondono a poliedri convessi nel semianello max-plus. I modelli esistenti di Neural Algorithmic Reasoning, tuttavia, si basano su un'attenzione softmax-normalizzata a prodotto scalare, dove la ponderazione esponenziale smussata offusca queste strutture poliedriche nitide e collassa quando valutata in contesti out-of-distribution (OOD). Introduciamo l'attenzione Tropicale, una nuova funzione di attenzione che opera nativamente nel semianello max-plus della geometria tropicale. Dimostriamo che l'attenzione Tropicale può approssimare circuiti tropicali di algoritmi combinatori di tipo DP. Proponiamo quindi che l'uso di trasformatori Tropicali migliori le prestazioni empiriche OOD sia nella generalizzazione della lunghezza che nella generalizzazione del valore, in compiti di ragionamento algoritmico, superando i baselines softmax mentre rimane stabile sotto attacchi avversari. Presentiamo inoltre la generalizzazione agli attacchi avversari come un terzo asse per il benchmarking del Neural Algorithmic Reasoning. I nostri risultati dimostrano che l'attenzione Tropicale ripristina il ragionamento nitido e invariante alla scala assente nel softmax.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più riconosciuti come strumenti potenti per la scoperta scientifica, in particolare nelle scienze molecolari. Un requisito fondamentale per questi modelli è la capacità di comprendere accuratamente le strutture molecolari, comunemente codificate nella rappresentazione SMILES. Tuttavia, gli attuali LLM faticano a interpretare SMILES, fallendo persino in compiti di base come il conteggio degli anelli molecolari. Per affrontare questa limitazione, introduciamo CLEANMOL, un nuovo framework che formula l'analisi di SMILES in una serie di compiti puliti e deterministici progettati esplicitamente per promuovere la comprensione molecolare a livello di grafo. Questi compiti spaziano dalla corrispondenza di sottografi alla corrispondenza globale di grafi, fornendo una supervisione strutturata allineata con le proprietà strutturali molecolari. Costruiamo un dataset di pre-addestramento molecolare con punteggi di difficoltà adattivi e pre-addestriamo LLM open-source su questi compiti. I nostri risultati dimostrano che CLEANMOL non solo migliora la comprensione strutturale, ma ottiene anche i migliori risultati o compete con il baseline sul benchmark Mol-Instructions.
La Generazione Aumentata dal Recupero migliora l'accuratezza dei Modelli Linguistici di Grande Dimensione (LLM) aggiungendo passaggi recuperati da un corpus esterno al prompt dell'LLM. Questo articolo indaga come il bias posizionale - la tendenza degli LLM a valutare diversamente le informazioni in base alla loro posizione nel prompt - influenzi non solo la capacità dell'LLM di sfruttare passaggi rilevanti, ma anche la sua suscettibilità a passaggi distraenti. Attraverso esperimenti estesi su tre benchmark, dimostriamo come le pipeline di recupero all'avanguardia, pur tentando di recuperare passaggi rilevanti, portino sistematicamente passaggi altamente distraenti ai primi posti, con oltre il 60% delle query contenenti almeno un passaggio altamente distraente tra i primi 10 passaggi recuperati. Di conseguenza, l'impatto del bias posizionale dell'LLM, che in contesti controllati viene spesso riportato come molto significativo da lavori correlati, è in realtà marginale negli scenari reali poiché sia i passaggi rilevanti che quelli distraenti vengono, a loro volta, penalizzati. In effetti, i nostri risultati rivelano che strategie sofisticate che tentano di riordinare i passaggi in base alle preferenze posizionali dell'LLM non performano meglio di un ordinamento casuale.
I Vision Transformer (ViT) si sono affermati come l'architettura dominante per le attività di elaborazione visiva, dimostrando un'eccellente scalabilità con l'aumento dei dati di addestramento e delle dimensioni del modello. Tuttavia, recenti studi hanno identificato l'emergere di token artefatti nei ViT che sono incongruenti con la semantica locale. Questi token anomali compromettono le prestazioni dei ViT in compiti che richiedono una localizzazione fine o una coerenza strutturale. Una mitigazione efficace di questo problema è l'aggiunta di token di registro ai ViT, che implicitamente "assorbono" il termine artefatto durante l'addestramento. Data la disponibilità di vari ViT pre-addestrati su larga scala, in questo articolo ci proponiamo di dotarli di tali token di registro senza la necessità di riaddestrarli da zero, cosa impraticabile considerando le loro dimensioni. Nello specifico, proponiamo Post Hoc Registers (PH-Reg), un metodo efficiente di auto-distillazione che integra i registri in un ViT esistente senza richiedere dati etichettati aggiuntivi e un riaddestramento completo. PH-Reg inizializza sia la rete insegnante che quella studente dallo stesso ViT pre-addestrato. L'insegnante rimane congelato e non modificato, mentre lo studente viene potenziato con token di registro inizializzati casualmente. Applicando l'aumentazione dei dati al momento del test agli input dell'insegnante, generiamo embedding densi denoizzati privi di artefatti, che vengono poi utilizzati per ottimizzare solo un piccolo sottoinsieme di pesi sbloccati dello studente. Dimostriamo che il nostro approccio può ridurre efficacemente il numero di token artefatti, migliorando la segmentazione e la previsione della profondità del ViT studente in condizioni di zero-shot e linear probing.
I modelli linguistici per proteine (PLM) sono emersi come strumenti potenti per rilevare modelli complessi nelle sequenze proteiche. Tuttavia, la capacità dei PLM di catturare pienamente le informazioni sulle sequenze proteiche potrebbe essere limitata dal concentrarsi su singoli compiti di pre-addestramento. Sebbene l'aggiunta di modalità di dati o obiettivi supervisionati possa migliorare le prestazioni dei PLM, il pre-addestramento rimane spesso focalizzato sulla rimozione del rumore da sequenze corrotte. Per spingere i limiti dei PLM, la nostra ricerca ha esplorato una strategia di pre-addestramento multi-task. Abbiamo sviluppato Ankh3, un modello ottimizzato congiuntamente su due obiettivi: modellazione linguistica mascherata con probabilità di mascheramento multiple e completamento di sequenze proteiche basato esclusivamente su sequenze proteiche come input. Questo pre-addestramento multi-task ha dimostrato che i PLM possono apprendere rappresentazioni più ricche e generalizzabili unicamente dalle sequenze proteiche. I risultati hanno mostrato prestazioni migliorate in compiti downstream, come la previsione della struttura secondaria, fluorescenza, fitness GB1 e previsione dei contatti. L'integrazione di più compiti ha conferito al modello una comprensione più completa delle proprietà proteiche, portando a previsioni più robuste e accurate.
Le interazioni proteina-proteina (PPI) sono fondamentali per numerosi processi cellulari, e la loro caratterizzazione è cruciale per comprendere i meccanismi delle malattie e guidare la scoperta di farmaci. Sebbene i modelli linguistici per proteine (PLM) abbiano dimostrato un notevole successo nella previsione della struttura e della funzione proteica, la loro applicazione alla previsione dell'affinità di legame basata sulla sequenza rimane relativamente poco esplorata. Questa lacuna è spesso attribuita alla scarsità di dataset di alta qualità e rigorosamente raffinati, nonché alla dipendenza da strategie semplici per concatenare le rappresentazioni proteiche. In questo lavoro, affrontiamo queste limitazioni. In primo luogo, introduciamo una versione meticolosamente curata del dataset PPB-Affinity, composto da un totale di 8.207 interazioni proteina-proteina uniche, risolvendo incongruenze nelle annotazioni e duplicati per interazioni multi-catena. Questo dataset incorpora una soglia rigorosa di identità di sequenza, pari o inferiore al 30%, per garantire una suddivisione robusta in set di addestramento, validazione e test, minimizzando la dispersione dei dati. In secondo luogo, proponiamo e valutiamo sistematicamente quattro architetture per adattare i PLM alla previsione dell'affinità di legame PPI: concatenazione degli embedding (EC), concatenazione delle sequenze (SC), pooling gerarchico (HP) e aggiunta di attenzione aggregata (PAD). Queste architetture sono state valutate utilizzando due metodi di addestramento: fine-tuning completo e un approccio leggero che impiega teste ConvBERT su caratteristiche PLM congelate. I nostri esperimenti completi su più PLM leader (ProtT5, ESM2, Ankh, Ankh2 e ESM3) hanno dimostrato che le architetture HP e PAD superano costantemente i metodi di concatenazione convenzionali, raggiungendo un aumento fino al 12% in termini di correlazione di Spearman. Questi risultati evidenziano la necessità di progettazioni architetturali sofisticate per sfruttare appieno le capacità dei PLM nella previsione sfumata dell'affinità di legame PPI.
La diagnosi differenziale delle demenze neurodegenerative rappresenta una sfida clinica significativa, principalmente a causa della sovrapposizione nella presentazione dei sintomi e della somiglianza dei pattern osservati nelle neuroimmagini strutturali. Per migliorare l'efficienza e l'accuratezza diagnostica, sono stati proposti metodi basati sul deep learning, come le Reti Neurali Convoluzionali e i Vision Transformer, per la classificazione automatica delle risonanze magnetiche cerebrali. Tuttavia, nonostante le loro elevate prestazioni predittive, questi modelli trovano un'utilità clinica limitata a causa della loro opacità nel processo decisionale. In questo lavoro, proponiamo un framework che integra due componenti fondamentali per migliorare la trasparenza diagnostica. In primo luogo, introduciamo una pipeline modulare per convertire le risonanze magnetiche cerebrali 3D T1-pesate in referti radiologici testuali. In secondo luogo, esploriamo il potenziale dei moderni Modelli Linguistici di Grande Dimensione (LLM) per assistere i clinici nella diagnosi differenziale tra i sottotipi di demenza frontotemporale, la malattia di Alzheimer e l'invecchiamento normale, basandosi sui referti generati. Per colmare il divario tra accuratezza predittiva e spiegabilità, utilizziamo l'apprendimento per rinforzo per incentivare il ragionamento diagnostico negli LLM. Senza richiedere tracce di ragionamento supervisionate o distillazione da modelli più grandi, il nostro approccio consente l'emergere di razionali diagnostici strutturati basati sui risultati delle neuroimmagini. A differenza dei metodi di spiegabilità post-hoc che giustificano retrospettivamente le decisioni del modello, il nostro framework genera razionali diagnostici come parte del processo di inferenza, producendo spiegazioni causalmente fondate che informano e guidano il processo decisionale del modello. In questo modo, il nostro framework eguaglia le prestazioni diagnostiche dei metodi di deep learning esistenti, offrendo al contempo razionali che supportano le sue conclusioni diagnostiche.