Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo rapporto tecnico introduce EXAONE 4.0, che integra una modalità Non-reasoning e una modalità Reasoning per combinare l'eccellente usabilità di EXAONE 3.5 con le avanzate capacità di ragionamento di EXAONE Deep. Per aprire la strada all'era dell'IA agentica, EXAONE 4.0 incorpora funzionalità essenziali come l'uso di strumenti agentici e amplia le sue capacità multilingue per supportare lo spagnolo oltre all'inglese e al coreano. La serie di modelli EXAONE 4.0 comprende due dimensioni: un modello mid-size da 32B ottimizzato per alte prestazioni e un modello small-size da 1.2B progettato per applicazioni su dispositivo. EXAONE 4.0 dimostra prestazioni superiori rispetto ai modelli open-weight della sua classe e rimane competitivo anche rispetto ai modelli di classe frontiera. I modelli sono disponibili pubblicamente per scopi di ricerca e possono essere facilmente scaricati tramite https://huggingface.co/LGAI-EXAONE.
Costruire modelli Vision-Language (VLM) all'avanguardia con capacità di descrizione avanzate richiede tipicamente l'addestramento su miliardi di coppie immagine-testo di alta qualità, necessitando di milioni di ore di GPU. Questo articolo introduce il framework Vision-Language-Vision (VLV) auto-encoder, che sfrutta strategicamente componenti pre-addestrati chiave: un encoder visivo, il decoder di un modello di diffusione Text-to-Image (T2I) e, successivamente, un Large Language Model (LLM). Nello specifico, stabiliamo un collo di bottiglia informativo regolarizzando lo spazio di rappresentazione linguistica, ottenuto attraverso il congelamento del decoder pre-addestrato del modello di diffusione T2I. La nostra pipeline VLV distilla efficacemente la conoscenza dal modello di diffusione condizionato al testo utilizzando embedding continui, dimostrando una comprensione semantica completa attraverso ricostruzioni di alta qualità. Inoltre, ottimizzando un LLM pre-addestrato per decodificare le rappresentazioni linguistiche intermedie in descrizioni dettagliate, costruiamo un descrittore all'avanguardia (SoTA) paragonabile a modelli leader come GPT-4o e Gemini 2.0 Flash. Il nostro metodo dimostra un'eccellente efficienza in termini di costi e riduce significativamente i requisiti di dati; utilizzando principalmente immagini mono-modali per l'addestramento e massimizzando l'utilità dei modelli pre-addestrati esistenti (encoder di immagini, modello di diffusione T2I e LLM), evita la necessità di enormi dataset di coppie immagine-testo, mantenendo la spesa totale di addestramento sotto i 1.000 USD.
I grandi modelli di base sono tipicamente addestrati su dati provenienti da più domini, con la miscela di dati—la proporzione di ciascun dominio utilizzato—che svolge un ruolo cruciale nelle prestazioni del modello. L'approccio standard per selezionare questa miscela si basa su tentativi ed errori, che diventano impraticabili per il pre-addestramento su larga scala. Proponiamo un metodo sistematico per determinare la miscela ottimale di dati per qualsiasi dominio target utilizzando le leggi di scala. Il nostro approccio prevede accuratamente la perdita di un modello di dimensione N addestrato con D token e un vettore di pesi di dominio specifico h. Validiamo l'universalità di queste leggi di scala dimostrando il loro potere predittivo in tre contesti distinti e su larga scala: pre-addestramento di grandi modelli linguistici (LLM), modelli multimodali nativi (NMM) e grandi modelli visivi (LVM). Mostriamo inoltre che queste leggi di scala possono estrapolare a nuove miscele di dati e attraverso diverse scale: i loro parametri possono essere stimati accuratamente utilizzando alcune esecuzioni di addestramento su piccola scala e utilizzati per stimare le prestazioni a scale più grandi e pesi di dominio non visti. Le leggi di scala consentono di derivare i pesi di dominio ottimali per qualsiasi dominio target sotto un determinato budget di addestramento (N,D), fornendo un'alternativa basata su principi ai costosi metodi di tentativi ed errori.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLMs) basati sul ragionamento, in particolare il loro potenziale attraverso lo scaling al momento del test, hanno creato significative opportunità per la distillazione nella generazione e critica del codice. Tuttavia, i progressi in entrambi gli ambiti dipendono fondamentalmente da dataset su larga scala e di alta qualità. In questo lavoro, introduciamo OpenCodeReasoning-II, un dataset composto da 2,5 milioni di triplette domanda-soluzione-critica (circa 35K domande di programmazione uniche), rendendolo quasi il doppio rispetto al più grande dataset pubblico disponibile precedentemente per il ragionamento sul codice. In questo lavoro, adottiamo una strategia di fine-tuning supervisionato a due fasi. La prima fase si concentra sul fine-tuning per la generazione del codice, mentre la seconda fase prevede l'addestramento congiunto di modelli sia per la generazione che per la critica del codice. I nostri modelli Qwen2.5-Instruct sottoposti a fine-tuning raggiungono prestazioni nella generazione del codice che superano o equivalgono ai migliori modelli distillati open-weight precedenti. In particolare, l'integrazione dei nostri modelli di generazione e critica del codice porta a significativi miglioramenti nelle prestazioni di programmazione competitiva. Inoltre, presentiamo un'estensione del benchmark LiveCodeBench per supportare specificamente il linguaggio di programmazione C++, facilitando così una valutazione più completa degli LLM utilizzando questo benchmark.
I modelli linguistici su larga scala (LLM) hanno dimostrato potenti capacità di risoluzione dei problemi, in particolare quando organizzati in sistemi multi-agente. Tuttavia, l'avvento di tali sistemi solleva anche diverse questioni sulla capacità di una rete complessa di agenti di auto-organizzarsi e collaborare in modo efficace. Sebbene la misurazione delle prestazioni su benchmark di ragionamento standard indichi quanto bene i sistemi multi-agente possano risolvere compiti di ragionamento, non è chiaro se questi sistemi siano in grado di sfruttare efficacemente la loro topologia. Qui proponiamo AgentsNet, un nuovo benchmark per il ragionamento multi-agente. Traendo ispirazione da problemi classici nei sistemi distribuiti e nella teoria dei grafi, AgentsNet misura la capacità dei sistemi multi-agente di formare collaborativamente strategie per la risoluzione dei problemi, l'auto-organizzazione e la comunicazione efficace data una topologia di rete. Valutiamo una varietà di metodi di base su AgentsNet, inclusi reti omogenee di agenti che devono prima concordare protocolli di base per l'organizzazione e la comunicazione. Rileviamo che alcuni LLM all'avanguardia stanno già dimostrando prestazioni solide per reti di piccole dimensioni, ma iniziano a diminuire una volta che la dimensione della rete aumenta. Mentre i benchmark multi-agente esistenti coprono al massimo 2-5 agenti, AgentsNet è praticamente illimitato in termini di dimensioni e può scalare con le nuove generazioni di LLM. In quanto tale, testiamo anche modelli all'avanguardia in una configurazione con fino a 100 agenti.
Questo articolo introduce MISS-QA, il primo benchmark specificamente progettato per valutare la capacità dei modelli di interpretare diagrammi schematici all'interno della letteratura scientifica. MISS-QA comprende 1.500 esempi annotati da esperti, tratti da 465 articoli scientifici. In questo benchmark, i modelli sono chiamati a interpretare diagrammi schematici che illustrano panoramiche di ricerca e a rispondere a domande di ricerca di informazioni basate sul contesto più ampio dell'articolo. Valutiamo le prestazioni di 18 modelli multimodali di base all'avanguardia, tra cui o4-mini, Gemini-2.5-Flash e Qwen2.5-VL. Riveliamo un significativo divario di prestazioni tra questi modelli e gli esperti umani su MISS-QA. La nostra analisi delle prestazioni dei modelli su domande senza risposta e la nostra dettagliata analisi degli errori evidenziano ulteriormente i punti di forza e le limitazioni dei modelli attuali, offrendo intuizioni chiave per migliorare la comprensione della letteratura scientifica multimodale da parte dei modelli.
L'estrazione del flusso ottico dai video rimane un problema fondamentale nel campo della visione artificiale. Ispirati dal successo dei modelli generalisti su larga scala, ci chiediamo se modelli video auto-supervisionati congelati, addestrati esclusivamente per la previsione di frame futuri, possano essere "promptati", senza fine-tuning, per produrre il flusso. Precedenti lavori che estraevano profondità o illuminazione dai generatori di video richiedevano il fine-tuning, il che è poco pratico per il flusso, dove le etichette sono scarse e i dataset sintetici soffrono del divario sim-to-real. Seguendo il paradigma del Counterfactual World Model (CWM), che può ottenere corrispondenze punto-punto iniettando una piccola perturbazione tracciante in un predittore di frame successivi e monitorandone la propagazione, estendiamo questa idea ai modelli generativi video. Esploriamo diverse architetture popolari e scopriamo che l'estrazione zero-shot del flusso in questo modo è favorita da tre proprietà del modello: (1) previsione distributiva dei frame futuri (evitando output sfocati o rumorosi); (2) latenti fattorizzati che trattano ogni patch spazio-temporale in modo indipendente; e (3) decodifica ad accesso casuale che può condizionarsi su qualsiasi sottoinsieme di pixel futuri. Queste proprietà sono unicamente presenti nella recente architettura Local Random Access Sequence (LRAS). Basandoci su LRAS, proponiamo il KL-tracing: una nuova procedura in fase di test che inietta una perturbazione localizzata nel primo frame, esegue il modello per un passo e calcola la divergenza di Kullback-Leibler tra le distribuzioni predittive perturbate e non perturbate. Senza alcun fine-tuning specifico per il flusso, il nostro metodo supera i modelli all'avanguardia sul dataset reale TAP-Vid DAVIS (miglioramento relativo del 16,6% per l'errore di endpoint) e sul sintetico TAP-Vid Kubric (miglioramento relativo del 4,7%). I nostri risultati indicano che il prompting controfattuale di modelli generativi video controllabili rappresenta un'alternativa scalabile ed efficace agli approcci supervisionati o basati su perdite fotometriche per ottenere flussi di alta qualità.
Il question answering su knowledge graph (KGQA) presenta sfide significative a causa delle variazioni strutturali e semantiche tra i grafi di input. I lavori esistenti si basano su agenti basati su Large Language Model (LLM) per l'attraversamento e il recupero del grafo; un approccio sensibile all'inizializzazione dell'attraversamento, poiché è soggetto a errori di collegamento delle entità e potrebbe non generalizzare bene a KG personalizzati ("bring-your-own"). Introduciamo BYOKG-RAG, un framework che migliora il KGQA combinando sinergicamente gli LLM con strumenti specializzati per il recupero di grafi. In BYOKG-RAG, gli LLM generano artefatti critici del grafo (entità della domanda, risposte candidate, percorsi di ragionamento e query OpenCypher), e gli strumenti per grafi collegano questi artefatti al KG e recuperano il contesto rilevante del grafo. Il contesto recuperato consente all'LLM di affinare iterativamente il collegamento e il recupero del grafo, prima della generazione della risposta finale. Recuperando contesto da diversi strumenti per grafi, BYOKG-RAG offre una soluzione più generale e robusta per il QA su KG personalizzati. Attraverso esperimenti su cinque benchmark che coprono diversi tipi di KG, dimostriamo che BYOKG-RAG supera il secondo miglior metodo di recupero di grafi di 4,5 punti percentuali, mostrando una migliore generalizzazione ai KG personalizzati. Il framework BYOKG-RAG è open-source all'indirizzo https://github.com/awslabs/graphrag-toolkit.
I video generati dagli utenti nel mondo reale, specialmente su piattaforme come TikTok, presentano spesso contenuti audio-visuali ricchi e intrecciati. Tuttavia, i benchmark e i modelli esistenti per la generazione di didascalie video rimangono prevalentemente centrati sull'aspetto visivo, trascurando il ruolo cruciale dell'audio nel trasmettere la dinamica della scena, l'intenzione del parlante e il contesto narrativo. Questa mancanza di dataset omnicomprensivi e di modelli leggeri ma capaci ostacola il progresso nella comprensione fine e multimodale dei video. Per affrontare queste sfide, introduciamo UGC-VideoCap, un nuovo benchmark e framework di modelli specificamente progettato per la generazione dettagliata di didascalie omnimodali per video brevi generati dagli utenti. A differenza dei dataset precedenti, UGC-VideoCap enfatizza l'integrazione bilanciata delle modalità audio e visiva, presentando 1000 video di TikTok annotati attraverso una pipeline strutturata in tre fasi con l'intervento umano, che copre la semantica solo audio, solo visiva e audio-visiva congiunta. Il benchmark include anche 4000 coppie di domande e risposte accuratamente progettate per esplorare sia la comprensione unimodale che quella cross-modale. Insieme al dataset, proponiamo UGC-VideoCaptioner(3B), un modello di generazione di didascalie da 3 miliardi di parametri distillato da Gemini 2.5 Flash. Utilizzando una nuova strategia di addestramento in due fasi — fine-tuning supervisionato seguito da Group Relative Policy Optimization (GRPO) — il nostro approccio consente un adattamento efficiente partendo da dati limitati, mantenendo al contempo prestazioni competitive. Insieme, il nostro benchmark e il modello offrono una base di alta qualità e una soluzione efficiente in termini di dati per far progredire la generazione di didascalie omnimodali in contesti reali e non vincolati di contenuti generati dagli utenti.
L'audio inpainting si riferisce al compito di ricostruire segmenti mancanti in registrazioni audio danneggiate. Sebbene approcci precedenti, inclusi i modelli di diffusione basati su waveform e spettrogrammi, abbiano mostrato risultati promettenti per lacune brevi, spesso degradano in qualità quando le lacune superano i 100 millisecondi (ms). In questo lavoro, introduciamo un nuovo metodo di inpainting basato sulla modellazione di diffusione discreta, che opera su rappresentazioni audio tokenizzate prodotte da un tokenizer audio pre-addestrato. Il nostro approccio modella il processo generativo direttamente nello spazio latente discreto, consentendo una ricostruzione stabile e semanticamente coerente dell'audio mancante. Valutiamo il metodo sul dataset MusicNet utilizzando sia metriche oggettive che percettive per durate di lacune fino a 300 ms. Abbiamo inoltre valutato il nostro approccio sul dataset MTG, estendendo la durata della lacuna a 500 ms. I risultati sperimentali dimostrano che il nostro metodo raggiunge prestazioni competitive o superiori rispetto alle baseline esistenti, in particolare per lacune più lunghe, offrendo una soluzione robusta per il ripristino di registrazioni musicali degradate. Esempi audio del nostro metodo proposto sono disponibili all'indirizzo https://iftach21.github.io/
I Large Language Model (LLM) hanno rivoluzionato lo sviluppo del software e la generazione automatizzata di codice. Spinti da questi progressi, questo articolo esplora la fattibilità dell'utilizzo degli LLM per modificare il codice sorgente di malware e generare varianti. Introduciamo LLMalMorph, un framework semi-automatizzato che sfrutta la comprensione semantica e sintattica del codice da parte degli LLM per generare nuove varianti di malware. LLMalMorph estrae informazioni a livello di funzione dal codice sorgente del malware e utilizza prompt progettati su misura, combinati con trasformazioni di codice definite strategicamente, per guidare l'LLM nella generazione di varianti senza la necessità di un fine-tuning ad alta intensità di risorse. Per valutare LLMalMorph, abbiamo raccolto 10 campioni di malware Windows di diverso tipo, complessità e funzionalità e generato 618 varianti. I nostri esperimenti approfonditi dimostrano che è possibile ridurre, in una certa misura, i tassi di rilevamento dei motori antivirus di queste varianti di malware preservandone le funzionalità. Inoltre, pur non essendo ottimizzati contro alcun rilevatore di malware basato su Machine Learning (ML), diverse varianti hanno ottenuto tassi di successo significativi contro un classificatore di malware basato su ML. Discutiamo anche i limiti delle attuali capacità degli LLM nella generazione di varianti di malware a partire dal codice sorgente e valutiamo dove si colloca questa tecnologia emergente nel contesto più ampio della generazione di varianti di malware.
L'Intelligenza Artificiale (IA) moderna si basa sempre più su architetture multi-agente che integrano la comprensione visiva e linguistica. Tuttavia, rimane una sfida pressante: come possiamo fidarci di questi agenti, specialmente in contesti zero-shot senza fine-tuning? Introduciamo un nuovo framework modulare di classificazione visiva Agentic AI che integra agenti multimodali generalisti con un orchestratore di ragionamento non visivo e un modulo di Retrieval-Augmented Generation (RAG). Applicato alla diagnosi delle malattie delle foglie di melo, confrontiamo tre configurazioni: (I) zero-shot con orchestrazione basata sulla confidenza, (II) agenti fine-tuned con prestazioni migliorate e (III) orchestrazione calibrata sulla fiducia potenziata da recupero di immagini basato su CLIP e cicli di rivalutazione. Utilizzando metriche di calibrazione della confidenza (ECE, OCR, CCC), l'orchestratore modula la fiducia tra gli agenti. I nostri risultati dimostrano un miglioramento dell'accuratezza del 77,94% nello scenario zero-shot utilizzando l'orchestrazione consapevole della fiducia e RAG, raggiungendo un'accuratezza complessiva dell'85,63%. GPT-4o ha mostrato una migliore calibrazione, mentre Qwen-2.5-VL ha evidenziato un'eccessiva confidenza. Inoltre, le previsioni basate su image-RAG sono state ancorate a casi visivamente simili, consentendo la correzione dell'eccessiva confidenza degli agenti attraverso una rivalutazione iterativa. Il sistema proposto separa la percezione (agenti visivi) dal meta-ragionamento (orchestratore), consentendo un'IA multi-agente scalabile e interpretabile. Questo modello è estensibile a diagnostica, biologia e altri domini critici per la fiducia. Tutti i modelli, prompt, risultati e componenti del sistema, incluso il codice sorgente completo del software, sono rilasciati apertamente per supportare la riproducibilità, la trasparenza e il benchmarking della comunità su Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust
I grandi modelli linguistici (LLM) manifestano pregiudizi cognitivi — tendenze sistematiche di decisione irrazionale, simili a quelle osservate negli esseri umani. Studi precedenti hanno rilevato che questi pregiudizi variano tra i modelli e possono essere amplificati dalla messa a punto tramite istruzioni. Tuttavia, non è ancora chiaro se queste differenze nei pregiudizi derivino dalla pre-addestramento, dalla messa a punto o persino dal rumore casuale dovuto alla stocasticità del training. Proponiamo un approccio sperimentale causale in due fasi per distinguere questi fattori. In primo luogo, mettiamo a punto i modelli più volte utilizzando diversi semi casuali per studiare come la casualità del training influisca su oltre 30 pregiudizi cognitivi. In secondo luogo, introduciamo il cross-tuning — scambiando i dataset di istruzioni tra i modelli per isolare le fonti dei pregiudizi. Questo scambio utilizza dataset che hanno portato a schemi di pregiudizio diversi, testando direttamente se i pregiudizi dipendono dal dataset. I nostri risultati rivelano che, sebbene la casualità del training introduca una certa variabilità, i pregiudizi sono principalmente modellati dalla pre-addestramento: i modelli con lo stesso backbone pre-addestrato mostrano schemi di pregiudizio più simili rispetto a quelli che condividono solo i dati di messa a punto. Queste intuizioni suggeriscono che comprendere i pregiudizi nei modelli messi a punto richiede di considerare le loro origini nel pre-addestramento oltre agli effetti della messa a punto. Questa prospettiva può guidare futuri sforzi per sviluppare strategie metodologiche per valutare e mitigare i pregiudizi nei LLM.