Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Hala, una famiglia di modelli di istruzione e traduzione centrati sull'arabo, sviluppati con la nostra pipeline di traduzione e ottimizzazione. Iniziamo comprimendo un forte modello insegnante AR↔EN in FP8 (ottenendo un throughput circa 2 volte superiore senza perdita di qualità) e lo utilizziamo per creare supervisione bilingue ad alta fedeltà. Successivamente, un modello linguistico leggero LFM2-1.2B viene fine-tuned su questi dati e utilizzato per tradurre set di istruzioni di alta qualità dall'inglese all'arabo, producendo un corpus su scala milionaria adattato al seguimento delle istruzioni. Addestriamo i modelli Hala con 350M, 700M, 1.2B e 9B di parametri, e applichiamo la fusione slerp per bilanciare la specializzazione in arabo con i punti di forza del modello base. Su benchmark centrati sull'arabo, Hala raggiunge risultati all'avanguardia sia nella categoria "nano" (≤2B) che "small" (7-9B), superando i loro modelli base. Rilasciamo modelli, dati, valutazioni e ricette per accelerare la ricerca nell'NLP arabo.
Presentiamo SAIL-VL2, un modello fondazionale visione-linguaggio (LVM) open-suite per una comprensione e ragionamento multimodale completo. Come successore di SAIL-VL, SAIL-VL2 raggiunge prestazioni all'avanguardia alle scale di 2B e 8B parametri su diversi benchmark di immagini e video, dimostrando forti capacità che vanno dalla percezione fine-grana al ragionamento complesso. Tre innovazioni chiave ne guidano l'efficacia. In primo luogo, una pipeline di curatela dati su larga scala con strategie di punteggio e filtraggio migliora sia la qualità che la distribuzione tra dati di captioning, OCR, QA e video, aumentando l'efficienza dell'addestramento. In secondo luogo, un framework di addestramento progressivo inizia con un potente encoder visivo pre-addestrato (SAIL-ViT), avanza attraverso un pre-addestramento multimodale e culmina in un paradigma ibrido SFT-RL di fusione del pensiero che rafforza sistematicamente le capacità del modello. In terzo luogo, avanzamenti architetturali si estendono oltre i densi LLM a efficienti design sparsi Mixture-of-Experts (MoE). Con questi contributi, SAIL-VL2 dimostra prestazioni competitive su 106 dataset e raggiunge risultati all'avanguardia su benchmark di ragionamento impegnativi come MMMU e MathVista. Inoltre, sulla classifica OpenCompass, SAIL-VL2-2B si posiziona al primo posto tra i modelli open-source ufficialmente rilasciati sotto la scala di 4B parametri, servendo come fondazione efficiente ed estensibile per la comunità open-source multimodale.
La visione omnidirezionale, che utilizza una visione a 360 gradi per comprendere l'ambiente, è diventata sempre più cruciale in vari ambiti come la robotica, l'ispezione industriale e il monitoraggio ambientale. Rispetto alla tradizionale visione a foro stenopeico, la visione omnidirezionale offre una consapevolezza ambientale olistica, migliorando significativamente la completezza della percezione della scena e l'affidabilità del processo decisionale. Tuttavia, la ricerca di base in questo settore è storicamente rimasta indietro rispetto alla visione a foro stenopeico tradizionale. Questo intervento presenta una tendenza emergente nell'era dell'AI incarnata: il rapido sviluppo della visione omnidirezionale, guidato dalla crescente domanda industriale e dall'interesse accademico. Evidenziamo le recenti scoperte nella generazione omnidirezionale, nella percezione omnidirezionale, nella comprensione omnidirezionale e nei relativi dataset. Basandoci su intuizioni provenienti sia dal mondo accademico che da quello industriale, proponiamo un'architettura ideale per un sistema panoramico nell'era dell'AI incarnata, PANORAMA, composta da quattro sottosistemi chiave. Inoltre, offriamo opinioni approfondite relative alle tendenze emergenti e agli impatti trasversali alla comunità all'intersezione tra visione panoramica e AI incarnata, insieme alla roadmap futura e alle sfide aperte. Questa panoramica sintetizza i progressi più avanzati e delinea le sfide e le opportunità per la ricerca futura nella costruzione di sistemi di AI omnidirezionale robusti e generici nell'era dell'AI incarnata.
Gli esami rappresentano una prova fondamentale dell'intelligenza di livello esperto e richiedono una comprensione integrata, ragionamento e generazione. Gli attuali benchmark in stile esame si concentrano principalmente su compiti di comprensione e ragionamento, mentre i benchmark di generazione attuali enfatizzano l'illustrazione di conoscenze mondiali e concetti visivi, trascurando la valutazione di esami di disegno rigorosi. Introduciamo GenExam, il primo benchmark per esami multidisciplinari da testo a immagine, caratterizzato da 1.000 campioni in 10 materie con prompt in stile esame organizzati secondo una tassonomia a quattro livelli. Ogni problema è dotato di immagini di riferimento e punti di valutazione dettagliati per consentire una valutazione precisa della correttezza semantica e della plausibilità visiva. Gli esperimenti mostrano che anche modelli all'avanguardia come GPT-Image-1 e Gemini-2.5-Flash-Image ottengono meno del 15% di punteggi rigorosi, e la maggior parte dei modelli raggiunge quasi lo 0%, suggerendo la grande sfida del nostro benchmark. Inquadrando la generazione di immagini come un esame, GenExam offre una valutazione rigorosa della capacità dei modelli di integrare conoscenza, ragionamento e generazione, fornendo intuizioni sul percorso verso l'AGI generale.
Sebbene i modelli linguistici per il codice (Code Language Models, CLM) abbiano dimostrato prestazioni superiori in attività di ingegneria del software come la generazione e la sintesi del codice, recenti studi empirici rivelano una vulnerabilità critica in termini di privacy: questi modelli mostrano una memorizzazione involontaria di dati sensibili di addestramento, consentendo la riproduzione letterale di informazioni riservate quando specificamente sollecitati. Per affrontare questo problema, sono stati proposti diversi approcci, tra cui la deduplicazione dei dati di addestramento e l'integrazione della privacy differenziale. Tuttavia, questi metodi richiedono un riaddestramento completo dei CLM già distribuiti, comportando costi computazionali significativi. In questo articolo, ci proponiamo di rispondere alla seguente domanda di ricerca: È possibile cancellare in modo efficace ed efficiente le informazioni sensibili memorizzate dai CLM? Svolgiamo un'indagine pionieristica sull'eliminazione della memorizzazione sensibile nei CLM attraverso il machine unlearning, un metodo di modifica post-hoc che rimuove informazioni specifiche da modelli già addestrati senza richiedere un riaddestramento completo. Nello specifico, quantifichiamo prima i rischi di memorizzazione dei dati sensibili all'interno dei dataset di addestramento dei CLM e selezioniamo un dataset ad alto rischio di 50.000 campioni sensibili memorizzati come obiettivi di unlearning. Studiamo due approcci di unlearning basati su gradient ascent ampiamente utilizzati: il metodo vanilla e quello basato su vincoli, e introduciamo CodeEraser, una variante avanzata che elimina selettivamente i segmenti di codice sensibili memorizzati preservando l'integrità strutturale e la correttezza funzionale del codice circostante. Esperimenti estesi su tre famiglie di CLM, ovvero CodeParrot, CodeGen-Mono e Qwen2.5-Coder, convalidano l'efficacia e l'efficienza di CodeEraser nell'eliminare la memorizzazione sensibile mirata mantenendo l'utilità del modello.
I Large Language Model (LLM) hanno compiuto progressi significativi nel ragionamento matematico, ma continuano a incontrare difficoltà in compiti ad alta precisione come il calcolo numerico e la manipolazione simbolica formale. L'integrazione di strumenti esterni è emersa come un approccio promettente per colmare questa lacuna. Nonostante i recenti progressi, i metodi esistenti affrontano tre sfide principali: la costruzione di dati di ragionamento integrati con strumenti, l'ottimizzazione fine-granularità e il miglioramento dell'inferenza. Per superare queste limitazioni, proponiamo THOR (Tool-Integrated Hierarchical Optimization via RL). In primo luogo, introduciamo TIRGen, una pipeline basata su attore-critico multi-agente per costruire dataset di alta qualità di percorsi di ragionamento integrati con strumenti, allineati alla politica e con una buona generalizzazione su modelli diversi. In secondo luogo, per eseguire un'ottimizzazione gerarchica fine-granularità, introduciamo una strategia RL che ottimizza congiuntamente sia la risoluzione di problemi a livello di traiettoria che la generazione di codice a livello di passo. Questo è motivato dalla nostra intuizione chiave che il successo di una chiamata a uno strumento intermedio è un forte indicatore della correttezza della risposta finale. Infine, THOR incorpora un meccanismo di autocorrezione che sfrutta il feedback immediato degli strumenti per rivedere dinamicamente i percorsi di ragionamento errati durante l'inferenza. Il nostro approccio dimostra una forte generalizzazione su modelli diversi, funzionando efficacemente sia in modelli di ragionamento che non. Inoltre, raggiunge prestazioni all'avanguardia per modelli di scala simile su molteplici benchmark matematici, garantendo anche miglioramenti consistenti sui benchmark di codice. Il nostro codice sarà disponibile pubblicamente su https://github.com/JingMog/THOR.
I recenti sviluppi negli agenti basati su Large Language Model (LLM) hanno dimostrato capacità impressionanti in molteplici domini, come evidenziato dai sistemi di ricerca avanzata che mostrano prestazioni superiori in compiti complessi di ricerca e sintesi di informazioni. Sebbene gli agenti di ricerca avanzata generici abbiano mostrato capacità notevoli, incontrano difficoltà significative nelle sfide del dominio medico, come dimostrato dai principali sistemi proprietari che raggiungono un'accuratezza limitata su benchmark medici complessi. Le principali limitazioni sono: (1) il modello manca di una conoscenza medica densa sufficiente per il ragionamento clinico, e (2) il framework è limitato dall'assenza di strumenti di recupero specializzati adatti ai contesti medici. Presentiamo un agente di ricerca medica avanzata che affronta queste sfide attraverso due innovazioni fondamentali. In primo luogo, sviluppiamo un nuovo framework di sintesi dei dati utilizzando grafi di conoscenza medica, estraendo le catene più lunghe dai sottografi intorno a entità mediche rare per generare coppie domanda-risposta complesse a più passaggi. In secondo luogo, integriamo un motore di recupero medico privato personalizzato insieme a strumenti generici, consentendo una sintesi accurata delle informazioni mediche. Il nostro approccio genera oltre 2100 traiettorie diverse in 12 specialità mediche, ciascuna con una media di 4,2 interazioni con gli strumenti. Attraverso un paradigma di addestramento in due fasi che combina il fine-tuning supervisionato e l'apprendimento per rinforzo online con ricompense composite, il nostro modello MedResearcher-R1-32B dimostra prestazioni eccezionali, stabilendo nuovi risultati all'avanguardia sui benchmark medici mantenendo prestazioni competitive nei compiti generali di ricerca avanzata. Il nostro lavoro dimostra che innovazioni strategiche specifiche per il dominio nell'architettura, nel design degli strumenti e nella costruzione dei dati di addestramento possono consentire a modelli open-source più piccoli di superare sistemi proprietari molto più grandi in domini specializzati.
Presentiamo Wan-Animate, un framework unificato per l'animazione e la sostituzione di personaggi. Dati un'immagine di un personaggio e un video di riferimento, Wan-Animate è in grado di animare il personaggio replicando con precisione le espressioni e i movimenti del personaggio nel video, generando così video di personaggi ad alta fedeltà. In alternativa, può integrare il personaggio animato nel video di riferimento per sostituire il personaggio originale, replicando l'illuminazione e la tonalità del colore della scena per ottenere un'integrazione ambientale senza soluzione di continuità. Wan-Animate è basato sul modello Wan. Per adattarlo ai compiti di animazione dei personaggi, utilizziamo un paradigma di input modificato per differenziare le condizioni di riferimento e le regioni per la generazione. Questo design unifica più compiti in una rappresentazione simbolica comune. Utilizziamo segnali scheletrici allineati spazialmente per replicare il movimento del corpo e caratteristiche facciali implicite estratte dalle immagini sorgente per riprodurre le espressioni, consentendo la generazione di video di personaggi con elevata controllabilità ed espressività. Inoltre, per migliorare l'integrazione ambientale durante la sostituzione del personaggio, sviluppiamo un modulo ausiliario Relighting LoRA. Questo modulo preserva la coerenza dell'aspetto del personaggio applicando l'illuminazione e la tonalità del colore ambientali appropriate. I risultati sperimentali dimostrano che Wan-Animate raggiunge prestazioni all'avanguardia. Ci impegniamo a rendere open-source i pesi del modello e il suo codice sorgente.
Questo articolo esamina la MARS2 2025 Challenge sul Ragionamento Multimodale. Il nostro obiettivo è riunire diversi approcci nell'apprendimento automatico multimodale e nei modelli linguistici di grandi dimensioni (LLM) attraverso un ampio benchmark. Speriamo che ciò consenta ai ricercatori di seguire più facilmente lo stato dell'arte in questo campo in rapida evoluzione. Nel frattempo, un numero crescente di testbed ha favorito l'evoluzione di modelli linguistici di grandi dimensioni a scopo generale. Pertanto, quest'anno la MARS2 si concentra su scenari reali e specializzati per ampliare le applicazioni del ragionamento multimodale nei modelli di apprendimento multimodale (MLLM). Il nostro team organizzativo ha rilasciato due dataset su misura, Lens e AdsQA, come set di test, che supportano rispettivamente il ragionamento generale in 12 scenari quotidiani e il ragionamento specifico per il dominio nei video pubblicitari. Abbiamo valutato oltre 40 baseline che includono sia MLLM generalisti che modelli specifici per compiti, e abbiamo aperto tre tracce di competizione, ovvero Visual Grounding in Scenari Reali (VG-RS), Visual Question Answering con Consapevolezza Spaziale (VQA-SA) e Ragionamento Visivo nei Video Pubblicitari Creativi (VR-Ads). Infine, 76 team provenienti da rinomate istituzioni accademiche e industriali si sono registrati e oltre 40 submission valide (su più di 1200) sono state incluse nelle nostre classifiche. I nostri dataset, set di codice (oltre 40 baseline e più di 15 metodi dei partecipanti) e classifiche sono pubblicamente disponibili sul sito web del workshop MARS2 e sulla nostra pagina GitHub https://github.com/mars2workshop/, dove i nostri aggiornamenti e gli annunci sugli eventi futuri verranno forniti in modo continuativo.
I grandi modelli linguistici (LLM) spesso faticano a mantenere la fedeltà al contesto, producendo risposte incoerenti quando rispondono a domande basate su informazioni fornite. Gli approcci esistenti si basano su costosi processi di fine-tuning supervisionato per generare evidenze dopo la risposta o addestrano i modelli a eseguire ricerche web senza necessariamente migliorare l'utilizzo del contesto dato. Proponiamo CARE, un innovativo framework di ragionamento potenziato dal recupero nativo che insegna agli LLM a integrare esplicitamente evidenze contestuali nel loro processo di ragionamento, sfruttando le capacità di recupero del modello stesso. Il nostro metodo richiede una quantità limitata di dati di evidenza etichettati, migliorando significativamente sia l'accuratezza del recupero che le prestazioni nella generazione delle risposte attraverso token contestuali recuperati strategicamente nella catena di ragionamento. Esperimenti estesi su molteplici benchmark di QA reali e controfattuali dimostrano che il nostro approccio supera sostanzialmente il fine-tuning supervisionato, i tradizionali metodi di generazione potenziati dal recupero e le soluzioni di recupero esterne. Questo lavoro rappresenta un progresso fondamentale nel rendere gli LLM più accurati, affidabili ed efficienti per compiti ad alta intensità di conoscenza.
Proponiamo LLM-Interleaved (LLM-I), un framework flessibile e dinamico che riformula la generazione intervallata di immagini e testo come un problema di utilizzo di strumenti. LLM-I è progettato per superare il collo di bottiglia "a strumento singolo" dei modelli unificati attuali, che sono limitati all'immaginario sintetico e faticano nei compiti che richiedono un fondamento fattuale o una precisione programmatica. Il nostro framework consente a un agente LLM o MLLM centrale di orchestrare in modo intelligente un toolkit diversificato di strumenti visivi specializzati, tra cui la ricerca di immagini online, la generazione basata su diffusione, l'esecuzione di codice e l'editing di immagini. L'agente viene addestrato a selezionare e applicare questi strumenti in modo competente attraverso un framework di Reinforcement Learning (RL) che include un sistema di ricompensa ibrido che combina logica basata su regole con giudizi da valutatori LLM e MLLM. Addestrato su un nuovo dataset diversificato utilizzando quattro diversi modelli di base, LLM-I dimostra prestazioni all'avanguardia, superando di gran lunga i metodi esistenti su quattro benchmark. Introduciamo anche una nuova strategia di scalatura al momento del test che fornisce ulteriori miglioramenti delle prestazioni. Pagina del progetto: https://github.com/ByteDance-BandAI/LLM-I.
L'apprendimento automatico generativo offre nuove opportunità per comprendere meglio le dinamiche complesse del sistema terrestre. I recenti metodi basati sulla diffusione affrontano i bias spettrali e migliorano la calibrazione degli ensemble nelle previsioni meteorologiche rispetto ai metodi deterministici, ma finora si sono dimostrati difficili da scalare in modo stabile ad alte risoluzioni. Introduciamo AERIS, un trasformatore di diffusione Swin a livello di pixel con parametri da 1,3 a 80 miliardi, per colmare questa lacuna, e SWiPe, una tecnica generalizzabile che combina il parallelismo a finestre con il parallelismo di sequenza e pipeline per suddividere i trasformatori basati su finestre senza costi di comunicazione aggiuntivi o aumento della dimensione globale del batch. Su Aurora (10.080 nodi), AERIS mantiene 10,21 ExaFLOPS (precisione mista) e una performance di picco di 11,21 ExaFLOPS con una dimensione di patch 1x1 sul dataset ERA5 a 0,25{\deg}, raggiungendo un'efficienza di scaling debole del 95,5% e un'efficienza di scaling forte dell'81,6%. AERIS supera l'IFS ENS e rimane stabile su scale stagionali fino a 90 giorni, evidenziando il potenziale dei modelli di diffusione con miliardi di parametri per la previsione meteorologica e climatica.
I recenti modelli generativi di immagini catturano tipicamente la distribuzione delle immagini in uno spazio latente pre-costruito, basandosi su un tokenizer di immagini congelato. Tuttavia, esiste una discrepanza significativa tra la distribuzione di ricostruzione e quella di generazione, in cui gli attuali tokenizer si concentrano solo sul compito di ricostruzione che avviene prima dell'addestramento generativo, senza considerare gli errori di generazione durante il campionamento. In questo articolo, analizziamo in modo completo la ragione di questa discrepanza in uno spazio latente discreto e, da ciò, proponiamo un nuovo schema di addestramento del tokenizer che include sia l'addestramento principale che quello posteriore, concentrandosi rispettivamente sul miglioramento della costruzione dello spazio latente e del decoding. Durante l'addestramento principale, viene proposta una strategia di perturbazione latente per simulare i rumori di campionamento, ovvero i token inaspettati generati durante l'inferenza generativa. Nello specifico, proponiamo uno schema di addestramento del tokenizer plug-and-play, che migliora significativamente la robustezza del tokenizer, aumentando così la qualità della generazione e la velocità di convergenza, e una nuova metrica di valutazione del tokenizer, ovvero pFID, che correla con successo le prestazioni del tokenizer alla qualità della generazione. Durante l'addestramento posteriore, ottimizziamo ulteriormente il decoder del tokenizer rispetto a un modello generativo ben addestrato per mitigare la differenza di distribuzione tra i token generati e quelli ricostruiti. Con un generatore sim400M, un tokenizer discreto addestrato con il nostro schema di addestramento principale raggiunge un notevole 1.60 gFID e ottiene ulteriormente 1.36 gFID con l'addestramento posteriore aggiuntivo. Ulteriori esperimenti sono stati condotti per validare ampiamente l'efficacia della nostra strategia di addestramento posteriore su tokenizer discreti e continuti disponibili sul mercato, accoppiati con generatori autoregressivi e basati su diffusione.
Introduciamo SteeringControl, un benchmark per valutare i metodi di steering delle rappresentazioni rispetto agli obiettivi fondamentali dell'allineamento—bias, generazione dannosa e allucinazione—e i loro effetti su comportamenti secondari come la sifofanzia e la moralità basata sul senso comune. Mentre il lavoro precedente sull'allineamento spesso evidenzia la veridicità o la capacità di ragionamento per dimostrare gli effetti collaterali dello steering delle rappresentazioni, scopriamo che esistono molti compromessi inesplorati che non sono ancora stati compresi in modo sistematico. Raccogliamo un dataset di comportamenti primari e secondari rilevanti per la sicurezza per valutare l'efficacia dello steering e l'intreccio comportamentale, concentrandoci su cinque metodi di steering popolari. Per renderlo possibile, progettiamo un framework di steering modulare basato su componenti unici che fungono da elementi costitutivi di molti metodi esistenti. I nostri risultati su Qwen-2.5-7B e Llama-3.1-8B mostrano che una forte performance di steering dipende dalla specifica combinazione di metodo di steering, modello e comportamento target, e che una grave intreccio concettuale può derivare da combinazioni scadenti di questi tre elementi. Rilasciamo il nostro codice qui: https://github.com/wang-research-lab/SteeringControl.git.
I circuiti quantistici variazionali (VQC) sono centrali nel machine learning quantistico, mentre i recenti progressi nelle reti di Kolmogorov-Arnold (KAN) evidenziano la potenza delle funzioni di attivazione apprendibili. Unifichiamo queste direzioni introducendo le funzioni di attivazione variazionali quantistiche (QVAF), realizzate attraverso circuiti di ricaricamento dati a singolo qubit chiamati DatA Re-Uploading ActivatioNs (DARUAN). Dimostriamo che i DARUAN con pesi addestrabili nella pre-elaborazione dei dati possiedono uno spettro di frequenza in crescita esponenziale con le ripetizioni dei dati, consentendo una riduzione esponenziale delle dimensioni dei parametri rispetto alle attivazioni basate su Fourier senza perdita di espressività. L'integrazione dei DARUAN nelle KAN produce KAN ispirate al quantistico (QKAN), che mantengono l'interpretabilità delle KAN migliorandone l'efficienza dei parametri, l'espressività e la generalizzazione. Introduciamo inoltre due tecniche innovative per migliorare la scalabilità, la fattibilità e l'efficienza computazionale, come l'estensione a strati e le QKAN ibride (HQKAN) come sostituti diretti dei perceptron multistrato (MLP) per reti feed-forward in modelli su larga scala. Forniamo un'analisi teorica e ampi esperimenti su regressione di funzioni, classificazione di immagini e modellazione linguistica generativa autoregressiva, dimostrando l'efficienza e la scalabilità delle QKAN. I DARUAN e le QKAN offrono una direzione promettente per avanzare nel machine learning quantistico sia su hardware quantistico rumoroso a scala intermedia (NISQ) che su simulatori quantistici classici.
Proponiamo una pipeline per estrarre e ricostruire asset 3D dinamici di fumo da un singolo video catturato in contesti reali, integrando ulteriormente una simulazione interattiva per la progettazione e la modifica del fumo. I recenti sviluppi nella visione 3D hanno migliorato significativamente la ricostruzione e il rendering della dinamica dei fluidi, supportando una sintesi di visualizzazione realistica e temporalmente coerente. Tuttavia, le attuali ricostruzioni di fluidi si basano fortemente su ambienti di laboratorio controllati e puliti, mentre i video del mondo reale catturati in contesti non controllati sono ancora poco esplorati. Identifichiamo tre sfide chiave nella ricostruzione del fumo da video reali e progettiamo tecniche mirate, tra cui l'estrazione del fumo con rimozione dello sfondo, l'inizializzazione delle particelle di fumo e delle pose della telecamera, e l'inferenza di video multi-vista. Il nostro metodo non solo supera i precedenti metodi di ricostruzione e generazione con ricostruzioni di fumo di alta qualità (+2.22 PSNR medio su video reali), ma consente anche una modifica diversificata e realistica della dinamica dei fluidi simulando i nostri asset di fumo. Forniamo i nostri modelli, dati e asset 4D di fumo all'indirizzo [https://autumnyq.github.io/WildSmoke](https://autumnyq.github.io/WildSmoke).
Man mano che i modelli linguistici di grandi dimensioni (LLM) diventano parte integrante dei sistemi multi-agente, emergono nuovi rischi per la privacy che vanno oltre la memorizzazione, l'inferenza diretta o le valutazioni a singolo turno. In particolare, risposte apparentemente innocue, se composte attraverso interazioni, possono cumulativamente consentire agli avversari di recuperare informazioni sensibili, un fenomeno che definiamo come perdita di privacy composizionale. Presentiamo il primo studio sistematico di tali perdite di privacy composizionali e dei possibili metodi di mitigazione nei sistemi multi-agente basati su LLM. In primo luogo, sviluppiamo un framework che modella come la conoscenza ausiliaria e le interazioni tra agenti amplifichino congiuntamente i rischi per la privacy, anche quando ogni risposta è benigna se considerata isolatamente. Successivamente, per mitigare questo problema, proponiamo e valutiamo due strategie di difesa: (1) la difesa basata sulla Teoria della Mente (ToM), in cui gli agenti difensori inferiscono l'intento di un interrogante anticipando come i loro output possano essere sfruttati dagli avversari, e (2) la difesa basata sul Consenso Collaborativo (CoDef), in cui gli agenti rispondenti collaborano con i pari che votano in base a uno stato aggregato condiviso per limitare la diffusione di informazioni sensibili. Fondamentalmente, bilanciamo la nostra valutazione tra composizioni che espongono informazioni sensibili e composizioni che producono inferenze benigne. I nostri esperimenti quantificano come queste strategie di difesa differiscano nel bilanciare il compromesso tra privacy e utilità. Scopriamo che mentre il ragionamento a catena (chain-of-thought) da solo offre una protezione limitata contro le perdite (~39% di blocco delle informazioni sensibili), la nostra difesa ToM migliora sostanzialmente il blocco delle query sensibili (fino al 97%) ma può ridurre il successo nei compiti benigni. CoDef raggiunge il miglior equilibrio, producendo il più alto risultato bilanciato (79,8%), evidenziando il vantaggio di combinare il ragionamento esplicito con la collaborazione tra difensori. Insieme, i nostri risultati rivelano una nuova classe di rischi nelle implementazioni collaborative degli LLM e forniscono indicazioni pratiche per progettare salvaguardie contro le perdite di privacy composizionali e guidate dal contesto.
La consulenza finanziaria personalizzata richiede la considerazione degli obiettivi dell'utente, dei vincoli, della tolleranza al rischio e della giurisdizione. I precedenti lavori sui LLM si sono concentrati su sistemi di supporto per investitori e pianificatori finanziari. Allo stesso tempo, numerosi studi recenti esaminano compiti più ampi di finanza personale, tra cui budgeting, gestione del debito, pensionamento e pianificazione patrimoniale, attraverso pipeline agentiche che comportano costi di manutenzione elevati, producendo meno del 25% dei rendimenti finanziari attesi. In questo studio, introduciamo un framework innovativo e riproducibile che integra il contesto finanziario rilevante con studi di finanza comportamentale per costruire dati di supervisione per consulenti end-to-end. Utilizzando questo framework, creiamo un dataset di ragionamento di 19k campioni e conducono un fine-tuning completo del modello Qwen-3-8B sul dataset. Attraverso una divisione di test separata e uno studio cieco con giuria LLM, dimostriamo che, attraverso un'attenta cura dei dati e l'integrazione comportamentale, il nostro modello da 8B raggiunge prestazioni comparabili a baseline significativamente più grandi (14-32B parametri) in termini di accuratezza fattuale, fluidità e metriche di personalizzazione, con costi inferiori dell'80% rispetto alle controparti più grandi.
Questo studio presenta un confronto sistematico tra reti neurali ibride quantistiche-classiche e modelli puramente classici su tre dataset di riferimento (MNIST, CIFAR100 e STL10) per valutarne le prestazioni, l'efficienza e la robustezza. I modelli ibridi integrano circuiti quantistici parametrizzati con architetture di deep learning classiche, mentre le controparti classiche utilizzano reti neurali convoluzionali (CNN) convenzionali. Gli esperimenti sono stati condotti per 50 epoche di addestramento su ciascun dataset, con valutazioni sull'accuratezza di validazione, l'accuratezza di test, il tempo di addestramento, l'uso delle risorse computazionali e la robustezza agli attacchi avversari (testata con perturbazioni epsilon=0.1). I risultati chiave dimostrano che i modelli ibridi superano costantemente i modelli classici in termini di accuratezza finale, raggiungendo {99,38\% (MNIST), 41,69\% (CIFAR100) e 74,05\% (STL10) di accuratezza di validazione, rispetto ai benchmark classici di 98,21\%, 32,25\% e 63,76\%, rispettivamente. In particolare, il vantaggio ibrido scala con la complessità del dataset, mostrando i guadagni più significativi su CIFAR100 (+9,44\%) e STL10 (+10,29\%). I modelli ibridi si addestrano anche 5-12 volte più velocemente (ad esempio, 21,23s contro 108,44s per epoca su MNIST) e utilizzano il 6-32\% in meno di parametri, mantenendo una generalizzazione superiore ai dati di test non visti. I test di robustezza avversaria rivelano che i modelli ibridi sono significativamente più resilienti su dataset più semplici (ad esempio, 45,27\% di accuratezza robusta su MNIST contro il 10,80\% per i classici) ma mostrano una fragilità comparabile su dataset complessi come CIFAR100 (circa 1\% di robustezza per entrambi). Le analisi di efficienza delle risorse indicano che i modelli ibridi consumano meno memoria (4-5GB contro 5-6GB per i classici) e una minore utilizzazione della CPU (9,5\% contro 23,2\% in media). Questi risultati suggeriscono che le architetture ibride quantistiche-classiche offrono vantaggi convincenti in termini di accuratezza, efficienza di addestramento e scalabilità dei parametri, in particolare per compiti di visione complessi.