Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo metodi per quantificare come i Large Language Model (LLM) codificano e memorizzano le informazioni contestuali, rivelando che token spesso considerati minori (ad esempio, determinanti, punteggiatura) trasportano un contesto sorprendentemente elevato. In particolare, la rimozione di questi token — specialmente stopword, articoli e virgole — degrada costantemente le prestazioni su MMLU e BABILong-4k, anche se vengono rimossi solo token irrilevanti. La nostra analisi mostra inoltre una forte correlazione tra contestualizzazione e linearità, dove la linearità misura quanto strettamente la trasformazione dagli embedding di uno strato a quello successivo possa essere approssimata da una singola mappatura lineare. Questi risultati sottolineano l'importanza nascosta dei token di riempimento nel mantenimento del contesto. Per ulteriori esplorazioni, presentiamo LLM-Microscope, un toolkit open-source che valuta la non linearità a livello di token, valuta la memoria contestuale, visualizza i contributi degli strati intermedi (tramite un Logit Lens adattato) e misura la dimensionalità intrinseca delle rappresentazioni. Questo toolkit illumina come token apparentemente banali possano essere critici per la comprensione a lungo raggio.
I modelli linguistici di grandi dimensioni (LLMs) hanno dimostrato capacità di comprensione eccezionali e una vasta base di conoscenze, suggerendo che i LLMs possano servire come strumenti efficienti per la generazione automatizzata di sondaggi. Tuttavia, le ricerche recenti relative alla generazione automatizzata di sondaggi rimangono limitate da alcune criticità come la finestra contestuale finita, la mancanza di discussioni approfondite sui contenuti e l'assenza di framework di valutazione sistematici. Ispirati dai processi di scrittura umani, proponiamo SurveyX, un sistema efficiente e organizzato per la generazione automatizzata di sondaggi che scompone il processo di composizione del sondaggio in due fasi: la fase di Preparazione e la fase di Generazione. Introducendo in modo innovativo il recupero di riferimenti online, un metodo di pre-elaborazione chiamato AttributeTree e un processo di ripulitura, SurveyX migliora significativamente l'efficacia della composizione dei sondaggi. I risultati della valutazione sperimentale mostrano che SurveyX supera i sistemi esistenti di generazione automatizzata di sondaggi nella qualità dei contenuti (miglioramento di 0,259) e nella qualità delle citazioni (miglioramento di 1,76), avvicinandosi alle prestazioni degli esperti umani in molteplici dimensioni di valutazione. Esempi di sondaggi generati da SurveyX sono disponibili su www.surveyx.cn.
Comprendere le molecole è fondamentale per comprendere gli organismi e guidare i progressi nella scoperta di farmaci, richiedendo una conoscenza interdisciplinare che attraversa chimica e biologia. Sebbene i grandi modelli linguistici molecolari abbiano ottenuto successi significativi nell'interpretazione delle strutture molecolari, i loro dataset di istruzione sono limitati alla conoscenza specifica derivata da dataset orientati al compito e non coprono pienamente le caratteristiche fondamentali delle molecole, ostacolando le loro capacità come assistenti molecolari generici. Per affrontare questo problema, proponiamo Mol-LLaMA, un grande modello linguistico molecolare che comprende la conoscenza generale incentrata sulle molecole attraverso la messa a punto di istruzioni multimodali. A tal fine, progettiamo tipi di dati chiave che racchiudono le caratteristiche fondamentali delle molecole, incorporando conoscenze essenziali dalle strutture molecolari. Inoltre, per migliorare la comprensione delle caratteristiche molecolari, introduciamo un modulo che integra informazioni complementari da diversi encoder molecolari, sfruttando i vantaggi distintivi di diverse rappresentazioni molecolari. I nostri risultati sperimentali dimostrano che Mol-LLaMA è in grado di comprendere le caratteristiche generali delle molecole e di generare risposte pertinenti alle query degli utenti con spiegazioni dettagliate, suggerendo il suo potenziale come assistente generico per l'analisi molecolare.
Presentiamo PhotoDoodle, un innovativo framework di editing delle immagini progettato per facilitare il photo doodling, consentendo agli artisti di sovrapporre elementi decorativi alle fotografie. Il photo doodling è una sfida perché gli elementi inseriti devono apparire perfettamente integrati con lo sfondo, richiedendo una fusione realistica, un allineamento prospettico e una coerenza contestuale. Inoltre, lo sfondo deve essere preservato senza distorsioni e lo stile unico dell'artista deve essere catturato in modo efficiente da un limitato set di dati di addestramento. Questi requisiti non sono affrontati dai metodi precedenti che si concentrano principalmente sul trasferimento di stile globale o sull'inpainting regionale. Il metodo proposto, PhotoDoodle, utilizza una strategia di addestramento in due fasi. Inizialmente, addestriamo un modello di editing delle immagini generico, OmniEditor, utilizzando dati su larga scala. Successivamente, ottimizziamo questo modello con EditLoRA utilizzando un piccolo set di dati curato dall'artista di coppie di immagini prima e dopo, per catturare stili e tecniche di editing distinti. Per migliorare la coerenza nei risultati generati, introduciamo un meccanismo di riutilizzo della codifica posizionale. Inoltre, rilasciamo un dataset PhotoDoodle che presenta sei stili di alta qualità. Esperimenti estesi dimostrano le prestazioni avanzate e la robustezza del nostro metodo nell'editing personalizzato delle immagini, aprendo nuove possibilità per la creazione artistica.
I modelli del mondo che prevedono i cambiamenti ambientali a partire dalle azioni sono fondamentali per i modelli di guida autonoma con una forte capacità di generalizzazione. I modelli del mondo di guida predominanti si basano principalmente su modelli di previsione video. Sebbene questi modelli possano produrre sequenze video ad alta fedeltà grazie a generatori avanzati basati su diffusione, sono limitati dalla durata predittiva e dalle capacità complessive di generalizzazione. In questo articolo, esploriamo la risoluzione di questo problema combinando la perdita di generazione con l'apprendimento contestuale a livello di feature in stile MAE. In particolare, concretizziamo questo obiettivo con tre elementi chiave: (1) Una struttura più scalabile di Diffusion Transformer (DiT) addestrata con un'ulteriore attività di costruzione di maschere. (2) Progettiamo token di maschera correlati alla diffusione per gestire le relazioni sfumate tra la ricostruzione delle maschere e il processo di diffusione generativa. (3) Estendiamo l'attività di costruzione delle maschere al dominio spazio-temporale utilizzando maschere per righe per l'attenzione auto-attenzionale spostata, piuttosto che l'attenzione auto-attenzionale mascherata come in MAE. Successivamente, adottiamo un modulo cross-view per righe per allinearsi a questo design di maschera. Sulla base di questi miglioramenti, proponiamo MaskGWM: un modello del mondo di guida generalizzabile che incorpora la ricostruzione video con maschere. Il nostro modello include due varianti: MaskGWM-long, focalizzata sulla previsione a lungo termine, e MaskGWM-mview, dedicata alla generazione multi-vista. Esperimenti completi su benchmark standard convalidano l'efficacia del metodo proposto, che include la validazione normale del dataset Nuscene, il rollout a lungo termine del dataset OpenDV-2K e la validazione zero-shot del dataset Waymo. Le metriche quantitative su questi dataset dimostrano che il nostro metodo migliora significativamente lo stato dell'arte dei modelli del mondo di guida.
Questo articolo identifica come l'interpretazione errata del contesto possa rappresentare un problema significativo durante il processo di ragionamento dei grandi modelli linguistici, che vanno da modelli più piccoli come Llama3.2-3B-Instruct a quelli all'avanguardia come DeepSeek-R1. Ad esempio, nella frase "10 dollari al chilo", i modelli linguistici potrebbero non riconoscere che "al" significhi "per ogni", portando a errori di calcolo. Introduciamo un nuovo approccio post-addestramento chiamato **Stick to the Facts (SIFT)** per affrontare questo problema. SIFT sfrutta un aumento della potenza di calcolo al momento dell'inferenza per ancorare il ragionamento dei modelli linguistici ai contesti. Al centro di SIFT si trova lo *Sticker*, generato dal modello stesso per enfatizzare esplicitamente le informazioni chiave all'interno del contesto. Dato lo Sticker curato, SIFT genera due previsioni: una dalla query originale e una dalla query arricchita con lo Sticker. Se differiscono, lo Sticker viene raffinato sequenzialmente tramite ottimizzazione *forward* (per allineare meglio i fatti estratti con la query) e generazione *inverse* (per conformarsi alle tendenze intrinseche del modello) per ottenere risultati di ragionamento più fedeli. Studi condotti su vari modelli (da 3B a 100B+) e benchmark (ad esempio, GSM8K, MATH-500) rivelano miglioramenti consistenti delle prestazioni. In particolare, SIFT migliora l'accuratezza pass@1 di DeepSeek-R1 su AIME2024 dal 78,33% a **85,67**%, stabilendo un nuovo stato dell'arte nella comunità open-source. Il codice è disponibile all'indirizzo https://github.com/zhijie-group/SIFT.
Collegare visivamente indizi corrispondenti è un'abilità cruciale nella vita quotidiana, come identificare la stessa persona in più foto basandosi sui loro indizi, anche senza sapere chi siano. Nonostante l'ampia conoscenza posseduta dai modelli visione-linguaggio (VLMs), rimane in gran parte inesplorato se siano in grado di svolgere questo compito fondamentale. Per affrontare questa questione, introduciamo VLM^2-Bench, un benchmark progettato per valutare se i VLMs possono collegare visivamente indizi corrispondenti, con 9 sottotask e oltre 3.000 casi di test. Una valutazione completa su otto VLMs open-source e GPT-4o, insieme a un'ulteriore analisi di vari metodi di prompting lato linguaggio e lato visione, porta a un totale di otto risultati chiave. Identifichiamo sfide critiche nella capacità dei modelli di collegare indizi visivi, evidenziando un significativo divario di prestazioni in cui persino GPT-4o rimane indietro del 34,80% rispetto agli esseri umani. Sulla base di queste intuizioni, sosteniamo (i) il potenziamento delle capacità visive di base per migliorare l'adattabilità e ridurre la dipendenza dalla conoscenza pregressa, (ii) l'istituzione di principi più chiari per integrare il ragionamento basato sul linguaggio in task centrati sulla visione per prevenire bias non necessari, e (iii) un cambiamento nei paradigmi di addestramento visione-testo verso il favorire la capacità dei modelli di strutturare e inferire relazioni tra indizi visivi in modo indipendente.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni notevoli in compiti di ragionamento complesso, ma la loro efficienza è limitata dai costi significativi in termini di memoria e calcolo associati alla generazione di token di lunga durata. In questo articolo, proponiamo LightThinker, un metodo innovativo che consente ai LLM di comprimere dinamicamente i pensieri intermedi durante il ragionamento. Ispirato dai processi cognitivi umani, LightThinker comprime i passaggi verbosi dei pensieri in rappresentazioni compatte e scarta le catene di ragionamento originali, riducendo così significativamente il numero di token memorizzati nella finestra contestuale. Questo risultato è ottenuto addestrando il modello su quando e come eseguire la compressione attraverso la costruzione di dati, mappando gli stati nascosti a token sintetici condensati e creando maschere di attenzione specializzate. Inoltre, introduciamo la metrica di Dipendenza (Dep) per quantificare il grado di compressione misurando la dipendenza dai token storici durante la generazione. Esperimenti estesi su quattro dataset e due modelli dimostrano che LightThinker riduce l'utilizzo di memoria di picco e il tempo di inferenza, mantenendo un'accuratezza competitiva. Il nostro lavoro fornisce una nuova direzione per migliorare l'efficienza dei LLM in compiti di ragionamento complesso senza sacrificare le prestazioni. Il codice sarà rilasciato all'indirizzo https://github.com/zjunlp/LightThinker.
Scalare la lunghezza effettiva del contesto è essenziale per far progredire i grandi modelli linguistici (LLM) verso l'intelligenza artificiale generale (AGI). Tuttavia, l'aumento quadratico della complessità computazionale intrinseco nei meccanismi di attenzione tradizionali rappresenta un sovraccarico proibitivo. Gli approcci esistenti impongono strutture fortemente polarizzate, come l'attenzione a finestra o a sink, che sono specifiche per determinati compiti, oppure modificano radicalmente il meccanismo di attenzione in approssimazioni lineari, le cui prestazioni in compiti di ragionamento complesso rimangono insufficientemente esplorate. In questo lavoro, proponiamo una soluzione che aderisce al principio del "minor struttura", consentendo al modello di determinare autonomamente dove focalizzare l'attenzione, piuttosto che introdurre polarizzazioni predefinite. Introduciamo la Mixture of Block Attention (MoBA), un approccio innovativo che applica i principi della Mixture of Experts (MoE) al meccanismo di attenzione. Questa architettura innovativa dimostra prestazioni superiori nei compiti a contesto lungo, offrendo un vantaggio chiave: la capacità di passare senza soluzione di continuità tra attenzione completa e sparsa, migliorando l'efficienza senza compromettere le prestazioni. MoBA è già stato implementato per supportare le richieste a contesto lungo di Kimi e dimostra progressi significativi nel calcolo efficiente dell'attenzione per i LLM. Il nostro codice è disponibile all'indirizzo https://github.com/MoonshotAI/MoBA.
Con l'aumento dell'utilizzo degli agenti basati su modelli linguistici di grandi dimensioni (LLM), le loro vulnerabilità in termini di sicurezza sono diventate sempre più evidenti. Estesi benchmark valutano vari aspetti della sicurezza degli LLM definendo la sicurezza basandosi fortemente su standard generali, trascurando gli standard specifici per l'utente. Tuttavia, gli standard di sicurezza per gli LLM possono variare in base a profili specifici dell'utente piuttosto che essere universalmente consistenti per tutti gli utenti. Ciò solleva una questione di ricerca critica: gli agenti LLM agiscono in modo sicuro quando si considerano standard di sicurezza specifici per l'utente? Nonostante la sua importanza per un uso sicuro degli LLM, attualmente non esistono dataset di benchmark per valutare la sicurezza specifica per l'utente degli LLM. Per colmare questa lacuna, introduciamo U-SAFEBENCH, il primo benchmark progettato per valutare l'aspetto della sicurezza degli LLM specifico per l'utente. La nostra valutazione di 18 LLM ampiamente utilizzati rivela che gli attuali LLM non riescono ad agire in modo sicuro quando si considerano standard di sicurezza specifici per l'utente, segnando una nuova scoperta in questo campo. Per affrontare questa vulnerabilità, proponiamo un semplice rimedio basato sul ragionamento a catena (chain-of-thought), dimostrandone l'efficacia nel migliorare la sicurezza specifica per l'utente. Il nostro benchmark e il codice sono disponibili all'indirizzo https://github.com/yeonjun-in/U-SafeBench.
La capacità di seguire istruzioni in contesti multi-turno costituisce una competenza fondamentale dei grandi modelli linguistici (LLMs) nelle applicazioni reali. Gli attuali benchmark di valutazione si concentrano prevalentemente sulla soddisfazione di vincoli dettagliati e sulla valutazione di capacità specifiche per dominio, trascurando tuttavia la cruciale dipendenza strutturale tra i turni di dialogo che distingue le interazioni multi-turno da quelle a turno singolo. Questa dipendenza strutturale non solo riflette l'intento dell'utente, ma stabilisce anche una seconda dimensione per la valutazione del seguire istruzioni, oltre alla soddisfazione dei vincoli. Per colmare questa lacuna, proponiamo StructFlowBench, un benchmark per il seguire istruzioni multi-turno con modellazione del flusso strutturale. Il benchmark definisce in modo innovativo un framework di flusso strutturale composto da sei relazioni fondamentali tra i turni, che non solo introduce nuovi vincoli strutturali per la valutazione dei modelli, ma funge anche da parametro di generazione per creare flussi di dialogo personalizzati adatti a scenari specifici. Adottando metodologie consolidate di valutazione automatica basate su LLM, conduciamo valutazioni sistematiche di 13 tra i principali LLM open-source e closed-source. I risultati sperimentali rivelano significative carenze nella comprensione delle strutture di dialogo multi-turno da parte dei modelli attuali. Il codice è disponibile all'indirizzo https://github.com/MLGroupJLU/StructFlowBench.
La sintesi dei materiali è fondamentale per innovazioni come lo stoccaggio di energia, la catalisi, l'elettronica e i dispositivi biomedici. Tuttavia, il processo si basa fortemente su metodi empirici di prova ed errore guidati dall'intuizione degli esperti. Il nostro lavoro mira a supportare la comunità della scienza dei materiali fornendo una risorsa pratica e basata sui dati. Abbiamo curato un dataset completo di 17.000 ricette di sintesi verificate da esperti, tratte dalla letteratura ad accesso aperto, che costituisce la base del nostro nuovo benchmark, AlchemyBench. AlchemyBench offre un framework end-to-end che supporta la ricerca sui modelli linguistici di grandi dimensioni applicati alla previsione della sintesi. Comprende compiti chiave, tra cui la previsione delle materie prime e delle attrezzature, la generazione delle procedure di sintesi e la previsione dei risultati di caratterizzazione. Proponiamo un framework LLM-as-a-Judge che sfrutta i modelli linguistici di grandi dimensioni per la valutazione automatizzata, dimostrando una forte concordanza statistica con le valutazioni degli esperti. Nel complesso, i nostri contributi offrono una base di supporto per esplorare le capacità degli LLM nella previsione e nella guida della sintesi dei materiali, aprendo la strada a una progettazione sperimentale più efficiente e a un'innovazione accelerata nella scienza dei materiali.
Questo articolo presenta il Korean National Educational Test Benchmark (KoNET), un nuovo benchmark progettato per valutare i Sistemi di Intelligenza Artificiale Generativa Multimodale utilizzando i test educativi nazionali coreani. KoNET comprende quattro esami: il Korean Elementary General Educational Development Test (KoEGED), il Middle (KoMGED), l'High (KoHGED) e il College Scholastic Ability Test (KoCSAT). Questi esami sono rinomati per i loro standard rigorosi e le domande diversificate, facilitando un'analisi completa delle prestazioni dell'IA attraverso diversi livelli educativi. Concentrandosi sulla lingua coreana, KoNET fornisce approfondimenti sulle prestazioni dei modelli in lingue meno esplorate. Valutiamo una gamma di modelli - open-source, open-access e API chiuse - esaminando difficoltà, diversità degli argomenti e tassi di errore umano. Il codice e il costruttore del dataset saranno resi completamente open-source all'indirizzo https://github.com/naver-ai/KoNET.
I grandi modelli linguistici hanno dimostrato progressi significativi nel ragionamento matematico, sfruttando il chain-of-thought e il ridimensionamento del calcolo al momento del test. Tuttavia, rimangono molte domande aperte riguardo all'interazione tra l'uso di token di ragionamento e i guadagni in termini di accuratezza. In particolare, quando si confrontano modelli di diverse generazioni, non è chiaro se il miglioramento delle prestazioni derivi da catene di ragionamento più lunghe o da un ragionamento più efficiente. Analizziamo sistematicamente la lunghezza del chain-of-thought nelle varianti o1-mini e o3-mini sul benchmark Omni-MATH, scoprendo che o3-mini (m) raggiunge un'accuratezza superiore senza richiedere catene di ragionamento più lunghe rispetto a o1-mini. Inoltre, mostriamo che l'accuratezza generalmente diminuisce all'aumentare della lunghezza delle catene di ragionamento in tutti i modelli e le configurazioni di calcolo, anche quando si controlla la difficoltà delle domande. Questo calo di accuratezza è significativamente minore nei modelli più competenti, suggerendo che le nuove generazioni di modelli di ragionamento utilizzano il calcolo al momento del test in modo più efficace. Infine, evidenziamo che, sebbene o3-mini (h) ottenga un guadagno marginale in accuratezza rispetto a o3-mini (m), lo fa allocando un numero sostanzialmente maggiore di token di ragionamento per tutti i problemi, anche quelli che o3-mini (m) è già in grado di risolvere. Questi risultati forniscono nuove intuizioni sulla relazione tra capacità del modello e lunghezza del ragionamento, con implicazioni per l'efficienza, il ridimensionamento e le metodologie di valutazione.
La generazione della struttura proteica svolge un ruolo centrale nel design de novo delle proteine ed è significativa per molte applicazioni biologiche e mediche. Sebbene i modelli generativi basati su diffusione e flusso offrano soluzioni potenziali a questo compito impegnativo, spesso generano proteine con una desiderabilità non ottimale e soffrono di inefficienza computazionale. In questo studio, proponiamo un nuovo metodo di matching del flusso quaternion rettificato (ReQFlow) per la generazione rapida e di alta qualità della struttura proteica. In particolare, il nostro metodo genera una traslazione locale e una rotazione 3D da rumore casuale per ciascun residuo in una catena proteica, rappresentando ciascuna rotazione 3D come un quaternion unitario e costruendo il suo flusso mediante interpolazione lineare sferica (SLERP) in formato esponenziale. Addestriamo il modello mediante matching del flusso quaternion (QFlow) con stabilità numerica garantita e rettifichiamo il modello QFlow per accelerarne l'inferenza e migliorare la desiderabilità delle strutture proteiche generate, portando al modello ReQFlow proposto. Gli esperimenti dimostrano che ReQFlow raggiunge prestazioni all'avanguardia nella generazione della struttura proteica, richiedendo molti meno passi di campionamento e un tempo di inferenza significativamente ridotto (ad esempio, 37 volte più veloce di RFDiffusion e 62 volte più veloce di Genie2 nella generazione di una struttura di lunghezza 300), dimostrandone l'efficacia e l'efficienza. Il codice è disponibile all'indirizzo https://github.com/AngxiaoYue/ReQFlow.
I progressi nei Modelli Linguistici di Grande Dimensione (LLM) e il loro crescente utilizzo nel campo delle risposte a domande mediche rendono necessaria una valutazione rigorosa della loro affidabilità. Una sfida cruciale è rappresentata dall'allucinazione, in cui i modelli generano output plausibili ma fattualmente errati. Nel contesto medico, ciò comporta seri rischi per la sicurezza dei pazienti e per il processo decisionale clinico. Per affrontare questo problema, introduciamo MedHallu, il primo benchmark specificamente progettato per il rilevamento delle allucinazioni mediche. MedHallu comprende 10.000 coppie domanda-risposta di alta qualità derivate da PubMedQA, con risposte allucinate generate sistematicamente attraverso una pipeline controllata. I nostri esperimenti dimostrano che gli LLM all'avanguardia, tra cui GPT-4o, Llama-3.1 e il modello medicalmente affinato UltraMedical, faticano in questo compito binario di rilevamento delle allucinazioni, con il miglior modello che raggiunge un punteggio F1 di appena 0.625 per il rilevamento delle allucinazioni della categoria "difficile". Utilizzando il clustering bidirezionale di implicazione, dimostriamo che le allucinazioni più difficili da rilevare sono semanticamente più vicine alla verità di base. Attraverso gli esperimenti, mostriamo anche che l'incorporazione di conoscenze specifiche del dominio e l'introduzione di una categoria "non sicuro" come una delle opzioni di risposta migliorano la precisione e i punteggi F1 fino al 38% rispetto ai baselines.
Gli approcci senza tuning che adattano modelli di diffusione video pre-addestrati su larga scala per la generazione di video da testo con conservazione dell'identità (IPT2V) hanno guadagnato popolarità di recente grazie alla loro efficacia e scalabilità. Tuttavia, rimangono sfide significative per ottenere dinamiche facciali soddisfacenti mantenendo invariata l'identità. In questo lavoro, presentiamo un nuovo framework IPT2V senza tuning, denominato FantasyID, che migliora la conoscenza del volto del modello video pre-addestrato basato su trasformatori di diffusione (DiT). Fondamentalmente, viene incorporato un priore di geometria facciale 3D per garantire strutture facciali plausibili durante la sintesi video. Per evitare che il modello apprenda scorciatoie di copia-incolla che replicano semplicemente il volto di riferimento tra i fotogrammi, è stata ideata una strategia di aumento del volto multi-vista per catturare diverse caratteristiche di aspetto facciale 2D, aumentando così la dinamica delle espressioni facciali e delle pose della testa. Inoltre, dopo aver combinato le caratteristiche 2D e 3D come guida, invece di utilizzare in modo ingenuo l'attenzione incrociata per iniettare i segnali di guida negli strati DiT, viene impiegato un meccanismo adattivo apprendibile e sensibile agli strati per iniettare selettivamente le caratteristiche fuse in ciascuno strato DiT individuale, facilitando una modellazione bilanciata della conservazione dell'identità e delle dinamiche del movimento. I risultati sperimentali convalidano la superiorità del nostro modello rispetto agli attuali metodi IPT2V senza tuning.
In questo articolo, affrontiamo la sfida di imporre una stretta aderenza allo schema nella generazione di modelli linguistici di grandi dimensioni (LLM) sfruttando le capacità di ragionamento degli LLM. Basandoci sul framework di apprendimento per rinforzo DeepSeek R1, il nostro approccio addestra le abilità di ragionamento strutturato di un modello da 1,5 miliardi di parametri attraverso una pipeline innovativa che combina la costruzione di un dataset sintetico di ragionamento con funzioni di ricompensa personalizzate nell'ambito dell'ottimizzazione delle politiche relative di gruppo (GRPO). Nello specifico, eseguiamo prima l'apprendimento per rinforzo R1 su un dataset di 20K campioni non strutturati-strutturati, seguendo i metodi originali di DeepSeek R1, per stabilire le capacità di ragionamento di base. Successivamente, abbiamo eseguito un fine-tuning supervisionato su un dataset separato di 10K campioni di ragionamento, concentrandoci sul perfezionamento dell'aderenza allo schema per i task downstream. Nonostante l'ambito di addestramento relativamente modesto, che richiede circa 20 ore su un cluster GPU 8xH100 per l'addestramento GRPO e 3 ore su 1xA100 per il SFT, il nostro modello dimostra una performance robusta nell'imporre la coerenza dello schema. Confrontiamo il nostro approccio ThinkJSON con l'originale DeepSeek R1 (671B), le versioni distillate di DeepSeek R1 (Qwen-1.5B e Qwen-7B) e Gemini 2.0 Flash (70B), evidenziandone l'efficacia nelle applicazioni reali. I nostri risultati sottolineano l'utilità pratica di un framework efficiente in termini di risorse per la generazione di testo vincolato da schema.
Il campionamento dai modelli di diffusione comporta un processo iterativo lento che ne ostacola l'impiego pratico, specialmente per applicazioni interattive. Per accelerare la velocità di generazione, approcci recenti distillano un modello di diffusione multi-step in un generatore studente a singolo passo tramite distillazione variazionale del punteggio, che allinea la distribuzione dei campioni generati dallo studente a quella del modello insegnante. Tuttavia, questi approcci utilizzano la divergenza inversa di Kullback-Leibler (KL), nota per essere orientata alla ricerca di modi. In questo articolo, generalizziamo l'approccio di allineamento delle distribuzioni utilizzando un nuovo framework di minimizzazione della f-divergenza, denominato f-distill, che copre diverse divergenze con diversi compromessi in termini di copertura dei modi e varianza dell'addestramento. Deriviamo il gradiente della f-divergenza tra le distribuzioni del modello insegnante e dello studente e mostriamo che è espresso come il prodotto delle differenze dei loro punteggi e di una funzione di ponderazione determinata dal loro rapporto di densità. Questa funzione di ponderazione enfatizza naturalmente i campioni con densità più alta nella distribuzione del modello insegnante quando si utilizza una divergenza meno orientata alla ricerca di modi. Osserviamo che il popolare approccio di distillazione variazionale del punteggio che utilizza la divergenza inversa di KL è un caso speciale all'interno del nostro framework. Empiricamente, dimostriamo che f-divergenze alternative, come la divergenza diretta di KL e la divergenza di Jensen-Shannon, superano i migliori metodi attuali di distillazione variazionale del punteggio in vari compiti di generazione di immagini. In particolare, quando si utilizza la divergenza di Jensen-Shannon, f-distill raggiunge le migliori prestazioni attuali per la generazione a singolo passo su ImageNet64 e la generazione zero-shot da testo a immagine su MS-COCO. Pagina del progetto: https://research.nvidia.com/labs/genair/f-distill
Con l'adozione crescente della Generazione Aumentata dal Recupero (RAG) nell'elaborazione dei documenti, il riconoscimento robusto del testo è diventato sempre più cruciale per l'estrazione della conoscenza. Mentre l'OCR (Riconoscimento Ottico dei Caratteri) per l'inglese e altre lingue beneficia di ampi dataset e benchmark consolidati, l'OCR per l'arabo affronta sfide uniche a causa della sua scrittura corsiva, del flusso di testo da destra a sinistra e delle complesse caratteristiche tipografiche e calligrafiche. Presentiamo KITAB-Bench, un benchmark completo per l'OCR arabo che colma le lacune nei sistemi di valutazione attuali. Il nostro benchmark comprende 8.809 campioni distribuiti in 9 domini principali e 36 sottodomini, includendo diversi tipi di documenti come testo manoscritto, tabelle strutturate e una copertura specializzata di 21 tipi di grafici per l'intelligenza aziendale. I nostri risultati mostrano che i moderni modelli visione-linguaggio (come GPT-4, Gemini e Qwen) superano gli approcci OCR tradizionali (come EasyOCR, PaddleOCR e Surya) di una media del 60% nel tasso di errore sui caratteri (CER). Inoltre, evidenziamo significative limitazioni dei modelli OCR arabi attuali, in particolare nella conversione da PDF a Markdown, dove il miglior modello, Gemini-2.0-Flash, raggiunge solo il 65% di accuratezza. Ciò sottolinea le sfide nel riconoscere accuratamente il testo arabo, inclusi problemi con font complessi, errori nel riconoscimento dei numeri, allungamento delle parole e rilevamento della struttura delle tabelle. Questo lavoro stabilisce un rigoroso framework di valutazione che può guidare i miglioramenti nei metodi di analisi dei documenti arabi e colmare il divario di prestazioni con le tecnologie OCR per l'inglese.
I benchmark esistenti non testano i Modelli Multimodali di Grande Scala (LMM) sulla loro intelligenza interattiva con gli utenti umani, un aspetto cruciale per lo sviluppo di assistenti AI a scopo generale. Progettiamo InterFeedback, un framework interattivo che può essere applicato a qualsiasi LMM e dataset per valutare autonomamente questa capacità. Inoltre, introduciamo InterFeedback-Bench, che valuta l'intelligenza interattiva utilizzando due dataset rappresentativi, MMMU-Pro e MathVerse, per testare 10 diversi LMM open-source. Presentiamo anche InterFeedback-Human, un nuovo dataset di 120 casi raccolto appositamente per testare manualmente le prestazioni interattive in modelli leader come OpenAI-o1 e Claude-3.5-Sonnet. I nostri risultati di valutazione mostrano che anche i LMM all'avanguardia (come OpenAI-o1) riescono a correggere i propri risultati attraverso il feedback umano meno del 50% delle volte. Le nostre scoperte evidenziano la necessità di metodi che possano migliorare la capacità dei LMM di interpretare e trarre vantaggio dal feedback.
Con la crescita esponenziale della ricerca facilitata dalla tecnologia moderna e dalla maggiore accessibilità, le scoperte scientifiche sono diventate sempre più frammentate all'interno e tra i vari campi. Ciò rende difficile valutare l'importanza, la novità, i risultati incrementali e le idee equivalenti tra lavori correlati, in particolare quelli provenienti da diverse comunità di ricerca. I modelli linguistici di grandi dimensioni (LLM) hanno recentemente dimostrato forti capacità di ragionamento quantitativo e qualitativo, e i dibattiti multi-agente basati su LLM hanno mostrato potenziale nel gestire compiti di ragionamento complesso esplorando prospettive e percorsi di ragionamento diversi. Ispirati da ciò, introduciamo Tree-of-Debate (ToD), un framework che trasforma i lavori scientifici in "personaggi" LLM che dibattono le rispettive novità. Per enfatizzare un ragionamento critico e strutturato piuttosto che concentrarsi esclusivamente sui risultati, ToD costruisce dinamicamente un albero di dibattito, consentendo un'analisi dettagliata degli argomenti indipendenti sulla novità all'interno degli articoli accademici. Attraverso esperimenti su letteratura scientifica in vari domini, valutati da ricercatori esperti, dimostriamo che ToD genera argomentazioni informative, confronta efficacemente i lavori e supporta i ricercatori nella revisione della letteratura.
Prevedere quando iniziare a parlare in ambienti del mondo reale rimane una sfida fondamentale per gli agenti conversazionali. Introduciamo EgoSpeak, un nuovo framework per la previsione in tempo reale dell'inizio del parlato in video streaming egocentrici. Modellando la conversazione dal punto di vista in prima persona del parlante, EgoSpeak è progettato per interazioni simili a quelle umane, in cui un agente conversazionale deve osservare continuamente l'ambiente e decidere dinamicamente quando parlare. Il nostro approccio colma il divario tra setup sperimentali semplificati e conversazioni naturali complesse integrando quattro capacità chiave: (1) prospettiva in prima persona, (2) elaborazione RGB, (3) elaborazione online e (4) elaborazione di video non tagliati. Presentiamo inoltre YT-Conversation, una raccolta diversificata di video conversazionali "in the wild" provenienti da YouTube, come risorsa per il pre-training su larga scala. Gli esperimenti su EasyCom ed Ego4D dimostrano che EgoSpeak supera in tempo reale i baseline casuali e basati sul silenzio. I nostri risultati evidenziano anche l'importanza dell'input multimodale e della lunghezza del contesto nel decidere efficacemente quando parlare.
Le principali aziende di IA sono sempre più focalizzate sulla creazione di agenti IA generalisti – sistemi in grado di pianificare, agire e perseguire obiettivi in modo autonomo in quasi tutte le attività che gli esseri umani possono svolgere. Nonostante l'utilità di questi sistemi, un'agenzia IA non controllata rappresenta rischi significativi per la sicurezza pubblica, che vanno dall'uso improprio da parte di attori malintenzionati a una potenziale perdita irreversibile del controllo umano. Discutiamo come questi rischi derivino dagli attuali metodi di addestramento dell'IA. Infatti, vari scenari ed esperimenti hanno dimostrato la possibilità che agenti IA si impegnino in comportamenti ingannevoli o perseguano obiettivi non specificati dagli operatori umani e in conflitto con gli interessi umani, come l'autoconservazione. Seguendo il principio di precauzione, riteniamo essenziale sviluppare alternative più sicure, ma comunque utili, rispetto all'attuale traiettoria incentrata sull'agenzia. Di conseguenza, proponiamo come elemento fondamentale per ulteriori progressi lo sviluppo di un sistema IA non agentico, affidabile e sicuro per progettazione, che chiamiamo Scientist AI. Questo sistema è progettato per spiegare il mondo attraverso osservazioni, anziché agire in esso per imitare o compiacere gli esseri umani. Comprende un modello del mondo che genera teorie per spiegare i dati e una macchina inferenziale per rispondere alle domande. Entrambi i componenti operano con una nozione esplicita di incertezza per mitigare i rischi di previsioni eccessivamente sicure. Alla luce di queste considerazioni, uno Scientist AI potrebbe essere utilizzato per assistere i ricercatori umani nell'accelerare il progresso scientifico, incluso quello nella sicurezza dell'IA. In particolare, il nostro sistema può essere impiegato come barriera protettiva contro agenti IA che potrebbero essere creati nonostante i rischi coinvolti. In definitiva, concentrarsi sull'IA non agentica potrebbe consentire di ottenere i benefici dell'innovazione nell'IA evitando i rischi associati all'attuale traiettoria. Speriamo che questi argomenti motivino ricercatori, sviluppatori e decisori politici a favorire questo percorso più sicuro.
Gli embedding stilistici sono utili per l'analisi stilistica e il trasferimento di stile; tuttavia, sono stati resi disponibili solo embedding stilistici per l'inglese. Introduciamo Multilingual StyleDistance (mStyleDistance), un modello di embedding stilistico multilingue addestrato utilizzando dati sintetici e apprendimento contrastivo. Addestriamo il modello su dati provenienti da nove lingue e creiamo un benchmark multilingue STEL-or-Content (Wegmann et al., 2022) che serve a valutare la qualità degli embedding. Utilizziamo inoltre i nostri embedding in un task di verifica dell'autorialità che coinvolge diverse lingue. I nostri risultati dimostrano che gli embedding di mStyleDistance superano i modelli esistenti su questi benchmark stilistici multilingue e generalizzano bene a caratteristiche e lingue non viste. Rendiamo disponibile il nostro modello pubblicamente all'indirizzo https://huggingface.co/StyleDistance/mstyledistance.
Dimostriamo che il Large Language Model da Power Law Decoder Representations (PLDR-LLM) è un modello fondazionale i cui output deduttivi sono tensori invarianti a meno di una piccola perturbazione. PLDR-LLM apprende una condizione di singolarità per gli output deduttivi che consente al tensore energia-curvatura G_{LM}, una volta inferito, di sostituire la rete neurale profonda di power law graph attention (PLGA) che genera gli output deduttivi durante l'inferenza. Dimostriamo che una cache per G_{LM} (G-cache) e KV-cache può essere implementata in modo diretto per migliorare il tempo di inferenza. L'invarianza e la natura generalizzabile degli output deduttivi sono di altissima fedeltà, dove gli output deduttivi mantengono gli stessi valori di RMSE e determinante fino a 15 cifre decimali dopo la memorizzazione nella cache, e i punteggi dei benchmark zero-shot rimangono invariati. Studi di ablazione mostrano che gli output deduttivi appresi presentano caratteristiche di perdita e accuratezza distinte rispetto a modelli preaddestrati con tensori trasferiti, inizializzati casualmente o tensori identità come operatore tensoriale costante, e che un LLM con scaled-dot product attention (SDPA) è un caso speciale di PLDR-LLM in cui G_{LM} è predefinito come identità. La caratteristica di invarianza osservata introduce una nuova asimmetria tra le fasi di addestramento e inferenza con memorizzazione nella cache. Descriviamo le caratteristiche comuni osservate degli output deduttivi per la condizione di singolarità appresa. Forniamo un'implementazione di un framework di addestramento e inferenza per PLDR-LLM con KV-cache e G-cache.
Stimare le traiettorie umane e della fotocamera con scala accurata nel sistema di coordinate mondiali a partire da un video monoculare è un problema altamente desiderabile ma complesso e mal posto. In questo studio, miriamo a recuperare modelli parametrici umani espressivi (ad esempio, SMPL-X) e le corrispondenti pose della fotocamera in modo congiunto, sfruttando la sinergia tra tre attori critici: il mondo, l'essere umano e la fotocamera. Il nostro approccio si basa su due osservazioni chiave. In primo luogo, i metodi di stima SMPL-X nel frame della fotocamera recuperano facilmente la profondità assoluta dell'essere umano. In secondo luogo, i movimenti umani forniscono intrinsecamente indizi spaziali assoluti. Integrando queste intuizioni, introduciamo un nuovo framework, denominato WHAC, per facilitare la stima della posa e della forma umana espressiva (EHPS) ancorata al mondo insieme alla stima della posa della fotocamera, senza fare affidamento su tecniche di ottimizzazione tradizionali. Inoltre, presentiamo un nuovo dataset sintetico, WHAC-A-Mole, che include annotazioni precise di esseri umani e fotocamere, e presenta una varietà di movimenti umani interattivi nonché traiettorie realistiche della fotocamera. Esperimenti estesi su benchmark standard e di nuova istituzione evidenziano la superiorità e l'efficacia del nostro framework. Renderemo disponibili pubblicamente il codice e il dataset.
I modelli linguistici di grandi dimensioni (LLMs) hanno dimostrato capacità impressionanti nella diagnosi delle malattie. Tuttavia, la loro efficacia nell'identificare malattie più rare, che sono intrinsecamente più difficili da diagnosticare, rimane una questione aperta. Le prestazioni nelle malattie rare sono cruciali con l'aumento dell'uso degli LLMs in ambito sanitario. Questo è particolarmente vero se un medico di base deve formulare una prognosi più rara basandosi solo su una conversazione con il paziente, in modo da poter intraprendere il passo successivo appropriato. A tal fine, diversi sistemi di supporto alle decisioni cliniche sono progettati per aiutare i professionisti nell'identificazione delle malattie rare. Tuttavia, la loro utilità è limitata dalla mancanza di conoscenza dei disturbi comuni e dalla difficoltà d'uso. In questo articolo, proponiamo RareScale per combinare la conoscenza degli LLMs con i sistemi esperti. Utilizziamo congiuntamente un sistema esperto e un LLM per simulare conversazioni su malattie rare. Questi dati vengono utilizzati per addestrare un modello predittivo di candidati per malattie rare. I candidati generati da questo modello più piccolo vengono poi utilizzati come input aggiuntivi per un LLM black-box per formulare la diagnosi differenziale finale. In questo modo, RareScale permette di bilanciare diagnosi rare e comuni. Presentiamo i risultati su oltre 575 malattie rare, partendo dall'Actinomicosi addominale e terminando con la Malattia di Wilson. Il nostro approccio migliora significativamente le prestazioni di base degli LLMs black-box di oltre il 17% in termini di accuratezza Top-5. Troviamo inoltre che le prestazioni nella generazione dei candidati sono elevate (ad esempio, l'88,8% sulle chat generate da gpt-4o).
La comprensione multi-modale degli oggetti 3D ha attirato una significativa attenzione, tuttavia gli approcci attuali spesso presuppongono la disponibilità completa dei dati e un allineamento rigido tra tutte le modalità. Presentiamo CrossOver, un nuovo framework per la comprensione cross-modale delle scene 3D tramite un allineamento flessibile delle modalità a livello di scena. A differenza dei metodi tradizionali che richiedono dati allineati per ogni istanza di oggetto, CrossOver apprende uno spazio di embedding unificato e indipendente dalle modalità per le scene, allineando le modalità - immagini RGB, nuvole di punti, modelli CAD, planimetrie e descrizioni testuali - con vincoli rilassati e senza semantica esplicita degli oggetti. Sfruttando encoder specifici per la dimensionalità, una pipeline di addestramento multi-stadio e comportamenti cross-modali emergenti, CrossOver supporta un robusto recupero delle scene e la localizzazione degli oggetti, anche in presenza di modalità mancanti. Le valutazioni sui dataset ScanNet e 3RScan dimostrano le sue prestazioni superiori su diverse metriche, evidenziando l'adattabilità per applicazioni reali nella comprensione delle scene 3D.
I Modelli Linguistici di Grande Dimensione (LLMs) hanno compiuto progressi significativi nell'elaborazione del linguaggio naturale, ma il loro potenziale per il processo decisionale politico ad alto rischio rimane in gran parte inesplorato. Questo articolo affronta tale lacuna concentrandosi sull'applicazione degli LLMs al processo decisionale delle Nazioni Unite (ONU), dove i rischi sono particolarmente elevati e le decisioni politiche possono avere conseguenze di vasta portata. Introduciamo un nuovo dataset che comprende i registri pubblicamente disponibili del Consiglio di Sicurezza delle Nazioni Unite (UNSC) dal 1994 al 2024, inclusi bozze di risoluzioni, registri di voto e discorsi diplomatici. Utilizzando questo dataset, proponiamo il Benchmark delle Nazioni Unite (UNBench), il primo benchmark completo progettato per valutare gli LLMs attraverso quattro compiti interconnessi di scienza politica: giudizio sui co-redattori, simulazione del voto rappresentativo, previsione dell'adozione delle bozze e generazione di dichiarazioni rappresentative. Questi compiti abbracciano le tre fasi del processo decisionale dell'ONU—redazione, voto e discussione—e mirano a valutare la capacità degli LLMs di comprendere e simulare le dinamiche politiche. La nostra analisi sperimentale dimostra il potenziale e le sfide dell'applicazione degli LLMs in questo ambito, fornendo approfondimenti sui loro punti di forza e limiti nella scienza politica. Questo lavoro contribuisce all'intersezione crescente tra intelligenza artificiale e scienza politica, aprendo nuove strade per la ricerca e le applicazioni pratiche nella governance globale. Il repository UNBench è accessibile all'indirizzo: https://github.com/yueqingliang1/UNBench.
Consideriamo il problema della previsione delle espressioni geniche a partire dalle sequenze di DNA. Una delle principali sfide di questo compito è individuare gli elementi regolatori che controllano le espressioni geniche. In questo lavoro, introduciamo Seq2Exp, una rete Sequence to Expression progettata specificamente per scoprire ed estrarre gli elementi regolatori che guidano l'espressione genica target, migliorando l'accuratezza della previsione dell'espressione genica. Il nostro approccio cattura la relazione causale tra i segnali epigenomici, le sequenze di DNA e i loro elementi regolatori associati. Nello specifico, proponiamo di scomporre i segnali epigenomici e la sequenza di DNA condizionati agli elementi regolatori attivi causali, e di applicare un collo di bottiglia informativo con la distribuzione Beta per combinare i loro effetti filtrando i componenti non causali. I nostri esperimenti dimostrano che Seq2Exp supera i metodi di riferimento esistenti nei compiti di previsione dell'espressione genica e scopre regioni influenti rispetto ai metodi statistici comunemente utilizzati per il rilevamento di picchi, come MACS3. Il codice sorgente è rilasciato come parte della libreria AIRS (https://github.com/divelab/AIRS/).
Le specifiche degli utenti o i quadri normativi spesso richiedono la rimozione di informazioni da modelli preaddestrati, inclusi i grandi modelli linguistici (LLM). Ciò comporta l'eliminazione o il "dimenticare" un insieme di punti dati da un modello già addestrato, il che tipicamente ne degrada le prestazioni sugli altri punti dati. Pertanto, è necessario trovare un equilibrio tra la rimozione delle informazioni e il mantenimento delle altre capacità del modello, poiché il mancato bilanciamento di questo compromesso porta a una cancellazione inefficace o a un modello inutilizzabile. A tal fine, proponiamo UPCORE (Utility-Preserving Coreset Selection), un framework di selezione dei dati indipendente dal metodo, per mitigare i danni collaterali durante il processo di unlearning. Rilevando che il danno al modello è correlato alla varianza delle rappresentazioni del modello sul set di dimenticanza, selettivamente potiamo il set di dimenticanza per rimuovere gli outlier, minimizzando così il degrado del modello dopo l'unlearning. Valutiamo UPCORE su tre metodi standard di unlearning, ottenendo costantemente un equilibrio superiore tra gli obiettivi concorrenti di efficacia nella cancellazione e preservazione del modello. Per valutare meglio questo compromesso, introduciamo una nuova metrica, misurando l'area-sotto-la-curva (AUC) attraverso metriche standard. Rileviamo che UPCORE migliora sia le metriche standard che l'AUC, beneficiando del trasferimento positivo tra il coreset e i punti potati, riducendo al contempo il trasferimento negativo dal set di dimenticanza ai punti esterni ad esso.
Il deep learning ha ottenuto un successo significativo nel campo del rilevamento dei cambiamenti (CD) nelle immagini di telerilevamento, ma permangono due principali sfide: la scarsità di dataset open-source CD completi e con risoluzione sub-metro, e la difficoltà di ottenere risultati di rilevamento consistenti e soddisfacenti su immagini con aree di cambiamento variabili. Per affrontare questi problemi, introduciamo il dataset JL1-CD, che contiene 5.000 coppie di immagini di 512 x 512 pixel con una risoluzione compresa tra 0,5 e 0,75 metri. Inoltre, proponiamo un framework di distillazione della conoscenza multi-teacher (MTKD) per il CD. I risultati sperimentali sui dataset JL1-CD e SYSU-CD dimostrano che il framework MTKD migliora significativamente le prestazioni dei modelli CD con varie architetture di rete e dimensioni dei parametri, raggiungendo nuovi risultati all'avanguardia. Il codice è disponibile all'indirizzo https://github.com/circleLZY/MTKD-CD.
Presentiamo un benchmark open-source e un framework di valutazione per analizzare la gestione dei confini emotivi nei Large Language Models (LLMs). Utilizzando un dataset di 1156 prompt in sei lingue, abbiamo valutato tre modelli LLM all'avanguardia (GPT-4o, Claude-3.5 Sonnet e Mistral-large) sulla loro capacità di mantenere confini emotivi appropriati attraverso un'analisi delle risposte basata su pattern. Il nostro framework quantifica le risposte secondo sette pattern chiave: rifiuto diretto, scuse, spiegazioni, deflessione, riconoscimento, definizione di confini e consapevolezza emotiva. I risultati dimostrano una significativa varietà negli approcci alla gestione dei confini, con Claude-3.5 che ottiene il punteggio complessivo più alto (8,69/10) e produce risposte più lunghe e sfumate (86,51 parole in media). Abbiamo identificato un divario prestazionale sostanziale tra le interazioni in inglese (punteggio medio 25,62) e quelle in altre lingue (< 0,22), con risposte in inglese che mostrano tassi di rifiuto significativamente più alti (43,20% contro < 1% per le altre lingue). L'analisi dei pattern ha rivelato strategie specifiche dei modelli, come la preferenza di Mistral per la deflessione (4,2%) e punteggi di empatia costantemente bassi in tutti i modelli (< 0,06). Le limitazioni includono una potenziale semplificazione eccessiva dovuta al pattern matching, la mancanza di comprensione contestuale nell'analisi delle risposte e la classificazione binaria di risposte emotive complesse. I lavori futuri dovrebbero esplorare metodi di valutazione più sfumati, ampliare la copertura linguistica e indagare le variazioni culturali nelle aspettative sui confini emotivi. Il nostro benchmark e la metodologia forniscono una base per la valutazione sistematica dell'intelligenza emotiva e delle capacità di definizione dei confini nei LLM.