Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il campo della modellazione 4D del mondo, che mira a catturare congiuntamente la geometria spaziale e le dinamiche temporali, ha registrato progressi significativi negli ultimi anni, grazie ai progressi nei modelli generativi su larga scala e nell'apprendimento multimodale. Tuttavia, lo sviluppo di veri e propri modelli 4D generali rimane fondamentalmente limitato dalla disponibilità di dati di alta qualità. I dataset e i benchmark esistenti spesso mancano della complessità dinamica, della diversità multi-dominio e delle annotazioni spazio-temporali necessarie per supportare compiti chiave come la ricostruzione geometrica 4D, la previsione futura e la generazione di video con controllo della telecamera. Per colmare questa lacuna, introduciamo OmniWorld, un dataset su larga scala, multi-dominio e multimodale, progettato specificamente per la modellazione 4D del mondo. OmniWorld è composto da un nuovo dataset raccolto, OmniWorld-Game, e da diversi dataset pubblici curati che coprono diversi domini. Rispetto ai dataset sintetici esistenti, OmniWorld-Game offre una copertura modale più ricca, una scala più ampia e interazioni dinamiche più realistiche. Basandoci su questo dataset, stabiliamo un benchmark impegnativo che mette in luce i limiti degli approcci all'avanguardia (SOTA) attuali nella modellazione di ambienti 4D complessi. Inoltre, il fine-tuning dei metodi SOTA esistenti su OmniWorld porta a significativi miglioramenti delle prestazioni nei compiti di ricostruzione 4D e generazione di video, convalidando fortemente OmniWorld come una risorsa potente per l'addestramento e la valutazione. Prevediamo che OmniWorld agirà come catalizzatore per accelerare lo sviluppo di modelli 4D generali, avanzando infine la comprensione olistica delle macchine del mondo fisico.
Gli agenti di interfaccia utente grafica (GUI) hanno dimostrato progressi significativi nell'automatizzazione di interazioni complesse con l'interfaccia utente attraverso l'apprendimento per rinforzo. Tuttavia, gli approcci attuali si trovano di fronte a un dilemma fondamentale: l'RL offline consente un addestramento stabile su traiettorie pre-raccolte, ma fatica nell'esecuzione di compiti multi-step a causa della mancanza di segnali di ricompensa a livello di traiettoria; l'RL online cattura questi segnali attraverso l'interazione con l'ambiente, ma soffre di ricompense sparse e costi di implementazione proibitivi. Per affrontare questo problema, presentiamo l'Apprendimento per Rinforzo Semi-online, un paradigma innovativo che simula l'RL online su traiettorie offline. Durante ogni processo di rollout, preserviamo l'output originale del modello all'interno del dialogo multi-turn, dove un Modulo Patch adattivamente recupera la divergenza tra il rollout e le traiettorie esperte. Per catturare segnali di addestramento a lungo termine, l'RL Semi-online introduce rendimenti futuri scontati nel calcolo della ricompensa e ottimizza la politica con vantaggi ponderati a livello di step e di episodio. Introduciamo inoltre la Metrica di Prestazione Semi-Online (SOP), che si allinea meglio con la vera prestazione online, servendo come proxy pratico ed efficace per la valutazione nel mondo reale. Gli esperimenti mostrano che il nostro RL Semi-online raggiunge prestazioni SOTA tra i modelli da 7B su quattro benchmark dinamici, con guadagni significativi rispetto al modello base (ad esempio, +12,0% su AndroidWorld, +23,8% su AITW), dimostrando progressi significativi nel colmare il divario tra l'efficienza dell'addestramento offline e il ragionamento multi-turn online. Il codice è disponibile all'indirizzo https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.
Il progresso dell'Embodied AI dipende fortemente da dataset di scene 3D su larga scala e simulabili, caratterizzati da diversità delle scene e layout realistici. Tuttavia, i dataset esistenti presentano tipicamente limitazioni nella scala o nella diversità dei dati, layout eccessivamente semplificati privi di oggetti di piccole dimensioni e gravi collisioni tra oggetti. Per affrontare queste carenze, introduciamo InternScenes, un nuovo dataset di scene interne simulabili su larga scala, composto da circa 40.000 scene diverse, integrando tre fonti di scene distinte: scansioni del mondo reale, scene generate proceduralmente e scene create da designer, comprendenti 1,96 milioni di oggetti 3D e coprendo 15 tipi di scene comuni e 288 classi di oggetti. Abbiamo particolarmente preservato un gran numero di oggetti di piccole dimensioni nelle scene, ottenendo layout realistici e complessi con una media di 41,5 oggetti per regione. La nostra pipeline di elaborazione dati completa garantisce la simulabilità creando repliche real-to-sim per le scansioni del mondo reale, migliora l'interattività incorporando oggetti interattivi in queste scene e risolve le collisioni tra oggetti attraverso simulazioni fisiche. Dimostriamo il valore di InternScenes con due applicazioni benchmark: la generazione del layout delle scene e la navigazione verso un punto-obiettivo. Entrambe mostrano le nuove sfide poste dai layout complessi e realistici. Ancora più importante, InternScenes apre la strada per scalare l'addestramento dei modelli per entrambi i compiti, rendendo possibile la generazione e la navigazione in scene così complesse. Ci impegniamo a rendere open-source i dati, i modelli e i benchmark per beneficiare l'intera comunità.
La dipendenza dalla corrispondenza implicita di punti tramite l'attenzione è diventata un collo di bottiglia fondamentale nell'editing basato sul trascinamento, portando a un compromesso essenziale tra una forza di inversione indebolita e un'ottimizzazione costosa in fase di test (TTO). Questo compromesso limita gravemente le capacità generative dei modelli di diffusione, sopprimendo l'inpainting ad alta fedeltà e la creazione guidata da testo. In questo articolo, introduciamo LazyDrag, il primo metodo di editing di immagini basato sul trascinamento per i Multi-Modal Diffusion Transformers, che elimina direttamente la dipendenza dalla corrispondenza implicita di punti. In termini concreti, il nostro metodo genera una mappa di corrispondenza esplicita dagli input di trascinamento dell'utente come riferimento affidabile per potenziare il controllo dell'attenzione. Questo riferimento affidabile apre la possibilità per un processo di inversione stabile a piena forza, il primo nel compito di editing basato sul trascinamento. Esso elimina la necessità di TTO e sblocca la capacità generativa dei modelli. Pertanto, LazyDrag unisce naturalmente il controllo geometrico preciso con la guida del testo, consentendo modifiche complesse che prima erano irraggiungibili: aprire la bocca di un cane e fare inpainting del suo interno, generare nuovi oggetti come una "palla da tennis", o per trascinamenti ambigui, apportare cambiamenti contestuali come muovere una mano in una tasca. Inoltre, LazyDrag supporta flussi di lavoro multi-round con operazioni simultanee di spostamento e ridimensionamento. Valutato su DragBench, il nostro metodo supera i baseline in termini di precisione di trascinamento e qualità percettiva, come validato da VIEScore e valutazione umana. LazyDrag non solo stabilisce nuove prestazioni all'avanguardia, ma apre anche una nuova strada ai paradigmi di editing.
Il Fine-Tuning Supervisionato (SFT) è essenziale per l'addestramento di grandi modelli linguistici (LLM), migliorando significativamente capacità critiche come il seguire istruzioni e l'apprendimento contestuale. Tuttavia, la creazione di dataset di addestramento adatti a domini specifici rimane una sfida a causa di vincoli unici del dominio e della scarsità di dati. In questo articolo, proponiamo SearchInstruct, un metodo innovativo progettato esplicitamente per costruire dataset di istruzioni di alta qualità per il SFT. Il nostro approccio inizia con un insieme limitato di domande specifiche del dominio generate da esseri umani, che vengono sistematicamente ampliate utilizzando un grande modello linguistico. Successivamente, risorse rilevanti per il dominio vengono recuperate dinamicamente per generare risposte accurate e contestualmente appropriate per ciascuna domanda ampliata. La valutazione sperimentale dimostra che SearchInstruct migliora sia la diversità che la qualità dei dataset SFT, portando a miglioramenti misurabili nelle prestazioni degli LLM all'interno di domini specializzati. Inoltre, mostriamo che, oltre alla generazione di dataset, il metodo proposto può anche facilitare efficacemente attività come la modifica del modello, consentendo aggiornamenti efficienti ai modelli esistenti. Per favorire la riproducibilità e l'adozione da parte della comunità, forniamo dettagli completi di implementazione, l'intero set di coppie istruzione-risposta generate e il codice sorgente in un repository Git accessibile pubblicamente: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct).
I modelli visione-linguaggio (VLMs) spesso elaborano gli input visivi attraverso un encoder visivo pre-addestrato, seguito da una proiezione nello spazio di embedding del modello linguistico tramite un componente connettore. Sebbene cruciale per la fusione delle modalità, la potenziale perdita di informazioni indotta da questo passaggio di proiezione e il suo impatto diretto sulle capacità del modello rimangono poco studiati. Introduciamo due approcci complementari per esaminare e quantificare questa perdita analizzando lo spazio delle rappresentazioni latenti. In primo luogo, valutiamo la preservazione delle informazioni semantiche analizzando i cambiamenti nelle relazioni di k-vicini più prossimi tra le rappresentazioni delle immagini, prima e dopo la proiezione. In secondo luogo, misuriamo direttamente la perdita di informazioni ricostruendo gli embedding visivi dalla rappresentazione proiettata, localizzando la perdita a livello di patch dell'immagine. Gli esperimenti rivelano che i connettori distorcono sostanzialmente la geometria locale delle rappresentazioni visive, con i k-vicini più prossimi che divergono del 40-60% dopo la proiezione, correlati con un degrado delle prestazioni di recupero. La ricostruzione degli embedding a livello di patch fornisce intuizioni interpretabili sul comportamento del modello nei compiti di risposta a domande basate su immagini, rilevando che le aree con elevata perdita di informazioni predicono in modo affidabile i casi in cui i modelli hanno difficoltà.
Tra i modelli generativi, i modelli di diffusione sono particolarmente interessanti grazie all'esistenza di un minimizzatore ottimale in forma chiusa per la loro funzione di addestramento, spesso indicato come il denoiser ottimale. Tuttavia, l'utilizzo di questo denoiser ottimale nella diffusione si limita a riprodurre le immagini presenti nel set di addestramento, fallendo quindi nel catturare il comportamento dei modelli di diffusione profondi. Recenti lavori hanno cercato di caratterizzare questo divario tra il denoiser ottimale e i modelli di diffusione profondi, proponendo modelli analitici, privi di addestramento, in grado di generare immagini simili a quelle prodotte da una UNet addestrata. Il metodo con le migliori prestazioni ipotizza che l'equivarianza rispetto alle traslazioni e i bias induttivi di località delle reti neurali convoluzionali siano la causa del divario di prestazioni, incorporando quindi queste assunzioni nel suo modello analitico. In questo lavoro, presentiamo prove che la località nei modelli di diffusione profondi emerge come una proprietà statistica del dataset di immagini, e non a causa del bias induttivo delle reti neurali convoluzionali. Nello specifico, dimostriamo che un denoiser lineare parametrico ottimale mostra proprietà di località simili a quelle dei denoiser neurali profondi. Inoltre, mostriamo sia teoricamente che sperimentalmente che questa località deriva direttamente dalle correlazioni tra pixel presenti nei dataset di immagini naturali. Infine, utilizziamo queste intuizioni per creare un denoiser analitico che si avvicina maggiormente ai punteggi previsti da un modello di diffusione profondo rispetto all'alternativa precedentemente proposta da esperti.
I lavori precedenti nell'apprendimento per rinforzo multi-obiettivo utilizzano tipicamente una scalarizzazione lineare delle ricompense con pesi fissi, che dimostrabilmente non riescono a catturare fronti di Pareto non convessi e producono quindi risultati subottimali. Questa limitazione diventa particolarmente critica nell'allineamento delle preferenze online per i modelli linguistici di grandi dimensioni. Qui, le traiettorie stocastiche generate da politiche parametrizzate creano mappature altamente non lineari e non convesse dai parametri agli obiettivi, per le quali nessuno schema di ponderazione statico può trovare compromessi ottimali. Affrontiamo questa limitazione introducendo una ponderazione dinamica delle ricompense, che adatta in modo adattivo i pesi delle ricompense durante il processo di apprendimento per rinforzo online. A differenza degli approcci esistenti che si basano su interpolazioni a pesi fissi, la nostra ponderazione dinamica bilancia e priorizza continuamente gli obiettivi durante l'addestramento, facilitando un'esplorazione efficace dei fronti di Pareto nello spazio degli obiettivi. Introduciamo due approcci di crescente sofisticazione e generalizzabilità: (1) adattamento dei pesi guidato dall'ipervolume e (2) ottimizzazione dei pesi basata su gradienti, offrendo un toolkit versatile per l'allineamento multi-obiettivo online. I nostri ampi esperimenti dimostrano la loro compatibilità con algoritmi di apprendimento per rinforzo online comunemente utilizzati (inclusi GRPO, REINFORCE e RLOO), l'efficacia su più dataset di ragionamento matematico e l'applicabilità a diverse famiglie di modelli, raggiungendo costantemente soluzioni Pareto dominanti con meno passi di addestramento rispetto alle baseline di scalarizzazione lineare a pesi fissi.
Le allucinazioni nei modelli linguistici multimodali di grandi dimensioni (MLLM) — in cui il modello genera contenuti inconsistenti rispetto all'immagine di input — rappresentano rischi significativi nelle applicazioni del mondo reale, dalla disinformazione nel rispondere a domande visive a errori pericolosi nel processo decisionale. Gli attuali benchmark testano principalmente l'accuratezza del riconoscimento, ovvero valutano se i modelli possono selezionare la risposta corretta tra le opzioni distrattive. Ciò trascura una capacità altrettanto critica per un'IA affidabile: riconoscere quando nessuna delle opzioni fornite è corretta, un comportamento che riflette l'umiltà epistemica. Presentiamo HumbleBench, un nuovo benchmark per le allucinazioni progettato per valutare la capacità degli MLLM di rifiutare risposte plausibili ma errate in tre tipi di allucinazioni: oggetti, relazioni e attributi. Costruito a partire da un dataset di grafi di scene panoptiche, sfruttiamo annotazioni dettagliate dei grafi di scene per estrarre entità e relazioni di riferimento, e utilizziamo GPT-4-Turbo per generare domande a scelta multipla, seguite da un rigoroso processo di filtraggio manuale. Ogni domanda include un'opzione "Nessuna delle precedenti", richiedendo ai modelli non solo di riconoscere le informazioni visive corrette, ma anche di identificare quando nessuna risposta fornita è valida. Valutiamo una varietà di MLLM all'avanguardia — inclusi modelli generalisti e specializzati nel ragionamento — su HumbleBench e condividiamo con la comunità risultati e intuizioni preziose. Incorporando il rifiuto esplicito di opzioni false, HumbleBench colma una lacuna fondamentale nei suite di valutazione attuali, fornendo una misura più realistica dell'affidabilità degli MLLM in contesti critici per la sicurezza. Il nostro codice e dataset sono rilasciati pubblicamente e possono essere consultati all'indirizzo https://github.com/maifoundations/HumbleBench.
La navigazione incarnata richiede agli agenti di integrare percezione, ragionamento e azione per un'interazione robusta in ambienti 3D complessi. Gli approcci esistenti spesso soffrono di tracce di ragionamento incoerenti e instabili che ostacolano la generalizzazione in ambienti diversi, e di difficoltà nel bilanciare il ragionamento semantico a lungo termine con il controllo a bassa latenza per la navigazione in tempo reale. Per affrontare queste sfide, proponiamo Nav-R1, un modello fondazionale incarnato che unifica il ragionamento in ambienti incarnati. Inizialmente costruiamo Nav-CoT-110K, un dataset su larga scala di Catene di Pensiero (CoT) passo-passo per task incarnati, che consente un'inizializzazione a freddo con ragionamento strutturato. Basandoci su questa fondazione, progettiamo un framework di apprendimento per rinforzo basato su GRPO con tre ricompense complementari: formato, comprensione e navigazione, per migliorare l'aderenza strutturale, il grounding semantico e la fedeltà del percorso. Inoltre, introduciamo un paradigma di ragionamento "Fast-in-Slow", che separa il ragionamento semantico deliberato dal controllo reattivo a bassa latenza per una navigazione efficiente ma coerente. Valutazioni estensive su benchmark di AI incarnata dimostrano che Nav-R1 supera costantemente i baseline forti, con un miglioramento medio superiore all'8% nelle prestazioni di ragionamento e navigazione. Il dispiegamento nel mondo reale su un robot mobile ne valida ulteriormente la robustezza con risorse di bordo limitate. Codice: https://github.com/AIGeeksGroup/Nav-R1. Sito web: https://aigeeksgroup.github.io/Nav-R1.
I recenti progressi nel ragionamento "a pensiero lento" basato esclusivamente sul testo hanno stimolato sforzi per trasferire questa capacità ai modelli visione-linguaggio (VLMs), al fine di addestrare modelli di ragionamento visivo (VRMs). Tuttavia, tale trasferimento affronta sfide critiche: un efficace "pensiero lento" nei VRMs richiede una riflessione visiva, ovvero la capacità di verificare il processo di ragionamento basandosi sulle informazioni visive. Attraverso un'analisi quantitativa, osserviamo che gli attuali VRMs mostrano una riflessione visiva limitata, poiché la loro attenzione alle informazioni visive diminuisce rapidamente con risposte generate più lunghe. Per affrontare questa sfida, proponiamo un nuovo VRM, Reflection-V, che migliora la riflessione visiva basandosi sulla costruzione di dati di ragionamento per l'avvio a freddo e sul design di ricompense per l'apprendimento per rinforzo (RL). In primo luogo, costruiamo dati di ragionamento centrati sulla visione sfruttando un agente che interagisce tra VLMs e modelli di ragionamento LLMs, consentendo l'apprendimento a freddo di schemi di riflessione visiva. In secondo luogo, durante l'RL viene impiegato un modello di ricompensa basato sull'attenzione visiva per incoraggiare il ragionamento basato sulle informazioni visive. Di conseguenza, Reflection-V dimostra miglioramenti significativi in molteplici benchmark di ragionamento visivo. Inoltre, Reflection-V mantiene una dipendenza più forte e coerente dalle informazioni visive durante il ragionamento visivo, indicando un potenziamento efficace delle capacità di riflessione visiva.
L'emergere di piattaforme di social media decentralizzati presenta nuove opportunità e sfide per l'analisi in tempo reale del discorso pubblico. Questo studio introduce CognitiveSky, un framework open-source e scalabile progettato per l'analisi del sentimento, delle emozioni e delle narrazioni su Bluesky, un'alternativa federata a Twitter o X.com. Attraverso l'acquisizione di dati tramite l'Application Programming Interface (API) di Bluesky, CognitiveSky applica modelli basati su trasformatori per annotare contenuti generati dagli utenti su larga scala e produce output strutturati e analizzabili. Questi riepiloghi alimentano un dashboard dinamico che visualizza i modelli in evoluzione delle emozioni, dell'attività e degli argomenti di conversazione. Costruito interamente su infrastrutture di livello gratuito, CognitiveSky raggiunge sia un basso costo operativo che un'elevata accessibilità. Sebbene qui dimostrato per il monitoraggio del discorso sulla salute mentale, il suo design modulare consente applicazioni in vari ambiti come il rilevamento della disinformazione, la risposta alle crisi e l'analisi del sentimento civico. Collegando modelli linguistici di grandi dimensioni con reti decentralizzate, CognitiveSky offre uno strumento trasparente ed estensibile per le scienze sociali computazionali in un'era di ecosistemi digitali in trasformazione.
Comprendere i tratti del comportamento umano è fondamentale per applicazioni nell'interazione uomo-computer, nelle scienze sociali computazionali e nei sistemi di intelligenza artificiale personalizzati. Tale comprensione spesso richiede l'integrazione di più modalità per catturare modelli e relazioni sfumati. Tuttavia, le risorse esistenti raramente forniscono dataset che combinano descrittori comportamentali con modalità complementari come attributi facciali e informazioni biografiche. Per colmare questa lacuna, presentiamo PersonaX, una raccolta curata di dataset multimodali progettati per consentire un'analisi completa dei tratti pubblici attraverso diverse modalità. PersonaX è composto da (1) CelebPersona, che include 9444 figure pubbliche provenienti da occupazioni diverse, e (2) AthlePersona, che copre 4181 atleti professionisti di 7 principali leghe sportive. Ogni dataset include valutazioni dei tratti comportamentali inferiti da tre modelli linguistici di grandi dimensioni ad alte prestazioni, insieme a immagini facciali e caratteristiche biografiche strutturate. Analizziamo PersonaX a due livelli complementari. In primo luogo, astraiamo punteggi di tratti di alto livello dalle descrizioni testuali e applichiamo cinque test di indipendenza statistica per esaminare le loro relazioni con altre modalità. In secondo luogo, introduciamo un nuovo framework di apprendimento della rappresentazione causale (CRL) adattato a dati multimodali e multi-misura, fornendo garanzie teoriche di identificabilità. Esperimenti su dati sia sintetici che reali dimostrano l'efficacia del nostro approccio. Unificando analisi strutturate e non strutturate, PersonaX stabilisce una base per studiare i tratti comportamentali inferiti dai modelli linguistici in congiunzione con attributi visivi e biografici, avanzando l'analisi multimodale dei tratti e il ragionamento causale.
I recenti progressi nei modelli video di grandi dimensioni (LVM) hanno significativamente migliorato la comprensione video. Tuttavia, questi modelli continuano a soffrire di allucinazioni, producendo contenuti in conflitto con i video di input. Per affrontare questo problema, proponiamo Dr.V, un framework gerarchico che copre livelli percettivi, temporali e cognitivi per diagnosticare le allucinazioni video attraverso un grounding spazio-temporale fine. Dr.V è composto da due componenti chiave: un dataset di riferimento, Dr.V-Bench, e un agente video satellite, Dr.V-Agent. Dr.V-Bench include 10k istanze tratte da 4.974 video che coprono diverse attività, ciascuna arricchita con annotazioni spazio-temporali dettagliate. Dr.V-Agent rileva le allucinazioni nei LVM applicando sistematicamente un grounding spazio-temporale fine a livello percettivo e temporale, seguito da un ragionamento a livello cognitivo. Questa pipeline passo-passo rispecchia la comprensione video simile a quella umana e identifica efficacemente le allucinazioni. Esperimenti estensivi dimostrano che Dr.V-Agent è efficace nel diagnosticare le allucinazioni, migliorando al contempo l'interpretabilità e l'affidabilità, offrendo una guida pratica per una robusta comprensione video in scenari reali. Tutti i nostri dati e il codice sono disponibili su https://github.com/Eurekaleo/Dr.V.
L'implementazione di modelli linguistici di grandi dimensioni (LLM) nel campo della salute mentale e in altri ambiti sensibili solleva questioni urgenti riguardanti il ragionamento etico, l'equità e l'allineamento responsabile. Tuttavia, i benchmark esistenti per la valutazione delle decisioni morali e cliniche non catturano adeguatamente i dilemmi etici unici incontrati nella pratica della salute mentale, dove riservatezza, autonomia, beneficenza e pregiudizio si intersecano frequentemente. Per colmare questa lacuna, introduciamo Ethical Reasoning in Mental Health (EthicsMH), un dataset pilota di 125 scenari progettati per valutare come i sistemi di IA affrontano situazioni eticamente caricate in contesti terapeutici e psichiatrici. Ogni scenario è arricchito con campi strutturati, tra cui opzioni decisionali multiple, ragionamenti allineati agli esperti, comportamento atteso del modello, impatto nel mondo reale e prospettive multi-stakeholder. Questa struttura consente la valutazione non solo dell'accuratezza delle decisioni, ma anche della qualità delle spiegazioni e dell'allineamento alle norme professionali. Sebbene di dimensioni modeste e sviluppato con generazione assistita da modelli, EthicsMH stabilisce un framework di attività che collega l'etica dell'IA e il processo decisionale in salute mentale. Rilasciando questo dataset, miriamo a fornire una risorsa iniziale che possa essere ampliata attraverso contributi della comunità e degli esperti, favorendo lo sviluppo di sistemi di IA in grado di gestire responsabilmente alcune delle decisioni più delicate della società.
I modelli di embedding specifici per dominio hanno dimostrato potenziale per applicazioni che richiedono una comprensione semantica specializzata, come agenti di programmazione e sistemi di recupero finanziario, spesso ottenendo miglioramenti prestazionali superiori rispetto ai modelli generali. Tuttavia, i modelli di embedding all'avanguardia sono tipicamente basati su LLM, che contengono miliardi di parametri, rendendo difficile il deployment in ambienti con risorse limitate. La compressione del modello attraverso il pruning offre una soluzione promettente, ma i metodi di pruning esistenti trattano tutti i parametri in modo uniforme, senza distinguere tra rappresentazioni semantiche generali e pattern specifici del dominio, portando a decisioni di pruning subottimali. Pertanto, proponiamo GAPrune, un framework di pruning che affronta questa sfida considerando sia l'importanza del dominio che la preservazione delle fondamenta linguistiche generali. Il nostro metodo utilizza l'Informazione di Fisher per misurare l'importanza e l'allineamento del gradiente nel dominio generale per valutare il comportamento dei parametri, quindi combina questi segnali utilizzando il nostro punteggio di Importanza di Allineamento del Dominio (DAI). Punteggi DAI più bassi indicano che il parametro è meno importante per il task di dominio o crea conflitti tra gli obiettivi di dominio e generali. Esperimenti su due benchmark di dominio, FinMTEB e ChemTEB, mostrano che GAPrune mantiene le prestazioni entro il 2,5% dei modelli densi in un pruning one-shot al 50% di sparsità, superando tutti i baseline. Con il retraining in 100 passi, GAPrune ottiene un miglioramento del +4,51% su FinMTEB e del +1,73% su ChemTEB, dimostrando che la nostra strategia di pruning non solo preserva ma migliora le capacità specifiche del dominio. I nostri risultati dimostrano che strategie di pruning basate su principi possono ottenere la compressione del modello e una specializzazione di dominio potenziata, fornendo alla comunità di ricerca un nuovo approccio per lo sviluppo.
I grandi modelli linguistici (LLM) compiono progressi significativi nell'Intelligenza Emotiva (IE) e nella comprensione di contesti lunghi. Tuttavia, i benchmark esistenti tendono a trascurare alcuni aspetti dell'IE in scenari di contesto lungo, specialmente in contesti realistici e pratici dove le interazioni sono prolungate, diversificate e spesso rumorose. Per avvicinarci a tali contesti realistici, presentiamo LongEmotion, un benchmark specificamente progettato per compiti di IE in contesti lunghi. Copre un insieme diversificato di compiti, tra cui Classificazione delle Emozioni, Rilevamento delle Emozioni, Domande e Risposte sulle Emozioni, Conversazione Emotiva, Riassunto Emotivo ed Espressione Emotiva. In media, la lunghezza dell'input per questi compiti raggiunge 8.777 token, con la generazione di testi lunghi richiesta per l'Espressione Emotiva. Per migliorare le prestazioni in condizioni realistiche, incorporiamo la Generazione Aumentata dal Recupero (RAG) e la Modellazione Emotiva Collaborativa (CoEM), e le confrontiamo con i metodi standard basati su prompt. A differenza degli approcci convenzionali, il nostro metodo RAG sfrutta sia il contesto della conversazione che il grande modello linguistico stesso come fonti di recupero, evitando la dipendenza da basi di conoscenza esterne. Il metodo CoEM migliora ulteriormente le prestazioni scomponendo il compito in cinque fasi, integrando sia l'aumentazione dal recupero che l'iniezione limitata di conoscenza. I risultati sperimentali mostrano che sia RAG che CoEM migliorano costantemente le prestazioni legate all'IE nella maggior parte dei compiti di contesto lungo, avvicinando i LLM a applicazioni di IE più pratiche e reali. Inoltre, abbiamo condotto uno studio comparativo sui modelli della serie GPT per evidenziare le differenze tra vari modelli in termini di IE. Il codice è disponibile su GitHub all'indirizzo https://github.com/LongEmotion/LongEmotion, e la pagina del progetto può essere trovata all'indirizzo https://longemotion.github.io/.