Articoli di ricerca IA selezionati quotidianamente con traduzioni
Contrastando il consenso prevalente secondo cui i modelli di piccole dimensioni sono intrinsecamente carenti di capacità di ragionamento robuste, questo rapporto introduce VibeThinker-1.5B, un modello denso da 1.5 miliardi di parametri sviluppato tramite il nostro Principio Spettro-Segnale (SSP). Ciò sfida l'approccio dominante di scalare i parametri del modello per potenziarne le capacità, come si osserva in modelli quali DeepSeek R1 (671B) e Kimi k2 (>1T). Il framework SSP impiega inizialmente una Distillazione Esplorativa della Diversità in Due Fasi (SFT) per generare un ampio spettro di soluzioni, seguita da un'Ottimizzazione della Politica Guidata dall'Entropia Massima (RL) per amplificare il segnale corretto. Con un costo totale di addestramento di soli 7.800 dollari, VibeThinker-1.5B dimostra capacità di ragionamento superiori rispetto a modelli closed-source come Magistral Medium e Claude Opus 4, e performa alla pari con modelli open-source come GPT OSS-20B Medium. Notevolmente, supera il ben 400 volte più grande DeepSeek R1 su tre benchmark matematici: AIME24 (80.3 vs. 79.8), AIME25 (74.4 vs. 70.0) e HMMT25 (50.4 vs. 41.7). Questo rappresenta un miglioramento sostanziale rispetto al suo modello base (rispettivamente 6.7, 4.3 e 0.6). Su LiveCodeBench V6, ottiene un punteggio di 51.1, superando il 50.3 di Magistral Medium e lo 0.0 del suo modello base. Questi risultati dimostrano che modelli di piccole dimensioni possono raggiungere capacità di ragionamento paragonabili a modelli di grandi dimensioni, riducendo drasticamente i costi di addestramento e inferenza e democratizzando così la ricerca avanzata in IA.
La creazione di agenti affidabili per l'uso del computer richiede il *grounding*: la capacità di collegare accuratamente le istruzioni in linguaggio naturale ai corretti elementi sullo schermo. Sebbene esistano grandi dataset per le interazioni web e mobili, le risorse di alta qualità per gli ambienti desktop sono limitate. Per colmare questa lacuna, presentiamo GroundCUA, un ampio dataset di *grounding* per desktop costruito a partire da dimostrazioni umane esperte. Esso copre 87 applicazioni in 12 categorie e include 56.000 screenshot, con ogni elemento sullo schermo accuratamente annotato per un totale di oltre 3,56 milioni di annotazioni verificate da esseri umani. Da queste dimostrazioni, generiamo istruzioni diversificate che catturano un'ampia gamma di compiti del mondo reale, fornendo dati di alta qualità per l'addestramento dei modelli. Utilizzando GroundCUA, sviluppiamo la famiglia di modelli GroundNext che mappano le istruzioni ai relativi elementi dell'interfaccia utente target. Sia nella versione da 3B che in quella da 7B di parametri, GroundNext ottiene risultati all'avanguardia su cinque benchmark utilizzando la messa a punto supervisionata, richiedendo meno di un decimo dei dati di addestramento rispetto ai lavori precedenti. L'addestramento successivo con rinforzo migliora ulteriormente le prestazioni e, quando valutato in un contesto agentico sul benchmark OSWorld utilizzando o3 come pianificatore, GroundNext raggiunge risultati comparabili o superiori a modelli addestrati con quantità di dati sostanzialmente maggiori. Questi risultati dimostrano il ruolo cruciale di dataset di alta qualità, guidati da esperti, nel far progredire gli agenti per l'uso del computer a scopo generale.
I grandi modelli linguistici (LLM) hanno dimostrato un notevole successo nei sistemi conversazionali generando risposte simili a quelle umane. Tuttavia, possono risultare carenti, specialmente quando è necessario tenere conto della personalizzazione o di conoscenze specifiche. In contesti reali, è impraticabile fare affidamento sugli utenti per rilevare questi errori e richiedere una nuova risposta. Un modo per affrontare questo problema è affinare la risposta prima di restituirla all'utente. Sebbene gli approcci esistenti si concentrino sul perfezionamento delle risposte all'interno di un singolo LLM, questo metodo fatica a considerare gli aspetti diversificati necessari per conversazioni efficaci. In questo lavoro, proponiamo di perfezionare le risposte attraverso un framework multi-agente, in cui a ciascun agente viene assegnato un ruolo specifico per ciascun aspetto. Ci concentriamo su tre aspetti chiave cruciali per la qualità conversazionale: fattualità, personalizzazione e coerenza. Ogni agente è responsabile di rivedere e perfezionare uno di questi aspetti, e il loro feedback viene poi unito per migliorare la risposta complessiva. Per potenziare la collaborazione tra di loro, introduciamo una strategia di comunicazione dinamica. Invece di seguire una sequenza fissa di agenti, il nostro approccio seleziona e coordina in modo adattivo gli agenti più rilevanti in base alle esigenze specifiche di ogni query. Convalidiamo il nostro framework su dataset conversazionali complessi, dimostrando che il nostro metodo supera significativamente i baseline di riferimento, in particolare nei compiti che coinvolgono la conoscenza o la persona dell'utente, o entrambi.
I modelli di diffusione mascherata hanno dimostrato risultati competitivi in varie attività, inclusa la generazione linguistica. Tuttavia, a causa del loro processo di raffinamento iterativo, l'inferenza è spesso limitata da una velocità di campionamento lenta e statica. Per superare questo problema, introduciamo il "KL-Adaptive Stability Sampling" (KLASS), un metodo di campionamento rapido ma efficace che sfrutta la divergenza KL a livello di token per identificare previsioni stabili e ad alta confidenza. Smascherando più token in ogni iterazione senza alcun addestramento aggiuntivo del modello, il nostro approccio accelera significativamente la generazione mantenendo la qualità del campione. Su benchmark di ragionamento, KLASS raggiunge accelerazioni temporali reali fino a 2,78 volte, migliorando le prestazioni rispetto alla decodifica greedy standard e ottenendo risultati allo stato dell'arte tra i campionatori basati su diffusione. Convalidiamo ulteriormente KLASS in diversi domini, inclusi la generazione di testo, immagini e molecole, dimostrandone l'efficacia come campionatore ampiamente applicabile su diversi modelli.
I modelli linguistici di grandi dimensioni hanno significativamente avanzato la traduzione automatica multilingue (MMT), ma l'ampia copertura linguistica, la qualità di traduzione coerente e la tendenza anglocentrica rimangono sfide aperte. Per affrontare queste sfide, introduciamo LMT, una suite di modelli di traduzione multilingue su larga scala incentrati sia sul cinese che sull'inglese, che copre 60 lingue e 234 direzioni di traduzione. Durante lo sviluppo, abbiamo identificato un fenomeno precedentemente trascurato di degenerazione direzionale, in cui i dati di fine-tuning multi-direzionale simmetrici enfatizzano eccessivamente le direzioni inverse (da X a En/Zh), portando a mappature eccessive many-to-one e a un degrado della qualità di traduzione. Proponiamo lo Strategic Downsampling, un metodo semplice ma efficace per mitigare questa degenerazione. Inoltre, progettiamo il Parallel Multilingual Prompting (PMP), che sfrutta lingue ausiliarie tipologicamente correlate per potenziare il trasferimento cross-linguistico. Attraverso una rigorosa cura dei dati e strategie di adattamento raffinate, LMT raggiunge prestazioni allo stato dell'arte tra i modelli con copertura linguistica comparabile, con il nostro modello da 4B (LMT-60-4B) che supera di ampio margine i modelli molto più grandi Aya-101-13B e NLLB-54B. Rilasciamo LMT in quattro dimensioni (0.6B/1.7B/4B/8B) per catalizzare la ricerca futura e fornire solide baseline per una MMT inclusiva, scalabile e di alta qualità \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) migliora in modo affidabile le prestazioni di ragionamento dei grandi modelli linguistici, eppure sembra modificare solo una piccola frazione dei parametri. Riconsideriamo questo paradosso e dimostriamo che la sparsità è un artefatto superficiale di un bias di ottimizzazione condizionato dal modello: per un modello preaddestrato fisso, gli aggiornamenti si localizzano in modo coerente in regioni di parametri preferite, altamente consistenti tra diverse esecuzioni e in gran parte invarianti rispetto ai dataset e alle ricette di RL. Spieghiamo meccanicamente queste dinamiche con una Teoria dei Tre Cancelli: il Cancello I (Ancora KL) impone un aggiornamento vincolato dalla KL; il Cancello II (Geometria del Modello) indirizza il passo lontano dalle direzioni principali verso sottospazi a bassa curvatura che preservano lo spettro; e il Cancello III (Precisione) nasconde micro-aggiornamenti nelle regioni non preferite, facendo apparire il bias off-principale come sparsità. Validiamo quindi questa teoria e, per la prima volta, forniamo una caratterizzazione a livello parametrico delle dinamiche di apprendimento del RLVR: il RLVR apprende lontano dalle direzioni principali nello spazio dei pesi, ottenendo guadagni attraverso una deriva spettrale minima, una ridotta rotazione del sottospazio principale e un allineamento degli aggiornamenti off-principali. Al contrario, il Fine-Tuning Supervisionato (SFT) mira ai pesi principali, distorce lo spettro e persino rimane indietro rispetto al RLVR. Insieme, questi risultati forniscono la prima descrizione nello spazio dei parametri delle dinamiche di addestramento del RLVR, rivelando chiare regolarità nell'evoluzione dei parametri. Crucialmente, dimostriamo che l'RL opera in un regime di ottimizzazione distinto dall'SFT, quindi adattare direttamente i metodi di fine-tuning efficiente nei parametri (PEFT) dell'era SFT può essere fallace, come evidenziato dai nostri casi di studio sul fine-tuning sparso avanzato e sulle varianti LoRA. Speriamo che questo lavoro tracci un percorso verso una comprensione in white-box del RLVR e verso la progettazione di algoritmi di apprendimento nativi per il RLVR e consapevoli della geometria, piuttosto che il riutilizzo di euristiche dell'era SFT.
Le prestazioni dei grandi modelli linguistici (LLM) e dei grandi modelli multimodali (LMM) dipendono fortemente dalla qualità e dalla scala dei loro dataset di pre-addestramento. Ricerche recenti dimostrano che i grandi modelli multimodali addestrati su documenti naturali in cui immagini e testo sono intercalati superano quelli addestrati esclusivamente su coppie immagine-testo in un'ampia gamma di benchmark, sfruttando modelli pre-addestrati avanzati per rafforzare l'allineamento semantico, la coerenza sequenza-immagine e la coerenza testuale. Per l'arabo, tuttavia, la carenza di dataset multimodali di alta qualità che preservino la struttura del documento ha limitato i progressi. In questo articolo, presentiamo la nostra pipeline Wasm per elaborare il dataset Common Crawl al fine di creare un nuovo dataset multimodale per l'arabo che fornisce in modo univoco un output in markdown. A differenza dei corpora arabi esistenti che si concentrano esclusivamente sull'estrazione del testo, il nostro approccio preserva l'integrità strutturale dei contenuti web mantenendo al contempo flessibilità per scenari di pre-addestramento sia solo testuali che multimodali. Forniamo un'analisi comparativa completa della nostra pipeline di elaborazione dei dati rispetto a quelle utilizzate per i principali dataset esistenti, evidenziando le convergenze nelle strategie di filtraggio e giustificando le nostre specifiche scelte progettuali. Per supportare la ricerca futura, rendiamo pubblicamente disponibile un dump rappresentativo del dataset insieme alla pipeline di elaborazione multimodale per l'arabo.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha notevolmente potenziato le capacità di comprensione video dei Modelli Linguistici Multimodali di Grande Dimensione (MLLM). Tuttavia, il rapido progresso degli MLLM sta superando la complessità dei dataset video esistenti, mentre l'annotazione manuale di nuovi dati di alta qualità rimane proibitivamente costosa. Questo lavoro indaga una questione cruciale: le ricche informazioni intrinseche presenti nei video possono essere sfruttate per auto-generare dati di addestramento di alta qualità e verificabili? Per esplorare questa possibilità, introduciamo tre task di pre-testo auto-supervisionati: Anomaly Grounding, Object Counting e Temporal Jigsaw. Costruiamo il Benchmark di Comprensione Intrinseca Video (VIUBench) per verificarne la difficoltà, rivelando che gli attuali MLLM all'avanguardia mostrano notevoli difficoltà in questi compiti. Sulla base di questi task di pre-testo, sviluppiamo il dataset VideoSSR-30K e proponiamo VideoSSR, un innovativo framework di reinforcement learning auto-supervisionato per video applicato all'RLVR. Esperimenti estesi su 17 benchmark, che coprono quattro principali domini video (QA Video Generale, QA Video Lungo, Temporal Grounding e Ragionamento Complesso), dimostrano che VideoSSR migliora costantemente le prestazioni del modello, producendo un miglioramento medio superiore al 5%. Questi risultati stabiliscono VideoSSR come un potente framework fondamentale per lo sviluppo di capacità di comprensione video più avanzate negli MLLM. Il codice è disponibile all'indirizzo https://github.com/lcqysl/VideoSSR.
I Modelli Linguistici di Grande Dimensione (LLM) affrontano sfide fondamentali nel ragionamento su contesti lunghi: molti documenti superano le loro finestre di contesto finite, mentre le prestazioni su testi che vi rientrano si degradano all'aumentare della lunghezza della sequenza, rendendo necessaria la loro integrazione con framework di memoria esterna. Le soluzioni attuali, evolutesi dal retrieval tramite embedding semantici a rappresentazioni più sofisticate basate su grafi di conoscenza strutturati per migliorare la costruzione del senso e l'associatività, sono concepite per un retrieval basato su fatti e non riescono a costruire le rappresentazioni narrative ancorate spazio-temporalmente necessarie per tracciare entità attraverso eventi episodici. Per colmare questa lacuna, proponiamo il Generative Semantic Workspace (GSW), un framework di memoria generativa di ispirazione neurale che costruisce rappresentazioni strutturate e interpretabili di situazioni in evoluzione, consentendo agli LLM di ragionare su ruoli, azioni e contesti spaziotemporali dinamici. Il nostro framework comprende un Operatore, che mappa le osservazioni in ingresso su strutture semantiche intermedie, e un Riconciliatore, che le integra in uno workspace persistente che garantisce coerenza temporale, spaziale e logica. Sull'Episodic Memory Benchmark (EpBench) huet_episodic_2025, che comprende corpus di lunghezza compresa tra 100k e 1M di token, GSW supera le baseline esistenti basate su RAG fino al 20%. Inoltre, GSW è altamente efficiente, riducendo i token di contesto al momento della query del 51% rispetto alla baseline più efficiente in termini di token successiva, riducendo notevolmente i costi di tempo di inferenza. Più in generale, GSW offre un progetto concreto per dotare gli LLM di una memoria episodica simile a quella umana, aprendo la strada a agenti più capaci di ragionare su orizzonti temporali lunghi.
Le query per i modelli linguistici di grandi dimensioni (LLM) vengono prevalentemente elaborate da modelli all'avanguardia all'interno di infrastrutture cloud centralizzate. La domanda in rapida crescita mette a dura prova questo paradigma, e i provider cloud faticano a scalare le infrastrutture allo stesso ritmo. Due progressi ci permettono di ripensare questo paradigma: i modelli linguistici piccoli (<=20 miliardi di parametri attivi) raggiungono ora prestazioni competitive rispetto ai modelli all'avanguardia in molte attività, e gli acceleratori locali (ad esempio, Apple M4 Max) eseguono questi modelli con latenze interattive. Ciò solleva la questione: l'inferenza locale può redistribuire efficacemente la domanda dall'infrastruttura centralizzata? Per rispondere è necessario misurare se i modelli linguistici locali possono rispondere accuratamente a query del mondo reale e se possono farlo in modo sufficientemente efficiente da essere pratici su dispositivi con vincoli di potenza (ad esempio, laptop). Proponiamo l'intelligenza per watt (IPW, Intelligence Per Watt), ovvero l'accuratezza sul task divisa per unità di potenza, come metrica per valutare capacità ed efficienza dell'inferenza locale attraverso coppie modello-acceleratore. Conduciamo uno studio empirico su larga scala che coinvolge oltre 20 modelli linguistici locali all'avanguardia, 8 acceleratori e un sottoinsieme rappresentativo del traffico LLM: 1 milione di query reali di chat a turno singolo e di ragionamento. Per ogni query, misuriamo accuratezza, energia, latenza e potenza. La nostra analisi rivela 3 risultati. Primo, i modelli linguistici locali possono rispondere accuratamente all'88,7% delle query di chat a turno singolo e di ragionamento, con un'accuratezza che varia a seconda del dominio. Secondo, dal 2023 al 2025, l'IPW è migliorato di 5,3 volte e la copertura delle query locali è aumentata dal 23,2% al 71,3%. Terzo, gli acceleratori locali raggiungono un IPW almeno 1,4 volte inferiore rispetto agli acceleratori cloud che eseguono modelli identici, rivelando un margine di ottimizzazione significativo. Questi risultati dimostrano che l'inferenza locale può redistribuire in modo significativo la domanda dall'infrastruttura centralizzata, con l'IPW che funge da metrica critica per monitorare questa transizione. Rilasciamo il nostro sistema di profilazione IPW per un benchmarking sistematico dell'intelligenza per watt.
Nei moderni sistemi decisionali sequenziali, la costruzione di uno spazio di azioni candidate ottimale è fondamentale per un'inferenza efficiente. Tuttavia, gli approcci esistenti si basano su spazi d'azione definiti manualmente che mancano di scalabilità, oppure utilizzano spazi non strutturati che rendono la ricerca esaustiva computazionalmente proibitiva. In questo articolo, proponiamo un nuovo framework denominato DynaAct per costruire automaticamente uno spazio d'azione compatto al fine di potenziare il ragionamento sequenziale in scenari complessi di problem-solving. Il nostro metodo stima inizialmente un proxy per lo spazio d'azione completo estraendo schemi generali osservati in un corpus che copre problemi di ragionamento complesso e diversificati, utilizzando modelli linguistici di grandi dimensioni. Successivamente, formuliamo una funzione submodulare che valuta congiuntamente le azioni candidate in base alla loro utilità per lo stato corrente e alla loro diversità, e impieghiamo un algoritmo greedy per selezionare un insieme candidato ottimale. Esperimenti estesi su sei benchmark standard diversificati dimostrano che il nostro approccio migliora significativamente le prestazioni complessive, mantenendo al contempo un'inferenza efficiente senza introdurre una latenza sostanziale. L'implementazione è disponibile all'indirizzo https://github.com/zhaoxlpku/DynaAct.
Contesto: I Large Language Model sono emersi con il potenziale di innescare una rivoluzione nello sviluppo software (ad esempio, automatizzando i processi, trasformando la forza lavoro). Sebbene gli studi abbiano iniziato a indagare l'impatto percepito degli LLM per lo sviluppo software, è necessario condurre studi empirici per comprendere come bilanciare gli effetti positivi e negativi del loro utilizzo. Obiettivo: Abbiamo studiato come gli LLM impattano lo sviluppo software e come gestire tale impatto dalla prospettiva di uno sviluppatore software. Metodo: Abbiamo condotto 22 interviste con professionisti del software attraverso 3 round di raccolta e analisi dei dati, tra ottobre (2024) e settembre (2025). Abbiamo utilizzato la Grounded Theory socio-tecnica (STGT) per l'analisi dei dati, al fine di analizzare rigorosamente le risposte dei partecipanti alle interviste. Risultati: Abbiamo identificato i vantaggi (ad esempio, mantenere il flusso di sviluppo software, migliorare il modello mentale degli sviluppatori e favorire l'imprenditorialità) e gli svantaggi (ad esempio, l'impatto negativo sulla personalità degli sviluppatori e il danno alla loro reputazione) dell'uso degli LLM a livello individuale, di team, organizzativo e sociale; nonché le migliori pratiche su come adottare gli LLM. Conclusione: In modo cruciale, presentiamo i compromessi che i professionisti, i team e le organizzazioni software affrontano lavorando con gli LLM. I nostri risultati sono particolarmente utili per i leader dei team software e i responsabili IT per valutare la fattibilità degli LLM nel loro specifico contesto.
L'allineamento ha notevolmente migliorato la qualità dell'output dei grandi modelli linguistici (LLM) a scapito della diversità, producendo output molto simili tra diverse generazioni. Proponiamo Base-Aligned Model Collaboration (BACo), un framework di collaborazione tra modelli a livello di token durante l'inferenza, che combina dinamicamente un LLM base con la sua controparte allineata per ottimizzare diversità e qualità. Ispirato da lavori precedenti (Fei et al., 2025), BACo impiega strategie di instradamento che determinano, per ogni token, da quale modello effettuare il decoding, basandosi sull'incertezza della predizione del token successivo e sul ruolo semantico dei contenuti previsti. I metodi precedenti per promuovere la diversità, come il re-training, il prompt engineering e i metodi di multi-campionamento, migliorano la diversità ma spesso degradano la qualità o richiedono decoding o post-training costosi. Al contrario, BACo raggiunge sia un'alta diversità che un'alta qualità in modo post hoc in un singolo passaggio, offrendo al contempo una forte controllabilità. Esploriamo una famiglia di strategie di instradamento attraverso tre task di generazione open-ended e 13 metriche che coprono diversità e qualità; BACo supera costantemente i baseline state-of-the-art applicati durante l'inferenza. Con la nostra migliore strategia di instradamento, BACo raggiunge un miglioramento congiunto del 21.3% in diversità e qualità. Le valutazioni umane rispecchiano anch'esse questi miglioramenti. I risultati suggeriscono che la collaborazione tra modelli base e modelli allineati possa ottimizzare e controllare diversità e qualità.
La ricerca temporale mira a identificare un insieme minimo di frame rilevanti da decine di migliaia in base a una query data, fungendo da fondamento per una comprensione accurata di video di lunga durata. I lavori esistenti tentano di restringere progressivamente lo spazio di ricerca. Tuttavia, questi approcci si basano tipicamente su un processo di ricerca manualmente progettato, carente di un'ottimizzazione end-to-end per apprendere strategie di ricerca ottimali. In questo articolo, proponiamo TimeSearch-R, che riformula la ricerca temporale come un ragionamento intervallato testo-video, integrando perfettamente la ricerca di clip video nel processo di ragionamento attraverso l'apprendimento per rinforzo (RL). Tuttavia, l'applicazione di metodi di addestramento RL, come Group Relative Policy Optimization (GRPO), al ragionamento video può risultare in decisioni di ricerca intermedie non supervisionate. Ciò porta a un'esplorazione insufficiente del contenuto video e a un ragionamento logico incoerente. Per affrontare questi problemi, introduciamo GRPO con Autoverifica di Completezza (GRPO-CSV), che raccoglie i frame video cercati dal processo di ragionamento intervallato e utilizza lo stesso modello di politica per verificare l'adeguatezza dei frame cercati, migliorando così la completezza del ragionamento video. Inoltre, costruiamo dataset specificamente progettati per il cold-start SFT e l'addestramento RL di GRPO-CSV, filtrando campioni con deboli dipendenze temporali per aumentare la difficoltà del compito e migliorare le capacità di ricerca temporale. Esperimenti estensivi dimostrano che TimeSearch-R raggiunge miglioramenti significativi su benchmark di ricerca temporale come Haystack-LVBench e Haystack-Ego4D, nonché su benchmark di comprensione di video lunghi come VideoMME e MLVU. Degno di nota, TimeSearch-R stabilisce un nuovo stato dell'arte su LongVideoBench con un miglioramento del 4,1% rispetto al modello base Qwen2.5-VL e del 2,0% rispetto all'avanzato modello di ragionamento video Video-R1. Il nostro codice è disponibile all'indirizzo https://github.com/Time-Search/TimeSearch-R.
I negativi difficili sono essenziali per addestrare modelli di retrieval efficaci. La selezione di negativi difficili si basa tipicamente sul ranking dei documenti utilizzando cross-encoder o modelli di embedding statici basati su metriche di similarità come la distanza coseno. La selezione di negativi difficili diventa impegnativa per i domini biomedici e scientifici a causa della difficoltà nel distinguere tra i documenti sorgente e quelli negativi difficili. Tuttavia, i documenti citati condividono naturalmente una rilevanza contestuale con il documento sorgente senza esserne duplicati, rendendoli ideali come negativi difficili. In questo lavoro, proponiamo BiCA: Biomedical Dense Retrieval with Citation-Aware Hard Negatives, un approccio per la selezione di negativi difficili che sfrutta i link citazionali in 20.000 articoli PubMed per migliorare un dense retriever piccolo e specifico per il dominio. Addestriamo i modelli GTE_small e GTE_Base utilizzando questi negativi informati dalle citazioni e osserviamo miglioramenti consistenti nel dense retrieval zero-shot utilizzando nDCG@10 sia per task in-dominio che out-of-dominio su BEIR, superando le baseline su argomenti a coda lunga in LoTTE utilizzando Success@5. I nostri risultati evidenziano il potenziale dello sfruttamento della struttura dei link documentali per generare negativi altamente informativi, consentendo prestazioni allo stato dell'arte con un fine-tuning minimo e dimostrando una strada verso un adattamento di dominio altamente efficiente in termini di dati.