Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il fine-tuning supervisionato (SFT) svolge un ruolo cruciale nell'adattamento dei grandi modelli linguistici (LLM) a specifici domini o compiti. Tuttavia, come dimostrato da esperimenti empirici, i dati raccolti contengono inevitabilmente rumore nelle applicazioni pratiche, il che pone significativi ostacoli alle prestazioni del modello nei compiti successivi. Pertanto, c'è un urgente bisogno di un framework SFT robusto al rumore per potenziare le capacità del modello nei compiti successivi. Per affrontare questa sfida, introduciamo un framework SFT robusto (RobustFT) che esegue rilevamento del rumore e rietichettatura sui dati dei compiti successivi. Per l'identificazione del rumore, il nostro approccio impiega un sistema collaborativo multi-esperto con modelli potenziati dall'inferenza per ottenere un rilevamento del rumore superiore. Nella fase di denoising, utilizziamo una strategia potenziata dal contesto, che incorpora le conoscenze più rilevanti e sicure seguite da una valutazione attenta per generare annotazioni affidabili. Inoltre, introduciamo un efficace meccanismo di selezione dei dati basato sull'entropia di risposta, garantendo che siano conservati solo campioni di alta qualità per il fine-tuning. Estesi esperimenti condotti su diversi LLM su cinque set di dati dimostrano le eccezionali prestazioni di RobustFT in scenari rumorosi.
Nell'assenza di dati estensivi annotati da umani per compiti di ragionamento complessi, l'auto-miglioramento - dove i modelli vengono addestrati sui propri output - è emerso come metodo principale per migliorare le prestazioni. Tuttavia, i fattori critici alla base del meccanismo di questi metodi iterativi di auto-miglioramento rimangono scarsamente compresi, come ad esempio in quali condizioni l'auto-miglioramento è efficace e quali sono i colli di bottiglia nelle iterazioni attuali. In questo lavoro, identifichiamo e proponiamo metodi per monitorare due fattori cruciali in questo processo iterativo: (1) la capacità del modello di generare risposte sufficientemente diverse (esplorazione); e (2) l'efficacia delle ricompense esterne nel distinguere candidati di alta qualità da quelli di bassa qualità (sfruttamento). Utilizzando il ragionamento matematico come caso di studio, iniziamo con un'analisi quantitativa per tracciare la dinamica dell'esplorazione e dello sfruttamento, scoprendo che le capacità esplorative di un modello si deteriorano rapidamente nel corso delle iterazioni, così come diminuisce l'efficacia dello sfruttamento delle ricompense esterne. Motivati da questi risultati, introduciamo B-STaR, un framework di Ragionamento Autodidatta che regola autonomamente le configurazioni attraverso le iterazioni per Bilanciare l'esplorazione e lo sfruttamento, ottimizzando così l'efficacia dell'auto-miglioramento in base al modello di politica attuale e alle ricompense disponibili. I nostri esperimenti sul ragionamento matematico, sulla codifica e sul ragionamento di buon senso dimostrano che B-STaR non solo potenzia le capacità esplorative del modello durante tutto l'addestramento, ma raggiunge anche un bilanciamento più efficace tra esplorazione e sfruttamento, portando a prestazioni superiori.
La capacità di ragionamento è essenziale per i Grandi Modelli Multimodali (LMMs). In assenza di dati annotati con catene di pensiero multimodali, l'addestramento auto-evolutivo, in cui il modello impara dai propri output, è emerso come un approccio efficace e scalabile per potenziare le capacità di ragionamento. Nonostante il crescente utilizzo, la comprensione esaustiva dell'addestramento auto-evolutivo, in particolare nel contesto del ragionamento multimodale, rimane limitata. In questo articolo, approfondiamo le complessità dell'addestramento auto-evolutivo per il ragionamento multimodale, individuando tre fattori chiave: Metodo di Addestramento, Modello di Ricompensa e Variazione della Richiesta. Esaminiamo sistematicamente ciascun fattore ed esploriamo come varie configurazioni influenzino l'efficacia dell'addestramento. La nostra analisi porta a un insieme di migliori pratiche per ciascun fattore, mirate all'ottimizzazione del ragionamento multimodale. Inoltre, esploriamo le Dinamiche di Auto-Evoluzione durante l'addestramento e l'impatto dei meccanismi automatici di bilanciamento nel potenziare le prestazioni. Dopo tutte le indagini, presentiamo una ricetta finale per l'addestramento auto-evolutivo nel ragionamento multimodale, racchiudendo queste scelte progettuali in un framework che chiamiamo MSTaR (Addestramento Multimodale Auto-evolutivo per il Ragionamento), che è universalmente efficace per modelli di diverse dimensioni su vari benchmark, ad esempio superando significativamente il modello pre-evoluto su 5 benchmark di ragionamento multimodale senza utilizzare annotazioni umane aggiuntive, come dimostrato su MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) e InternVL2 (2B). Riteniamo che questo studio colmi una significativa lacuna nella comprensione dell'addestramento auto-evolutivo per il ragionamento multimodale e offra un framework robusto per la ricerca futura. I nostri modelli di politica e ricompensa, così come i dati raccolti, sono resi disponibili per facilitare ulteriori indagini nel ragionamento multimodale.
I modelli autoregressivi (AR) hanno raggiunto prestazioni all'avanguardia nella generazione di testo e immagini, ma soffrono di una generazione lenta a causa del processo token-per-token. Ci poniamo una domanda ambiziosa: un modello AR pre-addestrato può essere adattato per generare output in soli uno o due passaggi? In caso di successo, ciò farebbe avanzare significativamente lo sviluppo e il dispiegamento dei modelli AR. Notiamo che i lavori esistenti che cercano di accelerare la generazione AR generando più token contemporaneamente fondamentalmente non riescono a catturare la distribuzione dell'output a causa delle dipendenze condizionali tra i token, limitando la loro efficacia per la generazione a pochi passaggi. Per affrontare questo problema, proponiamo il Decodifica Distillata (DD), che utilizza il matching di flusso per creare un mapping deterministico dalla distribuzione gaussiana alla distribuzione dell'output del modello AR pre-addestrato. Successivamente addestriamo una rete a distillare questo mapping, consentendo la generazione a pochi passaggi. DD non richiede i dati di addestramento del modello AR originale, rendendolo più pratico. Valutiamo DD sui modelli AR di immagini all'avanguardia e presentiamo risultati promettenti su ImageNet-256. Per VAR, che richiede una generazione a 10 passaggi, DD consente la generazione in un passaggio (aumento della velocità di 6,3 volte), con un aumento accettabile di FID da 4,19 a 9,96. Per LlamaGen, DD riduce la generazione da 256 passaggi a 1, ottenendo un aumento della velocità di 217,8 volte con un aumento FID comparabile da 4,11 a 11,35. In entrambi i casi, i metodi di base falliscono completamente con FID>100. DD eccelle anche nella generazione testo-immagine, riducendo la generazione da 256 passaggi a 2 per LlamaGen con un aumento minimo di FID da 25,70 a 28,95. Essendo il primo lavoro a dimostrare la possibilità di generazione in un passaggio per i modelli AR di immagini, DD sfida l'idea predominante che i modelli AR siano intrinsecamente lenti e apre nuove opportunità per una generazione AR efficiente. Il sito web del progetto è disponibile su https://imagination-research.github.io/distilled-decoding.
La serie di modelli o1 è addestrata con apprendimento per rinforzo su larga scala per ragionare utilizzando una catena di pensiero. Queste avanzate capacità di ragionamento offrono nuove strade per migliorare la sicurezza e la robustezza dei nostri modelli. In particolare, i nostri modelli possono ragionare sulle nostre politiche di sicurezza nel contesto in cui rispondono a richieste potenzialmente non sicure, attraverso un allineamento deliberativo. Ciò porta a prestazioni all'avanguardia su determinati benchmark per rischi come la generazione di consigli illeciti, la scelta di risposte stereotipate e la cedimento a noti jailbreak. Addestrare i modelli a incorporare una catena di pensiero prima di rispondere ha il potenziale per sbloccare benefici sostanziali, aumentando allo stesso tempo i rischi potenziali derivanti dall'intelligenza più elevata. I nostri risultati sottolineano la necessità di costruire metodi di allineamento robusti, testarne ampiamente l'efficacia e mantenere protocolli di gestione del rischio meticolosi. Questo rapporto illustra il lavoro sulla sicurezza svolto per i modelli OpenAI o1 e OpenAI o1-mini, comprese valutazioni di sicurezza, test esterni di red teaming e valutazioni del Framework di Preparazione.
Le tecniche che consentono ai grandi modelli linguistici (LLM) di "pensare di più" generando e prestando attenzione a passaggi intermedi di ragionamento hanno mostrato promesse nella risoluzione di problemi complessi. Tuttavia, gli approcci standard generano sequenze di token discreti immediatamente prima di rispondere, e quindi possono comportare costi di latenza significativi e essere difficili da ottimizzare. In questo lavoro, dimostriamo che un LLM congelato può essere potenziato con un coprocessore offline che opera sulla cache chiave-valore (kv) del modello. Questo coprocessore potenzia la cache con un insieme di embedding latenti progettati per migliorare la fedeltà della decodifica successiva. Alleniamo questo coprocessore utilizzando la perdita di modellazione del linguaggio dal decodificatore su dati standard di preaddestramento, mantenendo il decodificatore stesso congelato. Questo approccio consente al modello di imparare, in modo differenziabile end-to-end, come distillare ulteriori calcoli nella sua kv-cache. Poiché il decodificatore rimane invariato, il coprocessore può operare offline e in modo asincrono, e il modello linguistico può funzionare normalmente se il coprocessore non è disponibile o se una determinata cache non richiede calcoli aggiuntivi. Mostriamo sperimentalmente che quando una cache è potenziata, il decodificatore raggiunge una minore perplessità su numerosi token successivi. Inoltre, anche senza alcun addestramento specifico per compiti, i nostri esperimenti dimostrano che l'aumento della cache riduce costantemente la perplessità e migliora le prestazioni in una serie di compiti intensivi di ragionamento.
L'apprendimento in contesto (ICL) è una tecnica mediante la quale i modelli linguistici effettuano previsioni basate sugli esempi forniti nel loro contesto di input. In precedenza, le dimensioni della finestra di contesto imponevano un limite al numero di esempi che potevano essere mostrati, rendendo cruciali le tecniche di selezione degli esempi per identificare il set di esempi massimalmente efficace. Tuttavia, il recente sviluppo dei Modelli Linguistici a Lungo Contesto (LCLMs) ha aumentato significativamente il numero di esempi che possono essere inclusi nel contesto, sollevando un'importante questione su se le prestazioni dell'ICL in un regime many-shot siano ancora sensibili al metodo di selezione del campione. Per rispondere a ciò, esaminiamo nuovamente questi approcci nel contesto dei LCLMs attraverso ampi esperimenti su 18 set di dati che coprono 4 compiti. Sorprendentemente, osserviamo che le sofisticate tecniche di selezione degli esempi non portano a miglioramenti significativi rispetto a un semplice metodo di selezione casuale del campione. Invece, scopriamo che l'avvento dei LCLMs ha spostato fondamentalmente la sfida dell'ICL dal selezionare gli esempi più efficaci a raccogliere abbastanza esempi per riempire la finestra di contesto. In particolare, in alcuni set di dati, includere tutti gli esempi disponibili non sfrutta appieno la finestra di contesto; tuttavia, aggiungendo gli esempi nel contesto con un semplice approccio di aumento dei dati, miglioriamo sostanzialmente le prestazioni dell'ICL del 5%.
Apprendere un robusto Variational Autoencoder (VAE) video è essenziale per ridurre la ridondanza dei video e facilitare la generazione efficiente di video. Applicare direttamente i VAE delle immagini ai singoli frame in modo isolato può portare a inconsistenze temporali e a tassi di compressione subottimali a causa di una mancanza di compressione temporale. I VAE video esistenti hanno iniziato ad affrontare la compressione temporale; tuttavia, spesso soffrono di una prestazione di ricostruzione inadeguata. In questo articolo, presentiamo un autoencoder video innovativo e potente in grado di codificare video ad alta fedeltà. In primo luogo, osserviamo che intrecciare la compressione spaziale e temporale semplicemente estendendo il VAE delle immagini a un VAE 3D può introdurre sfocature da movimento e artefatti di distorsione dei dettagli. Pertanto, proponiamo una compressione spaziale consapevole del tempo per codificare e decodificare meglio le informazioni spaziali. Inoltre, integriamo un modello di compressione del movimento leggero per una ulteriore compressione temporale. In secondo luogo, proponiamo di sfruttare le informazioni testuali intrinseche nei dataset testo-video e incorporare la guida testuale nel nostro modello. Questo migliora significativamente la qualità della ricostruzione, in particolare per quanto riguarda la conservazione dei dettagli e la stabilità temporale. In terzo luogo, miglioriamo ulteriormente la versatilità del nostro modello attraverso un addestramento congiunto su immagini e video, che non solo migliora la qualità della ricostruzione ma consente anche al modello di eseguire sia la codifica automatica delle immagini che dei video. Valutazioni approfondite rispetto a basi recenti e solide dimostrano le prestazioni superiori del nostro metodo. Il sito web del progetto può essere trovato su https://yzxing87.github.io/vae/.
Di recente, modelli simili a O1 sono emersi come esempi rappresentativi, dimostrando l'efficacia di lunghe catene di pensiero (CoT) in compiti di ragionamento come quelli matematici e di codifica. In questo articolo, presentiamo DRT-o1, un tentativo di portare il successo del lungo CoT alla traduzione automatica neurale (MT). In particolare, considerando i libri di letteratura che potrebbero contenere similitudini e metafore, tradurre questi testi in una lingua di destinazione è molto difficile in pratica a causa delle differenze culturali. In tali casi, la traduzione letterale spesso non riesce a trasmettere efficacemente il significato inteso. Anche per traduttori umani professionisti, è necessario dedicare notevole attenzione a preservare la semantica durante l'intero processo di traduzione. Per simulare la capacità di lungo pensiero dei LLMs nella MT, prima estraiamo frasi contenenti similitudini o metafore da libri di letteratura esistenti, e poi sviluppiamo un framework multi-agente per tradurre queste frasi tramite lungo pensiero. Nel framework multi-agente, un traduttore viene utilizzato per tradurre in modo iterativo la frase di origine sotto suggerimenti forniti da un consulente. Per garantire l'efficacia dei lunghi pensieri, viene impiegato anche un valutatore per giudicare se la traduzione nel round corrente è migliore della precedente o meno. In questo modo, raccogliamo decine di migliaia di dati di MT a lungo pensiero, che vengono utilizzati per addestrare il nostro DRT-o1. I risultati sperimentali sulla traduzione letteraria dimostrano l'efficacia del DRT-o1. Utilizzando Qwen2.5-7B e Qwen2.5-14B come supporti, il miglioramento apportato da DRT-o1 raggiunge un BLEU di 7.33~8.26 e un CometScore di 1.66~3.36. Inoltre, DRT-o1-7B può superare QwQ-32B-Preview di 7.82 punti BLEU e 1.46 CometScore, dimostrandone l'efficacia. Il progetto è disponibile su https://github.com/krystalan/DRT-o1.
Gli attuali sistemi AI generativi sono ottimizzati per presentare informazioni per impostazione predefinita anziché coinvolgere gli utenti a fini di apprendimento come farebbe un tutor umano. Per affrontare la vasta gamma di possibili casi d'uso educativi per questi sistemi, riformuliamo la sfida dell'inserimento di comportamenti pedagogici come un'istruzione pedagogica successiva, in cui gli esempi di addestramento e valutazione includono istruzioni a livello di sistema che descrivono gli attributi pedagogici specifici presenti o desiderati nei successivi passaggi del modello. Questa formulazione evita di vincolare i nostri modelli a una particolare definizione di pedagogia e consente invece agli insegnanti o agli sviluppatori di specificare il comportamento del modello desiderato. Ciò apre anche la strada al miglioramento dei modelli Gemini per l'apprendimento, consentendo l'aggiunta dei nostri dati pedagogici alle miscele post-addestramento, insieme alla loro crescente serie di capacità. Entrambi rappresentano importanti cambiamenti rispetto al nostro primo rapporto tecnico. Mostreremo come l'addestramento con istruzioni pedagogiche successive produca un modello LearnLM (disponibile su Google AI Studio) che è preferito in modo significativo dagli esperti valutatori in una vasta gamma di scenari di apprendimento, con forti preferenze medie del 31\% rispetto a GPT-4o, dell'11\% rispetto a Claude 3.5 e del 13\% rispetto al modello Gemini 1.5 Pro su cui si basava LearnLM.
I Large Language Models hanno dimostrato notevoli capacità nella generazione di codice, tuttavia spesso faticano con compiti di programmazione complessi che richiedono un profondo ragionamento algoritmico. Mentre la supervisione del processo tramite modelli di ricompensa appresi mostra promesse nel guidare i passaggi di ragionamento, richiede dati di addestramento costosi e soffre di valutazioni non affidabili. Proponiamo la Supervisione del Processo di Rifinitura dell'Outcome, un nuovo paradigma che tratta la rifinitura dell'outcome stesso come il processo da supervisionare. Il nostro framework sfrutta segnali di esecuzione concreti per fondare la supervisione dei passaggi di ragionamento, utilizzando esplorazioni strutturate a albero per mantenere contemporaneamente più traiettorie di soluzione. Gli esperimenti dimostrano che il nostro approccio consente persino a modelli più piccoli di raggiungere un'alta precisione di successo e metriche di performance su compiti di programmazione competitiva, creando una verifica più affidabile rispetto ai modelli di ricompensa tradizionali senza richiedere PRM di addestramento. Il nostro approccio ottiene miglioramenti significativi su 5 modelli e 3 set di dati: in media un aumento del 26,9% nella correttezza e del 42,2% nell'efficienza. I risultati suggeriscono che fornire uno spazio di ragionamento strutturato con segnali di verifica concreti è cruciale per risolvere compiti di programmazione complessi. Mettiamo a disposizione tutto il nostro codice e i dati su: https://github.com/zhuohaoyu/ORPS
I Large Language Models (LLM) hanno dimostrato un notevole potenziale nei domini scientifici, tuttavia una domanda fondamentale rimane senza risposta: Possiamo simulare comunità di ricerca umane con LLM? Affrontare questa domanda può approfondire la nostra comprensione dei processi di brainstorming delle idee e ispirare la scoperta automatica di nuove intuizioni scientifiche. In questo lavoro, proponiamo ResearchTown, un framework multi-agente per la simulazione di comunità di ricerca. All'interno di questo framework, la comunità di ricerca umana è semplificata e modellata come un grafo agente-dati, dove i ricercatori e i paper sono rappresentati rispettivamente come nodi di tipo agente e tipo di dati, e collegati in base alle loro relazioni di collaborazione. Introduciamo inoltre TextGNN, un framework di inferenza basato su testo che modella varie attività di ricerca (ad esempio, lettura di paper, scrittura di paper e scrittura di recensioni) come forme speciali di un processo unificato di passaggio di messaggi sul grafo agente-dati. Per valutare la qualità della simulazione della ricerca, presentiamo ResearchBench, un benchmark che utilizza un compito di previsione di mascheramento dei nodi per una valutazione scalabile e obiettiva basata sulla similarità. I nostri esperimenti rivelano tre risultati chiave: (1) ResearchTown può fornire una simulazione realistica delle attività di ricerca collaborative, inclusa la scrittura di paper e la scrittura di recensioni; (2) ResearchTown può mantenere una simulazione robusta con diversi ricercatori e paper diversi; (3) ResearchTown può generare idee di ricerca interdisciplinari che potenzialmente ispirano nuove direzioni di ricerca.
Immagina un mondo in cui l'IA può gestire il tuo lavoro mentre dormi - organizzare i tuoi materiali di ricerca, redigere un rapporto o creare una presentazione di cui hai bisogno per domani. Tuttavia, se gli attuali agenti digitali possono svolgere compiti semplici, sono ben lontani dall'essere in grado di gestire il complesso lavoro del mondo reale che gli esseri umani svolgono abitualmente. Presentiamo PC Agent, un sistema di intelligenza artificiale che dimostra un passo cruciale verso questa visione attraverso il trasferimento della cognizione umana. La nostra intuizione chiave è che il passaggio dall'esecuzione di "compiti" semplici alla gestione di "lavori" complessi risiede nel catturare ed apprendere in modo efficiente dai processi cognitivi umani durante l'uso del computer. Per convalidare questa ipotesi, introduciamo tre innovazioni chiave: (1) PC Tracker, un'infrastruttura leggera che raccoglie in modo efficiente traiettorie di interazione uomo-computer di alta qualità con contesto cognitivo completo; (2) un pipeline di completamento della cognizione a due fasi che trasforma i dati grezzi di interazione in ricche traiettorie cognitive completando semantica delle azioni e processi mentali; e (3) un sistema multi-agente che combina un agente di pianificazione per la presa di decisioni con un agente di grounding per un robusto ancoraggio visivo. I nostri esperimenti preliminari nella creazione di presentazioni PowerPoint rivelano che le capacità di lavoro digitale complesso possono essere raggiunte con una piccola quantità di dati cognitivi di alta qualità - PC Agent, addestrato su sole 133 traiettorie cognitive, può gestire scenari di lavoro sofisticati che coinvolgono fino a 50 passaggi attraverso diverse applicazioni. Ciò dimostra l'efficienza dei dati del nostro approccio, evidenziando che la chiave per addestrare agenti digitali capaci risiede nella raccolta di dati cognitivi umani. Condividendo in open source il nostro framework completo, compresa l'infrastruttura di raccolta dati e i metodi di completamento della cognizione, miriamo a abbassare le barriere per la comunità di ricerca nello sviluppare agenti digitali veramente capaci.
Con l'aumento dell'impiego degli ampi modelli linguistici (LLM) come agenti, la loro integrazione in ambienti interattivi e nell'uso di strumenti introduce nuove sfide di sicurezza oltre a quelle associate ai modelli stessi. Tuttavia, l'assenza di benchmark completi per valutare la sicurezza degli agenti rappresenta un significativo ostacolo per una valutazione efficace e ulteriore miglioramento. In questo articolo, presentiamo Agent-SafetyBench, un benchmark completo progettato per valutare la sicurezza degli agenti LLM. Agent-SafetyBench comprende 349 ambienti di interazione e 2.000 casi di test, valutando 8 categorie di rischi di sicurezza e coprendo 10 modalità di fallimento comuni frequentemente riscontrate nelle interazioni non sicure. La nostra valutazione di 16 popolari agenti LLM rivela un risultato preoccupante: nessuno degli agenti raggiunge un punteggio di sicurezza superiore al 60%. Ciò evidenzia significative sfide di sicurezza negli agenti LLM e sottolinea il considerevole bisogno di miglioramento. Attraverso un'analisi quantitativa, identifichiamo modalità di fallimento critiche e riassumiamo due rilevanti difetti di sicurezza nei attuali agenti LLM: la mancanza di robustezza e la mancanza di consapevolezza del rischio. Inoltre, le nostre conclusioni suggeriscono che fare affidamento solo su prompt di difesa non è sufficiente per affrontare queste problematiche di sicurezza, sottolineando la necessità di strategie più avanzate e robuste. Rilasciamo Agent-SafetyBench su https://github.com/thu-coai/Agent-SafetyBench per agevolare ulteriori ricerche e innovazioni nella valutazione e miglioramento della sicurezza degli agenti.
La conversazione multi-modale multi-partecipante (MMC) è un argomento di ricerca meno studiato ma importante poiché si adatta bene a scenari reali e potenzialmente ha applicazioni più ampie. Rispetto alle conversazioni multi-modali tradizionali, la MMC richiede capacità di comprensione dei personaggi più forti in quanto vi sono molti interlocutori che compaiono sia nel contesto visivo che testuale. Per facilitare lo studio di questo problema, presentiamo in questo articolo Friends-MMC, un dataset MMC che contiene oltre 24.000 enunciati unici abbinati al contesto video. Per esplorare la comprensione centrata sul personaggio del dialogo, annotiamo anche il locutore di ciascun enunciato, i nomi e i bounding box dei volti che appaiono nel video. Basandoci su questo dataset Friends-MMC, studiamo ulteriormente due compiti fondamentali della MMC: l'identificazione del locutore della conversazione e la previsione della risposta alla conversazione, entrambi con natura multi-partecipante con il contesto visivo o dell'immagine. Per l'identificazione del locutore della conversazione, dimostriamo le inefficienze dei metodi esistenti come i modelli pre-addestrati e proponiamo un metodo di base semplice ma efficace che sfrutta un risolutore di ottimizzazione per utilizzare il contesto delle due modalità per ottenere migliori prestazioni. Per la previsione della risposta alla conversazione, raffiniamo i modelli di dialogo generativi su Friend-MMC e analizziamo i benefici delle informazioni sul locutore. Il codice e il dataset sono pubblicamente disponibili su https://github.com/yellow-binary-tree/Friends-MMC e quindi chiediamo maggiore attenzione nella modellazione delle informazioni sul locutore per la comprensione delle conversazioni.
La recente introduzione da parte di OpenAI del Reinforcement Fine-Tuning (RFT) mette in mostra il potenziale del modello di fondazione del ragionamento e offre un nuovo paradigma per il fine-tuning al di là della semplice imitazione di modelli. Questo rapporto tecnico presenta OpenRFT, il nostro tentativo di ottimizzare modelli di ragionamento generalisti per compiti specifici di dominio nelle stesse impostazioni di RFT. OpenRFT affronta due sfide chiave legate alla mancanza di dati sul processo di ragionamento e alla limitata quantità di campioni di addestramento, sfruttando i campioni specifici del dominio in tre modi: l'aumento delle domande, la sintesi dei dati del processo di ragionamento e l'ICL a pochi colpi. La valutazione è stata condotta su SciKnowEval, dove OpenRFT raggiunge notevoli miglioramenti delle prestazioni con soli 100 campioni specifici del dominio per ogni compito. Ulteriori risultati sperimentali saranno aggiornati continuamente nelle versioni successive. I codici sorgente, i set di dati e i modelli sono resi pubblici su: https://github.com/ADaM-BJTU/OpenRFT
Come passo cruciale per migliorare l'allineamento dei LLM con le intenzioni umane, il Fine-Tuning delle Istruzioni (IFT) richiede un'alta qualità del dataset. Tuttavia, i dataset esistenti per l'IFT spesso contengono conoscenze inconsistenti con le conoscenze interne dei LLM apprese dalla fase di pre-training, il che può influire notevolmente sull'efficacia dell'IFT. Per affrontare questo problema, introduciamo il framework NILE (iNternal consIstency aLignmEnt), mirato a ottimizzare i dataset per l'IFT per sbloccare ulteriormente le capacità dei LLM. NILE opera elicando le conoscenze interne del LLM pre-addestrato di destinazione corrispondenti ai dati delle istruzioni. Le conoscenze interne sono sfruttate per rivedere le risposte nei dataset per l'IFT. Inoltre, proponiamo un nuovo metodo di Filtraggio della Consistenza Interna (ICF) per filtrare campioni di addestramento, garantendo un'alta consistenza con le conoscenze interne del LLM. I nostri esperimenti dimostrano che i dataset per l'IFT allineati con NILE migliorano nettamente le prestazioni dei LLM su diversi dataset di valutazione delle capacità dei LLM, ottenendo fino al 66,6% di miglioramento su Arena-Hard e 68,5% su Alpaca-Eval V2. Un'ulteriore analisi conferma che ciascun componente del framework NILE contribuisce a questi sostanziali miglioramenti delle prestazioni, e fornisce prove convincenti che la consistenza del dataset con le conoscenze interne pre-addestrate è fondamentale per massimizzare il potenziale dei LLM.