HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

10 papers found

DeepSeek-R1: Incentivizzare la capacità di ragionamento nei LLM tramite Apprendimento per Rinforzo
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

ByDeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang

416

Introduciamo i nostri modelli di ragionamento di prima generazione, DeepSeek-R1-Zero e DeepSeek-R1. DeepSeek-R1-Zero, un modello addestrato tramite apprendimento per rinforzo su larga scala senza sintonizzazione fine supervisionata come passo preliminare, dimostra notevoli capacità di ragionamento. Attraverso l'apprendimento per rinforzo, DeepSeek-R1-Zero emerge naturalmente con numerosi comportamenti di ragionamento potenti e intriganti. Tuttavia, affronta sfide come scarsa leggibilità e mescolanza linguistica. Per affrontare questi problemi e migliorare ulteriormente le prestazioni di ragionamento, presentiamo DeepSeek-R1, che incorpora addestramento a più stadi e dati di avvio a freddo prima dell'apprendimento per rinforzo. DeepSeek-R1 raggiunge prestazioni paragonabili a OpenAI-o1-1217 su compiti di ragionamento. Per supportare la comunità di ricerca, rendiamo open-source DeepSeek-R1-Zero, DeepSeek-R1 e sei modelli densi (1.5B, 7B, 8B, 14B, 32B, 70B) distillati da DeepSeek-R1 basati su Qwen e Llama.

Kimi k1.5: Scalare l'Apprendimento per Rinforzo con LLMs
Kimi k1.5: Scaling Reinforcement Learning with LLMs

Jan 22

ByKimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Fengxiang Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haotian Yao, Haotian Zhao, Haoyu Lu, Haoze Li, Haozhen Yu, Hongcheng Gao, Huabin Zheng, Huan Yuan, Jia Chen, Jianhang Guo, Jianlin Su, Jianzhou Wang, Jie Zhao, Jin Zhang, Jingyuan Liu, Junjie Yan, Junyan Wu, Lidong Shi, Ling Ye, Longhui Yu, Mengnan Dong, Neo Zhang, Ningchen Ma, Qiwei Pan, Qucheng Gong, Shaowei Liu, Shengling Ma, Shupeng Wei, Sihan Cao, Siying Huang, Tao Jiang, Weihao Gao, Weimin Xiong, Weiran He, Weixiao Huang, Wenhao Wu, Wenyang He, Xianghui Wei, Xianqing Jia, Xingzhe Wu, Xinran Xu, Xinxing Zu, Xinyu Zhou, Xuehai Pan, Y. Charles, Yang Li, Yangyang Hu, Yangyang Liu, Yanru Chen, Yejie Wang, Yibo Liu, Yidao Qin, Yifeng Liu, Ying Yang, Yiping Bao, Yulun Du, Yuxin Wu, Yuzhi Wang, Zaida Zhou, Zhaoji Wang, Zhaowei Li, Zhen Zhu, Zheng Zhang, Zhexu Wang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Ziyao Xu, Zonghan Yang

123

Il preaddestramento del modello linguistico con la previsione del token successivo si è dimostrato efficace per aumentare le risorse computazionali, ma è limitato dalla quantità di dati di addestramento disponibili. L'espansione del reinforcement learning (RL) apre una nuova dimensione per il continuo miglioramento dell'intelligenza artificiale, con la promessa che i grandi modelli linguistici (LLM) possano aumentare i loro dati di addestramento imparando ad esplorare con ricompense. Tuttavia, i lavori pubblicati in precedenza non hanno prodotto risultati competitivi. Alla luce di ciò, riportiamo la pratica di addestramento di Kimi k1.5, il nostro ultimo LLM multimodale addestrato con RL, inclusi le tecniche di addestramento RL, le ricette dei dati multimodali e l'ottimizzazione dell'infrastruttura. La scalabilità del contesto lungo e i metodi di ottimizzazione della policy migliorati sono ingredienti chiave del nostro approccio, che stabilisce un framework RL semplice ed efficace senza fare affidamento su tecniche più complesse come la ricerca ad albero Monte Carlo, le funzioni di valore e i modelli di ricompensa di processo. In particolare, il nostro sistema raggiunge prestazioni di ragionamento all'avanguardia su diversi benchmark e modalità, ad esempio 77.5 su AIME, 96.2 su MATH 500, 94-esimo percentile su Codeforces, 74.9 su MathVista, eguagliando l'o1 di OpenAI. Inoltre, presentiamo efficaci metodi long2short che utilizzano tecniche long-CoT per migliorare i modelli short-CoT, producendo risultati di ragionamento short-CoT all'avanguardia, ad esempio 60.8 su AIME, 94.6 su MATH500, 47.3 su LiveCodeBench, superando di gran lunga i modelli short-CoT esistenti come GPT-4o e Claude Sonnet 3.5 (fino al +550%).

VideoLLaMA 3: Modelli Fondamentali Multimodali di Frontiera per la Comprensione di Immagini e Video
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Jan 22

ByBoqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao

In questo articolo, proponiamo VideoLLaMA3, un modello fondamentale multimodale più avanzato per la comprensione di immagini e video. La filosofia di progettazione centrale di VideoLLaMA3 è incentrata sulla visione. Il significato di "vision-centric" è duplice: il paradigma di addestramento centrato sulla visione e la progettazione del framework centrato sulla visione. La chiave della nostra visione del paradigma di addestramento centrato sulla visione è che i dati di alta qualità immagine-testo sono cruciali sia per la comprensione delle immagini che dei video. Invece di preparare enormi set di dati video-testo, ci concentriamo sulla costruzione di set di dati immagine-testo su larga scala e di alta qualità. VideoLLaMA3 ha quattro fasi di addestramento: 1) fase di allineamento centrata sulla visione, che prepara l'encoder e il proiettore della visione; 2) fase di preaddestramento visione-linguaggio, che ottimizza congiuntamente l'encoder della visione, il proiettore e LLM con dati immagine-testo su larga scala che coprono vari tipi (inclusi immagini di scene, documenti, grafici) e dati solo testo. 3) fase di raffinamento multi-task, che incorpora dati SFT immagine-testo per compiti successivi e dati video-testo per stabilire una base per la comprensione dei video. 4) raffinamento centrato sui video, che migliora ulteriormente la capacità del modello nella comprensione dei video. Per quanto riguarda la progettazione del framework, per catturare meglio dettagli fini nelle immagini, l'encoder della visione preaddestrato è adattato per codificare immagini di dimensioni variabili in token della visione con numeri corrispondenti, piuttosto che un numero fisso di token. Per gli input video, riduciamo il numero di token della visione in base alla loro similarità in modo che la rappresentazione dei video sia più precisa e compatta. Grazie ai design centrati sulla visione, VideoLLaMA3 raggiunge prestazioni convincenti sia nei benchmark di comprensione delle immagini che dei video.

FilmAgent: Un framework multi-agente per l'automazione cinematografica end-to-end in spazi virtuali 3D.
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Jan 22

ByZhenran Xu, Longyue Wang, Jifang Wang, Zhouyi Li, Senbao Shi, Xue Yang, Yiyu Wang, Baotian Hu, Jun Yu, Min Zhang

La produzione cinematografica virtuale richiede processi decisionali complessi, tra cui la scrittura della sceneggiatura, la cinematografia virtuale e il posizionamento preciso degli attori e delle azioni. Motivato dai recenti progressi nel processo decisionale automatizzato con società basate su agenti linguistici, questo articolo introduce FilmAgent, un nuovo framework collaborativo multi-agente basato su LLM per l'automazione cinematografica end-to-end nei nostri spazi virtuali 3D costruiti. FilmAgent simula vari ruoli di troupe, tra cui registi, sceneggiatori, attori e direttori della fotografia, e copre le fasi chiave di un flusso di lavoro di produzione cinematografica: (1) lo sviluppo dell'idea trasforma le idee generate in linee guida strutturate della storia; (2) la scrittura della sceneggiatura approfondisce i dialoghi e le azioni dei personaggi per ogni scena; (3) la cinematografia determina le impostazioni della telecamera per ogni inquadratura. Un team di agenti collabora attraverso feedback iterativi e revisioni, verificando così le sceneggiature intermedie e riducendo le allucinazioni. Valutiamo i video generati su 15 idee e 4 aspetti chiave. La valutazione umana mostra che FilmAgent supera tutti i modelli di riferimento su tutti gli aspetti e ottiene un punteggio medio di 3,98 su 5, dimostrando la fattibilità della collaborazione multi-agente nella produzione cinematografica. Un'ulteriore analisi rivela che FilmAgent, nonostante utilizzi il modello GPT-4o meno avanzato, supera il modello o1 a singolo agente, mostrando il vantaggio di un sistema multi-agente ben coordinato. Infine, discutiamo i punti di forza e di debolezza complementari del modello testo-video di OpenAI, Sora, e del nostro FilmAgent nella produzione cinematografica.

OTTIMIZZAZIONE DELLA PREFERENZA AL MOMENTO DEL TEST: Allineamento On-the-Fly tramite Feedback Testuale Iterativo
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Jan 22

ByYafu Li, Xuyang Hu, Xiaoye Qu, Linjie Li, Yu Cheng

I grandi modelli linguistici (LLM) dimostrano un'ottima performance ma mancano della flessibilità necessaria per adattarsi rapidamente alle preferenze umane senza dover essere ritraining. In questo lavoro, presentiamo l' Ottimizzazione delle Preferenze al Test (TPO), un framework che allinea le uscite del LLM con le preferenze umane durante l'inferenza, eliminando la necessità di aggiornare i parametri del modello. Piuttosto che basarsi esclusivamente su ricompense numeriche, TPO traduce i segnali di ricompensa in critiche testuali e li utilizza come ricompense testuali per affinare iterativamente la sua risposta. Le valutazioni su benchmark che coprono il seguire le istruzioni, l'allineamento delle preferenze, la sicurezza e la matematica rivelano che TPO migliora progressivamente l'allineamento con le preferenze umane. In particolare, dopo solo pochi passaggi di TPO, il modello inizialmente non allineato Llama-3.1-70B-SFT può superare il corrispettivo allineato, Llama-3.1-70B-Instruct. Inoltre, TPO scala efficientemente sia con la larghezza che con la profondità della ricerca durante l'inferenza. Attraverso casi di studio, illustramo come TPO sfrutti la capacità innata del LLM di interpretare e agire sui segnali di ricompensa. I nostri risultati stabiliscono TPO come un'alternativa pratica e leggera per l'ottimizzazione delle preferenze al test, raggiungendo l'allineamento al volo. Il nostro codice è disponibile pubblicamente su https://github.com/yafuly/TPO.

Modelli di Autonomia degli Esperti
Autonomy-of-Experts Models

Jan 22

ByAng Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan

I modelli Mixture-of-Experts (MoE) utilizzano principalmente un router per assegnare i token a specifici moduli esperti, attivando solo parametri parziali e superando spesso i modelli densi. Sosteniamo che la separazione tra la presa di decisione del router e l'esecuzione degli esperti sia una questione critica ma spesso trascurata, che porta a una selezione degli esperti subottimale e a un apprendimento inefficace. Per affrontare questo problema, proponiamo Autonomy-of-Experts (AoE), un nuovo paradigma MoE in cui gli esperti selezionano autonomamente se stessi per elaborare gli input. AoE si basa sull'idea che un esperto sia consapevole della propria capacità di elaborare efficacemente un token, consapevolezza riflessa nella scala delle sue attivazioni interne. In AoE, i router vengono rimossi; al contrario, gli esperti pre-calcolano le attivazioni interne per gli input e vengono classificati in base alle loro norme di attivazione. Solo gli esperti con il punteggio più alto procedono con il passaggio in avanti, mentre gli altri vengono annullati. Il sovraccarico del pre-calcolo delle attivazioni viene ridotto attraverso una fattorizzazione dei pesi a basso rango. Questo approccio di autovalutazione-e-confronto-con-il-compagno garantisce un'ottimizzazione della selezione degli esperti e un apprendimento efficace. Pre-alleniamo modelli linguistici con 700M fino a 4B di parametri, dimostrando che AoE supera i modelli MoE tradizionali con efficienza comparabile.

Potatore O1: Ottimizzazione Fine per l'Armonizzazione della Lunghezza per il Potatura del Ragionamento Simile a O1
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Jan 22

ByHaotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao

Recentemente, i modelli di ragionamento a lungo pensiero, come l'O1 di OpenAI, adottano processi di ragionamento estesi simili a come gli esseri umani riflettono su problemi complessi. Questo paradigma di ragionamento migliora significativamente le capacità di risoluzione dei problemi del modello e ha ottenuto risultati promettenti. Tuttavia, il processo di ragionamento a lungo pensiero porta a un notevole aumento del tempo di inferenza. Una sfida urgente è ridurre il sovraccarico di inferenza dei modelli di ragionamento a lungo pensiero garantendo al contempo l'accuratezza. In questo articolo, dimostriamo sperimentalmente che i modelli di ragionamento a lungo pensiero faticano a allocare in modo efficace i budget di token in base alla difficoltà del problema e alle ridondanze di ragionamento. Per affrontare questo problema, proponiamo il Fine-Tuning dell'Armonizzazione della Lunghezza (O1-Pruner), con l'obiettivo di minimizzare il sovraccarico di ragionamento mantenendo l'accuratezza. Questo efficace metodo di fine-tuning stima prima le prestazioni di base del LLM attraverso il pre-campionamento e poi utilizza il fine-tuning in stile RL per incoraggiare il modello a generare processi di ragionamento più brevi sotto vincoli di accuratezza. Ciò consente al modello di ottenere un ragionamento efficiente con una minore ridondanza mantenendo l'accuratezza. Gli esperimenti su vari benchmark di ragionamento matematico mostrano che O1-Pruner non solo riduce significativamente il sovraccarico di inferenza, ma raggiunge anche una maggiore accuratezza, offrendo una soluzione innovativa e promettente a questa sfida. Il nostro codice sarà presto disponibile su https://github.com/StarDewXXX/O1-Pruner

Coppia RM: Esegui il campionamento migliore di N con il torneo a eliminazione diretta
Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

Jan 22

ByYantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li

Il campionamento Best-of-N (BoN), una strategia comune per la scalabilità dei Modelli di Linguaggio di Grandi Dimensioni (LLM) durante i test, si basa sui modelli di ricompensa per selezionare la migliore soluzione candidata da più generazioni. Tuttavia, i tradizionali modelli di ricompensa spesso assegnano punteggi arbitrari e inconsistenti, limitandone l'efficacia. Per affrontare questo problema, proponiamo un Modello di Ricompensa a Coppie (Pairwise RM) combinato con un torneo ad eliminazione per il campionamento BoN. Invece di assegnare punteggi assoluti, dato un problema matematico, Pairwise RM valuta contemporaneamente la correttezza di due soluzioni candidate. Questo approccio elimina la necessità di punteggi arbitrari e consente la convalida incrociata delle soluzioni attraverso il confronto parallelo. Nel torneo ad eliminazione, Pairwise RM effettua confronti a coppie tra soluzioni candidate ed elimina iterativamente quelle incorrette. Costruiamo \ourdataset, un dataset su larga scala di 443K confronti a coppie derivati da NumiaMath e annotati utilizzando gemini-1.5-flash, e addestriamo il Pairwise RM tramite sintonizzazione fine supervisionata. Gli esperimenti su MATH-500 e sulla Panchina Olimpica dimostrano miglioramenti significativi rispetto ai tradizionali modelli di ricompensa discriminativi. E si ottiene un miglioramento relativo del 40\% al 60\% sui problemi più difficili della top 50\%.

Fast3R: Verso la Ricostruzione 3D di oltre 1000 Immagini in un Singolo Passaggio Avanti
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

Jan 23

ByJianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli

La ricostruzione tridimensionale multi-vista rimane una sfida fondamentale nell'ambito della visione artificiale, specialmente nelle applicazioni che richiedono rappresentazioni accurate e scalabili da diverse prospettive. I metodi leader attuali come DUSt3R adottano un approccio fondamentalmente basato su coppie, elaborando le immagini a coppie e richiedendo costose procedure di allineamento globale per ricostruire da molteplici viste. In questo lavoro, proponiamo Fast 3D Reconstruction (Fast3R), una nuova generalizzazione multi-vista di DUSt3R che raggiunge una ricostruzione 3D efficiente e scalabile elaborando molte viste in parallelo. L'architettura basata su Transformer di Fast3R inoltra N immagini in un singolo passaggio in avanti, evitando la necessità di allineamenti iterativi. Attraverso estesi esperimenti sull'accuratezza della posa della fotocamera e sulla ricostruzione 3D, Fast3R dimostra prestazioni all'avanguardia, con miglioramenti significativi nella velocità di inferenza e una riduzione dell'accumulo degli errori. Questi risultati confermano Fast3R come un'alternativa robusta per le applicazioni multi-vista, offrendo una scalabilità migliorata senza compromettere l'accuratezza della ricostruzione.

IntellAgent: Un Framework Multi-Agente per Valutare i Sistemi di Intelligenza Conversazionale AI
IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

Jan 19

ByElad Levi, Ilan Kadar

I Large Language Models (LLM) stanno trasformando l'intelligenza artificiale, evolvendo in sistemi orientati al compito capaci di pianificazione ed esecuzione autonome. Una delle principali applicazioni dei LLM è rappresentata dai sistemi di intelligenza conversazionale, che devono navigare dialoghi multi-turno, integrare API specifiche del dominio e rispettare rigide restrizioni di policy. Tuttavia, valutare questi agenti rimane una sfida significativa, poiché i metodi tradizionali non riescono a catturare la complessità e la variabilità delle interazioni del mondo reale. Presentiamo IntellAgent, un framework multi-agente scalabile e open-source progettato per valutare in modo esaustivo i sistemi di intelligenza conversazionale. IntellAgent automatizza la creazione di diversi benchmark sintetici combinando la modellazione grafica guidata dalla policy, la generazione realistica di eventi e simulazioni interattive tra utente e agente. Questo approccio innovativo fornisce diagnostica dettagliata, affrontando le limitazioni dei benchmark statici e curati manualmente con metriche grossolane. IntellAgent rappresenta una svolta nel valutare l'intelligenza conversazionale. Simulando scenari multi-policy realistici attraverso diversi livelli di complessità, IntellAgent cattura l'interazione sfumata delle capacità degli agenti e delle restrizioni di policy. A differenza dei metodi tradizionali, utilizza un modello di policy basato su grafi per rappresentare relazioni, probabilità e complessità delle interazioni di policy, consentendo diagnostica altamente dettagliata. IntellAgent identifica inoltre lacune critiche nelle prestazioni, offrendo approfondimenti utili per ottimizzazioni mirate. Il suo design modulare e open-source supporta un'integrazione senza soluzione di continuità di nuovi domini, policy e API, promuovendo riproducibilità e collaborazione nella comunità. I nostri risultati dimostrano che IntellAgent funge da framework efficace per far progredire l'intelligenza conversazionale affrontando le sfide nel colmare la ricerca e la distribuzione. Il framework è disponibile su https://github.com/plurai-ai/intellagent.

DeepSeek-R1: Incentivizzare la capacità di ragionamento nei LLM tramite Apprendimento per Rinforzo
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

416