HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

10 papers found

DeepSeek-R1: Het stimuleren van redeneervermogen in LLM's via Reinforcement Learning
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

ByDeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang

420

We introduceren onze redeneermodellen van de eerste generatie, DeepSeek-R1-Zero en DeepSeek-R1. DeepSeek-R1-Zero, een model dat is getraind via grootschalig versterkend leren (RL) zonder begeleide fijnafstemming (SFT) als een voorlopige stap, toont opmerkelijke redeneervaardigheden. Via RL komt DeepSeek-R1-Zero natuurlijk naar voren met tal van krachtige en intrigerende redeneergedragingen. Het ondervindt echter uitdagingen zoals slechte leesbaarheid en taalmenging. Om deze problemen aan te pakken en redeneerprestaties verder te verbeteren, introduceren we DeepSeek-R1, dat meertraps training en koude-startgegevens voor RL incorporeert. DeepSeek-R1 behaalt prestaties vergelijkbaar met OpenAI-o1-1217 op redeneertaken. Om de onderzoeksgemeenschap te ondersteunen, stellen we DeepSeek-R1-Zero, DeepSeek-R1 en zes dichte modellen (1,5B, 7B, 8B, 14B, 32B, 70B) die zijn gedistilleerd uit DeepSeek-R1 op basis van Qwen en Llama, beschikbaar als open source.

Kimi k1.5: Schalen van Reinforcement Learning met LLM's
Kimi k1.5: Scaling Reinforcement Learning with LLMs

Jan 22

ByKimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Fengxiang Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haotian Yao, Haotian Zhao, Haoyu Lu, Haoze Li, Haozhen Yu, Hongcheng Gao, Huabin Zheng, Huan Yuan, Jia Chen, Jianhang Guo, Jianlin Su, Jianzhou Wang, Jie Zhao, Jin Zhang, Jingyuan Liu, Junjie Yan, Junyan Wu, Lidong Shi, Ling Ye, Longhui Yu, Mengnan Dong, Neo Zhang, Ningchen Ma, Qiwei Pan, Qucheng Gong, Shaowei Liu, Shengling Ma, Shupeng Wei, Sihan Cao, Siying Huang, Tao Jiang, Weihao Gao, Weimin Xiong, Weiran He, Weixiao Huang, Wenhao Wu, Wenyang He, Xianghui Wei, Xianqing Jia, Xingzhe Wu, Xinran Xu, Xinxing Zu, Xinyu Zhou, Xuehai Pan, Y. Charles, Yang Li, Yangyang Hu, Yangyang Liu, Yanru Chen, Yejie Wang, Yibo Liu, Yidao Qin, Yifeng Liu, Ying Yang, Yiping Bao, Yulun Du, Yuxin Wu, Yuzhi Wang, Zaida Zhou, Zhaoji Wang, Zhaowei Li, Zhen Zhu, Zheng Zhang, Zhexu Wang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Ziyao Xu, Zonghan Yang

123

Het vooraf trainen van taalmodellen met voorspelling van het volgende token is effectief gebleken voor het schalen van berekeningen, maar is beperkt tot de hoeveelheid beschikbare trainingsdata. Het schalen van reinforcement learning (RL) ontsluit een nieuwe dimensie voor de voortdurende verbetering van kunstmatige intelligentie, met de belofte dat grote taalmodellen (LLMs) hun trainingsdata kunnen vergroten door te leren verkennen met beloningen. Echter, eerder gepubliceerd werk heeft geen competitieve resultaten opgeleverd. In het licht hiervan rapporteren we over de trainingspraktijk van Kimi k1.5, ons nieuwste multimodale LLM getraind met RL, inclusief de RL-trainingsmethoden, multimodale datarecepten en infrastructuuroptimalisatie. Het schalen van lange context en verbeterde beleidsoptimalisatiemethoden zijn sleutelingrediënten van onze aanpak, die een eenvoudig, effectief RL-framework vestigt zonder te vertrouwen op complexere technieken zoals Monte Carlo-boomzoekingen, waardefuncties en procesbeloningsmodellen. Opmerkelijk genoeg behaalt ons systeem toonaangevende redeneerprestaties over meerdere benchmarks en modaliteiten - bijv. 77.5 op AIME, 96.2 op MATH 500, 94e percentiel op Codeforces, 74.9 op MathVista - vergelijkbaar met OpenAI's o1. Bovendien presenteren we effectieve lange-naar-korte methoden die lange-CoT-technieken gebruiken om korte-CoT-modellen te verbeteren, wat toonaangevende resultaten oplevert in korte-CoT-redenering - bijv. 60.8 op AIME, 94.6 op MATH500, 47.3 op LiveCodeBench - waarbij bestaande korte-CoT-modellen zoals GPT-4o en Claude Sonnet 3.5 ver overtreffen (tot +550%).

VideoLLaMA 3: Frontier Multimodale Fundamentele Modellen voor Beeld en Video Begrip
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Jan 22

ByBoqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao

In dit artikel stellen we VideoLLaMA3 voor, een geavanceerder multimodaal basismodel voor het begrijpen van afbeeldingen en video's. De kernontwerpfilosofie van VideoLLaMA3 is visie-gecentreerd. De betekenis van "visie-gecentreerd" is tweeledig: het visie-gecentreerde trainingsparadigma en het visie-gecentreerde raamwerkontwerp. Het belangrijkste inzicht van ons visie-gecentreerde trainingsparadigma is dat hoogwaardige beeld-tekst data cruciaal is voor zowel het begrijpen van afbeeldingen als video's. In plaats van massale video-tekst datasets voor te bereiden, richten we ons op het construeren van grootschalige en hoogwaardige beeld-tekst datasets. VideoLLaMA3 kent vier trainingsfasen: 1) visie-gecentreerde uitlijningsfase, die de visie-encoder en projector voorbereidt; 2) visie-taal vooraf trainingsfase, die gezamenlijk de visie-encoder, projector en LLM afstemt met grootschalige beeld-tekst data die meerdere soorten bestrijkt (inclusief scèneafbeeldingen, documenten, grafieken) evenals alleen tekst data. 3) multi-taak fijnafstemmingsfase, die beeld-tekst SFT data voor downstream taken incorporeert en video-tekst data om een basis voor video begrip vast te stellen. 4) video-gecentreerde fijnafstemmingsfase, die de capaciteit van het model in video begrip verder verbetert. Wat betreft het raamwerkontwerp, om fijnmazige details in afbeeldingen beter vast te leggen, wordt de vooraf getrainde visie-encoder aangepast om afbeeldingen van verschillende groottes te coderen in visie-tokens met overeenkomstige aantallen, in plaats van een vast aantal tokens. Voor video-invoer verminderen we het aantal visie-tokens op basis van hun gelijkenis zodat de representatie van video's preciezer en compacter zal zijn. Dankzij visie-gecentreerde ontwerpen behaalt VideoLLaMA3 overtuigende prestaties in zowel afbeeldings- als video-begrip benchmarks.

FilmAgent: Een Multi-Agent Framework voor End-to-End Filmautomatisering in Virtuele 3D Ruimtes
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Jan 22

ByZhenran Xu, Longyue Wang, Jifang Wang, Zhouyi Li, Senbao Shi, Xue Yang, Yiyu Wang, Baotian Hu, Jun Yu, Min Zhang

Virtuele filmproductie vereist ingewikkelde besluitvormingsprocessen, waaronder scenario schrijven, virtuele cinematografie en nauwkeurige positionering en acties van acteurs. Geïnspireerd door recente ontwikkelingen in geautomatiseerde besluitvorming met op taalagenten gebaseerde samenlevingen, introduceert dit artikel FilmAgent, een nieuw LLM-gebaseerd multi-agent samenwerkingskader voor end-to-end filmautomatisering in onze geconstrueerde 3D virtuele ruimtes. FilmAgent simuleert verschillende crewrollen, waaronder regisseurs, scenarioschrijvers, acteurs en cinematografen, en bestrijkt belangrijke fasen van een filmproductieworkflow: (1) idee-ontwikkeling transformeert brainstormideeën in gestructureerde verhaallijnen; (2) scenario schrijven werkt dialogen en karakteracties voor elke scène uit; (3) cinematografie bepaalt de camerasetups voor elke opname. Een team van agenten werkt samen via iteratieve feedback en revisies, waarbij tussenliggende scripts worden geverifieerd en hallucinaties worden verminderd. We evalueren de gegenereerde video's op 15 ideeën en 4 belangrijke aspecten. Menselijke evaluatie toont aan dat FilmAgent alle baselines overtreft op alle aspecten en gemiddeld een score van 3.98 van de 5 behaalt, wat de haalbaarheid van multi-agent samenwerking in filmmaken aantoont. Verder onderzoek onthult dat FilmAgent, ondanks het gebruik van het minder geavanceerde GPT-4o-model, de single-agent o1 overtreft, wat het voordeel van een goed gecoördineerd multi-agent systeem aantoont. Ten slotte bespreken we de complementaire sterke en zwakke punten van OpenAI's tekst-naar-video model Sora en onze FilmAgent in filmmaken.

Optimalisatie van Voorkeur tijdens Testtijd: On-the-Fly Afstemming via Iteratieve Tekstuele Feedback
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Jan 22

ByYafu Li, Xuyang Hu, Xiaoye Qu, Linjie Li, Yu Cheng

Grote taalmodellen (LLM's) tonen indrukwekkende prestaties, maar missen de flexibiliteit om zich snel aan te passen aan menselijke voorkeuren zonder opnieuw te worden getraind. In dit werk introduceren we Test-time Voorkeursoptimalisatie (TPO), een raamwerk dat LLM-uitvoer afstemt op menselijke voorkeuren tijdens inferentie, waardoor de noodzaak om modelparameters bij te werken wordt verwijderd. In plaats van uitsluitend te vertrouwen op numerieke beloningen, vertaalt TPO beloningssignalen naar tekstuele kritieken en gebruikt deze als tekstuele beloningen om zijn reactie iteratief te verfijnen. Evaluaties op benchmarks die instructieopvolging, voorkeursafstemming, veiligheid en wiskunde omvatten, tonen aan dat TPO geleidelijk de afstemming met menselijke voorkeuren verbetert. Opmerkelijk is dat na slechts een paar TPO-stappen het aanvankelijk niet-uitgelijnde Llama-3.1-70B-SFT-model het uitgelijnde tegenmodel, Llama-3.1-70B-Instruct, kan overtreffen. Bovendien schaalt TPO efficiënt met zowel de zoekbreedte als de diepte tijdens inferentie. Via casestudies illustreren we hoe TPO de aangeboren capaciteit van LLM benut om beloningssignalen te interpreteren en erop te reageren. Onze bevindingen vestigen TPO als een praktisch, lichtgewicht alternatief voor testtijd voorkeursoptimalisatie, waarbij uitlijning on-the-fly wordt bereikt. Onze code is openbaar beschikbaar op https://github.com/yafuly/TPO.

Modellen van Autonomie van Experts
Autonomy-of-Experts Models

Jan 22

ByAng Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan

Mengmodellen van Experts (MoE) maken voornamelijk gebruik van een router om tokens toe te wijzen aan specifieke expertmodules, waarbij alleen gedeeltelijke parameters worden geactiveerd en ze vaak beter presteren dan dichte modellen. We betogen dat de scheiding tussen de besluitvorming van de router en de uitvoering van de experts een cruciale maar over het hoofd geziene kwestie is, wat leidt tot suboptimale expertselectie en ineffectief leren. Om dit aan te pakken, stellen we Autonomie-van-Experts (AoE) voor, een nieuw MoE-paradigma waarin experts zich autonoom selecteren om invoergegevens te verwerken. AoE is gebaseerd op het inzicht dat een expert zich bewust is van zijn eigen capaciteit om een token effectief te verwerken, een bewustzijn dat tot uiting komt in de schaal van zijn interne activaties. In AoE worden routers verwijderd; in plaats daarvan berekenen experts vooraf interne activaties voor invoergegevens en worden ze gerangschikt op basis van hun activatienormen. Alleen de best gerangschikte experts gaan verder met de voorwaartse doorvoer, terwijl de anderen worden afgebroken. De overhead van het vooraf berekenen van activaties wordt verminderd door een factorisatie van gewichten met lage rangorde. Deze aanpak van zelfevaluatie-gevolgd-door-partnervergelijking zorgt voor verbeterde expertselectie en effectief leren. We pre-trainen taalmodellen met 700M tot 4B parameters en tonen aan dat AoE traditionele MoE-modellen overtreft met vergelijkbare efficiëntie.

O1-Pruner: Lengte-Harmoniserende Fijnafstemming voor O1-achtige Redeneringspruning
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Jan 22

ByHaotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao

Onlangs hebben langdurig redenerende LLM's, zoals OpenAI's O1, uitgebreide redeneerprocessen aangenomen die vergelijkbaar zijn met hoe mensen nadenken over complexe problemen. Dit redeneerparadigma verbetert aanzienlijk de probleemoplossende vaardigheden van het model en heeft veelbelovende resultaten opgeleverd. Echter, het langdurige redeneerproces leidt tot een aanzienlijke toename in inferentietijd. Een dringende uitdaging is het verminderen van de inferentie-overhead van langdurig redenerende LLM's terwijl de nauwkeurigheid wordt gewaarborgd. In dit artikel tonen we experimenteel aan dat langdurig redenerende modellen moeite hebben met het effectief toewijzen van tokenbudgetten op basis van probleemcomplexiteit en redeneeroverlappingen. Om dit aan te pakken, stellen we Length-Harmonizing Fine-Tuning (O1-Pruner) voor, met als doel redeneeroverhead te minimaliseren terwijl de nauwkeurigheid wordt behouden. Deze effectieve fine-tuning methode schat eerst de basale prestaties van de LLM in door vooraf te monsteren en gebruikt vervolgens RL-stijl fine-tuning om het model aan te moedigen kortere redeneerprocessen te genereren binnen nauwkeurigheidsbeperkingen. Dit stelt het model in staat om efficiënt te redeneren met minder redundantie terwijl de nauwkeurigheid behouden blijft. Experimenten op verschillende wiskundige redeneerbenchmarks tonen aan dat O1-Pruner niet alleen de inferentie-overhead aanzienlijk vermindert, maar ook een hogere nauwkeurigheid behaalt, waardoor een nieuwe en veelbelovende oplossing wordt geboden voor deze uitdaging. Onze code komt binnenkort beschikbaar op https://github.com/StarDewXXX/O1-Pruner

Pairwise RM: Voer Best-of-N Sampling uit met Knockout Toernooi.
Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

Jan 22

ByYantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li

Best-of-N (BoN) sampling, een veelgebruikte strategie voor schaalvergroting van Grote Taalmodellen (LLMs) op testtijd, vertrouwt op beloningsmodellen om de beste kandidaatoplossing uit meerdere generaties te selecteren. Traditionele beloningsmodellen kennen echter vaak willekeurige en inconsistente scores toe, waardoor hun effectiviteit beperkt is. Om dit aan te pakken, stellen we een Pairwise Reward Model (Pairwise RM) voor dat gecombineerd wordt met een knock-outtoernooi voor BoN-sampling. In plaats van absolute scores toe te kennen, evalueert Pairwise RM, gegeven een wiskundig probleem, gelijktijdig de juistheid van twee kandidaatoplossingen. Deze benadering elimineert de noodzaak voor willekeurige scoring en maakt validatie van oplossingen mogelijk door middel van parallelle vergelijking. In het knock-outtoernooi voert Pairwise RM pairwise vergelijkingen uit tussen kandidaatoplossingen en elimineert deze iteratief de onjuiste. We construeren \ourdataset, een grootschalige dataset van 443K pairwise vergelijkingen afgeleid van NumiaMath en geannoteerd met gemini-1.5-flash, en trainen de Pairwise RM via begeleid finetunen. Experimenten op MATH-500 en de Olympiad Bench tonen aanzienlijke verbeteringen aan ten opzichte van traditionele discriminerende beloningsmodellen. En er wordt een relatieve verbetering van 40\% tot 60\% bereikt op de meest uitdagende 50\% van de problemen.

Fast3R: Naar 3D-reconstructie van 1000+ afbeeldingen in één voorwaartse doorgang
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

Jan 23

ByJianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli

Multi-view 3D-reconstructie blijft een kernuitdaging in computervisie, met name in toepassingen die nauwkeurige en schaalbare representaties vereisen vanuit diverse perspectieven. Huidige toonaangevende methoden zoals DUSt3R maken gebruik van een fundamenteel paarsgewijze benadering, waarbij afbeeldingen paar voor paar worden verwerkt en kostbare globale uitlijningsprocedures nodig zijn om te reconstrueren vanuit meerdere weergaven. In dit werk stellen we Fast 3D-reconstructie (Fast3R) voor, een nieuwe multi-view generalisatie van DUSt3R die efficiënte en schaalbare 3D-reconstructie bereikt door vele weergaven parallel te verwerken. De op Transformer gebaseerde architectuur van Fast3R stuurt N afbeeldingen door in een enkele voorwaartse stap, waardoor de noodzaak voor iteratieve uitlijning wordt omzeild. Door uitgebreide experimenten op camerapositieschatting en 3D-reconstructie toont Fast3R state-of-the-art prestaties, met aanzienlijke verbeteringen in inferentiesnelheid en verminderde foutenaccumulatie. Deze resultaten vestigen Fast3R als een robuust alternatief voor multi-view toepassingen, met verbeterde schaalbaarheid zonder in te leveren op reconstructienauwkeurigheid.

IntellAgent: Een Multi-Agent Framework voor het Evalueren van Conversational AI Systemen
IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

Jan 19

ByElad Levi, Ilan Kadar

Grote Taalmodellen (LLM's) transformeren kunstmatige intelligentie en evolueren naar taakgerichte systemen die in staat zijn tot autonome planning en uitvoering. Een van de belangrijkste toepassingen van LLM's is conversatie AI-systemen, die zich moeten begeven in meerdelige dialogen, domeinspecifieke API's moeten integreren en zich moeten houden aan strikte beleidsbeperkingen. Het evalueren van deze agenten blijft echter een grote uitdaging, aangezien traditionele methoden niet in staat zijn om de complexiteit en variabiliteit van interacties in de echte wereld vast te leggen. We introduceren IntellAgent, een schaalbaar, open-source multi-agent framework dat is ontworpen om conversatie AI-systemen grondig te evalueren. IntellAgent automatiseert de creatie van diverse, synthetische benchmarks door beleidsgestuurde grafische modellering, realistische gebeurtenisgeneratie en interactieve gebruikers-agent simulaties te combineren. Deze innovatieve aanpak biedt gedetailleerde diagnostiek, waarbij de beperkingen van statische en handmatig samengestelde benchmarks met grofkorrelige metrieken worden aangepakt. IntellAgent vertegenwoordigt een paradigmaverschuiving in de evaluatie van conversatie AI. Door realistische, multipolitie scenario's te simuleren over verschillende niveaus van complexiteit, legt IntellAgent de genuanceerde wisselwerking tussen agentcapaciteiten en beleidsbeperkingen vast. In tegenstelling tot traditionele methoden maakt het gebruik van een op grafieken gebaseerd beleidsmodel om relaties, waarschijnlijkheden en complexiteiten van beleidsinteracties voor te stellen, waardoor zeer gedetailleerde diagnostiek mogelijk is. IntellAgent identificeert ook kritieke prestatieverschillen en biedt bruikbare inzichten voor gerichte optimalisatie. Het modulaire, open-source ontwerp ondersteunt naadloze integratie van nieuwe domeinen, beleidsregels en API's, wat reproduceerbaarheid en samenwerking in de gemeenschap bevordert. Onze bevindingen tonen aan dat IntellAgent een effectief kader vormt voor het bevorderen van conversatie AI door uitdagingen in het overbruggen van onderzoek en implementatie aan te pakken. Het framework is beschikbaar op https://github.com/plurai-ai/intellagent.

DeepSeek-R1: Het stimuleren van redeneervermogen in LLM's via Reinforcement Learning
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

420