AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Seed1.5-VL Technisch Rapport
Seed1.5-VL Technical Report

May 11

ByDong Guo, Faming Wu, Feida Zhu, Fuxing Leng, Guang Shi, Haobin Chen, Haoqi Fan, Jian Wang, Jianyu Jiang, Jiawei Wang, Jingji Chen, Jingjia Huang, Kang Lei, Liping Yuan, Lishu Luo, Pengfei Liu, Qinghao Ye, Rui Qian, Shen Yan, Shixiong Zhao, Shuai Peng, Shuangye Li, Sihang Yuan, Sijin Wu, Tianheng Cheng, Weiwei Liu, Wenqian Wang, Xianhan Zeng, Xiao Liu, Xiaobo Qin, Xiaohan Ding, Xiaojun Xiao, Xiaoying Zhang, Xuanwei Zhang, Xuehan Xiong, Yanghua Peng, Yangrui Chen, Yanwei Li, Yanxu Hu, Yi Lin, Yiyuan Hu, Yiyuan Zhang, Youbin Wu, Yu Li, Yudong Liu, Yue Ling, Yujia Qin, Zanbo Wang, Zhiwu He, Aoxue Zhang, Bairen Yi, Bencheng Liao, Can Huang, Can Zhang, Chaorui Deng, Chaoyi Deng, Cheng Lin, Cheng Yuan, Chenggang Li, Chenhui Gou, Chenwei Lou, Chengzhi Wei, Chundian Liu, Chunyuan Li, Deyao Zhu, Donghong Zhong, Feng Li, Feng Zhang, Gang Wu, Guodong Li, Guohong Xiao, Haibin Lin, Haihua Yang, Haoming Wang, Heng Ji, Hongxiang Hao, Hui Shen, Huixia Li, Jiahao Li, Jialong Wu, Jianhua Zhu, Jianpeng Jiao, Jiashi Feng, Jiaze Chen, Jianhui Duan, Jihao Liu, Jin Zeng, Jingqun Tang, Jingyu Sun, Joya Chen, Jun Long, Junda Feng, Junfeng Zhan, Junjie Fang, Junting Lu, Kai Hua, Kai Liu, Kai Shen, Kaiyuan Zhang, Ke Shen, Ke Wang, Keyu Pan, Kun Zhang, Kunchang Li, Lanxin Li, Lei Li, Lei Shi, Li Han, Liang Xiang, Liangqiang Chen, Lin Chen, Lin Li, Lin Yan, Liying Chi, Longxiang Liu, Mengfei Du, Mingxuan Wang, Ningxin Pan, Peibin Chen, Pengfei Chen, Pengfei Wu, Qingqing Yuan, Qingyao Shuai, Qiuyan Tao, Renjie Zheng, Renrui Zhang, Ru Zhang, Rui Wang, Rui Yang, Rui Zhao, Shaoqiang Xu, Shihao Liang, Shipeng Yan, Shu Zhong, Shuaishuai Cao, Shuangzhi Wu, Shufan Liu, Shuhan Chang, Songhua Cai, Tenglong Ao, Tianhao Yang, Tingting Zhang, Wanjun Zhong, Wei Jia, Wei Weng, Weihao Yu, Wenhao Huang, Wenjia Zhu, Wenli Yang, Wenzhi Wang, Xiang Long, XiangRui Yin, Xiao Li, Xiaolei Zhu, Xiaoying Jia, Xijin Zhang, Xin Liu, Xinchen Zhang, Xinyu Yang, Xiongcai Luo, Xiuli Chen, Xuantong Zhong, Xuefeng Xiao, Xujing Li, Yan Wu, Yawei Wen, Yifan Du, Yihao Zhang, Yining Ye, Yonghui Wu, Yu Liu, Yu Yue, Yufeng Zhou, Yufeng Yuan, Yuhang Xu, Yuhong Yang, Yun Zhang, Yunhao Fang, Yuntao Li, Yurui Ren, Yuwen Xiong, Zehua Hong, Zehua Wang, Zewei Sun, Zeyu Wang, Zhao Cai, Zhaoyue Zha, Zhecheng An, Zhehui Zhao, Zhengzhuo Xu, Zhipeng Chen, Zhiyong Wu, Zhuofan Zheng, Zihao Wang, Zilong Huang, Ziyu Zhu, Zuquan Song

154

We presenteren Seed1.5-VL, een vision-language foundation model ontworpen om algemene multimodale begrips- en redeneervaardigheden te bevorderen. Seed1.5-VL bestaat uit een vision encoder met 532 miljoen parameters en een Mixture-of-Experts (MoE) LLM met 20 miljard actieve parameters. Ondanks de relatief compacte architectuur levert het sterke prestaties op een breed scala aan publieke VLM-benchmarks en interne evaluatiesuites, waarbij het state-of-the-art prestaties behaalt op 38 van de 60 publieke benchmarks. Bovendien overtreft Seed1.5-VL toonaangevende multimodale systemen, waaronder OpenAI CUA en Claude 3.7, in agent-gerichte taken zoals GUI-besturing en gameplay. Naast visueel en video-begrip toont het ook sterke redeneervaardigheden, waardoor het bijzonder effectief is voor multimodale redeneeruitdagingen zoals visuele puzzels. Wij geloven dat deze mogelijkheden bredere toepassingen over diverse taken zullen mogelijk maken. In dit rapport bieden we voornamelijk een uitgebreide evaluatie van onze ervaringen met het bouwen van Seed1.5-VL, met betrekking tot modelontwerp, dataconstructie en training in verschillende fasen, in de hoop dat dit rapport verder onderzoek zal inspireren. Seed1.5-VL is nu toegankelijk op https://www.volcengine.com/ (Volcano Engine Model ID: doubao-1-5-thinking-vision-pro-250428).

MiMo: Het redeneervermogen van taalmodelen ontsluiten -- Van vooraf trainen tot na-trainen
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

May 12

ByXiaomi LLM-Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue

We presenteren MiMo-7B, een groot taalmodel ontwikkeld voor redeneertaken, met optimalisaties in zowel de voor- als na-trainingsfasen. Tijdens de voorbereidende training versterken we de gegevensverwerkingspijplijn en gebruiken we een drietraps strategie voor het mengen van gegevens om het redeneervermogen van het basismodel te versterken. MiMo-7B-Base is voorgetraind op 25 biljoen tokens, met een aanvullende Multi-Token Voorspellingsdoelstelling voor verbeterde prestaties en versnelde inferentiesnelheid. Tijdens de na-training hebben we een dataset samengesteld van 130K verifieerbare wiskundige en programmeerproblemen voor reinforcement learning, waarbij we een testmoeilijkheidsgestuurd code-beloningsschema integreren om problemen met schaarse beloningen te verlichten en strategische gegevensherbemonstering toepassen om de training te stabiliseren. Uitgebreide evaluaties tonen aan dat MiMo-7B-Base een uitzonderlijk redeneervermogen heeft en zelfs veel grotere 32B-modellen overtreft. Het uiteindelijke RL-afgestemde model, MiMo-7B-RL, behaalt superieure prestaties op wiskundige, code- en algemene redeneertaken en overtreft de prestaties van OpenAI o1-mini. De modelcheckpoints zijn beschikbaar op https://github.com/xiaomimimo/MiMo.

Step1X-3D: Op weg naar hoogwaardige en controleerbare generatie van getextureerde 3D-assets
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

May 12

ByWeiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan

Hoewel generatieve kunstmatige intelligentie aanzienlijke vooruitgang heeft geboekt op het gebied van tekst, beeld, audio en video, blijft 3D-generatie relatief onderontwikkeld vanwege fundamentele uitdagingen zoals dataschaarste, algoritmische beperkingen en ecosysteemfragmentatie. Daarom presenteren wij Step1X-3D, een open framework dat deze uitdagingen aanpakt door: (1) een rigoureus datacuratiepipeline die meer dan 5M assets verwerkt om een dataset van 2M hoogwaardige assets te creëren met gestandaardiseerde geometrische en textuureigenschappen; (2) een tweestaps 3D-native architectuur die een hybride VAE-DiT geometriegenerator combineert met een op diffusie gebaseerde textuursynthesemodule; en (3) de volledige open-source release van modellen, trainingscode en aanpassingsmodules. Voor geometriegeneratie produceert de hybride VAE-DiT-component TSDF-representaties door gebruik te maken van perceiver-gebaseerde latente codering met scherpe randbemonstering voor detailbehoud. De op diffusie gebaseerde textuursynthesemodule zorgt vervolgens voor consistentie tussen verschillende aanzichten door geometrische conditionering en latent-ruimtesynchronisatie. Benchmarkresultaten tonen state-of-the-art prestaties die bestaande open-source methoden overtreffen, terwijl ook concurrerende kwaliteit wordt bereikt met propriëtaire oplossingen. Opmerkelijk is dat het framework uniek de 2D- en 3D-generatieparadigma's verbindt door directe overdracht van 2D-controletechnieken (bijv. LoRA) naar 3D-synthese te ondersteunen. Door tegelijkertijd de datakwaliteit, algoritmische nauwkeurigheid en reproduceerbaarheid te verbeteren, streeft Step1X-3D ernaar nieuwe standaarden te vestigen voor open onderzoek in beheersbare 3D-assetgeneratie.

Leren van peers in redeneermodellen
Learning from Peers in Reasoning Models

May 12

ByTongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang

Grote Redeneermodellen (LRMs) hebben het vermogen om zichzelf te corrigeren, zelfs wanneer ze fouten maken in hun redeneerpaden. Uit ons onderzoek blijkt echter dat wanneer het redeneerproces begint met een kort maar slecht begin, het voor het model moeilijk wordt om te herstellen. We verwijzen naar dit fenomeen als de "Prefix Dominance Trap". Geïnspireerd door psychologische bevindingen dat interactie met peers zelfcorrectie kan bevorderen zonder negatieve gevolgen voor reeds accurate individuen, stellen we **Learning from Peers** (LeaP) voor om dit fenomeen aan te pakken. Specifiek samenvat elk redeneerpad zijn tussentijdse redenering en deelt deze met anderen via een routeringsmechanisme, waardoor paden tijdens de inferentie inzichten van peers kunnen integreren. We merken echter op dat kleinere modellen soms moeite hebben om samenvattings- en reflectie-instructies effectief op te volgen. Om dit aan te pakken, fine-tunen we ze in onze **LeaP-T** modelreeks. Experimenten op AIME 2024, AIME 2025, AIMO 2025 en GPQA Diamond tonen aan dat LeaP aanzienlijke verbeteringen biedt. QwQ-32B met LeaP behaalt bijvoorbeeld bijna 5 absolute punten hoger dan de baseline gemiddeld, en overtreft DeepSeek-R1-671B op drie wiskundige benchmarks met een gemiddelde winst van 3,3 punten. Opmerkelijk is dat onze gefinetunede LeaP-T-7B de prestaties van DeepSeek-R1-Distill-Qwen-14B op AIME 2024 evenaart. Diepgaande analyse onthult de robuuste foutcorrectie van LeaP door tijdige inzichten van peers, wat sterke fouttolerantie en het omgaan met verschillende taakmoeilijkheden aantoont. LeaP markeert een mijlpaal door LRMs in staat te stellen samen te werken tijdens het redeneren. Onze code, datasets en modellen zijn beschikbaar op https://learning-from-peers.github.io/.

Unified Continue Generatieve Modellen
Unified Continuous Generative Models

May 12

ByPeng Sun, Yi Jiang, Tao Lin

Recente vooruitgang in continue generatieve modellen, waaronder multi-stapbenaderingen zoals diffusie en flow-matching (meestal 8-1000 steppen vereisend) en few-stepmethoden zoals consistentiemodellen (meestal 1-8 steppen), heeft indrukwekkende generatieve prestaties laten zien. Bestaand werk behandelt deze benaderingen echter vaak als afzonderlijke paradigma's, wat resulteert in aparte trainings- en samplingmethodologieën. Wij introduceren een geïntegreerd raamwerk voor het trainen, samplen en analyseren van deze modellen. Onze implementatie, de Unified Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), behaalt state-of-the-art (SOTA) prestaties. Zo bereikt UCGM-T op ImageNet 256x256 met een 675M diffusietransformer een multi-stapmodel met een FID van 1,30 in 20 steppen en een few-stepmodel met een FID van 1,42 in slechts 2 steppen. Daarnaast verbetert het toepassen van UCGM-S op een voorgetraind model (voorheen 1,26 FID bij 250 steppen) de prestaties tot 1,06 FID in slechts 40 steppen. De code is beschikbaar op: https://github.com/LINs-lab/UCGM.

DanceGRPO: GRPO ontketenen in visuele generatie
DanceGRPO: Unleashing GRPO on Visual Generation

May 12

ByZeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo

Recente doorbraken in generatieve modellen—met name diffusiemodellen en gerechtificeerde stromen—hebben een revolutie teweeggebracht in het creëren van visuele inhoud, maar het afstemmen van modeluitkomsten op menselijke voorkeuren blijft een kritieke uitdaging. Bestaande methoden voor visuele generatie op basis van reinforcement learning (RL) kampen met belangrijke beperkingen: incompatibiliteit met moderne samplingparadigma's gebaseerd op Ordinary Differential Equations (ODE's), instabiliteit bij grootschalige training, en een gebrek aan validatie voor videogeneratie. Dit artikel introduceert DanceGRPO, het eerste geïntegreerde framework dat Group Relative Policy Optimization (GRPO) aanpast aan visuele generatieparadigma's, waardoor één geïntegreerd RL-algoritme wordt vrijgegeven over twee generatieve paradigma's (diffusiemodellen en gerechtificeerde stromen), drie taken (tekst-naar-beeld, tekst-naar-video, beeld-naar-video), vier basis modellen (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V), en vijf beloningsmodellen (beeld/video-esthetiek, tekst-beeld-uitlijning, videobewegingskwaliteit, en binaire beloning). Voor zover wij weten, is DanceGRPO het eerste RL-gebaseerde geïntegreerde framework dat naadloos kan worden aangepast aan diverse generatieve paradigma's, taken, basis modellen, en beloningsmodellen. DanceGRPO toont consistente en aanzienlijke verbeteringen, die de referentiemodellen met tot wel 181% overtreffen op benchmarks zoals HPS-v2.1, CLIP Score, VideoAlign, en GenEval. Opmerkelijk is dat DanceGRPO niet alleen beleidsoptimalisatie kan stabiliseren voor complexe videogeneratie, maar ook het generatieve beleid in staat stelt om denoising-trajectories beter vast te leggen voor Best-of-N inferentieschaling en te leren van schaarse binaire feedback. Onze resultaten positioneren DanceGRPO als een robuuste en veelzijdige oplossing voor het schalen van Reinforcement Learning from Human Feedback (RLHF) taken in visuele generatie, en bieden nieuwe inzichten in het harmoniseren van reinforcement learning en visuele synthese. De code zal worden vrijgegeven.

REFINE-AF: Een taakonafhankelijk raamwerk om taalmodelen af te stemmen via zelfgegenereerde instructies met behulp van reinforcement learning op basis van geautomatiseerde feedback
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

May 10

ByAniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal

Instructie-gebaseerde Large Language Models (LLMs) hebben hun effectiviteit bewezen in tal van few-shot of zero-shot Natural Language Processing (NLP)-taken. Het creëren van door mensen geannoteerde instructiedata is echter tijdrovend, kostbaar en vaak beperkt in hoeveelheid en taakdiversiteit. Eerdere onderzoeksinspanningen hebben geprobeerd deze uitdaging aan te pakken door frameworks voor te stellen die in staat zijn om op een semi-geautomatiseerde en taakagnostische manier instructies te genereren, rechtstreeks vanuit het model zelf. Veel van deze inspanningen hebben vertrouwd op grote API-only parametergebaseerde modellen zoals GPT-3.5 (175B), die duur zijn en onderhevig aan limieten op het aantal queries. Dit artikel onderzoekt de prestaties van drie open-source kleine LLMs, zoals LLaMA 2-7B, LLaMA 2-13B en Mistral 7B, met behulp van een semi-geautomatiseerd framework, waardoor de menselijke interventie, inspanning en kosten die nodig zijn om een instructiedataset te genereren voor het finetunen van LLMs worden verminderd. Bovendien tonen we aan dat het integreren van een Reinforcement Learning (RL)-gebaseerd trainingsalgoritme in dit LLM-gebaseerde framework tot verdere verbeteringen leidt. Onze evaluatie van de dataset laat zien dat deze RL-gebaseerde frameworks een aanzienlijke verbetering bereiken in 63-66% van de taken in vergelijking met eerdere benaderingen.

Skywork-VL Reward: Een Effectief Beloningsmodel voor Multimodaal Begrip en Redeneren
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12

ByXiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou

Wij stellen Skywork-VL Reward voor, een multimodaal beloningsmodel dat beloningssignalen biedt voor zowel multimodale begrips- als redeneertaken. Onze technische aanpak bestaat uit twee belangrijke componenten: Ten eerste construeren we een grootschalige multimodale voorkeursdataset die een breed scala aan taken en scenario's omvat, met reacties verzameld van zowel standaard visie-taalmodellen (VLMs) als geavanceerde VLM-redeneerders. Ten tweede ontwerpen we een beloningsmodelarchitectuur gebaseerd op Qwen2.5-VL-7B-Instruct, waarbij we een beloningskop integreren en een meerfasige fine-tuning toepassen met behulp van paarsgewijze rangschikkingsverlies op paarsgewijze voorkeursdata. Experimentele evaluaties tonen aan dat Skywork-VL Reward state-of-the-art resultaten behaalt op de multimodale VL-RewardBench en competitieve prestaties vertoont op de tekstuele RewardBench-benchmark. Bovendien blijkt voorkeursdata die is geconstrueerd op basis van onze Skywork-VL Reward zeer effectief te zijn voor het trainen van Mixed Preference Optimization (MPO), wat leidt tot aanzienlijke verbeteringen in multimodale redeneervaardigheden. Onze resultaten onderstrepen Skywork-VL Reward als een belangrijke vooruitgang richting algemene, betrouwbare beloningsmodellen voor multimodale afstemming. Ons model is openbaar vrijgegeven om transparantie en reproduceerbaarheid te bevorderen.

AttentionInfluence: Het Adopteren van Attention Head Invloed voor Zwak-naar-Sterk Voorbereidende Data Selectie
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

May 12

ByKai Hua, Steven Wu, Ge Zhang, Ke Shen

Recentelijk is er een groeiende interesse ontstaan in het verzamelen van trainingsdata die intensief redeneren vereist, om het complexe redeneervermogen van grote taalmodelen (LLMs) te verbeteren. Eerdere benaderingen vertrouwen doorgaans op begeleide classificatiemodellen om dergelijke data te identificeren, wat labeling door mensen of LLMs vereist en vaak domeinspecifieke vooroordelen introduceert. Gezien de cruciale rol van aandachtskoppen (attention heads) bij in-context redeneren, stellen we AttentionInfluence voor, een eenvoudige maar effectieve, trainingsvrije methode zonder begeleidingssignaal. Onze aanpak stelt een klein voorgetraind taalmodel in staat om als een sterke dataselector te fungeren door middel van een eenvoudige maskeringsoperatie van aandachtskoppen. Specifiek identificeren we retrieval heads en berekenen we het verschil in verlies bij het maskeren van deze koppen. We passen AttentionInfluence toe op een dicht model met 1,3 miljard parameters om dataselectie uit te voeren op het SmolLM-corpus van 241 miljard tokens, en mengen het SmolLM-corpus met de geselecteerde subset van 73 miljard tokens om een dicht model met 7 miljard parameters voor te trainen met 1 biljoen trainings-tokens en WSD-leersnelheidsplanning. Onze experimentele resultaten laten aanzienlijke verbeteringen zien, variërend van 1,4 tot 3,5 procentpunt, over verschillende kennisintensieve en redeneerzware benchmarks (zoals MMLU, MMLU-Pro, AGIEval-en, GSM8K en HumanEval). Dit toont een effectieve zwak-naar-sterk schaaleigenschap aan, waarbij kleine modellen de uiteindelijke prestaties van grotere modellen verbeteren—wat een veelbelovende en schaalbare weg biedt voor redeneringsgerichte dataselectie.

Leerdynamiek in voortgezette voorafgaande training voor grote taalmodelen
Learning Dynamics in Continual Pre-Training for Large Language Models

May 12

ByXingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng

Continueel Voor-Trainen (CPT) is een populaire en effectieve methode geworden om krachtige basis modellen toe te passen op specifieke downstream taken. In dit werk onderzoeken we de leer dynamiek gedurende het CPT-proces voor grote taalmodellen. We richten ons specifiek op hoe de prestaties in het algemene en downstream domein evolueren bij elke trainingsstap, waarbij domeinprestaties worden gemeten via validatieverliezen. We hebben geobserveerd dat de CPT-verliescurve fundamenteel de overgang van één curve naar een andere verborgen curve karakteriseert, en kan worden beschreven door de effecten van distributieverschuiving en leerrate-afname te ontkoppelen. We leiden een CPT-schaalwet af die deze twee factoren combineert, waardoor het mogelijk wordt om het verlies te voorspellen bij elke (continue) trainingsstap en over verschillende leerrate schema's (LRS) in CPT. Onze formulering biedt een uitgebreid begrip van verschillende kritische factoren in CPT, waaronder verliespotentieel, piekleerrate, trainingsstappen, replay-ratio, enz. Bovendien kan onze aanpak worden aangepast om trainingshyperparameters af te stemmen op verschillende CPT-doelen, zoals het balanceren van algemene en domeinspecifieke prestaties. Uitgebreide experimenten tonen aan dat onze schaalwet standhoudt over verschillende CPT-datasets en trainingshyperparameters.

WebGen-Bench: Het evalueren van LLM's op het genereren van interactieve en functionele websites vanaf nul
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

May 6

ByZimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li

LLM-gebaseerde agents hebben groot potentieel getoond in het genereren en beheren van code binnen complexe codebases. In dit artikel introduceren we WebGen-Bench, een nieuwe benchmark die is ontworpen om het vermogen van een LLM-gebaseerde agent te meten om multi-file website-codebases vanaf nul te creëren. Het bevat diverse instructies voor websitegeneratie, ontwikkeld door de gezamenlijke inspanningen van menselijke annotators en GPT-4o. Deze instructies beslaan drie hoofd- en dertien subcategorieën, die bijna alle belangrijke soorten webapplicaties omvatten. Om de kwaliteit van de gegenereerde websites te beoordelen, gebruiken we GPT-4o om testcases te genereren die gericht zijn op elke functionaliteit die in de instructies wordt beschreven, en filteren, passen we deze handmatig aan en organiseren ze om nauwkeurigheid te waarborgen, wat resulteert in 647 testcases. Elke testcase specificeert een handeling die op de website moet worden uitgevoerd en het verwachte resultaat na de handeling. Om het testen te automatiseren en de reproduceerbaarheid te verbeteren, gebruiken we een krachtige webnavigatie-agent om tests uit te voeren op de gegenereerde websites en te bepalen of de waargenomen reacties overeenkomen met de verwachte resultaten. We evalueren drie hoogwaardige code-agent frameworks, Bolt.diy, OpenHands en Aider, met behulp van meerdere propriëtaire en open-source LLM's als engines. De best presterende combinatie, Bolt.diy aangedreven door DeepSeek-R1, behaalt slechts 27,8% nauwkeurigheid op de testcases, wat de uitdagende aard van onze benchmark benadrukt. Daarnaast construeren we WebGen-Instruct, een trainingsset bestaande uit 6.667 websitegeneratie-instructies. Het trainen van Qwen2.5-Coder-32B-Instruct op Bolt.diy-trajecten gegenereerd uit een subset van deze trainingsset resulteert in een nauwkeurigheid van 38,2%, wat de prestaties van het beste propriëtaire model overtreft.

INTELLECT-2: Een redeneermodel getraind via wereldwijd gedecentraliseerde reinforcement learning
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

May 12

ByPrime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann

We introduceren INTELLECT-2, de eerste wereldwijd gedistribueerde reinforcement learning (RL) training van een taalmodel met 32 miljard parameters. In tegenstelling tot traditionele gecentraliseerde trainingsinspanningen, traint INTELLECT-2 een redeneermodel met volledig asynchrone RL over een dynamische, heterogene zwerm van rekenkrachtbijdragers zonder toestemming. Om een training met deze unieke infrastructuur mogelijk te maken, hebben we verschillende componenten vanaf nul opgebouwd: we introduceren PRIME-RL, ons trainingsframework dat speciaal is ontworpen voor gedistribueerde asynchrone reinforcement learning, gebaseerd op nieuwe componenten zoals TOPLOC, dat rollouts van niet-vertrouwde inferentiewerkers verifieert, en SHARDCAST, dat efficiënt beleidsgewichten uitzendt van trainingsnodes naar inferentiewerkers. Naast infrastructuurcomponenten stellen we aanpassingen voor aan het standaard GRPO-trainingsrecept en gegevensfiltertechnieken die cruciaal waren om trainingsstabiliteit te bereiken en ervoor te zorgen dat ons model zijn trainingsdoel succesvol leerde, waardoor het QwQ-32B, het state-of-the-art redeneermodel in het 32B-parameterbereik, verbeterde. We maken INTELLECT-2 open source, samen met al onze code en gegevens, in de hoop meer open onderzoek op het gebied van gedecentraliseerde training aan te moedigen en mogelijk te maken.

Continue Visuele Autoregressieve Generatie via Scoremaximalisatie
Continuous Visual Autoregressive Generation via Score Maximization

May 12

ByChenze Shao, Fandong Meng, Jie Zhou

De conventionele wijsheid suggereert dat autoregressieve modellen worden gebruikt om discrete gegevens te verwerken. Wanneer ze worden toegepast op continue modaliteiten zoals visuele gegevens, neigt Visual AutoRegressive modeling (VAR) meestal naar op kwantisatie gebaseerde benaderingen om de gegevens in een discrete ruimte om te zetten, wat aanzienlijk informatieverlies kan veroorzaken. Om dit probleem aan te pakken, introduceren we een Continuous VAR-framework dat directe visuele autoregressieve generatie mogelijk maakt zonder vectorkwantisatie. De onderliggende theoretische basis bestaat uit strikt juiste scoringsregels, die krachtige statistische tools bieden die kunnen evalueren hoe goed een generatief model de ware verdeling benadert. Binnen dit framework hoeven we alleen maar een strikt juiste score te selecteren en deze als trainingsdoelstelling in te stellen om te optimaliseren. We onderzoeken voornamelijk een klasse van trainingsdoelstellingen gebaseerd op de energyscore, die likelihood-vrij is en daardoor de moeilijkheid overwint om probabilistische voorspellingen te doen in de continue ruimte. Eerdere inspanningen op het gebied van continue autoregressieve generatie, zoals GIVT en diffusieverlies, kunnen ook worden afgeleid uit ons framework met behulp van andere strikt juiste scores. Broncode: https://github.com/shaochenze/EAR.

MonetGPT: Het Oplossen van Puzzels Verbetert de Afbeeldingsbewerkingsvaardigheden van MLLMs
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

May 9

ByNiladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra

Retoucheren is een essentiële taak in de nabewerking van ruwe foto's. Generatieve bewerking, geleid door tekst of penseelstreken, biedt gebruikers een nieuw toegankelijk hulpmiddel, maar kan de identiteit van de originele objecten op onaanvaardbare en onvoorspelbare manieren veranderen. Daarentegen worden traditionele procedurele bewerkingen, zoals die vaak worden ondersteund door fotobewerkingsprogramma's (bijv. Gimp, Lightroom), hoewel conservatief, nog steeds geprefereerd door professionals. Helaas vereist professionele kwaliteit retoucheren veel individuele procedurele bewerkingen die voor de meeste beginners uitdagend zijn om te plannen. In dit artikel onderzoeken we of een multimodaal groot taalmodel (MLLM) kan worden geleerd om ruwe foto's te beoordelen, geschikte oplossingen voor te stellen en deze uiteindelijk te realiseren met een gegeven set van vooraf geschreven procedurele beeldbewerkingen. We demonstreren dat MLLMs eerst bewust kunnen worden gemaakt van de onderliggende beeldverwerkingsoperaties, door ze te trainen om speciaal ontworpen visuele puzzels op te lossen. Vervolgens kan zo'n operatiebewuste MLLM zowel bewerkingssequenties plannen als voorstellen. Om de training te vergemakkelijken, synthetiseren we, gegeven een set van door experts bewerkte foto's, een redeneerdataset door procedureel de expertbewerkingen te manipuleren en vervolgens een voorgetraind LLM te gronden op de visuele aanpassingen, om redeneringen te synthetiseren voor finetuning. De voorgestelde retoucheerbewerkingen zijn per constructie begrijpelijk voor de gebruikers, behouden objectdetails en resolutie, en kunnen optioneel worden overschreven. We evalueren onze opzet op een verscheidenheid aan testvoorbeelden en tonen voordelen aan, in termen van uitlegbaarheid en identiteitsbehoud, ten opzichte van bestaande generatieve en andere procedurele alternatieven. Code, data, modellen en aanvullende resultaten zijn te vinden via onze projectwebsite op https://monetgpt.github.io.

Versterkte Interne-Externe Kennis Synergetisch Redeneren voor Efficiënte Adaptieve Zoekagenten
Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent

May 12

ByZiyang Huang, Xiaowei Yuan, Yiming Ju, Jun Zhao, Kang Liu

Retrieval-augmented generation (RAG) is een veelgebruikte strategie om hallucinaties in Large Language Models (LLMs) te verminderen. Hoewel reinforcement learning (RL) LLMs kan inzetten als zoekagents door hun retrieval-mogelijkheden te activeren, maken bestaande modellen vaak onvoldoende gebruik van hun interne kennis. Dit kan leiden tot overbodige retrievals, potentieel schadelijke kennisconflicten en verhoogde inferentielatentie. Om deze beperkingen aan te pakken, is er dringend behoefte aan een efficiënt en adaptief zoekagent dat optimale retrieval-timing kan bepalen en parametrische (interne) en opgehaalde (externe) kennis op een synergetische manier kan integreren. Dit artikel introduceert de Reinforced Internal-External Knowledge Synergistic Reasoning Agent (IKEA), die zijn eigen kennisgrens kan identificeren en prioriteit geeft aan het gebruik van interne kennis, waarbij alleen wordt teruggegrepen op externe zoekacties wanneer interne kennis als onvoldoende wordt beschouwd. Dit wordt bereikt met behulp van een nieuwe beloningsfunctie die rekening houdt met de kennisgrens en een trainingsdataset die eveneens kennisgrensbewust is. Deze zijn ontworpen voor RL gericht op synergie tussen interne en externe kennis, waarbij het model wordt gestimuleerd om nauwkeurige antwoorden te geven, onnodige retrievals te minimaliseren en gepaste externe zoekacties aan te moedigen wanneer zijn eigen kennis tekortschiet. Evaluaties over meerdere kennisredeneertaken tonen aan dat IKEA baseline-methoden significant overtreft, de retrievalfrequentie aanzienlijk vermindert en robuuste generalisatiecapaciteiten vertoont.

UMoE: Unificatie van aandacht en FFN met gedeelde experts
UMoE: Unifying Attention and FFN with Shared Experts

May 12

ByYuanhang Yang, Chaozheng Wang, Jing Li

Sparse Mixture of Experts (MoE)-architecturen zijn naar voren gekomen als een veelbelovende aanpak voor het schalen van Transformer-modellen. Terwijl initiële werken MoE voornamelijk integreerden in feedforward netwerk (FFN)-lagen, hebben recente studies het MoE-paradigma uitgebreid naar aandachtslagen om de modelprestaties te verbeteren. Bestaande op aandacht gebaseerde MoE-lagen vereisen echter gespecialiseerde implementaties en vertonen suboptimale prestaties in vergelijking met hun op FFN gebaseerde tegenhangers. In dit artikel streven we ernaar de MoE-ontwerpen in aandacht- en FFN-lagen te verenigen door een nieuwe herformulering van het aandachtmechanisme te introduceren, waarbij een onderliggende FFN-achtige structuur binnen aandachtmodules wordt onthuld. Onze voorgestelde architectuur, UMoE, bereikt superieure prestaties via op aandacht gebaseerde MoE-lagen, terwijl efficiënte parametersharing tussen FFN- en aandachtcomponenten mogelijk wordt gemaakt.

Positie: AI-wedstrijden bieden de gouden standaard voor empirische strengheid in de evaluatie van generatieve AI.
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

May 1

ByD. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating

In dit position paper constateren we dat empirische evaluatie in Generatieve AI zich op een kritiek punt bevindt, aangezien traditionele evaluatie- en benchmarkstrategieën uit het domein van Machine Learning niet toereikend zijn om te voldoen aan de behoeften van het evalueren van moderne GenAI-modellen en -systemen. Hiervoor zijn vele redenen, waaronder het feit dat deze modellen doorgaans een bijna onbegrensde input- en outputruimte hebben, meestal geen goed gedefinieerde grondwaarheid als doel hebben, en vaak sterke feedbackloops en voorspellingsafhankelijkheid vertonen op basis van de context van eerdere modeloutputs. Bovenop deze kritieke problemen stellen we dat de kwesties van {\em leakage} en {\em contaminatie} in feite de belangrijkste en moeilijkst aan te pakken problemen zijn bij GenAI-evaluaties. Interessant genoeg heeft het veld van AI-wedstrijden effectieve maatregelen en praktijken ontwikkeld om leakage tegen te gaan, met als doel het tegengaan van fraude door kwaadwillende actoren binnen een wedstrijdomgeving. Dit maakt AI-wedstrijden een bijzonder waardevolle (maar onderbenutte) bron. Het is nu tijd voor het veld om AI-wedstrijden te zien als de gouden standaard voor empirische strengheid in GenAI-evaluatie, en om hun resultaten dienovereenkomstig te waarderen en te benutten.

DynamicRAG: Gebruik van uitvoer van grote taalmodellen als feedback voor dynamische herrangschikking in retrieval-augmented generatie
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation

May 12

ByJiashuo Sun, Xianrui Zhong, Sizhe Zhou, Jiawei Han

Retrieval-augmented generation (RAG)-systemen combineren grote taalmmodellen (LLMs) met externe kennisretrieval, waardoor ze zeer effectief zijn voor kennisintensieve taken. Een cruciaal maar vaak onderbelicht onderdeel van deze systemen is de herrangschikker (reranker), die opgehaalde documenten verfijnt om de generatiekwaliteit en uitlegbaarheid te verbeteren. De uitdaging van het selecteren van het optimale aantal documenten (k) blijft onopgelost: te weinig documenten kunnen kritieke informatie weglaten, terwijl te veel documenten ruis en inefficiënties introduceren. Hoewel recente studies LLM-gebaseerde herrangschikkers hebben onderzocht, maken ze vooral gebruik van interne modelkennis en negeren ze de rijke superviserende signalen die LLMs kunnen bieden, zoals het gebruik van responskwaliteit als feedback voor het optimaliseren van herrangschikkingsbeslissingen. In dit artikel stellen we DynamicRAG voor, een nieuw RAG-raamwerk waarin de herrangschikker zowel de volgorde als het aantal opgehaalde documenten dynamisch aanpast op basis van de query. We modelleren de herrangschikker als een agent die wordt geoptimaliseerd via reinforcement learning (RL), waarbij beloningen worden afgeleid van de kwaliteit van de LLM-uitvoer. Over zeven kennisintensieve datasets toont DynamicRAG superieure prestaties en behaalt het state-of-the-art resultaten. Het model, de data en de code zijn beschikbaar op https://github.com/GasolSun36/DynamicRAG.

LLAMAPIE: Proactieve In-Ear Gespreksassistenten
LLAMAPIE: Proactive In-Ear Conversation Assistants

May 7

ByTuochao Chen, Nicholas Batchelder, Alisa Liu, Noah Smith, Shyamnath Gollakota

We introduceren LlamaPIE, de eerste real-time proactieve assistent die is ontworpen om menselijke gesprekken te verbeteren door middel van discrete, beknopte begeleiding die wordt geleverd via hoorbare apparaten. In tegenstelling tot traditionele taalmodelen die expliciete gebruikersaanroep vereisen, opereert deze assistent op de achtergrond en anticipeert hij op gebruikersbehoeften zonder gesprekken te onderbreken. We behandelen verschillende uitdagingen, waaronder het bepalen van het juiste moment om te reageren, het formuleren van beknopte reacties die gesprekken versterken, het benutten van gebruikerskennis voor contextbewuste ondersteuning, en real-time verwerking op het apparaat. Om dit te bereiken, construeren we een semi-synthetische dialoogdataset en stellen we een tweemodelpijplijn voor: een klein model dat beslist wanneer te reageren en een groter model dat de reactie genereert. We evalueren onze aanpak op real-world datasets, waarbij we de effectiviteit aantonen in het bieden van behulpzame, onopvallende ondersteuning. Gebruikersstudies met onze assistent, geïmplementeerd op Apple Silicon M2-hardware, tonen een sterke voorkeur voor de proactieve assistent ten opzichte van zowel een baseline zonder ondersteuning als een reactief model, wat het potentieel van LlamaPie benadrukt om live gesprekken te verbeteren.

H^{3}DP: Drievoudig Hiërarchisch Diffusiebeleid voor Visuomotorisch Leren
H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

May 12

ByYiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu

Visuomotorisch beleidsleren heeft aanzienlijke vooruitgang geboekt in robotmanipulatie, waarbij recente benaderingen voornamelijk vertrouwen op generatieve modellen om de actieverdeling te modelleren. Deze methoden negeren echter vaak de cruciale koppeling tussen visuele waarneming en actievoorspelling. In dit werk introduceren we Triply-Hierarchical Diffusion Policy~(H^{\mathbf{3}DP}), een nieuw visuomotorisch leerraamwerk dat expliciet hiërarchische structuren incorporeert om de integratie tussen visuele kenmerken en actiegeneratie te versterken. H^{3}DP bevat 3 niveaus van hiërarchie: (1) dieptegevoelige invoerlaagindeling die RGB-D-waarnemingen organiseert op basis van diepte-informatie; (2) multi-schaal visuele representaties die semantische kenmerken coderen op verschillende niveaus van granulariteit; en (3) een hiërarchisch geconditioneerd diffusieproces dat de generatie van grove tot fijne acties afstemt op overeenkomstige visuele kenmerken. Uitgebreide experimenten tonen aan dat H^{3}DP een gemiddelde relatieve verbetering van +27,5% oplevert ten opzichte van baseline-methoden over 44 simulatietaken en superieure prestaties bereikt in 4 uitdagende bimanuele manipulatietaken in de echte wereld. Projectpagina: https://lyy-iiis.github.io/h3dp/.

Overflowpreventie verbetert recurrent LLMs met lange context.
Overflow Prevention Enhances Long-Context Recurrent LLMs

May 12

ByAssaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes

Een recente trend in LLM's is de ontwikkeling van recurrente sub-kwadratische modellen die de efficiëntie van lang-context verwerking verbeteren. Wij onderzoeken toonaangevende grote lang-context modellen, met de focus op hoe hun vaste grootte van het recurrente geheugen hun prestaties beïnvloedt. Onze experimenten tonen aan dat, zelfs wanneer deze modellen getraind zijn voor uitgebreide contexten, hun gebruik van lange contexten onderbenut blijft. Specifiek demonstreren we dat een chunk-gebaseerde inferentieprocedure, die alleen het meest relevante deel van de input identificeert en verwerkt, recurrente geheugenfouten kan mitigeren en effectief kan zijn voor veel lang-context taken: Op LongBench verbetert onze methode de algehele prestaties van Falcon3-Mamba-Inst-7B met 14%, Falcon-Mamba-Inst-7B met 28%, RecurrentGemma-IT-9B met 50%, en RWKV6-Finch-7B met 51%. Verrassend genoeg leidt deze eenvoudige aanpak ook tot state-of-the-art resultaten in de uitdagende LongBench v2 benchmark, waarbij het competitieve prestaties laat zien met Transformers van vergelijkbare grootte. Bovendien roepen onze bevindingen vragen op over of recurrente modellen daadwerkelijk lange-afhankelijkheden benutten, aangezien onze single-chunk strategie sterkere prestaties levert - zelfs in taken die vermoedelijk cross-context relaties vereisen.

Document Attributie: Onderzoek naar Citatieverbanden met behulp van Grote Taalmodellen
Document Attribution: Examining Citation Relationships using Large Language Models

May 9

ByVipula Rawte, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka

Naarmate Large Language Models (LLMs) steeds vaker worden toegepast op documentgebaseerde taken – zoals documentensamenvatting, vraagbeantwoording en informatie-extractie – waarbij gebruikerseisen zich richten op het ophalen van informatie uit aangeleverde documenten in plaats van te vertrouwen op de parametrische kennis van het model, is het waarborgen van de betrouwbaarheid en interpreteerbaarheid van deze systemen een kritieke zorg geworden. Een centrale benadering om deze uitdaging aan te pakken is attributie, waarbij de gegenereerde uitvoer wordt teruggeleid naar de brondocumenten. Omdat LLMs echter onnauwkeurige of onprecieze antwoorden kunnen produceren, is het cruciaal om de betrouwbaarheid van deze citaties te beoordelen. Om dit aan te pakken, stelt ons werk twee technieken voor. (1) Een zero-shot benadering die attributie behandelt als een eenvoudige tekstuele entailment-taak. Onze methode met flan-ul2 laat een verbetering zien van 0,27% en 2,4% ten opzichte van de beste baseline van de ID- en OOD-sets van AttributionBench, respectievelijk. (2) We onderzoeken ook de rol van het aandachtmechanisme bij het verbeteren van het attributieproces. Met een kleiner LLM, flan-t5-small, overtreffen de F1-scores de baseline in bijna alle lagen, behalve in laag 4 en lagen 8 tot en met 11.

Fysica-ondersteund en topologie-geïnformeerd deep learning voor weersvoorspelling
Physics-Assisted and Topology-Informed Deep Learning for Weather Prediction

May 8

ByJiaqi Zheng, Qing Ling, Yerong Feng

Hoewel deep learning-modellen een opmerkelijk potentieel hebben getoond in weersvoorspelling, negeren de meeste ervan ofwel de fysica van de onderliggende weersontwikkeling, ofwel de topologie van het aardoppervlak. Gezien deze nadelen ontwikkelen we PASSAT, een nieuw Physics-ASSisted And Topology-informed deep learning-model voor weersvoorspelling. PASSAT schrijft de weersontwikkeling toe aan twee belangrijke factoren: (i) het advectieproces dat kan worden gekarakteriseerd door de advectievergelijking en de Navier-Stokes-vergelijking; (ii) de interactie tussen de aarde en de atmosfeer die moeilijk te modelleren en te berekenen is. PASSAT houdt ook rekening met de topologie van het aardoppervlak, in plaats van het simpelweg als een vlak te behandelen. Met deze overwegingen lost PASSAT numeriek de advectievergelijking en de Navier-Stokes-vergelijking op op het sferische oppervlak, gebruikt het een sferisch grafisch neuraal netwerk om de interactie tussen de aarde en de atmosfeer vast te leggen, en genereert het de initiële snelheidsvelden die cruciaal zijn voor het oplossen van de advectievergelijking vanuit hetzelfde sferische grafische neuraal netwerk. In de 5.625°-resolutie ERA5-dataset presteert PASSAT beter dan zowel de state-of-the-art deep learning-gebaseerde weersvoorspellingsmodellen als het operationele numerieke weersvoorspellingsmodel IFS T42. Code en checkpoint zijn beschikbaar op https://github.com/Yumenomae/PASSAT_5p625.

Multi-Doelstelling-Gestuurde Discrete Stroomafstemming voor Beheerbare Biologische Sequentieontwerp
Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design

May 11

ByTong Chen, Yinuo Zhang, Sophia Tang, Pranam Chatterjee

Het ontwerpen van biologische sequenties die voldoen aan meerdere, vaak tegenstrijdige, functionele en biofysische criteria blijft een centrale uitdaging in biomoleculaire engineering. Hoewel discrete flow matching-modellen recentelijk veelbelovend zijn gebleken voor efficiënte steekproefname in hoogdimensionale sequentieruimten, richten bestaande benaderingen zich slechts op enkele doelstellingen of vereisen ze continue inbeddingen die discrete verdelingen kunnen verstoren. Wij presenteren Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), een algemeen raamwerk om elke vooraf getrainde discrete-time flow matching-generator te sturen naar Pareto-efficiënte afwegingen over meerdere scalaire doelstellingen. Bij elke steekproefstap berekent MOG-DFM een hybride rangrichtingsscore voor kandidaatovergangen en past een adaptief hyperconefilter toe om consistente multi-objectieve voortgang af te dwingen. We hebben ook twee onvoorwaardelijke discrete flow matching-modellen getraind, PepDFM voor diverse peptidegeneratie en EnhancerDFM voor functionele enhancer DNA-generatie, als basisgeneratiemodellen voor MOG-DFM. We demonstreren de effectiviteit van MOG-DFM bij het genereren van peptidebinders die zijn geoptimaliseerd over vijf eigenschappen (hemolyse, niet-vervuiling, oplosbaarheid, halfwaardetijd en bindingsaffiniteit), en bij het ontwerpen van DNA-sequenties met specifieke enhancerklassen en DNA-vormen. In het algemeen blijkt MOG-DFM een krachtig hulpmiddel te zijn voor multi-eigenschap-gestuurde biomoleculaire sequentieontwerp.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Seed1.5-VL Technisch Rapport
Seed1.5-VL Technical Report

May 11

154

MiMo: Het redeneervermogen van taalmodelen ontsluiten -- Van vooraf trainen tot na-trainen
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

May 12

Step1X-3D: Op weg naar hoogwaardige en controleerbare generatie van getextureerde 3D-assets
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

May 12

Leren van peers in redeneermodellen
Learning from Peers in Reasoning Models

May 12

ByTongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang

Unified Continue Generatieve Modellen
Unified Continuous Generative Models

May 12

ByPeng Sun, Yi Jiang, Tao Lin

DanceGRPO: GRPO ontketenen in visuele generatie
DanceGRPO: Unleashing GRPO on Visual Generation

May 12

ByZeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo

REFINE-AF: Een taakonafhankelijk raamwerk om taalmodelen af te stemmen via zelfgegenereerde instructies met behulp van reinforcement learning op basis van geautomatiseerde feedback
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

May 10

ByAniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal

Skywork-VL Reward: Een Effectief Beloningsmodel voor Multimodaal Begrip en Redeneren
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12

ByXiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou

AttentionInfluence: Het Adopteren van Attention Head Invloed voor Zwak-naar-Sterk Voorbereidende Data Selectie
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

May 12

ByKai Hua, Steven Wu, Ge Zhang, Ke Shen

Leerdynamiek in voortgezette voorafgaande training voor grote taalmodelen
Learning Dynamics in Continual Pre-Training for Large Language Models

May 12

ByXingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng

WebGen-Bench: Het evalueren van LLM's op het genereren van interactieve en functionele websites vanaf nul
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

May 6

ByZimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li

INTELLECT-2: Een redeneermodel getraind via wereldwijd gedecentraliseerde reinforcement learning
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

May 12

Continue Visuele Autoregressieve Generatie via Scoremaximalisatie
Continuous Visual Autoregressive Generation via Score Maximization

May 12

ByChenze Shao, Fandong Meng, Jie Zhou

MonetGPT: Het Oplossen van Puzzels Verbetert de Afbeeldingsbewerkingsvaardigheden van MLLMs
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

May 9

ByNiladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra

Versterkte Interne-Externe Kennis Synergetisch Redeneren voor Efficiënte Adaptieve Zoekagenten
Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent

May 12

ByZiyang Huang, Xiaowei Yuan, Yiming Ju, Jun Zhao, Kang Liu

UMoE: Unificatie van aandacht en FFN met gedeelde experts
UMoE: Unifying Attention and FFN with Shared Experts

May 12

ByYuanhang Yang, Chaozheng Wang, Jing Li

Positie: AI-wedstrijden bieden de gouden standaard voor empirische strengheid in de evaluatie van generatieve AI.
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

May 1

ByD. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating