每日精选AI研究论文及翻译
链式思维(CoT)提示法已被证明能够提升大型语言模型(LLM)在多种任务上的表现。采用这种方法时,LLM在给出答案前似乎会生成类似人类的推理步骤(即CoT推理),这常常让人误以为它们在进行有意识的推断过程。然而,一些初步研究指出,CoT推理可能比表面看起来更为肤浅,这促使我们进一步探索。本文中,我们通过数据分布的视角研究CoT推理,探讨其是否反映了从分布内数据中学习到的结构化归纳偏差,使得模型能够条件性地生成近似于训练期间所见推理路径的推理步骤。因此,其有效性从根本上受限于训练数据与测试查询之间分布差异的程度。基于这一视角,我们从任务、长度和格式三个维度剖析CoT推理。为探究每一维度,我们设计了DataAlchemy,一个隔离且受控的环境,用于从头训练LLM,并在不同分布条件下系统性地探测它们。我们的研究结果表明,CoT推理是一种脆弱的幻象,一旦超出训练分布范围便会消失。这项工作深化了我们对CoT推理为何及何时失效的理解,强调了实现真正且可泛化推理的持续挑战。
近期研究深入探索了构建能够执行复杂图形用户界面(GUI)计算机任务的自主代理,这些研究有望彻底改变人机交互方式。尽管取得了令人鼓舞的成果,现有工作主要集中于短期交互,并依赖仅基于结果的验证,这限制了它们在现实世界GUI应用中的可扩展性,这些应用通常需要长时程任务分解与执行。本研究中,我们引入了VeriGUI,一个新颖的可验证长链GUI数据集,旨在促进在真实计算机环境中运行的通才GUI代理的开发与评估。我们的数据集强调两个关键维度:(1) 长链复杂性,任务被分解为一系列相互依赖的子任务,跨越数百个步骤,明确设计为允许任何子任务作为有效起点;(2) 子任务级可验证性,支持在每个子任务内采用多样化探索策略,同时确保每个子任务级目标保持可验证且一致。该数据集包含由人类专家标注的桌面和网页GUI任务轨迹。在VeriGUI上使用不同基础模型的各种代理进行的大量实验揭示了在处理长时程任务时存在的显著性能差距,凸显了GUI代理在规划与决策能力方面需要更加鲁棒。
大型语言模型(LLM)驱动代理的卓越能力,使得复杂系统能够应对多步骤任务,但其不断攀升的成本威胁着系统的可扩展性和可访问性。本研究首次系统性地探讨了现代代理系统中效率与效能之间的权衡,旨在满足在不牺牲性能的前提下实现成本效益设计的迫切需求。我们探究了三个关键问题:(1)代理任务本质上需要多少复杂度?(2)何时额外模块的加入会带来收益递减?(3)通过设计高效代理框架,能在多大程度上提升效率?基于GAIA基准的实证分析,我们评估了LLM主干选择、代理框架设计及测试时扩展策略的影响。采用“通过成本”指标,我们量化了这些维度上的效率-性能权衡。研究结果指导了“高效代理”这一新型代理框架的开发,该框架具备与任务需求相匹配的最优复杂度。高效代理在保持开源领先代理框架OWL 96.7%性能的同时,将运营成本从0.398降至0.228,实现了通过成本28.4%的提升。我们的工作为设计高效、高性能的代理系统提供了可操作的见解,推动了AI驱动解决方案的可访问性与可持续性发展。
我们推出Agent Lightning,这是一个灵活且可扩展的框架,旨在为任何AI智能体实现基于强化学习(RL)的大型语言模型(LLMs)训练。与现有方法不同,这些方法通常将RL训练与智能体紧密耦合,或依赖于序列拼接与掩码技术,Agent Lightning实现了智能体执行与训练的完全解耦,使得能够无缝集成通过多种方式开发的现有智能体(例如,使用LangChain、OpenAI Agents SDK、AutoGen等框架,或从零构建),几乎无需代码修改。通过将智能体执行建模为马尔可夫决策过程,我们定义了一个统一的数据接口,并提出了一种分层RL算法——LightningRL,该算法包含一个信用分配模块,使我们能够将任何智能体生成的轨迹分解为训练转换。这使得RL能够处理复杂的交互逻辑,如多智能体场景和动态工作流。在系统设计方面,我们引入了训练-智能体分离架构,并将智能体可观测性框架引入智能体运行时,提供了一个标准化的智能体微调接口。在文本到SQL、检索增强生成和数学工具使用任务上的实验,展示了稳定且持续的改进,凸显了该框架在实际智能体训练与部署中的潜力。
关于强化学习(RL)在大语言模型(LLMs)应用的研究,主要集中在单轮问题上,如数学推理或单次代码生成。尽管这些问题可被视为令牌级别的多轮马尔可夫决策过程(MDPs),但这种视角对应的是环境不提供反馈的多轮交互退化情形。这与许多现实世界领域形成鲜明对比,例如软件工程(SWE),这些领域需要与有状态环境进行丰富的多轮交互,环境对每个动作都会给出非平凡的反馈。 为弥合这一差距,我们展示了RL在这一通用领域的成功应用。通过改进的解耦优势策略优化(DAPO)算法,我们训练了一个基于Qwen2.5-72B-Instruct的代理,以解决现实世界的软件工程任务。我们的方法将代理在SWE-bench Verified基准上的成功率从20%的拒绝微调基线提升至39%,且无需依赖任何教师模型。在SWE-rebench上,我们的代理在相同框架下与DeepSeek-V3-0324和Qwen3-235B-A22B等领先的开源权重模型持平或超越,为基于开放模型构建更强大的自主代理以应对复杂现实问题提供了可行路径。
将大规模视觉语言模型(LVLMs)重新定位为计算机使用代理(CUAs)已带来重大突破,这主要得益于人工标注数据的驱动。然而,这些模型在面对新颖且专业化的软件时往往表现不佳,尤其是在缺乏人工标注的场景中。为应对这一挑战,我们提出了SEAgent,一个自进化代理框架,使CUAs能够通过与陌生软件的交互实现自主进化。具体而言,SEAgent赋予计算机使用代理通过经验学习自主掌握新软件环境的能力,在此过程中,代理探索新软件,通过迭代试错学习,并逐步解决从简单到复杂自动生成的任务。为实现这一目标,我们设计了一个用于逐步轨迹评估的世界状态模型,以及一个生成日益多样化和挑战性任务的课程生成器。代理的策略通过经验学习进行更新,包括对失败动作的对抗性模仿和对成功动作的群体相对策略优化(GRPO)。此外,我们引入了一种从专家到通才的训练策略,整合来自专家代理的个体经验洞察,促进能够持续自主进化的更强通才CUA的发展。这一统一代理最终在各自专业软件上的表现超越了单个专家代理的集合。我们在OS-World中的五个新软件环境中验证了SEAgent的有效性。相较于竞争性开源CUA,即UI-TARS,我们的方法在成功率上实现了从11.3%到34.5%的显著提升,提高了23.2%。
交互式多模态智能体需将原始视觉观察转化为连贯的语言条件动作序列——这一能力当前视觉语言模型(VLMs)尚不具备。早期的强化学习(RL)尝试理论上可为VLMs赋予此类技能,但鲜有验证所学行为能否超越其训练模拟器的泛化能力,且依赖于脆弱的超参数调整或状态变化有限的密集奖励环境。我们提出了视觉语言解耦演员-评论家(VL-DAC),一种轻量级、无需超参数的RL算法。VL-DAC在动作令牌上应用PPO更新,同时仅在环境步长层面学习价值:据我们所知,这种安排尚未在大型VLMs或LLMs中探索过。这种简单的解耦消除了不稳定的权重项,带来了更快、更可靠的收敛。使用VL-DAC在单一低成本模拟器(如MiniWorld、Gym-Cards、ALFWorld或WebShop)中训练单个VLM,已能生成广泛泛化的策略:在BALROG(游戏中心智能控制)上相对提升+50%,在VSI-Bench最困难部分(空间规划)上相对提升+5%,在VisualWebBench(网页导航)上提升+2%,且均未降低通用图像理解准确率。这些结果首次证明,一个简单的RL算法能在廉价合成世界中完全训练VLMs,同时在真实图像的智能控制、空间推理及网页导航基准上带来可衡量的提升。
社交智能已成为大型语言模型(LLMs)的一项关键能力,使其能够在现实世界的社交任务中有效参与,如适应、说服、协作和谈判。强化学习(RL)天然适合训练具备社交智能的代理,因为它允许模型直接通过社交互动学习复杂策略。然而,社交互动具有两个关键特性,为RL训练设置了障碍:(1)部分可观测性,即话语具有间接和延迟效应,使信用分配复杂化;(2)多维度性,如建立融洽关系或寻求知识等行为间接促进目标达成。这些特性使得基于马尔可夫决策过程(MDP)的单维度回合级奖励RL效率低下且不稳定。为应对这些挑战,我们提出了Sotopia-RL,一个将粗糙的回合级反馈细化为话语级、多维度奖励的新框架。话语级信用分配通过将结果归因于个别话语来缓解部分可观测性问题,而多维度奖励则捕捉社交互动的全部丰富性,减少奖励欺骗。在开放式社交学习环境Sotopia中的实验表明,Sotopia-RL在社交目标完成度上达到了最先进水平(Sotopia-hard上7.17分,Sotopia-full上8.31分),显著优于现有方法。消融研究证实了话语级信用分配和多维度奖励设计对于RL训练的必要性。我们的实现已公开于:https://github.com/sotopia-lab/sotopia-rl。
药物毒性仍是药物研发中的一大挑战。近年来,机器学习模型在计算机毒性预测方面取得了进展,但其对标注数据的依赖及缺乏可解释性限制了应用范围,难以捕捉由复杂生物机制驱动的器官特异性毒性。大型语言模型(LLMs)通过逐步推理与文本数据整合提供了有前景的替代方案,然而先前的方法缺乏生物背景和透明的推理逻辑。为解决这一问题,我们提出了CoTox,一个将LLM与链式思维(CoT)推理相结合的新型框架,用于多毒性预测。CoTox整合化学结构数据、生物通路及基因本体(GO)术语,通过逐步推理生成可解释的毒性预测。利用GPT-4o,我们展示了CoTox在性能上超越传统机器学习和深度学习模型。我们进一步考察了其在多种LLMs上的表现,以确定CoTox最有效的应用场景。此外,我们发现使用IUPAC名称表示化学结构,相比SMILES更易于LLMs理解,从而增强了模型的推理能力并提升了预测性能。为展示其在药物开发中的实际效用,我们模拟了药物对相关细胞类型的处理,并将由此产生的生物背景融入CoTox框架。这一方法使CoTox能够生成与生理反应相一致的毒性预测,如案例研究所示。这一成果凸显了基于LLM的框架在提升可解释性和支持早期药物安全性评估方面的潜力。本工作中使用的代码和提示可在https://github.com/dmis-lab/CoTox获取。
多模态大规模模型显著推动了网络智能体的发展,使其能够以类似人类认知的方式感知和交互数字环境。本文主张,网络智能体首先需获取足够的知识,才能有效参与认知推理。因此,我们将网络智能体的能力分解为两个关键阶段:知识内容学习与认知过程。为形式化这一观点,我们提出了Web-CogKnowledge框架,将知识分类为事实性、概念性和程序性。在此框架中,知识内容学习对应智能体的记忆与理解过程,依赖于前两类知识,代表了学习的“是什么”;而认知过程则对应探索,基于程序性知识,定义了推理与行动的“如何”。为促进知识获取,我们构建了Web-CogDataset,这是一个从14个真实网站中精心策划的结构化资源,旨在系统性地灌输网络智能体所需的核心知识。该数据集作为智能体的概念基础——理解的“名词”——同时也是学习如何推理和行动的基础。基于此,我们通过一种新颖的知识驱动链式思维(CoT)推理框架,将这些过程操作化,开发并训练了我们提出的智能体——Web-CogReasoner。大量实验表明,其在泛化至未见任务时,尤其是在结构化知识起决定性作用的情况下,显著优于现有模型。为支持严谨评估,我们引入了Web-CogBench,这是一个全面的评估套件,旨在评估和比较智能体在划定知识领域及认知能力上的表现。我们的代码和数据已在https://github.com/Gnonymous/Web-CogReasoner开源。
将网页设计转化为代码(设计到代码)在前端开发中扮演着至关重要的角色,它弥合了视觉设计与功能实现之间的鸿沟。尽管最近的多模态大语言模型(MLLMs)在设计到代码任务中展现了显著潜力,但在代码生成过程中往往难以准确保持布局。为此,我们借鉴人类认知中的思维链(CoT)推理,提出了LaTCoder,一种通过布局即思维(LaT)增强网页设计在代码生成中布局保持的新方法。具体而言,我们首先引入了一种简单而高效的算法,将网页设计分割为图像块。接着,我们采用基于CoT的方法提示MLLMs为每个块生成代码。最后,我们应用两种组装策略——绝对定位和基于MLLM的方法——随后通过动态选择确定最优输出。我们使用多种骨干MLLMs(即DeepSeek-VL2、Gemini和GPT-4o)在公开基准和新引入的更具挑战性的基准(CC-HARD,以复杂布局为特色)上评估了LaTCoder的有效性。自动指标上的实验结果显示显著提升,特别是使用DeepSeek-VL2时,TreeBLEU得分提高了66.67%,MAE降低了38%,相较于直接提示。此外,人类偏好评估结果表明,在超过60%的情况下,标注者更倾向于LaTCoder生成的网页,这为我们的方法有效性提供了有力证据。
评估文本到图像生成模型需与人类感知保持一致,然而现有以人为中心的度量标准受限于数据覆盖范围有限、特征提取欠佳及损失函数效率低下等问题。为应对这些挑战,我们推出了人类偏好评分第三版(HPSv3)。(1) 我们发布了HPDv3,这是首个广谱人类偏好数据集,整合了来自顶尖生成模型及从低到高质量现实世界图像的108万对文本-图像配对及117万条标注的成对比较数据。(2) 我们引入了一个基于视觉语言模型(VLM)的偏好模型,该模型采用不确定性感知的排序损失进行细粒度排序训练。此外,我们提出了人类偏好链(CoHP),一种无需额外数据即可提升质量的迭代图像优化方法,利用HPSv3在每一步选择最佳图像。大量实验证明,HPSv3作为广谱图像评估的稳健指标,而CoHP提供了一种高效且与人类感知一致的方法来提升图像生成质量。代码与数据集可在HPSv3主页获取。
本文提出了一种新颖的视频到4D生成框架,能够从单一视频输入中创建高质量的动态3D内容。直接进行4D扩散建模极具挑战性,原因在于数据构建成本高昂以及同时表示3D形状、外观和运动的高维特性。我们通过引入一种直接4DMesh到GS变分场VAE来解决这些难题,该模型无需逐实例拟合,即可直接从3D动画数据中编码规范高斯溅射(GS)及其时间变化,并将高维动画压缩至紧凑的潜在空间。基于这一高效表示,我们训练了一个高斯变分场扩散模型,该模型采用时间感知的扩散Transformer,并以输入视频和规范GS为条件。通过在Objaverse数据集中精心挑选的可动画3D对象上进行训练,我们的模型在生成质量上优于现有方法。尽管仅使用合成数据进行训练,该模型对真实世界视频输入展现出了显著的泛化能力,为生成高质量动画3D内容开辟了新途径。项目页面:https://gvfdiffusion.github.io/。
人工智能(AI)会议对于推动研究进展、知识共享以及促进学术共同体至关重要。然而,其迅速扩张使得集中式会议模式日益难以为继。本文通过数据驱动的方式,诊断了一场威胁科学传播、公平性及社区福祉基础目标的结构性危机。我们识别出四个关键领域的压力:(1) 科学层面,每位作者的年均发表论文数量在过去十年间翻倍增长,现已超过4.5篇;(2) 环境层面,单次会议的碳足迹已超过其主办城市一天的排放量;(3) 心理层面,在线社区讨论中71%的情绪为负面,35%涉及心理健康问题;(4) 后勤层面,如NeurIPS 2024等顶级会议的参会人数开始超出场地容量。这些压力表明,当前系统与其核心使命存在偏差。为此,我们提出了社区联邦会议(Community-Federated Conference, CFC)模型,该模型将同行评审、论文展示和网络交流分离为全球协调但本地组织的组成部分,为AI研究提供了一条更可持续、包容且具有韧性的发展路径。
视频虚拟试穿(VVT)技术因其在电子商务广告和娱乐领域的广阔应用前景,已引起学术界的高度关注。然而,现有的大多数端到端方法严重依赖稀缺的成对服装中心数据集,且未能有效利用先进视觉模型的先验知识和测试时输入,导致在无约束场景下难以精确保留服装的细粒度细节并维持时间一致性。为解决这些挑战,我们提出了DreamVVT,一个精心设计的两阶段框架,基于扩散变换器(DiTs)构建,其天生具备利用多样化的非配对人体中心数据的能力,以增强在现实场景中的适应性。为进一步利用预训练模型的先验知识和测试时输入,在第一阶段,我们从输入视频中采样代表性帧,并采用集成视觉语言模型(VLM)的多帧试穿模型,合成高保真且语义一致的关键帧试穿图像。这些图像为后续视频生成提供了补充的外观指导。在第二阶段,从输入内容中提取骨架图以及细粒度的运动和外观描述,连同关键帧试穿图像一起输入到配备LoRA适配器的预训练视频生成模型中。这确保了未见区域的长时时间连贯性,并实现了高度逼真的动态运动。大量的定量和定性实验表明,DreamVVT在现实场景中保留服装细节内容和时间稳定性方面超越了现有方法。我们的项目页面为https://virtu-lab.github.io/。
大型语言模型(LLMs)能够处理长上下文任务,但由于不断增长的键值(KV)缓存,面临效率挑战。我们提出了LeanK,一种基于学习的方法,通过利用静态通道稀疏性来修剪不重要的键(K)缓存通道。通过新颖的两阶段训练过程,LeanK学习通道级别的静态掩码,能够满足特定的稀疏率与硬件对齐要求。LeanK在保持准确性的同时,减少了GPU内存并加速了解码过程。实验表明,K缓存最多可减少70%,V缓存内存减少16%-18%。定制的解码内核使注意力计算速度提升1.3倍。我们还通过分析学习到的重要性分布,深入探讨了长上下文推理过程中模型通道与注意力头的行为。我们的代码可在https://aka.ms/LeanK获取。
大型语言模型(LLMs)在处理长上下文时,由于前摄干扰的存在,性能显著下降,即上下文前部的不相关信息干扰了推理和记忆提取。尽管大多数研究集中于通过外部记忆系统增强LLMs的能力,我们提出了一种补充性策略:赋予LLMs主动上下文管理(ACM)工具,以主动塑造其内部工作记忆。我们介绍了Sculptor框架,该框架为LLMs配备了三大类工具:(1)上下文分割,(2)摘要、隐藏与恢复,以及(3)智能搜索。我们的方法使LLMs能够主动管理其注意力与工作记忆,类似于人类如何选择性聚焦于相关信息而过滤掉干扰。在信息稀疏的基准测试——PI-LLM(前摄干扰)和NeedleBench多针推理上的实验评估表明,即使未经专门训练,Sculptor也能显著提升性能,这得益于LLMs固有的工具调用泛化能力。通过实现主动上下文管理,Sculptor不仅缓解了前摄干扰,还为跨多样长上下文任务的更可靠推理提供了认知基础——强调明确的上下文控制策略,而非单纯扩大令牌窗口,是实现大规模稳健性的关键。
自动形式化旨在将自然语言表述的数学命题转化为形式化语言。尽管大语言模型(LLMs)推动了该领域的进展,现有方法仍存在准确率低的问题。我们识别出有效自动形式化的两大关键能力:对形式化语言领域知识的全面掌握,以及对自然语言问题理解与非正式-正式对齐的推理能力。缺乏前者,模型无法识别正确的形式化对象;缺失后者,则难以解读现实语境并将其精确映射为形式化表达。为弥补这些不足,我们提出了ThinkingF,一个数据合成与训练流程,旨在提升这两项能力。首先,我们构建了两个数据集:一个通过提炼和筛选富含形式化知识的大规模样例,另一个则依据专家设计的模板生成从非正式到正式的推理轨迹。随后,我们运用这些数据集进行监督微调(SFT)和强化学习与验证奖励(RLVR),以进一步融合和精炼这两项能力。由此得到的7B和32B模型展现出全面的形式化知识及强大的非正式到正式推理能力。特别地,StepFun-Formalizer-32B在FormalMATH-Lite和ProverBench上分别以40.5%和26.7%的BEq@1分数创下新纪录,超越了所有先前通用及专用模型的表现。
大型语言模型使得智能体能够在开放网络环境中自主执行任务。然而,随着网络内部潜在威胁的不断演变,网络智能体在长时间序列操作中面临着平衡任务执行与新兴风险的挑战。尽管这一挑战至关重要,但当前研究仍局限于单目标优化或单轮次场景,缺乏在网络环境中协同优化安全性与实用性的能力。为填补这一空白,我们提出了HarmonyGuard,一个多智能体协作框架,通过策略增强与目标优化共同提升实用性与安全性。HarmonyGuard具备多智能体架构,其核心能力体现在两个方面:(1) 自适应策略增强:我们在HarmonyGuard中引入了策略智能体,它能够自动从非结构化外部文档中提取并维护结构化安全策略,同时根据威胁演变持续更新策略。(2) 双目标优化:基于安全性与实用性的双重目标,HarmonyGuard集成的实用智能体执行马尔可夫实时推理以评估目标,并利用元认知能力进行优化。在多个基准测试上的广泛评估表明,HarmonyGuard相较于现有基线,策略合规性提升高达38%,任务完成率提升高达20%,且在所有任务中实现了超过90%的策略合规率。我们的项目可在此访问:https://github.com/YurunChen/HarmonyGuard。
实例分割在生物医学成像中至关重要,它能精确区分如细胞等常重叠且大小各异的单个对象。近期,基于查询的方法(即通过对象查询引导分割)已展现出卓越性能。尽管U-Net一直是医学图像分割的首选架构,其在基于查询方法中的潜力却尚未充分挖掘。本研究中,我们提出了IAUNet,一种创新的基于查询的U-Net架构。其核心设计采用完整的U-Net架构,并辅以新型轻量级卷积像素解码器,从而提升模型效率并减少参数数量。此外,我们提出了一种Transformer解码器,用于在多尺度上精炼对象特定特征。最后,我们发布了2025年Revvity全细胞分割数据集,这一独特资源包含明场图像中重叠细胞质的详细标注,为生物医学实例分割设立了新基准。在多个公开数据集及我们自有数据上的实验表明,IAUNet在多数全卷积、基于Transformer及查询的模型以及专门针对细胞分割的模型中表现优异,为细胞实例分割任务奠定了坚实基础。代码已发布于https://github.com/SlavkoPrytula/IAUNet。
命名实体识别(NER)是从超过80%的非结构化临床记录和生物医学文献中提取结构化信息的基础。尽管大型语言模型近期取得了进展,但在保持计算效率的同时,跨多种实体类型实现最先进的性能仍是一个重大挑战。我们推出了OpenMed NER,一套开源、领域适应的Transformer模型,结合了轻量级的领域自适应预训练(DAPT)与参数高效的低秩适应(LoRA)。我们的方法在由伦理获取、公开可用的研究资料库和去识别化临床笔记(如PubMed、arXiv和MIMIC-III)汇编的35万段落语料库上,使用DeBERTa-v3、PubMedBERT和BioELECTRA骨干进行成本效益高的DAPT。随后,通过LoRA进行任务特定的微调,仅更新不到1.5%的模型参数。我们在12个已建立的生物医学NER基准测试上评估了我们的模型,涵盖化学品、疾病、基因和物种。OpenMed NER在这12个数据集中的10个上实现了新的最先进micro-F1分数,在多种实体类型上取得了显著提升。我们的模型在基础疾病和化学品基准测试(如BC5CDR-Disease,提升2.70个百分点)上推进了技术前沿,同时在更专业的基因和临床细胞系语料库上实现了超过5.3和9.7个百分点的更大改进。这项工作表明,经过战略调整的开源模型能够超越闭源解决方案。这一性能的达成极为高效:训练在单GPU上不到12小时完成,碳足迹低(<1.2千克二氧化碳当量),产出了许可宽松的开源检查点,旨在帮助从业者促进遵守新兴的数据保护和AI法规,如欧盟AI法案。
Rust的编译时安全保证使其成为安全关键系统的理想选择,这推动了将遗留C代码库转换为Rust的需求。尽管针对此任务已涌现多种方法,但它们均面临固有的权衡:基于规则的解决方案在满足代码安全性和惯用性要求方面存在挑战,而基于LLM(大语言模型)的解决方案由于整个代码库中模块间的高度依赖,往往难以生成语义等价的Rust代码。近期研究表明,这两种解决方案均局限于小型程序。本文提出EvoC2Rust,一个自动化框架,用于将整个C项目转换为等效的Rust项目。EvoC2Rust采用骨架引导的翻译策略进行项目级转换。其流程包含三个进化阶段:1)首先将C项目分解为功能模块,利用特征映射增强的LLM转换定义和宏,并生成经过类型检查的函数存根,形成可编译的Rust骨架;2)随后逐步翻译函数,替换相应的存根占位符;3)最后,通过整合LLM和静态分析修复编译错误。通过进化增强,EvoC2Rust结合了基于规则和基于LLM解决方案的优势。我们在开源基准和六个工业项目上的评估表明,EvoC2Rust在项目级C到Rust翻译中表现出色。平均而言,它在语法和语义准确性上分别比基于LLM的方法提升了17.24%和14.32%,同时代码安全率比基于规则的工具高出96.79%。在模块级别,EvoC2Rust在工业项目上达到了92.25%的编译通过率和89.53%的测试通过率,即使面对复杂代码库和长函数也能保持高效。
当前的大型音频语言模型(LALMs)方法常依赖于封闭数据源或专有模型,这限制了其泛化能力和可访问性。本文介绍了MiDashengLM,一种新颖的开放音频语言模型,旨在通过使用我们新开发的ACAVCaps训练数据集,实现高效且全面的音频理解。MiDashengLM完全依赖公开可用的预训练和监督微调(SFT)数据集,确保了完全的透明度和可复现性。其核心集成了Dasheng,一个开源的音频编码器,专门设计用于有效处理多样化的听觉信息。与以往主要基于自动语音识别(ASR)的音频-文本对齐工作不同,我们的策略聚焦于通用音频描述,将语音、声音和音乐信息融合为一个文本表示,从而实现对复杂音频场景的整体文本描述。最后,MiDashengLM在首词响应时间(TTFT)上实现了高达4倍的加速,并在吞吐量上比同类模型高出20倍。模型检查点可在https://huggingface.co/mispeech/midashenglm-7b 和 https://github.com/xiaomi-research/dasheng-lm 在线获取。
我们提出了DPoser-X,一种基于扩散的3D全身人体姿态先验模型。构建一个通用且稳健的全身人体姿态先验模型仍面临挑战,这源于人体关节姿态的固有复杂性以及高质量全身姿态数据集的稀缺性。针对这些限制,我们引入了一种扩散模型作为姿态先验(DPoser),并将其扩展至DPoser-X,以实现富有表现力的全身人体姿态建模。我们的方法将多种姿态中心任务统一为逆问题,通过变分扩散采样加以解决。为了提升下游应用的性能,我们提出了一种新颖的截断时间步调度方法,专门针对姿态数据特性设计。此外,我们还提出了一种掩码训练机制,有效整合了全身与局部特定数据集,使模型能够捕捉身体部位间的相互依赖关系,同时避免对特定动作的过拟合。大量实验表明,DPoser-X在身体、手部、面部及全身姿态建模的多个基准测试中展现出卓越的鲁棒性与通用性。我们的模型持续超越现有最先进方案,为全身人体姿态先验建模树立了新的标杆。
基于可验证奖励的强化学习(RLVR)显著提升了大型语言模型(LLMs)的复杂推理能力。然而,由于其本质上采用的在线策略与LLM庞大的动作空间及稀疏奖励相结合,RLVR难以突破基础LLM固有的能力边界。更为关键的是,RLVR可能导致能力边界崩溃,从而缩小LLM的问题解决范围。为解决这一问题,我们提出了RL-PLUS,一种新颖的混合策略优化方法,它通过内部探索与外部数据的协同作用,旨在增强推理能力并超越基础模型的限制。RL-PLUS集成了两大核心组件:多重重要性采样以解决外部数据带来的分布不匹配问题,以及基于探索的优势函数引导模型走向高价值、未探索的推理路径。我们通过理论分析和大量实验验证了该方法的优越性和普适性。与现有RLVR方法相比,RL-PLUS在六个数学推理基准测试中达到了1)最先进的性能;2)在六个分布外推理任务上表现出色;3)在不同模型家族中均实现了持续且显著的提升,平均相对改进高达69.2%。此外,Pass@k曲线分析表明,RL-PLUS有效解决了能力边界崩溃问题。
视觉定位旨在基于自然语言描述识别场景中的物体或区域,这对于自动驾驶中的空间感知至关重要。然而,现有的视觉定位任务通常依赖于边界框,这些边界框往往无法捕捉到细粒度的细节。边界框内的所有体素并非都被占据,导致物体表示不准确。为解决这一问题,我们引入了一个针对复杂户外场景的三维占据定位基准。该基准建立在nuScenes数据集之上,将自然语言与体素级占据标注相结合,相比传统定位任务提供了更精确的物体感知。此外,我们提出了GroundingOcc,一个专为三维占据定位设计的端到端模型,通过多模态学习实现从粗到细的物体位置和占据信息预测。具体而言,GroundingOcc包含一个用于特征提取的多模态编码器、一个用于体素级预测的占据头,以及一个用于精确定位的定位头。此外,一个二维定位模块和一个深度估计模块增强了几何理解,从而提升了模型性能。在基准上的大量实验表明,我们的方法在三维占据定位上优于现有基线。数据集可在https://github.com/RONINGOD/GroundingOcc获取。
长文本事实性评估旨在检验模型对简短提示生成准确、全面回应的能力。现有基准测试往往缺乏人工验证,可能导致质量问题。为弥补这一不足,我们推出了FACTORY,一个大规模、经人工验证的提示集。采用模型参与循环开发并由人工精炼,FACTORY包含了一系列具有挑战性的提示,这些提示追求事实、可回答且无歧义。我们利用FACTORY及现有数据集对6种顶尖语言模型进行了人工评估。结果显示,FACTORY是一个极具挑战性的基准:相较于其他数据集仅10%的虚假声明,SOTA模型在回应中约40%的声明缺乏事实依据。我们的分析凸显了FACTORY相较于先前基准的优势,强调了其可靠性及模型在长尾事实推理上的必要性。
移动网络中的根因分析(RCA)因其对可解释性、领域专业知识和因果推理的需求而依然是一项具有挑战性的任务。在本研究中,我们提出了一种轻量级框架,该框架利用大型语言模型(LLMs)进行RCA。为此,我们引入了TeleLogs,一个精心策划的带注释故障排除问题数据集,旨在评估RCA能力。我们的评估显示,现有的开源推理LLMs在处理这些问题时表现不佳,凸显了领域特定适应的必要性。针对这一问题,我们提出了一种两阶段训练方法,结合了监督微调与强化学习,以提高LLMs的准确性和推理质量。所提出的方法通过微调一系列RCA模型,整合领域知识并生成结构化的多步诊断解释,从而提升了可解释性和有效性。跨多个LLM规模的广泛实验表明,相较于最先进的推理和非推理模型,该方法实现了显著的性能提升,包括对随机测试变体的强大泛化能力。这些结果展示了领域适应、推理增强的LLMs在网络运营和管理中实现实用且可解释RCA的潜力。
自动驾驶需要精确的场景理解,包括道路几何、交通参与者及其语义关系。在在线高精地图生成场景中,基于栅格的表示方法虽适合视觉模型,但几何精度不足;而基于图的表示虽保留了结构细节,却因缺乏精确地图而变得不稳定。为融合两者的优势,我们提出了DiffSemanticFusion——一个多模态轨迹预测与规划的融合框架。该方法在语义栅格融合的鸟瞰图(BEV)空间中进行推理,并通过地图扩散模块增强,提升了在线高精地图表示的稳定性和表现力。我们在两个下游任务上验证了该框架:轨迹预测和面向规划的端到端自动驾驶。在真实世界自动驾驶基准测试nuScenes和NAVSIM上的实验表明,相较于多种最先进方法,我们的框架性能显著提升。在nuScenes的预测任务中,我们将DiffSemanticFusion与在线高精地图信息融合的QCNet结合,实现了5.1%的性能提升。在NAVSIM的端到端自动驾驶任务中,DiffSemanticFusion取得了最先进的结果,在NavHard场景下性能提升了15%。此外,广泛的消融实验和敏感性研究显示,我们的地图扩散模块可无缝集成到其他基于矢量的方法中,以增强性能。所有相关资源可在https://github.com/SunZhigang7/DiffSemanticFusion获取。
文本到3D(T23D)生成技术已革新了数字内容创作领域,但仍受制于盲目试错的提示过程,导致结果难以预测。尽管视觉提示工程在文本到图像领域取得了进展,但其在3D生成中的应用面临独特挑战,需进行多视角一致性评估与空间理解。我们推出了Sel3DCraft,这是一套专为T23D设计的视觉提示工程系统,将无序探索转化为有引导的视觉流程。我们的方法引入了三大创新:结合检索与生成的双分支结构,以探索多样候选方案;采用多视角混合评分方法,利用多模态大语言模型(MLLMs)及创新性高层次指标,以人类专家一致性评估3D模型;以及一套提示驱动的视觉分析工具集,支持直观缺陷识别与优化。广泛的测试与用户研究表明,Sel3DCraft在支持设计师创造力方面超越了其他T23D系统。
可验证奖励的强化学习(RLVR)提升了大型语言模型(LLMs)的指令遵循能力,但由于难度评估不足,存在训练效率低下的问题。此外,RLVR容易出现过优化现象,即LLMs利用验证捷径而不与用户指令的实际意图对齐。我们引入了指令遵循装饰器(IFDecorator),这是一个将RLVR训练封装为稳健且样本高效流程的框架。它包含三个组件:(1)一个合作对抗的数据飞轮,共同进化指令与混合验证,生成逐步更具挑战性的指令-验证对;(2)IntentCheck,一个确保意图对齐的旁路模块;(3)绊线,一种通过陷阱指令检测奖励作弊的诊断机制,这些陷阱指令触发并捕捉捷径利用行为。我们的Qwen2.5-32B-Instruct-IFDecorator在IFEval上达到了87.43%的准确率,超越了如GPT-4o等更大的专有模型。此外,我们在FollowBench上展示了显著改进,同时保持了通用能力。我们的绊线机制显著降低了奖励作弊率。我们将发布模型、代码和数据,以供未来研究使用。
尽管大语言模型(LLMs)在推理能力上的进步显著提升了其在解决数学问题、编程任务及一般谜题中的表现,但在准确遵循指令方面,尤其是在处理更为复杂的指令时,其效果仍不稳定。我们的研究发现,在思考阶段出现的“惰性推理”是导致指令遵循不佳的主要原因。为缓解这一问题,我们提出了一套全面的框架,旨在通过引入预览与自我检查的严格推理过程,确保满足严格的指令约束。具体而言,我们首先生成带有复杂约束的指令,并通过筛选过程获取有效提示,从而构建了分别标记为困难、简单及通过的三个不同提示数据集。随后,我们对通过提示进行拒绝采样,精选出一个小规模但高质量的数据集,以此实现模型的冷启动初始化,并促进其适应有效的推理模式。紧接着,我们采用了一种保持熵的监督微调策略(Entropy-SFT),结合基于规则的密集奖励引导的逐词熵自适应强化学习(TEA-RL),激励模型转变其推理机制,最终培养出包含预览与自我检查在内的可泛化推理能力。在指令遵循基准测试上的大量实验表明,该方法在不同规模的模型上均实现了显著的性能提升。尤为突出的是,我们的Light-IF-32B模型不仅超越了如DeepSeek-R1等更大的开源模型,还超越了如Doubao-1.6等闭源模型。
三维异常检测(3D Anomaly Detection, AD)在识别高精度工业产品中的异常或缺陷方面展现出巨大潜力。然而,现有方法通常以类别特定的方式进行训练,且缺乏从新兴类别中学习的能力。本研究提出了一种名为持续三维异常检测(Continual 3D Anomaly Detection, C3D-AD)的持续学习框架,该框架不仅能学习多类点云的通用表示,还能处理随时间出现的新类别。具体而言,在特征提取模块中,为了高效地从不同任务的多类产品中提取通用局部特征,引入了带随机特征层的核注意力机制(Kernel Attention with random feature Layer, KAL),该机制对特征空间进行归一化。随后,为了正确且持续地重建数据,提出了一种高效的带可学习指导的核注意力机制(Kernel Attention with learnable Advisor, KAA),该机制在编码器和解码器中学习新类别的信息,同时摒弃冗余的旧信息。最后,为了保持跨任务表示的一致性,设计了表示排练损失函数,提出了带参数扰动的重建模块(Reconstruction with Parameter Perturbation, RPP),确保模型记住先前类别的信息并返回适应类别的表示。在三个公开数据集上的大量实验验证了所提方法的有效性,分别在Real3D-AD、Anomaly-ShapeNet和MulSen-AD上实现了66.4%、83.1%和63.4%的平均AUROC性能。
本文探讨了在机器学习模型全生命周期中系统化治理、评估和量化偏差的方法,涵盖从初始开发与验证到持续生产监控及防护措施实施的各个环节。基于我们在大型语言模型(LLMs)偏差评估与测试套件(BEATS)上的基础性工作,作者揭示了LLMs中普遍存在的偏差与公平性相关缺陷,并讨论了针对LLMs中偏差、伦理、公平性和事实性的数据与AI治理框架。本文提出的数据与AI治理方法适用于实际应用场景,能够在LLMs投入生产前进行严格基准测试,支持持续实时评估,并主动监管LLM生成的内容。通过在AI开发全周期实施数据与AI治理,组织能够显著提升其生成式AI系统的安全性与责任感,有效降低歧视风险,防范潜在的声誉或品牌损害。最终,我们期望通过本文,为推动创建和部署符合社会责任与伦理准则的生成式人工智能应用贡献力量。
音乐录音常面临音频质量问题,如过度混响、失真、削波、音调失衡以及立体声场狭窄等,尤其是在非专业环境中,缺乏专用设备或专业知识时更为突出。这些问题通常需借助独立的专业工具和手动调整来修正。本文介绍SonicMaster,首个面向音乐修复与母带处理的统一生成模型,它通过文本控制广泛应对各类音频瑕疵。SonicMaster可根据自然语言指令进行针对性增强,或自动运行以执行通用修复。为训练此模型,我们构建了SonicMaster数据集,通过模拟五种增强类别(均衡、动态、混响、振幅及立体声)下的十九种退化函数,生成了大量退化与高质量音轨配对的数据集。我们的方法采用流匹配生成训练范式,学习一种音频转换,将退化的输入映射至其经文本提示引导的清洁、母带处理版本。客观音频质量指标显示,SonicMaster在所有瑕疵类别上均显著提升了音质。此外,主观听感测试证实,听众更偏爱SonicMaster增强后的输出,而非原始退化音频,凸显了我们统一方法的有效性。
文本到图像扩散模型通过学习数十亿张图像(包括流行艺术作品),在生成艺术内容方面展现了卓越的能力。然而,这些模型如何在内部表示概念,如绘画中的内容和风格,这一根本问题仍未得到探索。传统计算机视觉假设内容和风格是正交的,但扩散模型在训练过程中并未获得关于这种区分的明确指导。在本研究中,我们探讨了基于Transformer的文本到图像扩散模型在生成艺术作品时如何编码内容和风格概念。我们利用交叉注意力热图将生成图像中的像素归因于特定的提示词,使我们能够分离出受内容描述词和风格描述词影响的图像区域。我们的研究结果表明,扩散模型根据具体的艺术提示和风格要求,展现出不同程度的内容-风格分离。在许多情况下,内容词主要影响与物体相关的区域,而风格词则影响背景和纹理区域,这表明模型对内容-风格区分有了一种自发的理解。这些见解有助于我们理解大规模生成模型在没有明确监督的情况下,如何在内部表示复杂的艺术概念。我们在https://github.com/umilISLab/artistic-prompt-interpretation上分享了代码和数据集,以及一个用于可视化注意力图的探索工具。