每日精选AI研究论文及翻译
智能体化大型语言模型系统已展现出强大能力。然而其以语言作为通用接口的依赖,从根本上限制了其在许多现实问题中的适用性,特别是在科学领域——该领域已开发出针对自然语言之外专业任务的领域专用基础模型。本研究提出Eywa异构智能体框架,旨在将语言中心系统扩展至更广泛的科学基础模型类别。Eywa的核心思想是通过基于语言模型的推理接口增强领域专用基础模型,使语言模型能够指导非语言数据模态的推理。该设计让通常针对专业数据和任务优化的预测性基础模型,得以参与智能体系统内更高层次的推理与决策过程。Eywa既可作为单智能体流程的即插即用替代方案(EywaAgent),也可通过将传统智能体替换为专用智能体(EywaMAS)集成至现有多智能体系统。我们进一步研究基于规划的编排框架,其中规划器动态协调传统智能体与Eywa智能体,以解决跨异构数据模态的复杂任务(EywaOrchestra)。我们在涵盖物理、生命与社会科学的多领域实验中评估Eywa,结果表明:通过与专用基础模型的有效协作,Eywa在涉及结构化与领域专用数据的任务上提升性能,同时降低对基于语言推理的依赖。
近期视觉生成模型在写实性、版式呈现、指令跟随与交互编辑方面取得显著进展,但在空间推理、状态持久性、长程一致性及因果理解方面仍存在不足。我们认为,该领域应超越表象合成,迈向智能视觉生成:即基于结构、动力学、领域知识与因果关系的可信视觉内容生成。为界定这一转变,我们提出五级分类体系:原子生成、条件生成、上下文生成、主体性生成与世界建模生成,逐级实现从被动渲染器到具备交互性、主体意识与世界感知的生成器演进。我们分析了关键技术驱动力,包括流匹配、统一理解-生成模型、改进的视觉表征、后训练技术、奖励建模、数据策展、合成数据蒸馏及采样加速。研究进一步表明,当前评估方法因过度关注感知质量而忽视结构、时序与因果层面的缺陷,往往高估实际进展。通过结合基准评测综述、真实场景压力测试与专家约束案例研究,本路线图提供了以能力为核心的视角,用于理解、评估并推动下一代智能视觉生成系统的发展。
RLVR与OPD已成为后训练的标准范式。本文对这两种范式在融合多专家能力至单一模型中的表现进行了统一分析,发现能力损失呈现不同模式:混合RLVR存在能力间发散代价,而先训练专家再执行OPD的流程虽避免发散,却因师生行为模式差异过大而无法完全吸收教师能力。我们提出协同进化策略蒸馏(CoPD),通过并行训练专家并在各专家RLVR训练过程中(而非完整训练后)引入OPD,使专家互为教师(实现双向OPD)以协同进化。该方法在保持充足互补知识的同时,使专家间行为模式更趋一致。实验验证CoPD可实现文本、图像与视频推理能力的全栈整合,显著超越混合RLVR、MOPD等强基线,甚至优于领域专用专家。CoPD提供的模型并行训练模式或可启发新型训练扩展范式。
近年来,人形机器人控制系统已取得显著进展,但如何流畅地建模机器人与其周围环境及任务相关物体之间富含交互的行为,仍是一个根本性挑战。这一难题源于需要大规模联合捕捉空间上下文、时序动态、机器人动作和任务意图,而传统监督方法对此难以适用。我们提出ExoActor这一新型框架,通过利用大规模视频生成模型的泛化能力来解决该问题。ExoActor的核心思想是将第三人称视频生成作为建模交互动态的统一接口:给定任务指令和场景上下文,该框架能合成隐含编码机器人、环境与物体间协同交互的合理执行过程。此类视频输出随后通过估计人体运动并经由通用运动控制器执行的流水线,转化为可执行的人形行为,最终生成任务条件化的行为序列。为验证所提框架,我们实现了端到端系统,并证明其无需额外真实世界数据收集即可泛化至新场景。此外,我们通过讨论当前实现的局限性并勾勒未来研究的可行方向,阐明ExoActor如何为富含交互的人形行为建模提供可扩展方案,有望为生成模型推动通用人形智能发展开辟新途径。
在消费级GPU上微调大语言模型具有显著的成本效益,但受限于GPU显存不足与PCIe互连速度较慢的瓶颈。通过流水线并行与CPU卸载相结合的策略,可有效降低通信开销以缓解硬件限制。然而现有流水线调度方案存在固有缺陷——权重绑定问题。当将不均衡的模型阶段(如庞大的语言模型头)绑定至GPU时,流水线吞吐量受限于负载最重的GPU设备,导致严重的流水线气泡现象。 本文提出RoundPipe这一创新流水线调度方案,旨在突破消费级GPU服务器的权重绑定限制。该方案将GPU视为无状态执行工作节点池,以轮询方式动态分配计算阶段至各设备,实现接近零气泡的流水线运行。为确保训练正确性与系统效率,RoundPipe集成了优先级感知传输调度引擎、基于分布式事件的细粒度同步协议,以及自动化分层分区算法。在8张RTX 4090服务器的测试表明,当微调1.7B至32B参数模型时,RoundPipe相较现有最优基线可实现1.48-2.16倍的加速效果。尤为突出的是,该方案支持在单台服务器上完成Qwen3-235B模型(序列长度31K)的LoRA微调。 RoundPipe已作为开源Python库公开发布,并提供完整技术文档。
大语言模型智能体需在软件工具、业务服务和本地工作空间间完成端到端的工作单元。然而现有智能体基准测试往往在发布时固化预设任务集,且主要依据最终响应进行评分,难以评估智能体应对动态工作流需求的能力,也无法验证任务是否真实执行。我们推出Claw-Eval-Live——一个面向工作流智能体的动态基准测试框架,其将可刷新的信号层(根据公共工作流需求信号持续更新)与可复现的时间戳发布快相分离。每个版本均基于公共工作流需求信号构建,采用当季ClawHub Top-500技能,并通过固定装置、服务、工作空间和评分器实现标准化任务封装。在评分方面,Claw-Eval-Live记录执行轨迹、审计日志、服务状态及运行后工作空间产物,当证据充足时采用确定性检查,仅对语义维度使用结构化大语言模型评判。当前版本包含105项涵盖标准化业务服务与本地工作空间修复的任务,依据统一公共通过规则对13个前沿模型进行评估。实验表明可靠的工作流自动化仍远未解决:领先模型仅通过66.7%的任务,尚无模型达到70%通过率。失败模式按任务族和执行界面呈现结构化特征,其中人力资源、管理及多系统业务工作流为持续瓶颈,而本地工作空间修复相对容易但尚未饱和。仅凭排行榜排名并不充分,因为通过率相近的模型在整体完成度上可能分化,且任务级区分度集中体现在中等难度区间。Claw-Eval-Live表明工作流智能体评估需实现双重锚定:既要扎根于动态外部需求,又要基于可验证的智能体行动。
在现代自回归模型中,标记是计算的基本单位,生成长度直接影响推理成本和推理性能。尽管长度控制至关重要,现有方法主要停留在粗粒度的序列层面,缺乏细粒度的长度建模。我们提出长度价值模型(LenVM),这是一个对剩余生成长度进行建模的标记级框架。通过将长度建模转化为价值估计问题,并为每个生成的标记分配恒定负奖励,LenVM可预测一个有界的折现回报,该回报可作为剩余生成时长的单调代理指标。这种建模方式产生了无需标注、密集、无偏差且可扩展的监督信号。在LLM和VLM上的实验表明,LenVM在推理时能提供高效信号。在LIFEBench精确长度匹配任务中,将LenVM应用于7B模型可将长度得分从30.9提升至64.8,显著超越前沿闭源模型。此外,LenVM支持性能与效率之间的连续调控:在GSM8K任务中设定200个标记的预算时,LenVM能保持63%的准确率,而标记预算基线仅为6%。该模型还能从提示边界准确预测总生成长度。最后,LenVM的标记级价值为生成动态提供了可解释视角,揭示了特定标记如何将推理过程导向更短或更长的模式。实验结果表明,LenVM支持广泛的应用场景,且标记长度可有效建模为标记级价值信号,这凸显了LenVM作为通用长度建模框架的潜力,以及其作为支持未来强化学习训练的长度专用价值信号的可能性。代码已开源:https://github.com/eric-ai-lab/Length-Value-Model。
尽管基于人类反馈的强化学习(RLHF)已成为文本到图像生成的关键范式,但其在图像编辑领域的应用仍鲜有探索。关键瓶颈在于缺乏适用于所有编辑任务的鲁棒通用奖励模型。现有编辑奖励模型通常仅给出整体评分而缺乏细粒度检查,既忽略了不同指令要求,又导致奖励偏差。为解决这一问题,我们认为关键在于从简单评分器转向推理验证器。我们提出Edit-R1框架,构建基于思维链(CoT)验证器的推理奖励模型(RRM),并将其应用于下游图像编辑任务。Edit-RRM将编辑指令分解为不同原则,逐项评估编辑图像与原则的符合程度,最终聚合为可解释的细粒度奖励值。为构建此类RRM,我们首先采用监督微调(SFT)作为"冷启动"生成CoT奖励轨迹,随后提出组对比偏好优化(GCPO)——一种利用人类成对偏好数据强化点式RRM的强化学习算法。在构建RRM后,我们通过GRPO算法训练编辑模型,尽管该奖励模型不可微分但功能强大。大量实验表明,我们的Edit-RRM作为专用编辑奖励模型,超越了Seed-1.5-VL、Seed-1.6-VL等强大视觉语言模型,并呈现明显的规模效应——模型参数从30亿增至70亿时性能持续提升。此外,Edit-R1为FLUX.1-kontext等编辑模型带来显著增益,彰显其在增强图像编辑能力方面的有效性。
现有研究基础设施本质上以文献为中心,虽能提供论文间的引用链接,但缺乏对方法演化的显式表征。尤其未能捕捉那些解释研究方法如何及为何出现、适应并相互借鉴的结构化关系。随着AI驱动的研究代理成为科学知识的新型消费者,这一局限性日益凸显,因为此类代理无法从非结构化文本中可靠地重构方法演化拓扑。我们提出Intern-Atlas——一种方法演化图谱,能自动识别方法级实体、推断方法论间的传承关系,并捕捉驱动连续创新间转换的关键瓶颈。该图谱基于涵盖AI会议、期刊和arXiv预印本的1,030,314篇论文构建,包含9,410,201条具有语义类型的边,每条边均以原文证据为基础,形成可查询的方法发展因果网络。为实现该结构的可操作性,我们进一步提出自引导时序树搜索算法,用于构建追踪方法随时间演进路径的演化链。通过与专家标注的真实演化链进行对比评估,我们发现图谱结果具有高度一致性。此外,我们证明Intern-Atlas可支持创意评估与自动化创意生成等下游应用。我们将方法演化图谱定位为新兴自动化科学发现的基础数据层。
我们推出Nemotron 3 Nano Omni——Nemotron多模态系列的最新成员,也是首款原生支持音频输入及文本、图像、视频的全能模型。通过架构创新、训练数据和训练方案的优化,该模型在所有模态上都较前代Nemotron Nano V2 VL实现了持续精准度的提升。尤其在现实场景文档理解、长时音视频解析以及智能体计算机操作方面,Nemotron 3展现出领先性能。基于高效的Nemotron 3 Nano 30B-A3B主干网络,本模型进一步融入创新的多模态令牌精简技术,相比同规模模型显著降低推理延迟并提升吞吐量。现发布BF16、FP8和FP4格式的模型检查点,并开放部分训练数据与代码库,以促进后续研发。
现实场景中的长周期生产力工作高度依赖于用户特定的计算机环境,其中大部分工作上下文通过目录结构和内容丰富的文件进行存储与组织。为在此类生产力场景中实现合成数据的规模化生成,我们提出"规模化合成计算机"方法——一种可扩展的技术方案,用于创建具有逼真文件夹层级和丰富内容文件(如文档、表格、演示文稿)的虚拟环境。基于每个合成计算机,我们运行长周期模拟:一个智能体生成与该计算机用户相关的生产力目标,这些目标需要交付多个专业成果并耗费约一个月的人工工时;另一个智能体则扮演该用户角色,持续在计算机环境中开展工作——包括通过文件系统进行任务定位、与模拟协作者协调配合、产出专业文件等——直至完成所有目标。 在初步实验中,我们创建了1,000台合成计算机并运行长周期模拟,每次模拟平均需要超过8小时的智能体运行时间,涉及2,000余次交互操作。这些模拟产生了丰富的经验学习信号,其有效性通过智能体在领域内和跨领域生产力评估中的显著性能提升得到验证。鉴于人格角色数据可达十亿规模,该方法论原则上可扩展至数百万甚至数十亿个合成用户世界(在充足算力支持下),从而实现对不同职业、角色、场景、环境和生产力需求的广泛覆盖。我们认为,可扩展的合成计算机创建与大规模模拟相结合,极有希望成为长周期生产力场景中智能体自我改进与智能体强化学习的基础支撑平台。
随着多模态大语言模型(MLLM)与代码智能体的发展,网站开发已从人工编程转向基于智能体的项目级代码生成。现有基准测试依赖理想化假设,尤其针对结构清晰、信息丰富的输入及静态执行环境。然而,实际开发过程存在关键瓶颈:非专业用户模糊、低质量的指令与模型理解之间的语义错位,导致我们称之为"盲执行"的失效模式。为填补这一空白,我们推出InteractWeb-Bench——首个面向非专业低代码用户场景的多模态交互式网站生成基准。该基准通过四类用户智能体及角色驱动的指令扰动,基于需求工程缺陷分类体系系统模拟模糊性、冗余性和矛盾性等多样化用户行为。我们构建了支持交互执行的智能体环境,其统一行动空间包含澄清、实现、验证、提交四个维度,支持迭代式意图细化、代码生成及基于视觉反馈的验证。大量实验与分析表明,前沿的MLLM智能体仍受困于盲执行模式,暴露出意图识别与自适应交互能力的局限。
我们证明了长期被认为不切实际的训练目标——弗雷歇距离(FD),实际上可以在表征空间中被有效优化。我们的核心思路很简单:将FD估算所需的大样本量(如5万)与梯度计算所用的小批量规模(如1024)进行解耦。我们将这种方法命名为FD损失函数。优化FD损失函数揭示了若干惊人发现:首先,在不同表征空间中对基础生成器进行FD损失的训练后优化,能持续提升视觉质量。在Inception特征空间下,单步生成器在ImageNet 256×256数据集上实现了0.72的FID值。其次,同一FD损失函数可将多步生成器直接转化为强效单步生成器,且无需教师蒸馏、对抗训练或逐样本目标。第三,FID可能错误评估视觉质量:现代表征方法即便在Inception FID指标较差时,仍能生成更优质的样本。这促使我们提出FDr^k多表征评估指标。本研究期望推动生成模型领域进一步探索不同表征空间中分布距离的双重作用——既作为训练目标,也作为评估指标。
大型语言模型(LLMs)通过预训练数据中的共享推理模式获得推理能力,并经由思维链(CoT)实践进一步激发。然而,对于基本推理模式(如归纳、演绎和溯因)能否从具体问题实例中解耦,仍是实现模型可控性和揭示推理可控机制的核心挑战。本文首次通过推理冲突的视角系统研究该问题:当强制模型采用与目标任务预期不符的逻辑范式时,会引发参数化记忆与上下文信息之间的显性张力。评估结果表明,LLMs始终将语义合理性置于指令遵从性之上,即使面临冲突指令也倾向于采用任务适配的推理模式。值得注意的是,任务准确率并不严格受合理性支配,模型即使使用冲突模式仍常保持高性能,这表明其依赖于随模型规模增强的内化参数记忆。我们进一步发现推理冲突具有内部可检测性,冲突场景下的置信度会显著下降。探针实验证实推理类型从中后网络层开始线性编码,表明存在激活层级可控的潜力。基于这些发现,我们成功将模型向指令遵从方向引导,使指令遵循率提升最高达29%。总体而言,我们的研究证实:虽然LLM推理植根于具体实例,但通过主动的机制干预能有效实现逻辑范式与数据的解耦,为提升可控性、忠实度和泛化能力开辟了新路径。
科学出版将分支式、迭代式的研究过程压缩为线性叙述,舍弃了探索过程中发现的大部分内容。这种编纂方式带来双重结构成本:一是叙事税——为适应线性叙事而剔除失败实验、被拒假设及分支探索过程;二是工程税——审稿人所需的叙述与智能体所需的规范之间存在断层,导致关键实现细节缺失。这些成本对人类读者尚可容忍,但当AI智能体需要理解、复现并拓展已发表成果时便成为关键障碍。我们提出智能体原生研究构件(ARA),该协议用机器可执行的研究包取代叙述式论文,其结构包含四层:科学逻辑层、带完整规范的可执行代码层、保留失败探索路径的探索图谱层,以及将每个论断锚定于原始输出的证据层。生态系统由三大机制支撑:在常规研发过程中捕获决策与死胡同的实时研究管理器;将传统PDF及代码库转化为ARA的编译器;以及能自动化客观检查的ARA原生评审系统,使人类评审员专注於意义、创新性与学术品位评估。在PaperBench和RE-Bench测试中,ARA将问答准确率从72.4%提升至93.7%,复现成功率从57.4%提高至64.4%。在RE-Bench的五项开放式拓展任务中,ARA保存的失败轨迹能加速进展,但根据智能体能力差异,也可能制约高智能体突破既有探索框架。
现代视频扩散模型在外观合成方面表现出色,但在物理一致性方面仍存在不足:物体漂移、碰撞缺乏真实反弹、材质响应与底层属性难以匹配。我们提出PhyCo框架,通过引入连续、可解释且基于物理原理的控制机制来改进视频生成。该框架包含三个核心组件:(1)大规模超过10万条的光学仿真视频数据集,系统性地在多样场景中调整摩擦力、回弹系数、形变和受力参数;(2)基于像素对齐物理属性映射的ControlNet,对预训练扩散模型进行物理监督微调;(3)视觉语言模型引导的奖励优化机制,通过微调后的VLM针对物理特性进行视频评估并提供可微分反馈。这种组合使生成模型能够通过调整物理属性产生物理一致的可控输出,且推理过程无需任何模拟器或几何重建。在Physics-IQ基准测试中,PhyCo较基线模型显著提升物理真实感,人类评估也证实其对物理属性的控制更清晰准确。我们的研究为构建具有物理一致性、可泛化至合成训练环境之外的可控视频生成模型提供了可扩展路径。
近期基于单目视频的任意骨架运动捕捉方法普遍采用因子化流程:先通过视频到姿态网络预测关节点位姿,再经由解析式逆运动学阶段恢复关节旋转。该方案虽有效,却存在固有局限——关节点位置无法完全确定旋转状态,会导致骨骼轴向扭转等自由度模糊;且不可微的逆运动学环节使系统难以适应噪声预测或优化最终动画目标。本研究提出首个完全端到端的框架,其中视频到姿态与姿态到旋转两个阶段均可学习并联合优化。我们发现姿态-旋转映射的模糊性源于坐标系信息的缺失:相同的关节点位置在不同初始姿态与局部轴约定下可能对应不同旋转。为此,我们引入目标资产的参考姿态-旋转对,结合初始姿态不仅锚定映射关系,更定义了底层旋转坐标系。这一表述将旋转预测转化为约束良好的条件问题,从而实现高效学习。此外,模型无需依赖网格中间表示即可直接从视频预测关节点位置,提升了鲁棒性与效率。两阶段共享具有骨架感知能力的全局-局部图引导多头注意力模块,实现关节级局部推理与全局协同。在Truebones Zoo和Objaverse上的实验表明,本方法将旋转误差从约17度降至约10度,在未见过的骨架上进一步降至6.54度,同时推理速度比基于网格的流程提升约20倍。项目页面:https://animotionlab.github.io/MoCapAnythingV2/
具身智能的实现需要高精度仿真环境来支撑感知与决策,但现有平台常受数据污染与灵活性不足的制约。为此,我们提出World2Minecraft框架,基于3D语义占据预测将真实场景转化为结构化《我的世界》环境。在重构场景中,我们可无缝执行视觉语言导航等下游任务。然而发现重建质量高度依赖精准的占据预测,而现有模型受限于数据匮乏与泛化能力不足。我们引入了一种低成本、自动化、可扩展的数据采集流程用于构建定制化占据数据集,并通过MinecraftOcc数据集验证其有效性——该大规模数据集包含来自156个高细节室内场景的100,165张图像。大量实验表明,我们的数据集为现有数据资源提供了关键补充,并对当前SOTA方法构成显著挑战。这些研究成果不仅推动占据预测技术进步,更凸显World2Minecraft在为个性化具身AI研究提供可定制、可编辑平台方面的重要价值。项目页面:https://world2minecraft.github.io/。
人类视觉偏好本质上是多维度的,涵盖美学感受、细节保真度与语义对齐性。然而现有数据集仅提供单一的整体标注,导致严重的标签噪声:在某些维度表现优异但其他维度存在缺陷的图像被简单标记为胜出或落败。我们通过理论证明,将多维偏好压缩为二元标签会产生相互冲突的梯度信号,从而误导扩散模型的直接偏好优化(DPO)。为解决此问题,我们提出半监督DPO方法(Semi-DPO),将一致性样本视作清洁标注数据,冲突性样本作为噪声未标注数据。该方法首先在共识筛选的清洁子集上训练初始模型,随后将其作为隐式分类器为噪声集生成伪标签进行迭代优化。实验结果表明,Semi-DPO在无需额外人工标注或显式奖励模型的情况下,不仅实现了最先进的性能,更显著提升了与复杂人类偏好的对齐度。代码与模型将发布于:https://github.com/L-CodingSpace/semi-dpo
计算机使用代理为实现通用软件自动化提供了可行路径,因为它们能直接与任意图形用户界面交互,而无需依赖脆弱的特定应用集成。尽管基准测试性能近期有所提升,但强大的计算机使用代理在实际应用中仍存在成本高昂、响应迟缓的问题,这主要是因为大多数系统在几乎每个交互步骤都需调用大型多模态模型。我们认为,这种均匀分配计算资源的方式对于长周期GUI任务存在根本性低效问题。此类任务轨迹具有高度异质性:多数步骤属于常规操作,可通过更小型、低成本策略可靠处理;而错误往往集中在少数高风险节点。在计算机使用基准测试中,故障主要表现为两种形式:进度停滞(代理陷入循环、重复无效操作或无法取得实质性进展)和隐性语义漂移(代理在偏离用户真实目标后仍持续执行局部合理的操作)。为解决这一低效问题,我们提出面向计算机使用代理的事件驱动型阶梯式处理框架:默认运行轻量策略,仅当轻量级学习监测器检测到风险升高时,才升级至更强模型。该框架融合两种互补信号:基于近期推理行动历史检测进度异常的停滞监测器(触发恢复机制),以及识别语义关键节点的里程碑监测器(在稀疏验证最能有效捕捉漂移的检查点进行确认)。这一设计将始终开启的前沿模型推理转变为在动态交互过程中按需分配的计算资源。该框架采用模块化设计且面向实际部署:无需改变现有代理架构或重新训练大模型,即可在既有计算机使用代理基础上实现分层叠加。
尽管偏好优化对提升视觉生成模型至关重要,但如何有效扩展这一范式仍属未知领域。当前开源偏好数据集存在相互冲突的偏好模式,优胜样本在某些维度表现突出却在其他方面欠佳。直接在此类噪声数据集上进行优化难以有效学习偏好,阻碍了规模化扩展。为增强对噪声的鲁棒性,我们提出Poly-DPO方法,通过引入多项式项扩展DPO目标函数,能根据数据集特征动态调整模型置信度,从而适应不同数据分布的有效学习。除偏差模式外,现有数据集还存在分辨率低、提示词多样性有限、分布不平衡等缺陷。为通过突破数据瓶颈推动大规模视觉偏好优化,我们构建了ViPO数据集——包含500个类别的100万张1024像素图像对和300个类别的30万对720p以上视频对。采用最先进生成模型与多样化提示词确保偏好信号的可靠性及分布均衡性。值得注意的是,当将Poly-DPO应用于高质量数据集时,最优配置会收敛至标准DPO。这一现象验证了数据集质量及Poly-DPO的自适应特性:当数据质量足够时,复杂优化变得多余,但对不完善数据集仍具价值。我们在多种视觉生成模型上验证了该方法:在Pick-a-Pic V2等噪声数据集上,Poly-DPO相较Diffusion-DPO在SD1.5和SDXL模型上分别取得6.87和2.32的GenEval分数提升;使用ViPO训练的模型性能远超基于现有开源偏好数据集的结果。这些发现证实,同时解决算法适应性与数据质量问题对扩展视觉偏好优化至关重要。
诗歌历来是阿拉伯语使用者的核心艺术形式,是表达情感和文化认同的重要载体。尽管现代阿拉伯语使用者依然重视诗歌,但现有关于阿拉伯诗歌的大型语言模型研究主要集中于分析任务,如诗歌解读或元数据预测(例如韵律模式和标题)。相比之下,我们的研究通过引入可控生成技术来解决阿拉伯语诗歌创作的实际需求,以辅助用户进行诗歌写作。具体而言,我们构建了一个大规模、精心策划的基于指令的数据集,包含现代标准阿拉伯语及多种阿拉伯方言。该数据集支持根据预设条件(如风格与韵律)进行诗歌创作、修改与续写,同时能执行诗歌分析任务。实验表明,基于该数据集微调的大型语言模型能有效生成符合用户需求的诗歌,这一结论同时基于自动化指标和以阿拉伯语为母语者的人工评估。数据集与代码已公开于:https://github.com/mbzuai-nlp/instructpoet-ar
长上下文大语言模型(LLMs)——例如Gemini-3.1-Pro与Qwen-3.5——正被广泛应用于检索增强生成、自主智能体和AI助手等现实场景。然而,其大规模部署仍面临严重的安全隐患,包括提示注入与知识污染等威胁。为量化LLMs在此类威胁下的安全风险,研究界已开发出基于启发式算法和优化算法的红队测试方法。优化类方法通常能产生比启发式攻击更强的攻击效果,从而为LLM安全风险提供更严苛的评估标准。但这类方法往往需要消耗大量计算资源与GPU显存,尤其在长上下文场景下更为突出。这种资源密集型特性成为系统化评估长上下文LLM安全风险及大规模验证防御策略效果的主要障碍(对学术界研究者尤为显著)。本研究提出FlashRT框架,首次针对长上下文LLM场景下的优化类提示注入与知识污染攻击,实现了计算效率与内存效率的双重提升。大量实验表明,相较于最先进的基线方法nanoGCG,FlashRT可稳定实现2-7倍加速(例如将运行时间从1小时缩短至10分钟内),并将GPU显存占用降低2-4倍(针对32K令牌上下文,显存从264.1GB降至65.7GB)。该框架可广泛应用于TAP、AutoDAN等黑盒优化方法。我们期待FlashRT能作为红队测试工具,助力长上下文LLM安全性的系统化评估。代码已开源:https://github.com/Wang-Yanting/FlashRT
基础模型通常经过微调后应用于特定领域,但安全评估往往仅针对基座模型进行,这种做法的潜在假设是安全属性能够在下游适配过程中保持不变。为验证该假设,我们分析了100个模型的安全行为,包括医疗和法律领域广泛部署的微调模型,以及开源基础模型与其对照适配版本的对比研究。在通用与领域特定的安全基准测试中,我们发现良性微调会导致安全度量值产生显著、异质且时常自相矛盾的变化:模型在部分评估工具上表现提升的同时,在其他工具上出现退化,不同评估维度存在实质性分歧。这些结果表明,常规下游适配并不能保持安全行为的稳定性,这对以基座模型评估为核心的治理与部署实践提出了关键性质疑。若未在部署相关场景中对微调模型进行显式重评估,现有方法将难以有效管理下游风险,无法识别实际危害来源——这种缺陷在高风险场景中影响尤为重大,并对现行问责范式构成挑战。