每日精选AI研究论文及翻译
自进化方法通过迭代式的“生成-验证-优化”循环提升代码生成能力,但现有方法存在探索效率低下的问题,难以在有限预算内发现复杂度更优的解决方案。这种低效性源于三方面:初始化解偏差使进化过程陷入劣质解区域、缺乏反馈引导的随机操作失控、以及跨任务经验利用不足。为解决这些瓶颈,我们提出可控自进化框架(CSE),其包含三个核心组件:多样化规划初始化生成结构迥异的算法策略以实现广阔解空间覆盖;遗传进化以反馈引导机制替代随机操作,实现定向突变与组合交叉;分层进化记忆在任务间与任务内层面同步记录成功与失败经验。在EffiBench-X基准上的实验表明,CSE在不同大语言模型骨干上均稳定超越所有基线方法,且从进化早期即展现出更高效率,并在整个进化过程中保持持续改进。代码已开源于https://github.com/QuantaAlpha/EvoControl。
深度研究系统广泛应用于多步骤网络调研、分析与跨源信息整合,但其评估仍面临挑战。现有基准测试往往需要大量标注任务构建、依赖静态评估维度,或在引证缺失时难以可靠验证事实。为弥补这些不足,我们推出DeepResearchEval——一个面向深度研究任务的自动化构建与智能体评估框架。在任务构建方面,我们提出角色驱动的流程,基于多样化用户画像生成真实且复杂的研究任务,并应用任务资质与搜索必要性两阶段筛选机制,仅保留需要多源证据整合与外部检索的任务。在评估层面,我们设计了包含双组件的智能体流程:自适应点式质量评估能根据生成任务动态推导任务专属的评估维度、标准与权重;主动事实核查则通过网络搜索自主提取并验证报告陈述,即使在引证缺失时也能有效运作。
大型语言模型(LLM)智能体通过多工具协作展现出内在推理能力。然而在智能体推理过程中,现有方法常存在两大问题:(一)因缺乏前瞻性而导致局部短视生成;(二)轨迹不稳定性,即早期微小误差会演变为发散推理路径。这些问题使得全局效能与计算效率难以兼顾。为应对上述挑战,我们提出基于LLM智能体的元自适应探索框架MAXS(https://github.com/exoskeletonzj/MAXS),该框架能灵活整合工具执行与推理规划。MAXS采用前瞻策略延伸多步推理路径,评估工具使用的优势值,并结合步骤一致性方差与步间趋势斜率联合筛选稳定、一致且高价值的推理步骤。此外,我们引入轨迹收敛机制,在达成路径一致性时停止进一步推演,通过控制计算成本实现多工具推理中资源效率与全局效能的平衡。我们在三种基础模型(MiMo-VL-7B、Qwen2.5-VL-7B、Qwen2.5-VL-32B)和五个数据集上开展广泛实验,证明MAXS在性能与推理效率上均持续优于现有方法。进一步分析验证了前瞻策略与工具使用的有效性。
科学推理不仅依赖于逻辑推断,还需要激活先验知识与经验结构。记忆能够高效复用知识并增强推理的一致性与稳定性。然而,现有基准主要评估最终答案或逐步推导的连贯性,忽视了人类推理中基于记忆驱动的内在机制——即通过激活认知锚点与吸引子,并将其整合至多步推理的过程。为填补这一空白,我们提出A³-Bench(https://a³-bench.github.io),这一基准以锚点-吸引子激活理论为基础,通过双尺度记忆驱动机制评估科学推理能力。首先,我们采用SAPM流程(主体、锚点与吸引子、问题及记忆发展)对涵盖多学科的2,198个科学推理问题进行系统标注。其次,我们引入基于锚点与吸引子的双尺度记忆评估框架,并提出AAUI(锚点-吸引子利用指数)指标以量化记忆激活率。最后,通过多种基础模型与范式的实验,我们验证了A³-Bench的有效性,并解析了记忆激活如何影响推理性能,为记忆驱动型科学推理研究提供了新视角。
在本报告中,我们推出DASD-4B-Thinking——一个轻量级但能力卓越、完全开源的推理模型。该模型在数学、科学推理和代码生成等挑战性基准测试中,取得了同规模开源模型的SOTA性能,甚至超越了若干更大规模的模型。我们首先重新审视了社区广泛采用的蒸馏范式:基于教师模型生成答案的SFT(序列微调),即序列级蒸馏。尽管近期一系列遵循此方案的研究展现了卓越的效率和强劲的实证性能,但这些方法主要基于SFT视角,因而侧重于设计启发式规则进行SFT数据筛选,却很大程度上忽略了蒸馏的核心原则——让学生模型学习教师模型的完整输出分布以继承其泛化能力。具体而言,我们指出了当前实践中的三个关键局限:1)教师序列级分布的表征不足;2)教师输出分布与学生学习能力之间的错配;3)教师强制训练与自回归推理产生的曝光偏差。总体而言,这些缺陷反映了蒸馏过程中系统性缺乏显式的师生交互,导致蒸馏本质未被充分挖掘。为解决这些问题,我们提出了多项方法论创新,共同构成增强型序列级蒸馏训练流程。值得注意的是,DASD-4B-Thinking仅使用44.8万训练样本就获得了有竞争力的结果——比大多数现有开源工作采用的样本量少一个数量级。为支持社区研究,我们公开发布了模型及训练数据集。
视觉-语言-动作(VLA)任务需对复杂视觉场景进行推理,并在动态环境中执行自适应动作。尽管近期研究表明显式思维链(CoT)能提升推理型VLA的泛化能力,但冗长的推理轨迹会导致高推理延迟。我们提出Fast-ThinkAct高效推理框架,通过可言语化的潜在推理实现紧凑而高性能的规划。该框架通过从教师模型蒸馏学习潜在CoT的高效推理,借助偏好引导目标对齐操作轨迹,从而迁移语言与视觉规划能力以实现具身控制。这种推理增强的策略学习有效衔接了紧凑推理与动作执行。在多样化具身操作与推理基准上的大量实验表明,Fast-ThinkAct在保持有效长程规划、少样本适应及故障恢复能力的同时,相比最先进的推理型VLA将推理延迟降低高达89.3%,并实现强劲性能。
通用大规模视觉语言模型(LVLM)尽管参数量庞大,但在皮肤病学领域往往表现不佳,其根源在于"注意力弥散"现象——即难以从背景噪声中分离出细微的病理特征。本文挑战了"参数缩放是提升医学精度的唯一途径"这一固有认知,提出SkinFlow框架,将诊断任务重构为视觉信息传输效率的优化问题。该框架采用虚拟宽度动态视觉编码器(DVE),在不增加实体参数的前提下实现对复杂病理流形的"展开"解析,并结合两阶段强化学习策略:第一阶段对齐显性医学描述,第二阶段在受限语义空间内重建隐性诊断纹理。此外,我们设计了基于临床实践的评价体系,重点关注诊断安全性与层级化关联度,而非僵化的标签匹配。实证结果显著:我们的70亿参数模型在Fitzpatrick17k基准测试中刷新纪录,Top-1准确率较巨型通用模型(如Qwen3VL-235B和GPT-5.2)提升12.06%,Top-6准确率跃升28.57%。这表明通过优化几何容量与信息流,能比单纯参数缩放产生更卓越的诊断推理能力。
我们提出OpenVoxel——一种无需训练的算法,用于对稀疏体素进行分组与描述,以支持开放词汇的3D场景理解任务。给定通过多视角图像获得的稀疏体素栅格化模型,OpenVoxel能够生成描述场景中不同物体的有意义分组。通过融合强大的视觉语言模型和多模态大语言模型,本方法可为每个分组生成描述性标注,从而构建信息丰富的场景地图,助力开放词汇分割、指代表达分割等下游任务。与现有方法不同,本方法无需训练过程,且不依赖CLIP/BERT文本编码器的嵌入表示,而是直接基于多模态大语言模型进行文本到文本的检索。大量实验表明,本方法在复杂指代表达分割任务中表现优于现有研究,代码将开源发布。
大型语言模型(LLM)的发展在一系列下游任务中取得了卓越性能,其中包括基于LLM的检索增强生成(RAG)。生成内容的质量高度依赖于检索信息的有用性,以及LLM内部信息处理机制在答案生成中整合这些信息的能力。通常假设检索到的信息与问题相关,但实际检索信息的关联度和有用性会因问题及文档集合的不同而存在差异。因此在答案生成过程中考虑检索信息的相关性至关重要。本文提出OpenDecoder新方法,通过显式评估检索信息作为生成质量指标特征,旨在构建对不同程度噪声上下文具有更强鲁棒性的RAG模型。我们综合考虑三类显式评估信息:相关性评分、排序评分和QPP(查询性能预测)评分。在五个基准数据集上的实验结果表明,OpenDecoder以超越多种基线方法的性能验证了其有效性与更优的鲁棒性。值得注意的是,该范式具有高度灵活性,既可适配LLM针对不同目标的后训练任务,也能兼容各类外部指标。
经验干预在网页智能体领域正成为一种前景广阔的技术范式,通过从积累的经验中提取有价值洞见来增强智能体的交互能力。然而现有方法主要在任务执行前将经验作为全局上下文被动注入,难以适应智能体与环境交互过程中动态变化的上下文观察。我们提出ExpSeek方法,将经验使用方式转向步骤级主动寻求:首先基于模型内在信号估计步骤级熵阈值以确定干预时机;其次设计步骤级定制化经验内容。在Qwen3-8B和32B模型上进行的四项高难度网页智能体基准测试表明,ExpSeek分别实现了9.3%和7.5%的绝对性能提升。实验验证了熵作为自我触发信号的可行性优势,并揭示即使仅使用4B小规模经验模型也能显著提升更大规模智能体模型的性能。
视觉语言模型在用户界面定位任务中展现出卓越性能,这得益于其处理高分辨率屏幕截图的能力。然而,屏幕截图被分割为数千个视觉标记(如2K分辨率下约4700个),导致显著的计算开销并分散注意力。相比之下,人类在与界面交互时通常聚焦于感兴趣区域。本研究开创性地提出高效界面定位任务,通过实际分析任务特性与挑战,提出FocusUI框架——该框架能在保留位置连续性的同时筛选与指令最相关的图像块,实现精准定位。FocusUI攻克两大核心挑战:(1)消除视觉编码中的冗余标记。我们通过融合指令条件评分与基于规则的界面图评分构建块级监督机制,对大面积同质区域进行降权处理,从而筛选出独特且与指令相关的视觉标记;(2)保持视觉标记选择过程中的位置连续性。研究发现通用视觉标记剪枝方法会破坏位置信息,导致界面定位任务精度严重下降。我们创新性地提出PosPad策略,将连续丢弃的视觉标记序列压缩为特殊标记并置于序列末尾,从而保留位置连续性。在四个定位基准测试上的综合实验表明,FocusUI超越了专用图形界面基线模型。在ScreenSpot-Pro基准测试中,FocusUI-7B相较GUI-Actor-7B实现3.7%的性能提升;即使仅保留30%的视觉标记,其性能仅下降3.2%,同时推理速度提升1.44倍,GPU峰值内存降低17%。
大型语言模型(LLM)的训练通常以偏好对齐为优化目标,奖励那些被认为有助于互动且友好的输出。然而这种以偏好为导向的目标可能被恶意利用:通过操纵性提示,可使模型倾向于迎合用户认同而非坚持真相修正。本研究探讨经过对齐的模型是否易受偏好颠覆攻击(PUA)——一类通过操纵提示策略,利用模型取悦用户偏好的特性而牺牲真实性的攻击方法。我们提出一种诊断方法,采用因子评估框架在受控的2×2^4实验设计中,将提示引发的输出变化分解为系统目标(求真导向vs偏好导向)与PUA式对话因子(指令控制、人格贬损、条件认可、现实否定)的可解释效应,相比聚合基准分数能提供更细粒度的定向分析。令人惊讶的是,更先进的模型有时反而更容易受操纵性提示影响。除主导的现实否定因子外,我们还观察到模型特定的符号反转及与PUA式因子的交互作用,表明需要定制化防御而非统一鲁棒性策略。这些发现提出了一种新颖、可复现的因子评估方法,为RLHF等训练后流程提供细粒度诊断,通过更精准理解偏好对齐风险与操纵提示的影响,助力LLM产品迭代中实现更优的权衡。
尽管基于大语言模型的智能体在深度研究任务中展现出潜力,但现有方法大多依赖固定工作流,难以适应现实世界中开放式的复杂查询。近期研究尝试通过让智能体重写自身代码或提示来实现自我进化以提升问题解决能力,但无约束的优化往往引发系统不稳定、幻觉及指令偏移等问题。我们提出EvoFSM框架,通过演化显式有限状态机而非依赖自由形式的重写,实现适应性与可控性的统一。该框架将优化空间解耦为宏观流程(状态转移逻辑)与微观技能(状态特定行为),在明确行为边界下实现精准改进。依托评审机制引导,EvoFSM通过一组受限操作精化有限状态机,并引入自我进化记忆模块——将成功轨迹提炼为可复用的先验知识,失败模式则转化为未来查询的约束条件。在五个多跳问答基准测试上的广泛实验证明了EvoFSM的有效性,其中在DeepSearch基准上达到58.0%的准确率。交互式决策任务的附加结果进一步验证了其泛化能力。
我们推出TranslateGemma——一套基于Gemma 3基础模型的开源机器翻译模型。为增强Gemma 3原生多语言能力在翻译任务中的表现,我们采用两阶段微调策略:首先利用通过前沿模型生成的大规模高质量合成平行数据与人工翻译平行数据组成的混合数据集进行监督微调;随后开展强化学习阶段,通过整合MetricX-QE和AutoMQM等奖励模型的集成优化系统,专项提升翻译质量。我们在WMT25测试集的10个语言对上开展人工评估,并在WMT24++基准测试的55个语言对上进行自动评估,验证了TranslateGemma的有效性。自动指标显示所有规模的模型均较基线版Gemma 3取得持续显著提升。值得注意的是,较小体量的TranslateGemma模型常能达到与更大基线模型相媲美的性能,同时实现效率优化。我们还证实该系列模型保留了强大的多模态能力,在Vistra图像翻译基准测试中表现提升。开源TranslateGemma模型的发布旨在为研究界提供强大且适应性强的机器翻译工具。
世界模型的最新进展为环境状态未来动态建模展现出潜力,使得智能体无需访问真实环境即可进行推理与决策。现有方法主要执行单步或固定步长的轨迹推演,尚未充分挖掘其在复杂任务规划中的潜力。我们提出"先想象后规划"的统一框架,通过前瞻式想象实现智能体学习:策略模型与习得的世界模型交互,生成多步"想象"轨迹。鉴于想象视界可能随任务和阶段动态变化,我们引入一种新颖的自适应前瞻机制,通过权衡终极目标与任务进度来调整步长。由此产生的想象轨迹可提供丰富的未来状态信号(如达成进度与潜在冲突),这些信号与当前观测相融合,构建出部分可观测可想象的马尔可夫决策过程以指导策略学习。我们实现了无需训练和强化训练两种变体,在代表性智能体基准测试中的广泛实验表明,该方法显著优于现有基线。进一步分析验证了自适应前瞻机制能有效增强智能体推理能力,为应对更广泛复杂任务提供了重要启示。
基于扩散模型的现代视频生成模型能够制作出非常逼真的片段,但其计算效率低下,往往需要数分钟GPU时间才能生成几秒视频。这种低效性对在需要实时交互的应用(如具身人工智能和VR/AR)中部署生成式视频构成了关键障碍。本文探索了一种静态场景相机条件视频生成的新策略:使用基于扩散的生成模型生成稀疏关键帧集,然后通过三维重建与渲染合成完整视频。通过将关键帧提升为三维表征并渲染中间视角,我们的方法在保证几何一致性的同时,将生成成本分摊至数百帧。我们进一步提出可预测给定相机轨迹最优关键帧数量的模型,使系统能自适应分配计算资源。最终方法SRENDER对简单轨迹使用极稀疏关键帧,对复杂相机运动则增加关键帧密度。该方法在生成20秒视频时比基于扩散的基线模型快40倍以上,同时保持高视觉保真度与时间稳定性,为高效可控的视频合成提供了可行路径。
记忆在现代大语言模型及多模态大语言模型中发挥着增强推理能力、适应性与语境保真度的基础性作用。随着这些模型从静态预测器转变为具备持续学习与个性化推理能力的交互系统,记忆机制的融入已成为其架构与功能演进的核心议题。本文对LLM与MLLM中的记忆研究进行了系统化梳理,将现有文献整合为隐式记忆、显式记忆与智能体记忆三大范式构成的统一分类体系。具体而言,本研究界定出三种核心记忆框架:隐式记忆指预训练Transformer内部参数所蕴含的知识储备,包括其记忆存储、关联检索与语境推理能力,近期研究聚焦于对这种潜在记忆的解释、操控与重构方法;显式记忆通过外部存储与检索模块增强模型输出,采用文本语料库、稠密向量及图结构等动态可查询的知识表征,实现与信息源的可扩展、可更新的交互;智能体记忆在自主智能体中构建具有时间延续性的持久记忆结构,支持多智能体系统中的长期规划、自我一致性与协同行为,与具身交互AI密切相关。超越文本范畴,本文还考察了多模态场景下的记忆整合机制,其中视觉、语言、音频与行动模态间的连贯性至关重要。文中重点讨论了关键架构进展、基准任务与开放挑战,包括记忆容量、对齐机制、事实一致性及跨系统互操作性等议题。
学习表征分析存在一个盲区:当前方法聚焦于相似性度量,即衡量嵌入向量与外部参照的匹配程度,但相似性仅能揭示表征内容,无法判断结构是否稳健。我们提出几何稳定性这一全新维度,用于量化表征几何在扰动下的保持可靠性,并推出测量框架Shesha。通过对七大领域2463种配置的实验,我们发现稳定性与相似性在经验上无关(ρ≈0.01)且机制迥异:移除主成分后相似性度量会失效,而稳定性仍能敏感捕捉细粒度流形结构。这种差异具有实践价值:在安全监控方面,稳定性可作为功能性几何预警指标,其检测结构漂移的灵敏度比CKA提高近2倍,同时能过滤刚性距离度量中引发误报的非功能性噪声;在可控性方面,监督式稳定性可预测线性导向能力(ρ=0.89-0.96);在模型选择方面,稳定性与可迁移性解耦,揭示了迁移优化所产生的几何代价。超越机器学习领域,稳定性还能预测CRISPR扰动一致性与神经-行为耦合度。通过量化系统维持结构的可靠性,几何稳定性为生物与计算系统的表征审计提供了相似性度量之外的必要补充维度。
具身系统将世界体验为“流动的交响乐”:多种持续感官输入流与自主动作相结合,并与外部物体动态交织而成的组合。这些流遵循平滑的时间参数化对称性,通过精妙构建的代数体系融合;然而大多数神经网络世界模型忽视这种结构,转而从数据中重复学习相同变换。本研究提出“流等变世界模型”,将自主运动与外部物体运动统一为单参数李群“流”。我们利用这种统一性实现对上述变换的群等变处理,从而构建出数百个时间步内稳定的潜在世界表征。在2D和3D部分可观测视频世界建模基准测试中,流等变世界模型显著优于同类基于扩散和记忆增强的先进架构——尤其在智能体当前视野外存在可预测世界动态时表现突出。研究表明流等变特性对长程推演尤为有利,其泛化能力远超训练时域。通过基于内外运动构建世界模型表征,流等变为实现数据高效、对称性引导的具身智能开辟了可扩展路径。项目链接:https://flowequivariantworldmodels.github.io。
多模态大语言模型(MLLMs)在多模态推理领域正取得显著进展。早期方法主要聚焦于纯文本推理,而近期研究虽在推理步骤中融入了多模态信息,却往往遵循单一任务特定的推理模式,这限制了其在各类多模态任务中的泛化能力。实际上,众多多模态任务需要多样化的推理技能,例如对图像特定区域进行放大或标记目标物体。为解决这一问题,我们提出统一生成式多模态推理方法,通过在推理过程中生成中间图像来整合多种多模态推理能力。我们通过两阶段SFT+RL框架Omni-R1实现该范式,该框架采用感知对齐损失和感知奖励机制,从而实现功能性图像生成。此外,我们推出Omni-R1-Zero,通过从纯文本推理数据中自举步进式可视化内容,无需多模态标注即可实现推理。实验结果表明,Omni-R1在广泛的多模态任务中实现了统一生成式推理,而Omni-R1-Zero在平均性能上可媲美甚至超越Omni-R1,这为生成式多模态推理指明了富有前景的发展方向。
基于强化学习的大语言模型增强方法常导致输出多样性下降,削弱了其在创意写作等开放式任务中的实用性。现有方法缺乏引导多样性探索的显式机制,往往将优化效率和性能置于多样性之上。本文提出一种围绕半结构化长链思维构建的强化学习框架,通过将生成过程分解为显式规划的中间步骤,在规划阶段基于多样性变化策略性地引入分叉路径,并采用群体感知的多样性奖励机制以激励差异化轨迹生成。创意写作基准测试表明,该方法在保持生成质量的同时显著提升了输出多样性,各项指标持续优于现有基线模型。
图像到视频生成任务旨在根据参考图像和文本提示合成视频。这要求扩散模型在去噪过程中协调高频视觉约束与低频文本引导。然而,尽管现有I2V模型优先考虑视觉一致性,但如何有效耦合这种双重引导以确保对文本提示的强遵循性仍待深入探索。本研究发现,基于扩散Transformer的I2V模型中,部分中间层会表现出弱语义响应(称为语义薄弱层),其文本-视觉相似度指标存在可测量的下降。我们将此归因于"条件隔离"现象——视觉特征的注意力机制与文本引导部分脱节,过度依赖学习到的视觉先验。为此,我们提出焦点引导技术,通过两种机制增强语义薄弱层的可控性:(1)细粒度语义引导利用CLIP识别参考帧关键区域作为锚点指导语义薄弱层;(2)注意力缓存将语义响应层的注意力图迁移至语义薄弱层,注入显式语义信号以减轻其对视觉先验的过度依赖。为验证方法有效性并弥补该方向评估体系的缺失,我们构建了I2V模型指令遵循评估基准。实验表明焦点引导具有显著效果和泛化能力:在Wan2.1-I2V上将总分提升至0.7250(+3.97%),基于MMDiT的HunyuanVideo-I2V得分提升至0.5571(+7.44%)。
强化学习(RL)为增强大语言模型的推理能力提供了系统化方法,但其有效性依赖于能够随模型进化保持信息量的训练信号。实践中,当任务难度与模型能力失配或训练被少量重复问题模式主导时,RL进展往往受阻。为协同解决这些问题,我们提出SCALER(可扩展自适应推理合成学习环境),该框架通过自适应环境设计维持高效学习信号。SCALER引入可扩展的合成流程,将现实编程问题转化为具有可控难度和无限实例生成能力的可验证推理环境,使RL训练突破有限数据集限制的同时保持强正确性保证。在此基础上,SCALER进一步采用自适应多环境RL策略,动态调整实例难度并筛选活跃环境集合,以追踪模型能力边界并维持分布多样性。这种协同适应机制避免了奖励稀疏性,缓解了对狭窄任务模式的过拟合,支撑了整个训练周期的持续改进。大量实验表明,SCALER在多样化推理基准测试中始终优于基于数据集的RL基线,并展现出更稳定的长周期训练动态。
基于评判引导的强化学习(RL)已成为训练大语言模型(LLM)智能体的重要范式,其通过自然语言反馈增强稀疏的结果奖励。然而,现有方法通常依赖静态或离线的评判模型,无法随策略演化而动态调整。在策略性RL中,智能体的错误模式会随时间变化,导致固定评判器逐渐失效,所提供的反馈效用递减。为解决这一问题,我们提出ECHO(基于后见优化的动态评判器)框架,通过同步协同进化循环实现策略与评判器的联合优化。ECHO采用级联式轨迹生成机制:评判器对初始轨迹生成多重诊断,继而通过策略优化实现分组结构化优势估计。针对学习平台期挑战,我们提出饱和感知增益重塑目标,激励评判器在高性能轨迹中引导渐进式改进。通过双轨GRPO更新机制,ECHO确保评判反馈与演化策略保持同步。实验结果表明,在开放世界环境中,ECHO能实现更稳定的训练效果,并在长周期任务中取得更高成功率。
集群工作负载分配常需复杂配置,存在可用性鸿沟。本文提出一种基于自然语言处理的语义化、意图驱动式集群系统调度范式。该系统通过Kubernetes调度器扩展集成大语言模型,用于解析自然语言分配提示注解中的软亲和性偏好。开发的原型系统具备集群状态缓存和意图分析器(采用AWS Bedrock服务),实证评估表明顶级模型(如Amazon Nova Pro/Premier和Mistral Pixtral Large)的LLM解析准确率极高(在评估基准数据集上子集准确率>95%),显著优于基线引擎。六种场景下的调度质量测试显示,相较于标准Kubernetes配置,原型系统实现了更优或相当的资源放置效果,尤其在复杂场景、定量化场景及冲突软偏好处理方面表现突出。结果验证了LLM在降低调度门槛方面的有效性,但揭示了同步LLM延迟等局限,建议采用异步处理以满足生产就绪需求。本研究证实了语义化软亲和性在简化工作负载编排方面的可行性。
大型语言模型常生成看似合理但无法对照原文验证的摘要,这在政府和法律分析等合规敏感领域存在严重局限。我们推出sui-1模型——一个具有240亿参数的模型,能生成带行内引用的摘要式摘要,使用户可追溯每个论断的原文依据。通过结合思维链提示与多阶段验证的合成数据流水线,我们从议会文件、网络文本和维基百科等多元来源中,生成涵盖五种语言的超过2.2万个高质量训练样本。评估表明,sui-1显著优于所有测试的开放权重基线模型(包括参数量三倍于它的模型)。这些结果证明,在基于引用的摘要任务中,针对性训练远比单纯扩大模型规模更有效。模型权重及交互演示已公开发布。
子词切分质量对大语言模型至关重要,然而对形态丰富的乌拉尔语系进行分词器评估,一直受限于清洁语素词典的缺失。我们推出SampoNLP——一个基于MDL自参照原子性评分的无语料库工具包,通过内部结构线索过滤复合形态,适用于低资源场景。利用该工具为芬兰语、匈牙利语和爱沙尼亚语生成的高纯度语素词典,我们系统评估了8k-256k词汇量范围内的BPE分词器,并提出综合性能得分(IPS)这一统一指标来权衡语素覆盖度与过度切分。通过分析IPS曲线,我们识别了收益递减的"拐点",首次为这些语言提供基于实证的最佳词汇量建议。本研究不仅提供实践指导,更定量揭示了标准BPE在处理高黏着语时的局限性。SampoNLP工具库及生成资源已开源:https://github.com/AragonerUA/SampoNLP