每日精选AI研究论文及翻译
后训练数据的多样性对于大语言模型(LLMs)的下游任务性能至关重要。现有构建后训练数据的方法大多通过基于文本的指标来量化多样性,这些指标虽能捕捉语言变异,但对决定下游性能的任务相关特征仅能提供微弱信号。本研究提出特征激活覆盖度(FAC),在可解释的特征空间中度量数据多样性。基于此指标,我们进一步提出名为FAC合成的多样性驱动数据生成框架:首先使用稀疏自编码器识别种子数据集中缺失的特征,随后显式生成反映这些特征的合成样本。实验表明,我们的方法在指令遵循、毒性检测、奖励建模和行为引导等多项任务中,持续提升数据多样性与下游性能。有趣的是,我们发现不同模型家族(如LLaMA、Mistral和Qwen)间存在共享的可解释特征空间,实现了跨模型知识迁移。本研究为探索LLMs的数据中心化优化提供了坚实且实用的方法论。
口语查询检索是现代信息检索中的重要交互方式。然而现有评估数据集通常局限于简单查询和受限噪声条件,难以全面评估复杂声学扰动下口语查询检索系统的鲁棒性。为解决这一局限,我们提出SQuTR——一个包含大规模数据集和统一评估协议的口语查询检索鲁棒性基准。SQuTR汇集了来自六个常用中英文文本检索数据集的37,317条独特查询,涵盖多领域和多样化查询类型。我们使用200位真实说话人的语音特征合成语音,并在可控信噪比下混合17类真实环境噪声,实现了从安静到高噪声场景的可复现鲁棒性评估。基于统一协议,我们对代表性级联式和端到端检索系统进行了大规模评估。实验结果表明,检索性能随噪声增强而下降,不同系统的性能衰减幅度存在显著差异。即使大规模检索模型在极端噪声下也表现不佳,表明鲁棒性仍是关键瓶颈。总体而言,SQuTR为基准测试和诊断分析提供了可复现的实验平台,并将推动面向文本检索的口语查询鲁棒性研究发展。
我们推出MedXIAOHE医疗视觉语言基础模型,旨在推进真实临床场景下的通用医疗理解与推理能力。该模型在多样化医疗基准测试中实现最先进性能,并在多项核心能力上超越主流闭源多模态系统。为实现这一目标,我们提出实体感知的持续预训练框架,通过系统化组织异构医疗语料库来拓宽知识覆盖范围、缩小长尾差距(如罕见病症)。针对专业级医疗推理与交互需求,MedXIAOHE通过强化学习与工具增强的智能体训练融合多元医疗推理模式,支持具有可验证决策轨迹的多步骤诊断推理。为提升真实场景可靠性,模型整合用户偏好评估标准、证据链推理机制及低幻觉长文本报告生成能力,显著增强对医疗指令的遵循度。本技术报告旨在系统记录我们的实践性设计选择、规模化洞察及评估框架,以期推动相关领域研究进展。
多模态大语言模型(MLLMs)在广义视觉理解方面表现出色,但在细粒度感知任务中仍存在困难——这类任务中的关键证据往往尺寸微小且易被全局语境淹没。近期出现的“图像思维”方法通过推理时对感兴趣区域进行迭代式缩放来缓解此问题,但由于需要重复调用工具并重新编码视觉信息,会导致较高延迟。为此,我们提出区域到图像蒸馏技术,将缩放操作从推理阶段的工具转化为训练阶段的基本单元,从而将智能缩放的优势内化至MLLM的单次前向传播中。具体而言,我们首先对微裁剪区域进行放大,让强教师模型生成高质量视觉问答数据,随后将这种基于区域的监督信息蒸馏回完整图像。经过此类数据训练后,小型学生模型无需使用工具即可提升“单次瞥视”的细粒度感知能力。为系统评估该能力,我们进一步提出ZoomBench——一个包含845个视觉问答数据的混合标注基准数据集,涵盖六个细粒度感知维度,并配套双视角评估协议以量化全局与区域的“缩放差距”。实验表明,我们的模型在多个细粒度感知基准测试中均取得领先性能,同时在视觉推理、GUI智能体等通用多模态认知任务上也有提升。我们进一步探讨了何时必须采用“图像思维”策略,以及何时其增益可被蒸馏至单次前向传播。代码已开源:https://github.com/inclusionAI/Zooming-without-Zooming。
**假说**:人工通用智能本质上是一个压缩问题。有效压缩需要共振——当深度学习架构与数据的底层结构对齐时,其扩展性最佳。这些是基本原则。然而,现代视觉架构已偏离这些本质:视觉信号具有高度冗余性,而判别性信息(即信息熵)却十分稀疏。现有模型对密集像素网格进行均匀处理,将大量算力浪费在静态背景上,而非聚焦于定义运动与语义的预测残差。我们认为,解决视觉理解问题必须让架构与视频的信息论原则(即编解码器原理)对齐。 **方法**:OneVision-Encoder通过将预测性视觉结构压缩为语义信息来实现视频编码。通过采用编解码器分块化技术,OV-Encoder摒弃均匀计算,专注处理仅占3.1%-25%的高信号熵区域。为在非规则令牌布局下统一时空推理,该模型采用共享3D旋转位置编码,并基于超百万语义概念进行大规模聚类判别训练,同时捕捉物体恒常性与运动动态。 **实证**:结果验证了核心假说——效率与精度并非权衡关系,而是正向关联。集成至大语言模型后,其在16项图像、视频及文档理解基准测试中持续超越Qwen3-ViT、SigLIP2等强视觉骨干网络,且使用的视觉令牌数和预训练数据量显著更少。尤其在视频理解任务上,OV-Encoder相较Qwen3-ViT平均提升4.1%。编解码器对齐的块级稀疏性作为基本原则,使OV-Encoder成为支撑下一代通用视觉模型的可扩展引擎。
视频语言模型(VideoLM)使人工智能系统能够理解视频中的时序动态。为适应最大上下文窗口的限制,现有方法采用关键帧采样技术,但由于时间覆盖稀疏,可能同时遗漏宏观事件与微观细节。此外,对每帧完整图像及其令牌进行处理会带来巨大计算开销。为解决这些局限性,我们提出利用视频编解码原语(特别是运动向量与残差),这些原生特性能够在不需对多数帧进行昂贵全图像编码的情况下,自然表征视频冗余性与稀疏性。为此,我们引入了基于轻量级Transformer的编码器,通过预训练策略聚合编解码原语并使其表征与图像编码器嵌入对齐,从而加速端到端微调时的收敛速度。相比标准VideoLM,我们的方法将首令牌生成时间缩短最高86%,令牌使用量减少最高93%。此外,通过调节关键帧与编解码原语密度,我们在涵盖通用问答、时序推理、长视频理解及空间场景理解等14个多样化视频理解基准测试中保持甚至超越了原有性能。
本文提出GeoAgent模型,该模型能够进行类人精细推理并得出细粒度地址结论。尽管基于强化学习的现有方法在性能与可解释性方面取得突破,但由于其依赖AI生成的思维链数据及与地理特性相冲突的训练策略,仍存在隐忧。为解决这些问题,我们首先推出GeoSeek——一个由地理专家与专业玩家共同标注思维链数据的新型地理定位数据集。我们深入挖掘地理任务的内在特性,提出通过一致性智能体评估的地理相似性奖励与一致性奖励机制,以辅助模型训练。这促使模型从地理视角向正确答案收敛,同时保障推理过程的完整性与一致性。实验结果表明,GeoAgent在多个粒度上超越现有方法及一系列通用视觉语言大模型,且生成的推理过程与人类思维高度契合。
基于语义运动进行视频检索是一个基础性但尚未解决的难题。现有视频表征方法过度依赖静态外观和场景上下文,而非运动动态,这种偏差源自其训练数据和目标函数。相反,传统以运动为中心的输入(如光流)缺乏理解高层级运动所需的语义基础。为揭示这种固有偏差,我们提出了SimMotion基准测试集,将受控合成数据与人工标注的真实数据集相结合。实验表明,现有模型在这些基准测试上表现不佳,往往无法将运动与外观特征解耦。为弥补这一缺陷,我们提出SemanticMoments方法——一种无需训练的简易技术,通过计算预训练语义模型特征的时间统计量(具体为高阶矩)。在所有基准测试中,SemanticMoments始终优于现有的RGB、光流和文本监督方法。这证明语义特征空间中的时间统计量能为以运动为中心的视频理解提供可扩展且感知基础扎实的解决方案。
具有可验证奖励的强化学习已成为提升视觉语言模型推理能力的标准后训练阶段,但其相较于作为冷启动初始化的监督微调究竟能提升哪些能力仍不明确。端到端基准测试的提升混杂了多重因素,难以将改进归因于具体技能。为弥补这一空白,我们提出弗兰肯斯坦式分析框架,包括:(一)通过因果探测实现功能定位;(二)通过参数比较进行更新特征分析;(三)通过模型融合开展可迁移性测试。研究发现,强化学习主要在模型中后期层引发一致的推理时偏移,这些中后期优化既具有可迁移性(通过融合验证),又是强化学习增益的必要条件(通过冻结实验验证)。总体而言,我们的结果表明强化学习在视觉推理中的可靠贡献并非对视觉感知的均匀增强,而是通过系统化改进Transformer中后期计算,优化视觉到推理的对齐与推理性能,这凸显了仅依赖基准测试来理解多模态推理改进的局限性。
人工智能体已能处理日益复杂的任务。为实现更宏大的目标,智能体需要具备将问题有效分解为可管理子模块的能力,并能安全地将这些子任务委托给其他AI体或人类协同完成。然而,现有的任务分解与委托方法仍依赖简单启发式规则,无法动态适应环境变化,也缺乏对意外故障的稳健处理能力。本文提出一种自适应智能委托框架——通过包含任务分配决策序列,同时整合权限转移、责任归属、权责界定、角色边界明确定义、意图清晰传达以及多方信任建立机制。该框架适用于复杂委托网络中的人类与AI委托方/受托方,旨在为新兴智能体网络中的协议开发提供理论支撑。
构建通用具身智能体以适应多样化硬件平台是机器人领域的核心挑战,通常被表述为"一体多形"范式。当前研究受限于数据碎片化、表征不一致以及训练目标失准等问题。我们提出ABot-M0框架,通过构建系统化数据治理流程并协同优化模型架构与训练策略,实现从异构原始数据到统一高效表征的端到端转换。基于六个公共数据集,我们通过清洗、标准化和样本平衡构建了UniACT数据集——包含超600万条轨迹、9500小时数据的大规模数据集,涵盖多类机器人形态与任务场景。统一预训练显著提升了跨平台、跨任务的知识迁移与泛化能力,为通用具身智能奠定基础。为提升动作预测效率与稳定性,我们提出动作流形假说:有效机器人动作并非存在于高维全空间,而是分布于受物理规律与任务约束的低维光滑流形上。基于此引入动作流形学习(AML),采用DiT主干网络直接预测洁净连续的动作序列,将学习重点从去噪转向可行流形投影,提升解码速度与策略稳定性。ABot-M0通过双流机制支持模块化感知,将VLM语义与几何先验、VGGT及Qwen-Image-Edit等即插即用3D模块的多视角输入相融合,在保持主干网络不变的前提下增强空间理解能力,缓解标准VLM在三维推理中的局限性。实验表明各组件可独立运行且具有增益效应。我们将公开全部代码与流程以促进复现与后续研究。
仿真技术为丰富视觉-语言-动作模型的训练提供了可扩展且低成本的途径,降低了对昂贵真实机器人演示数据的依赖。然而,多数仿真-现实协同训练方法依赖于监督微调,仅将仿真视为静态演示数据源,未能充分利用大规模闭环交互。这导致现实场景的性能提升和泛化能力往往受限。本文提出一种基于强化学习的仿真-现实协同训练框架,在保持现实世界能力的同时充分利用交互式仿真优势。该方法采用通用的两阶段设计:首先通过真实与仿真演示数据的混合监督微调对策略进行预热初始化,随后在仿真环境中进行强化学习微调,并针对真实数据添加辅助监督损失以锚定策略、避免灾难性遗忘。我们在四种现实桌面操作任务上,使用OpenVLA和π_{0.5}两种代表性视觉-语言-动作架构进行评估,发现该方法相较纯真实数据微调和基于监督微调的协同训练均取得持续改进:OpenVLA实现现实任务成功率提升24%,π_{0.5}提升20%。除成功率提升外,强化学习协同训练还展现出对未见任务变体更强的泛化能力,并显著提高现实数据利用效率,为借助仿真技术增强真实机器人部署提供了实用且可扩展的路径。
通用视频理解需要针对多样现实场景中随时间变化的细粒度视觉与音频信息进行建模。然而现有模型的性能主要受限于视频指令数据——这些数据将复杂的视听内容简化为单一、不完整的描述,缺乏细粒度组织与可靠标注。为此我们提出:(i) ASID-1M,一个包含百万条结构化细粒度视听指令标注的开源数据集,支持单属性与多属性监督;(ii) ASID-Verify,可扩展的数据标注管理流程,通过自动验证与优化机制确保描述与对应视听内容在语义和时间维度的一致性;(iii) ASID-Captioner,基于ASID-1M通过监督微调训练的视频理解模型。在涵盖视听描述、属性级描述、基于描述的问答及时间定位的七项基准测试中,ASID-Captioner在提升细粒度描述质量的同时有效减少幻觉现象并改善指令遵循能力。该模型在开源模型中达到领先水平,与Gemini-3-Pro性能相当。
在大规模语言模型(LLM)推理过程中,资源受限的部署环境常受限于内存占用和内存带宽,使得量化成为高效服务的关键技术。虽然训练后量化(PTQ)在4比特位宽下能保持较高精度,但在2-3比特位宽时性能显著下降。究其根本,现有方法对每个参数组强制采用形状不变的量化网格(如UINT2的固定均匀间隔),严重限制了误差最小化的可行解空间。为此,我们提出位平面分解量化(BPDQ)方法:通过位平面与标量系数构建可变量化网格,利用近似二阶信息迭代优化网格参数,并逐级补偿量化误差以最小化输出差异。在2比特量化场景下,BPDQ可实现Qwen2.5-72B模型在单张RTX 3090显卡上的部署,GSM8K准确率达83.85%(对比16比特的90.83%)。此外,我们通过理论分析证明可变网格能扩展可行解空间,且量化过程始终与Hessian矩阵诱导的几何空间中的优化目标保持一致。代码详见:github.com/KingdalfGoodman/BPDQ。
扩散大语言模型(dLLMs)因其并行生成令牌的能力,已成为自回归(AR)大语言模型的重要替代方案。这一范式特别适用于代码生成场景,因为代码生成需要整体结构规划和非顺序优化。尽管潜力显著,但为CUDA内核生成定制dLLMs仍面临挑战,不仅源于技术的高度专业化,更因高质量训练数据的严重匮乏。为解决这些问题,我们构建了CuKe——一个专为高性能CUDA内核优化的增强型监督微调数据集。在此基础上,我们提出双阶段精调强化学习(BiC-RL)框架,包含CUDA内核填充阶段和端到端CUDA内核生成阶段。基于该训练框架,我们推出了DICE系列扩散大语言模型,专攻CUDA内核生成,涵盖1.7B、4B和8B三种参数规模。在KernelBench上的大量实验表明,DICE在同等规模下显著优于自回归和扩散大语言模型,为CUDA内核生成确立了新的技术标杆。
科学推理本质上要求整合复杂工具集以驾驭领域特定知识。然而现有基准测试大多忽视了智能体在严格工作流中协调工具的能力。为填补这一空白,我们推出SciAgentGym——一个可扩展的交互环境,涵盖四大自然科学领域的1,780种领域专用工具,并配备稳健的执行基础设施。与之配套的SciAgentBench分层评估体系,旨在对智能体能力进行从基础操作到长周期工作流的压力测试。评估揭示关键瓶颈:顶尖模型在复杂科学工具使用上表现堪忧。以GPT-5为例,其成功率随交互周期延长从60.6%骤降至30.9%,主因在于多步骤工作流执行失败。为此我们提出SciForge数据合成方法,通过将工具动作空间建模为依赖图来生成逻辑感知的训练轨迹。基于这些轨迹微调的SciAgent-8B模型,在超越体积大得多的Qwen3-VL-235B-Instruct的同时,展现出科学工具使用能力的正向跨领域迁移。这些成果彰显了新一代自主科学智能体的巨大潜力。
强化学习(RL)微调已成为提升大语言模型(LLM)在推理密集型任务表现的关键技术,这一成功经验正推动其向视觉语言模型(VLM)领域延伸。尽管经过RL微调的VLM在视觉推理基准测试中表现提升,但其仍存在视觉基础薄弱、幻觉问题以及过度依赖文本线索的缺陷。我们发现,简单的受控文本扰动(如误导性图像描述或错误的思维链轨迹)会显著削弱模型的鲁棒性与置信度,且当考虑开源多模态推理模型的思维链一致性时,这种负面影响更为突出。基于熵的度量指标进一步表明,这些扰动会重塑模型对正确选项的不确定性与概率分布,暴露出模型特有的校准偏差趋势。为深入探究这些脆弱性,我们进一步分析RL微调动态,揭示了准确性与忠实度之间的权衡:微调虽能提高基准准确率,但可能同时削弱伴随思维链的可靠性及其对语境变化的适应力。尽管对抗性增强能提升鲁棒性,但其本身无法阻止忠实度偏移。引入忠实度感知奖励机制可恢复答案与推理间的一致性,但当与增强技术结合时,训练易陷入捷径策略的困境,鲁棒性仍难以保障。这些发现共同揭示了仅以准确性为评估标准的局限性,呼吁建立同步强调正确性、鲁棒性及视觉基础推理忠实度的训练与评估框架。
诸如扩散模型与流匹配等迭代生成策略虽为连续控制提供了卓越的表达能力,但由于其动作对数密度无法直接获取,使得最大熵强化学习问题复杂化。为此,我们提出场最小能量行动者-评论者框架(FLAC),这一无需似然估计的方法通过惩罚速度场的动能来调控策略随机性。我们的核心洞见是将策略优化问题构建为相对于高熵参考过程(如均匀分布)的广义薛定谔桥问题。在此视角下,最大熵原理自然体现为在优化回报的同时保持与高熵参考的接近度,而无需显式计算动作密度。该框架中,动能作为衡量与参考过程偏离的物理基础代理指标:最小化路径空间能量可约束诱导终端动作分布的偏离程度。基于此观点,我们推导出能量正则化的策略迭代方案及实用的离策略算法,后者通过拉格朗日对偶机制自动调节动能。实验表明,FLAC在高维基准测试中相较于强基线方法取得更优或相当的性能,同时避免了显式密度估计。
在本报告中,我们推出小米机器人-0(Xiaomi-Robotics-0)——一款专为高性能、快速流畅实时执行而优化的先进视觉-语言-动作(VLA)模型。我们的方法核心在于精心设计的训练方案与部署策略。该模型首先通过大规模跨具身机器人轨迹与视觉-语言数据进行预训练,使其获得广泛且可泛化的动作生成能力,同时避免对底层预训练VLM视觉语义知识的灾难性遗忘。在后训练阶段,我们提出多项异步执行训练技术以解决真实机器人部署时的推理延迟问题。部署过程中,我们通过精确对齐连续预测动作块的时间步长,确保实时执行过程的连贯性与无缝衔接。我们在仿真基准测试和两项需要精确灵巧双手操作的现实机器人任务中,对小米机器人-0进行了全面评估。结果表明,我们的方法在所有仿真基准测试中均达到领先性能。此外,小米机器人-0可在消费级GPU上实现快速流畅的真实机器人部署,在两项现实任务中均取得高成功率与高吞吐量。为促进后续研究,代码与模型检查点已在https://xiaomi-robotics-0.github.io开源。
实现空间智能需要超越视觉合理性,构建基于物理定律的世界模拟器。尽管编程大语言模型已推动静态3D场景生成的发展,但将该范式拓展至四维动态生成仍是关键前沿。此任务面临两大根本挑战:多尺度上下文纠缠问题——单一生成模式难以平衡局部物体结构与全局环境布局;语义-物理执行鸿沟问题——开环代码生成会导致缺乏动态保真度的物理幻觉。我们提出Code2Worlds框架,将四维生成建模为语言到模拟代码的生成过程。首先设计双流架构,实现检索增强的物体生成与分层环境编排的解耦;其次建立物理感知的闭环机制,通过后处理代理编写动力学脚本,结合VLM运动批判器进行自我反思以迭代优化模拟代码。在Code4D基准测试中,Code2Worlds以41%的SGS提升和49%的丰富度优势超越基线方法,且能生成静态方法所不具备的物理感知动态效果。代码与项目网站详见:https://github.com/AIGeeksGroup/Code2Worlds 与 https://aigeeksgroup.github.io/Code2Worlds。
基于扩散的生成模型最新进展为图像与视频重照明确立了新范式。然而,将这些能力拓展至四维重照明仍面临挑战,主要源于配对4D重照明训练数据的稀缺性,以及在极端视角变化下保持时间一致性的困难。本研究提出Light4D——一种无需训练的新型框架,可在目标光照下合成具有时间一致性的4D视频,即使面临极端视角变化也能保持稳定。首先,我们引入解耦流引导策略,这种时序感知方法能有效将光照控制注入潜在空间,同时保持几何完整性。其次,为增强时间一致性,我们在IC-Light架构中开发了时序一致注意力机制,并进一步引入确定性正则化以消除画面闪烁。大量实验表明,本方法在时间一致性与光照保真度方面达到业界先进水平,可稳健处理-90°至90°的摄像机旋转。代码与项目网站详见文末链接。
我们提出UniDFlow——一种面向多模态理解、生成与编辑的统一离散流匹配框架。该框架通过任务特定的低秩适配器解耦理解与生成,避免目标干扰与表征纠缠;同时采用新型的基于参考的多模态偏好对齐方法,在相同条件下优化相对输出结果,无需大规模重训练即可提升忠实度与可控性。UniDFlow在八项基准测试中达到最先进性能,并在未接受显式任务训练的情况下,对修复、上下文图像生成、参考式编辑及组合生成等任务展现出强大的零样本泛化能力。
传统推荐系统自动化设计方法(如神经架构搜索NAS)通常受限于人为预设的固定搜索空间,其创新性被束缚于预定义算子范畴。尽管近期基于大语言模型的代码演化框架将目标转向开放式程序空间,但这些方法主要依赖标量指标(如NDCG、命中率),无法提供模型失效的定性分析或改进方向指引。为此,我们提出Self-EvolveRec框架,通过集成用户模拟器进行质性批判与模型诊断工具实施定量内部验证,构建定向反馈循环。此外,我们引入诊断工具-模型协同进化策略,确保评估标准随推荐架构演进动态调整。大量实验表明,Self-EvolveRec在推荐性能和用户满意度上显著优于最先进的NAS及大语言模型驱动代码演化基线方法。代码已开源:https://github.com/Sein-Kim/self_evolverec。
音频扩散模型能够根据文本合成高保真音乐,但其表征高层概念的内部机制仍不甚明晰。本研究通过激活修补技术证明,在尖端音频扩散架构中,特定语义音乐概念(如特定乐器的存在、人声或流派特征)由注意力层中一个较小的共享子集控制。进一步研究表明,在这些关键层应用对比性激活增强与稀疏自编码器可实现对生成音频的更精准控制,印证了专业化现象的直接效益。通过调控已识别层的激活状态,我们能够高精度改变特定音乐元素,例如调节乐曲速度或改变音轨情绪。
导向方法通过识别隐藏表征中的语义方向来影响大语言模型行为,但通常采用推理时激活干预实现,即对模型内部状态施加固定、全局的修改。这类方法虽有效,但在强控制下常引发不利的属性-效用权衡,因其忽视了许多行为实际由少量异质化模型组件支配的特性。我们提出Steer2Edit——一个具有理论依据的无训练框架,将导向向量从推理时控制信号转化为组件级权重编辑的诊断信号。该框架并非在生成过程中统一注入导向方向,而是选择性地将行为影响重新分配到各个注意力头与MLP神经元,产生可解释的编辑操作,既保留标准前向计算流程,又兼容优化后的并行推理。在安全对齐、幻觉缓解和推理效率等任务中,Steer2Edit持续实现更优的属性-效用权衡:在保持下游性能相当的情况下,其安全性能提升最高达17.2%,真实性提高9.8%,推理长度平均缩短12.2%。总体而言,Steer2Edit通过将导向信号转化为可解释的无训练参数更新,为表征导向与权重编辑建立了理论贯通的桥梁。
大型语言模型为推荐系统开辟了前景广阔的新路径,但其发展长期受制于可预测扩展规律的缺失——这种规律对指导研究和优化资源配置至关重要。我们认为,先前持续预训练研究中原始用户交互数据固有的噪声、偏差与不完整性可能是导致该问题的根源。本文提出一种创新的分层框架,通过为LLM构建精心设计的教学课程来生成高质量合成数据,从而规避上述问题。我们通过实证证明:基于规范合成数据训练的标准序列模型在下游排序任务中显著优于真实数据训练的模型(SasRec的召回率@100提升130%),这为课程体系的有效性提供了有力证据,表明其能更好地学习可泛化的用户偏好模式。在此基础上,我们首次通过实验验证了基于高质量推荐专用数据持续预训练的LLM具有稳健的幂律扩展特性。实验表明,在多模态合成数据上模型困惑度均呈现一致且可预测的下降趋势。这些发现为推荐领域LLM能力的可靠扩展奠定了方法论基础,从而将研究重点从缓解数据缺陷转向利用高质量结构化信息。
大型基础模型在视觉与语言领域已展现出对复杂问题的强大开放世界泛化能力,但机器人学领域尚未实现同等水平的泛化性能。核心挑战在于现有模型的零样本能力有限,制约了其对未见场景的有效泛化。本文提出GeneralVLA(基于知识引导轨迹规划的可泛化视觉-语言-动作模型),该分层式VLA模型能更高效利用基础模型的泛化能力,实现零样本操作并自动生成机器人训练数据。我们重点研究一类分层VLA架构:高层 affordance 分割模块经微调后可感知场景中的图像关键点可操作性;中层3D智能体执行任务理解、技能知识库调用和轨迹规划,生成指示机器人末端执行器运动轨迹的3D路径;该中间层3D路径预测结果将作为底层具备三维感知能力的控制策略的引导信号,实现精确操作。相较于现有方法,我们的技术无需真实世界机器人数据采集或人工示教,显著提升了对多样化任务及视角的扩展性。实验表明,GeneralVLA成功为14项任务生成轨迹,在VoxPoser等先进方法基础上实现显著性能提升。其生成的示教数据所训练的行为克隆策略,在鲁棒性上超越基于人工示教、VoxPoser、Scaling-up及Code-As-Policies所生成数据的训练效果。我们相信GeneralVLA有望成为兼具机器人数据生成与零样本场景下新任务求解能力的可扩展方案。代码库:https://github.com/AIGeeksGroup/GeneralVLA 项目网站:https://aigeeksgroup.github.io/GeneralVLA
后训练量化(PTQ)对于在内存受限设备上部署大语言模型(LLM)至关重要,但该方法会使模型固化且难以微调。包括强化学习(RL)在内的标准微调范式本质上依赖于反向传播和高精度权重来计算梯度,因此无法应用于参数空间离散且不可微的量化模型。虽然进化策略(ES)提供了无需反向传播的替代方案,但量化参数的优化仍可能因梯度消失或失准而失败。本文提出量化进化策略(QES),这是一种直接在量化空间执行全参数微调的优化范式。QES基于两项创新:(1)集成累积误差反馈以保持高精度梯度信号;(2)采用无状态种子重放技术将内存占用降至低精度推理水平。在算术推理任务中,QES显著优于当前最先进的无梯度微调方法,使得直接对量化模型进行微调成为可能。这为完全在量化空间中扩展LLM开辟了新路径。源代码详见:https://github.com/dibbla/Quantized-Evolution-Strategies。
我们推出scPilot——首个实现组学原生推理的系统性框架:大型语言模型(LLM)能够以自然语言进行对话,同时直接检查单细胞RNA测序数据并按需调用生物信息学工具。scPilot将核心单细胞分析(即细胞类型注释、发育轨迹重建和转录因子靶向分析)转化为分步推理问题,要求模型必须解决、论证并在需要时根据新证据修正结论。 为量化进展,我们发布scBench——包含9个专家精编数据集与评估器的测试套件,可准确评估scPilot相对于各LLM的组学原生推理能力。o1实验表明:通过迭代式组学原生推理,细胞类型注释的平均准确率提升11%;Gemini-2.5-Pro相较于单次提示将轨迹图编辑距离缩减30%,同时生成可解释标记基因歧义性与调控逻辑的透明推理轨迹。通过将LLM锚定于原始组学数据,scPilot实现了可审计、可解释且具诊断价值的单细胞分析。 代码、数据及软件包详见:https://github.com/maitrix-org/scPilot
单株树冠测绘对于维护城市树木清单和监测森林健康等工作至关重要,这些工作有助于我们理解和保护环境。然而,由于树木纹理特征和树冠部分重叠等因素,在航拍图像中自动分离单株树冠具有挑战性。本研究提出一种基于航空激光扫描(ALS)数据生成的伪标签,训练深度学习模型从RGB和多光谱图像中分割单株树木的方法。研究表明,利用零样本实例分割模型SAM 2(Segment Anything Model 2)能够增强ALS衍生的伪标签质量。该方法无需人工标注成本即可为光学图像模型获取特定领域的训练标注,最终训练出的分割模型在相同任务上超越了所有针对通用领域部署的现有模型。
识别与已披露CVE对应的漏洞修复提交对于安全软件维护至关重要,但在大规模代码库中仍面临挑战——大型代码库包含数百万次提交,其中仅极小部分涉及安全修复。现有自动化方法(包括传统机器学习技术和新兴基于大语言模型的方法)往往难以平衡精确率与召回率。由于常采用随机采样提交进行评估,我们发现这些方法严重低估了实际场景的难度:真实场景中的候选提交本身已具备安全相关性且高度相似。我们提出Favia框架,这是一种基于智能体的取证式漏洞修复识别方案,结合了可扩展的候选提交排序与深度迭代语义推理。Favia首先通过高效排序阶段缩小提交搜索空间,随后使用基于ReAct的大语言模型智能体对每个提交进行严格评估。通过为智能体提供提交前代码库作为环境并配备专用工具,智能体尝试定位漏洞组件、遍历代码库,并建立代码变更与漏洞根源之间的因果关联。这种证据驱动的方法能稳健识别间接修复、多文件修复及非平凡修复,克服单次扫描或基于相似性方法的局限。我们在CVEVC数据集(包含来自3,708个真实代码库的逾800万次提交)上评估Favia,结果表明在真实候选提交场景下,其持续优于最先进的传统方法和基于大语言模型的基线方法,实现了最优的精确率-召回率平衡和最高F1分数。
语言识别(LID)是从网络数据构建高质量多语言数据集的关键步骤。现有LID工具(如OpenLID或GlotLID)常难以识别密切相关的语言,且无法有效区分有效自然语言与噪声,这污染了特定语言的子集,尤其对低资源语言影响显著。本研究通过增加训练数据、合并易混淆的语言变体集群以及引入噪声标记专用标签,对OpenLID分类器进行扩展。我们将该扩展系统命名为OpenLID-v3,并在多个基准测试中与GlotLID进行对比评估。研发过程中,我们重点关注三组密切相关语言(波斯尼亚语、克罗地亚语和塞尔维亚语;意大利北部与法国南部的罗曼语变体;斯堪的纳维亚语言),并在现有数据集不足的情况下贡献了新的评估数据集。研究发现,集成方法虽能提升精确度,但会显著降低对低资源语言的覆盖范围。OpenLID-v3已在https://huggingface.co/HPLT/OpenLID-v3开放获取。