每日精选AI研究论文及翻译
多模态大语言模型(MLLMs)在视觉理解任务中取得了显著进展。然而,现有的大多数MLLMs依赖于自回归生成方式,这限制了它们在需要为多个区域生成描述性标注的感知任务中的效率。在本工作中,我们提出了PerceptionDLM——一种针对高效并行区域感知优化的多模态扩散语言模型。基于PerceptionDLM-Base(一个在开源扩散MLLMs中达到最先进性能的强基线模型),我们的架构充分利用了扩散语言模型(DLMs)的并行解码特性。具体而言,我们引入了高效的提示机制和结构化注意力掩码,使得模型能够同时感知多个被掩码的区域,从而在序列级别和词元级别并行生成区域描述。与现有顺序处理区域的方法相比,这种设计显著提升了推理效率。为了系统评估DLMs视觉感知能力的并行性,我们通过将DLC-Bench扩展至每张图像包含多个区域掩码,构建了新的并行详细定位字幕基准(ParaDLC-Bench),实现了对字幕质量和推理效率的联合评估。实验表明,PerceptionDLM在保持区域字幕生成竞争性性能的同时,在多区域感知任务中实现了显著的速度提升。我们的结果凸显了多模态扩散语言模型在高效并行视觉感知方面的潜力。据我们所知,我们是首个利用扩散语言模型优势实现并行区域字幕生成与感知的工作。代码、模型和数据集均已开源。
个性化演示生成需要的不仅仅是以当前提示或模板为条件:智能体必须跨任务保持稳定的用户偏好,在多轮修订过程中保留新引入的偏好与约束,并可靠地执行局部编辑。我们提出MemSlides,一种面向个性化演示智能体的层次化记忆框架,它将长期记忆与工作记忆分离,并进一步将长期记忆分为用户画像记忆与工具记忆。用户画像记忆存储基于意图的条件化画像,用于第0轮个性化;工作记忆在修订轮次间承载活跃偏好与会话约束;工具记忆存储可复用的执行经验,以支持可靠的局部编辑。MemSlides将这一记忆设计与有范围的幻灯片局部修订相结合,使得定向更新作用于最小的受影响区域,而非反复重新生成整个演示文稿。在受控实验中,用户画像记忆在多人物、多意图画像库上改善了人物一致性判断;工具记忆注入在诊断性配对设置中改善了闭环修改行为;定性案例展示了工作记忆承载偏好的能力。综合来看,这些结果表明,演示文稿撰写中的有效个性化取决于跨生成与局部修订过程分离持久用户画像、会话级工作记忆以及可复用执行经验。
针对大语言模型智能体的记忆基准测试大多假设单用户场景,这使得医院、工作场所、校园和家庭中共享助手的应用研究相对不足。在这些部署中,多个主体向公共记忆池写入数据,并在不同角色、范围和关系下进行查询,因此记忆质量不仅需要高效回忆,还需具备治理能力。我们提出GateMem——一个面向多主体共享记忆智能体的基准测试。GateMem联合评估了以下能力:对包含状态更新的合法长程请求的实用价值、跨上下文授权边界的访问控制,以及在执行明确删除请求后的主动遗忘功能。该基准涵盖医疗、办公、教育和家庭领域,包含多轮长会话、增量记忆注入、隐藏检查点、结构化评判以及泄露目标标注。在多种基线方法和骨干模型下,没有任何一种方法能同时实现强实用价值、稳健的访问控制和可靠的遗忘功能。长上下文提示虽然常以高令牌成本获得最佳治理得分,但基于检索和外部记忆的方法虽降低了成本,却仍会泄露未授权或已删除的信息。这些结果表明,当前的记忆智能体距离能够可靠部署于机构共享场景仍有很大差距。
自回归(AR)模型的推理通常通过思维链推理与反思实现,但其对先前输出的优化仍依赖全序列生成,即使仅需局部修改时也是如此。相比之下,掩码扩散模型(MDMs)中的掩码机制天然支持对先前输出的显式局部编辑,允许选择性细化而无需丢弃先前答案并从头生成新内容。尽管这一特性更贴近人类通过迭代局部修正来纠错的方式,但现有MDM不支持多轮掩码与去噪过程。为此,我们提出反思性掩码(RM)机制,通过轻量级后训练激发MDM固有的推理能力。RM实现了原生的测试时扩展,使MDM能够基于动态演化的上下文迭代地重新审视并修正先前输出。为利用AR推理中多轮推导的洞见,我们进一步引入历史参考机制——一种无需参数的方法,可在修正过程中利用中间去噪状态。本方法无需修改模型架构,可便捷应用于现有MDM。在文本生成、数独求解与图像编辑等多样任务与模态中,反思性掩码始终优于标准掩码基线,展现出强通用性,确立了RM作为MDM推理基础原语的定位。
检索增强生成(RAG)系统的性能关键取决于文档的分块与检索方式。细粒度分块能提升检索精度,但会扩大搜索空间,增加延迟与成本;粗粒度分块虽可减少候选项数量,却因每个分块的向量表示混合了多种主题并引入更多语义噪声,导致稠密相似度计算可靠性下降。这种权衡在深度研究任务中尤为突出——这类任务需在规模庞大且异构的语料库中同时实现快速与精确的检索。为此,我们提出MCompassRAG,一种元数据引导的检索框架,将主题级信号作为语义指南针来筛选相关证据。不同于仅依赖查询与含噪分块向量间的余弦相似度,MCompassRAG在统一嵌入空间中用主题元数据增强分块表示,并通过大语言模型教师蒸馏训练轻量级检索器。在推理阶段,MCompassRAG无需额外调用大语言模型即可实现主题感知检索,同时提升效率与证据质量。在六个复杂检索基准测试中,MCompassRAG的信息效率平均提升8.24%,且延迟比最强的高效RAG基线降低5倍以上。代码已开源:https://github.com/AmirAbaskohi/MCompassRAG。
检索增强生成(RAG)系统需在检索粒度与上下文连贯性之间取得平衡,现有方法通过LLM引导的分块、单层级上下文扩展或层级摘要来应对这一挑战。这些方法在索引或检索过程中依赖昂贵的LLM调用、将上下文聚合限制在单一粒度层级,或通过摘要引入信息损失。我们提出SproutRAG——一种基于注意力引导的层级RAG框架,通过将句子级分块组织成渐进增大但语义连贯的单元,利用学习到的跨句子注意力构建二叉分块树,从而解决这一权衡问题。与依赖外部LLM、固定上下文扩展或有损摘要的先前方法不同,SproutRAG通过学习哪些注意力头与层能最佳捕捉语义文档结构,在不额外调用LLM或使用压缩摘要的情况下实现多粒度检索。在检索阶段,SproutRAG采用层级束搜索以多粒度获取候选结果,捕获超越平面检索的多句子相关性。该框架通过联合目标进行端到端训练,同时优化嵌入表示与树结构。在涵盖科学文献、法律文本和开放领域场景的四个基准测试中,SproutRAG相较于最强基线平均提升了6.1%的信息效率(IE)。代码已开源至https://github.com/AmirAbaskohi/SproutRAG。
三维脑部MRI是临床神经学和神经肿瘤学的核心,其中生成模型可增强代表性不足的队列、模拟疾病轨迹并支持隐私保护数据共享。潜在扩散已成为建模影像数据的首选方案,但它对分词器提出了两个相互竞争的要求:编码器嵌入必须保留下游任务所依赖的临床信息,而解码器必须重建解剖学上保真的体素。现有基于重建驱动的分词器实现了后者,却以前者为代价。为解决这一问题,我们引入了一种基于全体积掩码自编码器(MAE)的分词器,用于三维脑部MRI潜在扩散,将编码器与解码器解耦:冻结的三维MAE编码器产生具有临床信息的嵌入,而专用的CNN解码器则通过这些嵌入的线性投影重建体素。我们在来自18个公开队列的35,309个体素上预训练该编码器,涵盖四种模态、十种疾病类别及200多个采集站点,并在两种设置中展示了其双重效用。首先,在23项任务的线性探测基准测试中,该编码器在21项任务上优于或匹配最先进模型(即BrainIAC、BrainSegFounder和MedicalNet)。其次,基于这些临床信息嵌入训练的条件扩散变换器(DiT)既支持跨六个变量的条件生成,也支持患者特异性纵向预测。这些结果共同建立了一个单一的三维脑部MRI嵌入空间,既能用于下游临床任务,也能实现可控生成。
通用视觉-语言-动作系统需要以物体为中心的3D证据和可复用的操作经验来规划可靠的机器人轨迹。GeneralVLA通过分层接口将语言和RGB-D观测转化为3D末端执行器路径,但仍存在两个瓶颈。首先,单目SAM3D风格的物体重建可能会产生姿态和未观测几何的幻觉,而操作中若存在校准后的多视角观测,则能从稳定的物体形状中受益。其次,原始的KnowledgeBank主要检索语义相似片段并追加新知识,难以控制记忆质量、冲突、置信度和几何相关性。针对第一个挑战,我们引入GeoFuse-MV3D——一种几何先验引导的MV-SAM3D重建分支,通过输入视角掩膜验证外部几何线索、应用软视觉外壳支撑、执行轴向精细化处理,并在保留外观的同时仅融合几何信息。针对第二个挑战,我们将KnowledgeBank升级为受控的长时记忆系统,包含显式的质量、置信度、生命周期、验证器和冲突元数据,并采用精度导向的检索策略。最后,我们在GSO-30数据集上评估重建分支,在Terminal-Bench 2.0和SWE-Bench Verified上评估记忆模块:GeoFuse-MV3D相比MV-SAM3D基线将CD和LPIPS分别降低2.20%和2.02%,同时将PSNR和SSIM提升2.36%和1.03%;KnowledgeBank相比ReasoningBank在Terminal-Bench SR上提升4.53%,在SWE-Bench解决率上提升3.73%,同时将AS分别降低4.95%和5.65%。代码地址:https://github.com/AIGeeksGroup/GeneralVLA-2。项目网站:https://aigeeksgroup.github.io/GeneralVLA-2。
为了在真实家庭环境中长期协助人类,具身智能体必须掌握用户日常习惯、世界状态及过往交互信息。现有长期记忆基准主要评估以语言为中心的检索与问答能力,而具身基准则多聚焦于短周期任务执行,未能在动态环境中检验长期记忆的应用。我们提出WorldLines——一个面向长周期具身家庭辅助的项目驱动型基准。该基准构建了包含对话、动作、执行反馈、物体与设备状态变化的长时间维度家庭轨迹,并将其转化为关联证据的样本,用于记忆问答与具身任务规划。此外,我们提出ObsMem——一种以观察者为中心的框架,通过维护可见性感知记忆与动作原生状态轨迹,实现状态感知决策。实验揭示了局部可观测性、被覆盖的世界状态以及将长期记忆转化为具身规划能力等方面的持续挑战,而ObsMem则为该场景提供了更具参考价值的架构方案。
高质量4D头部虚拟形象仅需一张或少数源肖像,是远程临场、增强现实/虚拟现实以及数字人交互的核心技术。3D高斯散点法(3DGS)已成为主导性表征技术,其两条互补路径(可泛化的前馈预测器与逐主体精化器)正并行发展。然而现有前馈预测器仅在单一数据集家族上训练且采用硬编码源数量,继承了相应领域偏差。逐主体精化器需30万至60万次迭代,且依赖自适应稠密化破坏上游高斯布局,导致两条路径无法端到端共享表征。为弥合这一鸿沟,我们提出基于共享FLAME网格绑定高斯表征的SpatialAvatar-0:采用无参数K源均值池化的前馈生成器,配合单目时序到多视角空间的两阶段调度机制,防止身份先验坍塌至较小规模多视角数据集。我们进一步引入10K次迭代的布局保持型逐主体精化循环,冻结FLAME绑定与高斯数量,以三分量抗尖峰正则化替代稠密化。在VFHQ/HDTF跨域零样本测试中,尽管从未在任一测试域训练,我们仍以+1.5 dB PSNR超越域内领先模型GAGAvatar;在SplattingAvatar单目基准测试中,我们在所有报告指标上领先,以比常见SOTA基线快60倍的逐主体调度,在PSNR上超越30万次迭代的GeoAvatar达+1.3 dB。网站:https://spatialwalk.github.io/SpatialAvatar-0。
网络规模的大语言模型预训练语料库的叙事构成在很大程度上仍未得到充分探索,尽管叙事是人类交流的基本模式。我们首次对包含3万亿词元(tokens)的开放预训练语料库Dolma中的叙事特征进行了细粒度研究。基于叙事理论,我们设计了一个涵盖三个核心叙事要素(能动性、背景和事件)的框架,并将其操作化为11个可解释维度。在采样并标注了400篇多样化的文本片段后,我们微调并验证了NarraBERT——一个基于RoBERTa的细粒度叙事预测模型。我们将NarraBERT应用于300万个文本片段,创建了新数据集NarraDolma。我们的发现如下:(i) 叙事结构可在极端异构的数据中以大规模方式测量;(ii) 我们揭示了网络文本背后存在一个连续的多维叙事结构;(iii) 叙事质量在预训练数据源和主题间分布不均,而当前的数据筛选实践既未测量也未考虑这种不均性。我们的框架、数据集和分析为理解叙事质量如何分布在大语言模型预训练数据中,以及研究数据组成如何影响叙事推理任务奠定了基础。我们公开发布了NarraDolma和NarraBERT。
多模态大语言模型(MLLMs)正日益部署于对个人与社会具有重要影响的场景中,然而塑造这些模型如何评判他人的视觉线索仍知之甚少。以往研究常比较不同(群组)个体,导致难以将外貌效应从身份差异中分离。我们提出StylisticBias,一个用于评估MLLMs中属性层级社会偏见的受控基准。我们生成500张逼真基础人脸,并为每张人脸创建约50种单属性变体,总计约25,000张图像。该设计保持身份固定,每次仅改变一项视觉属性,使我们能够衡量特定线索如何改变模型判断。我们在25个二元社会判断场景中评估了六种MLLMs。研究发现,年龄和体型主导了身份层级的效应,而时尚风格及其他视觉线索则引发最大的属性层级偏移。进一步发现,约15个属性解释了近80%的总变异,表明偏见集中于少量视觉线索。敏感性在与外貌语义对齐的判断中最强,尤其是社会经济和风格相关判断。我们发布StylisticBias作为多模态模型细粒度偏见评估的基准。代码与数据集链接:https://github.com/timo-cavelius/StylisticBias 及 https://hf.co/datasets/shaghayegh/stylistic-bias-dataset。
上下文学习(ICL)是低资源分类的标准方法,但其在专业领域的效力仍鲜有探索。我们针对语义复杂的多方B2B对话分类难题展开研究——传统ICL在此场景下存在显著局限,尤其是当多个少样本示例拼接导致上下文长度增加时。我们提出Call Playbook数据集,包含源自真实B2B对话的五项分类任务,聚焦核心销售概念。为弥合性能与实用性的差距,我们创新性地提出知识提取方法,将冗长示例蒸馏为结构化分类标准与精确任务描述的紧凑可解释表征。该方法相比传统ICL实现99%的令牌用量缩减,宏平均AUC提升最高达7%。值得关注的是,在上下文增长时其仍保持稳健性,而先进的令牌压缩基线方法则衰减超过9个F1分值。更重要的是,我们的框架支持对分类逻辑的直接优化,满足了现实NLP应用中对透明度、效率与用户交互的关键需求。
医学表格数据在临床研究中无处不在,但表格数据的深度学习仍未被充分探索,原因在于可靠标注通常需要成本高昂的专家裁定,尽管结构化临床变量常以表格形式常规可用。自监督学习可利用这些未标注表格,而近期基于分箱的预训练任务提供了有前景的归纳偏置,但现有方法采用固定的全局分位数离散化并应用与特征无关的监督。我们提出自适应分箱(Adaptive Binning),一种用于表格自监督学习的训练自适应离散化预训练任务,通过逐特征由粗到精的课程将离散化与学习耦合。受神经网络的谱偏置及课程学习原理启发,我们的方法在检测到平台期后逐步细化每个特征的离散化,并选择表征感知的分割点,以联合改善值空间集中性和表征空间一致性。一种异质性感知目标将分类重建与数值特征的序数监督统一起来,在统一评估协议下的公开医学表格数据集实验表明,线性探测和微调均获得了持续改进,无需针对数据集调整离散化。我们进一步引入了一个医学表格自监督学习基准,附带标准化协议,以支持这一未充分探索领域的可重复进展。我们的代码见 https://github.com/labhai/Adaptive-Binning。