每日精选AI研究论文及翻译
扩散模型驱动的分子生成已成为AI药物发现和材料科学的重要方向。尽管二维分子图的离散特性使图扩散模型被广泛采用,但现有模型存在化学有效性低的问题,且在一维建模对比中难以满足目标属性要求。本研究提出MolHIT——一个突破现有方法性能瓶颈的分子图生成框架。该框架基于分层离散扩散模型,将离散扩散推广至编码化学先验的附加类别,并采用解耦原子编码技术根据原子化学作用进行类型划分。在MOSES数据集上,MolHIT首次实现图扩散模型接近完美的化学有效性,创下多项指标的新纪录,显著超越强效一维基线模型。我们进一步验证了其在下游任务中的卓越表现,包括多属性引导生成和骨架扩展应用。
对用户长序列行为进行建模已成为生成式推荐领域的关键前沿。现有解决方案面临两难困境:线性注意力机制受限于状态容量,虽能提升效率却牺牲了检索精度;而Softmax注意力则存在难以承受的计算开销。为解决这一挑战,我们提出HyTRec模型,其混合注意力架构显式解耦长期稳定偏好与短期意图波动。通过将海量历史序列分配给线性注意力分支,同时为近期交互保留专用Softmax注意力分支,我们的方法在涉及万级交互的工业级场景中恢复了精准检索能力。为缓解线性层捕捉快速兴趣漂移的滞后性,我们进一步设计时序感知增量网络(TADN),动态增强新鲜行为信号的权重并有效抑制历史噪声。工业级数据集上的实证结果表明,我们的模型在保持线性推理速度的同时显著超越强基线模型,对超长序列用户实现命中率超8%的提升,且具备卓越效率。
SkyReels V4是一款统一的多模态视频基础模型,具备视频音频联合生成、修复与编辑能力。该模型采用双流多模态扩散Transformer(MMDiT)架构,其中一支流合成视频,另一支流生成时序对齐的音频,同时共享基于多模态大语言模型(MMLM)的强效文本编码器。SkyReels V4支持丰富的多模态指令输入,包括文本、图像、视频片段、掩码和音频参考。通过将MMLM的多模态指令跟随能力与视频分支MMDiT的上下文学习相结合,模型能在复杂条件约束下注入细粒度视觉引导,而音频分支MMDiT可同步利用音频参考指导声音生成。在视频侧,我们采用通道拼接方案,将图像转视频、视频延展、视频编辑等多样化修复类任务统一至单一接口,并通过多模态提示自然扩展至视觉参考的修复与编辑。SkyReels V4最高支持1080p分辨率、32帧/秒、15秒时长,能实现高保真、多镜头、电影级画质的音画同步视频生成。为实现高分辨率长时序生成的计算可行性,我们引入高效策略:联合生成低分辨率全序列与高分辨率关键帧,再通过专用超分模型和帧插值模型处理。据我们所知,SkyReels V4是首个同时支持多模态输入、音视频联合生成、并统一处理生成/修复/编辑任务的视频基础模型,在电影级分辨率与时长下仍保持卓越的效能与质量。
近期,基础模型的突破性进展彻底改变了音视频联合生成领域。然而,现有方法通常将人本任务——包括基于参考的音视频生成(R2AV)、视频编辑(RV2AV)和音频驱动视频动画(RA2V)——视为相互独立的目标。此外,如何在单一框架内实现对多角色身份与音色特征的精准解耦控制仍是开放难题。本文提出DreamID-Omni,一个可控人本音视频生成的统一框架。具体而言,我们设计了对称条件扩散Transformer,通过对称条件注入机制整合异构条件信号。针对多人场景中普遍存在的身份-音色绑定失效和说话人混淆问题,我们提出双层级解耦策略:在信号层面采用同步RoPE技术确保注意力空间的刚性绑定,在语义层面通过结构化描述文本建立显式的属性-主体映射关系。此外,我们设计了多任务渐进式训练方案,利用弱约束生成先验来正则化强约束任务,防止过拟合并协调不同目标间的冲突。大量实验表明,DreamID-Omni在视频质量、音频保真度及音画一致性方面均达到全面领先水平,甚至超越主流商业闭源模型。我们将公开代码以弥合学术研究与商业级应用之间的鸿沟。
代理强化学习(ARL)作为一种训练智能体解决复杂多步交互任务的新范式,正迅速获得学界关注。尽管早期成果令人鼓舞,但ARL仍存在严重的不稳定性,常导致训练崩溃。这种不稳定性限制了其向更大环境规模和更长交互周期的扩展,也制约了对算法设计选择的系统性探索。本文首先提出ARLArena——一个稳定的训练方案与系统性分析框架,通过在可控可复现的环境中检验训练稳定性。ARLArena首先构建了清晰标准化的测试平台,随后将策略梯度分解为四个核心设计维度,并评估每个维度的性能与稳定性。通过这种细粒度分析,我们提炼出ARL的统一视角,进而提出SAMPO方法——一种旨在缓解ARL主要不稳定源的稳定代理策略优化算法。实验表明,SAMPO在多样化代理任务中均能实现持续稳定的训练和卓越性能。总体而言,本研究为ARL提供了统一的策略梯度视角,并为构建稳定可复现的基于大语言模型的智能体训练流程提供了实践指导。
现有基于动作条件的视频生成模型(视频世界模型)局限于单一智能体视角,无法捕捉真实环境中的多智能体交互。我们推出Solaris——首个支持多玩家视角的视频世界模型,能够模拟一致的多视角观测。为实现这一目标,我们开发了专为《我的世界》等游戏设计的多人数据系统,支持稳健、持续、自动化的数据采集。与先前针对单玩家场景构建的平台不同,我们的系统支持协同多智能体交互及同步的视频动作捕捉。基于该系统,我们收集了1264万帧多人游戏数据,并提出了涵盖移动、记忆、实体交互、建造和视角一致性的多智能体评估框架。我们采用分阶段训练流程训练Solaris,通过双向建模、因果建模和自强制训练的渐进式组合,实现从单玩家到多玩家建模的平滑过渡。在最终阶段,我们引入了检查点自强制训练——一种内存高效的自强制训练变体,可实现更长视野的教师指导。实验表明,我们的架构和训练设计优于现有基线模型。通过开源系统与模型,我们希望为新一代多智能体世界模型奠定基础。
在多轮智能体式大模型推理场景中,性能瓶颈正逐渐从计算转向KV缓存存储I/O。在主流 disaggregated 架构中,从外部存储加载海量KV缓存会引发根本性失衡:预填充引擎的存储网卡带宽趋于饱和,而解码引擎的存储网卡却处于闲置状态。这种不对称性严重制约了系统整体吞吐量。 我们提出DualPath推理系统,通过引入双路径KV缓存加载机制突破此瓶颈。除传统的存储到预填充路径外,DualPath创新性地开辟了存储到解码路径——将KV缓存加载至解码引擎后,通过计算网络的RDMA技术高效传输至预填充引擎。该系统结合了以下两大优势:一是优化数据路径天然避免网络拥塞,且不会干扰对延迟敏感的模型执行通信;二是全局调度器动态平衡预填充与解码引擎间的负载。 基于生产级智能体工作负载对三种模型的测试表明,DualPath在我们自研的推理系统上可实现最高1.87倍的离线推理吞吐量提升。在线服务场景中,在满足SLO要求的前提下,平均还能实现1.96倍的吞吐量提升。
开源原生图形用户界面智能体在长周期导航任务上仍落后于闭源系统。这一差距源于两大局限:高质量动作对齐推理数据的匮乏,以及直接套用通用后训练流程而忽视了图形用户界面智能体的独特挑战。我们发现这些流程存在两个根本性问题:(一)采用思维链推理的标准监督微调往往会损害动作落地效果;(二)逐步强化学习与验证式训练面临部分可验证性困境——多个动作可能都正确,但验证时仅采用单个示范动作。这导致离线逐步评估指标难以有效预测在线任务成功率。本文提出GUI-Libra这一针对性训练方案应对上述挑战。首先,为缓解动作对齐推理数据短缺,我们设计了数据构建与过滤流程,并发布精心整理的8.1万条图形用户界面推理数据集。其次,为协调推理与动作落地,我们提出动作感知监督微调,混合"先推理后行动"与直接行动数据,并通过令牌重加权强化动作与落地要素。第三,针对部分可验证性下的强化学习稳定性问题,我们揭示了RLVR中KL正则化被忽视的重要性,证明KL信任区域对提升离线-在线预测性至关重要;进一步提出成功自适应缩放机制,降低不可靠负梯度的影响。在多样化网页与移动端测试中,GUI-Libra持续提升逐步准确率与端到端任务完成度。结果表明,精心设计的后训练与数据策管能在不依赖昂贵在线数据收集的情况下,显著解锁更强的任务解决能力。我们公开数据集、代码与模型,以推动具备推理能力的图形用户界面智能体在数据高效后训练方面的研究。
我们提出球面编码器——一种高效生成框架,该框架仅需单次前向传播即可生成图像,并在少于五步的生成步骤中与多步扩散模型相媲美。该方法通过训练编码器将自然图像均匀映射至球面潜空间,同时训练解码器将随机潜向量映射回图像空间。模型仅通过图像重建损失进行训练,通过直接解码球面上的随机点即可生成图像。该架构天然支持条件生成,且对编码器/解码器进行数次循环迭代可进一步提升图像质量。在多个数据集上的实验表明,球面编码器方法的性能可与最先进的扩散模型相竞争,而推理成本仅需其极小部分。项目页面详见https://sphere-encoder.github.io。
AIGC已从文生图快速扩展到涵盖视频与音频的高质量多模态生成领域。在此背景下,联合音视频生成(JAVG)已成为一项基础性任务,其目标是从文本描述中生成同步且语义对齐的视听内容。然而,与Veo3等先进商业模型相比,现有开源方法在生成质量、时序同步性以及与人类偏好对齐方面仍存在局限。为弥补这一差距,本文提出JavisDiT++——一个简洁而强大的JAVG统一建模与优化框架。首先,我们引入模态专家混合(MS-MoE)设计,在提升单模态生成质量的同时实现跨模态高效交互;其次,提出时序对齐RoPE(TA-RoPE)策略,实现音频与视频令牌在帧级别的显式同步;此外,开发了音视频直接偏好优化(AV-DPO)方法,从质量、一致性和同步性三个维度对齐模型输出与人类偏好。基于Wan2.1-1.3B-T2V构建的模型仅需约100万条公开训练数据即达到最优性能,在定性与定量评估中显著超越现有方法。我们通过系统消融实验验证了所提模块的有效性,相关代码、模型及数据集均已发布于https://JavisVerse.github.io/JavisDiT2-page。
矢量字形是数字排版的原子单元,但当前多数基于学习的流程仍依赖精心编排的范例字表与栅格到矢量的后处理,这限制了可访问性与可编辑性。我们推出VecGlypher——一个能从文本描述或图像范例直接生成高保真矢量字形的多模态语言模型。给定样式提示、可选的参考字形图像及目标字符,VecGlypher通过自回归方式输出SVG路径标记,无需栅格中间件即可一次性生成可编辑的封闭轮廓。实现这一突破的关键在于面向排版的数据与训练方案:(i)在3.9万个含噪声的Envato字体库上进行大规模预训练,以掌握SVG语法与长序列几何结构;(ii)基于2500套专家标注的Google Fonts进行后训练,通过描述性标签与范例实现语言、图像与几何的对齐。预处理阶段通过归一化坐标系、路径规范化、字体族去重和坐标量化,确保长序列解码的稳定性。在跨字体集分布外评估中,VecGlypher在纯文本生成任务上显著优于通用大语言模型与专业矢量字体基线,而基于图像参考的生成效果达到业界最优,较DeepVecFont-v2和DualVector有明显提升。消融实验表明模型规模与两阶段训练方案至关重要,绝对坐标序列化能获得最佳几何表现。VecGlypher通过支持文字或范例驱动设计降低了字体创作门槛,为未来多模态设计工具提供了可扩展的基础框架。
利用未来观测建模来促进动作生成,为提升视觉-语言-动作(VLA)模型能力提供了新思路。然而现有方法难以在保持高效、可预测的未来表征与保留足够细粒度信息以指导精确动作生成之间实现平衡。为此,我们提出世界引导框架(WoG),通过将未来观测映射为紧凑条件并注入动作推理流程,使VLA模型在预测未来动作的同时学习预测这些压缩条件,从而在条件空间内实现高效的世界建模用于动作推理。我们证明,对此条件空间的建模与预测不仅能促进细粒度动作生成,还展现出卓越的泛化能力,且能有效从大规模人类操作视频中学习。在仿真与现实环境中的大量实验表明,本方法显著优于基于未来预测的现有方法。项目页面详见:https://selen-suyue.github.io/WoGNet/
基于指令的图像编辑在语义对齐方面取得了显著成功,但在涉及复杂因果动态(如折射或材料形变)的编辑任务中,现有先进模型常难以生成物理合理的结果。我们认为这一局限源于主流范式将编辑视为图像对间的离散映射,该方法仅提供边界条件而未能明确定义过渡动态。为此,我们将物理感知编辑重新定义为预测性物理状态转换,并构建了PhysicTran38K——一个基于视频的大规模数据集,包含5个物理领域中3.8万条过渡轨迹,通过两阶段筛选和约束感知标注流程构建。基于此监督信号,我们提出PhysicEdit端到端框架,该框架配备文本-视觉双重思维机制:结合冻结参数的Qwen2.5-VL模型进行物理基础推理,同时通过可学习的过渡查询为扩散主干网络提供时间自适应的视觉引导。实验表明,PhysicEdit在物理合理性上较Qwen-Image-Edit提升5.9%,在知识驱动编辑方面提升10.1%,为开源方法树立了新标杆,同时与领先的专有模型保持竞争力。
肝细胞癌诊断高度依赖对千兆像素全切片图像的判读。然而当前计算方法受限于固定分辨率处理机制和低效特征聚合,不可避免地导致严重信息丢失或高度特征冗余。为解决这些难题,我们提出Hepato-LLaVA——专用于细粒度肝脏病理分析的多模态大语言模型。我们创新性地引入稀疏拓扑包注意力机制,显式建模二维组织拓扑结构。该机制在保持全局上下文的同时,能有效将局部诊断证据聚合为语义摘要令牌。此外,为弥补多尺度数据缺失,我们构建了基于临床实践的HepatoPathoVQA数据集,包含经病理专家验证的3.3万个层次化结构问答对。实验表明,Hepato-LLaVA在肝癌诊断和描述任务中达到最先进性能,显著优于现有方法。代码与实现细节详见https://pris-cv.github.io/Hepto-LLaVA/。
大型语言模型(LLM)如何知晓其掌握的知识?回答这一问题一直存在困难,因为预训练数据往往如同“黑箱”——未知或不可获取。近期发布的nanochat系列(完全开放预训练数据的小型LLM家族)解决了这一难题,它清晰揭示了模型参数化知识的来源。为探究LLM如何编码知识,我们推出NanoKnow基准数据集,该数据集将Natural Questions和SQuAD中的问题按答案是否存在于nanochat预训练语料库进行划分。通过这种划分,我们得以准确解析LLM生成输出时所依赖的知识来源。为验证NanoKnow的实用性,我们使用八个nanochat检查点进行实验,发现:(1)闭卷准确率受预训练数据中答案出现频率的显著影响;(2)提供外部证据可缓解这种频率依赖性;(3)即使存在外部证据,当答案曾出现于预训练阶段时模型仍表现更佳,表明参数化知识与外部知识具有互补性;(4)无关信息会产生干扰,其位置和数量均会导致准确率下降。所有NanoKnow资源已发布于https://github.com/castorini/NanoKnow。
扩散模型是视觉生成的强大骨干网络,但其固有的序列化去噪过程导致推理速度缓慢。现有加速采样方法通常基于相邻时间步的特征距离缓存并复用中间输出,然而这些缓存策略普遍依赖原始特征差异,未能区分内容与噪声的耦合关系。这种设计忽略了频谱演化规律——低频结构早期显现而高频细节后期精炼的特性。我们提出频谱演化感知缓存(SeaCache),这是一种无需训练的动态缓存调度方案,其复用决策基于频谱对齐的表示。通过理论与实证分析,我们推导出频谱演化感知(SEA)滤波器,能在抑制噪声的同时保留内容相关成分。采用SEA滤波后的输入特征估计冗余度,可生成既适应内容特性又遵循扩散模型频谱先验的动态调度策略。在多样化视觉生成模型及基线方法上的大量实验表明,SeaCache实现了最先进的延迟-质量权衡。
近期基于3D高斯泼溅(3DGS)的Dropout方法通过随机置零高斯透明度来解决稀疏视角下的过拟合问题。然而,我们发现这类方法存在邻域补偿效应:被丢弃的高斯分布常被其邻近单元补偿,从而削弱了正则化效果。此外,现有方法忽视了高阶球谐系数(SH)对过拟合的贡献。针对这些问题,我们提出DropAnSH-GS——一种新颖的基于锚点的Dropout策略。该方法不再独立丢弃高斯单元,而是随机选取部分高斯单元作为锚点,同步移除其空间邻域。这种机制有效破坏了锚点附近的局部冗余,促使模型学习更具鲁棒性的全局感知表征。进一步地,我们将Dropout扩展至颜色属性,通过随机丢弃高阶SH系数将外观信息集中至低阶SH。该策略不仅能有效抑制过拟合,还可通过SH截断实现训练后模型的灵活压缩。实验结果表明,DropAnSH-GS以可忽略的计算开销显著优于现有Dropout方法,并能无缝集成到各类3DGS变体中提升其性能。项目网站:https://sk-fun.fun/DropAnSH-GS
离散扩散模型已成为自回归语言模型的有力替代方案,近期研究通过初始化和微调基础单模态模型实现了双模态生成。与既有方法不同,我们首次提出了从零开始预训练的文本、图文、音频-文本三模态掩码扩散模型。我们系统分析了多模态缩放规律、模态混合比例、噪声调度策略及批处理规模效应,并提供了优化的推理采样默认参数。针对批处理规模的分析提出了一种基于随机微分方程(SDE)的重新参数化方法,无需如近期研究所述调整最优批处理规模。该重新参数化将物理批处理规模(通常基于计算约束如GPU饱和度、浮点运算效率、实际耗时确定)与逻辑批处理规模(为平衡随机优化中的梯度方差而选择)解耦。最终,我们在6.4万亿token上预训练了初步的30亿参数三模态模型,展示了统一架构的潜力,并在文本生成、文生图及文生语音任务中取得优异效果。本研究迄今构成了规模最宏大的多模态离散扩散模型系统性开放探索,为跨多模态的缩放规律提供了重要洞见。
深度研究已成为一项重要任务,其目标是通过大规模开放网络探索来解决复杂查询。针对这一任务,现有研究大多为基于大语言模型(LLM)的智能体配备不透明的网络搜索API,使其能够迭代式地发起搜索查询、获取外部证据并进行推理。尽管搜索在深度研究中具有关键作用,但黑箱式的网络搜索API阻碍了对搜索组件的系统性分析,导致传统文本排序方法在深度研究中的行为特征尚不明确。为填补这一空白,我们在深度研究场景下复现了信息检索文本排序方法的关键发现与最佳实践。具体而言,我们从三个维度评估其有效性:(一)检索单元(文档级与段落级);(二)流水线配置(不同检索器、重排序器及重排序深度);(三)查询特征(智能体生成查询与文本排序器训练查询之间的不匹配性)。我们在固定语料库的深度研究数据集BrowseComp-Plus上开展实验,评估了2种开源智能体、5种检索器和3种重排序器在不同配置下的表现。研究发现:智能体生成的查询通常遵循网络搜索式语法(如带引号的精确匹配),更适用于词汇检索、学习型稀疏检索和多向量检索;段落级单元在有限上下文窗口中效率更高,且能规避词汇检索中文档长度归一化的难题;重排序效果显著;将智能体查询转化为自然语言问题能有效弥合查询不匹配问题。
模型上下文协议(MCP)提出了一套标准规范,旨在指导基于基础模型(FM)的智能体如何通过调用工具与外部系统交互。然而,为理解工具的功能特性,基础模型需依赖自然语言描述的工具说明,这使得工具说明成为引导基础模型为特定(子)任务选择最优工具并传递正确参数的关键要素。虽然工具说明中的缺陷或瑕疵可能误导基于基础模型的智能体,但这些问题的普遍性及其在MCP生态系统中的影响尚不明确。 为此,我们实证研究了103个MCP服务器中的856个工具,评估其说明质量及对智能体性能的影响。我们从文献中提炼出工具说明的六个核心构成要素,据此制定评分标准,并基于该标准形式化定义了工具说明的瑕疵特征。通过基于基础模型的扫描器实施该标准,我们发现97.1%的被分析工具说明存在至少一处瑕疵,其中56%未能清晰阐述其功能目的。虽然通过增补所有构成要素使任务成功率中位数提升5.85个百分点,部分目标完成率提高15.12%,但执行步骤数也增加了67.46%,且在16.67%的情况下出现性能衰退。这些结果表明性能提升并非易事:执行成本可能成为权衡因素,而执行上下文也会产生影响。此外,组件消融实验显示,不同组件组合的紧凑变体往往能保持行为可靠性,同时减少不必要的令牌开销,从而更高效地利用基础模型上下文窗口并降低执行成本。
视频基础模型旨在将视频理解、生成、编辑与指令跟随能力整合于统一框架,已成为下一代多模态系统的核心发展方向。然而现有评估基准仍存在碎片化与局限性:各基准仅针对单一任务、依赖特定指标,且多采用简短或简单的视频片段,无法全面衡量这类模型设计的综合能力。为填补这一空白,我们推出UniVBench——专为评估视频基础模型四大核心能力构建的基准框架,包括视频理解、视频生成、视频编辑及新提出的视频重建任务(用于评估模型对已接触视频内容的还原忠实度)。该基准通过纳入200段高质量、多镜头且内容多样的视频,显著提升了评估复杂度。每段视频均配有详细描述、多格式编辑指令及参考图像,所有素材均经人工创作与严格验证,相比现有基准能提供更丰富的影像信息。此外,我们开发了统一智能评估系统(UniV-Eval),通过标准化提示生成、指令解析与跨任务评分机制,实现统一视频模型的公平、可扩展及可复现比较。通过构建基于指令的多镜头视频任务评估体系,UniVBench首次建立了衡量视频基础模型综合能力的框架。大量人工标注确保评估结果与人类判断一致,从而支撑严格性能评测并加速稳健视频智能技术的突破。
我们系统评估了当前广泛使用的AI安全数据集的质量,从孤立性和实践性两个维度展开分析。在孤立性层面,我们基于三个关键属性(受隐蔽意图驱动、精心构建性、分布外特性)检验这些数据集反映真实世界对抗攻击的准确度,发现其过度依赖"触发线索"——即那些带有明显负面/敏感含义、旨在显式触发安全机制的词语或短语,这与现实攻击模式存在显著差异。在实践性层面,我们通过引入"意图净化"方法(一种在严格保留恶意意图及所有相关细节的前提下,剥离对抗攻击数据点中触发线索的程序),验证这些数据集究竟是在真实衡量安全风险,还是仅通过触发线索引发模型拒绝。实验表明:由于对触发线索的过度依赖,现有AI安全数据集无法真实反映现实对抗行为。当移除这些线索后,所有先前评估为"相对安全"的模型(包括Gemini 3 Pro和Claude Sonnet 3.7)均表现出不安全特性。更值得注意的是,将意图净化技术适配为越狱攻击手段时,在完全黑盒访问条件下持续实现90%至98%以上的高攻击成功率。总体而言,我们的研究揭示了现有安全评估数据集与真实世界对抗行为之间存在根本性脱节。
物体幻觉是大规模视觉语言模型(LVLM)中的一个关键问题,表现为输出内容包含输入图像中不存在的物体。这一现象引发出一个核心问题:LVLM流程中的哪个组件是物体幻觉的主要成因?是负责感知视觉信息的视觉编码器,还是生成文本响应的语言解码器?本研究通过设计系统性实验来分析视觉编码器与语言解码器在幻觉生成中的作用。我们的观察表明,物体幻觉主要与语言解码器的强先验知识相关。基于此发现,我们提出了一种无需训练的简易框架——无语言幻觉解码(NoLan),该框架通过动态抑制语言先验来优化输出分布,其调节机制基于多模态与纯文本输入间的输出分布差异。实验结果表明,NoLan在不同任务的各种LVLM上均能有效减少物体幻觉。例如在POPE基准测试中,NoLan显著提升了LLaVA-1.5 7B和Qwen-VL 7B的准确率,分别达到6.45和7.21的增益。代码已开源:https://github.com/lingfengren/NoLan。
当前音视频大语言模型(AV-LLMs)主要局限于二维感知,依赖RGB视频和单声道音频。这种设计选择引入了根本性的维度失配问题,导致在复杂三维环境中无法实现可靠的声源定位与空间推理。为突破此局限,我们提出JAEGER框架,通过整合RGB-D观测数据与多通道一阶Ambisonics音频,将AV-LLMs扩展至三维空间以实现联合空间定位与推理。本研究的核心贡献是神经强度向量(Neural IV),这是一种可学习的空间音频表征,能够编码强鲁棒性的方向线索以增强到达方向估计,即使在声源重叠的复杂声学场景中仍能保持优异性能。为支持大规模训练与系统化评估,我们构建了SpatialSceneQA基准数据集,包含从模拟物理环境中精选的6.1万条指令调优样本。大量实验表明,我们的方法在多样化的空间感知与推理任务中持续超越以二维为中心的基线模型,印证了显式三维建模对推进物理环境人工智能发展的必要性。相关源代码、预训练模型检查点及数据集将在论文录用后公开发布。
针对非平稳时间序列数据的分析需要深入理解其局部与全局特征,并具备物理解释性。然而传统平滑算法(如B样条、Savitzky-Golay滤波和经验模态分解)难以在保证连续性的前提下进行参数化优化。本文提出函数连续分解(FCD)——基于JAX加速的框架,可对多种数学函数执行参数化连续优化。该框架采用Levenberg-Marquardt优化算法实现最高C^1连续拟合,将原始时间序列数据转换为M个模态,从而捕获从短期波动到长期趋势的多种时序特征。FCD在物理、医学、金融分析和机器学习等领域具有广泛应用,常用于信号时序模式分析、优化参数提取以及分解结果的微分积分运算。实验表明,FCD在物理特征提取中平均分段标准化均方根误差为0.735,对1000点数据的完整分解仅需0.47秒。最终我们验证了卷积神经网络通过融合FCD特征(包括优化函数值、参数及微分结果)后,相比标准卷积神经网络收敛速度提升16.8%,识别准确率提高2.5%。
从低资源语言的医疗记录中提取临床信息仍是医疗自然语言处理(NLP)领域的重大挑战。本研究评估了一种两阶段流程:首先采用Aya-expanse-8B作为波斯语-英语翻译模型,随后使用五个开源小语言模型(SLMs)——Qwen2.5-7B-Instruct、Llama-3.1-8B-Instruct、Llama-3.2-3B-Instruct、Qwen2.5-1.5B-Instruct和Gemma-3-1B-it,对某癌症姑息治疗呼叫中心收集的1,221份匿名波斯语记录进行13项临床特征的二元提取。在不微调的情况下采用少样本提示策略,通过宏平均F1分数、马修斯相关系数(MCC)、敏感性和特异性指标评估模型表现以应对类别不平衡问题。Qwen2.5-7B-Instruct取得最佳综合性能(中位宏F1值:0.899;MCC:0.797),而Gemma-3-1B-it表现最弱。较大参数量模型(7B-8B)在敏感性和MCC指标上持续优于较小模型。对Aya-expanse-8B的双语分析表明,将波斯语记录译为英语可提升敏感性、减少缺失输出,并增强对类别不平衡具有鲁棒性的指标,但会略微降低特异性和精确度。特征级结果显示大多数模型能可靠提取生理症状,而心理主诉、行政请求和复杂躯体特征的提取仍具挑战性。这些发现为在基础设施和标注资源有限的多语言临床NLP环境中部署开源SLMs提供了实用且保护隐私的解决方案蓝图,同时揭示了在敏感医疗应用中联合优化模型规模与输入语言策略的重要性。
大型语言模型(LLMs)曾被报道能线性编码真实性,但近期研究对该结论的普适性提出质疑。我们通过真实性谱系假说调和这两种观点:表征空间中存在从广泛领域通用到狭窄领域专用的方向谱系。为验证该假说,我们系统评估了探针在五种真实性类型(定义性、经验性、逻辑性、虚构性与伦理性)、谄媚性与期望反转型谎言以及现有诚实基准上的泛化能力。线性探针在多数领域泛化良好,但在谄媚性与期望反转型谎言上失效。然而联合所有领域训练后性能显著恢复,证实领域通用方向确实存在,尽管领域间迁移效果较差。探针方向的几何特征解释了这一现象:马氏余弦相似度近乎完美地预测跨领域泛化能力(R^2=0.98)。概念擦除方法进一步分离出三类真实性方向:(1)领域通用型、(2)领域专用型、以及(3)特定领域子集共享型。因果干预表明领域专用方向比领域通用方向具有更强的调控效力。最后,后训练会重塑真实性几何结构,使谄媚性谎言与其他真实性类型的距离增大,这为聊天模型的谄媚倾向提供了表征基础。综合来看,我们的结果支持真实性谱系假说:不同泛化程度的真实性方向共存于表征空间,后训练则重塑其几何构型。所有实验代码详见https://github.com/zfying/truth_spec。
我们推出ISO-Bench基准测试,旨在通过真实场景的推理优化任务评估编程智能体的能力。这些任务源自两大主流LLM服务框架vLLM和SGLang,每个任务为智能体提供代码库与瓶颈描述,要求其提交优化补丁并与人类专家方案进行对标评估。我们从已合并的拉取请求中精选出54个具有可量化性能提升的任务。现有基准测试过度依赖运行时指标,这种方法可能被投机取巧通过测试而无法捕捉代码变更的实际意图。为此,我们结合硬性(基于执行)与软性(基于LLM)的双重指标,证明二者对完整评估缺一不可。在评估闭源与开源编程智能体时,我们发现没有单一智能体能在所有代码库中占据绝对优势。令人惊讶的是,智能体常能准确定位瓶颈却无法给出可行解决方案。研究还表明,基于相同底层模型的智能体表现差异显著,这提示脚手架设计与模型本身同等重要。
我们旨在学习惯性测量单元(IMU)信号与视频中提取的二维姿态序列的联合表征,以实现精准的跨模态检索、时间同步、受试者及身体部位定位以及动作识别。为此,我们提出MoBind——一种分层对比学习框架,专门解决三大挑战:(1)过滤无关视觉背景;(2)建模结构化多传感器IMU配置;(3)实现细粒度亚秒级时间对齐。为分离运动相关特征,MoBind将IMU信号与骨骼运动序列(而非原始像素)进行对齐。我们进一步将全身运动分解为局部身体部位轨迹,并将其与对应IMU传感器配对,从而实现基于语义的多传感器对齐。为捕捉细粒度时间对应关系,MoBind采用分层对比策略:先对齐令牌级时间片段,再将局部(身体部位)对齐与全局(全身)运动聚合相融合。在mRi、TotalCapture和EgoHumans数据集上的实验表明,MoBind在四项任务中均稳定超越强基线模型,在保持跨模态粗粒度语义一致性的同时,实现了鲁棒的细粒度时间对齐。代码已开源:https://github.com/bbvisual/MoBind。
扩散模型近期已成为解决逆问题的强大先验工具。尽管计算机断层扫描(CT)在理论上是线性逆问题,但其实际应用面临诸多挑战,包括相关噪声、伪影结构、对系统几何构型的依赖以及数值范围失准等问题,这使得扩散模型在CT领域的直接应用比自然图像生成等领域更为困难。为系统评估扩散模型在此场景下的性能并与成熟重建方法进行对比,我们推出了DM4CT——一个专用于CT重建的综合基准测试平台。DM4CT涵盖医学与工业领域的稀疏视角及含噪配置数据集。为探索扩散模型实际部署的挑战,我们还采集了高能同步辐射设施的高分辨率CT数据,并在真实实验条件下评估所有方法。我们对比测试了十种最新扩散模型方法以及七种强基线方法(包括模型驱动、无监督及有监督方法)。通过深入分析,我们揭示了扩散模型在CT重建中的行为特性、优势与局限。真实世界数据集已公开于zenodo.org/records/15420527,代码库开源于github.com/DM4CT/DM4CT。
反讽检测对计算语义学提出了根本性挑战,其核心在于模型需要解析字面含义与真实意图之间的差异。这一挑战在标注数据集稀缺的低资源语言中尤为突出。我们推出Yor-Sarc——首个约鲁巴语反讽检测黄金标准数据集,约鲁巴语是一种声调型尼日尔-刚果语系语言,使用人口超五千万。该数据集包含436个标注实例,由三位不同方言背景的母语者采用专为约鲁巴文化背景设计的反讽标注方案完成。该方案融合语境敏感解读和社区知情准则,并辅以标注者一致性全面分析以支持其他非洲语言的复现研究。标注者间达成显著至近乎完美的一致性(弗莱斯κ=0.7660;配对科恩κ=0.6732-0.8743),其中83.3%的实例获得全体一致。某标注对达成近乎完美的一致性(κ=0.8743;原始一致率93.8%),超过多项英语反讽研究的报告基准。其余16.7%的多数一致案例保留为软标签,用于不确定性感知建模。Yor-Sarc(https://github.com/toheebadura/yor-sarc)有望推动非洲低资源语言的语义解读及文化感知自然语言处理研究。