每日精选AI研究论文及翻译
时间序列的全面理解对于大语言模型(LLMs)而言仍是一项重大挑战。当前研究受限于碎片化的任务定义和存在固有模糊性的基准测试,阻碍了严谨评估与统一时间序列推理模型(TSRMs)的发展。为弥补这一空白,我们通过构建包含四个认知复杂度递增层级的分类法,正式定义了时间序列推理(TSR)框架。我们推出HiTSR——一个包含8.3万个样本的层次化时间序列推理数据集,涵盖多样化的任务组合并附带经过验证的思维链(CoT)轨迹。基于HiTSR,我们提出LLaTiSA模型,该强时序推理模型通过将可视化模式与精度校准的数值表格相融合,显著增强了视觉语言模型(VLMs)的时间感知能力。采用多阶段课程精调策略后,LLaTiSA在各类TSR任务和现实场景中不仅实现了卓越性能,更展现出强大的分布外泛化能力。代码已开源:https://github.com/RainingNovember/LLaTiSA。
诸如Genie、YUME、HY-World和Matrix-Game等交互式视频生成模型正快速发展,但每个模型都在各自使用私有场景与运动轨迹的基准上进行评估,导致无法实现公平的跨模型比较。现有公共基准虽能提供轨迹误差、美学评分和基于视觉语言模型的评判等有用指标,但均未提供标准化测试条件——包括完全相同的场景、一致的动作序列和统一控制接口——这使得这些指标难以在输入异构的模型间进行可比评估。我们推出WorldMark,首个为交互式图像到视频世界模型提供通用测试平台的基准。WorldMark的贡献包括:(1)统一动作映射层,将共享的WASD式动作词汇转换为各模型原生控制格式,实现在相同场景与轨迹上对六大模型的直接对比;(2)包含500个测试案例的分层评估集,涵盖第一人称与第三人称视角、写实与风格化场景,以及从易到难三个难度级别(时长20-60秒);(3)模块化评估工具包,针对视觉质量、控制对齐和世界一致性设计,允许研究者在复用标准化输入的同时,随领域发展灵活接入自定义指标。我们将公开所有数据、评估代码及模型输出以推动后续研究。除离线指标外,我们还推出World Model Arena在线平台(warena.ai),用户可在此让主流世界模型进行实时对战并查看动态排行榜。
人形机器人基础模型的规模化受限于机器人数据的稀缺性。尽管海量第一人称人类数据提供了可扩展的替代方案,但由于运动学差异,跨越不同具身形态的鸿沟仍是根本性挑战。我们提出UniT(基于视觉锚定的统一潜在动作分词器),该框架通过建立统一的物理语言实现人类到人形机器人的知识迁移。基于"异构运动学具有普适视觉结果"的哲学思想,UniT采用三分支交叉重建机制:动作预测视觉以将运动学锚定于物理结果,视觉重建动作以过滤无关视觉干扰。同时,融合分支将这两种纯化模态协同编码为具身无关的物理意图共享离散潜在空间。我们在两大范式下验证UniT:1)策略学习(VLA-UniT):通过预测这些统一令牌,模型能有效利用多样化人类数据,在人形机器人仿真基准和现实部署中实现最优数据效率与强健的分布外泛化能力,尤其展现出零样本任务迁移特性;2)世界建模(WM-UniT):通过以统一令牌为条件对齐跨具身动力学,实现直接的人类到人形机器人动作迁移。这种对齐确保人类数据可无缝转化为增强的人形机器人视频生成动作可控性。最终,通过诱导高度对齐的跨具身表征(经t-SNE可视化实证显示人类与人形机器人特征收敛至共享流形),UniT为将海量人类知识蒸馏为通用人形机器人能力提供了可扩展路径。
创造性人脸风格化旨在将肖像以多样化的视觉风格呈现,如卡通、素描和油画,同时保持可识别的身份特征。然而,当前主要在自然照片上训练和校准的身份编码器,在风格化处理中表现出严重的脆弱性。它们常将纹理或色彩调色板的变化误判为身份漂移,或无法检测几何夸张变形。这揭示了缺乏一种风格无关的框架来评估和监控不同风格及强度下的身份一致性。为解决这一不足,我们提出了StyleID——一个面向风格化人脸身份的人类感知感知数据集与评估框架。StyleID包含两个数据集:(i)StyleBench-H,该基准通过基于扩散和流匹配的风格化方法在多种风格强度下采集人类对身份异同的验证判断;(ii)StyleBench-S,一个通过受控二选一强制选择实验获取的心理测量学识别强度曲线衍生的监督集。基于StyleBench-S,我们对现有语义编码器进行微调,使其相似性排序与人类跨风格、跨强度的感知保持一致。实验表明,经我们校准的模型与人类判断的相关性显著提高,并对域外艺术家手绘肖像表现出更强的鲁棒性。我们的全部数据集、代码与预训练模型已公开于https://kwanyun.github.io/StyleID_page/。
长视野交互环境是评估智能体技能运用能力的测试平台。这类环境需要多步推理、跨多个时间步的技能链式调用,以及在延迟奖励和部分可观测条件下的稳健决策能力。游戏环境为评估智能体技能运用提供了优质测试场。大型语言模型(LLMs)作为游戏智能体展现出潜力,但由于缺乏跨场景发现、保持和复用结构化技能的机制,其在长视野决策一致性方面常显不足。我们提出COSPLAY协同进化框架:LLM决策智能体从可学习的技能库中检索技能以指导行动,而由智能体管理的技能管道则从其无标注运行轨迹中发现可复用技能构建技能库。该框架既提升了决策智能体的技能检索与行动生成能力,又使技能库智能体能持续提取、优化并更新技能及其契约。在六类游戏环境中的实验表明,基于80亿参数模型的COSPLAY在单机游戏基准测试中相较四种前沿LLM基线模型实现平均25.1%的奖励提升,同时在多玩家社交推理游戏中保持竞争力。
如何判断视频是否被加速或放慢?如何生成不同速度的视频?尽管视频一直是现代计算机视觉研究的核心,但人们对时间流逝的感知与控制却鲜有关注。本文通过将时间作为可学习的视觉概念,开发了能够推理并操控视频时间流的模型。我们首先利用视频中天然存在的多模态线索与时间结构,以自监督方式学习检测速度变化并估计播放速率。随后研究表明,这些习得的时间推理模型使我们能够从嘈杂的真实场景源中构建出迄今规模最大的慢动作视频数据集。这类通常由高速摄像机拍摄的慢动作影像,比标准视频包含更丰富的时间细节。基于这些数据,我们进一步开发了具备时序控制能力的模型,包括可根据指定播放速度生成对应运动的速度条件视频生成模型,以及能将低帧率模糊视频转换为具有精细时间细节的高帧率序列的时间超分辨率模型。我们的研究凸显了时间作为视频学习中可操控的感知维度,为时序可控视频生成、时序取证检测以及构建能理解事件随时间演变机制的更丰富世界模型开辟了新路径。
自主GUI智能体面临两大核心挑战:过早终止(智能体在缺乏可验证证据时提前宣告成功)与循环重复(智能体在相同失败操作中陷入死循环而无法恢复)。我们提出VLAA-GUI——一个围绕三大集成组件构建的模块化GUI智能体框架,通过"停止、恢复、搜索"三重机制引导系统决策。首先,强制性完成度验证器在每步结束时执行基于UI界面的成功标准核验:其智能体级验证器通过决策规则交叉审阅完成声明,拒绝缺乏直接视觉证据的结论。其次,强制性循环中断器提供多级过滤机制:在重复失败后切换交互模式,在屏幕状态持续复现时强制改变策略,并将反思信号与策略调整绑定。第三,按需启用的搜索代理可通过直接向具备搜索能力的大语言模型查询,为陌生工作流程进行在线搜索并以纯文本返回结果。我们还集成了按需调用的编码代理(处理代码密集型操作)与 grounding代理(实现精准操作定位)。在包含Linux和Windows任务的两种基准测试中,VLAA-GUI在Opus 4.5、4.6及Gemini 3.1 Pro等五大顶级骨干模型上均取得最优性能(OSWorld达77.5%,WindowsAgentArena达61.0%)。值得注意的是,五个骨干模型中有三个在OSWorld上单次通过即超越人类表现(72.4%)。消融实验表明,所有三个组件均能持续增强强骨干模型性能,而弱骨干模型在步数预算充足时从这些工具中获益更大。进一步分析显示,循环中断器可将易陷循环模型的无效步骤减少近半。
我们推出Omni——一个原生支持文本、图像、视频、3D几何及隐式表征等多模态统一训练的模型。研究发现,这种训练方式可触发"语境展开"机制,使模型在生成预测前能显式地对多模态表征进行联合推理。该机制促使模型聚合异构模态间的互补信息,更精准地逼近共享的多模态知识流形,从而提升下游任务的推理可信度。实验表明,Omni在多模态生成与理解基准测试中均表现优异,并展现出包括文本、图像、视频及3D几何的语境生成在内的先进多模态推理能力。
我们提出EditCrafter,一种无需调优的高分辨率图像编辑方法,该方法利用预训练的文本到图像(T2I)扩散模型处理远超训练时分辨率的图像。借助大规模T2I扩散模型的生成先验能力,可开发多种新颖的生成与编辑应用。尽管现有基于扩散模型的图像编辑方法已能呈现高质量效果,但由于仅能在训练分辨率(512x512或1024x1024)下工作,难以适用于任意宽高比或更高分辨率的图像。简单地采用分块编辑会导致物体结构失真和内容重复。为解决这些挑战,我们引入了EditCrafter——一个简洁而高效的编辑流程。该方法首先通过分块反演技术保留输入高分辨率图像的原始特征,进而提出专为高分辨率编辑设计的噪声阻尼流形约束无分类器引导(NDCFG++)算法,从反演后的潜空间进行编辑。实验表明,EditCrafter无需微调与优化即可在不同分辨率下实现令人印象深刻的编辑效果。
实时检测与消除技术异常对大规模云原生服务至关重要,数分钟的中断就可能导致巨额财务损失和用户信任度下降。虽然客户事件是发现监控盲区风险的重要信号,但由于极端噪声、高吞吐量以及多业务线语义复杂性,从这些数据中提取可操作情报仍具挑战。本文提出TingIS——面向企业级事件发现的端到端系统,其核心是多阶段事件关联引擎,该引擎将高效索引技术与大语言模型(LLMs)协同工作,基于少量多样化用户描述即可做出事件合并的智能决策,从而实现可操作事件的稳定提取。该系统还包含级联路由机制实现精准业务归因,以及融合领域知识、统计模式和行为过滤的多维降噪流水线。在生产环境中,TingIS峰值吞吐量达每分钟2000条消息、日处理30万条消息,P90告警延迟为3.5分钟,对高优先级事件的发现率达95%。基于真实场景构建的基准测试表明,TingIS在路由精度、聚类质量与信噪比方面显著优于基线方法。
我们提出Vista4D——一种基于4D点云实现输入视频与目标相机标定的鲁棒性视频重摄框架。该技术通过将动态场景锚定在四维时空点云中,能够从不同相机轨迹与视角重新合成具有相同动态特性的场景。现有视频重摄方法常受限于真实世界动态视频的深度估计伪影,难以保持内容外观一致性,且无法对复杂新轨迹实现精确相机控制。我们通过静态像素分割与四维重建构建 grounded 4D点云表征,显式保留已观测内容并提供丰富相机信号,同时利用重建的多视角动态数据训练模型,使系统在真实场景推理时能有效抵抗点云伪影。实验表明,相较于现有先进基线方法,我们的方案在多种视频与相机路径下均展现出更优的四维一致性、相机控制精度和视觉质量。此外,该方法可泛化应用于动态场景扩展、四维场景重组等现实任务。相关成果、代码与模型详见项目页面:https://eyeline-labs.github.io/Vista4D
知识蒸馏(KD)是一种压缩大语言模型(LLM)的强大范式,其效果取决于散度方向、优化策略和数据机制之间的交织选择。我们系统剖析了现有KD方法的设计思路,提出统一框架建立其内在联系,将KD重新表述为词元级别的加权对数似然目标。进一步提出混合策略蒸馏(HPD)方法,集成正向KL与反向KL的互补优势以平衡模式覆盖与模式搜寻,并将离线数据与轻量级近似在线采样相结合。我们在长文本数学推理、短文本对话和代码生成任务上验证HPD,证明其能提升优化稳定性、计算效率及最终性能,且适用于不同模型家族与规模。相关代码已开源:https://github.com/zwhong714/Hybrid-Policy-Distillation。
联合图像-特征生成建模作为一种新兴的有效策略,通过将低级VAE潜变量与预训练视觉编码器提取的高级语义特征相耦合,显著提升了扩散模型的训练效果。然而,现有方法依赖于固定的表征空间——该空间独立于生成目标构建,并在训练过程中保持不变。我们认为指导扩散过程的表征空间本身应适应生成任务的需求。为此,我们提出协同进化表征扩散框架(CoReDi),通过让语义表征空间在训练期间随扩散模型共同学习轻量级线性投影来实现动态演化。虽然直接优化该投影会导致退化解,但我们发现通过结合梯度截断目标、归一化操作及防止特征坍塌的定向正则化,可以实现稳定的协同进化。这种设计使语义空间能够逐步专精于图像合成的需求,增强其与图像潜变量的互补性。我们将CoReDi应用于VAE潜空间扩散和像素空间扩散,证明自适应语义表征能提升两种设定下的生成建模性能。实验表明,相较于在固定表征空间中运行的联合扩散模型,CoReDi具有更快的收敛速度和更高的样本质量。
近年来,图像生成与生成图像检测领域均取得显著进展。尽管二者发展迅速却相对独立,形成了截然不同的架构范式:前者主要依赖生成式网络,后者则倾向于判别式框架。当前这两个领域共同出现利用对抗信息提升性能的新趋势,展现出协同发展的潜力。然而,二者显著的架构差异带来了巨大挑战。不同于既往方法,我们提出UniGenDet:一个面向协同演进的图像生成与检测任务的统一生成-判别框架。为弥合任务鸿沟,我们设计了共生式多模态自注意力机制与统一微调算法。这种协同机制使生成任务能提升真实性判别的可解释性,而真实性标准又引导生成更高保真度的图像。此外,我们引入检测器引导的生成对齐机制以促进无缝信息交换。在多数据集上的大量实验表明,本方法实现了最先进的性能。代码地址:https://github.com/Zhangyr2022/UniGenDet。
学习鲁棒的作者风格表征对于作者归属识别和AI生成文本检测至关重要。然而现有方法常受内容-风格纠缠问题困扰,即模型会学习作者写作风格与主题之间的伪相关性,导致跨领域泛化能力不足。为解决这一挑战,我们提出可解释作者身份变分自编码器(EAVAE),该创新框架通过架构层面的分离设计实现风格与内容的显式解耦。EAVAE首先基于多样化作者数据通过监督对比学习预训练风格编码器,随后采用变分自编码器架构,分别使用独立的编码器提取风格与内容表征。我们引入新型判别器强化解耦效果:该判别器不仅能区分风格/内容表征对是否属于相同/不同的作者/内容源,还能生成自然语言解释其判断依据,在消除混杂信息的同时增强模型可解释性。大量实验证明了EAVAE的有效性。在作者归属识别任务中,我们在Amazon Reviews、PAN21和HRS等多个数据集上达到最先进性能;在AI生成文本检测方面,EAVAE在M4数据集上展现出卓越的小样本学习能力。代码与数据仓库已开源:https://github.com/hieum98/avae https://huggingface.co/collections/Hieuman/document-level-authorship-datasets。
专家混合模型(MoE)通过固定推理速度下扩展模型容量而广受欢迎,但其几乎每个标记都需要切换专家。当模型规模超出GPU显存容量时,这种频繁切换会使卸载预取等优化手段失效。我们认为强化学习中的选项框架正是解决此问题的理想工具,并提出时序扩展的专家混合层架构。基于带有决策成本的选项批判框架,我们在每层添加控制器以学习何时切换专家集及加载哪些专家。将该方法应用于配备低秩适配器的gpt-oss-20b模型,并通过自蒸馏奖励进行优化,实验表明在MATH、MMLU和MMMLU基准测试中,专家切换率从超过50%降至5%以下,同时保持基础模型90%的准确率。这证明即使对已有预训练模型,仅需轻量训练即可转换为时序扩展MoE架构,且决策成本机制允许模型训练者在切换率与能力之间进行权衡。我们期待这一基于选项框架的方法能为持续增长的MoE模型开辟内存高效服务与持续学习的理论路径。
基于文本的大语言模型(LLM)的世界知识与推理能力正在飞速进步,然而当前人体动作理解方法(包括动作问答与描述生成)尚未充分利用这些能力。现有基于LLM的方法通常通过专用编码器将动作特征投影至LLM嵌入空间来学习动作-语言对齐,仍受限于跨模态表示与对齐机制。受生物力学分析的启发——关节角度与身体部位运动学长期作为人体运动的精确描述语言,我们提出结构化动作描述(SMD),这是一种基于规则的确定性方法,可将关节位置序列转化为描述关节角度、肢体运动与全局轨迹的结构化自然语言。通过将动作表示为文本,SMD使LLM能够直接运用其预训练获得的关于身体部位、空间方向与运动语义的知识进行动作推理,无需学习编码器或对齐模块。实验表明,该方法在动作问答(BABEL-QA达66.7%,HuMMan-QA达90.1%)和动作描述(HumanML3D上R@1为0.584,CIDEr为53.16)任务上均超越现有最优成果,优于所有先前方法。SMD还具备实用优势:同一文本输入可适配不同LLM且仅需轻量级LoRA微调(已在6个模型家族的8个LLM上验证),其人类可读的表示形式支持对运动描述进行可解释的注意力分析。代码、数据与预训练LoRA适配器已开源:https://yaozhang182.github.io/motion-smd/。
尽管大语言模型在函数级代码生成方面表现出色,但项目级任务(如生成功能完善且视觉美观的多页网站)仍极具挑战。现有研究多局限于单页静态网站,而智能体框架通常依赖专有模型进行多轮执行,导致高昂的令牌成本、高延迟及脆弱的集成性。虽然通过强化学习端到端训练小型大语言模型是颇具前景的替代方案,但其在网站生成任务中面临关键瓶颈:如何设计可靠且计算可行的奖励机制。与可通过单元测试验证的单文件编程任务不同,网站生成需评估具有内在主观性的美学效果、跨页面交互及功能正确性。为此,我们提出WebGen-R1——专为项目级网站生成设计的端到端强化学习框架。我们首先引入支架驱动的结构化生成范式,通过约束开放式动作空间来保持架构完整性;继而设计新型级联多模态奖励机制,将结构化保障与基于执行的功能反馈、视觉美学监督无缝耦合。大量实验表明,WebGen-R1能将7B基础模型从生成几乎不可用的网站转变为可部署且符合美学标准的多页网站。值得注意的是,该框架不仅持续超越大规模开源模型(最高达72B),在功能成功率上比肩最先进的DeepSeek-R1(671B),更在有效渲染与美学对齐方面显著优于后者。这些成果表明WebGen-R1为小型开源模型从函数级代码生成扩展到项目级Web应用生成提供了可行路径。
大型语言模型(LLMs)在各类自然语言处理任务中展现出卓越的流畅性与通用性,但仍存在事实性错误与幻觉问题。这一局限在医疗、法律及科学传播等高风险领域尤为突出,因为这些领域对可信度与可验证性具有极高要求。本文提出DAVinCI框架——一种双路归因与验证机制,旨在提升LLM输出的事实可靠性与可解释性。DAVinCI采用双阶段工作流程:(1)将生成主张溯源至内部模型组件与外部知识源;(2)通过基于蕴含推理的置信度校准机制逐条验证主张。我们在FEVER、CLIMATE-FEVER等多数据集上评估DAVinCI,并与标准单一验证基线进行对比。实验表明,DAVinCI在分类准确率、归因精确度、召回率及F1分数上均提升5-20%。通过消融实验,我们解析了证据片段选择、重校准阈值和检索质量对系统的贡献。同时开源模块化DAVinCI实现方案,可集成至现有LLM流程。该框架通过融合归因与验证机制,为构建可审计、可信赖的AI系统提供了可扩展路径。本研究推动LLM不仅保持强大能力,更具备责任可溯性。
脑电图(EEG)基础模型在从大规模神经数据中学习可泛化表征方面展现出巨大潜力,但其临床部署仍受限于临床场景、设备及人群间的分布偏移。测试时自适应(TTA)技术通过使模型在推理阶段能基于无标注目标数据自主适配(且无需访问源数据),为这一难题提供了可行解决方案——这一特性在受隐私法规和标注数据稀缺制约的医疗场景中尤为重要。然而,TTA在EEG领域的有效性仍亟待探索。本研究提出NeuroAdapt-Bench,一个用于评估EEG基础模型在现实分布偏移下测试时自适应方法的系统性基准框架。我们在多种预训练基础模型、多样化下游任务以及涵盖域内分布、域外分布乃至极端模态偏移(如耳际EEG)的异构数据集上,系统评估了来自其他领域的代表性TTA方法。实验结果表明:传统TTA方法效果不稳定且常导致性能下降,其中基于梯度的方法尤其易出现严重退化;相比之下,无优化方法表现出更强的稳定性和更可靠的性能提升。这些发现揭示了现有TTA技术在EEG领域的局限性,为未来技术发展提供了指引,并强调了开发领域特异性自适应策略的必要性。
大型多模态模型正日益成为在3D环境中运行的具身智能体的推理核心,但它们仍容易产生幻觉,导致不安全且缺乏依据的决策。现有的推理时幻觉缓解方法主要针对2D视觉语言场景,无法迁移到具身3维推理领域——后者的错误主要源于物体存在性、空间布局和几何基础问题,而非像素级不一致。我们提出3D-VCD,首个面向3D具身智能体幻觉缓解的推理时视觉对比解码框架。该方法通过对以物体为中心的表示施加语义和几何扰动(如类别替换、坐标或尺寸破坏)来构建扭曲的3D场景图。通过对比原始与扭曲3D上下文下的预测结果,我们的方法能抑制那些对真实场景证据不敏感、仅由语言先验驱动的标记。在3D-POPE和HEAL基准测试上的实验表明,3D-VCD无需重新训练即可持续提升具身推理的可靠性,证实了基于结构化3D表示的推理时对比解码是实现更可靠具身智能的有效实践路径。
在开发自适应AI系统的过程中,如何通过有效整合用户交互历史实现语言模型个性化仍是核心挑战。尽管大语言模型(LLM)与检索增强生成(RAG)技术结合提升了事实准确性,但它们往往缺乏结构化记忆机制,难以适应复杂长期交互场景。为此,我们提出基于知识图谱的柔性外部记忆框架,该框架由LLM自动构建并动态更新。在AriGraph架构基础上,我们创新性地引入支持标准边与两种超边的混合图设计,实现丰富动态的语义与时序表征。该框架还支持A*算法、WaterCircles遍历、束搜索及混合方法等多重检索机制,可适配不同数据集与LLM能力。通过在TriviaQA、HotpotQA和DiaASQ基准测试上的评估,我们证明不同记忆与检索配置能针对特定任务实现最优性能。此外,我们为DiaASQ基准扩展了时序标注和内部矛盾陈述,验证了系统在管理时序依赖和上下文感知推理方面具有持续鲁棒性与有效性。