每日精选AI研究论文及翻译
我们推出Matrix-Game,一个用于可控游戏世界生成的交互式世界基础模型。Matrix-Game采用两阶段训练流程:首先进行大规模无标签预训练以理解环境,随后进行带动作标签的训练以生成交互式视频。为此,我们精心构建了Matrix-Game-MC,这是一个全面的Minecraft数据集,包含超过2,700小时的无标签游戏视频片段和超过1,000小时的高质量带标签片段,其中包含细粒度的键盘和鼠标动作标注。我们的模型采用可控的图像到世界生成范式,基于参考图像、运动上下文和用户动作进行条件生成。拥有超过170亿参数的Matrix-Game,能够精确控制角色动作和摄像机移动,同时保持高视觉质量和时间连贯性。为评估性能,我们开发了GameWorld Score,这是一个统一的基准测试,用于衡量Minecraft世界生成的视觉质量、时间质量、动作可控性和物理规则理解。大量实验表明,Matrix-Game在所有指标上均优于先前的开源Minecraft世界模型(包括Oasis和MineWorld),在可控性和物理一致性方面表现尤为突出。双盲人类评估进一步证实了Matrix-Game的优越性,凸显了其在多样化游戏场景中生成感知真实且精确可控视频的能力。为促进未来关于交互式图像到世界生成的研究,我们将在https://github.com/SkyworkAI/Matrix-Game开源Matrix-Game模型权重和GameWorld Score基准测试。
照片修饰已成为当代视觉叙事不可或缺的一部分,使用户能够捕捉美学并展现创意。尽管Adobe Lightroom等专业工具提供了强大的功能,但它们需要深厚的专业知识和大量手动操作。相比之下,现有的基于AI的解决方案虽实现了自动化,却常受限于可调节性不足和泛化能力差,难以满足多样化和个性化的编辑需求。为弥合这一差距,我们推出了JarvisArt,一个由多模态大语言模型(MLLM)驱动的智能体,它能理解用户意图,模仿专业艺术家的推理过程,并智能协调Lightroom中的200多种修饰工具。JarvisArt经历了两阶段训练:首先通过思维链监督微调建立基础推理和工具使用能力,随后采用面向修饰的群体相对策略优化(GRPO-R)进一步提升其决策制定和工具熟练度。我们还提出了Agent-to-Lightroom协议,以实现与Lightroom的无缝集成。为评估性能,我们开发了MMArt-Bench,一个基于真实用户编辑构建的新颖基准。JarvisArt展示了用户友好的交互、卓越的泛化能力以及对全局和局部调整的精细控制,为智能照片修饰开辟了新途径。值得注意的是,在MMArt-Bench上,JarvisArt在内容保真度的平均像素级指标上以60%的提升超越了GPT-4o,同时保持了相当的指令跟随能力。项目页面:https://jarvisart.vercel.app/。
我们推出AnimaX,一种前馈式3D动画框架,它巧妙地将视频扩散模型的运动先验与基于骨骼动画的可控结构相融合。传统运动合成方法要么局限于固定的骨骼拓扑,要么需要在高维变形空间中进行耗时的优化。相比之下,AnimaX高效地将基于视频的运动知识迁移至3D领域,支持任意骨骼的多样化关节网格。我们的方法将3D运动表示为多视角、多帧的2D姿态图,并实现了基于模板渲染和文本运动提示的联合视频-姿态扩散。我们引入了共享的位置编码和模态感知嵌入,确保视频与姿态序列间的时空对齐,从而有效将视频先验迁移至运动生成任务。生成的多视角姿态序列通过三角测量转化为3D关节位置,并借助逆向运动学转换为网格动画。AnimaX在全新构建的包含160,000条绑定序列的数据集上训练,在VBench上于泛化性、运动保真度及效率方面均达到了业界领先水平,为类别无关的3D动画提供了可扩展的解决方案。项目页面:https://anima-x.github.io/{https://anima-x.github.io/}。
软件工程(SWE)近来已成为下一代大语言模型(LLM)代理的关键试验场,其核心能力体现在两大维度:持续迭代的问题解决(例如,超过50轮交互)与长上下文依赖的解析(例如,超过32k个标记)。然而,SWE领域的数据整理过程依然耗时巨大,因为它高度依赖于人工标注以筛选代码文件,并需搭建专门的运行时环境来执行和验证单元测试。因此,现有数据集大多局限于数千个来自GitHub的实例。为此,我们提出了一种增量式、自动化的数据整理流程,旨在系统性提升SWE数据集的规模与多样性。我们的数据集包含了来自2,531个不同GitHub仓库的10,169个真实世界Python任务实例,每个实例均配有自然语言描述的任务说明及专为自动化单元测试验证设计的运行时环境镜像。我们精心筛选了超过8,000条成功通过运行时验证的训练轨迹,用于微调Skywork-SWE模型。在此过程中,我们发现了一个显著的数据扩展现象:随着数据量的增长,训练出的模型在软件工程能力上的表现持续提升,未见饱和迹象。尤为突出的是,我们的Skywork-SWE模型在SWE-bench Verified基准测试中,未使用验证器或多轮回滚的情况下,实现了38.0%的pass@1准确率,在基于OpenHands代理框架构建的Qwen2.5-Coder-32B系列LLM中树立了新的标杆。此外,结合测试时扩展技术,性能进一步提升至47.0%的准确率,超越了此前所有参数规模低于32B模型的最佳成绩。我们公开了Skywork-SWE-32B模型的检查点,以加速未来研究进程。
我们提出了一种新的专家混合架构——专家链(Chain-of-Experts, CoE),该架构在每一层内部引入了专家间的顺序通信机制。与传统的专家混合模型不同,后者中专家并行独立运作,而CoE则通过层内专家链对输入进行迭代处理。为了支持跨迭代步骤的动态专家选择,CoE在每一层的每次迭代中均配备了一个专用路由器。这一设计使得输入能够在每次迭代时重新评估并选择不同的专家,而非静态分配。因此,CoE引入了一种灵活的路由机制,不仅增加了专家组合的多样性,还丰富了模型的表征能力。在固定计算资源下,CoE展现出性能提升:在数学推理任务中,相较于标准专家混合模型,其验证损失从1.20降至1.12。除性能外,CoE还开辟了一个新的扩展维度:通过专家迭代实现的深度扩展,这补充了传统的宽度/深度扩展方式。例如,采用2倍迭代即可达到3倍专家选择(在宽度上)的性能,同时相较于其他扩展策略,内存使用减少了17.6%至42%。我们的分析表明,CoE的优势源于其迭代残差结构及迭代路由赋予的专家专业化增强,二者共同解锁了更具表达力的表征。代码已发布于https://github.com/ZihanWang314/coe。
视觉-语言-动作模型(VLAs)因其在推动机器人操作方面的潜力而备受关注。然而,以往的方法主要依赖视觉-语言模型(VLMs)的通用理解能力来生成动作信号,往往忽视了视觉观察中蕴含的丰富时序和因果结构。本文提出了UniVLA,一个统一且原生的多模态VLA模型,它以自回归的方式将视觉、语言和动作信号建模为离散的令牌序列。这一表述使得灵活的多模态任务学习成为可能,特别是从大规模视频数据中学习。通过在后续训练中融入世界建模,UniVLA能够从视频中捕捉因果动态,从而有效迁移至下游策略学习——尤其是针对长期任务。我们的方法在多个广泛使用的模拟基准测试中,包括CALVIN、LIBERO和Simplenv-Bridge,均取得了新的最先进成果,显著超越了先前的方法。例如,UniVLA在LIBERO基准测试中实现了95.5%的平均成功率,超越了pi0-FAST的85.5%。我们进一步展示了其在现实世界ALOHA操作和自动驾驶中的广泛应用性。
近期强化学习方法,如结果监督的GRPO,在大型语言模型(LLMs)中的链式思维推理方面取得了进展,然而其在多模态大语言模型(MLLMs)中的应用尚未探索。针对MLLM后训练方法缺乏严格评估的问题,我们引入了SEED-Bench-R1,这是一个包含复杂现实世界视频的基准测试,要求平衡的感知与推理能力。它提供了大规模的训练集,并评估了模型在三个逐步升级挑战中的泛化能力:同分布、跨环境及跨环境任务场景。通过SEED-Bench-R1,我们发现标准GRPO虽提升了答案准确性,却常削弱推理步骤与答案间的逻辑连贯性,一致性率仅为57.9%。这源于奖励信号仅关注最终答案,鼓励走捷径,以及严格的KL惩罚限制了探索。为解决此问题,我们提出了GRPO-CARE,一个一致性感知的强化学习框架,无需显式监督即可同时优化答案正确性与推理连贯性。GRPO-CARE引入了双层奖励机制:(1) 基础奖励用于答案正确性,(2) 自适应一致性奖励,通过比较模型推理到答案的似然度(借助缓慢演进的参考模型)与群体同伴计算得出。这一双重机制放大了既正确又逻辑一致的推理路径的奖励。用此自适应奖励替代KL惩罚后,GRPO-CARE在SEED-Bench-R1上超越了标准GRPO,在最难评估级别上实现了6.7%的性能提升,一致性提高了24.5%。它还展现了强大的迁移能力,在多种视频理解基准测试中提升了模型表现。我们的工作贡献了一个系统设计的基准测试和一个可推广的后训练框架,推动了更可解释且鲁棒的MLLMs的发展。
本文提出了ScaleCap,一种在推理阶段可扩展的图像描述生成策略,旨在生成全面且细致的图像描述。高质量图像描述面临的关键挑战源于大规模视觉语言模型(LVLMs)的固有偏差:多模态偏差导致描述粒度失衡,对某些元素详细描述而其他元素则一笔带过;语言偏差则引发对不存在物体的幻觉描述。为解决这些问题,我们提出了一种可扩展的去偏差描述策略,随着推理预算的增加,不断丰富并校准描述内容。具体而言,我们引入了两个新颖组件:启发式问答与对比句子评分。前者基于图像生成内容特定问题并予以回答,逐步将相关信息注入描述中;后者采用句子级离线对比解码,有效识别并消除由语言偏差引起的幻觉。随着推理成本的增加,ScaleCap提出更多启发式问题,逐步捕捉更多视觉细节,生成更为准确、平衡且信息丰富的描述。广泛的模态对齐实验验证了ScaleCap的有效性。使用ScaleCap标注45万张图像并用于LVLM预训练,在11个广泛使用的基准测试中均实现了性能的持续提升。此外,ScaleCap在两项额外任务中展现了生成描述的卓越丰富性与保真度:在视觉问答任务中用描述替代图像,以及从描述重建图像以评估语义覆盖度。代码已发布于https://github.com/Cooperx521/ScaleCap。
在现实世界的数据库应用中,解决复杂的SQL问题仍然是一个显著的瓶颈。当前的大型语言模型(LLMs)虽然在文本到SQL的翻译方面表现出色,但尚未在更具挑战性的SQL问题调试任务上得到严格评估。为填补这一空白,我们引入了BIRD-CRITIC,这是一个新的SQL问题调试基准,包含530个PostgreSQL任务(BIRD-CRITIC-PG)和570个多方言任务(BIRD-CRITIC-Multi),这些任务均提炼自真实用户问题,并在新环境中重放,以便进行严格评估。基线评估凸显了任务的复杂性,领先的推理模型O3-Mini在BIRD-CRITIC-PG上仅达到38.87%的成功率,在BIRD-CRITIC-Multi上为33.33%。同时,推动开源模型在数据库任务上的进步,对于赋能本地开发并保障数据隐私至关重要。因此,我们推出了Six-Gym(Sql-fIX-Gym),这是一个训练环境,旨在提升开源模型在SQL问题调试上的能力。该环境采用SQL-Rewind策略,通过从已验证的SQL反向工程生成可执行的问题-解决方案数据集。然而,流行的基于轨迹的微调方法并未深入挖掘有效的监督信号。我们进一步提出了f-Plan Boosting,它从SQL解决方案中提取高级调试计划,使教师LLMs能够生成73.7%更多成功的训练轨迹。我们将这些组件集成到一个开源代理Bird-Fixer中。基于Qwen-2.5-Coder-14B,Bird-Fixer在BIRD-CRITIC-PG上实现了38.11%的成功率,在BIRD-CRITIC-Multi上为29.65%,超越了Claude-3.7-Sonnet和GPT-4.1等领先的专有模型,标志着向普及复杂SQL调试能力迈出了重要一步。排行榜和源代码可访问:https://bird-critic.github.io/
在现实场景中稳健部署大型多模态模型(LMMs)需要接入外部知识源,鉴于现实世界信息的复杂性和动态性。现有方法如检索增强生成(RAG)和提示工程搜索代理依赖于固定流程,常导致搜索行为效率低下或过度。我们提出了MMSearch-R1,这是首个端到端的强化学习框架,使LMMs能够在真实互联网环境中按需进行多轮搜索。该框架整合了图像和文本搜索工具,让模型能够基于结果导向的奖励及搜索惩罚机制,推理何时及如何调用这些工具。为支持训练,我们通过半自动化流程收集了一个涵盖多样化视觉与文本知识需求的多模态搜索VQA数据集,并精选了一个包含需搜索与无需搜索样本的搜索平衡子集,这对于塑造高效且按需的搜索行为至关重要。在知识密集型和信息寻求型VQA任务上的广泛实验表明,我们的模型不仅超越了同规模RAG基线,还在减少超过30%搜索调用的情况下,与更大规模RAG模型性能相当。我们进一步分析了关键实证发现,为推进多模态搜索研究提供了可操作的洞见。
在自然语言处理(NLP)中,人工标注的差异(即标注分歧)是普遍存在的,这往往反映了任务的主观性和样本的模糊性等重要信息。尽管大型语言模型(LLMs)越来越多地用于自动标注以减少人力投入,但其评估通常集中于预测多数投票的“真实”标签。然而,这些模型是否也能捕捉到具有信息价值的人工标注差异,目前尚不明确。我们的工作通过广泛评估LLMs在无法获取重复人工标注的情况下预测标注分歧的能力,填补了这一空白。研究结果表明,LLMs在建模分歧方面存在困难,而这可能被基于多数标签的评估所忽视。值得注意的是,虽然RLVR(基于可验证奖励的强化学习)风格的推理通常能提升LLM的性能,但在分歧预测方面却会降低其表现。我们的发现强调了评估和改进LLM标注器在分歧建模方面能力的迫切需求。代码和数据请访问https://github.com/EdisonNi-hku/Disagreement_Prediction。
大型语言模型(LLMs)在推理任务中取得了显著进展,然而如何最优地整合监督微调(SFT)与强化学习(RL)仍是一个根本性挑战。通过从基于熵的视角对标记分布、学习动态及整合机制进行全面分析,我们揭示了这两种范式之间的关键差异:SFT引发LLM策略分布的粗粒度全局变化,而RL则执行细粒度的选择性优化,其中熵作为训练效果的关键指标。基于这些观察,我们提出了监督强化微调(SRFT),这是一种通过熵感知加权机制统一两种微调范式的单阶段方法。我们的方法同时应用SFT和RL,直接利用演示和自我探索的轨迹来优化LLM,而非采用两阶段顺序方法。大量实验表明,SRFT在五个数学推理基准测试中平均准确率达到59.1%,较无RL方法高出9.0%,在三个分布外基准测试中则高出10.9%。
无分类器引导(CFG)已成为现代条件扩散模型的关键组成部分。尽管在实践中效果显著,但CFG提升生成质量、细节及提示对齐的内在机制尚未完全明晰。本文通过频域分析,为CFG提供了一种新颖视角,揭示了低频与高频对生成质量的不同影响。具体而言,低频引导主导全局结构与条件对齐,而高频引导则主要增强视觉保真度。然而,如标准CFG那样对所有频率统一施加缩放因子,会导致在高缩放比例下出现过饱和与多样性降低,在低缩放比例下则视觉质量受损。基于这些洞察,我们提出了频率解耦引导(FDG),这一有效方法将CFG分解为低频与高频成分,并分别对每部分施加独立的引导强度。FDG在低引导比例下提升了图像质量,并从根本上规避了高CFG比例下的弊端。通过跨多个数据集与模型的广泛实验,我们证实FDG在保持多样性的同时,持续提升了样本保真度,相较于CFG,实现了FID与召回率的改进,确立了该方法作为标准无分类器引导即插即用替代方案的地位。
潜扩散模型已成为高效视频生成的主导范式。然而,随着用户对高分辨率输出的期望不断提升,仅依赖潜在计算已显不足。一种颇具前景的方法是将生成过程解耦为两个阶段:语义内容生成与细节合成。前者在较低分辨率下采用计算密集型的基模型,而后者则利用轻量级级联视频超分辨率(VSR)模型实现高分辨率输出。本研究聚焦于探索当前尚未充分研究的级联VSR模型的关键设计原则。首先,我们提出了两种退化策略,以生成能更好模拟基模型输出特性的训练对,确保VSR模型与其上游生成器之间的对齐。其次,通过对(1)时间步采样策略和(2)低分辨率(LR)输入噪声增强效果的系统分析,我们提供了关于VSR模型行为的重要洞见,这些发现直接指导了我们的架构与训练创新。最后,我们引入了交错时间单元与稀疏局部注意力机制,以实现高效的训练与推理,大幅降低计算开销。大量实验证明,我们的框架优于现有方法,消融研究进一步验证了各项设计选择的有效性。本研究为级联视频超分辨率生成建立了一个简洁而有效的基线,为未来高效级联合成系统的进步提供了实用的指导。
推理模型通过生成长链思维表现出色,但解码由此产生的数千个标记却较为缓慢。标记级推测解码(SD)虽有所助益,但其效益受限,因为随着gamma值增大,整个gamma标记猜测完全正确的概率呈指数级下降。这意味着为更长的标记草稿分配更多计算资源面临算法上的天花板——使得加速效果有限且与硬件无关。我们通过前瞻推理(Lookahead Reasoning)提升了这一上限,它利用了第二层,即步骤级的并行性。我们的核心洞察是,推理模型逐步生成,每一步仅需语义正确,无需精确的标记匹配。在前瞻推理中,一个轻量级的草稿模型提出多个未来步骤;目标模型在一次批量处理中扩展每个提议,验证器则保留语义正确的步骤,同时让目标模型重新生成任何失败的步骤。标记级SD仍在每个推理步骤内部运作,因此两层并行性相互叠加。我们证明,前瞻推理在理论上和实证上均提升了SD的峰值加速比。在GSM8K、AIME等基准测试中,前瞻推理将SD的加速比从1.4倍提升至2.1倍,同时保持答案质量,且其加速比随着GPU吞吐量的增加而更好地扩展。我们的代码可在https://github.com/hao-ai-lab/LookaheadReasoning获取。
自监督学习(SSL)已彻底革新了音频表征领域,然而现有模型往往局限于特定领域,专注于语音或非语音任务。本研究提出了一种统一的音频表征学习方法——通用语音与音频蒸馏(USAD),该方法将多样化的音频类型——语音、声音和音乐——整合至单一模型中。USAD通过从领域特定的SSL模型进行高效的层间蒸馏,在一个综合音频数据集上训练学生模型。USAD在多种基准测试和数据集上展现出竞争力,包括帧级和实例级语音处理任务、音频标注及声音分类,在SUPERB和HEAR基准测试中,仅使用单一编码器即达到了接近最先进水平的结果。
代码转换(CSW)是指在单一话语中交替使用两种或多种语言的现象。这一现象在多语言社区中普遍存在,并且在网络内容中日益常见,用户在日常交流中自然地混合使用多种语言。因此,作为内容处理和生成核心的大型语言模型(LLMs)经常接触到代码转换的输入。鉴于其广泛应用,理解LLMs如何处理和推理这种混合语言文本至关重要。本文通过生成代码转换版本的既定推理和理解基准,对LLM在代码转换下的理解能力进行了系统评估。尽管当外来词汇干扰英语文本时——即使在语言约束下——理解能力明显下降,但将英语嵌入其他语言中往往能提高理解能力。虽然提示方法效果参差不齐,但微调提供了一条更稳定的缓解理解能力下降的途径。
正交微调(OFT)在防止灾难性遗忘的同时提供了高效的参数适应能力,但其较高的运行时间和内存需求限制了实际部署。我们发现OFT的核心计算瓶颈在于其以权重为中心的实现方式,这种方式依赖于复杂度为立方的矩阵-矩阵乘法。为克服这一问题,我们提出了OFTv2,一种以输入为中心的重新表述,转而采用矩阵-向量乘法(即无矩阵计算),将计算成本降至平方级别。我们进一步引入了Cayley-Neumann参数化,这是一种高效的正交参数化方法,通过截断的Neumann级数近似Cayley变换中的矩阵求逆。这些改进使得OFTv2在不影响性能的前提下,实现了高达10倍的训练速度提升和3倍的GPU内存使用降低。此外,我们将OFTv2扩展至支持量化基础模型的微调,并证明其在训练稳定性、效率和内存使用方面均优于流行的QLoRA方法。
大型语言模型(LLMs)在自动化数据分析任务中展现出巨大潜力,然而开源模型在这类推理密集型场景中面临显著局限。本研究探讨了提升开源LLMs数据分析能力的策略。通过构建一个包含多样化、现实场景的种子数据集,我们从三个维度评估模型表现:数据理解、代码生成及战略规划。分析揭示出三大关键发现:(1)战略规划质量是模型性能的主要决定因素;(2)交互设计与任务复杂性显著影响推理能力;(3)在实现最优性能方面,数据质量比多样性具有更大影响。基于这些洞见,我们开发了一种数据合成方法,显著提升了开源LLMs的分析推理能力。
生成高维视觉模态是一项计算密集型的任务。常见的解决方案是渐进式生成,即输出以从粗到细的频谱自回归方式合成。尽管扩散模型受益于去噪的从粗到细特性,但显式的多阶段架构却很少被采用。这些架构增加了整体方法的复杂性,引入了对定制扩散公式、依赖于分解的阶段转换、特定采样器或模型级联的需求。我们的贡献——可分解流匹配(Decomposable Flow Matching, DFM),是一个简单而有效的框架,用于视觉媒体的渐进生成。DFM在用户定义的多尺度表示(如拉普拉斯金字塔)的每一层级上独立应用流匹配。如我们的实验所示,该方法提升了图像和视频的视觉质量,相较于先前的多阶段框架,展现了更优的结果。在Imagenet-1k 512px数据集上,DFM在相同训练计算量下,相较于基础架构实现了35.2%的FDD分数提升,相较于表现最佳的基线提升了26.4%。当应用于大型模型(如FLUX)的微调时,DFM显示出更快的训练分布收敛速度。重要的是,所有这些优势均通过单一模型、架构简洁性以及对现有训练流程的最小修改得以实现。
大型语言模型(LLMs),尤其是慢思考模型,常表现出严重的幻觉现象,即在推理过程中因无法准确识别知识边界而输出错误内容。尽管强化学习(RL)能够提升复杂推理能力,但其以结果为导向的奖励机制往往缺乏对思维过程的事实监督,进一步加剧了幻觉问题。为解决慢思考模型中的高幻觉率,我们提出了知识增强型强化学习——KnowRL。KnowRL通过在RL训练过程中融入基于知识验证的事实性奖励,引导模型进行基于事实的慢思考,帮助其识别知识边界。这种在RL训练中针对事实的输入,使模型能够学习并内化基于事实的推理策略。通过在推理步骤中直接奖励对事实的遵循,KnowRL培养了一种更为可靠的思维过程。在三个幻觉评估数据集和两个推理评估数据集上的实验结果表明,KnowRL有效缓解了慢思考模型中的幻觉现象,同时保持了其原有的强大推理能力。我们的代码已发布于https://github.com/zjunlp/KnowRL。
本研究探讨了预测性维护模型的有效性及智能运维(O&M)系统优化在提升风力发电效率方面的作用。通过定性研究,我们对五位拥有丰富风机运行经验的风电场工程师和维护经理进行了结构化访谈。采用主题分析法,研究发现,尽管预测性维护模型能有效识别重大故障以减少停机时间,但在检测较小、渐进性故障方面仍存在困难。识别出的主要挑战包括误报、传感器故障以及新模型与老旧风机系统集成的难题。数字孪生、SCADA系统和状态监测等先进技术显著提升了风机维护实践。然而,这些技术仍需改进,特别是在人工智能优化和实时数据集成方面。研究结果强调了持续开发的必要性,以充分优化风机性能并支持可再生能源的更广泛应用。
在大规模城市环境中,视觉与语言导航(VLN)要求具身智能体能够在复杂场景中理解语言指令,并在长时间跨度内回忆相关经验。以往的模块化流程虽提供了可解释性,却缺乏统一记忆机制;而端到端的多模态大语言模型(MLLM)智能体虽擅长融合视觉与语言信息,但仍受限于固定的上下文窗口和隐式的空间推理能力。我们提出了Mem4Nav,一种层次化的空间认知长短记忆系统,能够增强任何VLN基础模型。Mem4Nav结合了用于细粒度体素索引的稀疏八叉树与用于高层地标连通性的语义拓扑图,两者均通过可逆Transformer编码为可训练的记忆令牌进行存储。长期记忆(LTM)在八叉树和图节点上压缩并保留历史观测,而短期记忆(STM)则以相对坐标缓存近期的多模态输入,用于实时避障和局部规划。每一步中,STM检索大幅精简动态上下文,当需要更久远的历史时,LTM令牌可无损解码以重建过去的嵌入表示。在Touchdown和Map2Seq数据集上,针对三种基础模型(模块化、基于提示的LLM的先进VLN模型、以及采用跨步注意力机制的MLLM的先进VLN模型)进行评估,Mem4Nav在任务完成率上提升了7-13个百分点,显著降低了最短路径偏差(SPD),并在归一化动态时间规整(nDTW)指标上提升了超过10个百分点。消融实验证实了层次化地图和双记忆模块的不可或缺性。我们的代码已开源,详见https://github.com/tsinghua-fib-lab/Mem4Nav。
大型语言模型(LLMs)在生成响应时往往带有内在偏见,这削弱了其在实际应用中的可靠性。现有的评估方法常常忽视长文本响应中的偏见以及LLM输出的内在变异性。为应对这些挑战,我们提出了FiSCo(细粒度语义计算),这是一种新颖的统计框架,旨在通过检测不同人口群体间长文本响应中的微妙语义差异,来评估LLMs的群体层面公平性。与以往专注于情感或词汇级别比较的研究不同,FiSCo超越了表层分析,在主张层面运作,利用蕴含检查来评估响应间意义的一致性。我们将模型输出分解为语义上独立的主张,并应用统计假设检验来比较群体内及群体间的相似性,从而实现对细微偏见的稳健检测。我们形式化了一个新的群体反事实公平定义,并在涵盖性别、种族和年龄的合成及人工标注数据集上验证了FiSCo的有效性。实验表明,FiSCo在减少LLM随机变异影响的同时,能更可靠地识别出复杂的偏见,其表现优于多种评估指标。