每日精选AI研究论文及翻译
图形用户界面(GUI)定位技术将自然语言指令映射至精确的界面位置,以实现自主交互。当前强化学习方法采用二元奖励机制,将界面元素视为命中或未命中的目标,由此产生的稀疏信号忽视了空间交互的连续性特征。受人类点击行为自然形成以目标元素为中心的高斯分布启发,我们提出了GUI高斯定位奖励框架(GUI-G^2),该框架将GUI元素建模为界面平面上连续的高斯分布。GUI-G^2整合了两种协同机制:高斯点奖励通过以元素质心为中心的指数衰减分布来精确建模定位,而覆盖奖励则通过预测高斯分布与目标区域的重叠程度来评估空间对齐。为应对不同元素尺寸,我们开发了一种自适应方差机制,根据元素维度调整奖励分布。这一框架将GUI定位从稀疏的二元分类转变为密集的连续优化问题,其中高斯分布生成丰富的梯度信号,引导模型向最优交互位置收敛。在ScreenSpot、ScreenSpot-v2及ScreenSpot-Pro基准上的广泛实验表明,GUI-G^2显著超越了当前最先进的UI-TARS-72B方法,在ScreenSpot-Pro上实现了24.7%的最大提升。我们的分析揭示,连续建模提供了对界面变化的更强鲁棒性及对未见布局的更好泛化能力,为GUI交互任务中的空间推理确立了新范式。
大型语言模型近期已从流畅文本生成演进至跨领域的高级推理,催生了推理语言模型。在这些领域中,数学推理作为代表性基准,因其需要精确的多步逻辑和抽象推理能力,可推广至其他任务。尽管如GPT-3等闭源推理语言模型展现了卓越的推理能力,但其专有性质限制了透明度和可复现性。虽然众多开源项目旨在填补这一差距,但多数因缺失关键资源如数据集和详细训练配置而开放不足,阻碍了可复现性。为促进推理语言模型开发的更高透明度,我们推出了MiroMind-M1系列,这是一套基于Qwen-2.5架构的完全开源推理语言模型,其性能达到或超越了现有开源模型。具体而言,我们的模型采用两阶段训练:首先在精心筛选的71.9万道数学推理问题及已验证的思维链轨迹上进行监督微调(SFT),随后在6.2万道具有挑战性且可验证的问题上进行强化学习与验证(RLVR)。为增强RLVR过程的鲁棒性和效率,我们引入了上下文感知多阶段策略优化算法,该算法结合了长度渐进式训练与自适应重复惩罚机制,以促进上下文感知的强化学习训练。我们的模型在AIME24、AIME25及MATH基准测试中,基于Qwen-2.5的开源7B和32B模型均实现了领先或竞争性的性能,并展现出卓越的token效率。为便于复现,我们完整发布了模型(MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B)、数据集(MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K)以及所有训练与评估配置。我们期望这些资源能支持进一步研究,推动社区进步。
近期大型推理模型的进展凸显了带可验证奖励的强化学习(RLVR)作为一种增强AI能力的有前景方法,尤其在解决复杂逻辑任务方面。然而,RLVR是否真正扩展了模型的推理边界,还是仅仅放大了基础模型已知的高奖励输出以提高精度,仍不明确。本研究通过理论与实证探究,为RLVR的潜在局限提供了新见解。首先,我们提出一个新的理论视角,即RLVR受限于基础模型的支持集——无法采样初始概率为零的解决方案——并作为一种保守的权重调整机制运行,可能限制全新解决方案的发现。我们还识别出一种熵-奖励权衡:尽管RLVR可靠地提升了精度,但它可能逐步缩小探索范围,潜在地忽视了正确但代表性不足的解决方案。大量实证实验验证,虽然RLVR一致性地提高了pass@1指标,但在更大的采样预算下,经验支持集的收缩通常超过其扩展,未能恢复基础模型先前可访问的正确答案。有趣的是,我们还观察到,尽管RLVR有时增加了令牌级别的熵,导致每一步生成的不确定性增大,但答案级别的熵却下降,表明这些看似更不确定的路径最终收敛到更小的一组独特答案。综合来看,这些发现揭示了RLVR在扩展推理视野方面的潜在限制。打破这一隐形束缚,可能需要未来的算法创新,如显式探索机制或混合策略,将概率质量播种到代表性不足的解决方案区域。
近期生成建模的进展使得图像编辑助手能够直接遵循自然语言指令,无需额外用户输入。这类助手的监督训练需要数百万个三元组:原始图像、指令、编辑后的图像。然而,挖掘像素级精确的示例颇具挑战。每次编辑必须仅影响指令指定的区域,保持风格一致性,尊重物理合理性,并保留视觉吸引力。缺乏稳健的自动编辑质量评估指标,阻碍了大规模可靠自动化的发展。我们提出了一种自动化、模块化的流程,能够跨领域、分辨率、指令复杂度和风格挖掘高保真三元组。该系统基于公开的生成模型运行,无需人工干预,采用任务定制的Gemini验证器直接评分指令遵循度和美学效果,省去了分割或基础模型的需求。通过反演和组合式自举,挖掘到的数据集扩大了约2.2倍,为大规模高保真训练数据提供了可能。通过自动化最重复的标注步骤,该方法实现了无需人工标注的大规模训练。为了促进这一资源密集型领域的研究民主化,我们发布了NHR-Edit:一个包含358k高质量三元组的开放数据集。在最大规模的跨数据集评估中,它超越了所有公开的替代方案。我们还发布了Bagel-NHR-Edit,一个开源的微调Bagel模型,在我们的实验中达到了最先进的指标。
大型语言模型(LLM)驱动的智能体问世,通过基于网络的信息检索(IS)能力解决复杂开放性问题,彻底革新了人工智能领域。然而,高质量训练数据的匮乏限制了IS智能体的发展。现有方法通常采用信息驱动范式,即先收集网络数据,再基于检索结果生成问题。但这种方式可能导致信息结构与推理结构、问题与答案之间出现不一致。为解决这一问题,我们提出了一个形式化驱动的IS数据合成框架WebShaper,用于构建数据集。WebShaper通过集合论系统地对IS任务进行形式化,其核心是知识投影(KP)概念,通过KP操作组合实现对推理结构的精确控制。在合成过程中,我们首先创建种子任务,随后采用多步扩展流程。每一步中,一个扩展器智能体基于我们的形式化框架,利用检索与验证工具,将当前形式化问题扩展得更为复杂。我们在合成数据集上训练模型,实验结果表明,WebShaper在GAIA和WebWalkerQA基准测试中,在开源IS智能体中达到了最先进的性能水平。
我们报告了在构建通用机器人策略方面的最新进展,即GR-3的开发。GR-3是一个大规模视觉-语言-动作(VLA)模型,展现了在适应新物体、环境及涉及抽象概念的指令方面卓越的泛化能力。此外,它能够通过少量人类轨迹数据高效微调,实现快速且经济地向新场景的迁移。GR-3在处理长期视野和精细操作任务上同样表现出色,包括需要双手协作和移动操作的任务,展现了其稳健可靠的性能。这些能力得益于多方面的训练策略,包括与网络规模视觉语言数据的协同训练、基于VR设备收集的人类轨迹数据的高效微调,以及利用机器人轨迹数据进行有效的模仿学习。此外,我们推出了ByteMini,一款设计灵活可靠、功能多样的双手移动机器人,与GR-3结合后能够完成广泛的任务。通过大量实际实验,我们证明GR-3在多种挑战性任务上超越了当前最先进的基线方法pi_0。我们希望GR-3能成为迈向构建能够辅助人类日常生活的通用机器人道路上的一步。
视频目标分割(VOS)是计算机视觉中的核心任务,要求模型在视频帧间追踪并分割目标对象。尽管近期研究取得了显著进展,现有技术在应对剧烈视觉变化、遮挡及复杂场景转换时仍逊色于人类能力。这一局限源于其依赖外观匹配,而忽视了人类对对象的概念理解,这种理解能在时间动态中实现稳健识别。受此差距启发,我们提出了分段概念(SeC),一个概念驱动的分割框架,它从传统的特征匹配转向逐步构建和利用高层次、以对象为中心的表示。SeC采用大型视觉语言模型(LVLMs)整合跨帧视觉线索,构建稳健的概念先验。在推理过程中,SeC基于处理过的帧形成目标的全面语义表示,实现对后续帧的稳健分割。此外,SeC自适应地平衡基于LVLM的语义推理与增强的特征匹配,根据场景复杂度动态调整计算投入。为严格评估在需要高级概念推理和稳健语义理解场景下的VOS方法,我们引入了语义复杂场景视频目标分割基准(SeCVOS)。SeCVOS包含160个手工标注的多场景视频,旨在通过显著的外观变化和动态场景转换挑战模型。特别地,SeC在SeCVOS上相比SAM 2.1提升了11.8个百分点,确立了概念感知视频目标分割的新标杆。
近期,三维神经表示与实例级编辑模型的进展,已高效推动了高质量三维内容的生成。然而,实现精确的局部三维编辑仍面临挑战,特别是在高斯泼溅技术中,这源于多视角二维部件分割的不一致性及评分蒸馏采样(SDS)损失固有的模糊性。为克服这些局限,我们提出了RoMaP,一种创新的局部三维高斯编辑框架,支持精确且显著的部件级修改。首先,我们引入了具备三维几何感知标签预测(3D-GALP)的鲁棒三维掩码生成模块,该模块利用球谐函数(SH)系数建模视角依赖的标签变化与软标签特性,从而在多个视角下获得准确且一致的部件分割。其次,我们提出了一种正则化的SDS损失,将标准SDS损失与额外正则化项相结合。特别地,通过我们的计划潜在混合与部件(SLaMP)编辑方法引入了L1锚定损失,该方法生成高质量的部件编辑二维图像,并将修改严格限定于目标区域,同时保持上下文连贯性。其他正则化项,如高斯先验移除,通过允许超越现有上下文的改变,进一步提升了灵活性,而鲁棒的三维掩码则有效防止了非预期的编辑。实验结果表明,RoMaP在重建与生成的高斯场景及物体上,无论是定性还是定量分析,均实现了当前最优的局部三维编辑效果,为更稳健、灵活的部件级三维高斯编辑开辟了可能。代码发布于https://janeyeon.github.io/romap。
我们推出Being-H0,这是一款基于大规模人类视频训练的高灵巧性视觉-语言-动作模型(VLA)。现有VLA在处理需要高度灵巧性的复杂操控任务时表现欠佳,且在新场景和任务上的泛化能力较弱,主要原因在于它们过度依赖存在显著模拟与现实差距的合成数据,或是规模与多样性不足的远程操作演示。为突破这一数据瓶颈,我们提出以人类手部作为基础操控器,充分利用网络数据中蕴含的丰富灵巧性与可扩展性。我们的方法聚焦于物理指令调优,这是一种创新的训练范式,它结合了从人类视频中进行的大规模VLA预训练、面向三维推理的物理空间对齐,以及针对机器人任务的训练后适应。此外,我们引入了一种部件级运动标记化方法,该方法实现了毫米级的重建精度,以精确建模手部轨迹用于动作学习。为支撑这一范式,我们进一步开发了一套全面的数据整理流程,将包括动作捕捉、虚拟现实及仅RGB视频在内的多种数据源整合成一个包含数百万基于运动指令实例的大规模数据集。实验证明,Being-H0在手部运动生成与指令跟随方面表现卓越,且随着模型与数据规模的扩大展现出良好的扩展性。尤为重要的是,我们观察到在应用物理指令调优后,Being-H0在实际机器人操控任务中取得了预期中的性能提升。更多详情请访问https://beingbeyond.github.io/Being-H0。
语音语言模型(SLMs)旨在接收语音输入并生成语音响应。然而,现有的SLMs缺乏在回应前进行内部无声思维过程的能力。相比之下,人类通常会在内部进行复杂的心理推理,从而能够清晰简洁地传达思想。因此,将无声思维过程整合到SLMs中显得尤为重要。虽然简单地在开始说话前生成完整的思维链(CoT)推理可以让SLMs具备思考能力,但这会导致语音响应的额外延迟,因为CoT推理可能任意长。为解决这一问题,我们提出了Stitch,一种新颖的生成方法,它在无声推理片段和语音响应片段的生成之间交替进行。由于一段语音响应的音频时长远长于生成该段语音响应中词元所需的时间,我们利用剩余的空闲时间生成无声推理词元。当一段音频播放给用户时,模型继续生成下一个无声推理片段,实现了思考与说话的同步进行。值得注意的是,Stitch在数学推理数据集上比那些设计上无法生成无声CoT的基线模型延迟相当,但性能却高出15%;同时,在非推理数据集上,Stitch的表现也与这些基线模型相当。项目页面上提供了一些动画和演示:https://d223302.github.io/STITCH。
我们构建了一系列评估任务,在这些任务中,延长大型推理模型(LRMs)的推理长度反而会降低其性能,展现出测试时计算量与准确性之间的逆向缩放关系。我们的评估任务涵盖四大类别:包含干扰项的简单计数任务、带有虚假特征的回归任务、需要跟踪约束的演绎推理任务,以及高级人工智能风险任务。我们识别出模型在延长推理时出现的五种不同失效模式:1)Claude模型越来越容易被无关信息分散注意力;2)OpenAI o系列模型虽能抵抗干扰项,却过度适应问题框架;3)模型从合理的先验转向虚假相关性;4)所有模型在保持对复杂演绎任务的专注上均表现出困难;5)延长推理可能放大令人担忧的行为,如Claude Sonnet 4表现出更强的自我保存倾向。这些发现表明,尽管测试时计算量的扩展在提升模型能力方面仍具潜力,但它可能无意中强化了有问题的推理模式。我们的结果强调了在不同推理长度下评估模型的重要性,以便识别并解决LRMs中的这些失效模式。
3D高斯溅射(3DGS)在新视角合成(NVS)任务中展现了其精细的表达能力和高效的渲染速度。然而,将其应用于逆向渲染仍面临诸多挑战,因为高斯基元的离散特性使得几何约束难以直接应用。近期研究引入了有符号距离场(SDF)作为额外的连续表示,以正则化由高斯基元定义的几何形状,虽提升了分解质量,却以增加内存占用和训练复杂度为代价。不同于这些方法,我们提出了一种离散化的SDF表示方式,通过在每个高斯基元内编码采样值来离散地表达连续SDF。这一方法使我们能够通过SDF到不透明度的转换将SDF与高斯不透明度关联起来,从而实现通过溅射渲染SDF,并避免了光线步进的计算开销。关键挑战在于如何正则化离散样本以与底层SDF保持一致,因为离散表示难以应用基于梯度的约束(如Eikonal损失)。为此,我们将高斯基元投影至SDF的零水平集,并强制其与溅射生成的表面对齐,即采用基于投影的一致性损失。得益于离散化SDF,我们的方法在无需额外内存开销且避免复杂手动优化设计的情况下,实现了更高的重光照质量。实验表明,我们的方法超越了现有的基于高斯的逆向渲染方法。代码已发布于https://github.com/NK-CS-ZZL/DiscretizedSDF。
人类智能要求正确性与鲁棒性,其中前者是后者的基础。在视频理解领域,正确性确保了视觉内容的准确解读,而鲁棒性则保证了在复杂条件下性能的稳定。尽管视频大语言模型(video LLMs)取得了进展,现有基准测试仍未能充分反映这些模型与人类智能在视频解读中保持正确性和鲁棒性方面的差距。为此,我们引入了视频思维测试(Video-TT),旨在评估视频LLMs是否能够像人类一样有效解读现实世界中的视频。Video-TT真实反映了在理解复杂视觉叙事方面的差距,并通过自然对抗性问题来评估模型的鲁棒性。该测试包含1000个YouTube短视频,每个视频配有一个开放式问题及四个针对视觉与叙事复杂性的对抗性问题。我们的评估结果显示,视频LLMs与人类表现之间存在显著差距。
基于可验证奖励的强化学习(RLVR)已成为提升大型语言模型(LLMs)推理能力的有效后训练方法,主要通过塑造如反思与规划等高阶行为来实现。然而,先前的RLVR算法往往对所有令牌施加统一的训练信号,未考虑低熵知识相关令牌与高熵推理相关令牌的不同角色。近期一些方法尝试通过梯度掩码或异步更新来区分这些令牌类型,但这些做法可能破坏模型输出中的语义依赖关系,阻碍有效学习。本研究中,我们提出了Archer,一种具备双令牌约束与同步更新的熵感知RLVR方法。具体而言,我们的方法对推理令牌采用较弱的KL正则化与较高的裁剪阈值以鼓励探索,同时对知识令牌施加更强约束以保持事实知识的准确性。在多个数学推理与代码生成基准测试上的实验结果表明,我们的方法显著超越了以往的RLVR方法,在同等规模模型中达到或超越了最先进的性能。代码已发布于https://github.com/wizard-III/ArcherCodeR。
大型语言模型(LLM)智能代理的迅速崛起,凸显了对稳健、可扩展评估框架的迫切需求。现有方法依赖于静态基准测试和劳动密集型的数据收集,限制了实际评估的可行性。我们推出了\oursystemname,一个基于模型上下文协议(MCP)的开源框架,它能够自动化生成端到端任务,并对跨多个领域的LLM代理进行深度评估。MCPEval标准化了评估指标,无缝集成原生代理工具,并消除了构建评估管道所需的手动操作。在五个现实世界领域的实证结果表明,其在揭示细致入微、领域特定性能方面的有效性。我们公开发布了MCPEval(https://github.com/SalesforceAIResearch/MCPEval),以促进可复现和标准化的LLM代理评估。
视频生成模型在创造高质量、逼真内容方面取得了显著进展。然而,它们准确模拟物理现象的能力仍是一个关键且未解决的挑战。本文提出了PhyWorldBench,一个全面的基准测试,旨在根据视频生成模型对物理定律的遵循程度进行评估。该基准涵盖了从物体运动和能量守恒等基本原理到涉及刚体相互作用及人类或动物运动等更复杂场景的多层次物理现象。此外,我们引入了一个新颖的“反物理”类别,其中提示有意违背现实世界的物理规律,从而评估模型在遵循此类指令的同时能否保持逻辑一致性。除了大规模的人类评估外,我们还设计了一种简单而有效的方法,可利用当前的多模态大语言模型(MLLM)以零样本方式评估物理真实性。我们对12个最先进的文本到视频生成模型进行了评估,包括五个开源模型和五个专有模型,并进行了详细的比较与分析。通过系统测试这些模型在1050个精心设计的提示(涵盖基础、复合及反物理场景)下的输出,我们识别出它们在遵循现实世界物理规律方面面临的关键挑战。随后,我们严格考察了它们在不同提示类型下对多样物理现象的表现,得出了旨在提升物理原理忠实度的提示设计针对性建议。
从视频中感知并重建四维时空几何是一项基础而具挑战性的计算机视觉任务。为促进交互式与实时应用,我们提出了一种流式四维视觉几何变换器,其理念与自回归大语言模型相似。我们探索了一种简洁高效的设计,采用因果变换器架构以在线方式处理输入序列。通过运用时间因果注意力机制,并缓存历史键值作为隐式记忆,实现了高效的流式长期四维重建。该设计能够通过逐步整合历史信息,在保持高质量空间一致性的同时,处理实时四维重建任务。为提升训练效率,我们提出从密集双向视觉几何基础变换器(VGGT)中蒸馏知识至我们的因果模型。在推理阶段,我们的模型支持从大语言模型领域迁移优化后的高效注意力算子(如FlashAttention)。在多个四维几何感知基准上的广泛实验表明,我们的模型在在线场景中提升了推理速度,同时保持了竞争力,为可扩展且交互式的四维视觉系统铺平了道路。代码已发布于:https://github.com/wzzheng/StreamVGGT。
多轮问题解决对于大型推理模型(LRMs)而言至关重要,但也极具挑战性,它要求模型能够反思其推理过程并根据反馈进行修正。现有的强化学习(RL)方法在单轮范式下训练大型推理模型,依赖可验证的奖励机制。然而,我们观察到,采用现有RL范式训练的模型往往丧失跨多轮解决问题的能力,难以根据上下文反馈修正答案,导致重复性回应。我们提出疑问:LRMs能否在多轮情境中学会反思其答案?本研究中,我们发现,仅通过错误答案后的简单一元反馈(如“让我们再试一次”)进行多轮RL训练,不仅能提升单轮表现,还能增强多轮推理能力。我们引入了“一元反馈作为观察”(UFO)的强化学习策略,它在迭代问题解决过程中利用最小化但常见的一元用户反馈,易于整合到现有的单轮RL训练框架中。实验结果显示,采用UFO的RL训练保持了单轮性能,并将多轮推理准确率提升高达14%,使语言模型在多轮问题解决中能更有效地响应反馈。为进一步减少获得正确答案所需的轮次,同时鼓励在错误发生时进行多样化推理,我们设计了奖励结构,引导模型在每一轮中生成谨慎且深思熟虑的答案。代码地址:https://github.com/lichengliu03/unary-feedback
尽管视觉分词器在生成模型中扮演着基础角色,但究竟哪些特性能够使其在生成建模中更为高效,这一问题尚未明晰。我们注意到,现代生成模型在训练目标上具有概念上的相似性——即从被高斯噪声或掩码等破坏的输入中重建清晰信号,这一过程我们称之为去噪。受此启发,我们提出将分词器嵌入直接与下游去噪目标对齐,促使潜在嵌入即使在严重受损的情况下也能更易于重建。为实现这一目标,我们引入了潜在去噪分词器(l-DeTok),这是一种简单而有效的分词器,其训练目标是从受到插值噪声和随机掩码破坏的潜在嵌入中重建干净图像。在ImageNet 256x256数据集上的大量实验表明,我们的分词器在六种代表性生成模型中均显著优于标准分词器。我们的研究结果强调了去噪作为分词器开发的一项基本设计原则,并期望这一发现能为未来分词器设计激发新的视角。
尽管机器学习通过大规模并行化取得了进展,但我们发现了一个关键盲点:某些问题本质上是顺序性的。这些“固有串行”问题——从数学推理到物理模拟再到序列决策——需要依赖性的计算步骤,无法并行化。借鉴复杂性理论,我们形式化了这一区别,并证明当前以并行为中心的架构在此类任务上面临根本性限制。我们认为,认识到计算的串行性质对机器学习、模型设计和硬件开发具有深远影响。随着人工智能应对日益复杂的推理,有意识地扩展串行计算——而不仅仅是并行计算——对于持续进步至关重要。
我们提出了LLM经济学家这一创新框架,它采用基于主体的建模方法,在具有层级决策的战略环境中设计和评估经济政策。在底层,有限理性的工人主体——通过从美国人口普查校准的收入和人口统计数据中采样,以人物角色为条件生成提示——选择劳动供给,以最大化在上下文中学习的基于文本的效用函数。在顶层,规划者主体运用上下文强化学习,提出以当前美国联邦税率为基准的分段线性边际税率表。这一构建赋予经济模拟三个进行可信财政实验所必需的能力:(i) 异质效用的优化,(ii) 原则性地生成大规模、人口统计上真实的主体群体,以及(iii) 完全用自然语言表达的机制设计——即终极的助推问题。在多达一百个互动主体的群体实验中,规划者收敛于接近斯塔克尔伯格均衡的状态,相较于Saez解决方案,提高了整体社会福利,而周期性的、基于人物角色的投票程序在去中心化治理下进一步提升了这些收益。这些结果表明,基于大型语言模型的主体能够共同建模、模拟和治理复杂的经济系统,为社会规模的政策评估提供了一个可操作的测试平台,助力构建更美好的文明。
生成连贯的长视频是一项复杂的挑战:尽管基于扩散的生成模型能够生成视觉效果出色的短视频片段,但将其扩展到更长时长时,往往会导致内存瓶颈和长期不一致性问题。本文提出了一种新颖的两阶段框架——TokensGen,通过利用压缩的语义标记来解决这些问题。我们的方法将长视频生成分解为三个核心任务:(1) 片段内语义控制,(2) 长期一致性控制,以及(3) 片段间平滑过渡。首先,我们训练了To2V(标记到视频),这是一个由文本和视频标记引导的短视频扩散模型,配合视频标记器将短视频片段压缩为富含语义的标记。其次,我们引入了T2To(文本到标记),这是一种视频标记扩散变换器,能够一次性生成所有标记,确保跨片段的全局一致性。最后,在推理阶段,采用自适应FIFO-Diffusion策略无缝连接相邻片段,减少边界伪影并增强过渡的平滑性。实验结果表明,我们的方法在不引入过高计算开销的前提下,显著提升了长期时间与内容的一致性。通过利用压缩标记和预训练的短视频模型,我们的方法为长视频生成提供了一个可扩展、模块化的解决方案,为叙事、电影制作和沉浸式模拟开辟了新的可能性。更多详情,请访问我们的项目页面:https://vicky0522.github.io/tokensgen-webpage/。
在特定任务的小规模数据上进行持续预训练是提升大语言模型在新目标领域表现的有效方法,但这也可能导致其原有能力的灾难性遗忘。一种常见的解决方案是在领域空间中对源领域和目标领域的训练数据进行混合重加权,以实现性能的平衡。以往的领域重加权策略依赖于基于人类直觉或经验结果的手动指定启发式方法。在本研究中,我们证明了更通用的启发式方法可以通过参数化实现,为此提出了数据混合代理(Data Mixing Agent),这是首个基于模型的端到端框架,能够学习如何对领域进行重加权。该代理通过强化学习,在大量数据混合轨迹及其对应的评估环境反馈中,学习可泛化的启发式规则。在数学推理领域的持续预训练实验中,数据混合代理在源领域和目标领域基准测试中均实现了优于强基线的平衡性能。此外,它在未见过的源领域、目标模型和领域空间上表现出良好的泛化能力,无需重新训练。直接应用于代码生成领域也表明其跨目标领域的适应性。进一步分析展示了代理的启发式规则与人类直觉的高度一致性,以及其在减少源领域数据使用的情况下实现更优模型性能的效率。
评估基于大型语言模型的智能体在科学发现方面的能力,特别是它们如何应对不同环境复杂性并利用先验知识,目前尚缺乏专门的基准测试。为填补这一空白,我们推出了PhysGym,这是一个新颖的基准测试套件和模拟平台,旨在严格评估LLM在交互式物理环境中的科学推理能力。PhysGym的核心贡献在于其对提供给智能体的先验知识水平的精细控制。这使得研究人员能够沿着问题复杂性和先验知识水平等维度剖析智能体表现。该基准测试包含一系列交互式模拟,智能体必须在其中主动探索环境,在约束条件下顺序收集数据,并形成关于潜在物理定律的假设。PhysGym提供了标准化的评估协议和指标,用于评估假设准确性和模型保真度。我们通过展示基线LLM的结果,证明了该基准测试在区分基于不同先验知识和任务复杂性的能力方面的实用性。
跨视角定位,即通过将地面图像与卫星图像对齐来估计相机的三自由度(3-DoF)姿态,对于自动驾驶导航和增强现实等大规模户外应用至关重要。现有方法通常依赖于全监督学习,这需要成本高昂的真实姿态标注。在本研究中,我们提出了GeoDistill,一种几何引导的弱监督自蒸馏框架,它利用教师-学生学习结合基于视场(FoV)的掩码技术,以增强局部特征学习,实现鲁棒的跨视角定位。在GeoDistill中,教师模型对全景图像进行定位,而学生模型则从通过FoV掩码生成的有限视场图像中预测位置。通过将学生的预测与教师的预测对齐,学生能够专注于车道线等关键特征,并忽略如道路等无纹理区域。这带来了更准确的预测和降低的不确定性,无论查询图像是全景还是有限视场图像。我们的实验表明,GeoDistill显著提升了不同框架下的定位性能。此外,我们引入了一种新颖的方向估计网络,它无需精确的平面位置真值即可预测相对方向。GeoDistill为现实世界中的跨视角定位挑战提供了一个可扩展且高效的解决方案。代码和模型可在https://github.com/tongshw/GeoDistill获取。
计算机断层扫描(CT)图像的精确分类对于诊断和治疗规划至关重要,然而现有方法在处理病理特征的微妙性和空间多样性时往往面临挑战。当前方法通常对图像进行统一处理,限制了其检测需要重点分析的局部异常的能力。我们提出了UGPL,一种不确定性引导的渐进学习框架,该框架通过首先识别诊断模糊区域,然后对这些关键区域进行详细检查,实现从全局到局部的分析。我们的方法采用证据深度学习来量化预测不确定性,通过非极大值抑制机制引导信息丰富区域的提取,同时保持空间多样性。这种渐进细化策略与自适应融合机制相结合,使UGPL能够整合上下文信息和细粒度细节。在三个CT数据集上的实验表明,UGPL在肾脏异常、肺癌和COVID-19检测的准确率上分别提高了3.29%、2.46%和8.08%,持续超越现有最先进方法。我们的分析显示,不确定性引导组件带来了显著优势,当完整实施渐进学习流程时,性能显著提升。我们的代码可在以下网址获取:https://github.com/shravan-18/UGPL。
大型语言模型(LLMs)在编程任务上展现了强大的性能,但它们能否生成像真实学生那样不完美、迭代且风格多样的代码?我们提出了ParaStudent,这是一项在入门编程课程背景下对基于LLM的“学生式”代码生成的系统性研究。利用跨多个学期的时间戳学生提交数据集,我们设计了低分辨率和高分辨率的实验,以模拟学生进度,并从语义、功能和风格三个维度评估代码输出。我们的结果表明,微调显著提高了与真实学生学习轨迹的契合度,更忠实地捕捉了错误模式、渐进改进和风格变化。本研究表明,要模拟真实的学生代码,需通过上下文感知生成、时间建模和多维度评估来捕捉学习动态。实验与评估代码可在https://github.com/mmiroyan/ParaStudent获取。