每日精选AI研究论文及翻译
随着大型语言模型(LLMs)的快速发展,对其输出提供准确反馈和可扩展的监督已成为一个紧迫且关键的问题。利用LLMs作为批判模型以实现自动化监督,是一个颇具前景的解决方案。在本研究中,我们专注于探索并提升LLMs的数学批判能力。当前的LLM批判者在每一步提供的批判过于肤浅,导致判断准确性低,且难以向LLM生成器提供足够的反馈以纠正错误。为解决这一问题,我们提出了一种新颖且有效的两阶段框架,旨在开发能够对数学解答的每一步推理进行深思熟虑批判的LLM批判者。在第一阶段,我们利用Qwen2.5-72B-Instruct生成了4.5K条长篇批判作为监督微调的种子数据。每条种子批判包含深思熟虑的逐步批判,其中包括多角度验证以及对每一步推理初始批判的深入分析。随后,我们基于PRM800K中现有的人工标注数据或通过蒙特卡洛采样正确性估计自动获取的标注数据,对微调后的模型进行强化学习,以进一步激发其批判能力。基于Qwen2.5-7B-Instruct构建的批判模型,不仅在多项错误识别基准测试中显著优于现有的LLM批判者(包括同规模的DeepSeek-R1-distill模型和GPT-4o),而且通过提供更详尽的反馈,更有效地帮助LLM生成器修正错误步骤。
交互式生成视频(IGV)作为一项关键技术应运而生,以满足各领域对高质量、互动性视频内容日益增长的需求。本文中,我们将IGV定义为一种结合生成能力以产出多样化高质量视频内容,并具备互动功能的技术,这些功能通过控制信号和响应反馈实现用户参与。我们调研了当前IGV的应用现状,聚焦于三大领域:1)游戏领域,IGV支持在虚拟世界中的无限探索;2)具身人工智能领域,IGV作为物理感知的环境合成器,用于训练智能体在多模态交互中应对动态变化的场景;3)自动驾驶领域,IGV提供闭环模拟能力,用于安全关键测试与验证。为指引未来发展,我们提出一个综合框架,将理想的IGV系统分解为五个核心模块:生成、控制、记忆、动态与智能。此外,我们系统分析了实现理想IGV系统各组件所面临的技术挑战与未来方向,如实现实时生成、支持开放域控制、保持长期一致性、模拟精确物理以及整合因果推理。我们相信,这一系统分析将促进IGV领域的未来研究与开发,最终推动该技术向更复杂、更实用的应用迈进。
近期,大型语言模型的研究进展展示了思维链(CoT)与强化学习(RL)如何有效提升模型性能。然而,将此类推理策略应用于视觉生成领域仍鲜有探索。本文提出T2I-R1,一种新颖的推理增强型文本到图像生成模型,其核心在于结合了双层次CoT推理过程的强化学习。具体而言,我们识别出两种可分别优化生成不同阶段的CoT层次:(1)语义级CoT,用于提示词的高层次规划;(2)令牌级CoT,在逐块生成过程中处理低层次像素信息。为更好地协调这两层CoT,我们引入了BiCoT-GRPO,它集成了一系列生成奖励,能够在同一训练步骤中无缝优化两种生成CoT。通过将我们的推理策略应用于基线模型Janus-Pro,在T2I-CompBench上实现了13%的性能提升,在WISE基准测试中提升了19%,甚至超越了当前最先进的模型FLUX。代码已公开于:https://github.com/CaraJ7/T2I-R1。
提升大型语言模型(LLM)代理在序列决策任务中表现的诸多方法,往往依赖于特定任务的知识工程——例如提示调优、精心挑选的上下文示例,或是定制的观察与动作空间。采用这些方法时,代理的性能随着知识工程投入的质量或数量而提升。然而,我们探索的是LLM代理如何通过从自身在相似任务上的成功经验中进行上下文学习,自动提升其表现。我们摒弃了对特定任务知识工程的依赖,转而专注于构建并优化一个自生成示例的数据库。研究表明,即便是在训练任务中简单累积成功轨迹,也能在三个基准测试上显著提升测试性能:ALFWorld(从73%提升至89%)、Wordcraft(从55%提升至64%)以及InterCode-SQL(从75%提升至79%)——这一表现与初始代理在每项任务允许尝试两到三次时达到的水平相当。随后,我们引入了两项扩展:(1)通过基于群体的训练进行数据库级别的筛选,以识别出高效示例集合;(2)示例级别的筛选,依据其作为上下文示例的实际效用保留个别轨迹。这些扩展进一步提升了性能,在ALFWorld上达到了91%的准确率——与那些采用特定任务组件和提示的更复杂方法相媲美。我们的研究成果表明,自动构建轨迹数据库为替代劳动密集型知识工程提供了一条极具吸引力的路径。
唇形同步,即调整现有视频中的唇部动作以匹配新输入音频的任务,通常被视为音频驱动面部动画的一种简化变体。然而,除了面临说话头像生成中的常见问题(如时间一致性)外,唇形同步还带来了显著的新挑战,例如输入视频中的表情泄露和面部遮挡,这些问题会严重影响自动配音等实际应用,但在现有工作中往往被忽视。为解决这些不足,我们提出了KeySync,一个两阶段框架,成功解决了时间一致性问题,同时通过精心设计的掩码策略,整合了针对泄露和遮挡的解决方案。我们展示了KeySync在唇部重建和跨同步方面达到了最先进的效果,根据我们新提出的泄露度量标准LipLeak,提升了视觉质量并减少了表情泄露。此外,我们验证了新掩码方法在处理遮挡方面的有效性,并通过多项消融研究证实了我们的架构选择。代码和模型权重可在https://antonibigata.github.io/KeySync获取。
道德故事是传递价值观的经典载体,然而现代自然语言处理领域尚缺乏一个将连贯叙事与明确道德教训相结合的大型结构化语料库。我们通过TF1-EN-3M填补了这一空白,这是首个由不超过80亿参数的指令调优模型生成的、包含三百万条英语寓言的开源数据集。每个故事遵循六段式框架(角色 -> 特质 -> 场景 -> 冲突 -> 解决 -> 寓意),通过组合式提示引擎生成,既保证了体裁的忠实性,又覆盖了广泛的主题空间。 我们采用混合评估流程,结合了(i)基于GPT的批评系统,对语法、创意、道德清晰度和模板遵循度进行评分,以及(ii)无参考的多样性和可读性指标。在十个开源权重候选模型中,一个80亿参数的Llama-3变体展现了最佳的质量与速度平衡,在单块消费级GPU(显存<24GB)上以每千则寓言约13.5美分的成本产出高评分寓言。 我们以宽松许可发布了该数据集、生成代码、评估脚本及完整元数据,确保了精确的可复现性和成本基准测试。TF1-EN-3M为指令跟随、叙事智能、价值对齐及儿童友好型教育AI的研究开辟了新途径,证明大规模道德叙事不再依赖于专有的巨型模型。
大型语言模型(LLMs)已彻底改变了软件工程领域,但其在物理工程领域的应用仍待深入探索。本文通过RocketBench这一将LLMs与高保真火箭模拟相连接的基准测试,评估了LLMs在高功率火箭设计中的能力。我们针对两项复杂度递增的设计任务进行模型测试:目标高度优化与精准着陆挑战。研究发现,尽管最先进的LLMs展现出扎实的基础工程知识,但在接收模拟结果后迭代设计时表现欠佳,最终性能低于人类水平。然而,当结合强化学习(RL)进行增强后,一个拥有70亿参数的模型不仅超越了当前最先进的基础模型,还超越了人类专家。这项研究表明,经过RL训练的LLMs能够成为复杂工程优化的有效工具,有望在软件开发之外的工程领域引发变革。
近期,长链推理模型在复杂推理任务中展现出强劲性能,但往往伴随显著的推理开销,使得效率成为关键问题。我们的实证分析表明,使用长链思维(Long-CoT)的效益因问题而异:某些问题需要精细推理,而另一些问题则未见提升,甚至准确率下降。这促使我们探索自适应推理策略,根据输入调整推理深度。然而,先前工作主要集中于减少长推理路径中的冗余,限制了在Long-CoT范式之外探索更高效策略的可能性。为此,我们提出了一种新颖的两阶段框架,旨在实现自适应且高效的推理。首先,我们通过融合长链与短链CoT模型构建混合推理模型,以支持多样化的推理风格。其次,我们采用双层偏好训练,指导模型在群体层面选择适宜的推理风格,并在每个风格组内倾向于简洁且正确的推理(实例层面)。实验证明,相较于其他基线方法,我们的方法在保持性能的同时显著降低了推理成本。特别是在五个数学数据集上,推理的平均长度减少了超过50%,凸显了自适应策略在优化大型语言模型推理效率方面的潜力。我们的代码即将发布于https://github.com/StarDewXXX/AdaR1。
脚本接口使用户能够自动化任务并定制软件工作流程,但传统上创建脚本需要编程专业知识和对特定API的熟悉,这为许多用户设置了障碍。尽管大型语言模型(LLMs)能够根据自然语言查询生成代码,但运行时代码生成因未经验证的代码、安全风险、较长的响应时间和较高的计算成本而受到严重限制。为弥合这一差距,我们提出了一种离线模拟框架,通过利用LLMs和公开可用的脚本指南,精心策划一套软件特定的技能集,即一组经过验证的脚本。我们的框架包含两个组成部分:(1)任务创建,采用自上而下的功能指导和自下而上的API协同探索来生成有用的任务;(2)技能生成与试验,基于执行反馈精炼和验证脚本。为了高效导航广阔的API领域,我们引入了一种基于图神经网络(GNN)的链接预测模型,以捕捉API协同效应,从而生成涉及未充分利用API的技能,并扩展技能集的多样性。在Adobe Illustrator上的实验表明,与传统运行时代码生成相比,我们的框架显著提高了自动化成功率,减少了响应时间,并节省了运行时令牌成本。这是首次将软件脚本接口作为基于LLM系统的测试平台,强调了在受控环境中利用执行反馈的优势,并为在专业软件领域中将AI能力与用户需求对齐提供了宝贵的见解。
在医学影像领域,数据增强对于在有限数据条件下提升分类精度、病灶检测及器官分割至关重要。然而,仍存在两大挑战。首先,自然照片与医学图像间显著的领域差异可能扭曲关键疾病特征。其次,医学影像中的增强研究零散且局限于单一任务或架构,使得先进混合策略的益处尚不明确。为应对这些挑战,我们提出了一种统一评估框架,整合了六种基于混合的增强方法,并应用于脑肿瘤MRI和眼病眼底数据集,同时结合了卷积与Transformer骨干网络。我们的贡献有三方面:(1) 引入MediAug,为医学影像中的高级数据增强提供了一个全面且可复现的基准。(2) 系统评估了MixUp、YOCO、CropMix、CutMix、AugMix和SnapMix与ResNet-50及ViT-B骨干网络的结合效果。(3) 通过大量实验证明,MixUp在ResNet-50上对脑肿瘤分类任务提升最大,准确率达79.19%,而SnapMix在ViT-B上表现最佳,准确率达99.44%;YOCO在ResNet-50上对眼病分类任务提升最为显著,准确率为91.60%,CutMix则在ViT-B上取得最大提升,准确率为97.94%。代码将发布于https://github.com/AIGeeksGroup/MediAug。
设想身处一个人声鼎沸的异国空间,佩戴的智能耳机能将周围的声音实时转化为您的母语,同时保留每位说话者的空间方位信息。我们提出了空间语音翻译这一创新概念,旨在通过智能耳机翻译佩戴者环境中的语音,并在双耳输出中维持每位说话者的方向感与独特音色特征。为实现这一目标,我们攻克了多项技术难题,包括盲源分离、声源定位、实时情感丰富的翻译以及双耳渲染,确保翻译后的音频中说话者的方向信息得以保留,并在Apple M2芯片上实现了实时推理。通过原型双耳耳机的概念验证评估,我们展示了与现有模型在干扰环境下表现不佳不同,即便在环境中存在强烈说话者干扰的情况下,我们的系统在语言间翻译时仍能达到高达22.01的BLEU分数。用户研究进一步证实了该系统在未经预见的现实混响环境中,能够有效实现翻译语音的空间渲染。从更宏观的视角来看,这项工作标志着将空间感知融入语音翻译领域迈出了重要的一步。
随着网络摄像头数量的持续增长,视觉传感器在智能交通系统(ITS)中对于交通监控、管理和优化的重要性日益凸显。然而,在城市规模的交通场景中,跨多个非重叠摄像头进行手动目标跟踪与匹配面临重大挑战。这些挑战包括处理多样的车辆属性、遮挡、光照变化、阴影以及不同的视频分辨率。为解决这些问题,我们提出了一种高效且经济实惠的基于深度学习的多目标多摄像头跟踪(MO-MCT)框架。该框架采用Mask R-CNN进行目标检测,并利用非极大值抑制(NMS)从重叠检测中选择目标对象。通过迁移学习实现再识别,从而在多个摄像头间关联并生成车辆轨迹片段。此外,我们运用适当的损失函数和距离度量来应对遮挡、光照和阴影等挑战。最终,解决方案识别模块结合ResNet-152进行特征提取,并基于Deep SORT实现车辆跟踪。该框架在第五届AI City Challenge数据集(Track 3)上进行了评估,该数据集包含46个摄像头视频流,其中40个用于模型训练与验证,其余6个用于模型测试。所提框架取得了具有竞争力的性能,IDF1得分为0.8289,精确率和召回率分别为0.9026和0.8527,证明了其在实现鲁棒且准确的车辆跟踪方面的有效性。