每日精选AI研究论文及翻译
最近生成建模的进展使得可以利用文本提示控制创作4D内容(移动的3D物体)。4D生成在虚拟世界、媒体和游戏等领域具有巨大潜力,但现有方法对生成内容的外观和几何形状控制有限。在这项工作中,我们介绍了一种方法,通过以文本提示为指导进行4D生成,从而实现对用户提供的3D物体进行动画处理,实现定制动画同时保持原始物体的身份特征。我们首先将3D网格转换为保留输入物体视觉属性的“静态”4D神经辐射场(NeRF)。然后,我们使用由文本驱动的图像到视频扩散模型对物体进行动画处理。为了提高动态逼真度,我们引入了一种增量视角选择协议,用于采样透视图以促进逼真运动,并引入了基于掩码的得分蒸馏采样(SDS)损失,利用注意力图将优化集中在相关区域。我们通过时间连贯性、提示遵从性和视觉保真度评估了我们的模型,并发现我们的方法胜过基于其他方法的基准线,在使用LPIPS分数衡量的身份保持方面实现了最多三倍的改进,并有效平衡了视觉质量和动态内容。
像OpenAI o1这样的模型表现出色的原因在于它们在推理过程中能够模拟类似人类的长期思考能力。这些模型采用了扩展的“思维链”(CoT)过程,探索多种策略以增强解决问题的能力。然而,一个关键问题仍然存在:如何在测试过程中智能且高效地扩展计算资源。本文首次全面研究了这些模型中普遍存在的“过度思考”问题,即为简单问题分配过多计算资源而获益甚微。我们从结果和过程两个角度引入了新颖的效率度量标准,以评估类似o1的模型对计算资源的合理利用。通过自我训练范式,我们提出了减轻“过度思考”的策略,简化推理过程而不影响准确性。实验结果表明,我们的方法成功减少了计算开销,同时在一系列具有不同难度级别的测试集(如GSM8K、MATH500、GPQA和AIME)上保持了模型性能。
我们介绍了TangoFlux,一种高效的文本转音频(TTA)生成模型,拥有5.15亿个参数,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。在对齐TTA模型时的一个关键挑战在于创建偏好对的困难,因为TTA缺乏类似于大型语言模型(LLMs)可用的可验证奖励或黄金标准答案等结构化机制。为了解决这个问题,我们提出了CLAP-Ranked Preference Optimization(CRPO),这是一个新颖的框架,通过迭代生成和优化偏好数据来增强TTA的对齐性。我们展示了使用CRPO生成的音频偏好数据集优于现有的替代方案。借助这一框架,TangoFlux在客观和主观基准测试中均实现了最先进的性能。我们开源所有代码和模型,以支持TTA生成领域的进一步研究。
我们提出了SWE-Gym,这是用于训练真实世界软件工程(SWE)代理的第一个环境。SWE-Gym包含2,438个真实世界的Python任务实例,每个实例包括一个带有可执行运行环境、单元测试和自然语言任务描述的代码库。我们使用SWE-Gym来训练基于语言模型的SWE代理,在流行的SWE-Bench Verified和Lite测试集上实现高达19%的绝对解决率提升。我们还尝试通过在从SWE-Gym中采样的代理轨迹上训练的验证器进行推理时间缩放。与我们微调的SWE代理相结合时,在SWE-Bench Verified和Lite上分别实现32.0%和26.0%,体现了开放权重SWE代理的最新技术水平。为了促进进一步研究,我们公开发布了SWE-Gym、模型和代理轨迹。