每日精选AI研究论文及翻译
从文本或图像创建沉浸式且可游玩的3D世界,始终是计算机视觉与图形学领域的一项根本性挑战。现有的世界生成方法主要分为两类:基于视频的方法虽能提供丰富的多样性,却缺乏3D一致性和渲染效率;而基于3D的方法虽保证了几何一致性,却受限于训练数据的匮乏和内存效率低下的表示方式。为克服这些局限,我们推出了HunyuanWorld 1.0,一个创新框架,它融合了两者的优势,能够依据文本和图像条件生成沉浸式、可探索且互动的3D场景。我们的方法具备三大核心优势:1)通过全景世界代理实现360°沉浸体验;2)具备网格导出能力,确保与现有计算机图形管线的无缝兼容;3)解耦的对象表示,增强了交互性。该框架的核心在于一种语义分层的3D网格表示法,它利用全景图像作为360°世界代理,进行语义感知的世界分解与重建,从而生成多样化的3D世界。大量实验证明,我们的方法在生成连贯、可探索且互动的3D世界方面达到了业界领先水平,同时为虚拟现实、物理模拟、游戏开发及互动内容创作等应用场景提供了广泛的可能性。
众多研究致力于将“下一标记预测”范式扩展至视觉内容领域,旨在构建一种统一的方法,同时实现图像生成与理解。然而,通过离散标记进行自回归建模来生成图像的尝试,普遍面临视觉保真度低、输出失真以及在渲染复杂细节时难以遵循复杂指令等问题。这些不足很可能归因于自回归推理过程中的累积误差或离散化过程中的信息丢失。或许正是由于这一挑战,近期研究逐渐转向将图像生成与扩散目标联合训练,同时保持语言生成的自回归目标,从而偏离了统一建模的路径。在本研究中,我们展示了强化学习能够有效减少伪影,显著提升离散自回归建模方法的生成质量,进而实现图像与语言生成的无缝整合。我们的框架包含一个语义图像标记器、一个适用于语言和图像的统一自回归模型,以及一个用于图像生成的离线扩散解码器,命名为X-Omni。X-Omni在图像生成任务中,利用7B规模的语言模型取得了业界领先的性能,不仅生成了具有高美学质量的图像,还展现出强大的指令遵循能力和长文本渲染能力。
尽管大型语言模型(LLMs)已取得显著进展,但其在化学等科学领域的应用仍受限于浅层的领域理解与有限的推理能力。本研究聚焦于化学这一特定领域,开发了化学推理大型语言模型ChemDFM-R。我们首先构建了一个包含原子化知识点的综合数据集,以增强模型对化学基本原理与逻辑结构的理解。随后,提出了一种混合源蒸馏策略,将专家精心整理的知识与通用领域的推理技能相结合,并通过领域特定的强化学习进一步提升化学推理能力。在多样化的化学基准测试中,ChemDFM-R展现了最先进的性能,同时提供了可解释、基于推理的输出。进一步的案例分析表明,显式的推理链显著提升了模型在现实人机协作场景中的可靠性、透明度及实际应用价值。
随着大语言模型的快速发展,对GPU计算资源的需求呈指数级增长,这催生了对自动化CUDA优化策略的迫切需求。尽管近期大语言模型在代码生成方面展现出潜力,但当前最先进的模型(如R1、o1)在提升CUDA速度方面成功率较低。本文介绍了一种名为CUDA-L1的自动化强化学习框架,专为CUDA优化设计。 CUDA-L1在CUDA优化任务中实现了显著的性能提升:在NVIDIA A100上训练后,它在KernelBench的所有250个CUDA内核上平均加速17.7倍,峰值加速高达449倍。此外,该模型还展现了出色的跨GPU架构移植性,在H100、RTX 3090、L40、H800和H20上分别实现了平均17.8倍、19.0倍、16.5倍、14.7倍和13.9倍的加速,尽管其优化专门针对A100进行。除了这些基准测试结果,CUDA-L1还展示了几个显著特性:1)发现多种CUDA优化技术,并学会策略性地组合它们以达到最佳性能;2)揭示CUDA优化的基本原理;3)识别非显而易见的性能瓶颈,并拒绝看似有益实则损害性能的优化方案。 CUDA-L1的能力表明,仅通过基于加速的奖励信号,强化学习就能将初始表现不佳的大语言模型转变为高效的CUDA优化器,无需人类专业知识或领域知识。更重要的是,训练后的强化学习模型能够将习得的推理能力扩展到新内核上。这一范式为CUDA操作的自动化优化开辟了可能性,有望大幅提升GPU效率,缓解GPU计算资源日益增长的压力。
脑机接口(BCI)实现了大脑与外部设备之间的直接通信。近期的脑电图(EEG)基础模型致力于学习跨多种BCI范式的通用表征。然而,这些方法忽视了范式间基本的神经生理学差异,限制了其泛化能力。值得注意的是,在实际的BCI应用中,如用于中风康复或辅助机器人技术的运动想象(MI)等特定范式,通常在数据采集前就已确定。本文提出了MIRepNet,首个专为MI范式设计的EEG基础模型。MIRepNet包含一个高质量的EEG预处理流程,整合了基于神经生理学的通道模板,可适配任意电极配置的EEG头戴设备。此外,我们引入了一种混合预训练策略,结合了自监督的掩码标记重建与监督的MI分类,使得模型能够在每类少于30次试验的新下游MI任务上快速适应并准确解码。在五个公开MI数据集上的广泛评估表明,MIRepNet持续实现了最先进的性能,显著超越了专门化及通用化的EEG模型。我们的代码将在GitHub上公开:https://github.com/staraink/MIRepNet。
随着大语言模型(LLMs)代表用户时代的到来,偏好优化(Preference Optimization, PO)方法已成为将LLMs与人类偏好对齐并提升性能的核心途径。我们提出了最大后验偏好优化(Maximum a Posteriori Preference Optimization, MaPPO),这是一个从偏好中学习的框架,明确地将先验奖励知识整合到优化目标中。尽管现有方法如直接偏好优化(Direct Preference Optimization, DPO)及其变体将偏好学习视为最大似然估计(Maximum Likelihood Estimation, MLE)问题,MaPPO通过将先验奖励估计融入一个原则性的最大后验(Maximum a Posteriori, MaP)目标,扩展了这一范式。这不仅推广了DPO及其变体,还通过缓解对响应进行过度简化的二分类,增强了对齐效果。更重要的是,MaPPO未引入额外超参数,并支持离线和在线环境下的偏好优化。此外,MaPPO可作为插件使用,在包括广泛应用的SimPO、IPO和CPO在内的DPO变体上实现一致改进。在MT-Bench、AlpacaEval 2.0和Arena-Hard三个标准基准上,对不同模型规模和系列进行的广泛实证评估表明,MaPPO在不牺牲计算效率的前提下,持续提升了对齐性能。
野生动物观察在生物多样性保护中扮演着重要角色,这要求我们采用稳健的方法来监测野生动物种群及种间互动。近年来,计算机视觉领域的显著进展极大地推动了基础野生动物观察任务的自动化,如动物检测与物种识别。然而,尽管通过足迹、粪便等间接证据准确识别物种对于野生动物监测至关重要,这一领域仍相对缺乏深入探索。为填补这一空白,我们推出了AnimalClue,首个基于间接证据图像进行物种识别的大规模数据集。该数据集包含159,605个边界框,涵盖五类间接线索:足迹、粪便、卵、骨骼和羽毛,覆盖了968个物种、200个科及65个目。每张图像均标注有物种级别标签、边界框或分割掩码,以及包括活动模式和栖息地偏好在内的细粒度特征信息。与现有主要关注直接视觉特征(如动物外观)的数据集不同,AnimalClue因需识别更为细致和微妙的视觉特征,为分类、检测及实例分割任务带来了独特挑战。在实验中,我们广泛评估了代表性视觉模型,并识别出从动物痕迹进行识别时的关键挑战。我们的数据集与代码已公开于https://dahlian00.github.io/AnimalCluePage/。
本研究致力于解决运动引导的少样本视频目标分割(FSVOS)问题,其目标是根据少量具有相同运动模式的标注示例,对视频中的动态目标进行分割。现有的FSVOS数据集和方法通常聚焦于目标类别这一静态属性,忽视了视频中丰富的时序动态信息,限制了其在需要理解运动场景中的应用。为填补这一空白,我们引入了MOVE,一个专为运动引导FSVOS设计的大规模数据集。基于MOVE,我们在两种实验设置下全面评估了来自三个不同相关任务的六种先进方法。结果表明,现有方法在应对运动引导FSVOS时面临挑战,这促使我们深入分析相关难题,并提出了一种基线方法——解耦运动外观网络(DMA)。实验证明,我们的方法在少样本运动理解上表现出色,为未来该方向的研究奠定了坚实基础。
近期,多模态大语言模型(MLLMs)在视觉-语言任务中取得了显著进展,但同时也可能生成有害或不可信的内容。尽管已有大量研究探讨语言模型的可信度,但MLLMs在面对视觉上无法回答的问题时,其诚实表现的能力仍鲜有深入探索。本研究首次系统评估了多种MLLMs的诚实行为。我们将诚实性定义为模型对无法回答的视觉问题的响应行为,界定了四类代表性的此类问题,并构建了MoHoBench——一个包含12,000多个视觉问题样本的大规模MLLM诚实性基准,其质量通过多阶段筛选和人工验证得以保证。利用MoHoBench,我们对28个主流MLLMs的诚实性进行了基准测试,并进行了全面分析。研究发现:(1)大多数模型在必要时未能恰当拒绝回答;(2)MLLMs的诚实性不仅仅是语言建模问题,还深受视觉信息影响,这要求开发专门的多模态诚实性对齐方法。因此,我们采用监督学习和偏好学习实施了初步的对齐方法,以改善诚实行为,为未来可信MLLMs的研究奠定了基础。我们的数据和代码可在https://github.com/DSTTSD/MoHoBench获取。
非洲野生动物种群面临严峻威胁,过去五十年间脊椎动物数量减少了超过65%。对此,基于深度学习的图像分类技术已成为生物多样性监测与保护的有力工具。本文针对非洲野生动物图像的自动分类,开展了一项深度学习模型的对比研究,重点探讨了冻结特征提取器的迁移学习方法。利用包含水牛、大象、犀牛和斑马四种物种的公开数据集,我们评估了DenseNet-201、ResNet-152、EfficientNet-B4及Vision Transformer ViT-H/14的性能。其中,DenseNet-201在卷积神经网络中表现最佳(准确率67%),而ViT-H/14则达到了最高的总体准确率(99%),但其显著更高的计算成本引发了部署方面的顾虑。我们的实验揭示了准确率、资源需求与可部署性之间的权衡关系。表现最优的CNN模型(DenseNet-201)已集成至Hugging Face Gradio Space,实现了实时野外应用,展示了在保护场景中部署轻量化模型的可行性。本研究通过提供模型选择、数据集准备及负责任地部署深度学习工具于野生动物保护的实际见解,为扎根非洲的AI研究做出了贡献。