每日精选AI研究论文及翻译
在具身体实体的人工智能中,带有部分观测的规划是一个核心挑战。大多数先前的研究通过开发能够在环境中进行物理探索以更新其对世界状态的信念的代理来解决这一挑战。相比之下,人类可以通过心理探索想象看不见的世界部分,并通过想象的观测修订他们的信念。这种更新后的信念可以帮助他们做出更明智的决策,而无需始终进行世界的物理探索。为了实现这种类似人类的能力,我们引入了生成式世界探索器(Genex),这是一个以自我为中心的世界探索框架,允许代理在大规模的3D世界(例如城市场景)中进行心理探索,并获取想象的观测来更新其信念。然后,这种更新后的信念将帮助代理在当前步骤做出更明智的决策。为了训练Genex,我们创建了一个合成的城市场景数据集,Genex-DB。我们的实验结果表明:(1)Genex能够在长时间跨度的大型虚拟物理世界探索中生成高质量且一致的观测;(2)通过生成的观测更新的信念可以为现有的决策模型(例如LLM代理)提供信息,从而制定更好的计划。
多模态大型语言模型(MLLMs)的出现和日益普及具有显著潜力,可以增强日常生活的各个方面,从改善沟通到促进学习和问题解决。作为必不可少的日常伴侣,手机代表了最有效和可访问的部署平台,可实现MLLMs的无缝集成到日常任务中。然而,在手机上部署MLLMs面临挑战,因为内存大小和计算能力有限,这使得在没有广泛优化的情况下难以实现平滑和实时处理。在本文中,我们提出了BlueLM-V-3B,这是一种专门针对在移动平台上高效部署MLLMs的算法和系统共同设计方法。具体来说,我们重新设计了主流MLLMs采用的动态分辨率方案,并实施了硬件感知部署的系统优化,以优化在手机上的模型推断。BlueLM-V-3B具有以下主要亮点:(1)体积小:BlueLM-V-3B具有包含27亿参数的语言模型和4亿参数的视觉编码器。(2)速度快:BlueLM-V-3B在联发科Dimensity 9300处理器上实现了24.4个标记/秒的生成速度,采用了4位LLM权重量化。(3)性能强:BlueLM-V-3B在OpenCompass基准测试中取得了66.1的最高平均分,超过了一系列参数规模更大的模型(例如MiniCPM-V-2.6,InternVL2-8B)。
我们提出了一种统一的可控视频生成方法 AnimateAnything,有助于在各种条件下实现精确和一致的视频操作,包括摄像机轨迹、文本提示和用户动作注释。具体来说,我们精心设计了一个多尺度控制特征融合网络,用于构建不同条件下的通用运动表示。它将所有控制信息明确地转换为逐帧光流。然后,我们将光流作为运动先验融入最终的视频生成过程中。此外,为了减少大规模运动引起的闪烁问题,我们提出了一个基于频率的稳定模块。它通过确保视频的频域一致性来增强时间上的连贯性。实验证明,我们的方法优于现有技术。更多细节和视频,请访问网页:https://yu-shaonian.github.io/Animate_Anything/。
机器学习的发展越来越注重强大模型和更可扩展的监督信号的发展。然而,基础模型的出现在提供必要的有效监督信号以进一步增强其能力方面面临着重大挑战。因此,迫切需要探索新的监督信号和技术方法。在本文中,我们提出了验证器工程,这是一种专门为基础模型时代设计的新型后训练范式。验证器工程的核心是利用一套自动验证器来执行验证任务,并向基础模型提供有意义的反馈。我们将验证器工程过程系统地划分为三个基本阶段:搜索、验证和反馈,并全面审视每个阶段的最新研究进展。我们相信,验证器工程是实现人工通用智能的基本途径。
大型语言模型(LLMs)通常在推理任务中采用贪婪解码或低温度抽样,反映了多样性和准确性之间的权衡。我们通过引入top-nsigma挑战这一传统,这是一种直接在预softmax logits上操作的新型抽样方法,利用统计阈值。我们的关键洞察是logits自然地分为高斯分布的嘈杂区域和独特的信息区域,从而实现了有效的令牌过滤,而无需复杂的概率操作。与现有方法(例如top-p,min-p)不同,这些方法在温度较高时会无意中包含更多噪声令牌,top-nsigma无论温度如何缩放,都能保持稳定的抽样空间。我们还对top-nsigma进行了理论分析,以更好地理解其行为。在四个以推理为重点的数据集上进行的广泛实验结果表明,我们的方法不仅优于现有的抽样方法,而且超越了贪婪解码,即使在高温度下也能保持一致的性能。
重新排序器通常是交叉编码器,经常用于对廉价的初始IR系统检索到的文档进行重新评分。这是因为,尽管昂贵,重新排序器被认为更有效。我们挑战这一假设,通过衡量重新排序器在完整检索中的性能,而不仅仅是重新评分第一阶段检索。我们的实验揭示了一个令人惊讶的趋势:当逐渐为更多文档评分时,最好的现有重新排序器提供递减回报,并实际上在一定限度后降低了质量。事实上,在这种情况下,重新排序器经常会为与查询没有词汇或语义重叠的文档分配高分。我们希望我们的发现能激发未来改进重新排序的研究。
尽管基于图像的虚拟试穿已取得了相当大的进展,但新兴方法在跨多种场景生成高保真和稳健的试穿图像方面仍然面临挑战。这些方法通常在诸如纹理感知维护和尺寸感知试穿等问题上遇到困难,这些问题影响了它们的整体有效性。为了解决这些局限性,我们提出了一种新颖的服装感知增强技术,名为FitDiT,旨在利用扩散Transformer(DiT)进行高保真虚拟试穿,为高分辨率特征分配更多参数和注意力。首先,为了进一步改善纹理感知维护,我们引入了一种服装纹理提取器,结合服装先验演化来微调服装特征,有助于更好地捕捉条纹、图案和文字等丰富细节。此外,我们通过定制频域距离损失来引入频域学习,以增强高频服装细节。为了解决尺寸感知试穿问题,我们采用了一种扩张-放松蒙版策略,适应服装的正确长度,防止在跨类别试穿期间生成填满整个蒙版区域的服装。搭载上述设计,FitDiT在定性和定量评估中均超越了所有基准线。它擅长生成合身的服装,具有照片般逼真和精细的细节,同时在DiT结构精简后为单个1024x768图像实现了竞争性的推理时间,为4.57秒,优于现有方法。
尽管小型语言模型(SLMs)在移动部署方面表现出了潜力,但它们在智能手机上的实际性能和应用仍未得到充分探讨。我们提出了SlimLM,一系列针对移动设备上文档辅助任务进行优化的SLMs。通过在三星Galaxy S24上进行大量实验,我们确定了模型大小(从125M到7B参数不等)、上下文长度和推理时间之间的最佳权衡,以实现高效的设备端处理。SlimLM在SlimPajama-627B上进行了预训练,并在我们构建的用于摘要、问答和建议任务的DocAssist数据集上进行了微调。我们最小的模型在S24上展现了高效的性能,而较大的变体则在移动设备限制内提供了增强的功能。我们对SlimLM进行了评估,与现有的SLMs相比,表现出可比或更优越的性能,并为未来在设备端语言模型研究提供了基准。我们还提供了一个安卓应用程序,为SLM部署提供了实用见解。我们的研究结果提供了宝贵的见解,阐明了在高端智能手机上运行先进语言模型的能力,潜在地降低了服务器成本,并通过设备端处理增强了隐私保护。
最近生成式人工智能的进展显著推动了内容创作和编辑,流行研究进一步将这一激动人心的进展扩展到视频编辑领域。在这方面,这些研究主要是将源视频中固有的运动模式转移到编辑后的视频中,然而由于交付的运动与编辑内容之间缺乏特定的对齐,通常会观察到与用户提示不一致的结果。为了解决这一局限,本文提出了一种形状一致的视频编辑方法,即StableV2V。我们的方法将整个编辑流程分解为几个顺序步骤,首先编辑第一帧视频,然后建立交付的运动与用户提示之间的对齐,最终根据这种对齐将编辑后的内容传播到所有其他帧。此外,我们策划了一个名为DAVIS-Edit的测试基准,用于全面评估视频编辑,考虑各种类型的提示和困难。实验结果和分析展示了我们的方法相对于现有最先进研究的表现优越性能、视觉一致性和推理效率。
随着多模态大型语言模型(MLLMs)研究的普及,通常需要先进的MLLM模型同时处理各种文本和视觉任务(例如VQA、检测、OCR和ChartQA)以应用于实际场景。然而,由于不同任务数据的表示和分布存在显著差异,简单地将所有任务的数据混合在一起会导致众所周知的“多任务冲突”问题,从而导致各种任务性能下降。为了解决这一问题,我们提出了Awaker2.5-VL,这是一种适用于MLLM的专家混合(MoE)架构,通过多个稀疏激活的专家获得多任务能力。为了加快Awaker2.5-VL的训练和推断速度,我们模型中的每个专家被设计为低秩适应(LoRA)结构。在多个最新基准测试上进行的大量实验表明了Awaker2.5-VL的有效性。我们的项目页面发布了代码和模型权重:https://github.com/MetabrainAGI/Awaker。
在语言模型解码过程中,使用较高温度采样会产生更具创造性的回应,而较低温度则更加准确。然而,这些模型通常应用于通用指令遵循,涉及创造性和事实寻求任务,使用单一固定温度跨所有示例和标记。在这项工作中,我们引入自适应解码,这是一种添加到模型中的层,用于在推断时动态选择采样温度,可以在标记或示例级别进行,以优化性能。为了学习其参数,我们引入了潜在偏好优化(LPO),这是一种训练离散潜在变量(如温度选择)的通用方法。我们的方法在需要不同温度的一系列任务中胜过所有固定解码温度,包括UltraFeedback、创意故事写作和GSM8K。
我们从零开始透明地创建了两个仅限德语的解码器模型,LL\"aMmlein 120M和1B,并将它们连同训练数据一起发布,供德语自然语言处理研究社区使用。模型训练涉及多个关键步骤,包括广泛的数据预处理、创建自定义德语分词器、训练本身以及对最终模型在各种基准测试上的评估。在整个训练过程中,我们保存了多个检查点,并使用SuperGLEBer基准进行分析,以监控模型的学习动态。与SuperGLEBer基准上的最先进模型相比,两个LL\"aMmlein模型表现出竞争力,始终能够与具有相似参数规模的模型相匹敌或超越。结果显示,正如预期的那样,模型的质量随着规模的增大而提高,但在某些任务上的性能改进很快就达到了平稳期,为未来模型开发中资源分配提供了宝贵的见解。
扩散变压器(DiT)已成为强大的生成模型,可用于各种任务,包括图像、视频和语音合成。然而,由于需要重复评估资源密集型的注意力和前馈模块,其推理过程仍然计算昂贵。为解决这一问题,我们引入了SmoothCache,这是一种面向模型的推理加速技术,适用于DiT架构。SmoothCache利用观察到的在相邻扩散时间步之间的层输出之间的高相似性。通过分析来自小型校准集的逐层表示误差,SmoothCache在推理过程中自适应地缓存和重复使用关键特征。我们的实验证明,SmoothCache在保持甚至改善跨多种模态的生成质量的同时,实现了8%至71%的加速。我们展示了其在图像生成的DiT-XL、文本到视频的Open-Sora以及文本到音频的Stable Audio Open上的有效性,突显了其潜力,可以实现实时应用并扩大强大DiT模型的可访问性。
检索增强生成(RAG)已成为增强大型语言模型(LLMs)在知识密集型任务中表现的一种有前景的方法,例如医学领域的任务。然而,医学领域的敏感性要求系统完全准确可信。现有的RAG基准主要关注标准的检索-回答设置,却忽略了许多衡量可靠医疗系统关键方面的实际场景。本文通过为医学问答(QA)系统在RAG设置下的这些情况提供全面评估框架来填补这一空白,包括充分性、整合性和鲁棒性。我们引入医学检索增强生成基准(MedRGB),为四个医学QA数据集提供各种补充元素,以测试LLMs处理这些特定场景的能力。利用MedRGB,我们对商业LLMs和开源模型在多种检索条件下进行了广泛评估。我们的实验结果显示当前模型在处理检索文档中的噪音和错误信息方面能力有限。我们进一步分析LLMs的推理过程,为在这一关键医学领域开发RAG系统提供宝贵见解和未来方向。
隐式神经表示(INRs)利用神经网络来近似将离散数据表示为连续函数。在视频数据的背景下,这种模型可以用于将像素位置的坐标以及帧出现时间(或索引)转换为RGB颜色值。尽管INRs有助于有效压缩,但不适用于编辑目的。一个潜在的解决方案是使用基于3D高斯喷洒(3DGS)的模型,如视频高斯表示(VGR),它能够将视频编码为多个3D高斯,并适用于多种视频处理操作,包括编辑。然而,在这种情况下,修改的能力受限于一组有限的基本转换。为解决这一问题,我们引入了视频高斯喷洒(VeGaS)模型,它可以实现对视频数据的逼真修改。为构建VeGaS,我们提出了一种新颖的折叠高斯分布家族,旨在捕捉视频流中的非线性动态,并通过获得的2D高斯作为相应条件分布来对连续帧进行建模。我们的实验表明,VeGaS在帧重建任务中优于最先进的解决方案,并允许对视频数据进行逼真修改。代码可在以下链接找到:https://github.com/gmum/VeGaS。
大型语言模型(LLMs)不断增强的能力已经导致它们被用作训练和评估其他LLMs的人类反馈替代品。这些方法通常依赖于“宪章”,即评论模型用来提供反馈和改进生成的书面指导方针。我们通过使用四种不同的宪章来改进医疗面试中的以患者为中心的沟通,研究了宪章选择如何影响反馈质量。在由215名人类评分者进行的两两比较中,我们发现详细的宪章在情感品质方面取得了更好的结果。然而,在学习更多与信息收集和提供相关的实用技能方面,没有一种宪章能够超越基准。我们的发现表明,尽管应优先考虑详细的宪章,但在某些领域中,AI反馈作为奖励信号的有效性可能存在一些限制。