每日精选AI研究论文及翻译
大型语言模型(LLMs)在处理长文本方面取得了显著进展,但在长文本推理方面仍然存在困难。现有方法通常涉及使用合成数据对LLMs进行微调,这取决于人类专家或类似GPT-4的先进模型的注释,从而限制了进一步的发展。为解决这一问题,我们研究了LLMs在长文本推理中自我改进的潜力,并提出了\ours,这是一种专为此目的设计的方法。这种方法很直接:我们为每个问题采样多个输出,用最小贝叶斯风险对它们进行评分,然后基于这些输出进行监督微调或偏好优化。对几种领先的LLMs进行了大量实验,证明了\ours的有效性,对于Llama-3.1-8B-Instruct,绝对改进了4.2个点。此外,\ours相比依赖人类专家或先进模型生成的数据的先前方法表现出更优越的性能。我们预计这项工作将为长文本场景中的自我改进技术开辟新途径,这对LLMs的持续发展至关重要。
视频生成已经成为一种有前途的工具,用于世界模拟,利用视觉数据来复制现实环境。在这个背景下,以人类视角为中心的自我中心视频生成具有显著的潜力,可以增强虚拟现实、增强现实和游戏应用。然而,自我中心视频的生成面临着重大挑战,因为自我中心视角的动态性质、行为的复杂多样性以及遇到的场景的复杂多样性。现有数据集无法有效解决这些挑战。为了弥合这一差距,我们提出了 EgoVid-5M,这是专门为自我中心视频生成精心策划的第一个高质量数据集。EgoVid-5M 包含 500 万个自我中心视频片段,并丰富了详细的动作注释,包括细粒度的运动控制和高级文本描述。为了确保数据集的完整性和可用性,我们实施了一个复杂的数据清洗流程,旨在在自我中心条件下保持帧一致性、动作连贯性和运动平滑性。此外,我们引入了 EgoDreamer,它能够同时由动作描述和运动控制信号驱动生成自我中心视频。EgoVid-5M 数据集、相关动作注释以及所有数据清洗元数据将被发布,以推动自我中心视频生成研究的进展。
大型语言模型(LLMs)与人类偏好的对齐仍然是一个关键挑战。虽然像人类反馈强化学习(RLHF)和直接偏好优化(DPO)这样的后训练技术取得了显著成功,但它们往往引入了计算效率低和训练不稳定的问题。在本文中,我们提出了基于特征级约束的偏好优化(FPO),这是一种旨在简化对齐过程并确保稳定性的新方法。FPO利用预训练的稀疏自动编码器(SAEs),并引入特征级约束,从而实现高效的稀疏强制对齐。我们的方法通过使用在训练良好的稀疏自动编码器中激活的稀疏特征以及使用特征级离线参考的顺序KL散度来获得效率。基准数据集上的实验结果表明,与最先进的基线相比,FPO在获胜率上取得了5.08%的绝对改善,而计算成本则大大降低,使其成为一种有效且可控的LLM对齐解决方案。
法语语言模型,例如CamemBERT,在自然语言处理(NLP)任务中被广泛采用,像CamemBERT这样的模型每月下载量超过400万次。然而,这些模型面临时间概念漂移的挑战,即过时的训练数据导致性能下降,特别是在遇到新主题和术语时。这个问题强调了需要反映当前语言趋势的更新模型。在本文中,我们介绍了CamemBERT基础模型的两个新版本-CamemBERTav2和CamemBERTv2,旨在解决这些挑战。CamemBERTav2基于DeBERTaV3架构,利用替换标记检测(RTD)目标以获得更好的上下文理解,而CamemBERTv2基于RoBERTa构建,使用掩码语言建模(MLM)目标。这两个模型都是在更大规模和更新的数据集上进行训练,具有更长的上下文长度和增强法语分词性能的更新分词器。我们评估了这些模型在通用领域NLP任务和特定领域应用(如医学领域任务)上的性能,展示了它们在各种用例中的多功能性和有效性。我们的结果表明,这些更新的模型远远优于它们的前身,使它们成为现代NLP系统中有价值的工具。我们所有的新模型,以及中间检查点,都在Huggingface上公开提供。
转向向量是控制大型语言模型行为的一种有前途的方法。然而,其基本机制仍然知之甚少。虽然稀疏自编码器(SAEs)可能提供一种解释转向向量的潜在方法,但最近的研究结果显示,SAE重构的向量通常缺乏原始向量的转向特性。本文研究了为什么直接将SAEs应用于转向向量会产生误导性的分解,确定了两个原因:(1)转向向量落在SAEs设计的输入分布之外,以及(2)转向向量在特征方向上可能具有有意义的负投影,而SAEs并未设计用于适应这种情况。这些限制阻碍了直接利用SAEs解释转向向量。
音乐生成取得了显著进展,特别是在音频生成领域。然而,生成既具有长期结构又富有表现力的符号音乐仍然是一个重大挑战。在本文中,我们提出了PerceiverS(分割和尺度),这是一种新颖的架构,旨在通过利用有效的分割和多尺度注意机制来解决这一问题。我们的方法通过同时学习长期结构依赖性和短期表现细节,增强了符号音乐生成。通过在多尺度设置中结合交叉注意力和自注意力,PerceiverS捕捉了长距离的音乐结构,同时保留了表现细微差别。所提出的模型在Maestro等数据集上进行评估,展示了在生成既具有结构一致性又富有表现变化的连贯且多样化音乐方面的改进。项目演示和生成的音乐样本可通过以下链接访问:https://perceivers.github.io。
现有的文本到视频(T2V)模型通常难以生成具有足够明显或复杂动作的视频。一个关键限制在于文本提示无法精确传达复杂运动细节。为了解决这个问题,我们提出了一个新颖的框架,MVideo,旨在生成具有精确流畅动作的长时视频。MVideo通过将蒙版序列作为额外的运动条件输入,克服了文本提示的限制,提供了更清晰、更准确地表示预期动作的方法。利用GroundingDINO和SAM2等基础视觉模型,MVideo自动生成蒙版序列,提升了效率和鲁棒性。我们的结果表明,在训练后,MVideo有效地将文本提示与运动条件对齐,生成同时满足两个标准的视频。这种双重控制机制通过允许独立修改文本提示或运动条件,或同时修改两者,实现了更动态的视频生成。此外,MVideo支持运动条件的编辑和组合,促进生成具有更复杂动作的视频。因此,MVideo推动了T2V运动生成,为当前视频扩散模型中改进动作描绘设定了强有力的基准。我们的项目页面可在https://mvideo-v1.github.io/找到。