AI研究论文每日精选

每日精选AI研究论文及翻译

大型语言模型能够进行上下文探索吗？
Can large language models explore in-context?

Mar 22

ByAkshay Krishnamurthy, Keegan Harris, Dylan J. Foster, Cyril Zhang, Aleksandrs Slivkins

我们调查了当代大型语言模型（LLMs）在探索方面的能力，这是强化学习和决策制定中的核心能力。我们专注于现有LLMs的本机性能，而不进行训练干预。我们将LLMs部署为简单的多臂老虎机环境中的代理程序，完全在上下文中指定环境描述和交互历史，即在LLM提示中。我们尝试了GPT-3.5、GPT-4和Llama2，使用各种提示设计，发现这些模型在没有实质干预的情况下并不稳健地进行探索：i）在我们所有的实验中，只有一个配置产生了令人满意的探索行为：GPT-4采用思维链推理和外部总结的交互历史，呈现为充分统计量；ii）所有其他配置均未产生稳健的探索行为，包括具有思维链推理但未总结历史的配置。尽管这些发现可以积极解读，但它们表明外部总结——在更复杂的环境中可能无法实现——对于从LLM代理程序中获得理想行为是重要的。我们得出结论，可能需要进行非平凡的算法干预，如微调或数据集整理，才能赋予LLM为基础的决策制定代理程序在复杂环境中的能力。

InternVideo2：为多模态视频理解扩展视频基础模型
InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding

Mar 22

ByYi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Guo Chen, Baoqi Pei, Rongkun Zheng, Jilan Xu, Zun Wang, Yansong Shi, Tianxiang Jiang, Songze Li, Hongjie Zhang, Yifei Huang, Yu Qiao, Yali Wang, Limin Wang

我们介绍InternVideo2，一种新的视频基础模型（ViFM），在动作识别、视频文本任务和以视频为中心的对话方面实现了最先进的性能。我们的方法采用渐进式训练范式，统一了不同的自监督或弱监督学习框架，包括遮罩视频标记重建、跨模态对比学习和下一个标记预测。不同的训练阶段将引导我们的模型通过不同的预训练任务捕获不同级别的结构和语义信息。在数据层面，我们通过语义分割视频并生成视频-音频-语音字幕来优先考虑时空一致性，从而提高视频和文本之间的对齐性。我们为InternVideo2扩展了数据和模型规模。通过大量实验，我们验证了我们的设计，并在60多个视频和音频任务上展示了最先进的性能。值得注意的是，我们的模型在各种与视频相关的字幕、对话和长视频理解基准上表现优异，突显了其推理和理解长时序上下文的能力。代码和模型可在https://github.com/OpenGVLab/InternVideo2/ 获取。

LLM2LLM：利用新颖的迭代数据增强技术增强LLM模型
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

Mar 22

ByNicholas Lee, Thanakul Wattanawong, Sehoon Kim, Karttikeya Mangalam, Sheng Shen, Gopala Anumanchipali, Michael W. Mahoney, Kurt Keutzer, Amir Gholami

目前，预训练的大型语言模型（LLMs）是解决绝大多数自然语言处理任务的最先进技术。虽然许多实际应用仍需要微调才能达到令人满意的性能水平，但其中许多处于低数据范畴，这使得微调具有挑战性。为了解决这一问题，我们提出了LLM2LLM，这是一种有针对性且迭代的数据增强策略，利用一位教师LLM来增强一个小型种子数据集，通过增加额外数据可用于针对特定任务进行微调。LLM2LLM（1）在初始种子数据上微调基准学生LLM，（2）评估并提取模型错误的数据点，（3）利用教师LLM基于这些错误数据点生成合成数据，然后将其添加回训练数据中。这种方法通过在训练过程中放大LLM对错误预测数据点的信号，并将其重新整合到数据集中，以便专注于LLM的更具挑战性的示例。我们的结果表明，LLM2LLM显著提升了LLMs在低数据范畴中的性能，优于传统微调和其他数据增强基线。LLM2LLM减少了对劳动密集型数据整理的依赖，并为更具规模和性能的LLM解决方案铺平道路，使我们能够处理数据受限的领域和任务。我们在GSM8K数据集上实现了高达24.2％的改进，在CaseHOLD上为32.6％，在SNIPS上为32.0％，在TREC上为52.6％，在SST-2上为39.8％，相较于低数据范畴中使用LLaMA2-7B学生模型的常规微调。

标题：Champ：具有3D参数引导的可控且一致的人类图像动画
Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance

Mar 21

ByShenhao Zhu, Junming Leo Chen, Zuozhuo Dai, Yinghui Xu, Xun Cao, Yao Yao, Hao Zhu, Siyu Zhu

在本研究中，我们介绍了一种人体图像动画的方法论，通过在潜在扩散框架中利用3D人体参数模型，以增强当前人体生成技术中的形状对齐和运动引导。该方法利用SMPL（Skinned Multi-Person Linear）模型作为3D人体参数模型，以建立身体形状和姿势的统一表示。这有助于准确捕捉源视频中复杂的人体几何和运动特征。具体而言，我们结合了从SMPL序列获得的渲染深度图像、法线图和语义图，以及基于骨骼的运动引导，丰富了潜在扩散模型的条件，具备全面的3D形状和详细的姿势属性。采用多层运动融合模块，集成了自注意机制，用于在空间域中融合形状和运动潜在表示。通过将3D人体参数模型表示为运动引导，我们可以在参考图像和源视频运动之间执行参数化形状对齐的人体。在基准数据集上进行的实验评估表明，该方法具有生成高质量人体动画的卓越能力，能够准确捕捉姿势和形状变化。此外，我们的方法还展现了对所提出的野外数据集具有卓越的泛化能力。项目页面：https://fudan-generative-vision.github.io/champ。

ThemeStation：从少量示例生成主题感知的3D资产
ThemeStation: Generating Theme-Aware 3D Assets from Few Exemplars

Mar 22

ByZhenwei Wang, Tengfei Wang, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau

现实世界的应用通常需要一个庞大的 3D 资产库，这些资产共享一致的主题。虽然在从文本或图像中创建一般 3D 内容方面取得了显著进展，但根据输入的 3D 样本合成符合共享主题的定制 3D 资产仍然是一个未解决且具有挑战性的问题。在这项工作中，我们提出了 ThemeStation，这是一种新颖的主题感知 3D 到 3D 生成方法。ThemeStation 根据给定的少量样本合成定制的 3D 资产，具有两个目标：1）生成与给定样本在主题上一致的 3D 资产的统一性，2）生成具有高度变化的 3D 资产的多样性。为此，我们设计了一个两阶段框架，首先绘制一个概念图像，然后是一个基于参考信息的 3D 建模阶段。我们提出了一种新颖的双分数蒸馏（DSD）损失，共同利用来自输入样本和合成概念图像的先验知识。大量实验和用户研究证实，ThemeStation 在生成多样化的主题感知 3D 模型方面超越了先前的工作，并具有令人印象深刻的质量。ThemeStation 还支持各种应用，如可控的 3D 到 3D 生成。

VidLA：大规模视频-语言对齐
VidLA: Video-Language Alignment at Scale

Mar 21

ByMamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Z. Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi

本文提出了VidLA，一种用于大规模视频-语言对齐的方法。先前的视频-语言对齐方法存在两个主要限制。首先，它们未能捕捉短程和长程时间依赖关系，并且通常采用复杂的分层深度网络架构，难以与现有的预训练图像-文本基础模型集成。为了有效解决这一限制，我们选择保持网络架构简单，并使用一组以分层方式以不同时间分辨率运行的数据标记，考虑到视频的时间分层性质。通过采用简单的双塔架构，我们能够使用预训练的图像-文本基础模型初始化我们的视频-语言模型，从而提高最终性能。其次，现有的视频-语言对齐工作由于缺乏语义对齐的大规模训练数据而面临困难。为了克服这一问题，我们利用最近的LLM来策划迄今为止最大的视频-语言数据集，具有更好的视觉基础。此外，与现有的仅包含短视频片段的视频-文本数据集不同，我们的数据集包含各种持续时间的视频片段，以帮助我们的时间分层数据标记在不同时间尺度上提取更好的表示。总体而言，实证结果表明我们提出的方法在多个检索基准上超越了最先进的方法，特别是在较长视频上，并在分类基准上表现出竞争力。

SiMBA：用于视觉和多变量时间序列的简化曼巴架构
SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series

Mar 22

ByBadri N. Patro, Vijay S. Agneeswaran

Transformer已广泛采用注意力网络进行序列混合和MLPs进行通道混合，在各个领域取得突破性进展中发挥着关键作用。然而，最近的文献突出了注意力网络存在的问题，包括对输入序列长度的低归纳偏差和二次复杂度。像S4和其他SSMs（如Hippo、Global Convolutions、liquid S4、LRU、Mega和Mamba）这样的状态空间模型已经出现，以解决上述问题，帮助处理更长的序列长度。尽管Mamba是最先进的SSM，但在扩展到大型计算机视觉数据集的网络时存在稳定性问题。我们提出了SiMBA，这是一种新架构，通过特定的特征值计算引入Einstein FFT（EinFFT）来进行通道建模，并使用Mamba块进行序列建模。对图像和时间序列基准的广泛性能研究表明，SiMBA优于现有的SSMs，在与最先进的Transformer之间的性能差距上取得了突破。值得注意的是，SiMBA在ImageNet和转移学习基准（如Stanford Car和Flower）以及任务学习基准以及七个时间序列基准数据集上确立了自己作为新的最先进的SSM。该项目页面可在此网站上找到：https://github.com/badripatro/Simba。

DragAPart：为关节对象学习部件级运动先验
DragAPart: Learning a Part-Level Motion Prior for Articulated Objects

Mar 22

ByRuining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi

我们介绍了DragAPart，这是一种方法，给定一幅图像和一组拖动作为输入，可以生成一个新的图像，展示相同物体的新状态，与拖动的动作相兼容。与之前侧重于重新定位物体的作品不同，DragAPart预测部分级别的交互，比如打开和关闭抽屉。我们将这个问题作为学习通用运动模型的代理，不限于特定的运动结构或物体类别。为此，我们从一个预先训练好的图像生成器开始，并在一个新的合成数据集Drag-a-Move上进行微调，该数据集由我们引入。结合一种新的拖动编码和数据集随机化，新模型很好地推广到真实图像和不同类别。与之前的运动控制生成器相比，我们展示了更好的部分级别运动理解能力。

FollowIR：评估和教授信息检索模型以遵循指令
FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions

Mar 22

ByOrion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini

现代大型语言模型（LLMs）能够遵循长而复杂的指令，从而实现多样化的用户任务。然而，尽管信息检索（IR）模型使用LLMs作为其架构的基础，几乎所有这些模型仍然只接受查询作为输入，而没有指令。对于少数最近接受指令的模型，它们如何使用这些指令尚不清楚。我们引入了我们的数据集FollowIR，其中包含严格的指令评估基准以及一个训练集，帮助IR模型学会更好地遵循现实世界的指令。FollowIR基于TREC会议长期历史发展而来：正如TREC为人类注释者提供指令（也称为叙述）以确定文档相关性一样，IR模型应该能够根据这些详细的指令理解和确定相关性。我们的评估基准从三个经过深度评判的TREC集合开始，并修改注释者的指令，重新注释相关文档。通过这个过程，我们可以衡量IR模型如何遵循指令，通过一个新的成对评估框架。我们的结果表明，现有的检索模型未能正确使用指令，只将其用于基本关键词，并且难以理解长篇信息。然而，我们展示了IR模型可以学会遵循复杂指令的可能性：我们的新FollowIR-7B模型在我们的训练集上微调后取得了显著的改进（超过13%）。

全员参与：通过大型语言模型进行大规模逐字反馈的问答环节
AllHands: Ask Me Anything on Large-scale Verbatim Feedback via Large Language Models

Mar 22

ByChaoyun Zhang, Zicheng Ma, Yuhao Wu, Shilin He, Si Qin, Minghua Ma, Xiaoting Qin, Yu Kang, Yuyi Liang, Xiaoyu Gou, Yajie Xue, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

逐字反馈构成了用户体验、意见和需求的宝贵资料库，对软件开发至关重要。从这些数据中有效高效地提取有价值的见解是一项具有挑战性的任务。本文介绍了Allhands，这是一个创新的分析框架，旨在通过自然语言界面进行大规模反馈分析，利用大型语言模型（LLMs）。Allhands遵循传统的反馈分析工作流程，首先对反馈进行分类和主题建模，将其转换为结构化增强格式，整合LLMs以提高准确性、鲁棒性、泛化性和用户友好性。随后，采用LLM代理来解释用户在反馈中提出的多样化问题，将其翻译成Python代码进行执行，并提供全面的多模态响应，包括文本、代码、表格和图片。我们在三个不同的反馈数据集上评估了Allhands。实验证明，Allhands在所有分析阶段，包括分类和主题建模，都取得了卓越的效果，最终为用户提供了“问我任何事”的体验，提供全面、正确和易读的回应。据我们所知，Allhands是第一个支持通过自然语言界面提取见解的多样化和定制化需求的全面反馈分析框架。

LATTE3D：大规模摊销文本到增强3D合成
LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis

Mar 22

ByKevin Xie, Jonathan Lorraine, Tianshi Cao, Jun Gao, James Lucas, Antonio Torralba, Sanja Fidler, Xiaohui Zeng

最近的文本生成3D方法产生了令人印象深刻的3D结果，但需要耗时的优化，每个提示可能需要长达一小时。类似ATT3D的摊销方法同时优化多个提示，以提高效率，实现快速文本到3D合成。然而，它们无法捕捉高频几何和纹理细节，并且难以扩展到大型提示集，因此泛化能力较差。我们引入LATTE3D，解决这些限制，实现在显著更大的提示集上快速、高质量的生成。我们方法的关键在于：1）构建可扩展的架构，2）利用3D数据在优化过程中通过3D感知扩散先验、形状正则化和模型初始化实现对多样化和复杂训练提示的稳健性。LATTE3D摊销神经场和纹理表面生成，以在单次前向传递中生成高度详细的纹理网格。LATTE3D在400毫秒内生成3D对象，并可以通过快速测试时间优化进一步增强。

大型语言模型的编译器生成反馈
Compiler generated feedback for Large Language Models

Mar 18

ByDejan Grubisic, Chris Cummins, Volker Seeker, Hugh Leather

我们引入了一种新的编译器优化范式，利用大型语言模型与编译器反馈来优化LLVM汇编代码的大小。该模型以未经优化的LLVM IR作为输入，生成优化后的IR、最佳优化传递方式，以及未经优化和优化后的IR的指令计数。然后，我们使用生成的优化传递方式编译输入，并评估预测的指令计数是否正确，生成的IR是否可编译，并且是否与编译后的代码相对应。我们将这些反馈返回给LLM，并让其有机会再次优化代码。这种方法相比于原始模型的 -Oz 可额外提高0.53%。尽管添加更多反馈信息似乎很直观，但简单的采样技术在给定10个或更多样本时实现了更高的性能。

AI研究论文每日精选

每日精选AI研究论文及翻译