AI研究论文每日精选

每日精选AI研究论文及翻译

FinTral：一系列GPT-4级别的多模态金融大型语言模型
FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

Feb 16

ByGagan Bhatia, El Moatez Billah Nagoudi, Hasan Cavusoglu, Muhammad Abdul-Mageed

我们介绍了FinTral，这是一套基于Mistral-7b模型构建的最先进的多模态大型语言模型（LLMs），专为金融分析定制。FinTral集成了文本、数值、表格和图像数据。我们通过利用为本研究策划的大量文本和视觉数据集，增强了FinTral的领域特定预训练、指导微调和RLAIF训练。我们还推出了一个包含九项任务和25个数据集用于评估的广泛基准测试，其中包括金融领域的幻觉。我们的FinTral模型通过采用先进的工具和检索方法进行直接偏好优化训练，命名为FinTral-DPO-T&R，展示了出色的零样本性能。在所有任务中，它都优于ChatGPT-3.5，并在九项任务中的五项中超越了GPT-4，标志着人工智能驱动的金融技术取得了重大进展。我们还证明了FinTral有潜力在不同金融环境中实现实时分析和决策。

FiT：灵活视觉Transformer用于扩散模型
FiT: Flexible Vision Transformer for Diffusion Model

Feb 19

ByZeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai

自然具有无限的分辨率。在这个现实背景下，现有的扩散模型，如扩散Transformer，在处理超出其训练域的图像分辨率时经常面临挑战。为了克服这一局限性，我们提出了灵活视觉Transformer（FiT），这是一种专门设计用于生成具有无限制分辨率和长宽比的图像的Transformer架构。与将图像视为静态分辨率网格的传统方法不同，FiT将图像概念化为动态大小的令牌序列。这种视角使得训练策略更加灵活，能够在训练和推理阶段轻松适应各种长宽比，从而促进分辨率泛化，并消除由图像裁剪引起的偏见。通过精心调整的网络结构和集成无需训练的外推技术，FiT在分辨率外推生成方面表现出卓越的灵活性。全面的实验证明了FiT在广泛分辨率范围内的出色性能，展示了其在训练分辨率分布内外的有效性。存储库位于https://github.com/whlzy/FiT。

AnyGPT：具有离散序列建模的统一多模态LLM
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

Feb 19

ByJun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu

我们介绍了AnyGPT，这是一个任意多模态语言模型，利用离散表示统一处理各种模态，包括语音、文本、图像和音乐。AnyGPT可以稳定训练，而无需对当前大型语言模型（LLM）架构或训练范式进行任何修改。相反，它完全依赖于数据级预处理，促进了新模态的无缝集成到LLM中，类似于引入新语言。我们构建了一个多模态文本为中心的数据集，用于多模态对齐预训练。利用生成模型，我们合成了第一个大规模的任意多模态指导数据集。它包括108k个多轮对话样本，精巧地交织了各种模态，从而使模型能够处理任意组合的多模态输入和输出。实验结果表明，AnyGPT能够促进任意多模态对话，同时在所有模态上实现与专门模型相媲美的性能，证明了离散表示能够有效且方便地统一语言模型内的多个模态。演示请参见https://junzhan2000.github.io/AnyGPT.github.io/

推测性流式处理：无需辅助模型的快速LLM推断
Speculative Streaming: Fast LLM Inference without Auxiliary Models

Feb 16

ByNikhil Bhendawade, Irina Belousova, Qichen Fu, Henry Mason, Mohammad Rastegari, Mahyar Najibi

推测解码是一种突出的技术，可加速基于辅助草案模型预测的大型目标语言模型的推理过程。虽然在特定应用设置中有效，但通常需要微调草案和目标模型以实现高接受率。随着下游任务数量的增加，这些草案模型给推理系统增加了显著的复杂性。我们提出了一种称为推测流的单模型推测解码方法，通过将起草融入目标模型，将微调目标从下一个标记预测改为未来 n 克预测。推测流在各种任务中（如摘要、结构化查询和意义表示）中将解码加速了 1.8 - 3.1 倍，而不会牺牲生成质量。此外，推测流具有参数高效的特点。它实现了与 Medusa 风格架构相当/更高的加速，同时使用了约 10000 倍更少的额外参数，使其非常适合资源受限设备。

OneBit：走向极低比特大型语言模型
OneBit: Towards Extremely Low-bit Large Language Models

Feb 17

ByYuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che

模型量化使用低比特宽度的数值来表示模型的权重矩阵，这是一种有前途的方法，可以减少部署高度期望的LLM时的存储和计算开销。然而，现有的量化方法在比特宽度极度降低时会遭受严重的性能下降，因此主要集中在利用4比特或8比特的数值来量化模型。本文大胆地将LLM的权重矩阵量化为1比特，为LLM的极低比特宽度部署铺平了道路。为了实现这一目标，我们引入了一种名为OneBit的1比特量化感知训练（QAT）框架，其中包括一种新颖的1比特参数表示方法，以更好地量化LLM，以及基于矩阵分解的有效参数初始化方法，以提高QAT框架的收敛速度。充分的实验结果表明，OneBit在仅使用1比特权重矩阵时，能够实现良好的性能（至少达到非量化性能的83%），并具有稳健的训练过程。

CoLLaVO：蜡笔大语言与视觉模型
CoLLaVO: Crayon Large Language and Vision mOdel

Feb 17

ByByung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

大型语言模型（LLMs）和指导调整的显著成功推动了视觉语言模型（VLMs）朝着多功能通用模型的发展。然而，目前的VLMs是否真正具备从“图像中有哪些对象？”或“哪个对象对应于指定的边界框？”等方面确定质量对象级图像理解能力尚未被探索。我们的研究结果显示，当前VLMs的图像理解能力与它们在视觉语言（VL）任务的零样本性能密切相关。这表明，优先考虑基本图像理解对于VLMs在VL任务中表现出色至关重要。为了增强对象级图像理解，我们提出了基于彩色笔记提示的Crayon大型语言和视觉模型（CoLLaVO），该模型将指导调整与蜡笔提示相结合，基于全景色彩地图的新视觉提示调整方案。此外，我们提出了一种名为Dual QLoRA的学习策略，以在视觉指导调整过程中保持对象级图像理解而不遗忘它，从而在零样本众多VL基准测试中取得了显著进展。

通过语言模型预测控制，从人类反馈中学习更快速的学习
Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Feb 18

ByJacky Liang, Fei Xia, Wenhao Yu, Andy Zeng, Montserrat Gonzalez Arenas, Maria Attarian, Maria Bauza, Matthew Bennice, Alex Bewley, Adil Dostmohamed, Chuyuan Kelly Fu, Nimrod Gileadi, Marissa Giustina, Keerthana Gopalakrishnan, Leonard Hasenclever, Jan Humplik, Jasmine Hsu, Nikhil Joshi, Ben Jyenis, Chase Kew, Sean Kirmani, Tsang-Wei Edward Lee, Kuang-Huei Lee, Assaf Hurwitz Michaely, Joss Moore, Ken Oslund, Dushyant Rao, Allen Ren, Baruch Tabanpour, Quan Vuong, Ayzaan Wahid, Ted Xiao, Ying Xu, Vincent Zhuang, Peng Xu, Erik Frey, Ken Caluwaerts, Tingnan Zhang, Brian Ichter, Jonathan Tompson, Leila Takayama, Vincent Vanhoucke, Izhak Shafran, Maja Mataric, Dorsa Sadigh, Nicolas Heess, Kanishka Rao, Nik Stewart, Jie Tan, Carolina Parada

大型语言模型（LLMs）已被证明具有广泛的能力，例如从语言命令中编写机器人代码，使非专家能够指导机器人行为，根据反馈进行修改，或将其组合以执行新任务。然而，这些能力（由上下文学习驱动）仅限于短期交互，用户的反馈只有在符合LLM的上下文大小范围内时才保持相关，并且在较长时间的交互中可能会被遗忘。在这项工作中，我们研究了对机器人编写代码的LLMs进行微调，以记住它们的上下文交互并改善它们的可教性，即它们如何有效地适应人类输入（通过用户认为任务成功之前的平均更正次数来衡量）。我们的关键观察是，当人机交互被构建为部分可观察的马尔可夫决策过程（其中人类语言输入是观察值，机器人代码输出是动作）时，训练LLM以完成先前的交互可以被视为训练一个转移动态模型，可以与经典的机器人技术（如模型预测控制（MPC））结合，以发现成功的更短路径。这引出了语言模型预测控制（LMPC），一个框架，通过微调PaLM 2来改善其在5个机器人实体上的78个任务中的可教性，将未见任务的非专家教学成功率提高了26.9％，同时将人类更正的平均次数从2.4减少到1.9。实验证明，LMPC还产生了强大的元学习器，将在未见机器人实体和API上学习新任务的成功率提高了31.5％。请访问以下链接查看视频、代码和演示：https://robot-teaching.github.io/。

长代理：通过多智能体协作将语言模型扩展到128k上下文
LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration

Feb 18

ByJun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi Zhang, Xuanjing Huang

大型语言模型（LLMs）展示了在理解语言和执行复杂推理任务方面的出色性能。然而，具有长上下文窗口的LLMs以其昂贵的训练成本和高推理延迟而臭名昭著。即使是最先进的模型，如GPT-4和Claude2，在处理超过100k标记的输入时也经常出现错误，这种现象也被称为中间迷失。在本文中，我们提出了LongAgent，这是一种基于多智能体协作的方法，可以将LLMs（例如LLaMA）扩展到128K的上下文，并在长文本处理方面展现出潜在的优势，与GPT-4相比。在LongAgent中，一位领导者负责理解用户意图并指导团队成员从文档中获取信息。由于成员的幻觉，领导者很难从数十到数百名成员的回应中获取准确信息。为了解决这个问题，我们开发了一种成员间通信机制，通过信息共享来解决由幻觉引起的回应冲突。我们的实验结果表明，LongAgent为长文本处理提供了一个有前途的替代方案。使用LLaMA-7B实例化的智能体团队在诸如128k长文本检索、多跳问题回答等任务中相比GPT-4取得了显著的改进。

重新格式化的对齐
Reformatted Alignment

Feb 19

ByRun-Ze Fan, Xuefeng Li, Haoyang Zou, Junlong Li, Shwai He, Ethan Chern, Jiewen Hu, Pengfei Liu

微调数据的质量对于使大型语言模型（LLMs）与人类价值观保持一致至关重要。目前改善数据质量的方法要么需要大量人力，要么容易出现由LLM幻觉引起的事实错误。本文探讨了提升现有指导数据质量以更好地与人类价值观保持一致的方法，引入了一种名为ReAlign的简单有效方法，该方法将指导数据的响应重新格式化为更符合预先确定标准和汇编证据的格式。这种方法最大程度地减少了人工注释、幻觉和扩展困难，与现有的对齐技术保持正交。在实验中，ReAlign显著提升了LLMs的一般对齐能力、数学推理能力、事实性和可读性。令人鼓舞的是，在不引入任何额外数据或高级训练技术的情况下，仅通过重新格式化响应，LLaMA-2-13B在GSM8K上的数学推理能力从46.77%提高到56.63%的准确率。此外，仅使用5%的ReAlign数据，在Alpaca数据集上测量的一般对齐能力提升了67%。这项工作凸显了对LLMs的科学和机械解释能力的进一步研究的必要性。我们已经公开了相关代码和数据，以支持未来研究，网址为https://github.com/GAIR-NLP/ReAlign。

GLoRe：通过全局和局部的改进来提高LLM推理的时间、位置和方式
GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

Feb 13

ByAlex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Roberta Railneau

最先进的语言模型在数学、科学或编码任务上展现出令人印象深刻的推理细化能力。然而，最近的研究表明，即使是最好的模型也很难在没有外部反馈的情况下确定何时以及在哪里进行细化。基于结果的奖励模型（ORMs），训练以预测最终答案的正确性，指示何时进行细化，为确定何时进行细化提供了一种便利的解决方案。基于过程的奖励模型（PRMs），训练以预测中间步骤的正确性，然后可用于指示何处进行细化。但它们的训练成本很高，需要大量人工标注。在本文中，我们提出了逐步ORMs（SORMs），它们仅在合成数据上训练，以近似预期未来奖励的最佳策略或V^{star}。更具体地说，SORMs被训练以在多次采样当前策略时预测最终答案的正确性（而不仅仅像ORMs那样只进行一次）。我们的实验表明，与ORMs相比，SORMs能更准确地检测出错误的推理步骤，从而在进行细化时提高下游准确性。然后，我们训练了全局细化模型，仅以问题和草稿解决方案作为输入，并预测出修正后的解决方案，以及本地细化模型，还以指示第一个推理错误位置的批评作为输入。我们通过重新使用用于训练SORM的数据来合成为这两种模型生成训练数据。我们发现，结合全局和本地细化，使用ORM作为重新排序器，明显优于单独使用任何一种模型，以及三种样本基线中的最佳表现。通过这种策略，我们可以将已经通过RL进行精调的LLaMA-2 13B模型在GSM8K上的准确率从53%提高到65%。

DiLightNet：面向基于扩散的图像生成的细粒度光照控制
DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation

Feb 19

ByChong Zeng, Yue Dong, Pieter Peers, Youkang Kong, Hongzhi Wu, Xin Tong

本文提出了一种新颖的方法，用于在基于扩散的图像生成过程中实现细粒度的光照控制。虽然现有的扩散模型已经能够在任何光照条件下生成图像，但在没有额外指导的情况下，这些模型往往会将图像内容和光照进行关联。此外，文本提示缺乏描述详细光照设置所需的表现力。为了在图像生成过程中为内容创建者提供对光照的细粒度控制，我们通过在文本提示中增加详细的光照信息，以辐射提示的形式，即在目标光照下使用具有均匀规范材质的场景几何的可视化。然而，生成辐射提示所需的场景几何是未知的。我们的关键观察是，我们只需要引导扩散过程，因此不需要精确的辐射提示；我们只需要将扩散模型指向正确的方向。基于这一观察，我们介绍了一种三阶段方法来控制图像生成过程中的光照。在第一阶段，我们利用标准预训练的扩散模型在未受控制的光照下生成临时图像。接下来，在第二阶段，我们通过将目标光照传递给一个经过改进的扩散模型（称为DiLightNet），使用从临时图像推断出的前景对象的粗略形状计算的辐射提示，对生成的图像中的前景对象进行重新合成和细化。为了保留纹理细节，我们将辐射提示与临时合成图像的神经编码相乘，然后将其传递给DiLightNet。最后，在第三阶段，我们重新合成背景，使其与前景对象上的光照保持一致。我们在各种文本提示和光照条件下展示和验证了我们的光照控制扩散模型。

二值不透明度网格：捕捉基于网格的视图合成的精细几何细节
Binary Opacity Grids: Capturing Fine Geometric Detail for Mesh-Based View Synthesis

Feb 19

ByChristian Reiser, Stephan Garbin, Pratul P. Srinivasan, Dor Verbin, Richard Szeliski, Ben Mildenhall, Jonathan T. Barron, Peter Hedman, Andreas Geiger

尽管基于表面的视图合成算法由于其低计算需求而具有吸引力，但它们通常难以重现细小结构。相比之下，更昂贵的方法将场景的几何形状建模为体积密度场（例如NeRF），在重建精细几何细节方面表现出色。然而，密度场通常以“模糊”的方式表示几何形状，这会阻碍对表面的精确定位。在这项工作中，我们修改密度场以鼓励其向表面收敛，而不影响其重建细小结构的能力。首先，我们采用离散不透明度网格表示，而不是连续密度场，这使得不透明度值可以在表面处从零突变到一。其次，我们通过每像素投射多条射线进行抗锯齿处理，从而可以对遮挡边界和亚像素结构进行建模，而无需使用半透明体素。第三，我们最小化不透明度值的二进熵，通过鼓励不透明度值在训练结束时向二值化收敛，有助于提取表面几何形状。最后，我们开发了基于融合的网格化策略，随后进行网格简化和外观模型拟合。我们模型生成的紧凑网格可以在移动设备上实时渲染，并且与现有基于网格的方法相比，在视图合成质量上取得了显著提高。

Vision-Flan：在视觉指导调整中扩展人工标记任务
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning

Feb 18

ByZhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang

尽管视觉-语言模型（VLMs）作为多功能视觉助手具有显著的能力，但现有VLM框架中仍存在两个重要挑战：（1）在预训练和视觉指导微调中缺乏任务多样性，以及（2）GPT-4合成指导数据中存在的注释错误和偏见。这两个挑战导致了诸如泛化能力差、幻觉和灾难性遗忘等问题。为了解决这些挑战，我们构建了Vision-Flan，这是迄今为止最多样化的公开可用的视觉指导微调数据集，包括187个不同的任务和1,664,261个实例，这些实例来自学术数据集，每个任务都附带有专家撰写的指导。此外，我们提出了一个两阶段指导微调框架，其中VLMs首先在Vision-Flan上进行微调，然后在GPT-4合成数据上进一步微调。我们发现，这种两阶段微调框架明显优于传统的单阶段视觉指导微调框架，并在广泛的多模态评估基准上实现了最先进的性能。最后，我们进行了深入分析以了解视觉指导微调，我们的研究结果表明：（1）GPT-4合成数据并没有显著增强VLMs的能力，而是调节模型对人类首选格式的响应；（2）少量（例如1,000个）的GPT-4合成数据可以有效地使VLM的响应与人类偏好对齐；（3）视觉指导微调主要有助于大型语言模型（LLMs）理解视觉特征。

在容量和可扩展性方面推动自回归模型用于3D形状生成
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability

Feb 19

ByXuelin Qian, Yu Wang, Simian Luo, Yinda Zhang, Ying Tai, Zhenyu Zhang, Chengjie Wang, Xiangyang Xue, Bo Zhao, Tiejun Huang, Yunsheng Wu, Yanwei Fu

自回归模型通过在网格空间建模联合分布，在2D图像生成方面取得了令人印象深刻的成果。本文将自回归模型扩展到3D领域，并通过同时提高容量和可扩展性来寻求更强大的3D形状生成能力。首先，我们利用一组公开可用的3D数据集来促进大规模模型的训练。该数据集包含大约 900,000 个对象的全面收集，具有网格、点、体素、渲染图像和文本标题的多种属性。这个多样化的标记数据集，被称为 Objaverse-Mix，使我们的模型能够从各种对象变化中学习。然而，直接应用3D自回归在体积网格上遇到了计算需求高和沿网格维度模糊的自回归顺序等关键挑战，导致3D形状质量较低。因此，我们提出了一个名为 Argus3D 的新框架来提高容量。具体而言，我们的方法引入了基于潜在向量的离散表示学习，而不是基于体积网格，这不仅降低了计算成本，还通过以更易处理的顺序学习联合分布来保留基本几何细节。条件生成的容量可以通过简单地将各种条件输入连接到潜在向量上来实现，例如点云、类别、图像和文本。此外，由于我们模型架构的简单性，我们自然地将我们的方法扩展到一个具有惊人 36 亿参数的更大模型，进一步提高了多功能 3D 生成的质量。对四个生成任务的大量实验表明，Argus3D 能够在多个类别中合成多样且忠实的形状，取得了显著的性能。

AI研究论文每日精选

每日精选AI研究论文及翻译