AI研究论文每日精选

每日精选AI研究论文及翻译

HuatuoGPT-o1，面向医学复杂推理的大型语言模型(Large Language Models)
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

Dec 25

ByJunying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang

107

OpenAI o1的突破突显了增强推理以改进LLM的潜力。然而，大多数推理研究集中在数学任务上，而将医学等领域置于不足之地。虽然医学领域与数学有所不同，但也需要强大的推理能力以提供可靠答案，鉴于医疗保健的高标准。然而，验证医学推理是具有挑战性的，不像数学中那样简单。为了解决这个问题，我们提出了具有医学验证器的可验证医学问题，以检查模型输出的正确性。这种可验证的特性通过两阶段方法推动医学推理的进展：（1）使用验证器指导对复杂推理轨迹的搜索，以微调LLM，（2）应用基于验证器奖励的强化学习（RL）进一步增强复杂推理。最后，我们介绍了HuatuoGPT-o1，一个能够进行复杂推理的医学LLM，仅使用40K个可验证问题就能胜过一般和医学特定基准。实验表明，复杂推理改善了医学问题解决，并且更多地受益于RL。我们希望我们的方法能激发医学和其他专业领域推理的进步。

1. 58比特 FLUX
1.58-bit FLUX

Dec 24

ByChenglin Yang, Celong Liu, Xueqing Deng, Dongwon Kim, Xing Mei, Xiaohui Shen, Liang-Chieh Chen

我们提出了1.58比特FLUX，这是第一个成功的方法，用1.58比特的权重（即在{-1, 0, +1}中的值）量化最先进的文本到图像生成模型FLUX.1-dev，同时保持生成1024 x 1024图像的可比性能。值得注意的是，我们的量化方法在没有图像数据的情况下运行，仅依赖于FLUX.1-dev模型的自我监督。此外，我们开发了一个针对1.58比特操作进行优化的自定义内核，实现了模型存储的7.7倍减少，推理内存的5.1倍减少，以及改进的推理延迟。在GenEval和T2I Compbench基准测试上进行了广泛评估，证明了1.58比特FLUX在保持生成质量的同时显著提高了计算效率的有效性。

面向多模态智能的下一个标记预测：一项全面调查
Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

Dec 16

ByLiang Chen, Zekun Wang, Shuhuai Ren, Lei Li, Haozhe Zhao, Yunshui Li, Zefan Cai, Hongcheng Guo, Lei Zhang, Yizhe Xiong, Yichi Zhang, Ruoyu Wu, Qingxiu Dong, Ge Zhang, Jian Yang, Lingwei Meng, Shujie Hu, Yulong Chen, Junyang Lin, Shuai Bai, Andreas Vlachos, Xu Tan, Minjia Zhang, Wen Xiao, Aaron Yee, Tianyu Liu, Baobao Chang

在自然语言处理中的语言建模基础上，下一个标记预测（Next Token Prediction，NTP）已经发展成为机器学习任务中的一种多功能训练目标，跨越各种模态取得了相当大的成功。随着大型语言模型（Large Language Models，LLMs）不断发展，统一了文本模态内的理解和生成任务，最近的研究表明，来自不同模态的任务也可以有效地包含在NTP框架内，将多模态信息转换为标记并根据上下文预测下一个标记。本调查通过NTP的视角引入了一个统一理解和生成多模态学习的全面分类法。提出的分类法涵盖了五个关键方面：多模态标记化、MMNTP模型架构、统一任务表示、数据集与评估以及开放挑战。这一新分类法旨在帮助研究人员探索多模态智能。一个相关的 GitHub 仓库，收集了最新的论文和存储库，网址为https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction。

从渲染3D模型中学习稳健的物体方向估计
Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models

Dec 24

ByZehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao

方向是物体的关键属性，对于理解其在图像中的空间姿势和排列至关重要。然而，从单张图像准确估计方向的实际解决方案仍未得到充分探讨。在这项工作中，我们介绍了Orient Anything，这是第一个专业且基础的模型，旨在估计单视角和自由视角图像中的物体方向。由于标记数据稀缺，我们提出从3D世界中提取知识。通过开发一个流程来注释3D物体的正面并从随机视角渲染图像，我们收集了200万张带有精确方向注释的图像。为充分利用数据集，我们设计了一个强大的训练目标，将3D方向建模为三个角度的概率分布，并通过拟合这些分布来预测物体方向。此外，我们采用了几种策略来改善从合成到真实的转移。我们的模型在渲染和真实图像中均实现了最先进的方向估计准确性，并展现了在各种场景中令人印象深刻的零样本能力。更重要的是，我们的模型增强了许多应用，例如理解和生成复杂的空间概念以及3D物体姿势调整。

任务偏好优化：通过视觉任务对齐改进多模态大语言模型
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

Dec 26

ByZiang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang, Yu Qiao, Limin Wang, Yi Wang

当前的多模态大型语言模型（MLLMs）虽然在视觉感知和推理的各种视觉应用中表现出全面的认知能力，但在对视觉的细粒度或精确理解方面仍存在困难。最近的研究要么开发工具使用，要么将特定视觉任务统一到自回归框架中，但往往以牺牲整体多模态性能为代价。为了解决这一问题，并以可扩展的方式增强MLLMs的视觉任务，我们提出了任务偏好优化（TPO），这是一种利用典型细粒度视觉任务导出的可微任务偏好的新方法。TPO引入了可学习的任务标记，建立了多个任务特定头部和MLLM之间的连接。通过在训练过程中利用丰富的视觉标签，TPO显著增强了MLLM的多模态能力和任务特定性能。通过TPO内的多任务共同训练，我们观察到协同效应的好处，提升了单个任务性能，超出了通过单任务训练方法可实现的范围。我们在VideoChat和LLaVA上实例化了这种方法，相比基线模型，整体多模态性能提高了14.6%。此外，MLLM-TPO展示了在各种任务上的强大零样本能力，表现与最先进的监督模型相当。代码将在 https://github.com/OpenGVLab/TPO 上发布。

从元素到设计：一种分层方法用于自动图形设计组合
From Elements to Design: A Layered Approach for Automatic Graphic Design Composition

Dec 27

ByJiawei Lin, Shizhao Sun, Danqing Huang, Ting Liu, Ji Li, Jiang Bian

在这项工作中，我们研究了从多模态图形元素中进行自动设计构成。尽管最近的研究已经为图形设计开发了各种生成模型，但它们通常面临以下限制：它们只关注特定子任务，远未达到设计构成任务；它们在生成过程中未考虑图形设计的层次信息。为了解决这些问题，我们将分层设计原则引入大型多模态模型（LMMs），并提出了一种新方法，称为LaDeCo，以完成这一具有挑战性的任务。具体而言，LaDeCo首先为给定元素集执行层规划，根据其内容将输入元素划分为不同的语义层。基于规划结果，它随后以逐层方式预测控制设计构成的元素属性，并将先前生成的层的渲染图像包含在上下文中。通过这种富有洞察力的设计，LaDeCo将困难的任务分解为更小的可管理步骤，使生成过程更加顺畅和清晰。实验结果证明了LaDeCo在设计构成中的有效性。此外，我们展示了LaDeCo在图形设计中实现一些有趣应用的能力，如分辨率调整、元素填充、设计变体等。此外，它甚至在一些设计子任务中表现优于专门模型，而无需进行任何特定任务的训练。

使用Itô密度估计器对扩散模型进行叠加
The Superposition of Diffusion Models Using the Itô Density Estimator

Dec 23

ByMarta Skreta, Lazar Atanackovic, Avishek Joey Bose, Alexander Tong, Kirill Neklyudov

易于访问的预训练扩散模型的寒武纪爆发表明了对结合多个不同预训练扩散模型的方法的需求，而无需承担重新训练更大组合模型所带来的显著计算负担。在本文中，我们将在生成阶段将结合多个预训练扩散模型的问题，置于一个新提出的名为“叠加”的框架下。理论上，我们从著名的连续方程的严格第一原理中推导出叠加，并设计了两种专为在SuperDiff中结合扩散模型而量身定制的新算法。SuperDiff利用一种新的可扩展的It\^o密度估计器来估计扩散SDE的对数似然，与用于计算散度的著名Hutchinson估计器相比，不会产生额外开销。我们展示了SuperDiff可扩展到大型预训练扩散模型，因为叠加仅在推断过程中通过组合执行，而且在实现过程中也非常简便，通过自动重新加权方案将不同的预训练矢量场组合在一起。值得注意的是，我们展示了SuperDiff在推断时是高效的，并且模拟了传统的组合运算符，如逻辑OR和逻辑AND。我们在实证中展示了使用SuperDiff生成CIFAR-10上更多样化图像、使用稳定扩散进行更忠实的提示条件图像编辑以及改进的无条件全新蛋白质结构设计的效用。https://github.com/necludov/super-diffusion

视频制作者：利用视频扩散模型的固有力量进行零样本定制视频生成
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

Dec 27

ByTao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li

由于其巨大的应用潜力，零样本定制视频生成引起了广泛关注。现有方法依赖于额外的模型来提取和注入参考主题特征，假设仅靠视频扩散模型（VDM）是不足以进行零样本定制视频生成的。然而，这些方法通常由于次优的特征提取和注入技术而难以保持一致的主题外观。本文揭示了VDM固有地具有提取和注入主题特征的能力。我们摒弃了先前的启发式方法，引入了一种新颖的框架，利用VDM固有的力量实现高质量的零样本定制视频生成。具体而言，对于特征提取，我们直接将参考图像输入VDM，并利用其内在的特征提取过程，这不仅提供了细粒度特征，而且与VDM的预训练知识显著对齐。对于特征注入，我们通过VDM内的空间自注意力之间的创新的双向交互设计了一个机制，确保VDM在保持生成视频的多样性的同时具有更好的主题保真度。在定制人类和物体视频生成方面的实验验证了我们框架的有效性。

通过预调整和后调整模型合并来保护经过精细调整的LLMs。
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

Dec 27

ByHua Farn, Hsuan Su, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee

对大型语言模型（LLMs）进行下游任务微调是一种被广泛采纳的方法，但往往会导致安全对齐的LLMs安全性下降。目前，许多解决方案通过纳入额外的安全数据来解决这个问题，但在许多情况下这种做法并不切实际。本文探讨了一个问题：在不依赖额外安全数据的情况下，我们如何在保持LLMs安全性的同时提高下游任务性能？我们提出了一种简单而有效的方法，即合并预微调和后微调的安全对齐模型的权重，以保持LLMs的固有安全性并增强它们的下游任务性能。跨越各种下游任务、模型和合并方法的实验结果表明，这种方法有效地缓解了安全性下降的问题，同时提高了下游任务的性能，为适应安全对齐的LLMs提供了一个实用的解决方案。

CypherBench：走向在LLM时代对现代知识图谱的精确检索
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era

Dec 24

ByYanlin Feng, Simone Papicchio, Sajjadur Rahman

从图数据中检索对于增强大型语言模型（LLM）具有至关重要的作用，可以为其提供开放领域知识和私人企业数据，也是最近GraphRAG系统（edge等，2024年）的关键组成部分。尽管在知识图谱和知识库问答方面进行了几十年的研究，但领先的LLM框架（如Langchain和LlamaIndex）对于从现代百科知识图谱（如Wikidata）中检索仅有最低限度的支持。在本文中，我们分析了根本原因，并认为现代RDF知识图谱（如Wikidata、Freebase）对于LLM而言效率较低，原因在于其过大的模式远远超出了典型的LLM上下文窗口，使用资源标识符、重叠的关系类型和缺乏规范化。作为解决方案，我们提出在底层RDF图之上的属性图视图，可以通过Cypher有效地查询。我们在Wikidata上实现了这一想法，并引入了CypherBench，这是第一个具有11个大规模、多领域属性图的基准测试，涵盖780万个实体和超过10,000个问题。为了实现这一目标，我们解决了几个关键挑战，包括开发了一个RDF到属性图转换引擎，创建了一个文本到Cypher任务生成的系统化流程，并设计了新的评估指标。

SBS图表：来自分阶段合成图像的预训练图像问答
SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images

Dec 23

ByRisa Shinoda, Kuniaki Saito, Shohei Tanaka, Tosho Hirasawa, Yoshitaka Ushiku

构建一个大规模的图形问答数据集需要大量的工作，从收集和选择图形到提取文本、数字和颜色等属性，并生成问答。尽管最近LLM技术的发展促使人们努力合成图形，但大多数工作主要集中在问答生成上。此外，直接使用LLM创建图形往往会遇到诸如代码错误、外观相似的图形和图形中的重复内容等问题。为了解决这个问题，我们提出了SBSFigures（分阶段合成图形），这是一个用于图形问答预训练的数据集。我们提出的流程使得能够创建具有可视化数据完整注释和密集问答注释的图表图形，而无需进行任何手动注释过程。我们的分阶段流程使得能够高效创建多样化的主题和外观图形，同时最大程度地减少代码错误。我们的SBSFigures展示了强大的预训练效果，使得可以从我们的预训练权重开始，仅使用有限量的真实图表数据就能实现高效训练。