AI研究论文每日精选

每日精选AI研究论文及翻译

利用10亿个人设进行合成数据创建的扩展
Scaling Synthetic Data Creation with 1,000,000,000 Personas

Jun 28

ByXin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu

104

我们提出了一种新颖的以人物为驱动的数据合成方法，利用大型语言模型（LLM）内的各种视角来创建多样化的合成数据。为了充分发挥这种方法的规模优势，我们引入了Persona Hub - 一个从网络数据中自动策划出的包含10亿多样化人物的集合。这10亿个人物（约占全球总人口的13%），作为世界知识的分布式载体，可以利用LLM内几乎每个视角，从而促进在各种场景下规模化地创建多样化的合成数据。通过展示Persona Hub在合成高质量数学和逻辑推理问题、说明（即用户提示）、知识丰富的文本、游戏NPC以及规模化工具（函数）方面的用例，我们证明了以人物为驱动的数据合成是多才多艺、可扩展、灵活且易于使用的，可能推动合成数据创建和实际应用中的范式转变，这可能会对LLM研究和发展产生深远影响。

HuatuoGPT-Vision，致力于将医学视觉知识大规模注入多模态LLM模型
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

Jun 27

ByJunying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang

多模态大型语言模型（MLLMs）的快速发展，比如GPT-4V，已经带来了重大进展。然而，由于医学视觉文本数据的数量和质量受限于数据隐私和高昂的标注成本，这些模型在医学多模态能力方面仍然面临挑战。尽管开创性方法利用PubMed的大规模去标识化医学图像文本对来解决这些限制，但由于固有数据噪音，它们仍然存在不足。为了解决这个问题，我们从PubMed中精炼了医学图像文本对，并利用MLLMs（GPT-4V）以“非盲目”的方式对数据进行去噪和重构，从而创建了包含130万个医学VQA样本的PubMedVision数据集。我们的验证表明：（1）PubMedVision可以显著增强当前MLLMs的医学多模态能力，在MMMU健康与医学赛道等基准测试中显示出显著改进；（2）医学专家的手动检查和经验结果验证了我们数据集相对于其他数据构建方法的数据质量优越性。利用PubMedVision，我们训练了一个34B医学MLLM HuatuoGPT-Vision，在开源MLLMs中在医学多模态场景中展现出卓越性能。

大型语言模型的直接偏好知识蒸馏
Direct Preference Knowledge Distillation for Large Language Models

Jun 28

ByYixing Li, Yuxian Gu, Li Dong, Dequan Wang, Yu Cheng, Furu Wei

在大型语言模型（LLMs）领域，知识蒸馏（KD）是将教师模型的能力转移到学生模型的关键技术。然而，现有的KD方法在LLMs的蒸馏中面临效率和传统KL散度测量能力不足等限制和挑战。研究表明，LLMs可以作为隐式奖励函数，我们将其定义为对KL散度的补充。在这项工作中，我们提出了用于LLMs的直接偏好知识蒸馏（DPKD）。DPKD利用分布散度来表示偏好损失和隐式奖励函数。我们将LLMs的KD重新构建为两个阶段：首先优化由隐式奖励和反向KL散度组成的目标，然后提高教师输出对学生输出的偏好概率。我们在各种数据集上进行了实验和分析，LLMs参数范围从120M到13B，并展示了我们的DPKD方法的广泛适用性和有效性。同时，我们通过实验和理论分析证明了引入的隐式奖励和输出偏好在KD中的价值和有效性。DPKD方法在输出响应精度和完全匹配百分比方面均优于基线方法。代码和数据可在https://aka.ms/dpkd获取。

LLaRA：为视觉-语言策略增强机器人学习数据
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy

Jun 28

ByXiang Li, Cristina Mata, Jongwoo Park, Kumara Kahatapitiya, Yoo Sung Jang, Jinghuan Shang, Kanchana Ranasinghe, Ryan Burgert, Mu Cai, Yong Jae Lee, Michael S. Ryoo

配备广泛世界知识和强大推理技能的大型语言模型(LLMs)能够处理跨领域的多样任务，通常通过将其构建为对话式指令-响应对来解决。本文提出了LLaRA：大型语言与机器人助理，这是一个框架，将机器人行动策略表述为对话，并在训练时利用辅助数据以提升策略学习。具备视觉输入的LLMs，即视觉语言模型(VLMs)，能够将状态信息处理为视觉-文本提示，并生成文本中的最佳策略决策。为了训练这样的行动策略VLMs，我们首先引入了一个自动化流程，从现有的行为克隆数据中生成多样高质量的机器人指令数据。通过基于对话式构建的针对机器人任务的数据集合对VLM进行微调，可以生成有意义的机器人行动策略决策。我们在多个模拟和真实环境中进行的实验表明了所提出的LLaRA框架的最新性能。代码、数据集和预训练模型可在https://github.com/LostXine/LLaRA 上获得。

GaussianDreamerPro：具有高度增强质量的可操纵3D高斯文本
GaussianDreamerPro: Text to Manipulable 3D Gaussians with Highly Enhanced Quality

Jun 26

ByTaoran Yi, Jiemin Fang, Zanwei Zhou, Junjie Wang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Xinggang Wang, Qi Tian

最近，3D 高斯光滑（3D-GS）在重建和渲染现实场景方面取得了巨大成功。为了将高质量渲染转移到生成任务中，一系列研究工作尝试从文本生成 3D 高斯资产。然而，生成的资产未能达到重建任务中的质量水平。我们观察到，由于生成过程可能导致不确定性，高斯函数往往会无法控制地增长。为了极大地提升生成质量，我们提出了一种名为 GaussianDreamerPro 的新框架。其主要思想是将高斯函数绑定到合理的几何形状上，并在整个生成过程中演变。在我们框架的不同阶段，几何形状和外观都可以逐步丰富。最终输出的资产是由绑定到网格的 3D 高斯函数构建的，与先前方法相比，显示出显著增强的细节和质量。值得注意的是，生成的资产还可以无缝集成到下游处理流程中，例如动画、合成和模拟等，极大地提升了其在广泛应用中的潜力。演示可在 https://taoranyi.com/gaussiandreamerpro/ 上找到。

AutoRAG-HP：用于检索增强生成的自动在线超参数调整
AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation

Jun 27

ByJia Fu, Xiaoting Qin, Fangkai Yang, Lu Wang, Jue Zhang, Qingwei Lin, Yubo Chen, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

最近大型语言模型的进展已经改变了机器学习/人工智能的发展，需要重新评估用于检索增强生成（RAG）系统的AutoML原则。为了解决RAG中的超参数优化和在线适应的挑战，我们提出了AutoRAG-HP框架，将超参数调整构建为在线多臂老虎机（MAB）问题，并引入了一种新颖的两级层次MAB（Hier-MAB）方法，以有效探索大搜索空间。我们在调整超参数方面进行了大量实验，例如顶部k个检索文档、提示压缩比和嵌入方法，使用ALCE-ASQA和自然问题数据集。我们的评估结果显示，联合优化这三个超参数，基于MAB的在线学习方法可以在具有显著梯度的搜索空间中实现大约0.8的Recall@5，仅使用Grid Search方法所需的LLM API调用的约20%。此外，所提出的Hier-MAB方法在更具挑战性的优化场景中优于其他基线。代码将在https://aka.ms/autorag上提供。

EVF-SAM：用于文本提示的早期视觉-语言融合，用于分割任何事物模型
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model

Jun 28

ByYuxuan Zhang, Tianheng Cheng, Rui Hu, ei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang

Segment Anything Model（SAM）因其出色的交互式分割能力和视觉提示而受到广泛关注，但对文本提示的进一步探索尚不足。本文在经验上研究了文本提示编码器（例如CLIP或LLM）在调整SAM以用于指称表达分割方面的潜力，并引入了基于早期视觉-语言融合的SAM（EVF-SAM）。EVF-SAM是一种简单而有效的指称分割方法，利用多模态提示（即图像和文本），包括一个预训练的视觉-语言模型用于生成指称提示，以及一个用于分割的SAM模型。令人惊讶的是，我们观察到：（1）多模态提示和（2）具有早期融合的视觉-语言模型（例如BEIT-3）有助于准确提示SAM进行指称分割。我们的实验表明，基于BEIT-3的提出的EVF-SAM在RefCOCO/+/g上实现了最先进的指称表达分割性能，并展示了用早期视觉-语言融合提示SAM的优越性。此外，提出的具有13.2亿参数的EVF-SAM相比基于大型多模态模型的先前SAM方法，性能显著更高，同时减少了近82%的参数。

树木园：一个支持生物多样性人工智能的大型多模态数据集
Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity

Jun 25

ByChih-Hsuan Yang, Benjamin Feuer, Zaki Jubery, Zi K. Deng, Andre Nakkab, Md Zahid Hasan, Shivani Chiranjeevi, Kelly Marshall, Nirmal Baishnab, Asheesh K Singh, Arti Singh, Soumik Sarkar, Nirav Merchant, Chinmay Hegde, Baskar Ganapathysubramanian

我们介绍了Arboretum，这是一个旨在推动生物多样性应用人工智能发展的最大公开可访问数据集。该数据集从iNaturalist社区科学平台精心筛选，经领域专家审核以确保准确性，包含了1.346亿张图片，比现有数据集规模大一个数量级。该数据集涵盖了来自鸟类（Aves）、蜘蛛/蜱/螨（Arachnida）、昆虫（Insecta）、植物（Plantae）、真菌/蘑菇（Fungi）、蜗牛（Mollusca）以及蛇类/蜥蜴（Reptilia）等多样物种的图像-语言配对数据，为生物多样性评估和农业研究的多模态视觉-语言人工智能模型提供了宝贵资源。每张图片都标注了科学名称、分类学细节和通用名称，增强了人工智能模型训练的稳健性。我们展示了Arboretum的价值，发布了一套使用4000万张带字幕图片子集训练的CLIP模型。我们引入了几个新的严格评估基准，报告了零样本学习的准确性，并评估了各个生命周期阶段、稀有物种、混淆物种以及不同分类层次的准确性。我们预计Arboretum将推动开发能够实现从害虫控制策略、作物监测，到全球生物多样性评估和环境保护等各种数字工具的人工智能模型。这些进展对于确保粮食安全、保护生态系统以及减缓气候变化影响至关重要。Arboretum是公开可用、易于访问且可立即使用的。请访问https://baskargroup.github.io/Arboretum/（项目网站）获取我们的数据、模型和代码链接。

具有上下文感知分词的高效世界模型
Efficient World Models with Context-Aware Tokenization

Jun 27

ByVincent Micheli, Eloi Alonso, François Fleuret

扩展深度强化学习（RL）方法面临着重大挑战。随着生成建模的发展，基于模型的RL定位为一个强有力的竞争者。最近在序列建模方面取得的进展已经导致了基于Transformer的有效世界模型，尽管由于需要准确模拟环境而产生了大量计算量，这是由于所需的长序列标记。在这项工作中，我们提出了Delta-IRIS，这是一个新的代理程序，其世界模型架构由一个编码时间步长之间的随机增量的离散自动编码器和一个通过用连续标记总结世界当前状态来预测未来增量的自回归Transformer组成。在Crafter基准测试中，Delta-IRIS在多个帧预算上树立了新的技术水平，同时比之前基于注意力的方法快上一个数量级。我们在https://github.com/vmicheli/delta-iris 上发布了我们的代码和模型。

迭代纳什策略优化：通过无悔学习将LLMs与一般偏好对齐
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

Jun 30

ByYuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu

基于人类反馈的强化学习（RLHF）在将大型语言模型（LLMs）与人类偏好对齐方面取得了巨大成功。流行的RLHF方法是基于奖励的，遵循Bradley-Terry（BT）模型假设，这可能无法完全捕捉人类偏好的复杂性。在本文中，我们探讨了在一般偏好框架下的RLHF，并从博弈论的角度进行了研究。具体而言，我们将问题建模为一个双人博弈，并提出了一种新颖的算法，迭代纳什策略优化（INPO）。关键思想是通过无悔学习让策略自我对弈，从而逼近纳什策略。与先前的方法不同，INPO避免了估计个体响应的预期胜率，这通常会带来高计算或注释成本。相反，我们引入了一个新的损失目标，直接在偏好数据集上最小化。我们为我们的方法提供了理论分析，并通过在各种代表性基准测试中的实验展示了其有效性。基于LLaMA-3-8B的SFT模型，INPO在AlpacaEval 2.0上实现了41.5%的长度控制胜率，在Arena-Hard上实现了38.3%的胜率，相比基于BT模型假设的最先进迭代算法[Dong等，2024]有了显著改进。此外，我们的消融研究突出了将KL正则化纳入响应长度控制的好处。

RaTEScore：一种用于放射学报告生成的度量标准
RaTEScore: A Metric for Radiology Report Generation

Jun 24

ByWeike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie

本文介绍了一种新颖的实体感知度量，称为放射学报告（文本）评估（RaTEScore），用于评估人工智能模型生成的医学报告的质量。RaTEScore强调诊断结果和解剖细节等关键医学实体，并且对复杂的医学同义词具有鲁棒性，对否定表达敏感。从技术上讲，我们开发了一个全面的医学命名实体识别（NER）数据集，RaTE-NER，并专门为此目的训练了一个NER模型。该模型能够将复杂的放射学报告分解为组成的医学实体。该度量本身是通过比较从语言模型获得的实体嵌入的相似性来导出的，这些实体嵌入基于它们的类型和与临床重要性的相关性。我们的评估表明，RaTEScore与现有度量更接近人类偏好，经过在已建立的公共基准测试和我们新提出的RaTE-Eval基准测试上验证。

AI研究论文每日精选

每日精选AI研究论文及翻译

利用10亿个人设进行合成数据创建的扩展
Scaling Synthetic Data Creation with 1,000,000,000 Personas

Jun 28

ByXin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu

104

HuatuoGPT-Vision，致力于将医学视觉知识大规模注入多模态LLM模型
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

Jun 27

ByJunying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang

迭代纳什策略优化：通过无悔学习将LLMs与一般偏好对齐
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

Jun 30

ByYuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu

RaTEScore：一种用于放射学报告生成的度量标准
RaTEScore: A Metric for Radiology Report Generation

Jun 24

ByWeike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie