AI研究论文每日精选

每日精选AI研究论文及翻译

章鱼v2：超级代理设备端语言模型
Octopus v2: On-device language model for super agent

Apr 2

ByWei Chen, Zhiyuan Li

语言模型在多种软件应用中展现了其有效性，尤其是在与自动工作流相关的任务中。这些模型具备调用函数的关键能力，这对于创建AI代理至关重要。尽管大规模语言模型在云环境中表现出色，但它们往往伴随着隐私和成本方面的担忧。当前的设备端模型在函数调用方面存在延迟和准确性问题。我们的研究提出了一种新方法，使一个拥有20亿参数的设备端模型在准确性和延迟方面均超越了GPT-4，并将上下文长度减少了95%。与采用RAG机制的Llama-7B相比，我们的方法将延迟提升了35倍。这种方法将延迟降低到适合在生产环境中部署于各种边缘设备的水平，符合实际应用的性能要求。

利用偏好树提升大型语言模型推理的通用性
Advancing LLM Reasoning Generalists with Preference Trees

Apr 2

ByLifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun

我们推出了Eurus，这是一套针对推理优化的大型语言模型（LLMs）。Eurus模型从Mistral-7B和CodeLlama-70B微调而来，在涵盖数学、代码生成和逻辑推理问题的多样化基准测试中，其在开源模型中达到了最先进的成果。特别值得一提的是，Eurus-70B在涵盖五项任务的12项综合基准测试中，推理能力超越了GPT-3.5 Turbo，并在两个具有挑战性的基准测试——LeetCode和TheoremQA上，分别取得了33.3%和32.6%的pass@1准确率，显著超越现有开源模型的表现，优势超过13.3%。Eurus的强劲表现主要归功于UltraInteract，这是我们为复杂推理任务精心策划的大规模高质量对齐数据集。UltraInteract可用于监督微调及偏好学习。对于每项指令，它包含一个偏好树，其中包括（1）以统一格式呈现的多样化规划策略推理链，（2）与环境和批判的多轮交互轨迹，以及（3）促进偏好学习的成对数据。UltraInteract使我们能够深入探索推理任务的偏好学习。我们的研究揭示，一些在常规对话中表现良好的偏好学习算法，在推理任务中可能并不那么适用。受此启发，我们推导出一个新颖的奖励建模目标，结合UltraInteract，形成了一个强大的奖励模型。

长上下文LLM在长上下文学习中表现不佳
Long-context LLMs Struggle with Long In-context Learning

Apr 2

ByTianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen

大型语言模型（LLMs）在处理超过32K标记的长序列方面取得了显著进展。然而，其性能评估主要局限于困惑度等指标和合成任务，这些可能无法全面反映其在更为复杂、真实世界场景中的能力。本研究引入了一个专门基准（LIConBench），聚焦于极端标签分类领域内的长上下文学习。我们精心挑选了六个数据集，标签范围从28到174类不等，涵盖了从2K到50K的不同输入（少样本演示）长度。我们的基准要求LLMs理解整个输入，以识别庞大的标签空间并做出正确预测。我们在基准上评估了13个长上下文LLMs。研究发现，在20K标记长度下，长上下文LLMs表现相对良好，且利用长上下文窗口带来了性能提升。然而，当上下文窗口超过20K后，除GPT-4外的多数LLMs性能急剧下降。这表明当前LLM在处理和理解长而丰富的上下文序列方面存在显著差距。进一步分析显示，模型倾向于对序列末尾出现的标签进行预测，其在长序列中对多个片段进行推理的能力仍有待提升。我们的研究表明，长上下文的理解和推理对现有LLMs仍是一项艰巨任务。我们相信LIConBench能为未来长上下文LLMs提供更为现实的评估。

LLaVA-Gemma：通过紧凑型语言模型加速多模态基础模型
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model

Mar 29

ByMusashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal

我们使用流行的LLaVA框架，结合最近发布的Gemma系列大型语言模型（LLMs），训练了一系列多模态基础模型（MMFM）。特别值得一提的是2B参数的Gemma模型，它为构建能力出众的小规模MMFM提供了契机。根据该领域其他论文的研究发现，我们测试了三种设计特征的消融效果：连接器的预训练、采用更强大的图像骨干网络以及增大语言骨干网络的规模。由此产生的模型，我们称之为LLaVA-Gemma，在多项评估中表现出中等水平的表现，但未能超越当前同等规模的SOTA模型。深入分析性能显示，效果参差不齐；跳过预训练往往会降低性能，较大的视觉模型有时能提升性能，而增大语言模型规模的影响则不一致。我们公开发布了LLaVA-Gemma模型的训练配方、代码及权重。

HyperCLOVA X 技术报告
HyperCLOVA X Technical Report

Apr 2

ByKang Min Yoo, Jaegeun Han, Sookyo In, Heewon Jeon, Jisu Jeong, Jaewook Kang, Hyunwook Kim, Kyung-Min Kim, Munhyong Kim, Sungju Kim, Donghyun Kwak, Hanock Kwak, Se Jung Kwon, Bado Lee, Dongsoo Lee, Gichang Lee, Jooho Lee, Baeseong Park, Seongjin Shin, Joonsang Yu, Seolki Baek, Sumin Byeon, Eungsup Cho, Dooseok Choe, Jeesung Han, Youngkyun Jin, Hyein Jun, Jaeseung Jung, Chanwoong Kim, Jinhong Kim, Jinuk Kim, Dokyeong Lee, Dongwook Park, Jeong Min Sohn, Sujung Han, Jiae Heo, Sungju Hong, Mina Jeon, Hyunhoon Jung, Jungeun Jung, Wangkyo Jung, Chungjoon Kim, Hyeri Kim, Jonghyun Kim, Min Young Kim, Soeun Lee, Joonhee Park, Jieun Shin, Sojin Yang, Jungsoon Yoon, Hwaran Lee, Sanghwan Bae, Jeehwan Cha, Donghoon Ham, Youngki Hong, Yunki Hong, Myunggeun Ji, Yeguk Jin, Chansong Jo, Shinyoung Joo, Seunghwan Jung, Hyomin Kim, Jungwhan Kim, Minkyoung Kim, Minseung Kim, Sungdong Kim, Yonghee Kim, Youngjun Kim, Donghyeon Ko, Dughyun Lee, Jaehong Lee, Jieun Lee, Jongjin Lee, Min Young Lee, Yehbin Lee, Taehong Min, Kiyoon Moon, Jaesun Park, Kyuyon Park, Seunghyun Seo, Gyubin Son, Wonjoon Yoo, Myungin You, Doheon Ahn, Homin Ahn, Joohee Ahn, Seongmin Ahn, Chanwoo An, Hyeryun An, Junho An, Sang-Min An, Boram Byun, Jongho Cha, Minji Chang, Seunggyu Chang, Haesong Cho, Youngdo Cho, Dalnim Choi, Daseul Choi, Hyoseok Choi, Minseong Choi, Sangho Choi, Seongjae Choi, Wooyong Choi, Sewhan Chun, Dong Young Go, Chiheon Ham, Danbi Han, Jaemin Han, Mihak Hong, Moonyoung Hong, Sung Bum Hong, Seongchan Hwang, Eunbin Hyun, Jinbae Im, Jaehyung Jang, Jaeni Jang, Sihyeon Jang, Sungwon Jang, Joonha Jeon, Yujin Jeon, Daun Jeong, Joonhyun Jeong, Kyeongseok Jeong, Mini Jeong, Yeji Jeong, Sol Jin, Hanbyeol Jo, Hanju Jo, Minjung Jo, Lee Jonghyun, Chaeyoon Jung, Hyungsik Jung, Jaeuk Jung, Ju Hwan Jung, Kwangsun Jung, Seungjae Jung, Soonwon Ka, Donghan Kang, Soyoung Kang, Taeho Kil, Areum Kim, Beomyoung Kim, Byeongwook Kim, Daehee Kim, Dong-Gyun Kim, Donggook Kim, Donghyun Kim, Euna Kim, Eunchul Kim, Geewook Kim, Gyu Ri Kim, Hanbyul Kim, Heesu Kim, Isaac Kim, Jeonghoon Kim, Jihye Kim, Joonghoon Kim, Minjae Kim, Minsub Kim, Pil Hwan Kim, Sammy Kim, Seokhun Kim, Seonghyeon Kim, Soojin Kim, Soong Kim, Soyoon Kim, Sunyoung Kim, Taeho Kim, Wonho Kim, Yoonsik Kim, You Jin Kim, Yuri Kim, Beomseok Kwon, Ohsung Kwon, Yoo-Hwan Kwon, Anna Lee, Byungwook Lee, Changho Lee, Daun Lee, Dongjae Lee, Ha-Ram Lee, Hodong Lee, Hwiyeong Lee, Hyunmi Lee, Injae Lee, Jaeung Lee, Jeongsang Lee, Jisoo Lee, Joongjae Lee, Juhan Lee, Jung Hyun Lee, Junghoon Lee, Junwoo Lee, Se Yun Lee, Sujin Lee, Sungjae Lee, Sungwoo Lee, Wonjae Lee, Zoo Hyun Lee, Jong Kun Lim, Kun Lim, Taemin Lim, Yuri Min, Nuri Na, Jeongyeon Nam, Kyeong-Min Nam, Yeonseog Noh, Biro Oh, Hyangnam Oh, Jung-Sik Oh, Solgil Oh, Yeontaek Oh, Boyoun Park, Cheonbok Park, Dongju Park, Hyeonjin Park, Hyun Tae Park, Hyunjung Park, Jihye Park, Jooseok Park, Junghwan Park, Jungsoo Park, Miru Park, Sang Hee Park, Seunghyun Park, Taerim Park, Wonkyeong Park, Hyunjoon Ryu, Jeonghun Ryu, Nahyeon Ryu, Soonshin Seo, Suk Min Seo, Yoonjeong Shim, Kyuyong Shin, Wonkwang Shin, Hyun Sim, Mihyun Sim, Woongseob Sim, Hyejin Soh, Bokyoung Son, Hyunjun Son, Seulah Son, Chi-Yun Song, Chiyoung Song, Ka Yeon Song, Minchul Song, Seungmin Song, Jisung Wang, Matt Yeo, Yonggoo Yeo, Myeong Yeon Yi, Moon Bin Yim, Taehwan Yoo, Youngjoon Yoo, Sungmin Yoon, Young Jin Yoon, Hangyeol Yu, Ui Seon Yu, Xingdong Zuo, Jeongin Bae, Joungeun Bae, Hyunsoo Cho, Seonghyun Cho, Yongjin Cho, Taekyoon Choi, Yera Choi, Jiwan Chung, Zhenghui Han, Byeongho Heo, Euisuk Hong, Taebaek Hwang, Seonyeol Im, Sumin Jegal, Sumin Jeon, Yelim Jeong, Yonghyun Jeong, Can Jiang, Juyong Jiang, Jiho Jin, Ara Jo, Younghyun Jo, Hoyoun Jung, Juyoung Jung, Dae Hee Kim, Ginam Kim, Hangyeol Kim, Heeseung Kim, Hyojin Kim, Hyojun Kim, Hyun-Ah Kim, Jeehye Kim, Jin-Hwa Kim, Jiseon Kim, Jonghak Kim, Jung Yoon Kim, Rak Yeong Kim, Seoyoon Kim, Sewon Kim, Sooyoung Kim, Sukyoung Kim, Taeyong Kim, Naeun Ko, Bonseung Koo, Heeyoung Kwak, Haena Kwon, Youngjin Kwon, Boram Lee, Bruce W. Lee, Dagyeong Lee, Erin Lee, Euijin Lee, Ha Gyeong Lee, Hyojin Lee, Hyunjeong Lee, Jeeyoon Lee, Jeonghyun Lee, Jongheok Lee, Joonhyung Lee, Junhyuk Lee, Mingu Lee, Nayeon Lee, Sangkyu Lee, Se Young Lee, Seulgi Lee, Seung Jin Lee, Suhyeon Lee, Yeonjae Lee, Yesol Lee, Youngbeom Lee, Yujin Lee, Shaodong Li, Tianyu Liu, Seong-Eun Moon, Taehong Moon, Max-Lasse Nihlenramstroem, Wonseok Oh, Yuri Oh, Hongbeen Park, Hyekyung Park, Nohil Park, Sangjin Park, Jiwon Ryu, Miru Ryu, Simo Ryu, Ahreum Seo, Hee Seo, Kangdeok Seo, Jamin Shin, Seungyoun Shin, Heetae Sin, Jiangping Wang, Lei Wang, Ning Xiang, Longxiang Xiao, Jing Xu, Seonyeong Yi, Haanju Yoo, Haneul Yoo, Hwanhee Yoo, Liang Yu, Youngjae Yu, Weijie Yuan, Bo Zeng, Qian Zhou, Kyunghyun Cho, Jung-Woo Ha, Joonsuk Park, Jihyun Hwang, Hyoung Jo Kwon, Soonyong Kwon, Jungyeon Lee, Seungho Lee, Seungho Choi, Sang-Woo Lee, Jung Hwa Lim, Nako Sung

我们推出了HyperCLOVA X，这是一系列针对韩语及文化定制的大型语言模型（LLMs），同时具备在英语、数学和编程方面的竞争能力。HyperCLOVA X在训练过程中采用了韩语、英语和代码数据的均衡混合，随后通过遵循严格安全指南的高质量人工标注数据集进行指令微调，体现了我们对负责任AI的承诺。该模型在多种基准测试中进行了评估，包括综合推理、知识、常识、事实性、编码、数学、聊天、指令跟随及无害性，涵盖韩语和英语。HyperCLOVA X在韩语中展现出强大的推理能力，这得益于对语言及文化细微差别的深刻理解。进一步分析其固有的双语特性及其向多语言扩展的能力，突显了模型在跨语言熟练度和对非目标语言的强大泛化能力，包括多对语言间的机器翻译和跨语言推理任务。我们相信，HyperCLOVA X能为地区或国家在开发自主LLMs方面提供有益的指导。

CameraCtrl：赋能文本到视频生成中的相机控制
CameraCtrl: Enabling Camera Control for Text-to-Video Generation

Apr 2

ByHao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang

可控性在视频生成中起着至关重要的作用，因为它使用户能够创作出所需的内容。然而，现有模型在很大程度上忽视了作为电影语言的摄像机姿态的精确控制，这种控制能够表达更深层次的叙事细微差别。为解决这一问题，我们引入了CameraCtrl，它能够为文本到视频（T2V）模型提供精确的摄像机姿态控制。在精确参数化摄像机轨迹后，一个即插即用的摄像机模块随后在T2V模型上进行训练，而其他部分保持不变。此外，我们还进行了关于不同数据集影响的综合研究，结果表明，具有多样摄像机分布和相似外观的视频确实能增强可控性和泛化能力。实验结果显示，CameraCtrl在实现精确且适应领域的摄像机控制方面效果显著，标志着我们在从文本和摄像机姿态输入追求动态和定制化视频叙事方面迈出了重要一步。我们的项目网站位于：https://hehao13.github.io/projects-CameraCtrl/。

规模并非总是越大越好：潜在扩散模型的缩放特性
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

Apr 1

ByKangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar

我们研究了潜在扩散模型（LDMs）的缩放特性，特别关注其采样效率。尽管改进的网络架构和推理算法已显示出能有效提升扩散模型的采样效率，但模型规模——这一决定采样效率的关键因素——尚未得到充分探讨。通过对已建立的文本到图像扩散模型进行实证分析，我们深入探究了模型规模如何影响不同采样步数下的采样效率。我们的研究发现了一个令人惊讶的趋势：在给定的推理预算下，较小的模型往往在生成高质量结果方面优于其较大的对应模型。此外，我们通过应用各种扩散采样器、探索不同的下游任务、评估后蒸馏模型以及与训练计算性能进行比较，展示了这些发现的可推广性。这些发现为LDM缩放策略的开发开辟了新途径，这些策略可以在有限的推理预算内提升生成能力。

大型语言模型是否超越了人类化学家的能力？
Are large language models superhuman chemists?

Apr 1

ByAdrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka

大型语言模型（LLMs）因其处理人类语言及执行未经明确训练任务的能力而备受关注。这对于化学科学尤为重要，因为该领域面临数据集小且多样化的挑战，这些数据往往以文本形式存在。LLMs在解决这些问题上展现出潜力，并越来越多地被用于预测化学性质、优化反应，甚至自主设计与执行实验。然而，我们对LLMs在化学推理能力方面的理解仍非常有限，这限制了模型的改进及潜在危害的缓解。在此，我们引入了“ChemBench”，这是一个自动化框架，旨在严格评估最先进LLMs的化学知识和推理能力，并与人类化学家的专业知识进行对比。我们精心挑选了超过7,000个问题-答案对，涵盖化学科学的多个子领域，评估了领先的开放和闭源LLMs，发现最佳模型在平均水平上优于我们研究中表现最佳的人类化学家。然而，这些模型在某些化学推理任务上表现不佳，这些任务对人类专家来说却相对简单，并且它们提供了过于自信、具有误导性的预测，例如关于化学品安全性的评估。这些发现凸显了一个双重现实：尽管LLMs在化学任务中展现出显著的熟练度，但进一步的研究对于提升其在化学科学中的安全性和实用性至关重要。我们的研究结果还表明，需要对化学课程进行调整，并强调继续开发评估框架以改进安全且有用的LLMs的重要性。

Poro 34B与多语言优势的加持
Poro 34B and the Blessing of Multilinguality

Apr 2

ByRisto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo

最先进的大型语言模型的预训练如今需要数万亿字的文本，这远远超出了绝大多数语言可获取的文本量级。尽管包含多种语言的文本是获取更多预训练数据的显而易见的方法，但多语言性常被视为一种诅咒，大多数模型训练工作仍几乎完全集中在个别大型语言上。我们相信，多语言性可以是一种福音，通过多语言训练，完全有可能显著提升对小语言的处理能力，超越单语模型的表现。在本研究中，我们推出了Poro 34B，这是一个拥有340亿参数的模型，针对芬兰语、英语及编程语言进行了1万亿个标记的训练，并证明多语言训练方法不仅能大幅提升现有芬兰语模型的能力，还在翻译方面表现出色，并在生成英语和编程语言方面与其类别中的模型竞争激烈。我们已在https://huggingface.co/LumiOpen/Poro-34B 下以开放许可发布模型参数、脚本和数据。

3D 凝结：野外环境下的3D感知图像对齐
3D Congealing: 3D-Aware Image Alignment in the Wild

Apr 2

ByYunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani

我们提出了3D Congealing，这是一个针对捕捉语义相似对象的2D图像进行3D感知对齐的新问题。给定一组未标记的互联网图像，我们的目标是关联输入图像中的共享语义部分，并将2D图像的知识聚合到一个共享的3D规范空间中。我们引入了一个通用框架，该框架在不假设形状模板、姿态或任何相机参数的情况下处理此任务。其核心是一个规范的3D表示，它封装了几何和语义信息。该框架优化了规范表示以及每个输入图像的姿态，以及一个逐图像的坐标映射，该映射将2D像素坐标扭曲到3D规范框架中，以考虑形状匹配。优化过程融合了来自预训练图像生成模型的先验知识和输入图像的语义信息。前者为此欠约束任务提供了强大的知识指导，而后者提供了必要的信息以缓解预训练模型中的训练数据偏差。我们的框架可用于各种任务，如对应匹配、姿态估计和图像编辑，在具有挑战性的光照条件下和在野外的在线图像集合上，在真实世界的图像数据集上取得了强大的结果。

LLM-ABR：利用大型语言模型设计自适应码率算法
LLM-ABR: Designing Adaptive Bitrate Algorithms via Large Language Models

Apr 2

ByZhiyuan He, Aashish Gottipati, Lili Qiu, Francis Y. Yan, Xufang Luo, Kenuo Xu, Yuqing Yang

我们提出了LLM-ABR，这是首个利用大型语言模型（LLMs）的生成能力，自主设计适应性比特率（ABR）算法的系统，该算法针对多样化的网络特性进行了定制。在强化学习框架内运行，LLM-ABR使LLMs能够设计关键组件，如状态和神经网络架构。我们在多种网络环境下评估了LLM-ABR，包括宽带、卫星、4G和5G。LLM-ABR始终优于默认的ABR算法。

AI研究论文每日精选

每日精选AI研究论文及翻译