AI研究论文每日精选

每日精选AI研究论文及翻译

电影生成：媒体基础模型的演员阵容
Movie Gen: A Cast of Media Foundation Models

Oct 17

ByAdam Polyak, Amit Zohar, Andrew Brown, Andros Tjandra, Animesh Sinha, Ann Lee, Apoorv Vyas, Bowen Shi, Chih-Yao Ma, Ching-Yao Chuang, David Yan, Dhruv Choudhary, Dingkang Wang, Geet Sethi, Guan Pang, Haoyu Ma, Ishan Misra, Ji Hou, Jialiang Wang, Kiran Jagadeesh, Kunpeng Li, Luxin Zhang, Mannat Singh, Mary Williamson, Matt Le, Matthew Yu, Mitesh Kumar Singh, Peizhao Zhang, Peter Vajda, Quentin Duval, Rohit Girdhar, Roshan Sumbaly, Sai Saketh Rambhatla, Sam Tsai, Samaneh Azadi, Samyak Datta, Sanyuan Chen, Sean Bell, Sharadh Ramaswamy, Shelly Sheynin, Siddharth Bhattacharya, Simran Motwani, Tao Xu, Tianhe Li, Tingbo Hou, Wei-Ning Hsu, Xi Yin, Xiaoliang Dai, Yaniv Taigman, Yaqiao Luo, Yen-Cheng Liu, Yi-Chiao Wu, Yue Zhao, Yuval Kirstain, Zecheng He, Zijian He, Albert Pumarola, Ali Thabet, Artsiom Sanakoyeu, Arun Mallya, Baishan Guo, Boris Araya, Breena Kerr, Carleigh Wood, Ce Liu, Cen Peng, Dimitry Vengertsev, Edgar Schonfeld, Elliot Blanchard, Felix Juefei-Xu, Fraylie Nord, Jeff Liang, John Hoffman, Jonas Kohler, Kaolin Fire, Karthik Sivakumar, Lawrence Chen, Licheng Yu, Luya Gao, Markos Georgopoulos, Rashel Moritz, Sara K. Sampson, Shikai Li, Simone Parmeggiani, Steve Fine, Tara Fowler, Vladan Petrovic, Yuming Du

100

我们提出了Movie Gen，这是一组基础模型，可以生成具有不同宽高比和同步音频的高质量1080p高清视频。我们还展示了额外的功能，如基于精确指令的视频编辑和基于用户图像生成个性化视频。我们的模型在多个任务上树立了新的技术水准：文本到视频合成、视频个性化、视频编辑、视频到音频生成以及文本到音频生成。我们最大的视频生成模型是一个拥有30B参数的Transformer，训练时最大上下文长度为73K视频标记，对应于以每秒16帧生成的16秒视频。我们展示了在架构、潜在空间、训练目标和配方、数据筛选、评估协议、并行化技术以及推理优化方面的多项技术创新和简化，这些技术使我们能够通过扩大预训练数据、模型规模和训练计算的规模来训练大规模媒体生成模型。我们希望本文能帮助研究界加速媒体生成模型的进展和创新。本文中的所有视频均可在https://go.fb.me/MovieGenResearchVideos 上找到。

MixEval-X：来自真实世界数据混合的任意到任意评估
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

Oct 17

ByJinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh

感知和生成多种形式对于AI模型有效地学习和与现实世界信号互动至关重要，这需要可靠的评估来推动它们的发展。我们确定了当前评估中的两个主要问题：（1）不一致的标准，由不同社区塑造，具有不同的协议和成熟水平；以及（2）显著的查询、评分和泛化偏差。为了解决这些问题，我们引入了MixEval-X，这是第一个任意到任意的真实世界基准，旨在优化和标准化跨输入和输出形式的评估。我们提出了多模态基准混合和适应-校正流程，以重建真实世界任务分布，确保评估能够有效地泛化到真实世界用例。广泛的元评估显示，我们的方法有效地将基准样本与真实世界任务分布对齐，模型排名与众包的真实世界评估强相关（高达0.98）。我们提供全面的排行榜，重新排列现有模型和组织，并提供见解，以增进对多模态评估的理解，并为未来研究提供信息。

JudgeBench：用于评估基于LLM的法官的基准测试
JudgeBench: A Benchmark for Evaluating LLM-based Judges

Oct 16

BySijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica

基于LLM的评判者已经成为人类评估的可扩展替代方案，并越来越被用于评估、比较和改进模型。然而，很少有人对基于LLM的评判者本身的可靠性进行审查。随着LLMs变得更加先进，它们的响应变得更加复杂，需要更强大的评判者来评估它们。现有的基准主要关注评判者与人类偏好的一致性，但往往未能考虑到更具挑战性的任务，在这些任务中，众包的人类偏好并不是事实和逻辑正确性的良好指标。为了解决这个问题，我们提出了一个新颖的评估框架，以客观评估基于LLM的评判者。基于这个框架，我们提出了JudgeBench，一个用于评估基于LLM的评判者在涵盖知识、推理、数学和编码的具有挑战性响应对上的基准。JudgeBench利用一种新颖的流程，将现有的困难数据集转换为具有反映客观正确性的偏好标签的具有挑战性响应对。我们对一系列提示的评判者、微调的评判者、多智能体评判者和奖励模型进行了全面评估，结果显示，JudgeBench比以前的基准更具挑战性，许多强大模型（例如GPT-4o）的表现仅略优于随机猜测。总的来说，JudgeBench为评估日益先进的基于LLM的评判者提供了一个可靠的平台。数据和代码可在https://github.com/ScalerLab/JudgeBench 获取。

流体：使用连续标记扩展自回归文本到图像生成模型
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

Oct 17

ByLijie Fan, Tianhong Li, Siyang Qin, Yuanzhen Li, Chen Sun, Michael Rubinstein, Deqing Sun, Kaiming He, Yonglong Tian

在视觉领域，扩展自回归模型并未像大型语言模型那样带来明显好处。本研究探讨了这一扩展问题，重点关注文本到图像生成中的两个关键因素：模型使用离散还是连续标记，以及使用 BERT 或 GPT 类似的变压器架构生成随机或固定光栅顺序的标记。我们的实证结果显示，尽管所有模型在验证损失方面都能有效扩展，但它们的评估性能——以 FID、GenEval 分数和视觉质量衡量——呈现不同趋势。基于连续标记的模型在视觉质量上明显优于使用离散标记的模型。此外，生成顺序和注意机制显著影响 GenEval 分数：随机顺序模型的 GenEval 分数明显优于光栅顺序模型。受这些发现启发，我们训练了Fluid，这是一个在连续标记上采用随机顺序的自回归模型。Fluid 10.5B 模型在 MS-COCO 30K 上实现了新的零样本 FID 最佳值为6.16，并在 GenEval 基准上获得了0.69的总体分数。我们希望我们的发现和结果能够鼓励未来努力进一步弥合视觉和语言模型之间的扩展差距。

Janus：解耦视觉编码以实现统一的多模态理解和生成
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Oct 17

ByChengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo

本文介绍了Janus，这是一个将多模态理解和生成统一起来的自回归框架。先前的研究通常依赖于单个视觉编码器来完成这两个任务，比如Chameleon。然而，由于多模态理解和生成需要不同级别的信息粒度，这种方法可能导致性能不佳，特别是在多模态理解方面。为了解决这个问题，我们将视觉编码分解为独立的路径，同时仍然利用单一的统一Transformer架构进行处理。这种分解不仅缓解了视觉编码器在理解和生成中角色之间的冲突，还增强了框架的灵活性。例如，多模态理解和生成组件都可以独立选择它们最适合的编码方法。实验证明，Janus超越了先前的统一模型，并且与特定任务模型的性能相匹敌甚至超越。Janus的简单性、高灵活性和有效性使其成为下一代统一多模态模型的强有力候选。

通过大型语言模型实现超人类语音理解的路线图
Roadmap towards Superhuman Speech Understanding using Large Language Models

Oct 17

ByFan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li

大型语言模型（LLMs）的成功促使了整合语音和音频数据的努力，旨在创建能够处理文本和非文本输入的通用基础模型。最近的进展，如GPT-4o，突显了端到端语音LLMs的潜力，可以保留非语义信息和世界知识，以实现更深层次的语音理解。为了指导语音LLMs的发展，我们提出了一个包括从基本自动语音识别（ASR）到能够将非语义信息与抽象声学知识整合用于复杂任务的先进超人模型在内的五级路线图。此外，我们设计了一个名为SAGI Benchmark的基准，标准化了这五个级别中各种任务的关键方面，揭示了使用抽象声学知识和能力完整性方面的挑战。我们的研究结果揭示了处理语音附加语线索和抽象声学知识方面存在的差距，并提出了未来的发展方向。本文概述了推进语音LLMs的路线图，介绍了一个用于评估的基准，并提供了关于它们当前的局限性和潜力的关键见解。

MobA：一种用于高效移动任务自动化的双层代理系统
MobA: A Two-Level Agent System for Efficient Mobile Task Automation

Oct 17

ByZichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu

当前的移动助手受限于对系统API的依赖，或者由于受限的理解和决策能力而在复杂用户指令和多样界面上遇到困难。为了解决这些挑战，我们提出了MobA，一种由多模态大型语言模型驱动的新型手机代理，通过复杂的两级代理架构增强了理解和规划能力。高级全局代理（GA）负责理解用户命令、跟踪历史记忆和规划任务。低级本地代理（LA）通过子任务和来自GA的记忆，预测以函数调用形式的详细动作。整合反思模块可实现高效的任务完成，使系统能够处理以前未见过的复杂任务。MobA在真实评估中展示了任务执行效率和完成率的显著提升，突显了MLLM增强移动助手潜力的重要性。

WorldCuisines：一个用于全球美食的多语言和多文化视觉问答的大规模基准测试。
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

Oct 16

ByGenta Indra Winata, Frederikus Hudi, Patrick Amadeus Irawan, David Anugraha, Rifki Afina Putri, Yutong Wang, Adam Nohejl, Ubaidillah Ariq Prathama, Nedjma Ousidhoum, Afifa Amriani, Anar Rzayev, Anirban Das, Ashmari Pramodya, Aulia Adila, Bryan Wilie, Candy Olivia Mawalim, Ching Lam Cheng, Daud Abolade, Emmanuele Chersoni, Enrico Santus, Fariz Ikhwantri, Garry Kuwanto, Hanyang Zhao, Haryo Akbarianto Wibowo, Holy Lovenia, Jan Christian Blaise Cruz, Jan Wira Gotama Putra, Junho Myung, Lucky Susanto, Maria Angelica Riera Machin, Marina Zhukova, Michael Anugraha, Muhammad Farid Adilazuarda, Natasha Santosa, Peerat Limkonchotiwat, Raj Dabre, Rio Alexander Audino, Samuel Cahyawijaya, Shi-Xiong Zhang, Stephanie Yulia Salim, Yi Zhou, Yinxuan Gui, David Ifeoluwa Adelani, En-Shiun Annie Lee, Shogo Okada, Ayu Purwarianti, Alham Fikri Aji, Taro Watanabe, Derry Tanti Wijaya, Alice Oh, Chong-Wah Ngo

视觉语言模型（VLMs）通常在处理特定文化知识时遇到困难，尤其是在英语以外的语言和少数文化背景中。为了评估它们对这种知识的理解能力，我们引入了WorldCuisines，这是一个大规模的跨语言和跨文化、以视觉为基础的语言理解基准。该基准包括一个视觉问答（VQA）数据集，涵盖30种语言和方言，跨越9个语言家族，包含超过100万个数据点，是迄今为止最大的多元文化VQA基准。它包括识别菜名及其起源的任务。我们提供了两个规模的评估数据集（12k和60k实例），以及一个训练数据集（100万实例）。我们的研究结果显示，虽然VLMs在正确的位置上下文中表现更好，但在对抗性环境和预测特定地区的菜肴和语言方面仍然存在困难。为了支持未来的研究，我们发布了一个带有注释食品条目和图像的知识库，以及VQA数据。

利用网页界面进行文本丰富的视觉理解
Harnessing Webpage UIs for Text-Rich Visual Understanding

Oct 17

ByJunpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue

文本丰富的视觉理解能力——即处理将密集文本内容与视觉内容整合在一起的环境——对于多模态大型语言模型（MLLMs）有效地与结构化环境进行交互至关重要。为了增强这种能力，我们提出使用基于文本的大型语言模型（LLMs）从网页UI中合成通用多模态指令。尽管缺乏直接的视觉输入，基于文本的LLMs能够处理来自网页可访问性树的结构化文本表示。然后将这些指令与UI截图配对，以训练多模态模型。我们引入了一个名为MultiUI的数据集，其中包含来自100万个网站的730万个样本，涵盖了多样的多模态任务和UI布局。在MultiUI上训练的模型不仅在Web UI任务上表现出色——在VisualWebBench上取得高达48%的改进，并在Web代理数据集Mind2Web上的动作准确性提升了19.1%——而且在非Web UI任务甚至是非UI领域（如文档理解、OCR和图表解释）中表现出惊人的泛化能力。这些结果突显了Web UI数据在推动各种场景下文本丰富的视觉理解方面具有广泛的适用性。

DreamVideo-2：零样本主题驱动视频定制与精准运动控制
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

Oct 17

ByYujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan

最近定制视频生成的进展使用户能够创建针对特定主题和运动轨迹的视频。然而，现有方法通常需要复杂的测试时微调，并且在平衡主题学习和运动控制方面存在困难，从而限制了它们在现实世界中的应用。在本文中，我们提出了DreamVideo-2，这是一个零样本视频定制框架，能够生成具有特定主题和运动轨迹的视频，分别由单个图像和边界框序列引导，而无需进行测试时微调。具体来说，我们引入了参考注意力，利用模型固有的主题学习能力，并设计了一个基于蒙版引导的运动模块，通过充分利用从边界框导出的框蒙版的稳健运动信号来实现精确的运动控制。虽然这两个组件实现了它们预期的功能，但我们在实证观察中发现运动控制往往会主导主题学习。为了解决这个问题，我们提出了两个关键设计：1）蒙版参考注意力，将混合潜在蒙版建模方案集成到参考注意力中，以增强所需位置的主题表示，2）重新加权扩散损失，区分边界框内外区域的贡献，以确保在主题和运动控制之间实现平衡。对一个新整理的数据集进行的大量实验结果表明，DreamVideo-2在主题定制和运动控制方面优于最先进的方法。数据集、代码和模型将公开提供。

MMed-RAG：用于医疗视觉语言模型的多模态RAG系统
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models

Oct 16

ByPeng Xia, Kangyu Zhu, Haoran Li, Tianze Wang, Weijia Shi, Sheng Wang, Linjun Zhang, James Zou, Huaxiu Yao

人工智能（AI）在医疗保健领域展现出了显著的潜力，特别是在疾病诊断和治疗规划方面。最近在医疗大规模视觉语言模型（Med-LVLMs）方面取得的进展为交互式诊断工具开辟了新的可能性。然而，这些模型经常出现事实幻觉，可能导致错误诊断。微调和检索增强生成（RAG）已经成为解决这些问题的方法。然而，高质量数据的数量以及训练数据与部署数据之间的分布偏移限制了微调方法的应用。尽管RAG轻量且有效，但现有基于RAG的方法对不同医学领域的通用性不足，可能导致模态之间以及模型与真实情况之间的不对齐问题。在本文中，我们提出了一种多功能多模态RAG系统，MMed-RAG，旨在增强Med-LVLMs的事实性。我们的方法引入了一个领域感知的检索机制，一个自适应的检索上下文选择方法，以及一个可证明的基于RAG的优先微调策略。这些创新使RAG过程足够通用和可靠，在引入检索上下文时显著提高了对齐性。在包括放射学、眼科学和病理学在内的五个医学数据集上的实验结果，涉及医学VQA和报告生成，表明MMed-RAG可以使Med-LVLMs的事实准确性平均提高43.8%。我们的数据和代码可在https://github.com/richard-peng-xia/MMed-RAG找到。

MoH：多头注意力作为注意力头的混合
MoH: Multi-Head Attention as Mixture-of-Head Attention

Oct 15

ByPeng Jin, Bo Zhu, Li Yuan, Shuicheng Yan

在这项工作中，我们升级了Transformer模型的核心，即多头注意力机制，以提高效率同时保持或超越先前的准确性水平。我们展示了多头注意力可以用求和形式表示。基于并非所有注意力头都具有相同重要性的观点，我们提出了混合头注意力（MoH），这是一种将注意力头视为专家的新架构，类似于专家混合（MoE）机制。MoH具有两个显著优势：首先，MoH使每个标记可以选择适当的注意力头，增强推理效率而不影响准确性或增加参数数量。其次，MoH将多头注意力中的标准求和替换为加权求和，为注意力机制引入了灵活性，释放了额外的性能潜力。对ViT、DiT和LLMs的广泛实验表明，MoH通过仅使用50%-90%的注意力头优于多头注意力。此外，我们展示了预训练的多头注意力模型，如LLaMA3-8B，可以进一步调整为我们的MoH模型。值得注意的是，MoH-LLaMA3-8B在14个基准测试中取得了64.0%的平均准确率，仅利用了75%的注意力头就比LLaMA3-8B高出2.4%。我们相信所提出的MoH是多头注意力的一个有前途的替代方案，并为开发先进和高效的基于注意力的模型奠定了坚实基础。

BenTo：基于上下文可迁移性的基准任务简化
BenTo: Benchmark Task Reduction with In-Context Transferability

Oct 17

ByHongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou

评估大型语言模型（LLMs）是昂贵的：它需要在大规模各种任务的基准测试中生成和检查LLM输出。本文研究如何在不影响评估质量的情况下，有效地减少用于基准测试LLMs的任务。我们的研究揭示了任务可转移性和相关性提供了关键信息，通过优化设施选址函数来识别最具代表性的任务子集。我们提出了一种实际高效的度量标准，用于通过上下文学习（ICL）估计两个任务之间的可转移性。通过分析成对的可转移性，我们可以将现代LLM基准测试（例如MMLU或FLAN）中的任务减少到5％，同时仅对原始基准测试的评估产生不到4％的差异。与先前的工作相比，我们的方法无需训练，无需梯度，仅需要ICL，而且高效。

PopAlign：通过多样化对比模式实现更全面的对齐
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment

Oct 17

ByZekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang

大型语言模型（LLMs）的对齐涉及训练模型以偏好对比输出对来根据人类偏好调整其响应。为了获得这种对比对，传统方法如RLHF和RLAIF依赖于有限的对比模式，例如变化的模型变体或解码温度。这种单一性导致了两个问题：（1）对齐不够全面；从而（2）模型容易受到越狱攻击的影响。为了解决这些问题，我们研究如何构建更全面和多样化的对比模式来增强偏好数据（RQ1），并验证对比模式多样化对模型对齐的影响（RQ2）。对于RQ1，我们提出了PopAlign，一个框架，它在提示、模型和流水线级别整合了多样化的对比模式，引入了六种不需要额外反馈标记程序的对比策略。关于RQ2，我们进行了彻底的实验，证明PopAlign明显优于现有方法，导致更全面的对齐。

OpenAI的o1模型推理模式的比较研究
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

Oct 17

BySiwei Wu, Zhongyuan Peng, Xinrun Du, Tuney Zheng, Minghao Liu, Jialong Wu, Jiachen Ma, Yizhi Li, Jian Yang, Wangchunshu Zhou, Qunshu Lin, Junbo Zhao, Zhaoxiang Zhang, Wenhao Huang, Ge Zhang, Chenghua Lin, J. H. Liu

让大型语言模型（LLMs）能够处理更广泛的复杂任务（例如编码、数学）引起了许多研究人员的极大关注。随着LLMs的不断发展，仅仅增加模型参数数量会带来性能改进的递减效果和沉重的计算成本。最近，OpenAI的o1模型表明推理策略（即测试时计算方法）也能显著增强LLMs的推理能力。然而，这些方法背后的机制仍未被探索。在我们的研究中，为了调查o1的推理模式，我们使用OpenAI的GPT-4o作为基础，在三个领域（即数学、编码、常识推理）的通用推理基准上，将o1与现有的测试时计算方法（BoN、逐步BoN、代理工作流和自我完善）进行了比较。具体来说，首先，我们的实验表明o1模型在大多数数据集上取得了最佳性能。其次，对于寻找多样化响应的方法（例如BoN），我们发现奖励模型的能力和搜索空间都限制了这些方法的上限。第三，对于将问题分解为许多子问题的方法，代理工作流由于领域特定的系统提示而实现了比逐步BoN更好的性能，以规划更好的推理过程。第四，值得一提的是，我们总结了o1的六种推理模式，并对几个推理基准进行了详细分析。

后训练大规模模型中的Delta参数编辑的统一视图
A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models

Oct 17

ByQiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun

后训练已经成为调整大规模预训练模型以适应各种任务的关键范式，其效果完全由增量参数（即后训练和预训练参数之间的差异）所反映。虽然许多研究通过剪枝、量化、低秩逼近和外推等操作探讨了增量参数的特性，但缺乏一个系统地检查这些特性的统一框架。在本文中，我们提出了一种基于损失函数的黎曼和逼近的新视角，以阐明增量参数编辑操作。我们的分析将现有方法根据其后编辑性能分为三类：竞争性、降低性和改进性，解释它们如何由黎曼和逼近项表达以及如何改变模型性能。对包括ViT、LLaMA 3、Qwen 2和Mistral在内的视觉和语言模型进行了大量实验，证实了我们的理论发现。此外，我们介绍了对现有技术如DARE和BitDelta的扩展，突出它们在利用增量参数特性和重新组织成通用表达式以增强后训练模型中增量参数编辑的适用性和有效性方面的局限性。

FlatQuant：对于LMM量化，平坦性很重要
FlatQuant: Flatness Matters for LLM Quantization

Oct 12

ByYuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao

最近，量化技术被广泛应用于压缩和加速大型语言模型（LLMs）。由于LLMs中存在离群值，将权重和激活值展平以减小量化误差与等间距量化点至关重要。先前的研究探索了各种预量化转换方法来抑制离群值，例如按通道缩放和Hadamard变换。然而，我们观察到这些转换后的权重和激活值仍可能保持陡峭且分散。在本文中，我们提出了FlatQuant（快速且可学习的仿射变换），这是一种新的后训练量化方法，旨在增强权重和激活值的平坦性。我们的方法识别了针对每个线性层量身定制的最佳仿射变换，通过轻量级目标在几小时内进行校准。为了减少运行时开销，我们将Kronecker分解应用于转换矩阵，并将FlatQuant中的所有操作融合为单个核。大量实验证明，FlatQuant建立了一个新的最先进的量化基准。例如，在LLaMA-3-70B模型上进行W4A4量化时，其准确率仅下降不到1％，超过SpinQuant 7.5％。对于推理延迟，FlatQuant将由预量化转换引起的减速从QuaRot的0.26倍降低到仅0.07倍，分别带来预填充2.3倍加速和解码1.7倍加速。代码可在以下网址获取：https://github.com/ruikangliu/FlatQuant。

VidPanos：从随意摄制的摄像视频生成全景视频
VidPanos: Generative Panoramic Videos from Casual Panning Videos

Oct 17

ByJingwei Ma, Erika Lu, Roni Paiss, Shiran Zada, Aleksander Holynski, Tali Dekel, Brian Curless, Michael Rubinstein, Forrester Cole

全景图像拼接提供了一个统一的、广角的场景视图，超出了摄像机的视野范围。将全景视频的帧拼接成全景照片对于静止场景是一个众所周知的问题，但是当物体在移动时，静态全景图无法捕捉到整个场景。我们提出了一种方法，可以从随意拍摄的全景视频中合成全景视频，就好像原始视频是用广角摄像头拍摄的一样。我们将全景合成视为一个时空外描问题，旨在创建一个与输入视频长度相同的完整全景视频。一致完成时空体积需要对视频内容和运动进行强大、真实的先验建模，为此我们采用生成式视频模型进行调整。然而，现有的生成模型并不能立即扩展到全景完成，正如我们所展示的。相反，我们将视频生成应用作为全景合成系统的一个组成部分，并展示如何利用模型的优势同时最小化它们的局限性。我们的系统可以为各种野外场景创建视频全景，包括人物、车辆、流动的水以及静止的背景特征。

多层次语言模型能理解中国图像背后的深层含义吗？
Can MLLMs Understand the Deep Implication Behind Chinese Images?

Oct 17

ByChenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni

随着多模态大型语言模型（MLLMs）的能力不断提升，对MLLMs进行更高阶能力评估的需求也在增加。然而，目前缺乏对MLLM在理解和感知中文视觉内容方面进行更高阶评估的研究。为填补这一空白，我们引入了**中文图像涵义理解基准测试**，即**CII-Bench**，旨在评估MLLMs对中文图像的更高阶感知和理解能力。与现有基准测试相比，CII-Bench在几个方面脱颖而出。首先，为确保中文背景的真实性，CII-Bench中的图像来自中国互联网并经过人工审核，相应答案也经过人工精心制作。此外，CII-Bench还包含代表中国传统文化的图像，如著名的中国传统绘画，这些图像可以深刻反映模型对中国传统文化的理解。通过在多个MLLMs上对CII-Bench进行广泛实验，我们取得了重要发现。首先，在CII-Bench上观察到MLLMs的表现与人类之间存在显著差距。MLLMs的最高准确率达到64.4%，而人类的平均准确率为78.2%，最高可达令人印象深刻的81.0%。随后，MLLMs在中国传统文化图像上表现较差，表明它们在理解高层语义和缺乏对中国传统文化的深入知识库方面存在局限。最后，观察到大多数模型在提示中加入图像情感线索后准确率有所提升。我们相信CII-Bench将帮助MLLMs更好地理解中文语义和中文特定图像，推动迈向专家级人工通用智能（AGI）的道路。我们的项目可在https://cii-bench.github.io/ 上公开获取。

LLM模型是否具有政治正确性？分析AI系统中的道德偏见和越狱漏洞。
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems

Oct 17

ByIsack Lee, Haebin Seong

尽管大型语言模型（LLMs）展示了在各种任务中出色的熟练度，但它们存在潜在的安全风险，比如“越狱”，即恶意输入可能迫使LLMs生成有害内容。为了解决这些问题，许多LLM开发者已经实施了各种安全措施来使这些模型保持一致。这种一致性涉及多种技术，包括在预训练期间进行数据过滤、监督微调、从人类反馈中进行强化学习以及红队演练。这些方法通常引入了类似政治正确性（PC）的蓄意偏见，以确保LLMs的道德行为。本文深入探讨了为了安全目的而注入LLMs的蓄意偏见，并研究了规避这些安全一致性技术的方法。值得注意的是，即使提示的其他部分相同，这些蓄意偏见导致GPT-4o模型中越狱成功率在非二进制和同性恋关键词之间相差20％，在白人和黑人关键词之间相差16％。我们引入了PCJailbreak的概念，突出了这些安全性引发的偏见所带来的固有风险。此外，我们提出了一种有效的防御方法PCDefense，通过在生成之前注入防御提示来防止越狱尝试。PCDefense作为一种吸引人的替代方案，与需要在文本生成后额外推理成本的Guard Models（如Llama-Guard）不同。我们的发现强调了LLM开发者在设计和实施安全措施时采取更负责任的方法的迫切需要。

从互动中进行回顾性学习
Retrospective Learning from Interactions

Oct 17

ByZizhao Chen, Mustafa Omer Gul, Yiwei Chen, Gloria Geng, Anne Wu, Yoav Artzi

大型语言模型（LLMs）与用户之间的多轮交互自然包含隐式反馈信号。如果LLM对指令的响应出乎意料，用户很可能会通过重新表达请求、表达沮丧情绪或转向另一个任务来发出信号。这些信号与任务无关，占据语言的一个相对受限制的子空间，使LLM能够识别它们，即使在实际任务上失败也是如此。这为在没有额外注释的情况下不断从交互中学习创造了一条途径。我们介绍了ReSpect，这是一种通过回顾从过去交互中学习这些信号的方法。我们将ReSpect部署在一个新的多模态交互场景中，其中人类指示LLM解决一个具有组合解空间的抽象推理任务。通过与人类进行数千次交互，我们展示了ReSpect如何逐渐将任务完成率从31%提高到82%，而无需任何外部注释。

记忆、检索和生成：理解无限视觉概念作为您的个性化助手
Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant

Oct 17

ByHaoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue

大型语言模型（LLMs）的发展显著增强了多模态LLMs（MLLMs）作为通用助手的能力。然而，缺乏用户特定知识仍然限制了它们在人类日常生活中的应用。本文介绍了用于MLLMs个性化的检索增强个性化（RAP）框架。从通用MLLM开始，我们通过三个步骤将其转变为个性化助手。（a）记忆：我们设计了一个键-值数据库来存储与用户相关的信息，例如用户的姓名、头像和其他属性。（b）检索：当用户开始对话时，RAP将使用多模态检索器从数据库中检索相关信息。（c）生成：将输入查询和检索到的概念信息输入MLLMs，生成个性化、知识增强的响应。与以往的方法不同，RAP允许通过更新外部数据库实现实时概念编辑。为了进一步提高生成质量并与用户特定信息对齐，我们设计了一个数据收集流程，并创建了一个专门用于MLLMs个性化训练的数据集。基于该数据集，我们训练了一系列个性化多模态助手MLLMs。通过在大规模数据集上进行预训练，RAP-MLLMs可以在不进行额外微调的情况下泛化到无限的视觉概念。我们的模型在各种任务中展现出出色的灵活性和生成质量，例如个性化图像字幕、问题回答和视觉识别。代码、数据和模型可在https://github.com/Hoar012/RAP-MLLM找到。

向前失败：利用合成数据和检索增强改进ASR的生成式错误校正
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation

Oct 17

BySreyan Ghosh, Mohammad Sadegh Rasooli, Michael Levit, Peidong Wang, Jian Xue, Dinesh Manocha, Jinyu Li

生成式错误校正（GEC）已经成为增强自动语音识别（ASR）系统性能的强大后处理方法。然而，我们发现GEC模型在训练过程中遇到的特定类型错误之外的泛化能力有限，限制了其在测试时纠正新的、未见过的错误的能力，特别是在域外（OOD）场景中。这种现象在命名实体（NEs）方面尤为明显，除了对NEs缺乏上下文信息或知识外，新颖的NEs不断出现。为了解决这些问题，我们提出了DARAG（数据和检索增强生成式错误校正），这是一种旨在改进ASR中域内（ID）和OOD场景下GEC的新方法。我们通过使用提示LLMs和文本到语音模型生成的合成数据来增强GEC训练数据集，从而模拟模型可以学习的额外错误。对于OOD场景，我们以类似的方式并且无监督地模拟来自新领域的测试时错误。此外，为了更好地处理命名实体，我们引入了检索增强校正，通过从数据库中检索到的实体来增强输入。我们的方法简单、可扩展，既与领域无关，也与语言无关。我们在多个数据集和设置上进行实验，结果显示DARAG优于所有基线方法，在ID设置中相对WER改进了8%至30%，在OOD设置中改进了10%至33%。

MedMobile：具有专业水平临床能力的移动尺寸语言模型
MedMobile: A mobile-sized language model with expert-level clinical capabilities

Oct 11

ByKrithik Vishwanath, Jaden Stryker, Anton Alaykin, Daniel Alexander Alber, Eric Karl Oermann

语言模型（LMs）已经展示了在医学领域专家级的推理和回忆能力。然而，计算成本和隐私问题正在成为广泛实施的障碍。我们介绍了phi-3-mini的简约适应版本MedMobile，这是一个拥有38亿参数的LM，可以在移动设备上运行，用于医学应用。我们展示了MedMobile在MedQA（USMLE）上获得了75.7%的分数，超过了医生的及格线（约60%），接近于其100倍大小模型的分数。随后，我们进行了一系列仔细的消融实验，并展示了思维链、集成和微调带来了最大的性能提升，而意外的检索增强生成未能显示出显著的改进。

γ-MoD：探索用于多模态大型语言模型的深度混合适应
γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

Oct 17

ByYaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji

尽管多模态大型语言模型（MLLMs）取得了显著进展，但其高计算成本仍然是实际部署的障碍。受自然语言处理中深度混合（MoDs）的启发，我们旨在从“激活的标记”角度解决这一限制。我们的关键洞察是，如果大多数标记对于层计算是多余的，那么可以通过MoD层直接跳过它们。然而，直接将MLLMs的密集层转换为MoD层会导致显著的性能下降。为了解决这个问题，我们提出了一种创新的MoD适应策略，称为gamma-MoD。在gamma-MoD中，提出了一种新的度量来指导MLLM中MoDs的部署，即注意力图的排名（ARank）。通过ARank，我们可以有效地确定哪一层是多余的，并应该用MoD层替换。基于ARank，我们进一步提出了两种新设计，以最大限度地提高MLLM的计算稀疏性，同时保持其性能，即共享视觉-语言路由器和掩码路由学习。通过这些设计，MLLM的超过90%的密集层可以有效地转换为MoD层。为了验证我们的方法，我们将其应用于三种流行的MLLM，并在9个基准数据集上进行了大量实验。实验结果不仅验证了gamma-MoD相对于现有MLLM的显著效率优势，还确认了其在各种MLLM上的泛化能力。例如，仅有轻微性能下降，即-1.5%，gamma-MoD可以将LLaVA-HR的训练和推断时间分别减少31.0%和53.2%。

MuVi：具有语义对齐和节奏同步的视频到音乐生成
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization

Oct 16

ByRuiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao

生成与视频的视觉内容相符的音乐一直是一项具有挑战性的任务，因为它需要对视觉语义有深刻的理解，并涉及生成旋律、节奏和动态与视觉叙事和谐一致的音乐。本文介绍了MuVi，这是一个新颖的框架，有效地解决了这些挑战，以增强音视频内容的凝聚力和沉浸体验。MuVi通过一个专门设计的视觉适配器分析视频内容，提取上下文和时间相关的特征。这些特征被用来生成音乐，不仅与视频的情绪和主题相匹配，还与其节奏和速度相协调。我们还引入了对比音乐-视觉预训练方案，以确保基于音乐乐句周期性特性的同步。此外，我们展示了我们基于流匹配的音乐生成器具有上下文学习能力，使我们能够控制生成音乐的风格和流派。实验结果表明，MuVi在音频质量和时间同步方面表现出优越性能。生成的音乐视频样本可在https://muvi-v2m.github.io获取。

通过最小调整来解锁LLMs的长输出，高质量数据是关键。
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key

Oct 14

ByYingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao

随着大型语言模型迅速发展以支持更长的上下文，它们在生成更长输出方面的能力存在明显的差异。最近的研究表明，这种不平衡的主要原因可能源自在对齐训练过程中缺乏长输出数据。鉴于这一观察结果，人们尝试重新对齐基础模型与填补这一空白的数据，从而使模型能够在指导下生成较长的输出。在本文中，我们探讨了通过调整模型以实现长输出的数据质量对其影响，以及从人类对齐（指导或聊天）模型的起点开始实现这一目标的可能性。通过精心筛选数据，我们展示了在我们调整后的模型中，只需少量训练数据实例和计算资源即可实现类似的性能改进。此外，我们通过将我们的调整方法应用于多个模型来评估这种方法的泛化能力。我们的研究结果表明，尽管不同模型在开箱即用时生成长输出的能力有所不同，但我们使用轻量计算资源通过高质量数据调整它们的方法在我们实验的所有模型中始终表现出显著的改进。我们已公开了用于调整长文本能力的筛选数据集，模型调整和评估的实现，以及经过微调的模型，所有这些都可以公开获取。

LoLDU：通过下三角-对角-上三角分解进行低秩调整，用于参数高效微调。
LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning

Oct 17

ByYiming Shi, Jiwei Wei, Yujia Wu, Ran Ran, Chengwei Sun, Shiyuan He, Yang Yang

模型规模的快速增长需要大量的计算资源进行微调。现有方法，如低秩适应（LoRA），旨在解决全面微调中处理大量更新参数的问题。然而，LoRA利用随机初始化和优化低秩矩阵来近似更新权重，可能导致次优收敛和与全面微调相比的准确度差距。为了解决这些问题，我们提出了LoLDU，一种参数高效的微调（PEFT）方法，与常规PEFT方法相比，可将可训练参数减少2600倍，同时保持可比较的性能。LoLDU利用下-对角-上分解（LDU）来初始化低秩矩阵，以实现更快的收敛和正交性。我们专注于优化对角矩阵以进行缩放变换。据我们所知，LoLDU在所有PEFT方法中具有最少的参数。我们在4个指令遵循数据集、6个自然语言理解（NLU）数据集、8个图像分类数据集以及包含多种模型类型（LLaMA2、RoBERTa、ViT和Stable Diffusion）的图像生成数据集上进行了大量实验，提供了全面详细的分析。我们的开源代码可在https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}上获取。

开放材料2024（OMat24）无机材料数据集与模型
Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models

Oct 16

ByLuis Barroso-Luque, Muhammed Shuaibi, Xiang Fu, Brandon M. Wood, Misko Dzamba, Meng Gao, Ammar Rizvi, C. Lawrence Zitnick, Zachary W. Ulissi

发现具有理想性能的新材料的能力对于从帮助减缓气候变化到推动下一代计算硬件的应用至关重要。人工智能有潜力通过比其他计算方法或试错更有效地探索化学空间来加速材料的发现和设计。虽然在材料数据、基准测试和模型的人工智能方面取得了实质性进展，但出现的一个障碍是缺乏公开可用的训练数据和开放的预训练模型。为了解决这个问题，我们提出了一个Meta FAIR发布的Open Materials 2024（OMat24）大规模开放数据集以及一组配套的预训练模型。OMat24包含超过1.1亿个密度泛函理论（DFT）计算，重点关注结构和成分多样性。我们的EquiformerV2模型在Matbench Discovery排行榜上实现了最先进的性能，并能够预测基态稳定性和形成能量，F1分数超过0.9，准确率分别为20毫电子伏特/原子。我们探讨了模型大小、辅助去噪目标和微调对性能的影响，涵盖了一系列数据集，包括OMat24、MPtraj和Alexandria。OMat24数据集和模型的开放发布使研究社区能够在我们的努力基础上继续努力，并推动人工智能辅助材料科学的进一步发展。

通过条件对比对齐实现无需引导的增强现实视觉生成
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment

Oct 12

ByHuayu Chen, Hang Su, Peize Sun, Jun Zhu

无分类器引导（CFG）是增强视觉生成模型样本质量的关键技术。然而，在自回归（AR）多模态生成中，CFG引入了语言和视觉内容之间的设计不一致，与统一不同模态的视觉AR设计理念相矛盾。受语言模型对齐方法的启发，我们提出条件对比对齐（CCA）来促进无引导的AR视觉生成，具有高性能，并分析其与引导抽样方法的理论联系。与改变抽样过程以实现理想抽样分布的引导方法不同，CCA直接微调预训练模型以适应相同的分布目标。实验结果表明，CCA可以显著提升所有测试模型的无引导性能，仅需在预训练数据集上微调一个时期（相当于预训练时期的1\%），与引导抽样方法不相上下。这在很大程度上消除了AR视觉生成中引导抽样的需求，并将抽样成本减半。此外，通过调整训练参数，CCA可以在样本多样性和保真度之间实现权衡，类似于CFG。这从实验证实了语言目标对齐和视觉引导方法之间的强大理论联系，统一了两个先前独立的研究领域。代码和模型权重：https://github.com/thu-ml/CCA。

长LRM：用于广覆盖高斯斑点的长序列大重建模型
Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

Oct 16

ByChen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu

我们提出了Long-LRM，这是一个通用的3D高斯重建模型，能够从一长序列的输入图像中重建出一个大场景。具体来说，我们的模型可以在单个A100 80G GPU上在1.3秒内处理分辨率为960x540的32个源图像。我们的架构采用了最近的Mamba2块和经典的Transformer块的混合，使得可以处理比以往更多的标记，通过高效的标记合并和高斯修剪步骤来在质量和效率之间取得平衡。与之前只能处理1~4个输入图像且只能重建大场景的一小部分的前馈模型不同，Long-LRM可以在单个前馈步骤中重建整个场景。在诸如DL3DV-140和Tanks and Temples等大规模场景数据集上，我们的方法在效率上比基于优化的方法高出两个数量级，并且在性能上可与其媲美。项目页面：https://arthurhero.github.io/projects/llrm

AERO：用于高效私密推断的仅Softmax LLMs
AERO: Softmax-Only LLMs for Efficient Private Inference

Oct 16

ByNandan Kumar Jha, Brandon Reagen

专有语言模型的普及引起了用户对敏感数据隐私的担忧，强调了对私密推断（PI）的需求，其中推断直接在加密输入上执行。然而，当前的PI方法面临着过高的通信和延迟开销，主要是由于非线性操作造成的。本文提出了一项全面分析，以了解基于transformer的仅解码器语言模型中非线性的作用。我们引入了AERO，一个四步架构优化框架，通过系统地消除诸如LayerNorm和GELU之类的非线性以及减少FLOPs计数，对现有的LLM架构进行优化，以实现高效的PI。我们首次提出了一个仅包含Softmax的架构，具有显著较少的FLOPs，专为高效PI而设计。此外，我们设计了一种新颖的熵正则化技术，以提高Softmax模型的性能。AERO实现了高达4.23倍的通信和1.94倍的延迟减少。我们通过将AERO与最先进技术进行基准测试来验证其有效性。

TransAgent：利用异构智能体协作传递视觉-语言基础模型
TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration

Oct 16

ByYiwei Guo, Shaobin Zhuang, Kunchang Li, Yu Qiao, Yali Wang

视觉-语言基础模型（如CLIP）最近展示了它们在迁移学习中的强大能力，这归功于大规模图像-文本预训练。然而，下游任务中的目标领域数据可能与预训练阶段大不相同，这使得这样一个单一模型很难很好地泛化。相反，存在着各种专家模型，这些模型包含了在不同形式、任务、网络和数据集上预训练的多样化视觉和/或语言知识。不幸的是，这些模型是“孤立代理”，具有异构结构，如何整合它们的知识以实现CLIP类模型的泛化尚未得到充分探讨。为了弥合这一差距，我们提出了一个通用而简洁的TransAgent框架，以统一方式传输孤立代理的知识，并有效地指导CLIP通过多源知识蒸馏实现泛化。通过这样一个独特的框架，我们灵活地与11个异构代理合作，为视觉-语言基础模型赋能，而无需在推理阶段增加额外成本。最后，我们的TransAgent在11个视觉识别数据集上实现了最先进的性能。在相同的低样本设置下，它的平均表现优于流行的CoOp约10％，在包含大领域转移的EuroSAT上优于20％。

SBI-RAG：通过基于模式的教学和检索增强生成提升学生数学应用问题解决能力
SBI-RAG: Enhancing Math Word Problem Solving for Students through Schema-Based Instruction and Retrieval-Augmented Generation

Oct 17

ByPrakhar Dixit, Tim Oates

许多学生在数学文字问题（MWPs）上感到困难，常常难以识别关键信息并选择适当的数学运算。基于模式的教学（SBI）是一种基于证据的策略，可以帮助学生根据问题结构对问题进行分类，提高解决问题的准确性。在此基础上，我们提出了一种基于模式的教学检索增强生成（SBI-RAG）框架，其中整合了大型语言模型（LLM）。我们的方法强调通过利用模式引导解决方案生成的逐步推理。我们在GSM8K数据集上评估其性能，将其与GPT-4和GPT-3.5 Turbo进行比较，并引入“推理得分”指标来评估解决方案的质量。我们的研究结果表明，SBI-RAG提升了推理清晰度和问题解决准确性，可能为学生提供教育上的益处。

AI研究论文每日精选

每日精选AI研究论文及翻译

电影生成：媒体基础模型的演员阵容
Movie Gen: A Cast of Media Foundation Models

Oct 17

100

MixEval-X：来自真实世界数据混合的任意到任意评估
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

Oct 17

ByJinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh

JudgeBench：用于评估基于LLM的法官的基准测试
JudgeBench: A Benchmark for Evaluating LLM-based Judges

Oct 16

BySijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica

流体：使用连续标记扩展自回归文本到图像生成模型
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

Oct 17

ByLijie Fan, Tianhong Li, Siyang Qin, Yuanzhen Li, Chen Sun, Michael Rubinstein, Deqing Sun, Kaiming He, Yonglong Tian

Janus：解耦视觉编码以实现统一的多模态理解和生成
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Oct 17

ByChengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo

通过大型语言模型实现超人类语音理解的路线图
Roadmap towards Superhuman Speech Understanding using Large Language Models

Oct 17

ByFan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li

MobA：一种用于高效移动任务自动化的双层代理系统
MobA: A Two-Level Agent System for Efficient Mobile Task Automation

Oct 17

ByZichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu

WorldCuisines：一个用于全球美食的多语言和多文化视觉问答的大规模基准测试。
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

Oct 16

利用网页界面进行文本丰富的视觉理解
Harnessing Webpage UIs for Text-Rich Visual Understanding

Oct 17

ByJunpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue

DreamVideo-2：零样本主题驱动视频定制与精准运动控制
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

Oct 17

ByYujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan