HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

4 papers found

Reka核心、Flash和Edge：一系列强大的多模态语言模型
Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

Apr 18

ByAitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie

我们介绍了Reka Core、Flash和Edge，这是由Reka从头开始训练的一系列强大的多模态语言模型。Reka模型能够处理和推理文本、图像、视频和音频输入。本技术报告讨论了训练其中一些模型的细节，并提供了全面的评估结果。我们展示了Reka Edge和Reka Flash不仅是最先进的，而且胜过许多更大的模型，在各自的计算类别中提供了超额价值。与此同时，我们最强大的模型Reka Core在自动评估和盲目人类评估方面接近最佳前沿模型。在图像问答基准测试（例如MMMU、VQAv2）上，Core的表现与GPT4-V相媲美。同时，在多模态聊天中，Core在盲目第三方人类评估设置下排名第二，胜过其他模型，如Claude 3 Opus。在文本基准测试中，Core不仅在一系列公认的基准测试（例如MMLU、GSM8K）上与其他前沿模型竞争，而且在人类评估上胜过GPT4-0613。在视频问答（Perception-Test）中，Core胜过Gemini Ultra。模型已在生产中部署，网址为http://chat.reka.ai。您还可以在http://showcase.reka.ai找到一些非精心挑选的定性示例。

闪烁：多模态大型语言模型能够看到但无法感知
BLINK: Multimodal Large Language Models Can See but Not Perceive

Apr 18

ByXingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith, Wei-Chiu Ma, Ranjay Krishna

我们介绍了 Blink，这是一个针对多模态语言模型（LLMs）的新基准，侧重于核心视觉感知能力，这是其他评估中没有的。Blink 中的大多数任务可以被人类在“眨眼之间”内解决（例如，相对深度估计、视觉对应、取证检测和多视角推理）。然而，我们发现这些对感知要求很高的任务对当前多模态LLMs构成了重大挑战，因为它们难以通过自然语言进行中介。Blink 将 14 个经典计算机视觉任务重新格式化为 3,807 个多项选择题，配对单个或多个图像和视觉提示。尽管人类平均准确率达到 95.70%，但对于现有的多模态LLMs 来说，Blink 却具有令人惊讶的挑战性：即使是表现最好的 GPT-4V 和 Gemini 的准确率也只有 51.26% 和 45.72%，仅比随机猜测高出 13.17% 和 7.63%，表明这种感知能力在最近的多模态LLMs 中尚未“出现”。我们的分析还突显了专业的 CV 模型能够更好地解决这些问题，为未来改进提供了潜在路径。我们相信 Blink 将激励社区帮助多模态LLMs 追赶人类水平的视觉感知能力。

AniClipart：具有文本到视频先验知识的剪贴画动画
AniClipart: Clipart Animation with Text-to-Video Priors

Apr 18

ByRonghuan Wu, Wanchao Su, Kede Ma, Jing Liao

Clipart，一种预先制作的图形艺术形式，为说明视觉内容提供了便捷高效的方式。将静态clipart图像转换为动态序列的传统工作流程繁琐耗时，涉及多个复杂步骤，如装配、关键动画和中间动画。最近文本到视频生成技术的进展在解决这一问题方面具有巨大潜力。然而，直接应用文本到视频生成模型往往难以保留clipart图像的视觉特征或生成卡通风格动作，导致动画效果不佳。本文介绍了AniClipart，这是一个系统，通过文本到视频先验指导，将静态clipart图像转换为高质量动态序列。为了生成卡通风格和流畅动作，我们首先定义了clipart图像关键点上的贝塞尔曲线作为一种运动正则化形式。然后通过优化Video Score Distillation Sampling (VSDS)损失来将关键点的运动轨迹与提供的文本提示对齐，该损失编码了预训练文本到视频扩散模型中自然运动的充分知识。通过可微的尽可能刚性形变算法，我们的方法可以端到端优化，同时保持形变刚度。实验结果表明，所提出的AniClipart在文本视频对齐、视觉特征保留和动作一致性方面始终优于现有的图像到视频生成模型。此外，我们展示了AniClipart的多功能性，通过调整以生成更广泛的动画格式，如分层动画，允许拓扑变化。

OpenBezoar：基于混合指导数据训练的小型、经济高效且开放的模型
OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

Apr 18

ByChandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake

对各种不同下游任务进行指导微调预训练语言模型（LLMs）已经取得了显著成功，并引起了学术界和实践者的兴趣。为了确保这些经过精细调整的LLMs符合人类偏好，出现了RLHF和DPO等技术。与此同时，对模型的参数数量变得越来越感兴趣。在这项工作中，我们以OpenLLaMA 3Bv2作为基础模型，描述了用于微调OpenBezoar系列模型的配方。在这个配方中：我们首先使用Falcon-40B模型的一个开放且商业非限制性的指导微调变体，在三种方案下生成合成指导微调数据，这三种方案基于：LaMini-LM，WizardLM/Evol-Instruct（使用databricks-dolly-15k作为种子数据集）和Orca（使用Flan Collection作为种子数据集），然后利用GPT-4作为人类代理筛选这些生成物。然后，我们依次使用基于QLoRA的成本效益高的监督微调对每种方案进行微调。进一步微调生成的检查点，使用HH-RLHF数据集的子集以最小化分布转移，然后使用DPO损失获得最终检查点。通过LM Eval Harness任务/指标以及在MT-Bench上使用“LLM作为评判者”框架进行评估，发现最终检查点“OpenBezoar-HH-RLHF-DPO”在3B参数规模上表现优异，甚至在Huggingface Open LLM排行榜的某个类别中胜过顶尖模型。我们在HuggingFace上发布了“OpenBezoar-SFT”、“OpenBezoar-HH-RLHF-SFT”、“OpenBezoar-HH-RLHF-DPO”检查点，以及我们在https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc发布的生成的数据集，以及我们的代码库在https://bitbucket.org/paladinanalytics/workspace/projects/OP。