AI研究論文每日精選

每日精選AI研究論文及翻譯

Reka Core、Flash 和 Edge：一系列強大的多模式語言模型
Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

Apr 18

ByAitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie

我們介紹了Reka Core、Flash和Edge，這是由Reka從頭開始訓練的一系列強大的多模態語言模型。Reka模型能夠處理和推理文本、圖像、視頻和音頻輸入。本技術報告討論了訓練這些模型的細節，並提供了全面的評估結果。我們展示了Reka Edge和Reka Flash不僅是最先進的，而且在性能上超越了許多更大的模型，在各自的計算類別中提供了超出預期的價值。與此同時，我們最強大的模型Reka Core在自動評估和盲目人工評估方面接近最佳前沿模型。在圖像問答基準測試（例如MMMU、VQAv2）中，Core的表現與GPT4-V相媲美。在多模態對話中，Core在盲目第三方人工評估設置下排名第二，優於其他模型，如Claude 3 Opus。在文本基準測試中，Core不僅在一組成熟基準測試（例如MMLU、GSM8K）上與其他前沿模型競爭，還在人工評估方面超越了GPT4-0613。在視頻問答（Perception-Test）中，Core超越了Gemini Ultra。這些模型已在http://chat.reka.ai 上投入生產。您也可以在http://showcase.reka.ai 上找到一些非選擇性的優質示例展示。

閃爍：多模態大型語言模型能夠看見但無法感知
BLINK: Multimodal Large Language Models Can See but Not Perceive

Apr 18

ByXingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith, Wei-Chiu Ma, Ranjay Krishna

我們介紹了 Blink，這是一個針對多模式語言模型（LLMs）的新基準，專注於其他評估中找不到的核心視覺感知能力。Blink 的大部分任務可以被人類在「眨眼之間」內解決（例如，相對深度估計、視覺對應、取證檢測和多視角推理）。然而，我們發現這些對感知要求高的任務對當前的多模式 LLMs 構成了重大挑戰，因為它們無法通過自然語言進行調解。Blink 將14個經典計算機視覺任務重新格式化為3,807個多選題，配對單張或多張圖像和視覺提示。儘管人類平均準確率達到95.70％，Blink 對現有的多模式 LLMs 來說卻出奇地具有挑戰性：即使是表現最佳的 GPT-4V 和 Gemini，其準確率也僅分別為51.26％和45.72％，僅比隨機猜測高出13.17％和7.63％，這表明這種感知能力在最近的多模式 LLMs 中尚未「出現」。我們的分析還突顯了專業的 CV 模型能夠更好地解決這些問題，為未來的改進提供了潛在途徑。我們相信 Blink 將激勵社群幫助多模式 LLMs 追趕人類水平的視覺感知能力。

AniClipart：具有文本到視頻先驗知識的剪貼畫動畫
AniClipart: Clipart Animation with Text-to-Video Priors

Apr 18

ByRonghuan Wu, Wanchao Su, Kede Ma, Jing Liao

Clipart是一種預製的平面藝術形式，提供了一種方便高效的方式來說明視覺內容。將靜態clipart圖像轉換為動態序列的傳統工作流程繁瑣耗時，涉及諸多複雜步驟，如裝配、關鍵動畫和中間幀製作。最近文本生成視頻技術的進步在解決這個問題上具有巨大潛力。然而，直接應用文本生成視頻模型往往難以保留clipart圖像的視覺特徵或生成卡通風格動畫，導致動畫效果不佳。本文介紹了AniClipart，一個能夠根據文本生成高質量動態序列的系統。為了生成卡通風格和流暢動畫，我們首先將clipart圖像的關鍵點定義為B\'{e}zier曲線，作為運動正則化的一種形式。然後通過優化Video Score Distillation Sampling (VSDS)損失來對齊關鍵點的運動軌跡與提供的文本提示，該損失編碼了預訓練文本生成視頻擴散模型中對自然運動的充分知識。通過可微的盡可能保持剛性的形變算法，我們的方法可以進行端到端的優化，同時保持變形的剛性。實驗結果表明，所提出的AniClipart在文本視頻對齊、視覺特徵保留和運動一致性方面始終優於現有的圖像生成視頻模型。此外，我們展示了AniClipart的多功能性，通過將其適應到生成更廣泛的動畫格式，如分層動畫，從而實現拓撲變化。

OpenBezoar：基於混合指示數據訓練的小型、具成本效益且開放的模型
OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

Apr 18

ByChandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake

對於各種不同的下游任務進行預訓練語言模型（LLMs）的微調已經取得了顯著的成功，引起了學術界和從業者的興趣。為確保這些微調的LLMs符合人類的偏好，出現了RLHF和DPO等技術。同時，對於模型的參數量越來越小也引起了興趣。在這項工作中，我們以OpenLLaMA 3Bv2作為基礎模型，描述了用於微調OpenBezoar系列模型的配方。在這個配方中：我們首先使用Falcon-40B模型的開放且商業非限制性的指令微調變體，在三種方案下生成合成指令微調數據，這三種方案分別基於：LaMini-LM、WizardLM/Evol-Instruct（使用databricks-dolly-15k作為種子數據集）和Orca（使用Flan Collection作為種子數據集），然後使用GPT-4作為人類代理對這些生成進行篩選。然後，我們依次使用基於QLoRA的成本效益高的監督式微調來執行每個方案。最終檢查點進一步使用HH-RLHF數據集的子集進行微調，以減少分布轉移，然後使用DPO損失獲取最終檢查點。評估是通過LM Eval Harness任務/指標以及使用“LLM作為評判”的框架在MT-Bench上進行的，並發現最終檢查點“OpenBezoar-HH-RLHF-DPO”在3B參數規模上表現優異，甚至在Huggingface Open LLM排行榜的某一類別中超越了頂尖模型。我們在HuggingFace上釋放了“OpenBezoar-SFT”、“OpenBezoar-HH-RLHF-SFT”、“OpenBezoar-HH-RLHF-DPO”檢查點，以及我們在https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc和我們的代碼庫在https://bitbucket.org/paladinanalytics/workspace/projects/OP上生成的數據集。

Reka Core、Flash 和 Edge：一系列強大的多模式語言模型

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

Apr 18

閃爍：多模態大型語言模型能夠看見但無法感知

BLINK: Multimodal Large Language Models Can See but Not Perceive

Apr 18

ByXingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith, Wei-Chiu Ma, Ranjay Krishna

AniClipart：具有文本到視頻先驗知識的剪貼畫動畫

AniClipart: Clipart Animation with Text-to-Video Priors

Apr 18

ByRonghuan Wu, Wanchao Su, Kede Ma, Jing Liao

OpenBezoar：基於混合指示數據訓練的小型、具成本效益且開放的模型

OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

Apr 18

ByChandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake