AI研究論文每日精選

每日精選AI研究論文及翻譯

RedPajama：用於訓練大型語言模型的開放數據集
RedPajama: an Open Dataset for Training Large Language Models

Nov 19

ByMaurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang

大型語言模型正日益成為人工智慧、科學和整個社會的基石技術，然而有關數據集組成和過濾的最佳策略仍然大多數不明確。許多表現優異的模型在其數據策劃和模型開發過程中缺乏透明度，這對於全面開放的語言模型的發展構成障礙。在本文中，我們確定了必須解決的三個與數據相關的核心挑戰，以推進開源語言模型。這些挑戰包括：(1) 模型開發的透明度，包括數據策劃過程，(2) 獲取大量高質量數據，以及 (3) 提供用於數據策劃和分析的工件和元數據。為了應對這些挑戰，我們發布了RedPajama-V1，這是LLaMA訓練數據集的開放再現。此外，我們還發布了RedPajama-V2，這是一個龐大的僅限網絡的數據集，包括原始、未過濾的文本數據，以及質量信號和元數據。這兩個RedPajama數據集總共包含超過100萬億標記，涵蓋多個領域，其質量信號有助於數據的過濾，旨在激發眾多新數據集的開發。迄今為止，這些數據集已經在生產中使用的強大語言模型的訓練中被使用，例如Snowflake Arctic、Salesforce的XGen和AI2的OLMo。為了提供有關RedPajama質量的見解，我們提出了一系列分析和消融研究，使用了高達16億參數的僅解碼器語言模型。我們的研究結果顯示，網絡數據的質量信號可以有效地利用來策劃數據的高質量子集，突顯了RedPajama在推動透明和高性能語言模型大規模發展方面的潛力。

FlipSketch：將靜態繪圖翻轉為以文本引導的草圖動畫
FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations

Nov 16

ByHmrishav Bandyopadhyay, Yi-Zhe Song

素描動畫提供了一個強大的視覺敘事媒介，從簡單的翻頁塗鴉到專業的工作室製作。傳統動畫需要一組熟練的藝術家來繪製關鍵幀和中間幀，而現有的自動化嘗試仍然需要顯著的藝術努力，通過精確的運動路徑或關鍵幀規範。我們提出了FlipSketch，這是一個系統，可以帶回翻頁書動畫的魔力--只需繪製您的想法並描述您希望它如何移動！我們的方法利用從文本到視頻擴散模型中獲得的運動先驗，通過三個關鍵創新來生成素描動畫：(i) 細調素描風格幀生成，(ii) 通過噪聲細化保持輸入素描視覺完整性的參考幀機制，以及(iii) 一種雙重注意力組合，實現流暢運動而不失視覺一致性。與受限的向量動畫不同，我們的點陣幀支持動態素描變換，捕捉傳統動畫的表現自由。結果是一個直觀的系統，使素描動畫就像塗鴉和描述一樣簡單，同時保持手繪動畫的藝術精髓。

SymDPO：基於符號示範直接偏好優化的大型多模態模型上下文學習效能提升
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

Nov 17

ByHongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang

隨著語言模型規模持續擴大，大型語言模型（LLMs）在上下文學習（ICL）中展現出新興能力，能夠通過前置少量上下文示範（ICDs）作為背景來解決語言任務。受此進展啟發，研究人員擴展這些技術以開發具備ICL能力的大型多模態模型（LMMs）。然而，現有LMMs面臨一個關鍵問題：它們往往無法有效利用多模態示範中的視覺上下文，而僅是遵循文本模式。這表明LMMs未能實現多模態示範與模型輸出之間的有效對齊。為解決此問題，我們提出符號示範直接偏好優化（SymDPO）。具體而言，SymDPO旨在打破傳統多模態示範建構範式，透過隨機符號替換實例中的文本答案，迫使模型仔細理解示範圖像並建立圖像與符號之間的關聯以正確回答問題。我們在多個基準測試上驗證了該方法的有效性，結果表明採用SymDPO的LMMs能更有效地理解示例中的多模態上下文，並運用此知識更好地回答問題。

連續推理解碼用於自回歸圖像生成
Continuous Speculative Decoding for Autoregressive Image Generation

Nov 18

ByZili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang

連續值自回歸（AR）圖像生成模型已證明比其離散標記對應物具有顯著優勢，展示出相當的重建質量和更高的生成保真度。然而，自回歸框架的計算需求導致顯著的推理開銷。雖然猜測解碼已被證明對加速大型語言模型（LLMs）有效，但對連續值視覺自回歸模型的適應尚未被探索。本研究將猜測解碼算法從離散標記擴展到連續空間。通過分析輸出分佈的固有特性，我們為這些模型中普遍存在的擴散分佈建立了一個定制的接受標準。為了克服猜測解碼輸出分佈中出現的不一致性，我們引入了去噪軌跡對齊和標記預填充方法。此外，我們識別了拒絕階段中難以抽樣的分佈。為了緩解這個問題，我們提出了一種細緻的接受-拒絕抽樣方法，並設定適當的上界，從而避免複雜的積分。實驗結果表明，我們的連續猜測解碼在現成模型上實現了顯著的2.33倍加速，同時保持了輸出分佈。代碼將在 https://github.com/MarkXCloud/CSpD 提供。

ITACLIP：通過圖像、文本和架構增強來提升無需訓練的語義分割
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

Nov 18

ByM. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin

最近在基礎視覺語言模型（VLMs）方面的進展已經重塑了計算機視覺任務的評估範式。這些基礎模型，特別是CLIP，已加速了對開放詞彙計算機視覺任務的研究，包括開放詞彙語義分割（OVSS）。儘管最初的結果令人鼓舞，VLMs的密集預測能力仍需要進一步改進。在這項研究中，我們通過引入新的模塊和修改來增強CLIP的語義分割性能： 1）在ViT的最後一層進行架構變更，並將中間層的注意力映射與最後一層結合， 2）圖像工程：應用數據增強來豐富輸入圖像表示，以及 3）使用大型語言模型（LLMs）為每個類別名稱生成定義和同義詞，以利用CLIP的開放詞彙能力。我們的無需訓練的方法ITACLIP，在分割基準測試中表現優異，如COCO-Stuff、COCO-Object、Pascal Context和Pascal VOC。我們的代碼可在https://github.com/m-arda-aydn/ITACLIP 找到。

建立信任：人工智慧中安全、安全性和透明度的基礎
Building Trust: Foundations of Security, Safety and Transparency in AI

Nov 19

ByHuzaifa Sidhpurwala, Garth Mollett, Emily Fox, Mark Bestavros, Huamin Chen

本文探討了公開可用人工智慧模型生態系統的快速演變，以及其對安全和安全领域的潜在影响。隨著人工智慧模型日益普及，了解其潜在风险和漏洞至关重要。我們审查了当前的安全和安全场景，同时突出挑战，如跟踪问题、补救措施，以及人工智慧模型生命周期和所有权流程的明显缺失。提出了增强模型开发者和最终用户安全和安全性的全面策略。本文旨在为更加标准化的安全、安全和透明度提供一些基础要素，以促进人工智慧模型的开发和运作，以及围绕它们形成的更大规模的开放生态系统和社区。

柔性機器人動態手持筆旋轉
Soft Robotic Dynamic In-Hand Pen Spinning

Nov 19

ByYunchao Yao, Uksang Yoo, Jean Oh, Christopher G. Atkeson, Jeffrey Ichnowski

在軟性機器人系統中，動態手部操作仍然是一個具有挑戰性的任務，這些系統在安全柔軟的互動方面具有優勢，但在高速動態任務方面卻遇到困難。在這項工作中，我們提出了一個名為SWIFT的系統，用於學習使用軟性和柔軟的機器人手進行動態任務。與先前依賴模擬、準靜態動作和精確物體模型的作品不同，所提出的系統通過僅使用現實世界數據進行試錯學習來學習旋轉筆的技能，而無需明確事先了解筆的物理特性。通過從現實世界中採樣的自標記試驗，系統發現了一組筆抓取和旋轉基本參數，使得柔性手部能夠穩健可靠地旋轉筆。在對每個物體進行130次採樣動作後，SWIFT在三支具有不同重量和重量分佈的筆上實現了100%的成功率，展示了系統對於物體特性變化的泛化能力和穩健性。結果突顯了軟性機器人末端執行器執行動態任務，包括快速手部操作的潛力。我們還展示了SWIFT能夠泛化到旋轉不同形狀和重量物品，如刷子和螺絲刀，其成功率分別為10/10和5/10。視頻、數據和代碼可在https://soft-spin.github.io獲得。

SEAGULL：基於視覺語言指導微調的感興趣區域無參考圖像質量評估
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning

Nov 15

ByZewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu

現有的影像品質評估（IQA）方法在分析整體影像品質方面取得了顯著的成功，但很少有研究探討對於感興趣區域（ROIs）的品質分析。對 ROIs 的品質分析可以為影像品質改進提供細緻的指導，對於專注於區域級別品質的情境至關重要。本文提出了一種新型網絡，名為 SEAGULL，它可以利用大型視覺語言模型的指導來查看和評估 ROIs 的品質。SEAGULL 結合了視覺語言模型（VLM）、由 Segment Anything Model（SAM）生成的遮罩來指定 ROIs，以及精心設計的基於遮罩的特徵提取器（MFE）來提取指定 ROIs 的全局和局部標記，實現對 ROIs 的準確細粒度 IQA。此外，本文構建了兩個基於 ROI 的 IQA 數據集，SEAGULL-100w 和 SEAGULL-3k，用於訓練和評估基於 ROI 的 IQA。SEAGULL-100w 包含約 100w 張合成失真影像，擁有 3300 萬個 ROIs，用於預訓練以提升模型對區域品質感知的能力，而 SEAGULL-3k 包含約 3k 個真實失真 ROIs，以增強模型對真實世界失真的感知能力。在 SEAGULL-100w 預訓練並在 SEAGULL-3k 上進行微調後，SEAGULL 在細粒度 ROI 品質評估上表現出色。代碼和數據集可在 https://github.com/chencn2020/Seagull 公開獲取。

評估大型語言模型在印度官方語言中的分詞器性能
Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages

Nov 19

ByS. Tamang, D. J. Bora

基於Transformer架構的大型語言模型（LLMs）已經在各個領域引起了革命，而在其預處理和微調階段中，分詞在其中發揮了關鍵作用。在多語言模型中，特別是針對印度語言定制的模型，有效的分詞對於優化性能至關重要。本文對12個LLMs使用的分詞器在印度的所有22種官方語言中進行了全面評估，重點比較它們的分詞過程的效率。我們採用了標準化序列長度（NSL）作為分析的關鍵指標。我們的研究結果顯示，SUTRA分詞器在14種語言中表現優異，優於所有其他模型，包括幾個針對印度語言的模型。值得注意的見解包括SUTRA分詞器在處理印度語言方面的卓越表現，GPT-4o相對於其前身GPT-4在處理印度語言方面的進步，以及Project Indus在某些語言中的有限性能。這項研究強調了為多語言和印度中心模型開發定向分詞策略的關鍵重要性，為未來改進分詞器設計以增強語言覆蓋率和模型效率奠定了基礎。