AI研究論文每日精選

每日精選AI研究論文及翻譯

通過十億個虛構人物進行合成數據創建的擴展
Scaling Synthetic Data Creation with 1,000,000,000 Personas

Jun 28

ByXin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu

104

我們提出了一種新穎的以人物為驅動的數據合成方法，利用大型語言模型（LLM）內的各種觀點來創建多樣化的合成數據。為了充分應用這種方法，我們引入了Persona Hub —— 這是一億個多樣化人物的集合，是從網絡數據中自動匯總而成。這一億個人物（約占世界總人口的13%），作為世界知識的分佈式傳輸者，可以利用LLM中幾乎每個觀點，從而促進在各種場景中大規模創建多樣化的合成數據。通過展示Persona Hub 在合成高質量數學和邏輯推理問題、指導（即用戶提示）、知識豐富的文本、遊戲NPC和工具（函數）等方面的應用案例，我們證明以人物為驅動的數據合成是多功能、可擴展、靈活且易於使用的，可能引領合成數據創建和實際應用方面的範式轉變，對LLM研究和開發產生深遠影響。

HuatuoGPT-Vision，朝向在大规模多模态LLM中注入醫學視覺知識的方向前進
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

Jun 27

ByJunying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang

多模式大型語言模型（MLLMs）的快速發展，例如 GPT-4V，已帶來顯著的進展。然而，由於醫學多模式能力中存在的數據隱私問題和高昂的標註成本，這些模型仍然面臨挑戰，這導致醫學視覺文本數據的數量和質量受限。雖然一些開創性方法利用 PubMed 的大規模去識別醫學圖像文本對來解決這些限制，但由於固有的數據噪音，這些方法仍然存在不足。為了應對這一問題，我們從 PubMed 精煉了醫學圖像文本對，並在「非盲化」的情況下使用 MLLMs（GPT-4V）來去噪和重排數據，從而創建了具有 130 萬個醫學視覺問答樣本的 PubMedVision 數據集。我們的驗證表明：（1）PubMedVision 可顯著增強當前 MLLMs 的醫學多模式能力，在 MMMU 健康與醫學領域的基準測試中表現出顯著改進；（2）醫學專家的手動檢查和實證結果驗證了我們數據集相對於其他數據構建方法的優越數據質量。使用 PubMedVision，我們訓練了一個 34B 醫學 MLLM HuatuoGPT-Vision，在開源 MLLMs 中在醫學多模式情境中展現出卓越性能。

大型語言模型的直接偏好知識蒸餾
Direct Preference Knowledge Distillation for Large Language Models

Jun 28

ByYixing Li, Yuxian Gu, Li Dong, Dequan Wang, Yu Cheng, Furu Wei

在大型語言模型（LLMs）領域中，知識蒸餾（KD）是將教師模型的能力轉移到學生模型的關鍵技術。然而，現有的KD方法在LLMs的蒸餾方面面臨效率和傳統KL散度測量能力不足等挑戰和限制。研究表明，LLMs可以作為一種隱式獎勵函數，我們將其定義為KL散度的補充。在這項工作中，我們提出了用於LLMs的直接偏好知識蒸餾（DPKD）。DPKD利用分布散度來表示偏好損失和隱式獎勵函數。我們將LLMs的KD重新制定為兩個階段：首先優化由隱式獎勵和反向KL散度組成的目標，然後提高教師輸出對學生輸出的偏好概率。我們對不同數據集進行了實驗和分析，LLMs參數範圍從120M到13B，展示了我們的DPKD方法的廣泛適用性和有效性。同時，我們通過實驗和理論分析證明了引入的隱式獎勵和輸出偏好在KD中的價值和有效性。DPKD方法在輸出響應精度和完全匹配百分比方面優於基準方法。代碼和數據可在https://aka.ms/dpkd找到。

LLaRA：為視覺語言策略增強機器人學習數據
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy

Jun 28

ByXiang Li, Cristina Mata, Jongwoo Park, Kumara Kahatapitiya, Yoo Sung Jang, Jinghuan Shang, Kanchana Ranasinghe, Ryan Burgert, Mu Cai, Yong Jae Lee, Michael S. Ryoo

擁有豐富世界知識和強大推理能力的大型語言模型（LLMs）可以應對跨領域的各種任務，通常通過將其構建為對話式指令-回應對來處理。本文提出了LLaRA：大型語言和機器人助手，一個框架將機器人行動策略定義為對話，並在訓練時使用補充策略學習的輔助數據以提供改進的回應。具有視覺輸入的LLMs，即視覺語言模型（VLMs），具有處理狀態信息的能力，將其視為視覺-文本提示並生成文本中的最優策略決策。為了訓練此類行動策略VLMs，我們首先介紹了一個自動化流程，從現有的行為克隆數據中生成多樣且高質量的機器人指令數據。通過基於專為機器人任務量身定制的對話式公式的結果數據集對VLM進行微調，可以生成有意義的機器人行動策略決策。我們在多個模擬和真實環境中的實驗證明了所提出的LLaRA框架的最新性能。代碼、數據集和預訓練模型可在https://github.com/LostXine/LLaRA 上找到。

GaussianDreamerPro：具有高度增強品質的可操控3D高斯文本
GaussianDreamerPro: Text to Manipulable 3D Gaussians with Highly Enhanced Quality

Jun 26

ByTaoran Yi, Jiemin Fang, Zanwei Zhou, Junjie Wang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Xinggang Wang, Qi Tian

最近，3D 高斯濺射（3D-GS）在重建和渲染現實場景方面取得了巨大成功。為了將高渲染質量應用於生成任務，一系列研究作品試圖從文本生成 3D 高斯資產。然而，生成的資產並未達到重建任務中的質量水準。我們觀察到，由於生成過程可能導致不確定性，高斯往往會無節制地增長。為了極大地提升生成質量，我們提出了一個名為 GaussianDreamerPro 的新框架。其主要思想是將高斯綁定到合理的幾何形狀上，並在整個生成過程中進化。在我們框架的不同階段，幾何形狀和外觀都可以逐步豐富。最終輸出的資產是由綁定到網格的 3D 高斯構成，與先前方法相比展現出顯著增強的細節和質量。值得注意的是，生成的資產還可以無縫集成到下游操作流程中，例如動畫、合成和模擬等，極大地提升了其在各種應用中的潛力。演示可在 https://taoranyi.com/gaussiandreamerpro/ 查看。

AutoRAG-HP：用於檢索增強生成的自動在線超參數調整。
AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation

Jun 27

ByJia Fu, Xiaoting Qin, Fangkai Yang, Lu Wang, Jue Zhang, Qingwei Lin, Yubo Chen, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

最近大型語言模型的進步已經改變了機器學習/人工智慧的發展，需要重新評估檢索增強生成（RAG）系統的AutoML原則。為應對RAG中的超參數優化和在線適應的挑戰，我們提出了AutoRAG-HP框架，將超參數調整定義為在線多臂擇機問題，並引入了一種新穎的兩級階層多臂擇機（Hier-MAB）方法，以有效探索大型搜索空間。我們在調整超參數方面進行了廣泛實驗，如頂部k檢索文檔、提示壓縮比和嵌入方法，使用ALCE-ASQA和自然問題數據集。我們的評估從聯合優化所有三個超參數中顯示，基於多臂擇機的在線學習方法可以實現對於搜索空間中明顯梯度的情況下，Recall@5約為0.8，僅使用Grid Search方法所需的LLM API調用的約20%。此外，所提出的Hier-MAB方法在更具挑戰性的優化情境中優於其他基準。代碼將在https://aka.ms/autorag提供。

EVF-SAM：早期視覺語言融合，用於文本提示的分段任務模型
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model

Jun 28

ByYuxuan Zhang, Tianheng Cheng, Rui Hu, ei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang

Segment Anything Model（SAM）因其卓越的互動式分割能力和視覺提示而受到廣泛關注，但尚未深入探討文本提示。本文實證探討了文本提示編碼器（例如CLIP或LLM）在適應SAM進行指涉表達分割方面的應用，並介紹了基於早期視覺-語言融合的SAM（EVF-SAM）。EVF-SAM是一種簡單而有效的指涉分割方法，利用多模式提示（即圖像和文本），包括一個預訓練的視覺-語言模型用於生成指涉提示，以及一個SAM模型用於分割。令人驚訝的是，我們觀察到：（1）多模式提示和（2）具有早期融合的視覺-語言模型（例如BEIT-3）有助於準確引導SAM進行指涉分割。我們的實驗表明，基於BEIT-3的提出的EVF-SAM在RefCOCO/+/g上實現了最先進的指涉表達分割性能，並展示了用早期視覺-語言融合引導SAM的優越性。此外，基於132億參數的提出的EVF-SAM實現了顯著更高的性能，同時與基於大型多模式模型的先前SAM方法相比，減少了近82％的參數。

樹木園：一個大型多模態數據集，促進生物多樣性的人工智慧研究。
Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity

Jun 25

ByChih-Hsuan Yang, Benjamin Feuer, Zaki Jubery, Zi K. Deng, Andre Nakkab, Md Zahid Hasan, Shivani Chiranjeevi, Kelly Marshall, Nirmal Baishnab, Asheesh K Singh, Arti Singh, Soumik Sarkar, Nirav Merchant, Chinmay Hegde, Baskar Ganapathysubramanian

我們介紹Arboretum，這是一個旨在推進生物多樣性應用人工智慧的最大公開數據集。這個數據集是從iNaturalist社區科學平台精心挑選並由領域專家審核以確保準確性，包含了1.346億張圖像，比現有數據集的規模大了一個數量級。該數據集涵蓋了來自鳥類（Aves）、蜘蛛/壁蝨/蟎類（Arachnida）、昆蟲（Insecta）、植物（Plantae）、真菌/蘑菇（Fungi）、蝸牛（Mollusca）以及蛇類/蜥蜴類（Reptilia）等多種物種的圖像-語言配對數據，使其成為生物多樣性評估和農業研究的多模式視覺-語言人工智慧模型的寶貴資源。每張圖像都標註了科學名稱、分類細節和俗名，增強了人工智慧模型訓練的穩健性。我們通過釋出一套使用4000萬標註圖像子集訓練的CLIP模型展示了Arboretum的價值。我們引入了幾個新的嚴格評估基準，報告了零樣本學習的準確性，以及在生命階段、罕見物種、混淆物種和各種分類階層上的評估。我們預計Arboretum將推動能夠實現從害蟲控制策略、作物監測，到全球生物多樣性評估和環境保護等各種數字工具的人工智慧模型的發展。這些進步對確保食品安全、保護生態系統以及減緩氣候變化的影響至關重要。Arboretum是公開可用的，易於訪問，並可立即使用。請查看https://baskargroup.github.io/Arboretum/ {項目網站} 以獲取我們的數據、模型和代碼的鏈接。

具有上下文感知分詞的高效世界模型
Efficient World Models with Context-Aware Tokenization

Jun 27

ByVincent Micheli, Eloi Alonso, François Fleuret

將深度強化學習（RL）方法擴展至更大規模是一項重大挑戰。隨著生成建模的發展，基於模型的RL被視為一個強有力的競爭者。最近在序列建模方面的進展導致了基於Transformer的有效世界模型，儘管需要處理長序列的標記以準確模擬環境，進而帶來了龐大的計算量。在這項工作中，我們提出了Delta-IRIS，一種新型代理，其世界模型架構由一個編碼時間步驟之間隨機增量的離散自編碼器和一個自回歸Transformer組成，後者通過使用連續標記總結當前世界狀態來預測未來的增量。在Crafter基準測試中，Delta-IRIS在多個幀預算下確立了一個新的技術水準，同時比以往基於注意力的方法快上一個數量級。我們在https://github.com/vmicheli/delta-iris 上公開了我們的代碼和模型。

迭代式納什政策優化：透過無悔學習將LLMs與一般偏好對齊
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

Jun 30

ByYuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu

以人類反饋的強化學習（RLHF）在對齊大型語言模型（LLMs）與人類偏好方面取得了巨大成功。普遍的RLHF方法是基於獎勵的，遵循Bradley-Terry（BT）模型假設，這可能無法完全捕捉人類偏好的複雜性。在本文中，我們探索了在一個通用偏好框架下的RLHF，並從博弈理論的角度來處理它。具體而言，我們將問題定義為一個雙人遊戲，並提出了一種新穎的算法，即迭代納什策略優化（INPO）。其關鍵思想是通過無悔學習讓策略與自身對弈，從而逼近納什策略。與先前的方法不同，INPO避免了對個別回應的預期勝率進行估計的需要，這通常會帶來高計算或標註成本。相反，我們引入了一個新的損失目標，直接在偏好數據集上最小化。我們對我們的方法進行了理論分析，並通過在各種代表性基準測試上的實驗展示了其有效性。基於LLaMA-3-8B的SFT模型，INPO在AlpacaEval 2.0上實現了41.5%的長度控制勝率，在Arena-Hard上實現了38.3%的勝率，顯示出相對於基於BT模型假設的最新迭代算法[Dong等，2024]有顯著改進。此外，我們的消融研究凸顯了將KL正則化納入回應長度控制的好處。

RaTEScore：一個用於放射學報告生成的指標
RaTEScore: A Metric for Radiology Report Generation

Jun 24

ByWeike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie

本文介紹了一種新穎的實體感知指標，稱為放射學報告（文本）評估（RaTEScore），用於評估由人工智慧模型生成的醫學報告的質量。RaTEScore強調關鍵的醫學實體，如診斷結果和解剖細節，並且對於複雜的醫學同義詞具有韌性，對否定表達敏感。從技術上講，我們開發了一個全面的醫學實體識別（NER）數據集RaTE-NER，並專門為此目的訓練了一個NER模型。該模型能夠將複雜的放射學報告分解為組成的醫學實體。該指標本身是通過比較從語言模型獲得的實體嵌入的相似性來衍生的，基於它們的類型和與臨床重要性的相關性。我們的評估表明，RaTEScore與現有指標更接近人類偏好，並在已建立的公共基準測試和我們新提出的RaTE-Eval基準測試上得到驗證。

AI研究論文每日精選

每日精選AI研究論文及翻譯

通過十億個虛構人物進行合成數據創建的擴展
Scaling Synthetic Data Creation with 1,000,000,000 Personas

Jun 28

ByXin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu

104

HuatuoGPT-Vision，朝向在大规模多模态LLM中注入醫學視覺知識的方向前進
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

Jun 27

ByJunying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang

迭代式納什政策優化：透過無悔學習將LLMs與一般偏好對齊
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

Jun 30

ByYuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu

RaTEScore：一個用於放射學報告生成的指標
RaTEScore: A Metric for Radiology Report Generation

Jun 24

ByWeike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie