AI研究論文每日精選

每日精選AI研究論文及翻譯

We-Math：您的大型多模型是否實現了類似人類的數學推理？
We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

Jul 1

ByRunqi Qiao, Qiuna Tan, Guanting Dong, Minhui Wu, Chong Sun, Xiaoshuai Song, Zhuoma GongQue, Shanglin Lei, Zhe Wei, Miaoxuan Zhang, Runfeng Qiao, Yifan Zhang, Xiao Zong, Yida Xu, Muxi Diao, Zhimin Bao, Chen Li, Honggang Zhang

視覺數學推理作為一種基本的視覺推理能力，受到大型多模型（LMMs）社群的廣泛關注。現有的基準測試，如MathVista和MathVerse，更注重結果導向的表現，但忽略了知識獲取和泛化中的基本原則。受到類人數學推理的啟發，我們引入了WE-MATH，這是第一個專門設計來探索超越端對端表現的解決問題原則的基準測試。我們精心收集和分類了6.5K個視覺數學問題，涵蓋了67個階層式知識概念和五個知識細節層次。我們根據所需的知識概念將複合問題分解為子問題，並引入了一個新穎的四維指標，即不足知識（IK）、不足泛化（IG）、完全掌握（CM）和機械記憶（RM），以階層式評估LMMs推理過程中的固有問題。通過WE-MATH，我們對現有的LMMs在視覺數學推理方面進行了全面評估，並揭示了解決步驟與特定問題表現之間的負相關。我們確認LMMs的IK問題可以通過知識擴充策略有效改善。更重要的是，GPT-4o的主要挑戰顯著從IK轉變為IG，使其成為首個邁向知識泛化階段的LMM。相比之下，其他LMMs明顯傾向於機械記憶 - 它們能正確解決涉及多個知識概念的複合問題，但無法回答子問題。我們預期WE-MATH將為LMMs在視覺數學推理方面的進展開辟新途徑。WE-MATH的數據和評估代碼可在https://github.com/We-Math/We-Math 上獲得。

ROS-LLM：一個具有任務反饋和結構化推理的具體AI的ROS框架
ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning

Jun 28

ByChristopher E. Mower, Yuhui Wan, Hongzhan Yu, Antoine Grosnit, Jonas Gonzalez-Billandon, Matthieu Zimmer, Jinlong Wang, Xinyu Zhang, Yao Zhao, Anbang Zhai, Puze Liu, Davide Tateo, Cesar Cadena, Marco Hutter, Jan Peters, Guangjian Tian, Yuzheng Zhuang, Kun Shao, Xingyue Quan, Jianye Hao, Jun Wang, Haitham Bou-Ammar

我們提出了一個框架，用於讓非專家通過自然語言提示和來自機器人操作系統（ROS）的上下文信息進行直觀的機器人編程。我們的系統集成了大型語言模型（LLMs），使非專家能夠通過聊天界面向系統表達任務需求。該框架的關鍵特點包括：將ROS與連接到眾多開源和商業LLMs的人工智能代理整合，從LLM輸出中自動提取行為並執行ROS動作/服務，支持三種行為模式（序列、行為樹、狀態機），模仿學習以將新的機器人動作添加到可能動作庫中，以及通過人類和環境反饋實現LLM反思。廣泛的實驗驗證了該框架，在各種場景中展示了其穩健性、可擴展性和多功能性，包括長期任務、桌面重新排列和遠程監督控制。為了促進我們框架的應用並支持我們結果的重現，我們已將我們的代碼開源。您可以在以下網址訪問：https://github.com/huawei-noah/HEBO/tree/master/ROSLLM。

ColPali：利用視覺語言模型進行高效文件檢索
ColPali: Efficient Document Retrieval with Vision Language Models

Jun 27

ByManuel Faysse, Hugues Sibille, Tony Wu, Gautier Viaud, Céline Hudelot, Pierre Colombo

文件是透過文字、表格、圖片、頁面設計或字體來傳達信息的視覺豐富結構。儘管現代文件檢索系統在查詢與文本匹配方面表現出色，但它們在高效利用視覺線索方面仍存在困難，這影響了它們在實際文件檢索應用（如檢索增強生成）中的性能。為了對視覺豐富文件檢索中的現有系統進行基準測試，我們引入了名為ViDoRe的視覺文件檢索基準，包括跨多個領域、語言和設置的各種頁面級檢索任務。現代系統的固有缺陷促使引入一種新的檢索模型架構ColPali，該模型利用最近的視覺語言模型的文件理解能力，僅從文件頁面的圖像中生成高質量的情境化嵌入。結合後期交互匹配機制，ColPali在很大程度上優於現代文件檢索流程，同時速度大幅提升且可端到端進行訓練。

RegMix：資料混合作為語言模型預訓練的迴歸
RegMix: Data Mixture as Regression for Language Model Pre-training

Jul 1

ByQian Liu, Xiaosen Zheng, Niklas Muennighoff, Guangtao Zeng, Longxu Dou, Tianyu Pang, Jing Jiang, Min Lin

大型語言模型預訓練的數據混合顯著影響性能，然而如何確定有效的混合仍不清楚。我們提出 RegMix，通過將其定義為回歸任務，自動識別高性能數據混合。RegMix 包括訓練一組具有多樣數據混合的小型模型，並擬合一個回歸模型來預測它們在各自混合下的性能。通過擬合的回歸模型，我們模擬排名靠前的混合，並用它來訓練具有數量級更多計算的大型模型。為了在實驗上驗證 RegMix，我們訓練了512個具有1M參數、1B標記的不同混合模型，以擬合回歸模型並找到最佳混合。使用這個混合，我們訓練了一個具有1B參數的模型，標記了25B標記（即比其他混合的64個1B參數模型大1000倍並長25倍），我們發現其性能優於其他模型。此外，我們的方法表現優於人工選擇，並實現與或超越 DoReMi 的結果，同時僅利用10%的計算預算。我們的實驗還表明：（1）數據混合對性能有顯著影響，單任務性能變化高達14.6％；（2）與維基百科等被認為是高質量的數據相比，Web 語料庫對下游性能有最強烈的正相關；（3）領域之間以復雜方式互動，常常違背常識，因此需要像 RegMix 這樣的自動方法；（4）數據混合效應超越了擴展定律，我們的方法通過考慮所有領域一起捕捉了這種復雜性。我們的代碼可在 https://github.com/sail-sg/regmix 找到。

LiteSearch：用於LLM的高效樹搜索
LiteSearch: Efficacious Tree Search for LLM

Jun 29

ByAnte Wang, Linfeng Song, Ye Tian, Baolin Peng, Dian Yu, Haitao Mi, Jinsong Su, Dong Yu

最近的研究表明，樹搜索算法（例如蒙特卡羅樹搜索）可以顯著提升在複雜數學推理任務上的LLM性能。然而，由於浪費性的搜索策略，它們通常需要超過貪婪解碼的10倍以上的計算資源，這使得它們難以應用於實際應用中。本研究引入了一種新穎的引導樹搜索算法，具有動態節點選擇和節點級探索預算（最大子節點數）計算，以應對這個問題。通過考慮搜索進展朝著最終答案（歷史）以及來自價值網絡（未來）的引導，在沒有任何逐步註釋的情況下訓練，我們的算法在分配的計算預算範圍內迭代地選擇最有前途的樹節點，然後對其進行擴展。在GSM8K和TabMWP數據集上進行的實驗表明，我們的方法不僅提供了有競爭力的性能，而且與基準方法相比，計算成本顯著降低。

MMEvalPro：校準多模態基準以實現可信且高效的評估
MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

Jun 29

ByJinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang

大型多模型（LMMs）展現了令人印象深刻的跨模懂與推理能力，通常透過包含圖像、問題和多個選項的多重選擇題（MCQs）進行評估。然而，許多用於此類評估的基準存在系統性偏見。值得注意的是，沒有任何視覺感知能力的大型語言模型（LLMs）也能取得非微不足道的表現，削弱了這些評估的可信度。為了解決這個問題，同時保持MCQ評估的效率，我們提出了MMEvalPro，這是一個旨在避免第一類錯誤的基準，通過三部曲評估流程和更嚴格的指標設計。對於現有基準中的每個原始問題，人類標註者通過細緻的標註過程，擴充它們，創建一個感知問題和一個知識錨問題。MMEvalPro 包含 2,138 個問題三元組，總計 6,414 個不同問題。其中三分之二的問題由人類專家手動標註，其餘來自現有基準（MMMU、ScienceQA 和 MathVista）。與現有基準相比，我們對最新的LLMs和LMMs進行的實驗表明，MMEvalPro 更具挑戰性（最佳LMM 與人類表現之間的差距為 31.73%，而先前基準的平均差距為 8.03%），並且更值得信賴（最佳LLM 落後最佳LMM 23.09%，而先前基準的差距僅為 14.64%）。我們的深入分析解釋了表現差距的原因，並證明了評估的可信度，突顯了它在推進未來研究方面的重要潛力。

小波是自回歸圖像生成的全部所需
Wavelets Are All You Need for Autoregressive Image Generation

Jun 28

ByWael Mattar, Idan Levy, Nir Sharon, Shai Dekel

本文採用了一種新的方法來進行自回歸圖像生成，該方法基於兩個主要要素。第一個要素是小波圖像編碼，它允許將圖像的視覺細節從粗糙到細節進行標記化，通過按照從最顯著小波係數的最顯著位開始排序信息。第二個要素是語言變換器的一個變體，其架構經過重新設計並針對這種“小波語言”的標記序列進行了優化。該變換器學習了標記序列中的顯著統計相關性，這些相關性是各種分辨率下小波子帶之間已知相關性的表現。我們展示了在生成過程中對條件進行實驗結果。

DiffIR2VR-Zero：使用基於擴散的影像修復模型進行零樣本視頻修復
DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

Jul 1

ByChang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu

本文介紹了一種使用預先訓練的影像修復擴散模型進行零樣本視頻修復的方法。傳統的視頻修復方法通常需要針對不同設置重新訓練，並且在各種降解類型和數據集之間的泛化能力有限。我們的方法採用了一種用於關鍵幀和局部幀的階層式標記合併策略，結合了一種混合對應機制，將光流和基於特徵的最近鄰匹配（潛在合併）相結合。我們展示了我們的方法不僅在零樣本視頻修復方面取得了頂尖表現，而且在各種數據集和極端降解（8倍超分辨率和高標準差視頻降噪）方面明顯優於訓練模型的泛化能力。我們通過定量指標和各種具有挑戰性的數據集上的視覺比較提供了證據。此外，我們的技術適用於任何2D修復擴散模型，為視頻增強任務提供了一個多功能且強大的工具，無需進行大量重新訓練。這項研究將帶來更高效且廣泛應用的視頻修復技術，支持需要高質量視頻輸出的領域的進步。請查看我們的項目頁面以查看視頻結果：https://jimmycv07.github.io/DiffIR2VR_web/。

步驟控制的DPO：利用逐步錯誤以增強數學推理
Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning

Jun 30

ByZimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan

直接偏好優化（Direct Preference Optimization，DPO）已被證明對於提升大型語言模型（Large Language Models，LLMs）在推理和對齊等下游任務上的表現效果顯著。在這項研究中，我們提出了步驟控制的DPO（Step-Controlled DPO，SCDPO），一種通過創建從特定步驟開始出現錯誤的數學推理原理的負樣本，自動提供逐步錯誤監督的方法。通過將這些樣本應用於DPO訓練中，SCDPO可以更好地使模型對理解推理錯誤並輸出準確的推理步驟進行調整。我們將SCDPO應用於代碼集成和思維鏈解決方案，實證表明它相對於單純的DPO在三種不同的SFT模型上均能持續改善性能，包括一個現有的SFT模型和我們微調的兩個模型。SCDPO和DPO的信用分配的定性分析表明了SCDPO在識別數學解決方案中的錯誤方面的有效性。然後，我們將SCDPO應用於InternLM2-20B模型，得到一個在GSM8K上達到88.5％、在MATH上達到58.1％的20B模型，與所有其他開源LLMs相媲美，展示了我們方法的巨大潛力。

InstantStyle-Plus：在文本到圖像生成中實現風格轉移並保留內容
InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation

Jun 30

ByHaofan Wang, Peng Xing, Renyuan Huang, Hao Ai, Qixun Wang, Xu Bai

風格轉移是一個創新的過程，旨在創建一幅保留原始精髓並同時擁抱另一種視覺風格的圖像。儘管擴散模型在個性化主題驅動或風格驅動應用中展示了令人印象深刻的生成能力，但現有的最先進方法仍然在實現內容保留和風格增強之間取得無縫平衡方面遇到困難。例如，增強風格的影響力往往會削弱內容的結構完整性。為了應對這些挑戰，我們將風格轉移任務分解為三個核心元素：1）風格，專注於圖像的美學特徵；2）空間結構，涉及視覺元素的幾何排列和構圖；和3）語義內容，捕捉圖像的概念含義。在這些原則的指導下，我們介紹了InstantStyle-Plus，一種強調保持原始內容完整性並無縫整合目標風格的方法。具體來說，我們的方法通過高效輕量的過程實現風格注入，利用尖端的InstantStyle框架。為了加強內容保留，我們通過反轉內容潛在噪聲和多功能即插即用的Tile ControlNet來啟動過程，以保留原始圖像的固有佈局。我們還結合了全局語義適配器來增強語義內容的忠實度。為了防止風格信息的稀釋，我們採用風格提取器作為鑑別器，提供補充的風格指導。代碼將可在https://github.com/instantX-research/InstantStyle-Plus 上獲得。

如果您只需要檢索，那麼長上下文是否真的重要？邁向真正困難的長上下文自然語言處理
Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP

Jun 29

ByOmer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan, Reut Tsarfaty

語言模型能力的提升推動了其應用範圍擴展至更長的上下文，使得長上下文的評估和發展成為一個活躍的研究領域。然而，在“長上下文”這個統稱下，許多不同的用例被歸為一類，僅根據模型輸入的總長度來定義，包括例如“大海捞針”任務、書籍摘要和信息聚合。鑒於它們各自的難度不同，我們在這篇立場論文中主張，通過上下文長度將不同任務混為一談是不具生產性的。作為一個社群，我們需要更精確的詞彙來理解長上下文任務的相似性或差異性。我們建議根據使長上下文任務隨著上下文長度增加而變得更難的特性，對長上下文的分類進行細分。我們提出了兩個正交的難度軸：（一）擴散：在上下文中找到必要信息有多難？（二）範圍：需要找到多少必要信息？我們對長上下文的文獻進行了調查，為這種分類法提供了說明作為一個具信息性的描述符，並將文獻與之相關聯。我們得出結論，那些最困難且最有趣的設置，其中必要信息在輸入中非常長且高度分散，目前研究尚未深入探討。通過使用描述性詞彙並討論長上下文難度的相關特性，我們可以在這一領域實現更加知情的研究。我們呼籲謹慎設計具有明顯長上下文特徵的任務和基準，考慮到使其在質上與較短上下文有所不同的特點。

E2 TTS：令人尷尬地簡單的完全非自回歸零-shot TTS
E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

Jun 26

BySefik Emre Eskimez, Xiaofei Wang, Manthan Thakker, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Hemin Yang, Zirun Zhu, Min Tang, Xu Tan, Yanqing Liu, Sheng Zhao, Naoyuki Kanda

本文介紹了「尷尬易」文本轉語音（E2 TTS），這是一種完全非自回歸的零-shot文本轉語音系統，提供人類水準的自然度以及最先進的語者相似度和可懂性。在E2 TTS框架中，文本輸入被轉換為帶有填充標記的字符序列。然後，基於音頻填充任務訓練基於流匹配的mel頻譜圖生成器。與許多先前的工作不同，它不需要額外的組件（例如，持續時間模型，字形到音素）或複雜技術（例如，單調對齊搜索）。儘管其簡單性，E2 TTS實現了與或超越以前的作品（包括Voicebox和NaturalSpeech 3）相媲美的最先進的零-shot TTS能力。E2 TTS的簡單性還允許在輸入表示中具有靈活性。我們提出了幾種E2 TTS的變體，以提高推論過程中的可用性。請參閱https://aka.ms/e2tts/以獲取演示樣本。

實境對話：具有3D面部先驗引導身份對齊網絡的實時和逼真音頻驅動人臉生成
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network

Jun 26

ByXiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang

在計算機視覺中，以音訊驅動的通用人臉生成是一項具有挑戰性的任務。先前的方法在音視覺同步方面取得了顯著進展，但目前的結果與實際應用之間仍存在顯著差距。挑戰主要包括兩個方面：1) 保留獨特的個人特徵以實現高精度的嘴唇同步。2) 在實時性能中生成高質量的面部渲染。在本文中，我們提出了一種新穎的通用音訊驅動框架 RealTalk，該框架包括音訊轉換為表情的模塊和高保真度的表情轉換為人臉的渲染器。在第一個模塊中，我們考慮了與說話嘴唇運動相關的身份和個人內部變化特徵。通過在豐富的面部先驗上引入跨模態注意力，我們可以有效地將嘴唇運動與音訊對齊，從而實現更高的表情預測精度。在第二個模塊中，我們設計了一個輕量級的面部身份對齊（FIA）模塊，其中包括嘴唇形狀控制結構和面部紋理參考結構。這種新穎的設計使我們能夠在實時生成細節，而無需依賴複雜且低效的特徵對齊模塊。我們在公共數據集上的實驗結果，無論是定量還是定性，都展示了我們的方法在嘴唇-語音同步和生成質量方面的明顯優勢。此外，我們的方法高效且需要較少的計算資源，使其非常適合滿足實際應用的需求。

MIRAI：評估用於事件預測的LLM代理
MIRAI: Evaluating LLM Agents for Event Forecasting

Jul 1

ByChenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang

最近大型語言模型（LLMs）的進步使LLM代理能夠自主收集世界信息，並在此基礎上進行推理以解決複雜問題。鑒於這種能力，人們越來越感興趣將LLM代理應用於預測國際事件，這可以影響決策並塑造國際政策發展。儘管存在這種日益增長的興趣，但對於LLM代理的預測能力和可靠性缺乏嚴格的基準。為填補這一空白，我們引入了MIRAI，這是一個新穎的基準，旨在系統評估LLM代理作為國際事件時間預測者的能力。我們的基準具有一個代理環境，配備工具，可訪問大量歷史結構化事件和文本新聞文章的數據庫。我們通過仔細清理和解析來完善GDELT事件數據庫，精心策劃了一系列具有不同預測時間範圍的關聯性預測任務，評估LLM代理從短期到長期預測的能力。我們進一步實現API，使LLM代理能夠通過基於代碼的接口使用不同工具。總之，MIRAI全面評估了代理的能力，包括：1）自主從大型全球數據庫中獲取並整合關鍵信息；2）使用特定領域的API和庫編寫代碼以使用工具；以及3）共同推理歷史知識，從不同格式和時間準確預測未來事件。通過全面的基準測試，我們旨在建立一個可靠的框架，用於評估LLM代理在預測國際事件方面的能力，從而為發展更準確和可信賴的國際關係分析模型做出貢獻。

知識鏈：從知識圖譜學習，將知識推理整合到大型語言模型中
Chain-of-Knowledge: Integrating Knowledge Reasoning into Large Language Models by Learning from Knowledge Graphs

Jun 30

ByYifei Zhang, Xintao Wang, Jiaqing Liang, Sirui Xia, Lida Chen, Yanghua Xiao

大型語言模型（LLMs）在各種自然語言處理（NLP）任務中展現出令人印象深刻的熟練度，這些任務涉及日益複雜的推理。知識推理是一種主要的推理類型，旨在從現有知識中推導出新知識。儘管知識推理在知識圖（KGs）的背景下得到廣泛研究，但LLMs中的知識推理仍未得到充分探索。本文介紹了一個名為知識鏈（Chain-of-Knowledge）的全面框架，用於知識推理，包括數據集構建和模型學習的方法論。在數據集構建方面，我們通過對知識圖進行規則挖掘創建了KnowReason。在模型學習方面，我們觀察到由於單純訓練而引起的規則過度擬合。因此，我們通過一種試錯機制增強了CoK，該機制模擬了內部知識探索的人類過程。我們對KnowReason進行了大量實驗。我們的結果顯示了CoK在精煉LLMs方面的有效性，不僅在知識推理方面，還在一般推理基準測試中。

自動櫻桃採摘機：從由語言驅動的高質量生成數據中學習
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language

Jun 28

ByYicheng Chen, Xiangtai Li, Yining Li, Yanhong Zeng, Jianzong Wu, Xiangyu Zhao, Kai Chen

擴散式模型在生成具有不同佈局的高品質圖像方面展現了巨大潛力，這有助於下游感知任務。然而，僅由語言驅動的完全自動佈局生成以及用於衡量多個生成實例的適當指標尚未得到很好的探索。在這項工作中，我們提出了Auto Cherry-Picker（ACP），這是一個新穎的框架，用於生成高質量的多模態訓練示例，以擴充感知和多模態訓練。從一個簡單的自然語言概念列表開始，我們提示大型語言模型（LLMs）生成詳細描述並設計合理的佈局。接下來，我們使用現成的文本到圖像模型生成多個圖像。然後，使用全面設計的指標對生成的數據進行精煉以確保質量。特別地，我們提出了一個新的指標，名為綜合佈局和圖像分數（CLIS），用於公平評估生成的圖像。我們的合成高質量示例通過定制初始概念列表，在各種情況下提升了性能，特別是在應對長尾分佈和不平衡數據集所帶來的挑戰方面。下游任務的實驗結果表明，Auto Cherry-Picker可以顯著提高現有模型的性能。此外，我們已徹底研究了CLIS與下游任務性能提升之間的相關性，我們發現更好的CLIS分數導致更好的性能。這一發現顯示了評估指標在各種視覺感知和MLLM任務中的潛力。代碼將可用。

OmniJARVIS：統一的視覺-語言-動作標記化技術實現開放世界指示跟隨智能體
OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents

Jun 27

ByZihao Wang, Shaofei Cai, Zhancun Mu, Haowei Lin, Ceyao Zhang, Xuejie Liu, Qing Li, Anji Liu, Xiaojian Ma, Yitao Liang

我們提出了 OmniJARVIS，一種新穎的視覺-語言-動作（VLA）模型，用於開放世界 Minecraft 中的開放世界指示跟隨代理。與先前的作品相比，先前的作品要麼將文本目標發送給獨立控制器，要麼直接生成控制命令，OmniJARVIS 通過對多模態交互數據進行統一標記化，尋求一條不同的道路，以確保強大的推理和高效的決策能力。首先，我們介紹了一種自監督方法，用於學習一個行為編碼器，該編碼器為行為軌跡 tau = {o_0, a_0, dots} 生成離散化標記，以及一個條件化於這些標記的模仿學習（IL）策略解碼器。這些額外的行為標記將被增加到預訓練的多模態語言模型（MLMs）的詞彙表中。通過這個編碼器，我們將涉及任務指示、記憶、思維、觀察、文本響應、行為軌跡等的長期多模態交互打包成統一的標記序列，並使用自回歸變壓器對其進行建模。由於具有語義意義的行為標記，最終的 VLA 模型 OmniJARVIS 能夠進行推理（生成思維鏈）、規劃、回答問題，並採取行動（為 IL 策略解碼器生成行為標記）。OmniJARVIS 在開放世界 Minecraft 中的全面原子、程序化和開放式任務集合上展現出優異的表現。我們的分析進一步揭示了交互數據形成、統一標記化及其擴展潛力中的關鍵設計原則。

T-MAC：透過表查找在邊緣部署低位元LLM的CPU復興
T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge

Jun 25

ByJianyu Wei, Shijie Cao, Ting Cao, Lingxiao Ma, Lei Wang, Yanyong Zhang, Mao Yang

在邊緣設備上部署大型語言模型（LLMs）日益重要，以增強設備上的智能。權重量化對於減少設備上LLMs的記憶體佔用是至關重要的。然而，低位元LLMs在推論期間需要低精度權重和高精度激活的混合精度矩陣乘法（mpGEMM）。現有系統缺乏對mpGEMM的本機支援，因此需要將權重解量化以進行高精度計算。這種間接方式可能導致顯著的推論開銷。本文介紹了T-MAC，一種基於查找表（LUT）的創新方法，旨在實現在CPU上進行高效低位元LLM（即權重量化LLM）推論。T-MAC直接支援mpGEMM，無需解量化，同時消除了所需的乘法並減少了加法。具體來說，T-MAC將傳統的資料類型中心的乘法轉換為位元表查找，並實現了統一和可擴展的mpGEMM解決方案。我們基於查找表的核心與權重位元寬度呈線性關係。在低位元Llama和BitNet模型上進行評估，T-MAC相較於llama.cpp，展示出高達4倍的吞吐量增加和70%的能源消耗減少。對於BitNet-b1.58-3B，T-MAC在M2-Ultra上單核心達到每秒30個標記生成的吞吐量，八核心達到每秒71個標記，而在Raspberry Pi 5等低端設備上達到每秒11個標記，顯著超過成年人的平均閱讀速度。基於查找表的計算範式的T-MAC為在資源受限的邊緣設備上實際部署低位元LLMs鋪平了道路，而不會影響計算效率。系統的開源代碼位於https://github.com/microsoft/T-MAC。

邁向適用於數千種語言的語音表示學習的穩健方法
Towards Robust Speech Representation Learning for Thousands of Languages

Jun 30

ByWilliam Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe

自我監督學習（SSL）通過減少對標記數據的需求，幫助擴展語音技術應用於更多語言。然而，模型仍然遠未支持全球7000多種語言。我們提出了 XEUS，一種用於通用語音的跨語言編碼器，通過在4057種語言上訓練超過100萬小時的數據，將 SSL 模型的語言覆蓋範圍擴展了4倍。我們將現有公開可訪問的語料庫中的100萬小時語音與新創建的包含來自4057種語言的7400多小時語音的語料庫相結合，這將被公開發布。為應對多語言語音數據的多樣條件，我們將典型的 SSL 掩碼預測方法與一種新的消除混響目標相結合，以提高韌性。我們在幾個基準測試上評估了 XEUS，並展示了它在各種任務上始終優於或達到與最先進的 SSL 模型相當的結果。XEUS 在 ML-SUPERB 基準測試中創下了新的最先進水平：儘管具有更少的參數或預訓練數據，它分別比 MMS 1B 和 w2v-BERT 2.0 v2 高出0.8% 和 4.4%。檢查點、代碼和數據可在 https://www.wavlab.org/activities/2024/xeus/ 找到。

SVG：通過去噪幀矩陣生成3D立體視頻
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix

Jun 29

ByPeng Dai, Feitong Tan, Qiangeng Xu, David Futschik, Ruofei Du, Sean Fanello, Xiaojuan Qi, Yinda Zhang

影片生成模型展現了製作令人印象深刻的單眼影片的強大能力，然而，3D立體影片的生成仍未被充分探索。我們提出了一種無需姿勢和訓練的方法，利用現成的單眼影片生成模型生成3D立體影片。我們的方法通過使用估計的影片深度，將生成的單眼影片轉換為立體基線上的攝影機視圖，並採用了一個新穎的幀矩陣影片修補框架。該框架利用影片生成模型來修補從不同時間戳和視圖觀察到的幀。這種有效的方法生成一致且語義連貫的立體影片，而無需場景優化或模型微調。此外，我們開發了一種消除不連續邊界重新注入方案，通過減輕潛在空間中從不連續區域傳播的負面影響，進一步提高了影片修補的質量。我們通過對來自各種生成模型的影片進行實驗，包括Sora [4]、Lumiere [2]、WALT [8]和Zeroscope [42]，來驗證我們提出的方法的有效性。實驗表明，我們的方法明顯優於先前的方法。程式碼將在https://daipengwa.github.io/SVG_ProjectPage 上發布。

展示更少，指導更多：豐富提示與定義和指南，用於零樣本NER
Show Less, Instruct More: Enriching Prompts with Definitions and Guidelines for Zero-Shot NER

Jul 1

ByAndrew Zamai, Andrea Zugarini, Leonardo Rigutini, Marco Ernandes, Marco Maggini

最近，出現了幾種針對命名實體識別（NER）的專門調整的大型語言模型（LLM）。與傳統的NER方法相比，這些模型具有強大的泛化能力。現有的LLM主要專注於在域外分佈的零-shot NER，通常在大量的實體類別上進行微調，這些類別與測試集高度或完全重疊。相反，在這項工作中，我們提出了SLIMER，一種旨在通過指導模型進行更少範例和利用富含定義和指南的提示來應對從未見過的命名實體標籤的方法。實驗表明，定義和指南能夠提供更好的性能、更快速和更穩健的學習，特別是在標記未見過的命名實體時。此外，SLIMER在域外零-shot NER中表現與最先進的方法相當，同時在經過簡化的標籤集上進行訓練。

DogeRM：通過模型合併為獎勵模型配備領域知識
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging

Jul 1

ByTzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen

從人類反饋中學習的強化學習（RLHF）是一種用於使大型語言模型（LLMs）與期望行為一致的流行策略。獎勵建模是RLHF中至關重要的一步。然而，為訓練獎勵模型收集成對偏好數據通常是昂貴且耗時的，尤其是對於需要專家標註的特定領域偏好。為應對這一挑戰，我們提出了結合領域知識的獎勵模型（DogeRM），這是一種通過模型合併將領域特定知識整合到通用獎勵模型中的新框架。實驗表明，DogeRM提升了在不同基準測試中的性能，並提供了詳細分析，展示了模型合併的效果，顯示了促進模型對齊的巨大潛力。

標記消除作為大型語言模型中隱式詞彙項的蹤跡
Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs

Jun 28

BySheridan Feucht, David Atkinson, Byron Wallace, David Bau

LLM（Large Language Models）將文本處理為大致對應於單詞的標記序列，其中較不常見的單詞由多個標記表示。然而，個別標記通常與其所包含的單詞/概念的含義無關。例如，Llama-2-7b的標記器將單詞"northeastern"分割為標記['_n', 'ort', 'he', 'astern']，其中沒有一個對應到像"north"或"east"這樣具有語義意義的單位。同樣地，像"Neil Young"這樣的命名實體和像"break a leg"這樣的多詞表達，其整體含義無法直接從其構成標記中推斷出來。在機械上，LLM是如何將這種任意的標記組轉換為有用的高級表示形式的？在這項工作中，我們發現命名實體和多標記單詞的最後一個標記表示呈現出明顯的"消失"效應，即在早期層中關於先前和當前標記的信息迅速被遺忘。利用這一觀察，我們提出了一種方法，通過檢查跨層標記表示之間的差異，來"讀取"自回歸型LLM的隱含詞彙，並展示了這種方法在Llama-2-7b和Llama-3-8B上的結果。據我們所知，這是首次嘗試探測LLM的隱含詞彙。

反學習：在先進生成式人工智慧中，反學習並不足以進行內容規範。
UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI

Jun 27

ByIlia Shumailov, Jamie Hayes, Eleni Triantafillou, Guillermo Ortiz-Jimenez, Nicolas Papernot, Matthew Jagielski, Itay Yona, Heidi Howard, Eugene Bagdasaryan

精確的遺忘最初被引入作為一種隱私機制，允許用戶根據要求從機器學習模型中撤回其數據。不久之後，提出了不精確的方案來減輕與精確遺忘相關的不切實際成本。最近，遺忘通常被討論為一種移除不允許的知識的方法，即模型不應該擁有的知識，例如未經許可的版權、不準確或惡意信息。承諾是，如果模型沒有某種惡意能力，那麼它就無法用於相應的惡意目的。在本文中，我們重新審視了遺忘在大型語言模型（LLMs）中的應用範式，並突出了由於情境學習而產生的潛在不一致性。遺忘可以是訓練階段的一種有效控制機制，但它無法防止模型在推論過程中執行不允許的行為。我們引入了一個“反遺忘”的概念，其中被遺忘的知識在情境中重新引入，有效地使模型能夠表現得好像它知道已遺忘的知識。因此，我們認為將需要對不允許的知識進行內容篩選，即使是精確的遺忘方案對於有效的內容監管也是不夠的。我們討論了對於現代LLMs的反遺忘的可行性並檢視了更廣泛的影響。

利用微調的小型語言模型準確預測配體-蛋白質相互作用親和力
Accurate Prediction of Ligand-Protein Interaction Affinities with Fine-Tuned Small Language Models

Jun 27

ByBen Fauber

我們描述了使用微調預訓練生成式小語言模型（SLM）準確預測配體-蛋白質相互作用（LPI）親和力，也被稱為藥物-靶標相互作用（DTI）。我們在零樣本設置中對與配體-蛋白質相互作用相關的一系列親和力值在測試集數據上實現了準確預測。模型的輸入僅使用了配體的SMILES字符串和蛋白質的氨基酸序列。我們的結果顯示，在準確預測一系列配體-蛋白質相互作用親和力方面，相較於基於機器學習（ML）和自由能變化（FEP+）的方法，有明顯的改善，這可以用來進一步加速針對具有挑戰性治療靶點的藥物發現活動。

SIFo基準測試：探討大型語言模型的序列指令跟隨能力
The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models

Jun 28

ByXinyi Chen, Baohao Liao, Jirui Qi, Panagiotis Eustratiadis, Christof Monz, Arianna Bisazza, Maarten de Rijke

對於大型語言模型（LLMs）而言，遵循多個指令是一項至關重要的能力。評估這種能力面臨著重大挑戰：（i）多個指令之間的連貫性有限，（ii）位置偏見，即指令的順序影響模型性能，以及（iii）缺乏客觀可驗證的任務。為應對這些問題，我們引入了一個基準，旨在通過連續指令跟隨（SIFo）任務來評估模型遵循多個指令的能力。在SIFo中，通過僅檢查最終指令即可驗證成功完成多個指令。我們的基準通過四個任務（文本修改、問答、數學和安全規則遵循）來評估指令跟隨，每個任務評估連續指令跟隨的不同方面。我們對流行的LLMs進行評估，包括封閉源碼和開源模型，結果顯示，較新且更大的模型在SIFo任務上明顯優於舊的和較小的對應物，從而驗證了該基準的有效性。所有模型在遵循指令序列方面都存在困難，暗示當今語言模型的重要韌性缺失。

ProgressGym：與千年道德進步的一致
ProgressGym: Alignment with a Millennium of Moral Progress

Jun 28

ByTianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang

前沿的人工智慧系統，包括大型語言模型（LLMs），對人類使用者的認識論產生越來越大的影響。這種影響可以強化現存社會價值觀，潛在地促成錯誤道德信念的固化，進而在廣泛範圍內延續問題性的道德實踐。我們提出進展對齊作為一種技術解決方案，以減輕這一迫在眉睫的風險。進展對齊演算法學習模擬人類道德進步的機制，從而應對現有對齊方法對當代道德盲點的敏感性。為了促進進展對齊研究，我們引入ProgressGym，這是一個實驗性框架，允許從歷史中學習道德進步的機制，以便促進未來現實世界中的道德決策進展。利用9個世紀的歷史文本和18個歷史LLMs，ProgressGym使得將現實世界中的進展對齊挑戰編碼為具體基準成為可能。具體而言，我們提出三個核心挑戰：追蹤價值觀的演變（PG-Follow）、預先預測道德進步（PG-Predict）以及調節人類和人工智慧價值轉變之間的反饋循環（PG-Coevolve）。沒有時間維度的對齊方法無法應用於這些任務。為此，我們提出終身學習和外推演算法作為進展對齊的基準方法，並建立一個開放排行榜，徵求新穎的演算法和挑戰。這個框架和排行榜分別可在以下網址找到：https://github.com/PKU-Alignment/ProgressGym 和 https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard。

AI研究論文每日精選

每日精選AI研究論文及翻譯

We-Math：您的大型多模型是否實現了類似人類的數學推理？
We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

Jul 1

ROS-LLM：一個具有任務反饋和結構化推理的具體AI的ROS框架
ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning

Jun 28

ColPali：利用視覺語言模型進行高效文件檢索
ColPali: Efficient Document Retrieval with Vision Language Models

Jun 27

ByManuel Faysse, Hugues Sibille, Tony Wu, Gautier Viaud, Céline Hudelot, Pierre Colombo

RegMix：資料混合作為語言模型預訓練的迴歸
RegMix: Data Mixture as Regression for Language Model Pre-training

Jul 1

ByQian Liu, Xiaosen Zheng, Niklas Muennighoff, Guangtao Zeng, Longxu Dou, Tianyu Pang, Jing Jiang, Min Lin

LiteSearch：用於LLM的高效樹搜索
LiteSearch: Efficacious Tree Search for LLM

Jun 29

ByAnte Wang, Linfeng Song, Ye Tian, Baolin Peng, Dian Yu, Haitao Mi, Jinsong Su, Dong Yu

MMEvalPro：校準多模態基準以實現可信且高效的評估
MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

Jun 29

ByJinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang

小波是自回歸圖像生成的全部所需
Wavelets Are All You Need for Autoregressive Image Generation

Jun 28

ByWael Mattar, Idan Levy, Nir Sharon, Shai Dekel

DiffIR2VR-Zero：使用基於擴散的影像修復模型進行零樣本視頻修復
DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

Jul 1

ByChang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu

步驟控制的DPO：利用逐步錯誤以增強數學推理
Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning

Jun 30

ByZimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan

InstantStyle-Plus：在文本到圖像生成中實現風格轉移並保留內容
InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation

Jun 30

ByHaofan Wang, Peng Xing, Renyuan Huang, Hao Ai, Qixun Wang, Xu Bai

如果您只需要檢索，那麼長上下文是否真的重要？邁向真正困難的長上下文自然語言處理
Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP

Jun 29

ByOmer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan, Reut Tsarfaty

E2 TTS：令人尷尬地簡單的完全非自回歸零-shot TTS
E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

Jun 26

BySefik Emre Eskimez, Xiaofei Wang, Manthan Thakker, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Hemin Yang, Zirun Zhu, Min Tang, Xu Tan, Yanqing Liu, Sheng Zhao, Naoyuki Kanda

實境對話：具有3D面部先驗引導身份對齊網絡的實時和逼真音頻驅動人臉生成
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network

Jun 26

ByXiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang

MIRAI：評估用於事件預測的LLM代理
MIRAI: Evaluating LLM Agents for Event Forecasting

Jul 1

ByChenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang

知識鏈：從知識圖譜學習，將知識推理整合到大型語言模型中
Chain-of-Knowledge: Integrating Knowledge Reasoning into Large Language Models by Learning from Knowledge Graphs

Jun 30

ByYifei Zhang, Xintao Wang, Jiaqing Liang, Sirui Xia, Lida Chen, Yanghua Xiao

自動櫻桃採摘機：從由語言驅動的高質量生成數據中學習
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language

Jun 28

ByYicheng Chen, Xiangtai Li, Yining Li, Yanhong Zeng, Jianzong Wu, Xiangyu Zhao, Kai Chen

OmniJARVIS：統一的視覺-語言-動作標記化技術實現開放世界指示跟隨智能體
OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents

Jun 27

ByZihao Wang, Shaofei Cai, Zhancun Mu, Haowei Lin, Ceyao Zhang, Xuejie Liu, Qing Li, Anji Liu, Xiaojian Ma, Yitao Liang

T-MAC：透過表查找在邊緣部署低位元LLM的CPU復興
T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge

Jun 25

ByJianyu Wei, Shijie Cao, Ting Cao, Lingxiao Ma, Lei Wang, Yanyong Zhang, Mao Yang

邁向適用於數千種語言的語音表示學習的穩健方法
Towards Robust Speech Representation Learning for Thousands of Languages

Jun 30

ByWilliam Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe

SVG：通過去噪幀矩陣生成3D立體視頻
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix

Jun 29

ByPeng Dai, Feitong Tan, Qiangeng Xu, David Futschik, Ruofei Du, Sean Fanello, Xiaojuan Qi, Yinda Zhang

展示更少，指導更多：豐富提示與定義和指南，用於零樣本NER
Show Less, Instruct More: Enriching Prompts with Definitions and Guidelines for Zero-Shot NER

Jul 1

ByAndrew Zamai, Andrea Zugarini, Leonardo Rigutini, Marco Ernandes, Marco Maggini

DogeRM：通過模型合併為獎勵模型配備領域知識
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging

Jul 1

ByTzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen

標記消除作為大型語言模型中隱式詞彙項的蹤跡
Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs

Jun 28

BySheridan Feucht, David Atkinson, Byron Wallace, David Bau

反學習：在先進生成式人工智慧中，反學習並不足以進行內容規範。
UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI

Jun 27

ByIlia Shumailov, Jamie Hayes, Eleni Triantafillou, Guillermo Ortiz-Jimenez, Nicolas Papernot, Matthew Jagielski, Itay Yona, Heidi Howard, Eugene Bagdasaryan

利用微調的小型語言模型準確預測配體-蛋白質相互作用親和力
Accurate Prediction of Ligand-Protein Interaction Affinities with Fine-Tuned Small Language Models

Jun 27

ByBen Fauber

SIFo基準測試：探討大型語言模型的序列指令跟隨能力
The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models

Jun 28

ByXinyi Chen, Baohao Liao, Jirui Qi, Panagiotis Eustratiadis, Christof Monz, Arianna Bisazza, Maarten de Rijke

ProgressGym：與千年道德進步的一致
ProgressGym: Alignment with a Millennium of Moral Progress

Jun 28

ByTianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang