AI研究論文每日精選

每日精選AI研究論文及翻譯

Diffree：使用擴散模型進行文本引導的形狀自由物體修補
Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model

Jul 24

ByLirui Zhao, Tianshuo Yang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Kaipeng Zhang, Rongrong Ji

本文討論了一個重要的問題，即如何在僅有文本指導的情況下為圖像添加物件。這是一個具有挑戰性的問題，因為新物件必須與圖像無縫集成，並具有一致的視覺背景，如光線、紋理和空間位置。雖然現有的文本引導圖像修補方法可以添加物件，但它們要麼無法保持背景一致性，要麼需要繁瑣的人類干預，例如指定邊界框或用戶涂鴉遮罩。為應對這一挑戰，我們引入了Diffree，一個文本到圖像（T2I）模型，可通過僅有文本控制來促進文本引導的物件添加。為此，我們通過先進的圖像修補技術刪除物件，精心編輯了OABench，一個精美的合成數據集。OABench包含74K個現實世界元組，包括原始圖像、去除物件後的修補圖像、物件遮罩和物件描述。通過在OABench上使用穩定擴散模型和額外的遮罩預測模塊進行訓練，Diffree獨特地預測新物件的位置，並實現僅通過文本引導的物件添加。大量實驗表明，Diffree在高成功率下添加新物件的同時，能夠保持背景一致性、空間適當性以及物件的相關性和質量。

LAMBDA：基於大型模型的資料代理程式
LAMBDA: A Large Model Based Data Agent

Jul 24

ByMaojun Sun, Ruijian Han, Binyan Jiang, Houduo Qi, Defeng Sun, Yancheng Yuan, Jian Huang

我們介紹了一個新穎的開源、無需編碼的多智能體資料分析系統「LAMBDA」，利用大型模型的強大功能。LAMBDA旨在通過創新設計的資料智能體，以自然語言迭代並生成，解決複雜數據驅動應用中的資料分析挑戰。LAMBDA的核心是兩個關鍵智能體角色：程式設計師和檢查員，它們被設計成能夠無縫協作。具體而言，程式設計師根據用戶的指令和領域特定知識生成代碼，並借助先進模型進行增強。與此同時，檢查員在必要時對代碼進行調試。為確保穩健性並應對不利情況，LAMBDA提供用戶界面，允許用戶直接介入運行循環。此外，LAMBDA可以通過我們的知識整合機制靈活集成外部模型和算法，滿足定制化資料分析的需求。LAMBDA在各種機器學習數據集上展現出優異性能。它有潛力通過無縫整合人工智能和人類智慧，使來自不同背景的個人更容易、更有效率地進行資料科學實踐和分析範式。LAMBDA在解決資料科學問題方面的優異表現在多個案例研究中得到展示，請參見https://www.polyu.edu.hk/ama/cmfai/lambda.html。

AgentScope 中的大规模多智能体模拟
Very Large-Scale Multi-Agent Simulation in AgentScope

Jul 25

ByXuchen Pan, Dawei Gao, Yuexiang Xie, Zhewei Wei, Yaliang Li, Bolin Ding, Ji-Rong Wen, Jingren Zhou

近年來大型語言模型（LLMs）的最新進展為在非常大規模模擬中應用多智能體系統開辟了新的途徑。然而，在使用現有平台進行多智能體模擬時仍存在一些挑戰，如可擴展性有限、效率低下、智能體多樣性不足以及管理過程耗時。為應對這些挑戰，我們為AgentScope開發了多項新功能和組件，進一步提升其便利性和靈活性，以支持非常大規模的多智能體模擬。具體而言，我們提出了一個基於演員的分佈式機制作為底層技術基礎，以實現極高的可擴展性和效率，並為模擬各種現實場景提供靈活的環境支持，實現多智能體的並行執行、中央化工作流程編排，以及智能體之間的互動以及智能體與環境之間的互動。此外，我們在AgentScope中整合了一個易於配置的工具和自動背景生成流水線，簡化了創建具有多樣性且詳細背景設置的智能體的過程。最後，我們提供了一個基於Web的界面，方便監控和管理可能部署在多個設備上的大量智能體。我們進行了全面的模擬，以展示在AgentScope中提出的增強功能的有效性，並提供詳細的觀察和討論，以突顯在大規模模擬中應用多智能體系統的巨大潛力。源代碼已在GitHub上釋出，網址為https://github.com/modelscope/agentscope，以激發大規模多智能體模擬領域的進一步研究和發展。

BetterDepth：零樣本單目深度估計的即插即用擴散精煉器。
BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation

Jul 25

ByXiang Zhang, Bingxin Ke, Hayko Riemenschneider, Nando Metzger, Anton Obukhov, Markus Gross, Konrad Schindler, Christopher Schroers

透過在大規模數據集上訓練，零樣本單目深度估計（MDE）方法在實際環境中展現出強大的性能，但往往在細節方面缺乏足夠的精確性。儘管最近基於擴散的MDE方法展示出引人注目的細節提取能力，但由於從多樣數據集中獲得強健的幾何先驗的困難，它們仍然在幾何上具挑戰性的場景中遇到困難。為了充分發揮兩者的優勢，我們提出了BetterDepth，以有效實現幾何正確的仿射不變MDE性能，同時捕捉細緻的細節。具體而言，BetterDepth是一個有條件的基於擴散的精細調節器，以預先訓練的MDE模型的預測作為深度條件，其中全局深度上下文被很好地捕捉，並根據輸入圖像迭代地精煉細節。為了訓練這樣一個調節器，我們提出了全局預對齊和局部補丁遮罩方法，以確保BetterDepth對深度條件的忠實性，同時學習捕捉細緻的場景細節。通過在小規模合成數據集上高效訓練，BetterDepth在各種公共數據集和實際場景中實現了最先進的零樣本MDE性能。此外，BetterDepth可以在不需額外重新訓練的情況下，改善其他MDE模型的性能。

AMEX：Android 多標註博覽會數據集，用於移動 GUI 代理程序
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents

Jul 3

ByYuxiang Chai, Siyuan Huang, Yazhe Niu, Han Xiao, Liang Liu, Dingyu Zhang, Peng Gao, Shuai Ren, Hongsheng Li

AI代理人主要因其感知環境、理解任務和自主實現目標的能力而受到越來越多的關注。為了推進移動場景中AI代理人的研究，我們介紹了Android Multi-annotation EXpo（AMEX），這是一個針對通用移動GUI控制代理人設計的全面的大規模數據集。他們通過直接與移動設備上的圖形用戶界面（GUI）進行交互來完成複雜任務的能力是使用所提出的數據集進行訓練和評估的。AMEX包含來自110個熱門移動應用程序的超過104K高分辨率截圖，這些截圖在多個級別上進行了標註。與現有的移動設備控制數據集（例如MoTIF、AitW等）不同，AMEX包括三個級別的標註：GUI互動元素定位、GUI屏幕和元素功能描述，以及複雜的自然語言指令，每個平均包含13個步驟，具有逐步的GUI操作鏈。我們從性更具啟發性和詳細的角度開發了這個數據集，以補充現有數據集的一般設置。此外，我們開發了一個基準模型SPHINX Agent，並比較其在其他數據集上訓練的最先進代理人的性能。為了促進進一步的研究，我們開源了我們的數據集、模型和相關評估工具。該項目可在https://yuxiangchai.github.io/AMEX/ 上找到。

課程修正：使用合成偏好進行安全對齊
Course-Correction: Safety Alignment Using Synthetic Preferences

Jul 23

ByRongwu Xu, Yishuo Cai, Zhenhong Zhou, Renjie Gu, Haiqin Weng, Yan Liu, Tianwei Zhang, Wei Xu, Han Qiu

大型語言模型（LLMs）生成有害內容的風險變得日益嚴重。本文提出了一項系統性研究，評估和改進LLMs執行校正任務的能力，即模型可以自主避免生成有害內容。首先，我們引入了C^2-Eval基準，用於定量評估並分析10個流行的LLMs，揭示目前安全調整的LLMs在校正方面的不同熟練程度。為了改進，我們提出使用偏好學習對LLMs進行微調，強調對及時校正的偏好。通過自動化流程，我們創建了C^2-Syn，一個包含75萬對偏好的合成數據集，通過數據驅動的偏好學習來教導模型及時校正的概念。對兩個LLMs，Llama2-Chat 7B和Qwen2 7B進行的實驗表明，我們的方法有效地增強了校正能力，而不影響通用性能。此外，它有效地提高了LLMs的安全性，特別是抵抗越獄攻擊。

資料混合推論：BPE 分詞器對其訓練資料的揭示
Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?

Jul 23

ByJonathan Hayase, Alisa Liu, Yejin Choi, Sewoong Oh, Noah A. Smith

當今最強大語言模型的預訓練數據是不透明的。特別是，對於各種領域或語言在其中所佔比例知之甚少。在這項研究中，我們處理一個任務，我們稱之為數據混合推斷，旨在揭示訓練數據的分佈組成。我們引入了一種基於先前被忽視的信息來源的新型攻擊——字節對編碼（BPE）分詞器，這是現代大多數語言模型使用的。我們的關鍵見解是，由BPE分詞器學習的合併規則的有序列表自然地揭示了有關其訓練數據中標記頻率的信息：第一個合併是最常見的字節對，第二個是在合併第一個標記後最常見的對，依此類推。給定一個分詞器的合併列表以及每個感興趣類別的數據樣本，我們制定了一個線性程序，用於解決分詞器訓練集中每個類別的比例。重要的是，分詞器訓練數據代表預訓練數據的程度，我們間接地了解預訓練數據。在受控實驗中，我們展示了我們的攻擊對於已知混合自然語言、編程語言和數據來源的分詞器具有高精度的恢復混合比率。然後，我們將我們的方法應用於最近發布的現成分詞器。我們確認了關於這些模型的許多公開披露的信息，並且還做出了幾個新的推斷：GPT-4o的分詞器比其前身更多語言化，使用了39%的非英語數據；Llama3主要用於多語言（48%）使用，擴展了GPT-3.5的分詞器；GPT-3.5和Claude的分詞器主要訓練於代碼（約60%）。我們希望我們的工作能為預訓練數據的當前設計實踐提供一些啟示，並激發對於語言模型的數據混合推斷的持續研究。

利用彈性快取高效推論視覺指示遵循模型
Efficient Inference of Vision Instruction-Following Models with Elastic Cache

Jul 25

ByZuyan Liu, Benlin Liu, Jiahui Wang, Yuhao Dong, Guangyi Chen, Yongming Rao, Ranjay Krishna, Jiwen Lu

在指示遵循的大型視覺語言模型（LVLMs）領域中，這些模型的高效部署面臨挑戰，主要是由於它們的鍵-值（KV）緩存對內存的高需求。傳統的LLMs緩存管理策略主要集中在緩存淘汰上，這通常無法滿足多模式指示遵循模型的特定需求。鑒於這一差距，本文介紹了彈性緩存，這是一種新穎方法，通過為指示編碼和輸出生成階段應用不同的加速方法而受益。我們研究了不同階段的重要性指標，並提出了一種基於重要性驅動的緩存合併策略來修剪冗餘緩存。我們的策略不是丟棄不太重要的緩存，而是識別重要的鍵/值向量作為錨點。然後將周圍不太重要的緩存與這些錨點合併，增強KV緩存中上下文信息的保留，同時產生任意的加速比。對於指示編碼，我們利用頻率來評估緩存的重要性。在輸出生成方面，我們根據它們與偏移的距離來優先考慮令牌，從而保留初始和最近的令牌。對一系列LVLMs的結果表明，彈性緩存不僅提高了效率，而且在各種任務的語言生成中明顯優於現有的修剪方法。代碼可在https://github.com/liuzuyan/ElasticCache找到。

LKCell：使用大型卷積核進行高效的細胞核實例分割
LKCell: Efficient Cell Nuclei Instance Segmentation with Large Convolution Kernels

Jul 25

ByZiwei Cui, Jingfeng Yao, Lunbin Zeng, Juan Yang, Wenyu Liu, Xinggang Wang

對使用血液染劑血紅素和嗎啡染色的組織影像中的細胞核進行分割對於各種臨床應用和分析至關重要。由於細胞形態的複雜特徵，擁有一個大的感受野被認為對於生成高質量的分割至關重要。然而，先前的方法在實現感受野和計算負擔之間取得平衡方面面臨挑戰。為解決這個問題，我們提出了LKCell，一種高準確性和高效率的細胞分割方法。其核心見解在於發揮大型卷積核的潛力，實現計算效率高的大感受野。具體來說，（1）我們首次將預訓練的大型卷積核模型轉移到醫學領域，展示了它們在細胞分割中的有效性。（2）我們分析了先前方法的冗餘性，並設計了一個基於大型卷積核的新分割解碼器。它在顯著減少參數數量的同時實現了更高的性能。我們在最具挑戰性的基準測試上評估了我們的方法，在細胞核實例分割中實現了最新技術水平的結果（0.5080 mPQ），與先前領先方法相比僅使用了21.6％的FLOPs。我們的源代碼和模型可在https://github.com/hustvl/LKCell 上找到。

Dallah：一個針對阿拉伯語方言的多模式大型語言模型
Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic

Jul 25

ByFakhraddin Alwajih, Gagan Bhatia, Muhammad Abdul-Mageed

最近的進展顯著增強了多模式大型語言模型（MLLMs）在生成和理解圖像至文字內容方面的能力。儘管取得了這些成功，進展主要受限於英語，因為其他語言中高質量多模式資源的稀缺。這種限制阻礙了在阿拉伯語等語言中發展具競爭力模型。為了緩解這種情況，我們引入了一個高效的阿拉伯語多模式助手，名為 Dallah，它利用基於LLaMA-2的先進語言模型來促進多模式交互作用。Dallah 在阿拉伯語MLLMs中展示了最先進的性能。通過微調六種阿拉伯方言，Dallah 展示了其處理融合文本和視覺元素的複雜方言交互作用的能力。該模型在兩個基準測試中表現卓越：一個評估其在現代標準阿拉伯語（MSA）上的表現，另一個專門設計來評估方言回應。除了在多模式交互任務中表現出色外，Dallah 還有潛力為進一步發展具方言意識的阿拉伯語MLLMs鋪平道路。

基於文本的神經協同過濾模型用於論文來源追蹤
Text-Driven Neural Collaborative Filtering Model for Paper Source Tracing

Jul 25

ByAobo Xu, Bingyu Chang, Qingpeng Liu, Ling Jian

在引文知識圖中識別重要參考文獻是具有挑戰性的，該知識圖涵蓋了透過引文、作者、關鍵詞和其他關聯屬性建立的連結。論文來源追蹤（PST）任務旨在利用先進的數據挖掘技術自動識別學術文章的關鍵參考文獻。在 KDD CUP 2024 中，我們設計了一個針對 PST 任務量身定制的基於推薦的框架。該框架採用神經協同過濾（NCF）模型生成最終預測。為了處理論文的文本屬性並提取模型的輸入特徵，我們使用了 SciBERT，一個預先訓練的語言模型。根據實驗結果，我們的方法在平均精度（MAP）指標上達到了 0.37814 的得分，優於基準模型，並在所有參賽團隊中排名第 11。源代碼可在 https://github.com/MyLove-XAB/KDDCupFinal 公開獲取。

新聞媒體敘事的FIGNEWS共享任務
The FIGNEWS Shared Task on News Media Narratives

Jul 25

ByWajdi Zaghouani, Mustafa Jarrar, Nizar Habash, Houda Bouamor, Imed Zitouni, Mona Diab, Samhaa R. El-Beltagy, Muhammed AbuOdeh

我們介紹了 FIGNEWS 共享任務的概況，該任務作為與 ACL 2024 同期舉辦的 ArabicNLP 2024 會議的一部分。這個共享任務討論了多語言新聞帖子中的偏見和宣傳標註。我們以加薩以色列戰爭初期作為案例研究。該任務旨在通過創建分析不同敘述的框架，突顯潛在的偏見和宣傳，促進合作發展主觀任務的標註指南。我們以多語言的角度來處理這個問題，具體來說是在五種語言中：英語、法語、阿拉伯語、希伯來語和印地語。共有17個團隊參與了兩個標註子任務：偏見（16個團隊）和宣傳（6個團隊）。這些團隊參加了四個評估軌跡：指南開發、標註質量、標註數量和一致性。總共，這些團隊產生了129,800個數據點。討論了關鍵發現和對該領域的影響。

AI研究論文每日精選

每日精選AI研究論文及翻譯