AI研究論文每日精選

每日精選AI研究論文及翻譯

ShowUI：一個針對GUI視覺代理的Vision-Language-Action模型。
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

建構圖形使用者介面（GUI）助理對提升人類工作流生產力具有重要潛力。儘管大多數代理人是基於語言的，依賴於具有文本豐富元資訊的封閉式 API（例如 HTML 或可存取性樹），但它們在感知 UI 視覺方面與人類不同，凸顯了對 GUI 視覺代理人的需求。在這項工作中，我們在數位世界中開發了一個名為 ShowUI 的視覺-語言-動作模型，具有以下創新：（i）UI 引導的視覺標記選擇，通過將截圖制定為 UI 連接圖，自適應地識別其冗餘關係，並作為自注意力區塊期間標記選擇的標準；（ii）交錯的視覺-語言-動作串流，靈活地統一 GUI 任務中的多樣需求，使得在導航中有效管理視覺-動作歷史，或對每個截圖進行多輪查詢-動作序列配對，以增強訓練效率；（iii）小規模高質量 GUI 指示遵循數據集，通過精心的數據整理和採用重新取樣策略來解決重要數據類型不平衡的問題。憑藉上述組件，使用 256K 數據的輕量級 2B 模型 ShowUI 在零樣本截圖定位中實現了強大的 75.1% 準確率。其 UI 引導的標記選擇進一步在訓練過程中減少了 33% 的冗餘視覺標記，並將性能加速了 1.4 倍。在跨網頁 Mind2Web、移動 AITW 和在線 MiniWob 環境中的導航實驗進一步突顯了我們模型在推進 GUI 視覺代理人方面的效力和潛力。模型可在 https://github.com/showlab/ShowUI 上找到。

ROICtrl：提升視覺生成的實例控制
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

自然語言通常難以準確地將位置和屬性信息與多個實例關聯起來，這限制了當前基於文本的視覺生成模型僅能處理較簡單組合，其中僅包含少數主要實例。為解決這一限制，本研究通過引入區域實例控制來增強擴散模型，其中每個實例由與自由形式標題配對的邊界框控制。該領域的先前方法通常依賴於隱式位置編碼或顯式注意力遮罩來分離感興趣區域（ROIs），這導致注入坐標不準確或計算開銷過大。受物體檢測中的ROI-Align啟發，我們引入了一個稱為ROI-Unpool的互補操作。ROI-Align和ROI-Unpool共同在高分辨率特徵圖上實珅了明確、高效且準確的ROI操作。基於ROI-Unpool，我們提出了ROICtrl，這是一個用於預訓練擴散模型的適配器，實現精確的區域實例控制。ROICtrl與社區微調的擴散模型兼容，同時也兼容現有的基於空間的附加組件（例如ControlNet、T2I-Adapter）和基於嵌入的附加組件（例如IP-Adapter、ED-LoRA），將它們的應用擴展到多實例生成。實驗表明，ROICtrl在區域實例控制方面實現了優越性能，同時顯著降低了計算成本。

圖像流形上的路徑：通過視頻生成進行圖像編輯
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

最近透過影像擴散模型推動的影像編輯技術取得了顯著進展。然而，仍存在重大挑戰，因為這些模型通常難以準確遵循複雜的編輯指示，並且經常通過改變原始影像的關鍵元素而降低忠實度。與此同時，視頻生成取得了顯著進展，擁有能夠有效充當一致且連續世界模擬器的模型。在本文中，我們提出通過利用影像轉視頻模型進行影像編輯，將這兩個領域進行融合。我們重新定義影像編輯為一個時間過程，利用預訓練的視頻模型從原始影像平滑過渡到所需的編輯。這種方法持續地穿越影像流形，確保一致的編輯同時保留原始影像的關鍵方面。我們的方法在基於文本的影像編輯方面取得了最新成果，展示了在編輯準確性和影像保留方面的重大改進。

透過頻率分解保持身份的文本到視頻生成
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

保持身份的文本到視頻（IPT2V）生成旨在創建具有一致人類身份的高保真度視頻。這是視頻生成中的一項重要任務，但對生成模型來說仍然是一個未解決的問題。本文在兩個文獻中尚未解決的方向上推動了IPT2V的技術前沿：（1）一個無需繁瑣的案例調整即可調整的管道，以及（2）一個頻率感知啟發式保持身份的DiT控制方案。我們提出了ConsisID，一個無需調整的DiT控制可控IPT2V模型，以保持生成的視頻中的人類身份一致。受擴散變壓器頻率分析先前發現的啟發，它在頻率域中使用身份控制信號，其中面部特徵可以被分解為低頻全局特徵和高頻固有特徵。首先，從低頻角度出發，我們引入了一個全局面部提取器，將參考圖像和面部關鍵點編碼為潛在空間，生成富含低頻信息的特徵。然後，將這些特徵集成到網絡的淺層中，以減輕與DiT相關的訓練挑戰。其次，從高頻角度出發，我們設計了一個局部面部提取器，捕捉高頻細節並將其注入變壓器塊，增強模型保存細粒特徵的能力。我們提出了一種分層訓練策略，利用頻率信息進行身份保持，將普通的預訓練視頻生成模型轉換為IPT2V模型。大量實驗表明，我們的頻率感知啟發式方案為基於DiT的模型提供了最佳控制解決方案。由於這個方案，我們的ConsisID生成了高質量、保持身份的視頻，朝著更有效的IPT2V邁出了一步。

MME-Survey：關於多模態LLM評估的全面調查
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

作為人工通用智能（AGI）的一個重要方向，多模式大型語言模型（MLLMs）已經引起了工業界和學術界的廣泛關注。這一類模型是在預訓練的語言模型（LLMs）基礎上構建的，進一步發展了令人印象深刻的多模式感知和推理能力，例如根據流程圖編寫代碼或根據圖像創作故事。在開發過程中，評估至關重要，因為它提供直觀的反饋和指導，幫助改進模型。與傳統的僅偏好單一任務（如圖像分類）的訓練-評估-測試範式不同，MLLMs 的多功能性促使各種新的基準和評估方法的興起。本文旨在提供對MLLM評估的全面調查，討論四個關鍵方面：1）根據評估能力劃分的總結基準類型，包括基礎能力、模型自我分析和擴展應用；2）基準構建的典型過程，包括數據收集、標註和注意事項；3）由評審、度量和工具組成的系統評估方式；4）對下一個基準的展望。這項工作旨在為研究人員提供如何根據不同需求有效評估MLLMs的方法，並激發更好的評估方法，從而推動MLLM研究的進展。

交錯式場景圖用於交錯式文本和圖像生成的評估
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

許多現實世界的使用者查詢（例如："如何製作蛋炒飯？"）可以從能夠生成具有文字步驟和相應圖像的回應系統中受益，類似於烹飪書。設計用於生成交錯文本和圖像的模型在確保這些模態內部和之間的一致性方面面臨挑戰。為了應對這些挑戰，我們提出了ISG，一個用於交錯文本和圖像生成的全面評估框架。ISG利用場景圖結構來捕捉文本和圖像區塊之間的關係，通過四個級別的粒度進行評估：整體、結構、區塊級和圖像特定。這種多層次的評估允許對一致性、連貫性和準確性進行微妙評估，並提供可解釋的問答反饋。除了ISG，我們還引入了一個基準，ISG-Bench，包括8個類別和21個子類別的1,150個樣本。這個基準數據集包含複雜的語言-視覺依賴關係和黃金答案，以有效評估模型在視覺中心任務上的表現，例如風格轉換，這是當前模型中具有挑戰性的領域。使用ISG-Bench，我們展示了最近的統一視覺-語言模型在生成交錯內容方面表現不佳。儘管組合方法結合了獨立的語言和圖像模型在整體水平上比統一模型提高了111％，但它們在區塊和圖像級別的表現仍然不理想。為了促進未來的工作，我們開發了ISG-Agent，一個基線代理，採用“計劃-執行-優化”流程來調用工具，實現了122％的性能改善。

SketchAgent：基於語言驅動的序列素描生成
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

素描作為一種多功能工具，可將想法外顯化，促進快速探索和視覺溝通，跨越各種學科領域。儘管人工系統在內容創作和人機交互方面取得了重大進展，但捕捉人類素描的動態和抽象特性仍然具有挑戰性。在這項工作中，我們介紹了SketchAgent，一種以語言驅動的、順序素描生成方法，使用戶能夠通過動態的對話互動來創建、修改和完善素描。我們的方法無需訓練或微調。相反，我們利用現成的多模式大型語言模型（LLMs）的順序性和豐富的先前知識。我們提出了一種直觀的素描語言，通過上下文示例引入模型，使其能夠使用基於字符串的操作來"繪製"。這些操作被處理成向量圖形，然後呈現在像素畫布上，可以再次訪問以進行進一步的任務。通過逐筆描繪，我們的代理捕捉了與素描固有的不斷變化和動態特質。我們展示了SketchAgent能夠從不同提示生成素描，進行對話驅動的繪圖，並與人類用戶有意義地合作。

重新思考MLLM中的Token Reduction：走向統一的訓練免費加速範式
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

為了加速推斷重型多模態大型語言模型（MLLMs），本研究重新思考了目前無需訓練的標記減少研究的現狀。我們遺憾地發現現有方法的關鍵組件緊密相互交織，它們的相互連接和影響對於比較、轉移和擴展仍不清楚。因此，我們提出了一個統一的「篩選-相關-壓縮」範式，將標記減少分解為管道內的三個明確階段，保持一致的設計目標和元素，同時允許獨特的實現。此外，我們對流行的作品進行了解密並納入我們的範式，以展示其普遍性。最後，我們提供了一套基於這個範式的方法，通過推斷的不同階段在速度和準確性之間取得平衡。在10個基準測試中的實驗結果顯示，我們的方法可以實現高達82.4%的FLOPs減少，對性能影響最小，同時超越了最先進的無需訓練的方法。我們的項目頁面位於https://ficoco-accelerate.github.io/。

低位元量化有利於未充分訓練的LLM：具有100T訓練標記的量化LLM的擴展定律
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

我們揭示了低位元量化有利於訓練不足的大型語言模型（LLMs），觀察到較大尺寸或較少訓練標記的模型在應用低位元量化時，受到的量化誘發降級（QiD）較少，而具有廣泛訓練標記的較小模型則遭受顯著的QiD。為深入了解這一趨勢，我們在受控環境中研究了1500多個不同尺寸和不同訓練水平（訓練不足或完全訓練）的量化LLM檢查點，推導出用於理解QiD與訓練標記數量、模型尺寸和位元寬度等因素之間關係的標度律。通過推導的標度律，我們提出了一個新的觀點，即我們可以使用QiD來衡量LLM的訓練水平，並確定各種尺寸的LLM完全訓練所需的訓練標記數量。此外，我們使用標度律來預測使用100萬億標記進行訓練的不同尺寸LLM的量化性能。我們的預測顯示，未來模型的低位元量化性能，預計將使用超過100萬億標記進行訓練，可能並不理想。這對未來的低位元量化提出了潛在挑戰，並強調了在評估低位元量化研究時需要意識到模型的訓練水平。為了促進這一問題的未來研究，我們在https://huggingface.co/Xu-Ouyang 上發布了本研究中使用的所有1500多個量化檢查點。

SAR3D：通過多尺度3D VQVAE實現自回歸式3D物體生成和理解
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

自回歸模型在各個領域展現了卓越的成功，從大型語言模型（LLMs）到大型多模態模型（LMMs）和2D內容生成，逐漸接近人工通用智能（AGI）。儘管取得這些進展，將自回歸方法應用於3D物體生成和理解仍然是一個未被廣泛探索的領域。本文介紹了尺度自回歸3D（SAR3D），這是一個新穎的框架，利用多尺度3D向量量化變分自編碼器（VQVAE）將3D物體進行標記化，以實現高效的自回歸生成和詳細理解。通過在多尺度潛在表示中預測下一個尺度，而非下一個單個標記，SAR3D顯著降低了生成時間，僅需在A6000 GPU上的0.82秒內實現快速3D物體生成。此外，由於標記中富含層次化的3D感知信息，我們對預訓練的LLM進行微調，實現對3D內容的多模態理解。我們的實驗表明，SAR3D在速度和質量上超越了當前的3D生成方法，並使LLMs能夠全面解釋和標註3D模型。

VLRewardBench：一個針對視覺-語言生成獎勵模型的具挑戰性基準測試
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

視覺語言生成獎勵模型（VL-GenRMs）在對齊和評估多模式人工智慧系統中扮演著關鍵角色，然而它們自身的評估仍未被充分探討。目前的評估方法主要依賴於傳統視覺語言任務中的人工智慧標註偏好標籤，這可能引入偏見並且常常無法有效挑戰最先進的模型。為了應對這些限制，我們引入了VL-RewardBench，這是一個全面的基準測試，涵蓋了一般多模式查詢、視覺幻覺檢測和複雜推理任務。通過我們的人工智慧輔助標註流程，結合樣本選擇和人工驗證，我們精心挑選了1,250個高質量範例，專門設計來探測模型的局限性。對16個領先的大型視覺語言模型進行全面評估，顯示VL-RewardBench作為一個具有挑戰性的測試平臺的有效性，即使是GPT-4o也僅達到65.4%的準確率，而像Qwen2-VL-72B這樣的最先進開源模型，難以超越隨機猜測。重要的是，VL-RewardBench上的表現與使用VL-GenRMs的Best-of-N採樣的MMMU-Pro準確度呈現強烈相關性（皮爾森r > 0.9）。分析實驗揭示了三個關鍵見解，有助於改進VL-GenRMs：（i）模型主要在基本視覺感知任務上失敗，而非推理任務；（ii）推理時間的擴展效益根據模型容量有很大差異；以及（iii）訓練VL-GenRMs學習判斷能夠大幅提升判斷能力（對於7B VL-GenRM，準確率提高了+14.7%）。我們相信VL-RewardBench以及實驗見解將成為推進VL-GenRMs的寶貴資源。

從程序化3D程式學習3D表示
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

自我監督學習已成為一種有前途的方法，用於從未標記的3D點雲中獲取可轉移的表示。與廣泛可取得的2D圖像不同，獲取3D資產需要專業知識或專業的3D掃描設備，這使得擴展變得困難並引起版權問題。為了應對這些挑戰，我們提出從程序化3D程序中學習3D表示，該程序可以自動生成使用簡單基元和增強技術的3D形狀。值得注意的是，盡管缺乏語義內容，從這個合成數據集中學習的3D表示在各種下游3D任務（包括形狀分類、部分分割和遮罩點雲完成）中表現與從語義可識別的3D模型（例如飛機）中學習的最先進表示相當。我們的分析進一步表明，當前的自我監督學習方法主要捕捉幾何結構而不是高層次語義。

SALOVA：用於長格式影片分析中針對性檢索和路由的分段增強型長影片助手
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

儘管大型多模型模型取得了進展，但將其應用於長且未經修剪的視頻內容仍然具有挑戰性，原因在於上下文長度的限制和大量的內存開銷。這些限制通常導致信息損失顯著，並降低模型響應的相關性。隨著網絡平台上視頻數據的指數級增長，理解長格式視頻對於推進泛化智能至關重要。在本文中，我們介紹了SALOVA：Segment-Augmented LOng Video Assistant，這是一個新穎的視頻-LLM框架，旨在通過有針對性的檢索過程增強對長視頻內容的理解。我們解決了實現這一目標的兩個主要挑戰：(i)我們提出了SceneWalk數據集，這是一個高質量的收藏，包含87.8K個長視頻，每個視頻在段落級別密集標註，以便模型捕捉場景的連續性並保持豐富的描述上下文。(ii)我們開發了強大的架構設計，集成了動態路由機制和時空投影機，以便根據用戶查詢有效地檢索和處理相關的視頻片段。我們的框架通過允許對查詢做出精確識別和檢索相關視頻片段，從而提高了生成響應的上下文相關性，從而減輕了當前視頻-LMM的限制。通過大量實驗，SALOVA展示了在處理複雜的長格式視頻方面的增強能力，顯示出在延長序列中保持上下文完整性的顯著能力。

細粒度焦點下的組合圖像標題生成：專注於您想要的地方
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

大視覺-語言模型（VLMs）的出現顯著推動了多模式任務的發展，使得在各種應用中，包括圖像和視頻標題生成、視覺問答和跨模態檢索等方面，能夠進行更複雜和準確的推理。儘管具有卓越的能力，VLMs在細粒度圖像區域組成信息感知方面仍然存在困難。具體而言，它們難以準確地將分割遮罩與相應的語義對齊，並精確描述所指區域的組成方面。然而，組成性——即理解和生成已知視覺和文本組件的新組合的能力——對於促進VLMs在模態之間進行連貫推理和理解至關重要。為了解決這個問題，我們提出了FINECAPTION，一種新型VLM，可以識別任意遮罩作為參考輸入，並處理高分辨率圖像，以不同粒度水平進行組成圖像標題生成。為了支持這一努力，我們引入了COMPOSITIONCAP，一個新的用於多粒度區域組成圖像標題生成的數據集，引入了組成屬性感知區域圖像標題生成任務。實證結果顯示了我們提出的模型相對於其他最先進的VLMs的有效性。此外，我們分析了當前VLMs在識別各種視覺提示以進行組成區域圖像標題生成方面的能力，突出了VLM設計和訓練中需要改進的領域。

AnchorCrafter：透過人物物件互動影片生成來展示您的產品
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

在線商務、廣告和消費者參與方面，自動生成錨式產品推廣視頻帶來了許多機遇。然而，儘管姿勢引導的人類視頻生成取得了重大進展，但這仍然是一項具有挑戰性的任務。為應對這一挑戰，我們確定將人物-物體交互（HOI）整合到姿勢引導的人類視頻生成中是一個核心問題。為此，我們引入了AnchorCrafter，這是一個基於擴散的新型系統，旨在生成具有目標人物和定制物體的2D視頻，實現高視覺保真度和可控交互。具體來說，我們提出了兩個關鍵創新：HOI-外觀感知，這有助於從任意多視角識別物體外觀並解開物體和人物外觀之間的關係，以及HOI-運動注入，通過克服物體軌跡條件和相互遮擋管理方面的挑戰，實現複雜的人物-物體交互作用。此外，我們引入了HOI-區域重新加權損失，這是一個訓練目標，有助於學習物體細節。大量實驗表明，我們提出的系統在保留物體外觀和形狀感知方面優於現有方法，同時在保持人物外觀和運動一致性方面也表現出色。項目頁面：https://cangcz.github.io/Anchor-Crafter/

EfficientViM：基於隱藏狀態混合器的高效視覺曼巴與狀態空間雙重性
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

為了在資源受限的環境中部署神經網絡，先前的研究已建立了具有捕捉局部和全局依賴性的輕量級結構，分別使用卷積和注意力。最近，狀態空間模型已成為一種有效的全局標記交互方式，其在標記數量上具有有利的線性計算成本。然而，利用SSM構建的高效視覺骨幹鮮少被探索。在本文中，我們介紹了Efficient Vision Mamba（EfficientViM），這是一種基於隱藏狀態混合器的狀態空間對偶（HSM-SSD）構建的新型結構，可以高效地捕捉全局依賴性，並進一步降低計算成本。在HSM-SSD層中，我們重新設計了先前的SSD層，以實現在隱藏狀態內進行通道混合操作。此外，我們提出了多階段隱藏狀態融合，進一步增強隱藏狀態的表示能力，並提供了設計以緩解由內存限制操作引起的瓶頸。因此，EfficientViM系列在ImageNet-1k上實現了一種新的最先進的速度-準確性折衷，比第二好的SHViT模型提供了高達0.7%的性能改進，並且速度更快。此外，與先前的研究相比，當擴展圖像或使用蒸餾訓練時，我們觀察到吞吐量和準確性方面的顯著改進。代碼可在https://github.com/mlvlab/EfficientViM找到。

MolReFlect：朝向分子和文本之間的上下文細粒度對齊
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

分子發現是一個重要的研究領域，影響著我們服用的藥物和使用的材料等方方面面。最近，大型語言模型（LLMs）已被廣泛應用於分子理解和生成，然而分子與其相應標題之間的對齊仍然是一個重大挑戰。先前的努力通常將分子視為一個通用的SMILES字符串或分子圖，忽略了分子子結構與描述性文本短語之間的細粒度對齊，這對於準確和可解釋的預測至關重要。在這種情況下，我們介紹了MolReFlect，這是一個新穎的師生框架，旨在以細粒度的方式在上下文中執行分子-標題對齊。我們的方法最初利用一個更大的師生LLM來標記詳細的對齊，通過直接從分子標題或SMILES字符串中提取關鍵短語並將其暗示給相應的子結構或特徵。為了改進這些對齊，我們提出了In-Context Selective Reflection，它檢索以前的提取結果作為師生LLM反映的上下文示例，並讓較小的學生LLM從上下文反映和以前的提取結果中進行選擇。最後，我們通過Chain-of-Thought In-Context Molecule Tuning增強了學生LLM的學習過程，將細粒度的對齊和推理過程融入Chain-of-Thought格式中。我們的實驗結果表明，MolReFlect使像Mistral-7B這樣的LLMs能夠顯著優於以前的基準線，在ChEBI-20數據集上實現了SOTA性能。這一進步不僅增強了LLMs在分子-標題翻譯任務中的生成能力，還有助於構建更具解釋性的框架。

視覺對抗圖靈測試（VCT^2）：探索人工智慧生成圖像檢測的挑戰，並引入視覺人工智慧指數（V_AI）。
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

ByNasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das

隨著人工智慧技術在圖像生成方面的應用日益普及，並且變得越來越容易取得，對於這些圖像可能被濫用以散佈錯誤信息的擔憂日益增加。最近的人工智慧生成圖像檢測（AGID）方法包括 CNNDetection、NPR、DM Image Detection、Fake Image Detection、DIRE、LASTED、GAN Image Detection、AIDE、SSP、DRCT、RINE、OCC-CLIP、De-Fake 和 Deep Fake Detection。然而，我們認為目前最先進的AGID技術尚不足以有效檢測當代人工智慧生成的圖像，並主張對這些方法進行全面重新評估。我們引入了視覺反作弊圖靈測試（VCT^2），這是一個基準，包括由當代文本生成圖像模型（Stable Diffusion 2.1、Stable Diffusion XL、Stable Diffusion 3、DALL-E 3 和 Midjourney 6）生成的約130K張圖像。VCT^2包括兩組提示，來自紐約時報Twitter帳號的推文和MS COCO數據集的圖像標題。我們還評估了上述AGID技術在VCT^2基準上的表現，突顯了它們在檢測人工智慧生成圖像方面的無效性。隨著圖像生成的人工智慧模型不斷演進，對於評估這些模型的需求變得日益迫切。為了滿足這一需求，我們提出了視覺人工智慧指數（V_AI），該指數從各種視覺角度評估生成的圖像，包括紋理複雜度和對象連貫性，為評估圖像生成的人工智慧模型設定了新的標準。為了促進這一領域的研究，我們將我們的 https://huggingface.co/datasets/anonymous1233/COCO_AI 和 https://huggingface.co/datasets/anonymous1233/twitter_AI 數據集公開提供。

可控制的個人化多服裝人像生成
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin

我們提出了BootComp，一個基於文本到圖像擴散模型的新框架，用於具有多個參考服裝的可控人類圖像生成。在這裡，主要瓶頸是訓練的數據獲取：收集每個人穿著的高質量參考服裝圖像的大規模數據集相當具有挑戰性，即理想情況下，需要手動收集每位人穿著的每件服裝照片。為了應對這一問題，我們提出了一個數據生成流程，通過引入一個模型從每個人類圖像中提取任何參考服裝圖像，構建一個包含人類和多種服裝配對的大型合成數據集。為了確保數據質量，我們還提出了一種過濾策略，基於衡量人類圖像中呈現的服裝與提取服裝之間的知覺相似性來刪除不良生成數據。最後，通過利用構建的合成數據集，我們訓練了一個擁有兩個平行去噪路徑的擴散模型，這兩個路徑使用多種服裝圖像作為條件來生成人類圖像，同時保留其細節。我們進一步展示了我們的框架的廣泛應用性，通過將其適應到時尚領域的不同類型的基於參考的生成，包括虛擬試穿，以及具有其他條件（例如姿勢、面部等）的可控人類圖像生成。

AI研究論文每日精選

每日精選AI研究論文及翻譯

ShowUI：一個針對GUI視覺代理的Vision-Language-Action模型。
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

ROICtrl：提升視覺生成的實例控制
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

圖像流形上的路徑：通過視頻生成進行圖像編輯
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

透過頻率分解保持身份的文本到視頻生成
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

MME-Survey：關於多模態LLM評估的全面調查
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

交錯式場景圖用於交錯式文本和圖像生成的評估
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

SketchAgent：基於語言驅動的序列素描生成
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

重新思考MLLM中的Token Reduction：走向統一的訓練免費加速範式
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

低位元量化有利於未充分訓練的LLM：具有100T訓練標記的量化LLM的擴展定律
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

SAR3D：通過多尺度3D VQVAE實現自回歸式3D物體生成和理解
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

VLRewardBench：一個針對視覺-語言生成獎勵模型的具挑戰性基準測試
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

從程序化3D程式學習3D表示
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

SALOVA：用於長格式影片分析中針對性檢索和路由的分段增強型長影片助手
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

細粒度焦點下的組合圖像標題生成：專注於您想要的地方
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

AnchorCrafter：透過人物物件互動影片生成來展示您的產品
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

EfficientViM：基於隱藏狀態混合器的高效視覺曼巴與狀態空間雙重性
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

MolReFlect：朝向分子和文本之間的上下文細粒度對齊
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

視覺對抗圖靈測試（VCT^2）：探索人工智慧生成圖像檢測的挑戰，並引入視覺人工智慧指數（V_AI）。
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

可控制的個人化多服裝人像生成
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin