AI研究論文每日精選

每日精選AI研究論文及翻譯

CoD，朝向使用診斷鏈打造可解釋醫療智能體
CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis

Jul 18

ByJunying Chen, Chi Gui, Anningzhe Gao, Ke Ji, Xidong Wang, Xiang Wan, Benyou Wang

隨著大型語言模型（LLMs）的出現，醫學診斷領域經歷了重大轉變，然而這些模型內部的可解釋性挑戰仍然大多未被解決。本研究引入了診斷鏈（Chain-of-Diagnosis，CoD）以增強基於LLM的醫學診斷的可解釋性。CoD將診斷過程轉化為一個反映醫師思維過程的診斷鏈，提供透明的推理路徑。此外，CoD輸出疾病信心分佈，以確保決策過程的透明度。這種可解釋性使模型診斷可控，有助於通過信心減少熵來識別進行詢問的關鍵症狀。憑藉CoD，我們開發了DiagnosisGPT，能夠診斷9604種疾病。實驗結果表明，DiagnosisGPT在診斷基準上優於其他LLMs。此外，DiagnosisGPT提供可解釋性，同時確保診斷嚴謹性的可控性。

KAN或MLP：一個更公平的比較
KAN or MLP: A Fairer Comparison

Jul 23

ByRunpeng Yu, Weihao Yu, Xinchao Wang

本文並未介紹新穎的方法，而是提供了對於 KAN 和 MLP 模型在各種任務中（包括機器學習、計算機視覺、音頻處理、自然語言處理和符號公式表示）更公正和全面的比較。具體而言，我們控制參數數量和 FLOPs 來比較 KAN 和 MLP 的表現。我們的主要觀察是，除了符號公式表示任務外，MLP 通常優於 KAN。我們還對 KAN 進行消融研究，發現其在符號公式表示中的優勢主要來自其 B-spline 激活函數。當將 B-spline 應用於 MLP 時，符號公式表示的性能顯著提高，超越或與 KAN 相匹配。然而，在 MLP 已經優於 KAN 的其他任務中，B-spline 並未顯著提升 MLP 的性能。此外，我們發現在標準的類增量持續學習設置中，KAN 的遺忘問題比 MLP 更嚴重，這與 KAN 論文中報告的結果不同。我們希望這些結果能為未來有關 KAN 和其他 MLP 替代方案的研究提供洞見。項目鏈接：https://github.com/yu-rp/KANbeFair

MovieDreamer：用於連貫長視覺序列的分層生成
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence

Jul 23

ByCanyu Zhao, Mingyu Liu, Wen Wang, Jianlong Yuan, Hao Chen, Bo Zhang, Chunhua Shen

近期在影片生成方面的進展主要利用擴散模型來製作短片內容。然而，這些方法常常無法很好地建模複雜敘事，並在延長時間內保持角色一致性，這對於像電影這樣的長片製作至關重要。我們提出了MovieDreamer，這是一個新穎的階層框架，將自回歸模型的優勢與基於擴散的渲染相結合，開創了具有複雜情節進展和高視覺保真度的長時間影片生成。我們的方法利用自回歸模型來維持全局敘事一致性，預測視覺令牌序列，然後通過擴散渲染轉換為高質量的影片幀。這種方法類似於傳統電影製作過程，將複雜故事分解為可管理的場景捕捉。此外，我們使用多模態劇本，豐富場景描述，提供詳細的角色信息和視覺風格，增強了場景之間的連貫性和角色身份。我們在各種電影類型上進行了廣泛實驗，展示了我們的方法不僅實現了優越的視覺和敘事質量，還有效地將生成內容的持續時間顯著延長超越了當前的能力範圍。首頁：https://aim-uofa.github.io/MovieDreamer/。

OutfitAnyone：針對任何服裝和任何人的超高品質虛擬試穿
OutfitAnyone: Ultra-high Quality Virtual Try-On for Any Clothing and Any Person

Jul 23

ByKe Sun, Jian Cao, Qi Wang, Linrui Tian, Xindi Zhang, Lian Zhuo, Bang Zhang, Liefeng Bo, Wenbo Zhou, Weiming Zhang, Daiheng Gao

虛擬試穿（VTON）已成為一項具有轉型性的技術，使用戶能夠在不必實際試穿服裝的情況下嘗試不同風格。然而，現有方法常常難以生成高保真度和細節一致性的結果。儘管擴散模型，如穩定擴散系列，已展示了它們在創建高質量和照片般逼真圖像方面的能力，但在像VTON這樣的有條件生成場景中，它們遇到了巨大挑戰。具體而言，這些模型在為虛擬試穿生成圖像時往往難以在控制和一致性之間保持平衡。OutfitAnyone通過利用雙流有條件擴散模型來應對服裝變形，從而實現更逼真的結果。它通過姿勢、身體形狀等可調節因素以及廣泛的應用性，從動漫到野外圖像，脫穎而出。OutfitAnyone在各種場景中的表現突顯了其在現實世界部署方面的實用性和準備就緒性。有關更多詳細信息和動畫結果，請參見https://humanaigc.github.io/outfit-anyone/。

T2V-CompBench：一個針對組合式文本到視頻生成的全面基準。
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

Jul 19

ByKaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu

文字到影片（T2V）生成模型已有顯著進展，然而它們將不同物件、屬性、動作和動作組合成影片的能力仍未被探索。先前的文字到影片基準測試也忽略了這一重要能力的評估。在這項工作中，我們進行了第一次對組合式文字到影片生成進行系統研究。我們提出了T2V-CompBench，這是專為組合式文字到影片生成量身定制的第一個基準測試。 T2V-CompBench包含了組合性的多個方面，包括一致的屬性綁定、動態屬性綁定、空間關係、動作綁定、物件互動和生成數量。我們進一步精心設計了基於MLLM的評估指標、基於檢測的指標和基於追踪的指標，這些指標可以更好地反映出七個提出的類別中700個文字提示的組合式文字到影片生成質量。所提出的指標的有效性已通過與人類評估的相關性得到驗證。我們還對各種文字到影片生成模型進行基準測試，並在不同模型和不同組合式類別之間進行深入分析。我們發現，對於當前的模型來說，組合式文字到影片生成是非常具有挑戰性的，我們希望我們的嘗試能為未來在這個方向上的研究提供一些啟示。

F-HOI：朝向細粒度語義對齊的3D人物-物體互動
F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions

Jul 17

ByJie Yang, Xuesong Niu, Nan Jiang, Ruimao Zhang, Siyuan Huang

現有的3D人體物體交互（HOI）數據集和模型僅將全局描述與長HOI序列對齊，卻缺乏對中間狀態和狀態之間過渡的詳細理解。在本文中，我們認為細粒度語義對齊，利用狀態級描述，為學習語義豐富的HOI表示提供了一個有前途的範式。為了實現這一目標，我們引入了Semantic-HOI，一個新的數據集，包含超過20K對的HOI狀態，每個HOI狀態都有細緻的描述，以及兩個連續狀態之間發生的身體運動。利用所提出的數據集，我們設計了三個狀態級HOI任務，以實現HOI序列內的細粒度語義對齊。此外，我們提出了一個統一模型稱為F-HOI，旨在利用多模式指令，並賦予多模式大型語言模型有效處理多樣HOI任務的能力。F-HOI具有多個優勢：（1）它採用統一的任務制定，支持多功能多模式輸入的使用。（2）它在2D、3D和語言空間中保持HOI的一致性。（3）它利用細粒度文本監督進行直接優化，避免對HOI狀態進行複雜建模。大量實驗顯示，F-HOI有效地將HOI狀態與細粒度語義描述對齊，巧妙應對理解、推理、生成和重建任務。

INF-LLaVA：雙視角感知用於高解析度多模態大型語言模型
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

Jul 23

ByYiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji

隨著數據可用性和計算資源的進步，多模式大型語言模型（MLLMs）展現出在各個領域的能力。然而，在MLLMs中，視覺編碼器的二次複雜度限制了輸入圖像的解析度。目前大多數方法通過將高解析度圖像裁剪為較小的子圖像來緩解這個問題，然後這些子圖像由視覺編碼器獨立處理。儘管捕捉了足夠的局部細節，這些子圖像缺乏全局上下文並且無法相互交互。為了解決這個限制，我們提出了一種新穎的MLLM，名為INF-LLaVA，旨在有效地感知高解析度圖像。INF-LLaVA包含兩個創新組件。首先，我們引入了雙透視裁剪模塊（DCM），確保每個子圖像包含來自局部透視的連續細節和來自全局透視的綜合信息。其次，我們引入了雙透視增強模塊（DEM），以實現全局和局部特徵的相互增強，使INF-LLaVA能夠同時捕捉詳細的局部信息和全面的全局上下文來有效處理高解析度圖像。大量消融研究驗證了這些組件的有效性，以及在各種基準測試上的實驗表明INF-LLaVA優於現有的MLLMs。代碼和預訓練模型可在https://github.com/WeihuangLin/INF-LLaVA找到。

一個以大規模人類數據為基礎的自主賽車模擬基準測試
A Simulation Benchmark for Autonomous Racing with Large-Scale Human Data

Jul 23

ByAdrian Remonda, Nicklas Hansen, Ayoub Raji, Nicola Musiu, Marko Bertogna, Eduardo Veas, Xiaolong Wang

儘管有國際獎金競賽、規模化車輛和模擬環境可用，但自主賽車和控制運作接近極限的跑車的研究受到車輛取得和管理成本高昂，以及開源模擬器物理精度有限的限制。本文提出了一個基於模擬器Assetto Corsa的賽車模擬平台，用於測試、驗證和基準自主駕駛算法，包括強化學習（RL）和經典模型預測控制（MPC），在逼真且具挑戰性的情境中。我們的貢獻包括開發這個模擬平台、幾種針對賽車環境量身定制的最先進算法，以及從人類駕駛員收集的全面數據集。此外，我們在離線RL設置中評估算法。所有必要的代碼（包括環境和基準）、工作示例、數據集和視頻均已公開發布，可在以下網址找到：https://assetto-corsa-gym.github.io。

SIGMA：Sinkhorn 引導的遮罩式視頻建模
SIGMA: Sinkhorn-Guided Masked Video Modeling

Jul 22

ByMohammadreza Salehi, Michael Dorkenwald, Fida Mohammad Thoker, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano

基於影片的預訓練為以前所未有的規模提供了學習強大視覺表徵的巨大潛力。最近，遮罩式影片建模方法展現出可觀的可擴展性，但由於重建預定的低級目標（如像素），在捕捉更高層次的語義方面仍有不足。為了應對這一問題，我們提出了Sinkhorn引導的遮罩式影片建模（SIGMA），這是一種新穎的影片預訓練方法，同時使用投影網路聯合學習影片模型以及目標特徵空間。然而，這個簡單的修改意味著常規的L2重建損失將導致微不足道的解決方案，因為兩個網路都是聯合優化的。作為解決方案，我們將時空管道的特徵均勻分佈在有限數量的可學習群集中。通過將這視為最優運輸問題，我們在批次中強制實現生成特徵的高熵，將語義和時間意義融入特徵空間。所得的群集分配被用作對稱預測任務的目標，其中影片模型預測投影網路的群集分配，反之亦然。在三個基準測試中跨十個數據集的實驗結果驗證了SIGMA在學習更高效、具有時間意識和強大的影片表徵方面的有效性，並改進了最先進的方法。我們的項目網站及代碼可在以下網址找到：https://quva-lab.github.io/SIGMA。

PrimeGuard：透過無需調整的路由實現安全且有用的LLMs
PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing

Jul 23

ByBlazej Manczak, Eliott Zemour, Eric Lin, Vaikkunth Mugunthan

部署語言模型（LMs）需要輸出既具高質量又符合安全指南。儘管推理時間護欄（ITG）提供解決方案，將模型輸出分佈轉向符合標準，我們發現當前方法在平衡安全性與幫助性方面存在困難。ITG方法安全地處理不符合標準的查詢時，顯示出較低的幫助性，而那些優先考慮幫助性的方法則會妥協安全性。我們將這種權衡稱為護欄稅，類似於對齊稅。為了解決這個問題，我們提出了PrimeGuard，一種利用結構化控制流的新型ITG方法。 PrimeGuard將請求路由到LM的不同自我實例，並使用不同的指令，利用其固有的遵循指令能力和上下文學習。我們的調整免費方法動態編譯系統設計指南，針對每個查詢。我們構建並發布了safe-eval，一個多樣的紅隊安全基準。廣泛評估表明，PrimeGuard在無需微調的情況下，通過（1）顯著提高對迭代越獄攻擊的抵抗力，（2）在安全護欄方面取得了最新成果，同時（3）與對齊調整模型的幫助性得分相匹配，克服了護欄稅。廣泛評估表明，PrimeGuard在無需微調的情況下，優於所有競爭基線，通過將安全響應的比例從61％提高到97％，並將最大模型的平均幫助性得分從4.17提高到4.29，同時將攻擊成功率從100％降低到8％。 PrimeGuard的實施可在https://github.com/dynamofl/PrimeGuard找到，safe-eval數據集可在https://huggingface.co/datasets/dynamoai/safe_eval找到。

跨越萬物：通過複雜地形的四足機器人導航
Cross Anything: General Quadruped Robot Navigation through Complex Terrains

Jul 23

ByShaoting Zhu, Derun Li, Yong Liu, Ningyi Xu, Hang Zhao

視覺語言模型（VLMs）的應用在各種機器人任務中取得了令人印象深刻的成功，但在四足機器人導航中使用基礎模型的探索卻很少。我們介紹了Cross Anything System（CAS），這是一個創新系統，由高層推理模組和低層控制策略組成，使機器人能夠穿越複雜的3D地形並達到目標位置。對於高層推理和運動規劃，我們提出了一個新穎的算法系統，利用VLM的優勢，設計了任務分解和閉環子任務執行機制。對於低層運動控制，我們利用概率退火選擇（PAS）方法通過強化學習來訓練控制策略。大量實驗表明，我們的整個系統能夠準確且穩健地穿越複雜的3D地形，其強大的泛化能力確保了在各種室內和室外場景以及地形中的應用。項目頁面：https://cross-anything.github.io/

AI研究論文每日精選

每日精選AI研究論文及翻譯

CoD，朝向使用診斷鏈打造可解釋醫療智能體
CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis

Jul 18

ByJunying Chen, Chi Gui, Anningzhe Gao, Ke Ji, Xidong Wang, Xiang Wan, Benyou Wang

KAN或MLP：一個更公平的比較
KAN or MLP: A Fairer Comparison

Jul 23

ByRunpeng Yu, Weihao Yu, Xinchao Wang

MovieDreamer：用於連貫長視覺序列的分層生成
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence

Jul 23

ByCanyu Zhao, Mingyu Liu, Wen Wang, Jianlong Yuan, Hao Chen, Bo Zhang, Chunhua Shen

OutfitAnyone：針對任何服裝和任何人的超高品質虛擬試穿
OutfitAnyone: Ultra-high Quality Virtual Try-On for Any Clothing and Any Person

Jul 23

ByKe Sun, Jian Cao, Qi Wang, Linrui Tian, Xindi Zhang, Lian Zhuo, Bang Zhang, Liefeng Bo, Wenbo Zhou, Weiming Zhang, Daiheng Gao

T2V-CompBench：一個針對組合式文本到視頻生成的全面基準。
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

Jul 19

ByKaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu

F-HOI：朝向細粒度語義對齊的3D人物-物體互動
F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions

Jul 17

ByJie Yang, Xuesong Niu, Nan Jiang, Ruimao Zhang, Siyuan Huang

INF-LLaVA：雙視角感知用於高解析度多模態大型語言模型
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

Jul 23

ByYiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji