AI研究論文每日精選

每日精選AI研究論文及翻譯

VidEgoThink：評估具身體式人工智能的自我中心視頻理解能力
VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

Oct 15

BySijie Cheng, Kechen Fang, Yangyang Yu, Sicheng Zhou, Bohao Li, Ye Tian, Tingguang Li, Lei Han, Yang Liu

最近在多模式大型語言模型（MLLMs）方面的進展為具體化人工智慧（Embodied AI）應用開辟了新的途徑。在以前的工作EgoThink的基礎上，我們引入了VidEgoThink，這是一個用於評估自我中心視頻理解能力的全面基準。為了彌合MLLMs和具體化人工智慧中低層控制之間的差距，我們設計了四個關鍵相關任務：視頻問答、層次規劃、視覺對齊和獎勵建模。為了減少手動標註成本，我們基於Ego4D數據集開發了一個自動數據生成流程，利用GPT-4o的先前知識和多模式能力。然後，三名人類標註者過濾生成的數據，以確保多樣性和質量，從而產生了VidEgoThink基準。我們對三種類型的模型進行了廣泛實驗：基於API的MLLMs、基於開源圖像的MLLMs和基於開源視頻的MLLMs。實驗結果表明，所有MLLMs，包括GPT-4o，在與自我中心視頻理解相關的所有任務中表現不佳。這些發現表明，基礎模型仍需要顯著進步，才能有效應用於具體化人工智慧中的第一人稱場景。總之，VidEgoThink反映了一種研究趨勢，即利用MLLMs進行自我中心視覺，類似於人類能力，實現在複雜的現實世界環境中的主動觀察和互動。

HumanEval-V：透過編碼任務評估大型多模型的視覺理解和推理能力
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks

Oct 16

ByFengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung

編碼任務對評估大型語言模型（LLMs）非常有價值，因為它們要求理解高級指令、複雜推理以及實現功能性程式 - 這是推動人工通用智能的核心能力。儘管大型多模型模型（LMMs）取得了進展，將LLMs與視覺感知和理解能力相結合，但在嚴格評估這些模型的編碼基準方面仍存在明顯缺乏，特別是在強調視覺推理的任務中。為了填補這一空白，我們引入了HumanEval-V，這是一個新穎且輕量級的基準，專門設計用於評估LMMs的視覺理解和推理能力，通過代碼生成。HumanEval-V包括108個精心設計的入門級Python編碼任務，這些任務源自CodeForces和Stack Overflow等平台。通過修改原始問題的上下文和算法模式，重新繪製視覺元素以確保與來源的區別，防止潛在的數據泄漏。LLMs需要根據提供的視覺上下文和預定義的Python函數簽名來完成代碼解決方案，詳細說明任務要求。每個任務都配備了精心製作的測試用例，以確保對模型生成的解決方案進行全面可靠的評估。我們使用HumanEval-V評估了19個最先進的LLMs，揭示了重大挑戰。像GPT-4o這樣的專有模型僅達到13%的pass@1和36.4%的pass@10，而具有700億參數的開放權重模型在pass@1方面得分低於4%。消融研究進一步揭示了當前LMMs在視覺推理和編碼能力方面的局限性。這些結果突顯了未來研究增強LMMs能力的關鍵領域。我們已在https://github.com/HumanEval-V/HumanEval-V-Benchmark上開源了我們的代碼和基準。

DocLayout-YOLO：通過多樣合成數據和全局到局部的自適應感知增強文件版面分析
DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

Oct 16

ByZhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He

文件版面分析對於真實世界的文件理解系統至關重要，但在速度和準確性之間存在著一個具有挑戰性的折衷：利用文本和視覺特徵的多模態方法可以實現更高的準確性，但會遭受顯著的延遲，而僅依賴視覺特徵的單模態方法則可以提供更快的處理速度，但準確性則會受到影響。為了應對這一困境，我們引入了DocLayout-YOLO，這是一種新穎的方法，通過在預訓練和模型設計中進行文檔特定的優化，從而提高準確性的同時保持速度優勢。為了實現強大的文檔預訓練，我們引入了Mesh-candidate BestFit算法，將文檔合成框架化為二維裝箱問題，生成了規模龐大且多樣化的DocSynth-300K數據集。在由此產生的DocSynth-300K數據集上進行預訓練顯著提高了各種文檔類型的微調性能。在模型優化方面，我們提出了一個全局到局部可控感受模塊，能夠更好地處理文檔元素的多尺度變化。此外，為了驗證在不同文檔類型上的性能，我們引入了一個複雜且具有挑戰性的基準測試，名為DocStructBench。對下游數據集進行的大量實驗表明，DocLayout-YOLO在速度和準確性方面表現優異。代碼、數據和模型可在https://github.com/opendatalab/DocLayout-YOLO 上獲得。

多模態的詛咒：評估大型多模態模型在語言、視覺和音訊方面的幻覺
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

Oct 16

BySicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing

近年來，大型多模型模型（LMMs）的最新進展顯著提升了在各種任務中的表現，並持續努力進一步整合額外的模態，如視頻和音頻。然而，大多數現有的LMMs仍然容易出現幻覺，即事實多模輸入與生成的文本輸出之間的差異，這限制了它們在各種實際場景中的應用。本文首次系統地探討了涉及語言、視覺和音頻三種最常見模態的LMMs中的幻覺。我們的研究揭示了兩個導致幻覺的關鍵因素：對單模先驗的過度依賴和虛假的跨模態相關性。為應對這些挑戰，我們引入了基準The Curse of Multi-Modalities（CMM），全面評估LMMs中的幻覺，提供對其潛在問題的詳細分析。我們的研究結果突顯了關鍵的脆弱性，包括模態整合的不平衡和訓練數據中的偏見，強調了對平衡的跨模態學習和增強的幻覺緩解策略的需求。根據我們的觀察和研究結果，我們提出了可能增強LMMs可靠性的研究方向。

揭示語言代理人在規劃中的障礙
Revealing the Barriers of Language Agents in Planning

Oct 16

ByJian Xie, Kexun Zhang, Jiangjie Chen, Siyu Yuan, Kai Zhang, Yikai Zhang, Lei Li, Yanghua Xiao

自主規劃是自從人工智慧誕生以來一直在追求的目標。早期的規劃代理基於經過精心挑選的問題解決者，可以為特定任務提供精確的解決方案，但缺乏泛化能力。大型語言模型（LLMs）的出現及其強大的推理能力重新激起了對自主規劃的興趣，因為它們可以自動為給定任務生成合理的解決方案。然而，先前的研究和我們的實驗表明，當前的語言代理仍然缺乏人類水平的規劃能力。即使是最先進的推理模型OpenAI o1，在複雜的現實世界規劃基準中也僅達到15.6％。這突顯了一個關鍵問題：是什麼阻礙了語言代理實現人類水平的規劃？儘管現有研究已經強調了代理規劃的表現不佳，但對於潛在的更深層次問題以及旨在解決這些問題的策略的機制和限制仍然了解不足。在這項工作中，我們應用特徵歸因研究，確定了阻礙代理規劃的兩個關鍵因素：約束的有限作用和問題影響力的減弱。我們還發現，儘管當前的策略有助於緩解這些挑戰，但並未完全解決它們，這表明代理在達到人類水平智能之前還有很長的路要走。

探索模型親緣性以合併大型語言模型
Exploring Model Kinship for Merging Large Language Models

Oct 16

ByYedi Hu, Yunzhi Yao, Ningyu Zhang, Shumin Deng, Huajun Chen

模型合併已成為增強大型語言模型（LLMs）能力和效率的關鍵技術之一。然而，我們對於合併任意兩個模型時預期性能提升和原則的理解仍然有限。在這項工作中，我們引入模型親緣性的概念，即LLMs之間的相似度或關聯程度，類似於生物進化。通過全面的實證分析，我們發現模型親緣性與模型合併後性能提升之間存在一定關係，這有助於指導我們選擇候選模型。受此啟發，我們提出了一種新的模型合併策略：具有模型親緣性的Top-k貪婪合併，可以在基準數據集上獲得更好的性能。具體來說，我們發現使用模型親緣性作為標準可以幫助我們持續進行模型合併，減輕模型進化中的退化（局部最優），而模型親緣性可以作為一種指導，幫助我們避開這些陷阱。代碼可在https://github.com/zjunlp/ModelKinship找到。

透過矩陣核范數對大型語言模型進行評估
Large Language Model Evaluation via Matrix Nuclear-Norm

Oct 14

ByYahan Li, Tingyu Xia, Yi Chang, Yuan Wu

隨著大型語言模型（LLMs）的不斷演進，高效的評估指標對於評估它們壓縮信息和減少冗餘的能力至關重要。儘管傳統指標如矩陣熵提供了有價值的見解，但由於其與奇異值分解（SVD）的\( O(n^3) \)時間複雜度對於大型模型而言計算密集，因此需要采取措施。為了解決這個問題，我們引入了矩陣核范數，它不僅作為一個度量標準，用於量化LLM的數據壓縮能力，還提供了矩陣秩的凸近似，以捕捉預測區分性和多樣性。通過進一步近似核范數的\( L_{1,2}-norm \)，我們可以有效評估模型的信息壓縮能力。這種方法將時間複雜度降低到\( O(n^2) \)，並消除了對SVD計算的需求。因此，矩陣核范數在CEREBRAS-GPT模型的大小從111M增加到6.7B時，實現了比矩陣熵快8到24倍的速度。這種性能差距在更大的模型中變得更加明顯，這在與其他模型如Pythia的測試中得到了驗證。此外，對基準測試和模型響應的評估確認了我們提出的矩陣核范數是一個可靠、可擴展和高效的工具，用於評估LLMs的性能，實現了精確性和計算效率之間的平衡。代碼可在https://github.com/MLGroupJLU/MatrixNuclearNorm找到。

簡化、穩定化和擴展連續時間一致性模型。
Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models

Oct 14

ByCheng Lu, Yang Song

一致性模型（CMs）是一類基於擴散的生成模型，優化了快速取樣的效能。大多數現有的CMs是使用離散化時間步長進行訓練的，這導致引入了額外的超參數並容易出現離散化錯誤。儘管連續時間的公式可以緩解這些問題，但由於訓練不穩定，其成功機會有限。為了解決這個問題，我們提出了一個簡化的理論框架，統一了以前對擴散模型和CMs的參數化，識別了不穩定性的根本原因。基於這一分析，我們在擴散過程參數化、網絡架構和訓練目標方面引入了關鍵改進。這些變化使我們能夠以前所未有的規模訓練連續時間CMs，在ImageNet 512x512上達到了15億參數。我們提出的訓練算法僅使用兩個取樣步驟，在CIFAR-10上實現了2.06的FID分數，在ImageNet 64x64上為1.48，在ImageNet 512x512上為1.88，將FID分數與最佳現有擴散模型的差距縮小到不到10%。

提升文字到圖像擴散模型的長文本對齊
Improving Long-Text Alignment for Text-to-Image Diffusion Models

Oct 15

ByLuping Liu, Chao Du, Tianyu Pang, Zehan Wang, Chongxuan Li, Dong Xu

隨著文本到圖像（T2I）擴散模型的快速發展，它們能夠從給定的文本生成前所未有的結果。然而，隨著文本輸入變得更長，現有的編碼方法如CLIP面臨限制，並且將生成的圖像與長文本對齊變得具有挑戰性。為了應對這些問題，我們提出了LongAlign，其中包括一種用於處理長文本的分段級別編碼方法，以及一種用於有效對齊訓練的分解偏好優化方法。對於分段級別編碼，將長文本劃分為多個段落並分別處理。該方法克服了預訓練編碼模型的最大輸入長度限制。對於偏好優化，我們提供了基於CLIP的分解偏好模型來微調擴散模型。具體來說，為了利用基於CLIP的偏好模型進行T2I對齊，我們深入研究了它們的評分機制，發現偏好分數可以分解為兩個部分：一個衡量T2I對齊的文本相關部分和一個評估人類偏好的其他視覺方面的文本無關部分。此外，我們發現文本無關部分在微調過程中導致常見的過度擬合問題。為了解決這個問題，我們提出了一種重新加權策略，為這兩個部分分配不同的權重，從而減少過度擬合並增強對齊效果。通過使用我們的方法對512次512 Stable Diffusion（SD）v1.5進行約20小時的微調後，微調後的SD在T2I對齊方面優於較強的基礎模型，如PixArt-alpha和Kandinsky v2.2。代碼可在https://github.com/luping-liu/LongAlign找到。

DyVo：具有實體的學習稀疏檢索的動態詞彙表
DyVo: Dynamic Vocabularies for Learned Sparse Retrieval with Entities

Oct 10

ByThong Nguyen, Shubham Chatterjee, Sean MacAvaney, Iain Mackie, Jeff Dalton, Andrew Yates

學習稀疏檢索（LSR）模型使用來自預先訓練的轉換器的詞彙，這些詞彙通常將實體分割為毫無意義的片段。分割實體可能會降低檢索準確性，並限制模型融入未包含在訓練數據中的最新世界知識的能力。在這項工作中，我們通過維基百科的概念和實體增強了LSR詞彙，使模型能夠更有效地解決歧義並與不斷發展的知識保持同步。我們方法的核心是一個動態詞彙（DyVo）頭，它利用現有的實體嵌入和一個識別與查詢或文檔相關的實體的實體檢索組件。我們使用DyVo頭生成實體權重，然後將其與詞片權重合併，以創建聯合表示，以便使用倒排索引進行高效索引和檢索。在三個富含實體的文檔排名數據集上進行的實驗中，結果顯示DyVo模型明顯優於最先進的基準模型。

可控安全對齊：推論時適應多樣安全需求
Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements

Oct 11

ByJingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme

目前大型語言模型（LLMs）的安全對齊範式採用一種一刀切的方法：模型拒絕與模型提供者認為不安全的內容互動。這種方法在應對不同文化和地區的社會規範時缺乏靈活性。此外，用戶可能具有不同的安全需求，使得具有靜態安全標準的模型過於受限以至於無法使用，也因重新對齊而成本過高。我們提出了可控安全對齊（CoSA），這是一個旨在使模型適應各種安全需求而無需重新訓練的框架。我們不是對齊固定模型，而是對齊模型以遵循安全配置 - 這些配置是所需安全行為的自由形式自然語言描述，作為系統提示的一部分提供。為了調整模型的安全行為，授權用戶只需在推斷時修改這些安全配置。為實現這一點，我們提出了CoSAlign，這是一種基於數據的方法，用於對齊LLMs以便輕鬆適應各種安全配置。此外，我們設計了一種新的可控性評估協議，考慮了幫助性和配置的安全性，將它們總結為CoSA-Score，並構建了CoSApien，這是一個由人類編寫的基準，包含具有多樣安全需求和相應評估提示的現實世界LLM使用案例。我們展示了CoSAlign相對於強基線（包括上下文對齊）具有顯著的可控性增益。我們的框架鼓勵更好地代表和適應LLMs中的多元人類價值觀，從而提高它們的實用性。

ProSA：評估與理解LLM對提示的敏感性
ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs

Oct 16

ByJingming Zhuo, Songyang Zhang, Xinyu Fang, Haodong Duan, Dahua Lin, Kai Chen

大型語言模型（LLMs）展示了在各種任務上令人印象深刻的能力，但它們的表現對使用的提示非常敏感。這種變異性對於準確評估和用戶滿意度構成挑戰。目前的研究經常忽略了實例級提示變化及其對主觀評估的影響。為解決這些缺陷，我們介紹了ProSA，這是一個旨在評估和理解LLMs中提示敏感性的框架。ProSA結合了一個新穎的敏感度指標PromptSensiScore，並利用解碼置信度來闡明潛在機制。我們的廣泛研究跨越多個任務，揭示了提示敏感性在數據集和模型之間波動，較大的模型表現出增強的穩健性。我們觀察到少樣本示例可以緩解這種敏感性問題，主觀評估也容易受到提示敏感性的影響，特別是在複雜的、注重推理的任務中。此外，我們的發現表明，模型置信度較高與提示穩健性增加呈正相關。我們相信這項工作將成為研究LLMs提示敏感性的有用工具。該項目已在以下網址釋出：https://github.com/open-compass/ProSA。

ZipVL：具有動態標記稀疏化和KV快取壓縮的高效大視覺語言模型
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

Oct 11

ByYefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

大型視覺語言模型（LVLMs）的效率受到計算瓶頸的限制，在預填充階段是注意機制的計算瓶頸，解碼階段是檢索鍵值（KV）緩存的記憶瓶頸，尤其在涉及高分辨率圖像或視頻的情況下。視覺內容通常存在相當多的冗餘，導致LVLMs內部的注意力地圖非常稀疏。這種稀疏性可以通過各種方法來加速注意力計算或壓縮KV緩存。然而，大多數研究僅專注於解決這兩個瓶頸中的一個，並且對於關於不同層或任務的稀疏性動態調整的支持不夠充分。本文提出了ZipVL，一個為LVLMs設計的高效推理框架，通過重要標記的動態比例分配策略解決計算和記憶瓶頸。這個比例是根據層特定的注意力分數分佈自適應確定的，而不是固定的超參數，從而提高了對於較不複雜任務的效率，同時保持了對於更具挑戰性任務的高性能。然後，我們基於它們的歸一化注意力分數選擇重要標記，並僅對這些重要標記執行注意機制以加速預填充階段。為了減輕解碼階段的記憶瓶頸，我們對KV緩存進行了混合精度量化，其中對於重要標記的緩存使用高位量化，而對於不太重要的則應用低位量化。我們的實驗表明，ZipVL可以將預填充階段加速2.6倍，將GPU記憶體使用量減少50.0％，在LongVA-7B模型上的Video-MME基準上僅降低0.2％的準確性，有效提高了LVLMs的生成效率。

ChroKnowledge：揭示語言模型在多個領域中的時間知識
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains

Oct 13

ByYein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang

大型語言模型（LLMs）已對我們生活的許多方面產生了顯著影響。然而，評估和確保它們的時間知識仍然是具有挑戰性的。現有方法在處理知識的累積性方面存在不足，通常依賴單個時間戳。為了克服這一問題，我們引入了ChroKnowBench，這是一個旨在評估跨多個領域、時間依賴性和時間狀態的時間累積知識的基準數據集。我們的基準數據集區分了知識的演變（例如科學發現、修訂法律）和保持不變的知識（例如數學真理、常識事實）。基於這個基準數據集，我們提出了ChroKnowledge（知識的時間分類），這是一個用於評估和更新LLMs的非參數化時間知識的新型基於抽樣的框架。我們的評估顯示：（1）誘發時間知識的能力取決於模型訓練的數據格式。（2）LLMs部分回憶知識，或者在時間邊界處截斷，而不是正確回憶所有知識的各個方面。因此，我們應用了我們的ChroKnowPrompt，通過逐步遍歷周圍的時間跨度來引發時間知識的深入提示。我們觀察到，我們的框架成功地更新了整個時間線上的整體知識，無論是在生物醫學領域（+11.9%）還是在一般領域（+2.8%），展示了其在精煉時間知識方面的有效性。這種非參數化方法還使知識更新不僅適用於開源模型，還適用於專有的LLMs，確保了在各種模型類型中的全面應用。我們基於ChroKnowPrompt的時間特徵進行了全面分析，並通過我們的方法驗證了各種模型引發內在時間知識的潛力。

神經變態
Neural Metamorphosis

Oct 10

ByXingyi Yang, Xinchao Wang

本文介紹了一種名為神經變形（Neural Metamorphosis，NeuMeta）的新學習範式，旨在構建自我變形的神經網絡。與為不同架構或大小製作單獨模型不同，NeuMeta直接學習神經網絡的連續權重流形。一旦訓練完成，我們可以直接從流形中對任何大小的網絡採樣權重，甚至對於以前未見過的配置，無需重新訓練。為了實現這一雄心勃勃的目標，NeuMeta訓練神經隱式函數作為超網絡。它們接受模型空間內的坐標作為輸入，並在流形上生成相應的權重值。換句話說，隱式函數是以一種方式學習的，使得預測的權重在各種模型大小上表現良好。在訓練這些模型時，我們注意到，最終性能與學習流形的平滑度密切相關。為了提高這種平滑度，我們採用了兩種策略。首先，我們對權重矩陣進行排列，以實現模型內平滑度，通過解決最短哈密頓路徑問題。此外，在訓練隱式函數時，我們在輸入坐標上添加噪聲，確保具有不同大小的模型顯示一致的輸出。因此，NeuMeta在合成各種網絡配置的參數方面表現出有希望的結果。我們在圖像分類、語義分割和圖像生成方面進行了廣泛測試，結果顯示，即使在75%的壓縮率下，NeuMeta仍能保持全尺寸性能。

穩定影像自回歸建模的潛在空間：一個統一的觀點
Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective

Oct 16

ByYongxin Zhu, Bocheng Li, Hang Zhang, Xin Li, Linli Xu, Lidong Bing

基於潛在空間的圖像生成模型，例如潛在擴散模型（LDMs）和遮罩圖像模型（MIMs），在圖像生成任務中取得了顯著的成功。這些模型通常利用像VQGAN或VAE這樣的重建自編碼器，將像素編碼為更緊湊的潛在空間，並從潛在空間而非直接從像素中學習數據分佈。然而，這種做法引發了一個重要問題：這真的是最佳選擇嗎？為了回應這一問題，我們從一個有趣的觀察開始：儘管共享相同的潛在空間，自回歸模型在圖像生成方面明顯落後於LDMs和MIMs。這一發現與自然語言處理領域形成鮮明對比，在該領域中，自回歸模型GPT已經建立了強大的地位。為了解決這一差異，我們提出了一個關於潛在空間和生成模型關係的統一觀點，強調圖像生成建模中潛在空間的穩定性。此外，我們提出了一種簡單但有效的離散圖像分詞器，以穩定圖像生成建模中的潛在空間。實驗結果表明，使用我們的分詞器（DiGIT）進行圖像自回歸建模有助於圖像理解和圖像生成，其中採用下一個標記預測原則，這對於GPT模型來說是內在直觀的，但對其他生成模型來說是具有挑戰性的。值得注意的是，首次，一種針對圖像的GPT風格自回歸模型優於LDMs，當模型尺寸擴大時，也展現出類似GPT的顯著改進。我們的研究結果強調了優化潛在空間和整合離散分詞在推進圖像生成模型能力方面的潛力。代碼可在https://github.com/DAMO-NLP-SG/DiGIT找到。

通過微調和模型合併追蹤通用特徵
Tracking Universal Features Through Fine-Tuning and Model Merging

Oct 16

ByNiels Horn, Desmond Elliott

我們研究特徵如何在不同文本領域微調模型時出現、消失和持久。更具體地說，我們從一個基礎單層Transformer語言模型出發，該模型在BabyLM語料庫和The Stack的Python代碼集合的組合上進行訓練。這個基礎模型被適應到兩個新的文本領域：TinyStories和Lua編程語言，然後這兩個模型通過球面線性插值合併。我們的探索旨在深入了解特徵在典型的遷移學習場景中的穩定性和轉變，使用小規模模型和稀疏自編碼器。

WorldMedQA-V：一個多語言、多模態醫學檢查數據集，用於多模態語言模型評估。
WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation

Oct 16

ByJoão Matos, Shan Chen, Siena Placino, Yingya Li, Juan Carlos Climent Pardo, Daphna Idan, Takeshi Tohyama, David Restrepo, Luis F. Nakayama, Jose M. M. Pascual-Leone, Guergana Savova, Hugo Aerts, Leo A. Celi, A. Ian Wong, Danielle S. Bitterman, Jack Gallifant

多模態/視覺語言模型（VLMs）越來越多地被部署在全球的醫療環境中，這需要強大的基準來確保其安全性、效能和公平性。源自國家醫學考試的多選問題和答案（QA）數據集長期以來一直是有價值的評估工具，但現有數據集主要僅限於文本，並且僅提供有限的語言和國家。為應對這些挑戰，我們提出了WorldMedQA-V，這是一個更新的多語言、多模態基準數據集，旨在評估醫療領域中的VLMs。WorldMedQA-V 包括來自巴西、以色列、日本和西班牙四個國家的 568 個標記的多選QA，配對了 568 張醫學圖像，分別涵蓋原始語言和由本地臨床醫生驗證的英文翻譯。提供了常見開源和封閉源模型的基準性能，以當地語言和英文翻譯呈現，並提供模型的圖像有無。WorldMedQA-V基準旨在更好地將AI系統與其部署的多樣化醫療環境相匹配，促進更具公平性、有效性和代表性的應用。

FLARE：忠實邏輯輔助推理與探索
FLARE: Faithful Logic-Aided Reasoning and Exploration

Oct 14

ByErik Arakelyan, Pasquale Minervini, Pat Verga, Patrick Lewis, Isabelle Augenstein

基於大型語言模型（LLMs）的現代問答（QA）和推理方法通常使用提示技術，例如Chain-of-Thought（CoT），假設生成的結果將對問題空間和範圍進行更細緻的探索和推理。然而，這些方法在生成符合模型產生的中間推理鏈的輸出時存在困難。在另一端，神經符號方法，如Faithful CoT（F-CoT），提議將LLMs與外部符號求解器結合。雖然這些方法具有高度的忠實度，但通常需要為代碼生成訓練的模型，並且在處理模糊或難以嚴格形式化的任務時存在困難。我們引入Faithful Logic-Aided Reasoning and Exploration（\ours），這是一種新穎的可解釋方法，用於通過任務分解遍歷問題空間。我們使用LLM來規劃解決方案，通過邏輯編程代碼將查詢軟形式化為事實和謂詞，並使用在定義空間上進行積極多跳搜索的代碼模擬該代碼執行。我們的方法使我們能夠計算推理過程相對於生成的代碼的忠實度，並分析多跳搜索步驟，而無需依賴外部求解器。我們的方法在9個不同的推理基準測試中有7個取得了SOTA結果。我們還展示了模型的忠實度與整體性能呈正相關，並進一步證明{\ours}能夠找出導致正確答案的關鍵因素，並在多跳搜索期間進行最佳推理。

OMCAT：全情境感知轉換器
OMCAT: Omni Context Aware Transformer

Oct 15

ByArushi Goel, Karan Sapra, Matthieu Le, Rafael Valle, Andrew Tao, Bryan Catanzaro

大型語言模型（LLMs）在文本生成和理解方面取得了顯著進展，最近的進步擴展到了多模態LLMs，這些模型整合了視覺和音頻輸入。然而，這些模型在細粒度、跨模態時間理解方面仍然存在困難，特別是在相關聯音頻和視頻流中的事件。我們通過兩個關鍵貢獻來應對這些挑戰：一個新的數據集和模型，分別稱為OCTAV和OMCAT。OCTAV（Omni Context and Temporal Audio Video）是一個新穎的數據集，旨在捕捉音頻和視頻之間的事件轉換。其次，OMCAT（Omni Context Aware Transformer）是一個強大的模型，利用RoTE（Rotary Time Embeddings），這是RoPE的一個創新擴展，以增強時間基準和計算效率在時間錨定任務中。通過一個強大的三階段訓練流程-特徵對齊、指導調整和OCTAV特定訓練-OMCAT在跨模態時間理解方面表現出色。我們的模型在音視覺問答（AVQA）任務和OCTAV基準上展示了最先進的性能，展示了在時間推理和跨模態對齊方面的顯著增益，通過全面的實驗和消融研究進行驗證。我們的數據集和代碼將公開提供。我們的演示頁面鏈接為https://om-cat.github.io。

從反向推理中獲得的見解：透過反向強化學習重建LLM訓練目標
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL

Oct 16

ByJared Joselowitz, Arjun Jagota, Satyapriya Krishna, Sonali Parbhoo

使用從人類反饋中進行強化學習（RLHF）訓練的大型語言模型（LLMs）展現了卓越的能力，但其潛在的獎勵函數和決策過程仍然不透明。本文介紹了一種新方法，通過應用逆強化學習（IRL）來解釋LLMs，以恢復其隱含的獎勵函數。我們對大小不同的與毒性對齊的LLMs進行實驗，提取出能夠達到高達80.40%準確度的預測人類偏好的獎勵模型。我們的分析揭示了獎勵函數的非可識別性、模型大小與可解釋性之間的關係，以及RLHF過程中可能出現的潛在問題。我們證明了IRL推導的獎勵模型可以用於微調新的LLMs，在毒性基準測試中實現相當或更好的性能。這項工作為理解和改善LLM對齊提供了一個新的視角，對這些強大系統的負責任發展和部署具有重要意義。

從指令到提示：基於LLM的AIOS語義檔案系統
From Commands to Prompts: LLM-based Semantic File System for AIOS

Sep 23

ByZeru Shi, Kai Mei, Mingyu Jin, Yongye Su, Chaoji Zuo, Wenyue Hua, Wujiang Xu, Yujie Ren, Zirui Liu, Mengnan Du, Dong Deng, Yongfeng Zhang

大型語言模型（LLMs）已展示在智能應用程式和系統的發展中具有顯著潛力，例如基於LLM的代理和代理操作系統（AIOS）。然而，當這些應用程式和系統與底層檔案系統互動時，檔案系統仍然保持傳統範式：依賴通過精確指令的手動導覽。這種範式對這些系統的可用性構成瓶頸，因為用戶需要導航複雜的資料夾層次結構並記住晦澀的檔案名稱。為了解決這個限制，我們提出了一個基於LLM的語義檔案系統（LSFS）用於基於提示的檔案管理。與傳統方法不同，LSFS整合了LLMs，使用戶或代理能夠通過自然語言提示與檔案互動，促進語義檔案管理。在宏觀層面，我們開發了一套全面的API集合，以實現語義檔案管理功能，例如語義檔案檢索、檔案更新監控和摘要，以及語義檔案回滾。在微觀層面，我們通過為檔案構建語義索引，設計並實現不同語義操作的系統調用（例如CRUD、分組、連接），並由向量資料庫提供支援。我們的實驗表明，LSFS在用戶便利性、支援功能的多樣性，以及檔案操作的準確性和效率方面，相對傳統檔案系統有顯著改進。此外，通過LLM的整合，我們的系統實現了更智能的檔案管理任務，例如內容摘要和版本比較，進一步增強了其功能。

在強化學習中馴服LLM中的自信心：RLHF中的獎勵校準
Taming Overconfidence in LLMs: Reward Calibration in RLHF

Oct 13

ByJixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang

語言模型校準指的是模型信心與其回應實際表現之間的一致性。先前的研究指出大型語言模型（LLMs）存在過度自信現象，並顯示使用從人類反饋中訓練的強化學習（RLHF）的LLMs在輸出概率上更為銳利時會表現出過度自信。然而，在本研究中，我們揭示了RLHF傾向於使模型在其回應中表達口頭上的過度自信。我們調查了這種過度自信的潛在原因，並證明了用於Proximal Policy Optimization（PPO）的獎勵模型存在固有偏向於高信心分數，而不考慮實際回應質量。基於這一洞察，我們提出了兩種PPO變體：PPO-M：具有校準獎勵建模的PPO和PPO-C：具有校準獎勵計算的PPO。PPO-M在獎勵模型訓練中整合了明確的信心分數，從而校準獎勵模型以更好地捕捉回應質量與口頭自信之間的一致性。PPO-C根據當前獎勵與過去獎勵移動平均值之間的差異調整PPO期間的獎勵分數。PPO-M和PPO-C都可以無縫集成到當前的PPO流程中，並且不需要額外的黃金標籤。我們在包括多選和開放式生成在內的六個不同數據集上對我們的方法進行評估，其中包括Llama3-8B和Mistral-7B。實驗結果表明，我們的兩種方法都能減少校準誤差，並保持與標準PPO相當的性能。我們進一步表明，它們不會影響模型在開放式對話環境中的能力。

AI研究論文每日精選

每日精選AI研究論文及翻譯

VidEgoThink：評估具身體式人工智能的自我中心視頻理解能力
VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

Oct 15

BySijie Cheng, Kechen Fang, Yangyang Yu, Sicheng Zhou, Bohao Li, Ye Tian, Tingguang Li, Lei Han, Yang Liu

HumanEval-V：透過編碼任務評估大型多模型的視覺理解和推理能力
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks

Oct 16

ByFengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung

DocLayout-YOLO：通過多樣合成數據和全局到局部的自適應感知增強文件版面分析
DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

Oct 16

ByZhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He

多模態的詛咒：評估大型多模態模型在語言、視覺和音訊方面的幻覺
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

Oct 16

BySicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing

ZipVL：具有動態標記稀疏化和KV快取壓縮的高效大視覺語言模型
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

Oct 11

ByYefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

WorldMedQA-V：一個多語言、多模態醫學檢查數據集，用於多模態語言模型評估。
WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation

Oct 16