AI研究論文每日精選

每日精選AI研究論文及翻譯

LongRAG：透過長文本語言模型增強檢索輔助生成
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs

Jun 21

ByZiyan Jiang, Xueguang Ma, Wenhu Chen

在傳統的RAG框架中，基本的檢索單元通常很短。像是DPR這樣的常見檢索器通常與100字的維基百科段落一起工作。這樣的設計迫使檢索器在大型語料庫中尋找「針」單元。相較之下，讀者只需要從短檢索單元中提取答案。這種不平衡的「重型」檢索器和「輕型」讀者設計可能導致次優異的表現。為了減輕這種不平衡，我們提出了一個新框架LongRAG，包括一個「長檢索器」和一個「長讀者」。LongRAG將整個維基百科處理成4K令牌單元，比以前長30倍。通過增加單元大小，我們顯著地將總單元數從22M減少到700K。這顯著降低了檢索器的負擔，從而產生了顯著的檢索分數：NQ上的答案召回率@1=71%（之前為52%），HotpotQA（全文）上的答案召回率@2=72%（之前為47%）。然後，我們將前k個檢索單元（約30K令牌）餵入現有的長內容LLM以執行零-shot答案提取。LongRAG無需任何訓練即實現了NQ上的62.7% EM，這是已知最佳結果。LongRAG還在HotpotQA（全文）上實現了64.3%，與SoTA模型相當。我們的研究為將RAG與長內容LLM相結合的未來路線提供了見解。

評估對齊和漏洞：以LLMs為法官进行評估
Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges

Jun 18

ByAman Singh Thakur, Kartik Choudhary, Venkat Srinik Ramayapally, Sankaran Vaidyanathan, Dieuwke Hupkes

LLM作為評判範式為應對與人類評估相關的可擴展性挑戰提供了一個有前途的解決方案，迅速成為評估大型語言模型（LLMs）的方法之一。然而，對於這種範式的優勢和劣勢，以及可能存在的潛在偏見，仍有許多問題有待解答。在本文中，我們對各種LLM作為評判的表現進行了全面研究。我們利用TriviaQA作為評估LLMs客觀知識推理能力的基準，並將它們與我們發現具有高度互評者一致性的人類標註進行評估。我們的研究包括9個評判模型和9個考生模型，包括基本模型和指導調整模型。我們評估了評判模型在不同模型大小、系列和評判提示下的一致性。在其他結果中，我們的研究重新發現了使用Cohen's kappa作為一致性度量的重要性，而不是簡單的百分比一致性，顯示高百分比一致性的評判仍可能給出截然不同的分數。我們發現Llama-3 70B和GPT-4 Turbo與人類有著極佳的一致性，但在排名考生模型方面，它們被JudgeLM-7B和詞彙評判Contains超越，後者的人類一致性低至34分。通過錯誤分析和其他各種研究，包括指導長度和寬容偏見的影響，我們希望為未來在使用LLMs作為評判時提供寶貴的教訓。

朝向在大型影片庫上的檢索增強生成
Towards Retrieval Augmented Generation over Large Video Libraries

Jun 21

ByYannis Tevissen, Khalil Guetari, Frédéric Petitpont

視頻內容創作者需要高效的工具來重新利用內容，這項任務通常需要進行複雜的手動或自動搜索。從龐大的視頻庫中製作新視頻仍然是一項挑戰。本文介紹了通過一個可互操作的架構，應用檢索增強生成（RAG）到視頻庫中，引入了視頻庫問答（VLQA）任務。我們提出了一個系統，使用大型語言模型（LLMs）來生成搜索查詢，檢索由語音和視覺元數據索引的相關視頻片段。然後，一個答案生成模塊將用戶查詢與這些元數據整合，以生成具有特定視頻時間戳的回應。這種方法在多媒體內容檢索和AI輔助視頻內容創作方面顯示了潛力。

Transformer 中工作記憶中符號表示的複雜度與任務的複雜度相關。
Complexity of Symbolic Representation in Working Memory of Transformer Correlates with the Complexity of a Task

Jun 20

ByAlsu Sagirova, Mikhail Burtsev

儘管Transformer廣泛應用於自然語言處理任務，特別是機器翻譯，但它們缺乏明確的記憶來存儲處理文本的關鍵概念。本文探討了添加到Transformer模型解碼器的符號工作記憶內容的特性。這種工作記憶提升了模型在機器翻譯任務中的預測質量，並作為重要信息的神經符號表示，有助於模型進行正確翻譯。對記憶內容的研究顯示，翻譯文本關鍵詞存儲在工作記憶中，指向記憶內容與處理文本的相關性。此外，存儲在記憶中的標記和詞性的多樣性與機器翻譯任務的語料庫複雜性相關。

MantisScore：建立自動評量指標以模擬對於影片生成的細緻人類反饋
MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation

Jun 21

ByXuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen

近年來，視頻生成取得了巨大進展。然而，自動視頻評量的發展明顯滯後。現有的評量指標無法為生成的視頻提供可靠的分數。主要障礙是缺乏大規模的人工標註數據集。本文中，我們釋出了VideoFeedback，這是第一個大規模數據集，包含對來自11個現有視頻生成模型的37.6K合成視頻的人工提供的多方面評分。我們基於VideoFeedback訓練了MantisScore（從Mantis初始化），以實現自動視頻質量評估。實驗表明，MantisScore與人類之間的Spearman相關性在VideoFeedback-test上可以達到77.1，比先前最佳指標高出約50分。在其他留出的EvalCrafter、GenAI-Bench和VBench上的進一步結果表明，MantisScore與人類評審之間的相關性一直遠高於其他指標。基於這些結果，我們認為MantisScore可以作為人類評分者的一個很好的代理，用於（1）評估不同的視頻模型以追踪進展，（2）在帶有人類反饋的強化學習中模擬細緻的人類反饋，以改進當前的視頻生成模型。

使用RAGElo評估RAG-Fusion：一個自動化基於Elo的框架
Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework

Jun 20

ByZackary Rackauckas, Arthur Câmara, Jakub Zavrel

在自動評估檢索增強生成（RAG）問答（QA）系統方面的挑戰包括領域特定知識中的幻覺問題以及公司內部任務缺乏黃金標準基準。這導致在評估RAG變體（如RAG-Fusion，RAGF）時出現困難，尤其是在英飛凌科技的產品QA任務背景下。為解決這些問題，我們提出了一個全面的評估框架，利用大型語言模型（LLMs）生成基於真實用戶查詢和領域內文檔的大型合成查詢數據集，使用LLM作為評分員對檢索的文檔和答案進行評分，評估答案的質量，並使用RAGElo的自動Elo比賽對檢索增強生成（RAG）代理的不同變體進行排名。對一組隨機樣本的合成查詢進行的LLM作為評分員評分顯示，在相關性、準確性、完整性和精確性方面與領域專家評分存在中等正相關。雖然RAGF在Elo分數上優於RAG，但與專家注釋的重要性分析也顯示RAGF在完整性方面顯著優於RAG，但在精確性方面表現不佳。此外，英飛凌的RAGF助手在基於MRR@5分數的文檔相關性方面表現略高。我們發現RAGElo與人類標註者的偏好保持一致，但仍需謹慎。最後，RAGF的方法根據專家標註提供了更完整的答案，並根據RAGElo的評估標準提供了更好的答案。

Stylebreeder：透過文本到圖像模型探索和民主化藝術風格
Stylebreeder: Exploring and Democratizing Artistic Styles through Text-to-Image Models

Jun 20

ByMatthew Zheng, Enis Simsar, Hidir Yesiltepe, Federico Tombari, Joel Simon, Pinar Yanardag

文字轉圖像模型正變得越來越受歡迎，通過實現高度詳細和具有創造性的視覺內容生成，徹底改變了數字藝術創作的格局。這些模型已被廣泛應用於各個領域，特別是在藝術生成方面，它們促進了廣泛的創意表達，並實現了對藝術創作的民主化訪問。在本文中，我們介紹了STYLEBREEDER，這是一個由95K用戶在Artbreeder上生成的680萬圖像和180萬提示的全面數據集。Artbreeder是一個擁有超過1300萬用戶的重要創意探索中心。我們通過這個數據集引入了一系列任務，旨在識別多樣的藝術風格，生成個性化內容，並基於用戶興趣推薦風格。通過記錄超越傳統類別如「赛博朋克」或「畢卡索」的獨特用戶生成風格，我們探索了獨特的、眾包風格可能提供對全球用戶集體創造心理的深刻洞察。我們還評估了不同的個性化方法以增強藝術表達，並引入了一個風格地圖集，將這些模型以LoRA格式提供給公眾使用。我們的研究展示了文字轉圖像擴散模型發掘和促進獨特藝術表達的潛力，進一步民主化AI在藝術中的應用，並促進更多元化和包容性的藝術社群。該數據集、代碼和模型可在https://stylebreeder.github.io 下載，並採用公共領域（CC0）許可。

EvTexture：用於視頻超分辨率的事件驅動紋理增強
EvTexture: Event-driven Texture Enhancement for Video Super-Resolution

Jun 19

ByDachun Kai, Jiayao Lu, Yueyi Zhang, Xiaoyan Sun

基於事件的視覺因具有高時間解析度和高動態範圍等獨特特性，近來在視頻超分辨率（VSR）中被廣泛關注，用於增強流估計和時間對齊。本文提出了一種新的VSR方法，名為EvTexture，該方法利用事件信號進行紋理增強，而非用於運動學習。EvTexture利用事件的高頻細節更好地恢復VSR中的紋理區域。在EvTexture中，引入了一個新的紋理增強分支。我們進一步引入了一個迭代紋理增強模塊，逐步探索高時間解析度的事件信息以進行紋理修復。這使得在多次迭代中逐步改進紋理區域，從而獲得更準確和豐富的高分辨率細節。實驗結果表明，我們的EvTexture在四個數據集上實現了最先進的性能。對於具有豐富紋理的Vid4數據集，我們的方法與最近的基於事件的方法相比，可以獲得高達4.67dB的增益。代碼：https://github.com/DachunKai/EvTexture。

利用演化啟發式方法對解碼時間進行獎勵引導
Reward Steering with Evolutionary Heuristics for Decoding-time Alignment

Jun 21

ByChia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria

LLM 的廣泛應用和日益普及性促使了將 LLM 回應與使用者和利益相關者偏好對齊的需求。已經提出了許多偏好優化方法，這些方法微調 LLM 參數以實現良好對齊。然而，已知這種參數調整會干擾模型在許多任務上的表現。此外，在這種情況下跟上變化中的使用者偏好是棘手的。根據獎勵模型指導的解碼時間對齊解決了這些問題，但代價是增加了推理時間。然而，大多數這類方法未能在探索和利用獎勵之間取得適當平衡，這往往是由於這兩個方面的混合制定，無法提供良好對齊的回應。為了解決這個問題，我們將這兩個方面解耦並以演化方式實施：通過解碼從突變指令中強制執行探索，並將利用表示為將獎勵較低的世代週期性替換為獎勵較高的世代。實證證據表明，這種策略在兩個廣泛接受的對齊基準 AlpacaEval 2 和 MT-Bench 上優於許多偏好優化和解碼時間對齊方法。我們的實現將可在以下網址找到：https://darwin-alignment.github.io。

在一片泥土地裡的兩隻長頸鹿：使用遊戲玩法探究大型多模型中的情境建模。
Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models

Jun 20

BySherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen

儘管僅限文字的模型情況有所改善，但目前似乎又是多模式（文字和圖像）模型的發展速度超過評估方式的情況。在本文中，我們將從文字模型中引入一種最近發展的評估範式到多模式模型中，即通過目標導向遊戲（自我）遊玩進行評估，以補充基於參考和基於偏好的評估。具體來說，我們定義了挑戰模型從性能來自視覺信息中呈現情況並通過對話對齊這些呈現的遊戲。我們發現，最大的封閉模型在我們定義的遊戲中表現相當不錯，而即使是最好的開放權重模型也會遇到困難。在進一步分析中，我們發現最大模型的卓越深度標註能力推動了部分性能。對於這兩種模型，仍有提升的空間，確保基準的持續相關性。

越獄作為獎勵錯誤規範問題
Jailbreaking as a Reward Misspecification Problem

Jun 20

ByZhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong

大型語言模型（LLMs）的廣泛應用引起了對其安全性和可靠性的擔憂，特別是對它們易受對抗攻擊的脆弱性。在本文中，我們提出了一個新的觀點，認為這種脆弱性是由於對齊過程中獎勵錯誤規範所致。我們引入了一個度量標準 ReGap 來量化獎勵錯誤規範的程度，並展示了它在檢測有害的後門提示方面的有效性和穩健性。基於這些見解，我們提出了一個名為 ReMiss 的系統，用於自動紅隊測試，針對各種目標對齊的LLMs生成對抗性提示。ReMiss 在 AdvBench 基準測試中實現了最先進的攻擊成功率，同時保留了生成提示的人類可讀性。詳細分析突出了所提出的獎勵錯誤規範目標相對於先前方法帶來的獨特優勢。

語言模型的認知地圖：通過口語表示世界模型進行最優規劃
Cognitive Map for Language Models: Optimal Planning via Verbally Representing the World Model

Jun 21

ByDoyoung Kim, Jongwon Lee, Jinho Park, Minjoon Seo

語言模型在各種自然語言處理任務中展現出令人印象深刻的能力，但在需要多步模擬的規劃任務中表現不佳。受人類認知過程啟發，本文探討語言模型的最佳規劃能力，該模型能構建給定環境的認知地圖。我們的實驗表明，認知地圖顯著提升了在Gridworld路徑規劃任務中的最佳和可達規劃生成能力。我們觀察到我們的方法展示了兩個與人類認知相似的關鍵特徵：將其規劃能力泛化到外推環境以及在有限訓練數據下快速適應。我們希望我們在Gridworld任務中的研究結果能夠深入了解在語言模型中建模人類認知過程，潛在地促成開發更先進和更強大的系統，更好地模擬人類認知。

4K4DGen：以4K解析度生成全景4D影像
4K4DGen: Panoramic 4D Generation at 4K Resolution

Jun 19

ByRenjie Li, Panwang Pan, Bangbang Yang, Dejia Xu, Shijie Zhou, Xuanyang Zhang, Zeming Li, Achuta Kadambi, Zhangyang Wang, Zhiwen Fan

虛擬實境和擴增實境（VR/AR）技術的蓬勃發展推動了對高質量、身臨其境且動態環境創建的需求不斷增加。然而，現有的生成技術要麼僅專注於動態物體，要麼從單一視角圖像進行外部繪製，未能滿足VR/AR應用的需求。在這項工作中，我們致力於將單一全景提升為身臨其境的4D體驗這一具有挑戰性的任務。我們首次展示了生成具有360度視角的全方位動態場景，解析度為4K，從而提供身臨其境的用戶體驗。我們的方法引入了一個流程，促進自然場景動畫並使用高效的點狀技術優化一組4D高斯函數，以進行實時探索。為了克服在全景格式中缺乏場景尺度標註的4D數據和模型，我們提出了一種新穎的全景去噪器，將通用的2D擴散先驗適應到360度圖像中，實現一致的動畫，將其轉換為在目標區域具有動態場景的全景視頻。隨後，我們將全景視頻提升為4D身臨其境環境，同時保持空間和時間的一致性。通過將透視域中的2D模型的先前知識轉移到全景域和具有空間外觀和幾何正則化的4D提升，我們首次實現了高質量的全景到4D生成，解析度為（4096乘以2048）。請查看項目網站：https://4k4dgen.github.io。

數據污染可以跨越語言障礙。
Data Contamination Can Cross Language Barriers

Jun 19

ByFeng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang

在開發大型語言模型（LLMs）時的不透明度引起了對於預訓練數據中可能存在的公共基準污染日益增長的擔憂。現有的污染檢測方法通常基於訓練和評估數據之間的文本重疊，這可能過於表面，無法反映更深層次的污染形式。在本文中，我們首先提出了一種跨語言形式的污染，通過在基準測試集的翻譯版本上過度擬合LLMs，從而膨脹LLMs的性能，同時逃避當前的檢測方法。然後，我們提出了基於泛化的方法來揭示這種深度隱藏的污染。具體來說，我們檢查了在將原始基準替換為來自其他問題的正確答案選擇後，LLM的性能變化。受污染的模型幾乎無法泛化到這種更簡單的情況，其中虛假選擇甚至可能不是錯誤的，因為在它們的記憶中所有選擇都是正確的。實驗結果表明，跨語言污染可以輕易愚弄現有的檢測方法，但無法愚弄我們的方法。此外，我們討論了在解釋LLMs的工作機制以及在後訓練LLMs以增強多語能力方面，跨語言污染的潛在應用。我們使用的代碼和數據集可從https://github.com/ShangDataLab/Deep-Contam 獲取。

DELLA-Merging：透過基於大小的抽樣減少模型合併中的干擾
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling

Jun 17

ByPala Tej Deep, Rishabh Bhardwaj, Soujanya Poria

隨著特定領域模型的大量出現，模型合併已經成為一組技術，將多個模型的能力結合成一個可以多任務執行而無需額外訓練成本的模型。在本文中，我們提出了一種新的模型合併技術，稱為Drop and rEscaLe via sampLing with mAgnitude（DELLA-Merging），採用了一種新穎的修剪技術MAGPRUNE，相對於DARE和TIES，顯示出顯著的優勢。MAGPRUNE首先按照其大小對參數進行排序，並將較小大小對應的較低排名的參數分配較高的輸出概率（p）。為了逼近原始嵌入，MAGPRUNE通過在存活的參數上進行1/(1 - p)的隨機丟棄來執行重新縮放操作。在考慮合併的三個不同專家模型（LM、Math、Code）和相應的基準數據集（AlpacaEval、GSM8K、MBPP）上，DELLA相對於採用增量參數修剪的基準方法平均提高了2.4個點（比TIES提高了3.6個點，比DARE提高了1.2個點），並且比無修剪基準（TA）提高了11.1個點。我們在以下網址釋出源代碼：https://github.com/declare-lab/della。

信任與準確性的故事：在RAG系統中的基礎對比指導LLMs
A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems

Jun 21

ByFlorin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri

檢索增強生成（RAG）代表著人工智慧領域的一項重大進步，結合了檢索階段和生成階段，後者通常由大型語言模型（LLMs）提供動力。目前在RAG中的常見做法包括使用「指導」LLMs，這些模型經過監督訓練進行微調，以增強其遵循指示的能力，並使用最先進的技術與人類偏好保持一致。與普遍觀念相反，我們的研究表明，在我們的實驗設置下，基本模型在RAG任務中平均表現比其指導對應物高出20％。這一發現挑戰了人們對於RAG應用中指導LLMs優越性的普遍假設。進一步的研究揭示了一個更加微妙的情況，質疑了RAG的基本方面，並提出了對該主題進行更廣泛討論的必要性；或者，如弗洛姆所言，“很少有人僅僅透過一瞥統計數據就能理解數字的含義”。

在細胞中學習分子表示
Learning Molecular Representation in a Cell

Jun 17

ByGang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter, Meng Jiang, Shantanu Singh

預測藥物在體內的療效和安全性需要有關生物反應（例如細胞形態和基因表達）對小分子干擾的信息。然而，目前的分子表示學習方法並未提供對這些干擾下細胞狀態的全面觀察，且難以去除噪音，妨礙模型的泛化。我們引入信息對齊（InfoAlign）方法，通過信息瓶頸方法在細胞中學習分子表示。我們將分子和細胞反應數據作為節點整合到上下文圖中，並根據化學、生物和計算標準連接它們，形成加權邊。對於訓練批次中的每個分子，InfoAlign通過最小化目標來優化編碼器的潛在表示，以丟棄多餘的結構信息。一個充分性目標對表示進行解碼，使其與上下文圖中分子鄰域的不同特徵空間對齊。我們證明了所提出的對齊充分性目標比現有基於編碼器的對比方法更緊密。從實證上看，我們在兩個下游任務中驗證了InfoAlign的表示：與四個數據集中高達19種基線方法進行分子性質預測，以及零樣本分子形態匹配。

Ruby 隊伍：透過記憶體來提升自動化紅隊行動的品質多樣性搜索
Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming

Jun 17

ByVernon Toh Yan Han, Rishabh Bhardwaj, Soujanya Poria

我們提出了Ruby Teaming方法，通過將記憶快取作為其第三維度，改進了Rainbow Teaming。記憶維度為變異器提供提示，以產生更高質量的提示，無論是在攻擊成功率（ASR）還是質量多樣性方面。Ruby Teaming生成的提示存檔具有74%的ASR，比基準線高出20%。就質量多樣性而言，Ruby Teaming在Shannon's Evenness Index（SEI）和Simpson's Diversity Index（SDI）上分別比Rainbow Teaming高出6%和3%。

Style-NeRF2NeRF：從風格對齊的多視角影像進行的3D風格轉移
Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images

Jun 19

ByHaruo Fujiwara, Yusuke Mukuta, Tatsuya Harada

我們提出了一個簡單而有效的流程，用於為風格化3D場景，利用2D圖像擴散模型的能力。給定從一組多視角圖像重建的NeRF模型，我們通過使用由風格對齊的圖像到圖像擴散模型生成的風格化圖像來優化源NeRF模型，從而執行3D風格轉移。給定目標風格提示，我們首先通過利用具有共享注意機制的深度條件擴散模型生成感知上相似的多視角圖像。接下來，基於風格化的多視角圖像，我們提出使用從預先訓練的CNN模型提取的特徵圖來基於切片Wasserstein損失來引導風格轉移過程。我們的流程包括解耦的步驟，使用戶可以測試各種提示想法並在進入NeRF微調階段之前預覽風格化的3D結果。我們展示了我們的方法可以將多種藝術風格轉移到現實世界的3D場景，並具有競爭力的質量。

NAVSIM：基於數據驅動的非反應式自主車輛模擬和基準測試
NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking

Jun 21

ByDaniel Dauner, Marcel Hallgarten, Tianyu Li, Xinshuo Weng, Zhiyu Huang, Zetong Yang, Hongyang Li, Igor Gilitschenski, Boris Ivanovic, Marco Pavone, Andreas Geiger, Kashyap Chitta

基於視覺的駕駛策略基準測試具有挑戰性。一方面，使用真實數據進行開環評估容易，但這些結果並不反映閉環表現。另一方面，在模擬中進行閉環評估是可能的，但由於其巨大的計算需求，很難擴展。此外，當今可用的模擬器與真實數據存在著很大的領域差距。這導致無法從快速增長的端到端自動駕駛研究成果中得出明確結論。在本文中，我們提出了NAVSIM，它處於評估範式之間的中間地帶，我們在其中使用大型數據集結合非反應式模擬器，實現大規模真實世界基準測試。具體而言，我們通過展開測試場景的鳥瞰抽象來收集基於模擬的指標，例如進展和碰撞時間，用於短期模擬視野。我們的模擬是非反應式的，即評估的策略和環境不會相互影響。正如我們在實證中展示的那樣，這種解耦允許進行開環指標計算，同時與傳統的位移誤差相比更符合閉環評估。NAVSIM實現了一項新的比賽，於2024年CVPR舉辦，共有143支隊伍提交了463個作品，帶來了一些新的見解。在大量具有挑戰性的情境中，我們觀察到，像TransFuser這樣具有中等計算需求的簡單方法可以與UniAD等最新的大規模端到端駕駛架構相匹配。我們的模塊化框架可能可以通過新的數據集、數據整理策略和指標進行擴展，並將持續維護以舉辦未來的挑戰。我們的代碼可在https://github.com/autonomousvision/navsim找到。

ICAL：通過將軌跡轉化為可操作的洞察，實現多模態智能體的持續學習。
ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights

Jun 20

ByGabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki

大規模生成式語言和視覺-語言模型（LLMs和VLMs）在少量樣本內容學習方面表現出色，適用於決策制定和指導。然而，它們需要高質量的示範示例包含在其上下文窗口中。在這項工作中，我們問：LLMs和VLMs能否從通用的次優示範中生成自己的提示示例？我們提出了上下文抽象學習（ICAL），一種從次優示範和人類反饋中建立多模態經驗見解記憶的方法。在新領域中給定一個嘈雜示範時，VLMs將軌跡抽象成一個通用程序，通過修正低效動作並註釋認知抽象：任務關係、物體狀態變化、時間子目標和任務解釋。這些抽象通過人類反饋進行互動式地精煉和適應，同時代理嘗試在類似環境中執行軌跡。當這些抽象被用作提示中的示範時，顯著改善了檢索增強的LLM和VLM代理的決策能力。我們的ICAL代理在TEACh的基於對話的指導中超越了最先進技術，在VisualWebArena的多模態網頁代理以及Ego4D的動作預測中。在TEACh中，我們實現了目標條件成功率提高了12.6%。在VisualWebArena中，我們的任務成功率從14.3%提高到22.7%。在Ego4D的動作預測中，我們超越了少量樣本的GPT-4V，並且與監督模型保持競爭力。我們展示了對我們的檢索增強上下文代理進行微調可以額外改善。我們的方法顯著減少了對專家製作的示例的依賴，並且在缺乏這些見解的行動計劃的上下文學習中始終表現優異。

RE-AdaptIR：通過反向工程適應改進信息檢索
RE-AdaptIR: Improving Information Retrieval through Reverse Engineered Adaptation

Jun 20

ByWilliam Fleshman, Benjamin Van Durme

針對文本檢索進行微調的大型語言模型（LLMs）已在多個信息檢索（IR）基準測試中展示出最先進的結果。然而，為了改進這些模型，監督式訓練需要大量標記的示例，這些通常難以獲得或成本高昂。在這項工作中，我們探索了將逆向工程適應（RE-AdaptIR）擴展到信息檢索上下文的有效性。我們使用RE-AdaptIR僅使用未標記數據來改進基於LLM的IR模型。我們展示了在訓練領域以及模型從未見過查詢的零-shot領域中的性能改進。我們分析了各種微調情境中的性能變化，並提供對從業者立即有用的研究結果。

多模態結構生成：CVPR 第二屆 MMFM 挑戰賽技術報告
Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report

Jun 17

ByFranz Louis Cesista

多模基礎模型（MMFMs）在各種計算機視覺和自然語言處理任務中展現出卓越的表現。然而，它們在特定任務上，如文件理解方面的表現仍然有限。相較於傳統的單模型，它們還需要更多的計算、時間和工程資源來進行微調和部署。在本報告中，我們提出了多模結構生成，這是一個通用框架，將凍結的MMFMs的輸出logits限制在強迫它們在回應之前進行推理，以生成結構化輸出，下游API可以解析和使用。我們詳細介紹了我們的方法，包括技術細節、理論討論以及在由計算機視覺和模式識別（CVPR）會議主辦的第2屆多模基礎模型挑戰中的最終評估結果。我們的方法在第2階段的隱藏測試集中取得了第二高的分數，整體排名第三。這顯示了該方法對未見任務的泛化能力。正如我們在我們的論文《檢索增強結構生成：商業文件信息提取作為工具使用》中首次討論的那樣，簡單的工程方法可以擊敗昂貴和複雜的建模步驟。我們所有的腳本、部署步驟和評估結果都可以在https://github.com/leloykun/MMFM-Challenge中找到。

透過個性化聯邦學習觀點看低資源機器翻譯
Low-Resource Machine Translation through the Lens of Personalized Federated Learning

Jun 18

ByViktor Moskvoretskii, Nazarii Tupitsa, Chris Biemann, Samuel Horváth, Eduard Gorbunov, Irina Nikishina

我們提出了一種基於個性化聯邦學習算法 MeritFed 的新方法，可應用於具異構數據的自然語言任務。我們在低資源機器翻譯任務上對其進行評估，使用了大規模多語言機器翻譯共享任務的數據集（小型軌道＃2）以及芬諾-烏戈爾語言多語言基準中薩米語言的子集。除了其有效性外，MeritFed 還具有高度可解釋性，因為它可應用於追蹤每種用於訓練的語言的影響。我們的分析顯示，目標數據集大小會影響輔助語言之間的權重分佈，不相關的語言不會干擾訓練，而輔助優化器參數的影響很小。我們的方法易於應用，只需幾行代碼，並提供了用於重現實驗的腳本，網址為 https://github.com/VityaVitalich/MeritFed

ToVo：透過投票的方式進行毒性分類
ToVo: Toxicity Taxonomy via Voting

Jun 21

ByTinh Son Luong, Thanh-Thien Le, Thang Viet Doan, Linh Ngo Van, Thien Huu Nguyen, Diep Thi-Ngoc Nguyen

現有的有毒檢測模型存在著重大限制，例如缺乏透明度、定制性和可重複性。這些挑戰源於其訓練數據的封閉性質以及對評估機制的解釋不足。為了應對這些問題，我們提出了一種數據集創建機制，該機制整合了投票和思維鏈過程，生產出一個高質量的開源數據集，用於檢測有毒內容。我們的方法確保每個樣本的多樣化分類指標，並包括分類分數以及對分類的解釋推理。通過我們提出的機制創建的數據集來訓練我們的模型，然後將其與現有廣泛使用的檢測器進行比較。我們的方法不僅增強了透明度和定制性，還有助於更好地針對特定用例進行微調。這項工作為開發有毒內容檢測模型提供了一個堅固的框架，強調開放性和適應性，從而為更有效和用戶特定的內容審核解決方案鋪平了道路。

LLM 在不同文化間如何準確代表價值觀？基於霍夫斯泰德文化維度的 LLM 回應的實證分析。
How Well Do LLMs Represent Values Across Cultures? Empirical Analysis of LLM Responses Based on Hofstede Cultural Dimensions

Jun 21

ByJulia Kharchenko, Tanya Roosta, Aman Chadha, Chirag Shah

大型語言模型（LLMs）試圖透過以一種取悅人的方式回應人類來模仿人類行為，包括遵循他們的價值觀。然而，人類來自具有不同價值觀的多元文化。了解LLMs是否基於用戶所知國家的刻板價值觀向用戶展示不同價值觀至關重要。我們通過基於5個霍夫斯泰德文化維度的建議請求系列提示不同的LLMs，這是一種量化表示國家價值觀的方式。在每個提示中，我們融入代表36個不同國家的人物角色，以及與每個國家緊密聯繫的語言，以分析LLMs對文化理解的一致性。通過我們對回應的分析，我們發現LLMs能夠區分價值觀的一面和另一面，並理解不同國家有不同的價值觀，但在給出建議時並不總是堅持這些價值觀，也未能理解根據不同文化價值觀作出不同回答的必要性。基於這些發現，我們提出了培訓價值對齊和具有文化敏感性的LLMs的建議。更重要的是，這裡開發的方法和框架可以幫助進一步了解和減輕LLMs與文化和語言對齊問題。

AI研究論文每日精選

每日精選AI研究論文及翻譯

LongRAG：透過長文本語言模型增強檢索輔助生成
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs

Jun 21

ByZiyan Jiang, Xueguang Ma, Wenhu Chen

評估對齊和漏洞：以LLMs為法官进行評估
Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges

Jun 18

ByAman Singh Thakur, Kartik Choudhary, Venkat Srinik Ramayapally, Sankaran Vaidyanathan, Dieuwke Hupkes

朝向在大型影片庫上的檢索增強生成
Towards Retrieval Augmented Generation over Large Video Libraries

Jun 21

ByYannis Tevissen, Khalil Guetari, Frédéric Petitpont

Transformer 中工作記憶中符號表示的複雜度與任務的複雜度相關。
Complexity of Symbolic Representation in Working Memory of Transformer Correlates with the Complexity of a Task

Jun 20

ByAlsu Sagirova, Mikhail Burtsev

MantisScore：建立自動評量指標以模擬對於影片生成的細緻人類反饋
MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation

Jun 21

使用RAGElo評估RAG-Fusion：一個自動化基於Elo的框架
Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework

Jun 20

ByZackary Rackauckas, Arthur Câmara, Jakub Zavrel

Stylebreeder：透過文本到圖像模型探索和民主化藝術風格
Stylebreeder: Exploring and Democratizing Artistic Styles through Text-to-Image Models

Jun 20

ByMatthew Zheng, Enis Simsar, Hidir Yesiltepe, Federico Tombari, Joel Simon, Pinar Yanardag

EvTexture：用於視頻超分辨率的事件驅動紋理增強
EvTexture: Event-driven Texture Enhancement for Video Super-Resolution

Jun 19

ByDachun Kai, Jiayao Lu, Yueyi Zhang, Xiaoyan Sun

利用演化啟發式方法對解碼時間進行獎勵引導
Reward Steering with Evolutionary Heuristics for Decoding-time Alignment

Jun 21

ByChia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria

在一片泥土地裡的兩隻長頸鹿：使用遊戲玩法探究大型多模型中的情境建模。
Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models

Jun 20

BySherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen

越獄作為獎勵錯誤規範問題
Jailbreaking as a Reward Misspecification Problem

Jun 20

ByZhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong

語言模型的認知地圖：通過口語表示世界模型進行最優規劃
Cognitive Map for Language Models: Optimal Planning via Verbally Representing the World Model

Jun 21

ByDoyoung Kim, Jongwon Lee, Jinho Park, Minjoon Seo

4K4DGen：以4K解析度生成全景4D影像
4K4DGen: Panoramic 4D Generation at 4K Resolution

Jun 19

ByRenjie Li, Panwang Pan, Bangbang Yang, Dejia Xu, Shijie Zhou, Xuanyang Zhang, Zeming Li, Achuta Kadambi, Zhangyang Wang, Zhiwen Fan

數據污染可以跨越語言障礙。
Data Contamination Can Cross Language Barriers

Jun 19

ByFeng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang

DELLA-Merging：透過基於大小的抽樣減少模型合併中的干擾
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling

Jun 17

ByPala Tej Deep, Rishabh Bhardwaj, Soujanya Poria

信任與準確性的故事：在RAG系統中的基礎對比指導LLMs
A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems

Jun 21

ByFlorin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri

在細胞中學習分子表示
Learning Molecular Representation in a Cell

Jun 17

ByGang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter, Meng Jiang, Shantanu Singh

Ruby 隊伍：透過記憶體來提升自動化紅隊行動的品質多樣性搜索
Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming

Jun 17

ByVernon Toh Yan Han, Rishabh Bhardwaj, Soujanya Poria

Style-NeRF2NeRF：從風格對齊的多視角影像進行的3D風格轉移
Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images

Jun 19

ByHaruo Fujiwara, Yusuke Mukuta, Tatsuya Harada

NAVSIM：基於數據驅動的非反應式自主車輛模擬和基準測試
NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking

Jun 21

ByDaniel Dauner, Marcel Hallgarten, Tianyu Li, Xinshuo Weng, Zhiyu Huang, Zetong Yang, Hongyang Li, Igor Gilitschenski, Boris Ivanovic, Marco Pavone, Andreas Geiger, Kashyap Chitta

ICAL：通過將軌跡轉化為可操作的洞察，實現多模態智能體的持續學習。
ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights

Jun 20

ByGabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki

LLM 在不同文化間如何準確代表價值觀？基於霍夫斯泰德文化維度的 LLM 回應的實證分析。
How Well Do LLMs Represent Values Across Cultures? Empirical Analysis of LLM Responses Based on Hofstede Cultural Dimensions

Jun 21

ByJulia Kharchenko, Tanya Roosta, Aman Chadha, Chirag Shah