AI研究論文每日精選

每日精選AI研究論文及翻譯

PingPong：一個用戶仿真和多模型評估的角色扮演語言模型基準。
PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation

Sep 10

ByIlya Gusev

我們引入了一個新穎的基準來評估語言模型的角色扮演能力。我們的方法利用語言模型本身來模擬動態的多輪對話中的用戶，並評估所產生的對話。該框架包括三個主要組件：扮演特定角色的玩家模型、模擬用戶行為的審問者模型，以及評估對話質量的評判模型。我們進行了實驗，將自動化評估與人類標註進行比較，以驗證我們的方法，展示了在多個標準上的強相關性。這項工作為在互動場景中對模型能力進行堅固且動態的評估奠定了基礎。

MEDIC：朝向在臨床應用中評估LLM的全面框架
MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications

Sep 11

ByPraveen K Kanithi, Clément Christophe, Marco AF Pimentel, Tathagata Raha, Nada Saadi, Hamza Javed, Svetlana Maslenkova, Nasir Hayat, Ronnie Rajan, Shadab Khan

大型語言模型（LLMs）在醫療應用領域的快速發展促使人們呼籲進行全面評估，超越像USMLE這樣經常引用的基準，以更好地反映現實世界的表現。雖然現實世界的評估是評估效用價值的有價值指標，但往往落後於LLM演進的速度，可能導致部署後的研究結果過時。這種時間上的脫節需要進行全面的前期評估，以指導特定臨床應用的模型選擇。我們介紹了MEDIC，一個評估LLMs在臨床能力的五個關鍵維度上的框架：醫學推理、倫理和偏見、數據和語言理解、情境學習以及臨床安全。MEDIC具有一個新穎的交叉檢驗框架，量化LLM在覆蓋範圍和幻覺檢測等方面的表現，而無需參考輸出。我們應用MEDIC來評估LLMs在醫學問答、安全性、摘要、筆記生成以及其他任務上的表現。我們的結果顯示不同模型大小、基準模型與醫學微調模型之間的性能差異，並對需要特定模型優勢的應用的模型選擇產生影響，例如低幻覺或較低推論成本。MEDIC的多面評估揭示了這些性能折衷，彌合了理論能力與在醫療設置中的實際實施之間的差距，確保最有前途的模型被確定並適應於各種醫療應用。

代理人工作流記憶
Agent Workflow Memory

Sep 11

ByZora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig

儘管基於語言模型的代理人在解決像是網頁導覽等現實世界任務方面具有潛力，但目前的方法仍然在具有複雜動作軌跡的長程任務上遇到困難。相較之下，人類可以靈活地通過從過去經驗中學習可重複使用的任務工作流程，並利用它們來引導未來的行動來解決複雜任務。為了建立能夠類似受益於此過程的代理人，我們引入了代理人工作流記憶（AWM），這是一種誘導常用重複例程，即工作流程，並有選擇性地提供工作流程給代理人以引導後續生成的方法。AWM靈活應用於離線和在線情境，代理人可以從事先的訓練示例中誘導工作流程，或者即時從測試查詢中誘導。我們在兩個主要的網頁導覽基準測試上進行實驗--Mind2Web和WebArena--這兩者涵蓋了來自旅行、購物、社交媒體等200多個領域的1000多個任務。AWM在Mind2Web和WebArena上將基準結果相對成功率分別提高了24.6%和51.1%，同時減少了解決WebArena任務所需的步驟數。此外，在跨任務、網站和領域評估中，線上AWM在訓練-測試任務分佈差距擴大時，穩健地推廣，超越基準8.9至14.0絕對點。

Hi3D：利用視頻擴散模型追求高分辨率圖像到三維生成
Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models

Sep 11

ByHaibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Chong-Wah Ngo, Tao Mei

儘管在圖像轉3D生成方面取得了巨大進展，現有方法仍然難以產生具有高分辨率細節的多視角一致圖像紋理，尤其是在缺乏3D意識的2D擴散範式中。在這項工作中，我們提出了高分辨率圖像轉3D模型（Hi3D），這是一種基於新的視頻擴散範式，重新定義了將單張圖像轉換為多視角圖像，作為具有3D意識的連續圖像生成（即軌道視頻生成）。該方法深入探討了視頻擴散模型中的基礎時間一致性知識，這對於在3D生成中跨多個視角實現幾何一致性具有良好的泛化能力。從技術上講，Hi3D首先通過3D意識先驗（相機姿態條件）賦予預訓練的視頻擴散模型能力，生成具有低分辨率紋理細節的多視角圖像。學習了一個3D意識的視頻對視頻精化器，進一步提高了具有高分辨率紋理細節的多視角圖像。這些高分辨率多視角圖像通過3D高斯飛濺進行新視角擴增，最終通過3D重建獲得高保真度網格。對於新視角合成和單視角重建的大量實驗表明，我們的Hi3D成功生成了具有高度細節紋理的優質多視角一致性圖像。源代碼和數據可在https://github.com/yanghb22-fdu/Hi3D-Official找到。

閘門式槽注意力以實現高效的線性時間序列建模
Gated Slot Attention for Efficient Linear-Time Sequence Modeling

Sep 11

ByYu Zhang, Songlin Yang, Ruijie Zhu, Yue Zhang, Leyang Cui, Yiqiao Wang, Bolun Wang, Freda Shi, Bailin Wang, Wei Bi, Peng Zhou, Guohong Fu

線性注意力Transformer及其閘控變體因實現並行訓練和高效遞歸推斷而受到讚譽，但在需要高召回率任務中仍不及傳統Transformer，並需要大量資源從頭開始訓練。本文介紹了閘控槽注意力（GSA），通過將受閘控線性注意力（GLA）啟發的閘控機制融入具有有界記憶控制（ABC）的注意力，以增強注意力。基本上，GSA包括通過softmax連接的兩層GLA，利用上下文感知記憶讀取和適應性遺忘來提高記憶容量，同時保持緊湊的遞歸狀態大小。這種設計通過GLA的硬體高效訓練算法和減少狀態大小，極大地提高了訓練和推斷效率。此外，保留softmax操作在“將預訓練Transformer微調為RNN”（T2R）設置中特別有益，減少了從頭開始進行廣泛訓練的需求。大量實驗證實了GSA在需要上下文召回和T2R設置中的優越性能。

自我協調的思維鏈
Self-Harmonized Chain of Thought

Sep 6

ByZiqi Jin, Wei Lu

Chain-of-Thought (CoT)提示揭示了大型語言模型能夠通過中間步驟執行複雜推理的能力。CoT提示主要分為三種方法。第一種方法使用直接的提示，如“讓我們一步一步思考”，以在給出答案之前生成一個順序思考過程。第二種方法利用人工製作的逐步演示來引導模型的推理過程。第三種方法自動生成推理演示，使用“讓我們一步一步思考”。這種方法有時會導致推理錯誤，突顯了多樣化演示以減輕其誤導效應的必要性。然而，多樣化的演示對於有效的表示提出了挑戰。在這項工作中，我們提出了ECHO，一種自我協調的Chain-of-Thought提示方法。它將多樣的解決方案路徑整合為統一且有效的解決方案模式。ECHO在三個推理領域中展示了最佳的整體表現。

gsplat：一個用於高斯點塗探的開源程式庫
gsplat: An Open-Source Library for Gaussian Splatting

Sep 10

ByVickie Ye, Ruilong Li, Justin Kerr, Matias Turkulainen, Brent Yi, Zhuoyang Pan, Otto Seiskari, Jianbo Ye, Jeffrey Hu, Matthew Tancik, Angjoo Kanazawa

gsplat是一個開源庫，旨在用於訓練和開發高斯點降方法。它具有一個前端，具有與PyTorch庫兼容的Python綁定，以及具有高度優化的CUDA核心的後端。gsplat提供了許多功能，可增強高斯點降模型的優化，包括針對速度、內存和收斂時間的優化改進。實驗結果表明，gsplat實現了比原始實現更少達10%的訓練時間和4倍的內存。gsplat已應用於多個研究項目中，並在GitHub上積極維護。源代碼可在https://github.com/nerfstudio-project/gsplat 下載，採用Apache License 2.0。我們歡迎來自開源社區的貢獻。

大型語言模型能夠開啟新的科學研究思路嗎？
Can Large Language Models Unlock Novel Scientific Research Ideas?

Sep 10

BySandeep Kumar, Tirthankar Ghosal, Vinayak Goyal, Asif Ekbal

「一個想法不過是舊元素的新組合」（Young, J.W.）。大型語言模型（LLMs）的廣泛應用以及公開提供的ChatGPT標誌著人工智慧（AI）融入人們日常生活的重要轉折點。本研究探討LLMs在生成基於研究論文信息的新穎研究想法方面的能力。我們對五個領域（例如化學、計算機、經濟學、醫學和物理學）中的4個LLMs進行了全面檢查。我們發現Claude-2和GPT-4生成的未來研究想法與作者觀點更一致，而不如GPT-3.5和Gemini。我們還發現，Claude-2生成的未來研究想法比GPT-4、GPT-3.5和Gemini 1.0更多樣化。我們進一步對生成的未來研究想法的新穎性、相關性和可行性進行了人工評估。這項研究提供了有關LLMs在想法生成中不斷演變的角色的見解，突出了其能力和局限性。我們的工作有助於評估和利用語言模型生成未來研究想法的持續努力。我們將我們的數據集和代碼公開提供。

即時面部高斯翻譯器，用於可重新照明和互動的面部渲染。
Instant Facial Gaussians Translator for Relightable and Interactable Facial Rendering

Sep 11

ByDafei Qin, Hongyang Lin, Qixuan Zhang, Kaichun Qiao, Longwen Zhang, Zijun Zhao, Jun Saito, Jingyi Yu, Lan Xu, Taku Komura

我們提出了 GauFace，一種新穎的高斯點陣表示法，專為高效動畫和渲染基於物理的面部資產而設。通過利用強大的幾何先驗和受限優化，GauFace確保了整潔結構的高斯表示，實現了在Snapdragon 8 Gen 2移動平台上以30fps@1440p的實時面部互動的高保真度。接著，我們介紹了TransGS，一種擴散變換器，可將基於物理的面部資產即時轉換為相應的GauFace表示。具體來說，我們採用基於補丁的流程來有效處理大量的高斯。我們還引入了一種新穎的像素對齊取樣方案，搭配UV位置編碼，以確保由我們的TransGS生成的GauFace資產的吞吐量和渲染質量。一旦訓練完成，TransGS可以立即將帶有照明條件的面部資產轉換為GauFace表示，憑藉豐富的條件模式，它還能實現類似傳統CG流程的編輯和動畫功能。我們進行了廣泛的評估和用戶研究，與傳統的離線和在線渲染器以及最近的神經渲染方法進行了比較，這些顯示了我們的方法在面部資產渲染方面的優越性能。我們還展示了使用我們的TransGS方法和GauFace表示的面部資產在各種平台上（如PC、手機甚至VR頭戴設備）上的多樣沉浸式應用。

VMAS：通過在網絡音樂視頻中的語義對齊生成音樂
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos

Sep 11

ByYan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang

我們提出了一個從視頻輸入中學習生成背景音樂的框架。與現有依賴符號音樂標註的作品不同，這些標註在數量和多樣性上存在限制，我們的方法利用大規模網絡視頻和背景音樂。這使我們的模型能夠學習生成逼真且多樣化的音樂。為了實現這一目標，我們開發了一個具有新穎語義視頻音樂對齊方案的生成式視頻音樂Transformer。我們的模型使用聯合自回歸和對比學習目標，鼓勵生成與高層次視頻內容對齊的音樂。我們還引入了一個新穎的視頻節拍對齊方案，將生成的音樂節拍與視頻中的低層次動作匹配。最後，為了捕獲生成逼真背景音樂所需的視頻中的細粒度視覺線索，我們引入了一種新的時間視頻編碼器架構，使我們能夠有效處理由許多密集採樣幀組成的視頻。我們在我們新編輯的DISCO-MV數據集上訓練我們的框架，該數據集包含220萬個視頻音樂樣本，比用於視頻音樂生成的任何先前數據集都大得多。根據各種音樂生成評估指標，包括人類評估，我們的方法在DISCO-MV和MusicCaps數據集上優於現有方法。結果可在https://genjib.github.io/project_page/VMAs/index.html 查看。

ProteinBench：蛋白質基礎模型的全面評估
ProteinBench: A Holistic Evaluation of Protein Foundation Models

Sep 10

ByFei Ye, Zaixiang Zheng, Dongyu Xue, Yuning Shen, Lihao Wang, Yiming Ma, Yan Wang, Xinyou Wang, Xiangxin Zhou, Quanquan Gu

近年來，蛋白質基礎模型的發展急遽增加，顯著提升了蛋白質預測和生成任務的表現，從3D結構預測和蛋白設計到構象動力學。然而，由於缺乏統一的評估框架，這些模型的能力和限制仍然知之甚少。為了填補這一空白，我們引入了ProteinBench，這是一個全面的評估框架，旨在提高蛋白質基礎模型的透明度。我們的方法包括三個關鍵組件：(i)對任務進行分類，廣泛涵蓋蛋白質領域的主要挑戰，基於不同蛋白質模態之間的關係；(ii)多指標評估方法，評估四個關鍵維度上的表現：質量、新穎性、多樣性和穩健性；以及(iii)從各種用戶目標進行深入分析，提供對模型表現的全面視角。我們對蛋白質基礎模型進行了全面評估，揭示了幾個關鍵發現，闡明了它們目前的能力和限制。為了促進透明度並促進進一步研究，我們公開發布了評估數據集、代碼和公開排行榜，以進行進一步分析和提供一個通用的模塊化工具包。我們希望ProteinBench成為一個活躍的基準，為建立標準化、深入評估蛋白質基礎模型的框架，推動其發展和應用，同時促進領域內的合作。

SUPER：評估代理人在設置和執行任務的研究存儲庫上的表現
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories

Sep 11

ByBen Bogin, Kejuan Yang, Shashank Gupta, Kyle Richardson, Erin Bransom, Peter Clark, Ashish Sabharwal, Tushar Khot

鑑於大型語言模型（LLMs）在編寫程式碼方面取得了顯著進展，它們現在能否被用於自主復制研究存儲庫中的結果？這種能力將對研究社區帶來幫助，幫助研究人員驗證、理解和擴展先前的工作。為了朝著這個目標邁進，我們引入了SUPER，這是第一個旨在評估LLMs在設置和執行來自研究存儲庫任務能力的基準。SUPER旨在捕捉與機器學習（ML）和自然語言處理（NLP）研究存儲庫中工作的研究人員所面臨的現實挑戰。我們的基準包括三個不同的問題集：45個具有註釋專家解決方案的端對端問題，從專家集合中衍生出的152個專注於特定挑戰（例如配置訓練器）的子問題，以及自動生成的602個用於更大規模開發的問題。我們引入了各種評估措施來評估任務成功和進展，利用金標準解決方案（如果可用）或其他近似值。我們展示了最先進的方法在解決這些問題時遇到困難，最佳模型（GPT-4o）僅解決了端對端集合的16.3％，以及46.1％的情境。這說明了這個任務的挑戰，並表明SUPER可以作為社區製定和衡量進展的寶貴資源。

MVLLaVA：一個智能代理，用於統一且靈活的新視角合成
MVLLaVA: An Intelligent Agent for Unified and Flexible Novel View Synthesis

Sep 11

ByHanyu Jiang, Jian Xue, Xing Lan, Guohong Hu, Ke Lu

本文介紹了MVLLaVA，一個專為新視角合成任務而設計的智能代理。MVLLaVA將多個多視角擴散模型與一個大型多模型LLaVA相結合，使其能夠高效處理各種任務。MVLLaVA代表了一個多才多藝且統一的平台，能夠適應各種輸入類型，包括單張圖像、描述性標題，或特定的觀看方位變化，並受語言指令引導進行視角生成。我們精心製作了特定任務的指令模板，隨後用於對LLaVA進行微調。因此，MVLLaVA獲得了根據用戶指令生成新視角圖像的能力，展示了其在各種任務中的靈活性。實驗驗證了MVLLaVA的有效性，展示了其在應對各種新視角合成挑戰中的穩健表現和多功能性。

生成式階層材料搜索
Generative Hierarchical Materials Search

Sep 10

BySherry Yang, Simon Batzner, Ruiqi Gao, Muratahan Aykol, Alexander L. Gaunt, Brendan McMorrow, Danilo J. Rezende, Dale Schuurmans, Igor Mordatch, Ekin D. Cubuk

目前，規模訓練的生成模型能夠產生文本、視頻，以及最近甚至科學數據，如晶體結構。在將生成方法應用於材料科學，特別是晶體結構方面，領域專家以高層指導形式對自動系統輸出適合下游研究的候選晶體可能至關重要。在這項工作中，我們將端到端的語言到結構生成定義為多目標優化問題，並提出了用於可控生成晶體結構的生成式分層材料搜索（GenMS）。GenMS包括（1）一個語言模型，接受高層自然語言作為輸入並生成有關晶體的中間文本信息（例如，化學式），以及（2）一個擴散模型，接受中間信息作為輸入並生成低層連續值晶體結構。GenMS還使用圖神經網絡從生成的晶體結構中預測性質（例如，形成能）。在推斷過程中，GenMS利用這三個組件在可能結構空間上進行正向樹搜索。實驗表明，GenMS在滿足用戶需求和生成低能量結構方面均優於直接使用語言模型生成結構的其他替代方法。我們確認GenMS能夠僅通過自然語言輸入生成常見的晶體結構，如雙鈣鈦礦或尖晶石，因此可以為不久的將來更複雜的結構生成奠定基礎。

AI研究論文每日精選

每日精選AI研究論文及翻譯

PingPong：一個用戶仿真和多模型評估的角色扮演語言模型基準。
PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation

Sep 10

ByIlya Gusev