AI研究論文每日精選

每日精選AI研究論文及翻譯

預料之外的挑戰：金融領域的失效安全長文本問答
Expect the Unexpected: FailSafe Long Context QA for Finance

Feb 10

ByKiran Kamble, Melisa Russak, Dmytro Mozolevskyi, Muayad Ali, Mateusz Russak, Waseem AlShikh

133

我們提出了一個新的長文本金融基準測試 FailSafeQA，旨在測試 LLMs 在金融領域的查詢-回答系統中對人機界面互動的六種變化的韌性和上下文感知能力。我們專注於兩個案例研究：查詢失敗和上下文失敗。在查詢失敗情境中，我們對原始查詢進行干擾，以變化領域專業知識、完整性和語言準確性。在上下文失敗案例中，我們模擬了降級、無關和空白文件的上傳。我們採用 LLM-作為評判的方法，使用 Qwen2.5-72B-Instruct 和細粒度評分標準來定義和計算 24 個現成模型的韌性、上下文基礎和合規性得分。結果表明，雖然一些模型擅長緩解輸入干擾，但它們必須在強大回答和避免妄想的能力之間取得平衡。值得注意的是，被認為是最合規模型的 Palmyra-Fin-128k-Instruct，在維持強大基準性能的同時，在 17% 的測試案例中遇到了維持韌性預測的挑戰。另一方面，最具韌性的模型 OpenAI o3-mini 在 41% 的測試案例中捏造了信息。結果表明，即使高性能模型也有顯著的改進空間，突顯了 FailSafeQA 在開發為金融應用中的可靠性而優化的 LLMs 工具的作用。數據集可在以下鏈接獲取：https://huggingface.co/datasets/Writer/FailSafeQA

大型推理模型的競爭性程式設計
Competitive Programming with Large Reasoning Models

Feb 3

ByOpenAI, Ahmed El-Kishky, Alexander Wei, Andre Saraiva, Borys Minaev, Daniel Selsam, David Dohan, Francis Song, Hunter Lightman, Ignasi Clavera, Jakub Pachocki, Jerry Tworek, Lorenz Kuhn, Lukasz Kaiser, Mark Chen, Max Schwarzer, Mostafa Rohaninejad, Nat McAleese, o3 contributors, Oleg Mürk, Rhythm Garg, Rui Shu, Szymon Sidor, Vineet Kosaraju, Wenda Zhou

我們展示了將強化學習應用於大型語言模型（LLMs）顯著提升了在複雜編碼和推理任務上的表現。此外，我們比較了兩個通用推理模型 - OpenAI o1 和 o3 的早期檢查點 - 與一個特定領域系統 o1-ioi，該系統使用為競爭參加 2024 年國際信息學奧林匹克競賽（IOI）而設計的手工推理策略。我們在 IOI 2024 現場比賽中使用 o1-ioi，並使用手工製作的測試時間策略，排名第 49 個百分位數。在放寬的競賽限制條件下，o1-ioi 獲得了金牌。然而，在評估後續模型如 o3 時，我們發現 o3 在沒有手工製作的特定領域策略或放寬約束條件的情況下也能獲得金牌。我們的研究結果顯示，雖然像 o1-ioi 這樣的專用流程能夠帶來穩固的改進，但規模化的通用 o3 模型超越了這些結果，而無需依賴手工製作的推理啟發法。值得注意的是，o3 在 2024 年 IOI 獲得金牌，並且在 Codeforces 評分上與頂尖人類競爭者持平。總的來說，這些結果表明，擴展通用強化學習，而不是依賴特定領域技術，為推理領域（如競爭性編程）的最新人工智能提供了堅實的道路。

代碼I/O：通過代碼輸入輸出預測來縮短推理模式
CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction

Feb 11

ByJunlong Li, Daya Guo, Dejian Yang, Runxin Xu, Yu Wu, Junxian He

推理是大型語言模型的基本能力。儘管先前的研究主要集中在增強像數學或代碼生成這樣的狹窄技能上，但由於訓練數據稀疏且分散，改善在許多其他推理任務上的表現仍然具有挑戰性。為了應對這個問題，我們提出了CodeI/O，這是一種新穎的方法，通過將內含於具有情境基礎代碼中的多樣推理模式系統地壓縮，將原始代碼轉換為代碼輸入-輸出預測格式。通過訓練模型以自然語言完全預測給定代碼和測試用例的輸入/輸出，作為Chain-of-Thought（CoT）理性的一部分，我們將其暴露於通用推理基元，如邏輯流規劃、狀態空間搜索、決策樹遍歷和模塊分解，同時將結構化推理與代碼特定語法解耦，並保持程序化嚴謹性。實驗結果表明，CodeI/O在符號、科學、邏輯、數學和數值、常識推理任務中均取得了一致的改善。通過與現有的地面真實輸出匹配或使用預測的輸入重新執行代碼，我們可以驗證每個預測，並通過多輪修訂進一步增強CoTs，從而實現CodeI/O++並實現更高的性能。我們的數據和模型可在https://github.com/hkust-nlp/CodeIO 上找到。

檢索增強型大型語言模型用於金融時間序列預測
Retrieval-augmented Large Language Models for Financial Time Series Forecasting

Feb 9

ByMengxi Xiao, Zihao Jiang, Lingfei Qian, Zhengyu Chen, Yueru He, Yijing Xu, Yuecheng Jiang, Dong Li, Ruey-Ling Weng, Min Peng, Jimin Huang, Sophia Ananiadou, Qianqian Xie

股票走勢預測是金融時間序列預測中的基本任務，需要從大量時間序列數據中識別和檢索關鍵影響因素。然而，現有的基於文本訓練或數值相似度的檢索方法在處理複雜的金融分析時存在不足。為了應對這一挑戰，我們提出了第一個用於金融時間序列預測的檢索增強生成（RAG）框架，具有三個關鍵創新：以精細調校的10億參數大型語言模型（StockLLM）作為基礎、利用LLM反饋的新型候選選擇方法，以及最大化查詢與歷史重要序列之間相似性的訓練目標。這使我們的檢索器FinSeer能夠發現有意義的模式，同時最小化複雜金融數據中的噪音。我們還構建了集成金融指標和歷史股價的新數據集，用於訓練FinSeer並確保堅固的評估。實驗結果表明，我們的RAG框架優於單獨的StockLLM和隨機檢索，突出其有效性，而FinSeer超越現有的檢索方法，在BIGDATA22上實現了8％更高的準確性並檢索到更具影響力的序列。這項工作強調了金融預測中定制檢索模型的重要性，並為未來研究提供了一個新的框架。

大型語言模型（LLMs）可以輕鬆從示範中學會推理，結構比內容更重要！
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!

Feb 11

ByDacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica

大型推理模型（LRMs）通過遵循包含反思、回溯和自我驗證的長思維鏈（Long CoT）來應對複雜的推理問題。然而，引發長思維鏈所需的訓練技術和數據要求仍然知之甚少。在這項工作中，我們發現大型語言模型（LLM）可以通過數據高效的監督微調（SFT）和參數高效的低秩適應（LoRA）有效地學習長思維鏈推理。僅通過17k個長思維鏈訓練樣本，Qwen2.5-32B-Instruct模型在廣泛的數學和編碼基準測試中實現了顯著改進，包括AIME 2024的56.7%（+40.0%）和LiveCodeBench的57.0%（+8.1%），與專有的o1-preview模型的44.6%和59.1%的得分相競爭。更重要的是，我們發現長思維鏈的結構對學習過程至關重要，而個別推理步驟的內容影響較小。影響內容的擾動，如在不正確的樣本上進行訓練或刪除推理關鍵詞，對性能幾乎沒有影響。相反，破壞長思維鏈中的邏輯一致性的結構修改，如混亂或刪除推理步驟，會顯著降低準確性。例如，在具有不正確答案的長思維鏈樣本上訓練的模型，其準確性僅比使用完全正確樣本訓練時低3.2%。這些見解加深了我們對如何引發LLMs中的推理能力的理解，並突出了有效訓練下一代推理模型的關鍵考慮因素。這是我們之前發布的Sky-T1-32B-Preview模型的學術論文。代碼可在https://github.com/NovaSky-AI/SkyThought找到。

魔法1對1：在一分鐘內生成一分鐘的視頻片段
Magic 1-For-1: Generating One Minute Video Clips within One Minute

Feb 11

ByHongwei Yi, Shitong Shao, Tian Ye, Jiantong Zhao, Qingyu Yin, Michael Lingelbach, Li Yuan, Yonghong Tian, Enze Xie, Daquan Zhou

在這份技術報告中，我們介紹了Magic 1-For-1（Magic141），這是一個具有優化記憶體消耗和推論延遲的高效視頻生成模型。其關鍵思想很簡單：將文本到視頻生成任務分解為兩個獨立且更容易的擴散步驟蒸餾任務，即文本到圖像生成和圖像到視頻生成。我們證實，使用相同的優化算法，圖像到視頻任務確實比文本到視頻任務更容易收斂。我們還探索了一系列優化技巧，以降低訓練圖像到視頻（I2V）模型的計算成本，包括：1）通過使用多模態先驗條件注入來加快模型收斂速度；2）通過應用對抗式擴散步驟蒸餾來加快推論延遲；3）通過參數稀疏化來優化推論記憶體成本。憑藉這些技術，我們能夠在3秒內生成5秒的視頻片段。通過應用測試時間滑動窗口，我們能夠在一分鐘內生成一分鐘長的視頻，視覺質量和運動動態顯著提升，平均花費不到1秒的時間來生成1秒的視頻片段。我們進行了一系列初步探索，以找出在擴散步驟蒸餾期間計算成本和視頻質量之間的最佳折衷方案，並希望這可以成為開源探索的良好基礎模型。代碼和模型權重可在https://github.com/DA-Group-PKU/Magic-1-For-1找到。

將預訓練擴展至一千億條視覺語言模型的規模
Scaling Pre-training to One Hundred Billion Data for Vision Language Models

Feb 11

ByXiao Wang, Ibrahim Alabdulmohsin, Daniel Salz, Zhe Li, Keran Rong, Xiaohua Zhai

我們對視覺-語言模型進行了前所未有規模的實證研究，使用了一千億個範例。我們發現，在許多常見的西方中心分類和檢索基準上，例如 COCO 圖片標註，模型性能在這個規模上趨於飽和。然而，具有文化多樣性的任務從這一千億規模的網絡數據中獲得了更實質的收益，這要歸功於其對長尾概念的覆蓋。此外，我們分析了模型的多語能力，展示了在資源稀缺語言中的收益。此外，我們觀察到，通過質量篩選（例如使用 CLIP）來減少預訓練數據集的大小，通常用於增強性能，可能會無意中減少即使在大規模數據集中也代表的文化多樣性。我們的結果凸顯了，儘管傳統基準在將嘈雜、原始網絡數據擴展到一千億個範例時可能不會從中受益顯著，但這種數據規模對於構建真正包容的多模態系統至關重要。

寶石：多面向比例定律的模型套件
Gemstones: A Model Suite for Multi-Faceted Scaling Laws

Feb 7

BySean McLeish, John Kirchenbauer, David Yu Miller, Siddharth Singh, Abhinav Bhatele, Micah Goldblum, Ashwinee Panda, Tom Goldstein

通常使用一系列具有狹窄凍結超參數選擇範圍的模型族來擬合比例律。在這項研究中，我們使用廣泛的架構和超參數選擇來研究比例律，並強調它們對結果處方的影響。作為我們研究的主要成果，我們發布了 Gemstones：迄今為止最全面的開源比例律數據集，包括來自具有高達 20 億參數的變壓器的 4000 多個檢查點；這些模型已使用不同的學習率、冷卻計劃和架構形狀進行訓練。我們的檢查點使得能夠進行更複雜的比例研究，例如一個預測語言建模性能作為模型寬度和深度函數的法則。通過檢驗我們模型套件的各個方面，我們發現比例律的處方可能對實驗設計過程和擬合期間使用的具體模型檢查點非常敏感。程式碼：https://github.com/mcleish7/gemstone-scaling-laws

通過強化學習教導語言模型進行評論
Teaching Language Models to Critique via Reinforcement Learning

Feb 5

ByZhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong

教導大型語言模型（LLMs）批評並改進其輸出對於建立能夠逐步改進的系統至關重要，然而，這在根本上受限於提供準確的評判和可行的建議能力。在這項研究中，我們研究了用於程式碼生成的LLM評論者，並提出了CTRL，一個通過強化學習進行評論者訓練的框架，該框架訓練一個評論者模型來生成反饋，以最大化對於固定生成器模型的校正性能，而無需人類監督。我們的結果表明，使用CTRL訓練的評論者顯著增強了通過率，並減輕了基礎和更強大生成器模型中的錯誤累積。此外，我們展示這些評論者模型作為準確的生成式獎勵模型，並通過迭代的評論-修訂實現了測試時的擴展，從而在具有挑戰性的程式碼生成基準測試中實現高達106.1％的相對改進。

Enhance-A-Video：免費提升生成影片品質
Enhance-A-Video: Better Generated Video for Free

Feb 11

ByYang Luo, Xuanlei Zhao, Mengzhao Chen, Kaipeng Zhang, Wenqi Shao, Kai Wang, Zhangyang Wang, Yang You

基於 DiT 的影片生成已取得顯著成果，但對於增強現有模型的研究仍相對未被探索。在這項研究中，我們提出了一種無需訓練的方法，用於增強 DiT 基礎生成的影片的連貫性和質量，稱為 Enhance-A-Video。其核心思想是基於非對角時間注意力分佈來增強跨幀之間的相關性。由於其簡單的設計，我們的方法可以輕鬆應用於大多數基於 DiT 的影片生成框架，無需重新訓練或微調。在各種基於 DiT 的影片生成模型中，我們的方法展示了在時間一致性和視覺質量方面的顯著改進。我們希望這項研究能激發未來在影片生成增強方面的探索。

Hephaestus：透過持續預訓練來提升大型語言模型的基本代理能力
Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training

Feb 10

ByYuchen Zhuang, Jingfeng Yang, Haoming Jiang, Xin Liu, Kewei Cheng, Sanket Lokegaonkar, Yifan Gao, Qing Ping, Tianyi Liu, Binxuan Huang, Zheng Li, Zhengyang Wang, Pei Chen, Ruijie Wang, Rongzhi Zhang, Nasser Zalmout, Priyanka Nigam, Bing Yin, Chao Zhang

由於缺乏以代理為導向的預訓練數據，基於LLM的自主代理通常依賴於複雜的提示或廣泛的微調，這往往無法引入新的能力，同時保留強大的泛化能力。我們介紹了Hephaestus-Forge，這是第一個旨在增強LLM代理在API函數調用、內在推理和規劃以及適應環境反饋方面基本能力的大規模預訓練語料庫。Hephaestus-Forge包括103B代理特定數據，涵蓋76,537個API，包括工具文檔，以介紹API函數知識，以及函數調用軌跡，以加強內在推理。為了探索有效的訓練協議，我們研究了標度律，以確定在數據混合比中的最佳配方。通過在Hephaestus-Forge上持續進行預訓練，Hephaestus在三個代理基準測試中表現優於小型到中型規模的開源LLM，並與商業LLM相媲美，展示了我們的預訓練語料庫在增強基本代理能力和LLM對新任務或環境的泛化能力方面的有效性。

NatureLM：解讀自然語言以促進科學發現
NatureLM: Deciphering the Language of Nature for Scientific Discovery

Feb 11

ByYingce Xia, Peiran Jin, Shufang Xie, Liang He, Chuan Cao, Renqian Luo, Guoqing Liu, Yue Wang, Zequn Liu, Yuan-Jyue Chen, Zekun Guo, Yeqi Bai, Pan Deng, Yaosen Min, Ziheng Lu, Hongxia Hao, Han Yang, Jielan Li, Chang Liu, Jia Zhang, Jianwei Zhu, Kehan Wu, Wei Zhang, Kaiyuan Gao, Qizhi Pei, Qian Wang, Xixian Liu, Yanting Li, Houtian Zhu, Yeqing Lu, Mingqian Ma, Zun Wang, Tian Xie, Krzysztof Maziarz, Marwin Segler, Zhao Yang, Zilong Chen, Yu Shi, Shuxin Zheng, Lijun Wu, Chen Hu, Peggy Dai, Tie-Yan Liu, Haiguang Liu, Tao Qin

基礎模型已經徹底改變了自然語言處理和人工智能，顯著提升了機器理解和生成人類語言的能力。受到這些基礎模型成功的啟發，研究人員已經為個別科學領域開發了基礎模型，包括小分子、材料、蛋白質、DNA 和 RNA。然而，這些模型通常是孤立訓練的，缺乏跨不同科學領域整合的能力。我們認識到這些領域內的實體都可以被表示為序列，這些序列共同構成了“自然語言”，因此我們引入了自然語言模型（簡稱 NatureLM），這是一個基於序列的科學基礎模型，旨在用於科學發現。NatureLM 預先使用來自多個科學領域的數據進行了訓練，提供了一個統一、多功能的模型，可以實現各種應用，包括：（i）使用文本指令生成和優化小分子、蛋白質、RNA 和材料；（ii）跨領域生成/設計，例如蛋白質到分子和蛋白質到 RNA 的生成；以及（iii）在 SMILES 到 IUPAC 翻譯和 USPTO-50k 上的逆合成等任務中實現最先進的性能。NatureLM 提供了一種有前景的通用方法，適用於各種科學任務，包括藥物發現（命中生成/優化、ADMET 優化、合成）、新材料設計，以及治療性蛋白質或核苷酸的開發。我們開發了不同規模的 NatureLM 模型（10億、80億和467億參數），並觀察到隨著模型大小增加，性能明顯提高。

VidCRAFT3：用於圖像轉視頻的相機、物體和燈光控制
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation

Feb 11

BySixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu

最近的圖像到視頻生成方法已經展示出成功，使得可以控制一到兩個視覺元素，例如攝像機軌跡或物體運動。然而，由於數據和網絡效能的限制，這些方法無法提供對多個視覺元素的控制。在本文中，我們介紹了 VidCRAFT3，這是一個新穎的框架，用於精確的圖像到視頻生成，同時實現對攝像機運動、物體運動和照明方向的控制。為了更好地解耦對每個視覺元素的控制，我們提出了空間三重注意力轉換器，它以對稱的方式整合了照明方向、文本和圖像。由於大多數現實世界的視頻數據集缺乏照明標註，我們構建了一個高質量的合成視頻數據集，名為 VideoLightingDirection（VLD）數據集。該數據集包括照明方向標註和外觀多樣的物體，使得 VidCRAFT3 能夠有效處理強光線穿透和反射效應。此外，我們提出了一個三階段訓練策略，消除了需要同時標註多個視覺元素（攝像機運動、物體運動和照明方向）的訓練數據的需求。對基準數據集進行的大量實驗表明，VidCRAFT3 在生成高質量視頻內容方面的有效性，超越了現有的最先進方法，具有更高的控制細節和視覺一致性。所有代碼和數據將公開提供。項目頁面：https://sixiaozheng.github.io/VidCRAFT3/。

忘記你對LLM評估的認知 - LLM就像變色龍。
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon

Feb 11

ByNurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen

大型語言模型（LLMs）通常在公開基準測試中表現出色，但這些高分數可能掩蓋了對特定數據集表面提示的過度依賴，而非真正的語言理解。我們引入了變色龍基準過度擬合檢測器（C-BOD），這是一個元評估框架，通過參數變換系統地扭曲基準提示並檢測LLMs的過度擬合。通過重新表達輸入並保留其語義內容和標籤，C-BOD揭示了模型性能是否受到記憶模式的驅動。在使用26個領先的LLMs對MMLU基準進行評估時，我們的方法顯示在輕微干擾下平均性能下降了2.15％，其中26個模型中有20個呈現統計上顯著的差異。值得注意的是，基準準確度較高的模型在干擾下表現出較大的性能差異，而較大的LLMs則更容易對重新表達產生敏感反應，這兩種情況都可能過度依賴固定提示模式。相比之下，Llama系列和基準準確度較低的模型顯示出無關緊要的性能下降，表明對表面提示的依賴減少。此外，C-BOD的數據集和模型不可知設計使其易於集成到訓練流程中，以促進更強大的語言理解。我們的研究結果挑戰社群超越排行榜分數，並優先考慮LLMs評估中的韌性和泛化能力。

Éclair -- 通過整合閱讀順序提取文件內容和版面設計
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents

Feb 6

ByIlia Karmanov, Amala Sanjay Deshmukh, Lukas Voegtle, Philipp Fischer, Kateryna Chumachenko, Timo Roman, Jarno Seppänen, Jupinder Parmar, Joseph Jennings, Andrew Tao, Karan Sapra

光學字符識別（OCR）技術被廣泛應用於從文件圖像中提取文本，促進高效的數字化和數據檢索。然而，僅僅提取文本在處理複雜文件時是不夠的。要充分理解這些文件，需要理解它們的結構，包括格式、公式、表格，以及跨多個頁面的多個區塊和列的閱讀順序，還需要語義信息來檢測諸如註腳和圖片標題等元素。這種全面的理解對於後續任務至關重要，例如檢索、文件問答以及為訓練大型語言模型（LLMs）和視覺語言模型（VLMs）進行數據整理。為了應對這一挑戰，我們介紹了「Éclair」，這是一個通用的文本提取工具，專門設計用於處理各種類型的文件。給定一個圖像，「Éclair」能夠按閱讀順序提取格式化文本，並提供邊界框及其對應的語義類別。為了全面評估這些新功能，我們引入了我們多樣化的人工標註基準，用於文件級OCR和語義分類。在這個基準上，「Éclair」實現了最先進的準確性，優於其他方法在關鍵指標上的表現。此外，我們還在已建立的基準上評估了「Éclair」，展示了它在多個評估標準上的多樣性和強大性。

Hypencoder：用於資訊檢索的超網路
Hypencoder: Hypernetworks for Information Retrieval

Feb 7

ByJulian Killingback, Hansi Zeng, Hamed Zamani

絕大多數的檢索模型依賴向量內積來產生查詢和文件之間的相關性分數。這自然地限制了可用的相關性分數的表達能力。我們提出一種新的範式，不是產生一個向量來代表查詢，而是產生一個小型神經網絡，它作為一個學習到的相關性函數。這個小型神經網絡接收文檔的表示，本文中我們使用一個單一向量，並產生一個標量相關性分數。為了產生這個小型神經網絡，我們使用一個超網絡，一個產生其他網絡權重的網絡，作為我們的查詢編碼器或我們稱之為Hypencoder。在領域內搜索任務上的實驗表明，Hypencoder能夠顯著優於強大的密集檢索模型，並且比重新排序模型和規模大一個數量級的模型具有更高的指標。Hypencoder還表現出對領域外搜索任務的良好泛化能力。為了評估Hypencoder的能力程度，我們在一組困難的檢索任務上進行評估，包括tip-of-the-tongue檢索和instruction-following檢索任務，發現與標準檢索任務相比，性能差距顯著擴大。此外，為了展示我們方法的實用性，我們實現了一個近似搜索算法，並展示我們的模型能夠在不到60毫秒的時間內搜索880萬個文檔。

遮罩增強的自回歸預測：減少關注以學習更多
Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More

Feb 11

ByXialie Zhuang, Zhikai Jia, Jianjin Li, Zhenyu Zhang, Li Shen, Zheng Cao, Shiwei Liu

大型語言模型（LLMs）被發現在準確檢索關鍵信息方面存在問題。為了解決這個問題，我們提出了Mask-Enhanced Autoregressive Prediction（MEAP），這是一種簡單而有效的訓練範式，無縫地將Masked Language Modeling（MLM）整合到Next-Token Prediction（NTP）中，以增強後者的上下文檢索能力。具體而言，MEAP首先隨機遮罩少量輸入標記，然後直接使用僅解碼器的Transformer執行標準的下一標記預測自回歸。MEAP消除了MLM需要雙向注意力或編碼器-解碼器架構的需求，在預訓練或推理過程中不會增加額外的計算負擔。大量實驗表明，MEAP在關鍵信息檢索和長篇上下文推理任務上顯著優於NTP，同時在常識推理任務上表現相當或更好。MEAP的優勢還延伸到監督微調，其中在中間遺失情況下表現出顯著優勢，比NTP高出11.77個百分點。我們的分析表明，MEAP的有效性來自於它通過集中在一組較少的非遮罩標記上來促進更可區分的注意力分數。這種機制提高了模型對任務相關信號的關注，同時減輕了周邊上下文的影響。這些發現將MEAP定位為大型語言模型的一種有前途的訓練範式。

CoS：連鎖式拍攝提示用於長視頻理解
CoS: Chain-of-Shot Prompting for Long Video Understanding

Feb 10

ByJian Hu, Zixu Cheng, Chenyang Si, Wei Li, Shaogang Gong

多模式大型語言模型（MLLMs）在處理長視頻時面臨困難，因為需要大量的視覺標記。這些標記大大超出了MLLMs的上下文長度，導致填充了冗餘的與任務無關的鏡頭。如何選擇鏡頭是一個尚未解決的關鍵問題：稀疏取樣可能會錯過關鍵細節，而全面取樣會使模型被無關的內容淹沒，從而導致對視頻的誤解。為了解決這個問題，我們提出了鏈式鏡頭提示（CoS）。其關鍵思想是將鏡頭選擇框架化為測試時的視覺提示優化，通過優化鏡頭-任務對齊來選擇適應視頻理解語義任務的鏡頭。CoS包含兩個關鍵部分：（1）一個執行虛擬時間定位的二元視頻摘要機制，發現一種二元編碼以識別與任務相關的鏡頭，以及（2）一個視頻共推理模塊，該模塊利用二元編碼將與任務相關的正面鏡頭與無關的負面鏡頭進行配對（學習對齊）。它將優化的鏡頭選擇嵌入到原始視頻中，從而專注於相關上下文以優化對長視頻的理解。在三個基準和五個數據集上的實驗證明了CoS的有效性和適應性。代碼位於https://lwpyh.github.io/CoS。

Pippo：從單張圖像生成高解析度多視角人體
Pippo: High-Resolution Multi-View Humans from a Single Image

Feb 11

ByYash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov

我們提出了Pippo，一種生成模型，能夠從單張隨意拍攝的照片中產生一個人的1K分辨率密集環繞視頻。Pippo是一個多視圖擴散變壓器，不需要任何額外的輸入，例如已配適的參數模型或輸入圖像的相機參數。我們在沒有標題的30億人類圖像上對Pippo進行預訓練，並在工作室拍攝的人類上進行多視圖中期訓練和後期訓練。在中期訓練期間，為了快速吸收工作室數據集，我們對低分辨率下的幾個（最多48個）視圖進行降噪，並使用淺層MLP粗略編碼目標相機。在後期訓練期間，我們對更少數量的高分辨率視圖進行降噪，並使用像素對齊的控制（例如，空間錨點和普拉克射線）來實現三維一致的生成。在推理階段，我們提出了一種注意偏置技術，使Pippo能夠同時生成超過訓練期間所見視圖的5倍以上。最後，我們還引入了一種改進的指標來評估多視圖生成的三維一致性，並展示Pippo在從單張圖像生成多視圖人物方面優於現有作品。

CAD編輯器：具有自動訓練數據綜合的定位-填充框架，適用於基於文本的CAD編輯
CAD-Editor: A Locate-then-Infill Framework with Automated Training Data Synthesis for Text-Based CAD Editing

Feb 6

ByYu Yuan, Shizhao Sun, Qi Liu, Jiang Bian

計算機輔助設計（CAD）在各個行業中不可或缺。基於文本指令自動修改CAD模型的文本CAD編輯具有巨大潛力，但尚未得到充分探索。現有方法主要集中在設計變異生成或基於文本的CAD生成，要麼缺乏對基於文本的控制的支持，要麼忽略現有CAD模型作為約束條件。我們介紹了CAD-Editor，這是首個面向文本的CAD編輯框架。為應對訓練所需的具有準確對應的三元數據的挑戰，我們提出了一個自動數據合成流程。該流程利用設計變異模型生成原始CAD模型和編輯後的CAD模型對，並利用大型視覺語言模型（LVLMs）將它們的差異總結為編輯指令。為應對基於文本的CAD編輯的複合性質，我們提出了一個定位-填充框架，將任務分解為兩個專注的子任務：定位需要修改的區域，並填充這些區域以適當的編輯。大型語言模型（LLMs）作為這兩個子任務的支柱，利用其在自然語言理解和CAD知識方面的能力。實驗表明，CAD-Editor在量化和質化方面均取得了優異的性能。

哥德爾證明者：開源自動定理證明的前沿模型
Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving

Feb 11

ByYong Lin, Shange Tang, Bohan Lyu, Jiayun Wu, Hongzhou Lin, Kaiyu Yang, Jia Li, Mengzhou Xia, Danqi Chen, Sanjeev Arora, Chi Jin

我們介紹 Goedel-Prover，一個開源的大型語言模型（LLM），在數學問題的自動形式證明生成方面實現了最先進的性能。這個領域的主要挑戰在於正式化數學陳述和證明的稀缺性，我們通過以下方式應對。我們訓練陳述正式化器將 Numina 的自然語言數學問題轉換為正式語言（Lean 4），創建了一個包含 1.64 百萬個正式陳述的數據集。LLM 用於檢查正式陳述是否準確地保留了原始自然語言問題的內容。然後，我們通過訓練一系列證明器來迭代地構建一個大型的正式證明數據集。每個證明器成功地證明了許多之前的證明器無法證明的陳述，這些新的證明被添加到下一個證明器的訓練集中。最終的證明器在整個證明生成方面優於所有現有的開源模型。在 miniF2F 基準測試中，它實現了 57.6% 的成功率（Pass@32），超過之前最好的開源模型 7.6%。在 PutnamBench 上，Goedel-Prover 成功解決了 7 個問題（Pass@512），在排行榜上名列第一。此外，它為 Lean Workbook 問題生成了 29.7K 個正式證明，幾乎是之前作品產生的 15.7K 的兩倍。

稀疏自編碼器用於對視覺模型進行科學嚴謹的解釋
Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models

Feb 10

BySamuel Stevens, Wei-Lun Chao, Tanya Berger-Wolf, Yu Su

為了真正理解視覺模型，我們不僅需要解釋其學習到的特徵，還需要通過控制實驗來驗證這些解釋。目前的方法要麼提供可解釋的特徵但無法測試其因果影響，要麼允許模型編輯但沒有可解釋的控制。我們提出了一個統一的框架，使用稀疏自編碼器（SAEs）來彌合這一差距，使我們能夠發現人類可解釋的視覺特徵，並精確地操縱它們以測試有關模型行為的假設。通過將我們的方法應用於最先進的視覺模型，我們揭示了具有不同預訓練目標的模型所學習的語義抽象中的關鍵差異。然後，我們通過在多個視覺任務中進行控制干預，展示了我們框架的實際用途。我們展示了SAEs能夠可靠地識別和操縱可解釋的視覺特徵，而無需重新訓練模型，為理解和控制視覺模型行為提供了一個強大的工具。我們在我們的項目網站上提供了代碼、演示和模型：https://osu-nlp-group.github.io/SAE-V。

在語言模型API中審核提示快取
Auditing Prompt Caching in Language Model APIs

Feb 11

ByChenchen Gu, Xiang Lisa Li, Rohith Kuditipudi, Percy Liang, Tatsunori Hashimoto

大型語言模型（LLMs）中的提示快取導致依賴資料的時間變異：已快取的提示比未快取的提示處理速度更快。這些時間差異引入了側信道時間攻擊的風險。例如，如果快取是跨使用者共享的，攻擊者可以通過快速 API 回應時間識別已快取的提示，從而獲取其他使用者提示的信息。由於提示快取可能導致隱私洩漏，API 提供者在快取政策方面的透明度至關重要。為此，我們開發並進行統計審計，以檢測現實世界中的LLM API提供者中的提示快取。我們檢測到七個API提供者中存在跨使用者的全局快取共享，包括OpenAI，導致可能有關使用者提示的隱私洩漏。由於提示快取導致的時間變異還可能導致有關模型架構的信息洩漏。具體而言，我們發現證據表明OpenAI的嵌入模型是僅解碼器的Transformer，這在先前並不為人所知。

參數空間中的技能擴展與組合
Skill Expansion and Composition in Parameter Space

Feb 9

ByTenglong Liu, Jianxiong Li, Yinan Zheng, Haoyi Niu, Yixing Lan, Xin Xu, Xianyuan Zhan

人類擅長重複利用先前知識來應對新挑戰，並在解決問題時發展技能。這種範式在自主代理的發展中變得越來越受歡迎，因為它開發了能夠像人類一樣對新挑戰做出自我進化反應的系統。然而，先前的方法在擴展新技能時存在訓練效率有限的問題，並未充分利用先前知識來促進新任務的學習。在本文中，我們提出了Parametric Skill Expansion and Composition（PSEC），這是一個新的框架，旨在通過維護可管理的技能庫來逐步發展代理的能力，並有效應對新挑戰。這個庫可以逐步將技能基元作為即插即用的低秩適應（LoRA）模塊整合到參數高效微調中，促進高效靈活的技能擴展。此結構還使直接在參數空間中進行技能組合成為可能，通過合併編碼不同技能的LoRA模塊，利用技能之間的共享信息來有效地編程新技能。基於此，我們提出了一個上下文感知模塊，動態激活不同技能以協同處理新任務。通過賦予多樣化應用，包括多目標組合、動態轉移和持續策略轉移，D4RL、DSRL基準和DeepMind Control Suite上的結果表明，PSEC展現出卓越的能力，能夠有效利用先前知識來應對新挑戰，並擴展其技能庫以發展能力。項目網站：https://ltlhuuu.github.io/PSEC/。

FocalCodec：透過焦點調變網路進行低比特率語音編碼
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks

Feb 6

ByLuca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli

大型語言模型通過在龐大數據集上進行自監督預訓練，徹底改變了自然語言處理。受到這一成功的啟發，研究人員探索將這些方法應用於語音，通過使用神經音頻編解碼器將連續音頻離散化為標記。然而，現有方法存在一些限制，包括高比特率、在捕捉兩者時要麼丟失語義或聲學信息、以及依賴多編碼書設計，這增加了下游任務的架構復雜性。為應對這些挑戰，我們引入了 FocalCodec，這是一種基於焦點調製的高效低比特率編解碼器，利用單一二進制編碼書將語音壓縮在 0.16 到 0.65 kbps 之間。FocalCodec 在語音重合成和語音轉換方面表現出色，比當前最先進技術實現更低的比特率，同時有效處理多語言語音和嘈雜環境。對下游任務的評估顯示，FocalCodec 成功保留了足夠的語義和聲學信息，同時也非常適合生成建模。演示樣本、代碼和檢查點可在 https://lucadellalib.github.io/focalcodec-web/ 上找到。

在大型語言和視覺-語言模型中學習適應性風險管理的共形棄權政策
Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models

Feb 8

BySina Tayebati, Divake Kumar, Nastaran Darabi, Dinithi Jayasuriya, Ranganath Krishnan, Amit Ranjan Trivedi

大型語言和視覺-語言模型（LLMs/VLMs）越來越多地應用於安全關鍵應用中，然而它們不透明的決策過程使風險評估和可靠性變得複雜。不確定性量化（UQ）有助於評估預測的信心並在不確定性高時實現棄權。符合性預測（CP），作為一種主要的UQ方法，提供統計保證，但依賴靜態閾值，無法適應任務複雜性和不斷變化的數據分佈，導致準確性、覆蓋範圍和信息量之間的次優折衷。為了解決這個問題，我們提出了可學習的符合性棄權，將強化學習（RL）與CP相結合，以動態優化棄權閾值。通過將CP閾值視為適應性行動，我們的方法平衡多個目標，最小化預測集大小同時保持可靠的覆蓋範圍。在各種LLM/VLM基準測試中進行了廣泛評估，結果顯示我們的方法優於最不明確分類器（LAC）和自適應預測集（APS），將準確性提高了最多3.2％，將幻覺檢測的AUROC提高了22.19％，將基於不確定性的選擇性生成（AUARC）提高了21.17％，並將校準誤差降低了70％-85％。這些改進在多個模型和數據集中持續存在，同時始終滿足90％的覆蓋目標，確立了我們的方法作為在安全關鍵應用中進行可靠決策的更有效靈活的解決方案。代碼可在以下鏈接找到：{https://github.com/sinatayebati/vlm-uncertainty}。

AI研究論文每日精選

每日精選AI研究論文及翻譯

預料之外的挑戰：金融領域的失效安全長文本問答
Expect the Unexpected: FailSafe Long Context QA for Finance

Feb 10

ByKiran Kamble, Melisa Russak, Dmytro Mozolevskyi, Muayad Ali, Mateusz Russak, Waseem AlShikh

133

大型推理模型的競爭性程式設計
Competitive Programming with Large Reasoning Models

Feb 3

代碼I/O：通過代碼輸入輸出預測來縮短推理模式
CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction

Feb 11

ByJunlong Li, Daya Guo, Dejian Yang, Runxin Xu, Yu Wu, Junxian He

檢索增強型大型語言模型用於金融時間序列預測
Retrieval-augmented Large Language Models for Financial Time Series Forecasting

Feb 9

ByMengxi Xiao, Zihao Jiang, Lingfei Qian, Zhengyu Chen, Yueru He, Yijing Xu, Yuecheng Jiang, Dong Li, Ruey-Ling Weng, Min Peng, Jimin Huang, Sophia Ananiadou, Qianqian Xie

大型語言模型（LLMs）可以輕鬆從示範中學會推理，結構比內容更重要！
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!

Feb 11

ByDacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica

魔法1對1：在一分鐘內生成一分鐘的視頻片段
Magic 1-For-1: Generating One Minute Video Clips within One Minute

Feb 11

ByHongwei Yi, Shitong Shao, Tian Ye, Jiantong Zhao, Qingyu Yin, Michael Lingelbach, Li Yuan, Yonghong Tian, Enze Xie, Daquan Zhou

將預訓練擴展至一千億條視覺語言模型的規模
Scaling Pre-training to One Hundred Billion Data for Vision Language Models

Feb 11

ByXiao Wang, Ibrahim Alabdulmohsin, Daniel Salz, Zhe Li, Keran Rong, Xiaohua Zhai

寶石：多面向比例定律的模型套件
Gemstones: A Model Suite for Multi-Faceted Scaling Laws

Feb 7

BySean McLeish, John Kirchenbauer, David Yu Miller, Siddharth Singh, Abhinav Bhatele, Micah Goldblum, Ashwinee Panda, Tom Goldstein

通過強化學習教導語言模型進行評論
Teaching Language Models to Critique via Reinforcement Learning

Feb 5

ByZhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong

Enhance-A-Video：免費提升生成影片品質
Enhance-A-Video: Better Generated Video for Free

Feb 11

ByYang Luo, Xuanlei Zhao, Mengzhao Chen, Kaipeng Zhang, Wenqi Shao, Kai Wang, Zhangyang Wang, Yang You

Hephaestus：透過持續預訓練來提升大型語言模型的基本代理能力
Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training

Feb 10

NatureLM：解讀自然語言以促進科學發現
NatureLM: Deciphering the Language of Nature for Scientific Discovery

Feb 11

VidCRAFT3：用於圖像轉視頻的相機、物體和燈光控制
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation

Feb 11

BySixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu

忘記你對LLM評估的認知 - LLM就像變色龍。
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon

Feb 11

ByNurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen

Éclair -- 通過整合閱讀順序提取文件內容和版面設計
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents

Feb 6

ByIlia Karmanov, Amala Sanjay Deshmukh, Lukas Voegtle, Philipp Fischer, Kateryna Chumachenko, Timo Roman, Jarno Seppänen, Jupinder Parmar, Joseph Jennings, Andrew Tao, Karan Sapra

Hypencoder：用於資訊檢索的超網路
Hypencoder: Hypernetworks for Information Retrieval

Feb 7

ByJulian Killingback, Hansi Zeng, Hamed Zamani

遮罩增強的自回歸預測：減少關注以學習更多
Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More

Feb 11

ByXialie Zhuang, Zhikai Jia, Jianjin Li, Zhenyu Zhang, Li Shen, Zheng Cao, Shiwei Liu

CoS：連鎖式拍攝提示用於長視頻理解
CoS: Chain-of-Shot Prompting for Long Video Understanding

Feb 10

ByJian Hu, Zixu Cheng, Chenyang Si, Wei Li, Shaogang Gong

Pippo：從單張圖像生成高解析度多視角人體
Pippo: High-Resolution Multi-View Humans from a Single Image

Feb 11

ByYash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov

CAD編輯器：具有自動訓練數據綜合的定位-填充框架，適用於基於文本的CAD編輯
CAD-Editor: A Locate-then-Infill Framework with Automated Training Data Synthesis for Text-Based CAD Editing

Feb 6

ByYu Yuan, Shizhao Sun, Qi Liu, Jiang Bian

在大型語言和視覺-語言模型中學習適應性風險管理的共形棄權政策
Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models

Feb 8

BySina Tayebati, Divake Kumar, Nastaran Darabi, Dinithi Jayasuriya, Ranganath Krishnan, Amit Ranjan Trivedi