AI研究論文每日精選

每日精選AI研究論文及翻譯

基於 Token 預算的 LLM 推理
Token-Budget-Aware LLM Reasoning

Dec 24

ByTingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang

推理對於大型語言模型（LLMs）在各種任務中表現卓越至關重要。雖然像「思維鏈」（CoT）這樣的方法通過將問題分解為中間步驟來增強LLM的性能，但也會產生大量的標記使用開銷，從而導致成本增加。我們發現當前LLM的推理過程過於冗長，可以通過在提示中包含合理的標記預算來進行壓縮，但標記預算的選擇在實際壓縮效果中起著至關重要的作用。因此，我們提出了一種標記預算感知的LLM推理框架，該框架根據推理複雜性動態估算不同問題的標記預算，並使用估算的標記預算來引導推理過程。實驗表明，我們的方法在僅略微降低性能的情況下有效地降低了CoT推理的標記成本，為在LLM推理中平衡效率和準確性提供了實用解決方案。程式碼：https://github.com/GeniusHTX/TALE。

桑樹：通過集體蒙特卡羅樹搜索賦能於MLLM的o1式推理和反思
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Dec 24

ByHuanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao

在這項工作中，我們旨在開發一種理解並解決問題的MLLM，通過學習創建涉及每個推理過程的中間步驟直至最終答案。為此，我們提出了集體蒙特卡羅樹搜索（CoMCTS），這是一種新的用於MLLM的學習推理方法，引入了“樹搜索”中的集體學習概念，以實現有效和高效的推理路徑搜索和學習。CoMCTS的核心思想是利用來自多個模型的集體知識，通過擴展、模擬和錯誤定位、反向傳播以及選擇等四個迭代操作，共同猜測、搜索和確定通往正確答案的有效推理路徑。使用CoMCTS，我們構建了Mulberry-260k，這是一個多模態數據集，為每個問題提供了一個豐富、明確且明確定義的推理節點樹。通過Mulberry-260k，我們執行集體SFT以訓練我們的模型Mulberry，這是一系列具有類似o1的逐步推理和反思能力的MLLM。大量實驗證明了我們提出的方法在各種基準測試中的優越性。代碼將在https://github.com/HJYao00/Mulberry 上提供。

Video-Panda：對於無編碼器的視頻語言模型的參數高效對齊
Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models

Dec 24

ByJinhui Yi, Syed Talal Wasim, Yanan Luo, Muzammal Naseer, Juergen Gall

我們提出了一種高效的無編碼器方法，用於視頻語言理解，實現了具有競爭力的性能，同時顯著減少了計算開銷。當前的視頻語言模型通常依賴於龐大的圖像編碼器（3億至11億參數）或視頻編碼器（10億至14億參數），在處理多幀視頻時造成了重大的計算負擔。我們的方法引入了一種新穎的時空對齊塊（STAB），可以直接處理視頻輸入，而無需預先訓練的編碼器，同時僅使用4500萬參數進行視覺處理 - 與傳統方法相比至少減少了6.5倍。STAB架構結合了局部時空編碼，用於精細特徵提取，通過學習的注意機制實現了高效的空間下採樣，並使用獨立機制來建模幀級和視頻級別的關係。我們的模型在標準基準上實現了與基於編碼器方法相當或更優的性能，用於開放式視頻問答。精細的視頻問答評估展示了我們模型的有效性，在正確性和時間理解等關鍵方面優於基於編碼器的方法Video-ChatGPT和Video-LLaVA。大量消融研究驗證了我們的架構選擇，展示了我們時空建模方法的有效性，同時實現了比以前方法快3-4倍的處理速度。代碼可在https://github.com/jh-yi/Video-Panda找到。

WavePulse：無線直播的即時內容分析
WavePulse: Real-time Content Analytics of Radio Livestreams

Dec 23

ByGovind Mittal, Sarthak Gupta, Shruti Wagle, Chirag Chopra, Anthony J DeMattee, Nasir Memon, Mustaque Ahamad, Chinmay Hegde

廣播仍然是大規模信息傳播的普遍媒介，AM/FM電台觸及的美國人數超過智能手機社交網絡或現場電視。越來越多的廣播節目也在線上串流並通過互聯網訪問。我們提出WavePulse，一個能夠實時記錄、記錄和分析廣播內容的框架。雖然我們的框架通用，但我們展示了WavePulse在與一組政治科學家合作的項目中的有效性，該項目專注於2024年總統選舉。我們使用WavePulse在三個月的時間內監控了396個新聞廣播電台的直播流，處理了近500,000小時的音頻流。這些流被轉換為時間戳記、日誌化的文字記錄，並進行分析以追踪國家和州級政治科學問題的答案。我們的分析揭示了地方問題如何與國家趨勢互動，提供了有關信息流的見解。我們的結果展示了WavePulse在捕獲和分析來自網絡的廣播直播流的內容方面的有效性。代碼和數據集可在https://wave-pulse.io 上訪問。

您的即時同步語音轉文字翻譯系統有多「真實」？
How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?

Dec 24

BySara Papi, Peter Polak, Ondřej Bojar, Dominik Macháček

同步語音轉文字翻譯（SimulST）將源語言的語音與演講者的演講同步地翻譯為目標語言文本，確保低延遲以提高使用者理解能力。儘管其應用於無限制語音，但大多數研究集中在人類預分段的語音上，簡化任務並忽略重要挑戰。這種狹隘焦點，再加上廣泛存在的術語不一致性，限制了研究成果應用於現實應用的可能性，最終阻礙了該領域的進展。我們對110篇論文進行了廣泛的文獻回顧，不僅揭示了當前研究中的關鍵問題，還為我們的主要貢獻奠定了基礎。我們1）定義了SimulST系統的步驟和核心組件，提出了標準術語和分類法；2）進行了對社區趨勢的深入分析；3）提出了具體的建議和未來方向，以彌合現有文獻中的差距，從評估框架到系統架構，推動該領域朝著更現實和有效的SimulST解決方案邁進。

VidTwin：具有解耦結構和動態的視頻變分自編碼器
VidTwin: Video VAE with Decoupled Structure and Dynamics

Dec 23

ByYuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian

近年來，影片自編碼器（Video AEs）的最新進展顯著提高了影片生成的質量和效率。本文提出了一種新穎且緊湊的影片自編碼器 VidTwin，將影片解耦為兩個不同的潛在空間：結構潛在向量，捕捉整體內容和全局運動，以及動態潛在向量，代表細節和快速運動。具體而言，我們的方法利用了一個編碼器-解碼器骨幹，並增加了兩個子模塊來分別提取這些潛在空間。第一個子模塊使用 Q-Former 來提取低頻運動趨勢，然後通過下採樣塊來去除冗餘內容細節。第二個子模塊將潛在向量沿空間維度進行平均以捕捉快速運動。大量實驗表明，VidTwin實現了高達0.20%的高壓縮率，並具有高重建質量（在MCL-JCV數據集上的PSNR為28.14），在下游生成任務中表現高效且有效。此外，我們的模型展示了可解釋性和可擴展性，為未來在影片潛在表示和生成方面的研究鋪平了道路。我們的代碼已在 https://github.com/microsoft/VidTok/tree/main/vidtwin 釋出。

PepTune：利用多目標引導的離散擴散進行治療肽的全新生成
PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

Dec 23

BySophia Tang, Yinuo Zhang, Pranam Chatterjee

肽治療學是一類重要的藥物，已在糖尿病和癌症等疾病中取得顯著成功，其中具有里程碑意義的例子包括GLP-1 受體激動劑，徹底改變了第二型糖尿病和肥胖症的治療方式。儘管取得成功，設計滿足多個相互衝突目標的肽，如靶點結合親和力、溶解度和膜滲透性，仍然是一個重大挑戰。傳統的藥物開發和基於結構的設計對於這些任務效果不佳，因為它們無法優化對於治療效果至關重要的全局功能特性。現有的生成框架主要局限於連續空間、無條件輸出或單目標指導，這使它們不適用於跨多個特性的離散序列優化。為了解決這個問題，我們提出了PepTune，這是一個用於同時生成和優化治療性肽SMILES的多目標離散擴散模型。基於Masked Discrete Language Model（MDLM）框架構建的PepTune確保通過狀態依賴的遮罩計劃和基於懲罰的目標來確保有效的肽結構。為了引導擴散過程，我們提出了一種基於蒙特卡羅樹搜索（MCTS）的策略，平衡探索和利用，以迭代地優化帕累托最優序列。MCTS將基於分類器的獎勵與搜索樹擴展相結合，克服了離散空間固有的梯度估計挑戰和數據稀疏性。使用PepTune，我們生成了多樣化的化學修飾肽，經過優化，具有多種治療性能，包括靶點結合親和力、膜滲透性、溶解度、溶血性和在各種與疾病相關的靶點上的非污染特性。總的來說，我們的結果表明，MCTS引導的離散擴散是離散狀態空間中多目標序列設計的一種強大且模塊化方法。

AI研究論文每日精選

每日精選AI研究論文及翻譯

基於 Token 預算的 LLM 推理
Token-Budget-Aware LLM Reasoning

Dec 24

ByTingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang

桑樹：通過集體蒙特卡羅樹搜索賦能於MLLM的o1式推理和反思
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Dec 24

ByHuanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao

PepTune：利用多目標引導的離散擴散進行治療肽的全新生成
PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

Dec 23

BySophia Tang, Yinuo Zhang, Pranam Chatterjee