ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

1

利用潛在推理擴展測試時間計算:一種遞歸深度方法
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

Feb 7
ByJonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein
151
12

我們研究了一種新穎的語言模型架構,能夠通過在潛在空間中隱式推理來擴展測試時的計算。我們的模型通過迭代遞歸塊來工作,因此在測試時可以展開到任意深度。這與通過生成更多標記來擴展計算的主流推理模型形成對比。與基於思維鏈的方法不同,我們的方法不需要任何專門的訓練數據,可以使用較小的上下文窗口工作,並且可以捕捉在詞語中不容易表示的推理類型。我們將一個概念驗證模型擴展到了35億個參數和8000億個標記。我們展示了結果模型可以在推理基準測試中提高其性能,有時甚至可以達到相當於50億個參數的計算負載。

2

Goku:基於流的視頻生成基礎模型
Goku: Flow Based Video Generative Foundation Models

Feb 7
ByShoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu
106
12

本文介紹了 Goku,這是一個最先進的聯合圖像和視頻生成模型系列,利用矯正流 Transformer 實現行業領先的性能。我們詳細介紹了支持高質量視覺生成的基本元素,包括數據整理流程、模型架構設計、流程制定,以及用於高效和穩健的大規模訓練的先進基礎設施。Goku 模型在定性和定量評估中展現出優越的性能,在主要任務中設立了新的基準。具體來說,Goku 在 GenEval 上達到 0.76,在 DPG-Bench 上達到 83.65,用於文本到圖像生成;在 VBench 上達到 84.85,用於文本到視頻任務。我們相信這項工作為研究社區在開發聯合圖像和視頻生成模型方面提供了有價值的見解和實用進展。

3

VideoRoPE:什麼構成良好的影片旋轉位置嵌入?
VideoRoPE: What Makes for Good Video Rotary Position Embedding?

Feb 7
ByXilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin
65
2

儘管旋轉位置嵌入(RoPE)及其變體因其長範文本能力而被廣泛採用,但將一維 RoPE 擴展至具有複雜時空結構的視頻仍然是一個未解之謎。本研究首次引入了一項全面分析,確定了對於將 RoPE 適應視頻的有效性至關重要的四個關鍵特徵,這些特徵在先前的研究中尚未得到充分考慮。作為我們分析的一部分,我們引入了一個具有挑戰性的 V-NIAH-D(帶有干擾物的視覺針在乾草堆中)任務,該任務在 V-NIAH 中添加了定期干擾物。V-NIAH-D 任務表明,缺乏適當的時間維度分配的先前 RoPE 變體容易被干擾物誤導。基於我們的分析,我們引入了 VideoRoPE,其具有設計良好的三維結構,以保持時空關係。VideoRoPE 具有低頻率時間分配以減輕周期性振盪,對角佈局以保持空間對稱性,以及可調節的時間間距以解耦時間和空間索引。VideoRoPE 在各種下游任務中始終優於先前的 RoPE 變體,例如長視頻檢索、視頻理解和視頻幻覺。我們的代碼將可在以下鏈接找到:https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}。

4

利用滑動式磚塊注意力快速生成視頻
Fast Video Generation with Sliding Tile Attention

Feb 6
ByPeiyuan Zhang, Yongqi Chen, Runlong Su, Hangliang Ding, Ion Stoica, Zhenghong Liu, Hao Zhang
51
2

擴散Transformer(DiTs)憑藉3D全注意力能力在視頻生成方面達到了最先進的水平,但受制於計算成本過高——僅生成一個5秒720P視頻時,注意力本身就佔據了總推理時間的945秒中的800秒。本文引入了滑動瓷磚注意力(STA)來應對這一挑戰。STA利用了預訓練視頻擴散模型中的注意力分數主要集中在局部化的3D窗口內這一觀察結果。通過在局部時空區域上滑動和關注,STA消除了全注意力中的冗余。與傳統的基於標記的滑動窗口注意力(SWA)不同,STA以瓷磚為單位進行操作,並採用一種新穎的硬件感知滑動窗口設計,保持了表達能力的同時具有高效硬件性能。通過細緻的核級優化,STA提供了首個高效的2D/3D滑動窗口式注意力實現,實現了58.79%的MFU。具體而言,STA將注意力加速了2.8-17倍,超過了FlashAttention-2(FA2)的1.6-10倍,超過了FlashAttention-3(FA3)。在領先的視頻DiT,HunyuanVideo上,STA將端到端延遲從945秒(FA3)降低到685秒,而無需降低質量,也無需進行訓練。啟用微調進一步將延遲降低到268秒,僅在VBench上下降了0.09%。

5

QuEST:使用1位元權重和啟動穩定訓練LLM
QuEST: Stable Training of LLMs with 1-Bit Weights and Activations

Feb 7
ByAndrei Panferov, Jiale Chen, Soroush Tabesh, Roberto L. Castro, Mahdi Nikdan, Dan Alistarh
43
3

為了降低大型語言模型(LLMs)的高昂成本,一種方法是在訓練或部署中使用量化或稀疏表示。儘管事後壓縮方法非常流行,但直接在這些表示上進行訓練以獲得更準確的壓縮模型的問題,即量化感知訓練(QAT),仍然是一個開放的問題:例如,最近的一項研究(arXiv:2411.04330v2)將模型可以使用QAT進行訓練的“最佳”位元寬度設定為8位權重和激活時,仍保持與標準FP16/BF16精度相競爭的準確性。 通過一種名為QuEST的新方法,我們推進了這一最新技術,該方法與FP16具有帕累托競爭力,即在更小的模型尺寸下提供更好的準確性,同時訓練具有4位或更少位元的權重和激活的模型。此外,QuEST允許穩定地訓練具有1位元權重和激活的模型。QuEST通過改進QAT方法的兩個關鍵方面實現了這一點:(1)通過Hadamard 正規化和 MSE-最佳擬合來準確且快速地量化權重和激活的(連續)分佈;(2)一種基於明確最小化在量化狀態下計算的噪聲梯度與“真實”(但未知)全精度梯度之間的誤差的新信任梯度估算器。對於Llama型架構的實驗表明,QuEST在整個硬件支持的精度範圍內引入了穩定的擴展定律,並且可以擴展到稀疏表示。我們提供了GPU核心支持,顯示由QuEST生成的模型可以高效執行。我們的代碼可在 https://github.com/IST-DASLab/QuEST 找到。

6

AuraFusion360:擴增未見區域對基於參考的360°無界場景修補進行對齊
AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

Feb 7
ByChung-Ho Wu, Yang-Jung Chen, Ying-Huan Chen, Jie-Ying Lee, Bo-Hsu Ke, Chun-Wei Tuan Mu, Yi-Chuan Huang, Chin-Yang Lin, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
39
3

三維場景修補對於從虛擬現實到建築可視化的應用至關重要,然而現有方法在360度無邊界場景中的視角一致性和幾何準確性方面存在困難。我們提出了AuraFusion360,一種新穎的基於參考的方法,可以在由高斯Splatting表示的3D場景中實現高質量的對象去除和孔填充。我們的方法引入了(1) 基於深度感知的未見遮罩生成,用於準確識別遮擋,(2) 自適應引導深度擴散,一種零樣本方法,用於準確的初始點放置,無需額外訓練,以及(3) 基於SDEdit的細節增強,用於多視角一致性。我們還介紹了360-USID,這是第一個針對360度無邊界場景修補的全面數據集,具有地面真實性。大量實驗表明,AuraFusion360明顯優於現有方法,在保持幾何準確性的同時實現了卓越的感知質量,跨劇烈視角變化。請查看我們的項目頁面以獲取視頻結果和數據集,網址為https://kkennethwu.github.io/aurafusion360/。

7

退一步,為了提升語言模型的推理能力而自我回溯:自回溯技術。
Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models

Feb 6
ByXiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li
25
2

將慢思考機制整合到大型語言模型(LLMs)中,為實現第2級AGI推理者提供了一個有前途的途徑,正如OpenAI的o1等系統所展示的那樣。然而,仍然存在一些重大挑戰,包括低效的過度思考和對輔助獎勵模型的過度依賴。我們指出,這些限制源於LLMs無法內化搜索過程,這是有效推理的關鍵組成部分。解決這個問題的關鍵一步是使LLMs能夠自主確定何時何地進行回溯,這是傳統搜索算法中的一個基本操作。為此,我們提出了一種自回溯機制,使LLMs能夠在訓練和推理過程中進行回溯。這種機制不僅增強了推理能力,還通過自我改進將慢思考過程轉變為快思考,從而提高了效率。實證評估表明,我們的提議顯著增強了LLMs的推理能力,與最佳路徑監督微調方法相比,性能提高了超過40%。我們相信這項研究為開發更先進和更強大的推理者開辟了一條新穎且有前途的途徑。

8

FlashVideo:對高效率高解析度視頻生成的細節流動保真。
FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

Feb 7
ByShilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo
24
3

DiT擴散模型在文本到視頻生成方面取得了巨大成功,利用其在模型容量和數據規模方面的可擴展性。然而,與文本提示對齊的高內容和運動保真度通常需要大量的模型參數和大量的函數評估(NFEs)。逼真且視覺上吸引人的細節通常反映在高分辨率輸出中,進一步增加了計算需求,尤其是對於單階段的DiT模型。為應對這些挑戰,我們提出了一種新穎的兩階段框架,名為FlashVideo,該框架在各個階段之間策略性地分配模型容量和NFEs,以平衡生成保真度和質量。在第一階段中,通過低分辨率生成過程優先考慮提示的保真度,利用大量參數和足夠的NFEs來提高計算效率。第二階段建立了低分辨率和高分辨率之間的流匹配,有效地生成精細細節,並最小化NFEs。定量和視覺結果表明,FlashVideo實現了具有卓越計算效率的最先進高分辨率視頻生成。此外,這種兩階段設計使用戶可以在承諾進行全分辨率生成之前預覽初始輸出,從而顯著降低計算成本和等待時間,並增強商業可行性。

9

代理性取決於框架。
Agency Is Frame-Dependent

Feb 6
ByDavid Abel, André Barreto, Michael Bowling, Will Dabney, Shi Dong, Steven Hansen, Anna Harutyunyan, Khimya Khetarpal, Clare Lyle, Razvan Pascanu, Georgios Piliouras, Doina Precup, Jonathan Richens, Mark Rowland, Tom Schaul, Satinder Singh
23
4

代理性是系統將結果引導至目標的能力,是生物學、哲學、認知科學和人工智慧研究的核心主題。確定系統是否具有代理性是一個極具挑戰性的問題:例如,Dennett(1989)強調了確定岩石、恆溫器或機器人是否具有代理性的難題。我們從強化學習的觀點來探討這個謎題,主張代理性從根本上是依賴於框架的:對系統代理性的任何測量都必須相對於參考框架進行。我們通過提出一個哲學論點來支持這一主張,該論點指出Barandiaran等人(2009)和Moreno(2018)提出的代理性基本特性本身是依賴於框架的。我們得出結論,任何有關代理性的基礎科學都需要框架依賴性,並討論這一主張對強化學習的影響。

10

DuoGuard:一個以雙玩家強化學習驅動的多語言LLM護欄框架
DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails

Feb 7
ByYihe Deng, Yu Yang, Junkai Zhang, Wei Wang, Bo Li
22
2

大型語言模型(LLMs)的快速發展增加了對護欄模型的需求,以確保負責任的使用,特別是在檢測不安全和非法內容方面。儘管在英語中存在大量安全數據,但由於其他語言的開源安全數據稀缺,多語言護欄建模仍未得到充分探索。為了填補這一空白,我們提出了一種新穎的雙人強化學習(RL)框架,其中生成器和護欄模型在對抗性演化中共同產生高質量的多語言護欄訓練合成數據。我們在理論上將這種互動形式化為一種雙人遊戲,證明收斂到納什均衡。實證評估表明,我們的模型「DuoGuard」在英語基準上優於最先進的模型,性能提高了近10%,同時在推理速度上快了4.5倍,並且使用了明顯更小的模型(0.5B)。我們在多語言安全任務方面取得了重大進展,特別是在處理真實收集的數據中低資源語言的不平衡。消融研究強調了合成數據生成在彌合英語和其他語言之間的開源數據不平衡中的關鍵作用。這些發現建立了一種可擴展且高效的合成數據生成方法,為改進多語言護欄模型以增強LLM安全性打下基礎。代碼、模型和數據將在https://github.com/yihedeng9/DuoGuard 上開源。

11

通過對大型語言模型進行測試時間縮放生成符號世界模型。
Generating Symbolic World Models via Test-time Scaling of Large Language Models

Feb 7
ByZhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu
19
2

解決複雜的規劃問題需要大型語言模型(LLMs)明確地建模狀態轉換,以避免違反規則、符合約束條件並確保最佳性,這是一項受自然語言固有歧義性影響的任務。為了克服這種歧義性,規劃領域定義語言(PDDL)被利用作為一種規劃抽象,使得能夠進行精確和正式的狀態描述。利用PDDL,我們可以生成一個符號世界模型,其中可以無縫應用經典搜索算法,如A*,以找到最優計劃。然而,由於缺乏PDDL訓練數據,直接使用當前LLMs生成PDDL領域仍然是一個未解之謎。為了應對這一挑戰,我們提出擴大LLMs的測試時間計算以增強其PDDL推理能力,從而實現高質量PDDL領域的生成。具體來說,我們引入了一種簡單而有效的算法,首先採用最佳N抽樣方法來改善初始解的質量,然後通過口語化機器學習以精細的方式完善解決方案。我們的方法在PDDL領域生成方面遠遠優於o1-mini,在兩項任務(即從自然語言描述或PDDL問題生成PDDL領域)中實現了超過50%的成功率,而無需額外的訓練。通過利用PDDL作為狀態抽象,我們的方法能夠在幾乎所有競賽級規劃任務上勝過當前最先進的方法。

12

在設備上的 Sora:為行動裝置啟用基於擴散的文本轉視頻生成
On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices

Feb 5
ByBosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee
12
3

我們提出了On-device Sora,這是一個首創性的解決方案,用於在智能手機級設備上高效運行基於擴散的設備端文本到視頻生成。建立在Open-Sora的基礎上,On-device Sora應用了三種新技術來應對計算和內存受限的移動設備上基於擴散的文本到視頻生成所面臨的挑戰。首先,線性比例跳躍(LPL)通過高效的跳躍式方法減少了視頻擴散中所需的過多去噪步驟。其次,時間維度標記合併(TDTM)通過沿著時間維度合併連續的標記,減少了注意力層中密集的標記處理計算。第三,具有動態加載的同時推理(CI-DL)動態將大型模型劃分為較小的塊並將其加載到內存中進行同時模型推理,有效應對了設備內存受限的挑戰。我們在iPhone 15 Pro上實現了On-device Sora,實驗評估表明,它能夠在設備上生成與在高端GPU上運行的Open-Sora生成的高質量視頻相媲美的視頻。這些結果表明,On-device Sora能夠在資源受限的移動設備上實現高效且高質量的視頻生成,擴大了可訪問性,確保用戶隱私,減少對雲基礎設施的依賴,並降低相關成本。我們將所提出的On-device Sora視為向民主化最先進生成技術邁出的重要一步,實現了在普通移動和嵌入式設備上的視頻生成能力。代碼實現可在GitHub存儲庫上公開獲取:https://github.com/eai-lab/On-device-Sora。

13

CMoE:快速雕刻混合專家以進行高效的LLM推論
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference

Feb 6
ByZehua Pei, Lancheng Zou, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu
12
2

大型語言模型(LLMs)通過擴展模型參數來實現出色的性能,但這導致了顯著的推理開銷。主導LLM參數的前饋網絡(FFNs)在隱藏神經元中表現出高激活稀疏性。為了利用這一點,研究人員提出了使用專家混合(MoE)架構,其中僅激活部分參數。然而,現有方法通常需要大量的訓練數據和資源,限制了它們的實用性。我們提出了CMoE(Carved MoE),一個新穎的框架,可以從密集模型中高效地雕刻MoE模型。CMoE通過高效的專家分組和輕量級適應實現了出色的性能。首先,基於激活率,將神經元分為共享和路由專家組。接下來,我們構建了一個無需從頭訓練的路由機制,融入了可微分的路由過程和負載平衡。使用適度的數據,CMoE可以在五分鐘內從7B密集模型中生成一個設計良好、可用的MoE。通過輕量級微調,它可以在不到一小時內實現高性能恢復。我們將我們的代碼公開發布在https://github.com/JarvisPei/CMoE。

14

Patchification 中的比例定律:一張圖片價值 50,176 個標記甚至更多
Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Feb 6
ByFeng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie
11
2

自從引入視覺Transformer(ViT)以來,分塊化一直被視為普通視覺架構的一種事實上的圖像標記方法。通過壓縮圖像的空間尺寸,這種方法可以有效地縮短標記序列並降低ViT等普通架構的計算成本。在這項工作中,我們旨在徹底研究基於分塊化的壓縮編碼範式引起的信息損失以及它如何影響視覺理解。我們進行了廣泛的分塊大小縮放實驗,並興奮地觀察到分塊化中的一個有趣的縮放定律:模型可以持續從減小的分塊大小中受益並獲得改善的預測性能,直到達到最小的1x1分塊大小,即像素標記化。這個結論廣泛適用於不同的視覺任務、各種輸入尺度以及不同的架構,如ViT和最近的Mamba模型。此外,作為一個副產品,我們發現使用更小的分塊,任務特定的解碼器頭對於密集預測變得不那麼關鍵。在實驗中,我們成功地將視覺序列擴展到驚人的50,176個標記長度,並在ImageNet-1k基準測試上以基本尺寸模型實現了競爭力的84.6%測試準確度。我們希望這項研究能為未來構建非壓縮視覺模型的工作提供見解和理論基礎。代碼可在https://github.com/wangf3014/Patch_Scaling找到。

15

CodeSteer:透過程式碼/文本引導的符號增強語言模型
CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance

Feb 4
ByYongchao Chen, Yilun Hao, Yueying Liu, Yang Zhang, Chuchu Fan
11
5

現有方法未能有效引導大型語言模型(LLMs)在文本推理和程式碼生成之間進行轉換,使符號計算能力被低效利用。我們引入了CodeSteer,一種有效的方法,用於引導LLM的程式碼/文本生成。我們構建了一個全面的基準SymBench,包括37個具有可調節複雜度的符號任務,並合成了12,000個多輪引導/生成軌跡和5,500個引導比較對的數據集。我們使用新設計的多輪監督微調(SFT)和直接偏好優化(DPO)對Llama-3-8B模型進行微調。結果得到的模型CodeSteerLLM,配備了提出的符號和自我答案檢查器,有效地引導更大型模型的程式碼/文本生成。通過使用CodeSteer來增強GPT-4o,其平均性能得分從53.3提升至86.4,甚至在所有37個任務(28個已見,9個未見)上都優於現有最佳的LLM OpenAI o1(82.7)、o1-preview(74.8)和DeepSeek R1(76.8)。針對GPT-4o進行訓練,CodeSteer展現出卓越的泛化能力,在Claude、Mistral和GPT-3.5上提供平均41.8的性能提升。CodeSteer引導的LLMs充分利用符號計算,在高度複雜的任務上保持強大的性能。模型、數據集和代碼可在以下網址找到:https://github.com/yongchao98/CodeSteer-v1.0。

16

不留下任何任務:具有共同和特定任務子空間的各向同性模型合併
No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

Feb 7
ByDaniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer
11
2

模型合併將多個任務特定模型的權重整合到一個多任務模型中。儘管近來對這個問題產生了興趣,但合併模型和單任務模型之間仍存在顯著的性能差距。在本文中,我們研究了任務矩陣的關鍵特徵,即應用於預訓練模型的權重更新矩陣,這些特徵有助於有效地進行合併。我們展示了任務特定和合併矩陣的單一成分之間的對齊與性能改善與預訓練模型之間的強烈相關性。基於此,我們提出了一個等向合併框架,該框架可以使任務矩陣的奇異值譜扁平化,增強對齊,並減少性能差距。此外,我們還將通用和任務特定子空間納入,以進一步提高對齊和性能。我們提出的方法在多種情境下實現了最先進的性能,包括各種任務集和模型規模。這項工作推進了對模型合併動態的理解,提供了一種有效的合併模型方法,無需額外的訓練。程式碼可在 https://github.com/danielm1405/iso-merging 找到。

17

在 LM 的組合泛化和虛構中的線性相關
Linear Correlation in LM's Compositional Generalization and Hallucination

Feb 6
ByLetian Peng, Chenyang An, Shibo Hao, Chengyu Dong, Jingbo Shang
10
3

語言模型(LMs)的泛化正在經歷積極的辯論,對其具有的泛智能潛力與其在基本知識組成(例如,反向/轉移詛咒)方面的挑戰形成對比。本文揭示了LMs在知識組成過程中的線性相關現象。舉例來說,存在著某些相關知識之間的線性轉換,可將從一個提示到另一個的下一個標記預測對數的映射,例如,對於每個給定的X,“X住在城市中”映射到“X住在國家中”。這反映了人類知識組成中的線性特徵,例如巴黎對應法國。我們的研究結果表明,這種線性轉換對於大規模微調是有韌性的,在與現實世界關係一致時泛化更新的知識,但一旦偏離就會引起幻覺。實證結果表明,線性相關可以作為LM泛化的潛在標識。最後,我們展示這種線性相關可以通過單個前饋網絡和預先訓練的詞彙表示學習,表明LM的泛化在很大程度上依賴於後者。

18

QLIP:文本對齊視覺標記統一自回歸多模式理解與生成
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

Feb 7
ByYue Zhao, Fuzhao Xue, Scott Reed, Linxi Fan, Yuke Zhu, Jan Kautz, Zhiding Yu, Philipp Krähenbühl, De-An Huang
10
2

我們介紹了Quantized Language-Image Pretraining (QLIP),這是一種視覺記號化方法,結合了最先進的重建品質和最先進的零-shot圖像理解。QLIP通過訓練基於二元球面量化的自編碼器,同時具有重建和語言-圖像對齊目標。我們首次展示了這兩個目標並不需要相互矛盾。在訓練期間動態平衡這兩個損失項,並展示了兩階段訓練流程有效地混合了圖像-語言預訓練的大批量需求和重建目標所施加的記憶瓶頸。我們驗證了QLIP對於多模態理解和以文本為條件的圖像生成的有效性,並使用單一模型。具體來說,QLIP可作為LLaVA的視覺編碼器和LlamaGen的圖像記號化器的插入式替代,性能相當甚至更好。最後,我們展示了QLIP實現了一個統一的混合模態自回歸模型,用於理解和生成。

19

時光迷失:多模式LLM中時鐘和日曆理解挑戰
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

Feb 7
ByRohit Saxena, Aryo Pradipta Gema, Pasquale Minervini
8
4

從視覺表徵中理解時間是一項基本的認知技能,然而對於多模式大型語言模型(MLLMs)而言仍然是一個挑戰。在這項研究中,我們探討了MLLMs在通過類比時鐘和年曆來解釋時間和日期的能力。為了促進這一點,我們精心編制了一個結構化數據集,包括兩個子集:1)ClockQA,其中包括各種時鐘風格-標準、黑面盤、無秒針、羅馬數字和箭頭針時鐘-配對時間相關問題;以及2)CalendarQA,其中包含年曆圖像,並提出問題範圍從眾所周知的日期(例如聖誕節、元旦)到計算得出的日期(例如一年中的第100或第153天)。我們的目標是分析當MLLMs面對與時間相關的視覺數據時,它們如何執行視覺識別、數值推理和時間推斷。我們的評估顯示,儘管最近取得了進展,但對於MLLMs來說,可靠地理解時間仍然是一個重大挑戰。

20

透過分析、檢索和推理實現大型語言模型的問答技術
ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

Feb 7
ByYuwei Yin, Giuseppe Carenini
8
3

大型語言模型(LLMs)在常以多重選擇問答(QA)任務結構的具挑戰性基準上取得卓越表現。零-shot Chain-of-Thought(CoT)提示增強了LLMs的推理能力,但僅提供模糊和通用的指導("逐步思考")。本文介紹了ARR,一種直觀且有效的零-shot提示方法,明確地結合了QA解決中的三個關鍵步驟:分析問題意圖、檢索相關信息,以及逐步推理。在各種具挑戰性的QA任務上進行的全面實驗表明,ARR持續改善了基準(不含ARR提示)並優於CoT。消融和案例研究進一步驗證了每個組成部分的積極貢獻:分析、檢索和推理。值得注意的是,意圖分析在ARR中發揮了至關重要的作用。此外,對各種模型大小、LLM系列和生成設置的廣泛評估鞏固了ARR的有效性、韌性和泛化能力。

21

基於價值的深度強化學習具有可預測的擴展性。
Value-Based Deep RL Scales Predictably

Feb 6
ByOleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar
7
5

擴展資料和計算對機器學習的成功至關重要。然而,擴展要求可預測性:我們希望方法不僅能夠在擁有更多計算或資料時表現良好,而且能夠從小規模運行中預測其性能,而無需運行大規模實驗。在本文中,我們展示了基於價值的離線策略強化學習方法是可預測的,儘管社區中流傳有關其病態行為的傳聞。首先,我們展示了為達到特定性能水平所需的資料和計算需求位於由更新對資料(UTD)比率控制的帕累托前沿上。通過估算這一前沿,我們可以在給定更多計算時預測此資料需求,並在給定更多資料時預測此計算需求。其次,我們確定了在給定性能的情況下將總資源預算分配到資料和計算的最佳方式,並將其用於確定最大化在給定預算下的性能的超參數。第三,這種擴展行為是通過首先估算超參數之間可預測的關係來實現的,這些關係用於管理強化學習中獨有的過度擬合和可塑性損失的影響。我們使用三種算法:SAC、BRO 和 PQL 在 DeepMind Control、OpenAI gym 和 IsaacGym 上驗證了我們的方法,當推斷到更高水平的資料、計算、預算或性能時。

22

YINYANG-ALIGN:對立目標的基準測試並提出基於多目標優化的DPO用於文本到圖像對齊
YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment

Feb 5
ByAmitava Das, Yaswanth Narsupalli, Gurpreet Singh, Vinija Jain, Vasu Sharma, Suranjana Trivedy, Aman Chadha, Amit Sheth
5
2

在文本到圖像(T2I)系統中,精確的對齊至關重要,以確保生成的視覺不僅準確地表達用戶意圖,還符合嚴格的道德和美學標準。像谷歌雙子星事件這樣的事件,其中不對齊的輸出引發了重大的公眾強烈反彈,突顯了強大對齊機制的關鍵性需求。相比之下,大型語言模型(LLMs)在對齊方面取得了顯著成功。借鑒這些進展,研究人員渴望將類似的對齊技術,如直接偏好優化(DPO),應用於T2I系統,以增強圖像生成的忠實度和可靠性。 我們提出了YinYangAlign,一個先進的基準框架,系統性地量化T2I系統的對齊忠實度,解決了六個基本且固有矛盾的設計目標。每一對代表圖像生成中的基本張力,例如在遵循用戶提示與進行創意修改之間取得平衡,或在視覺連貫性旁邊保持多樣性。YinYangAlign包括詳細的公理數據集,其中包括人類提示、對齊(選擇)響應、不對齊(拒絕)的AI生成輸出,以及對潛在矛盾的解釋。

23

具有持久狀態的連續3D感知模型
Continuous 3D Perception Model with Persistent State

Jan 21
ByQianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa
4
2

我們提出了一個統一的框架,能夠解決廣泛的3D任務。我們的方法採用一個具有狀態的循環模型,不斷更新其狀態表示以應對每個新觀測。給定一系列圖像,這個不斷演進的狀態可以用來以在線方式為每個新輸入生成度量尺度的點地圖(每像素3D點)。這些點地圖位於一個共同的座標系統內,可以積累成一個連貫、密集的場景重建,隨著新圖像的到來而更新。我們的模型名為CUT3R(Continuous Updating Transformer for 3D Reconstruction),捕捉了現實世界場景的豐富先驗知識:它不僅可以從圖像觀測中預測準確的點地圖,還可以通過探測虛擬的未觀察視圖推斷場景中未見區域。我們的方法既簡單又高度靈活,自然地接受可能是視頻流或無序照片集的不同長度圖像,包含靜態和動態內容。我們在各種3D/4D任務上評估了我們的方法,並在每個任務中展示了具有競爭力或最先進的性能。項目頁面:https://cut3r.github.io/

24

具有VectorQ的自適應語義提示緩存
Adaptive Semantic Prompt Caching with VectorQ

Feb 6
ByLuis Gaspar Schroeder, Shu Liu, Alejandro Cuadron, Mark Zhao, Stephan Krusche, Alfons Kemper, Matei Zaharia, Joseph E. Gonzalez
3
2

語義提示快取通過重複使用具有語義相似性提示的快取的LLM生成回應,從而降低大型語言模型(LLM)推理的延遲和成本。向量相似度度量為嵌入式提示與其在快取中最接近的鄰居之間的相似性分配一個數值分數以量化。現有系統依賴於靜態閾值來分類相似性分數是否足夠高以導致快取命中。我們表明,這種一刀切的閾值在不同提示之間是不夠的。我們提出VectorQ,一個學習嵌入式特定閾值區域並適應嵌入複雜性和不確定性的框架。通過對四個不同數據集的組合進行評估,我們表明VectorQ在所有靜態閾值上始終優於最先進的系統,實現了高達12倍的快取命中率增加和錯誤率降低高達92%。

25

會議代表:對於代表我們出席會議的大型語言模型進行基準測試
MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf

Feb 5
ByLingxiang Hu, Shurun Yuan, Xiaoting Qin, Jue Zhang, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
3
3

在當代工作場所中,會議對於交換想法和確保團隊一致性至關重要,但常常面臨著時間消耗、排程衝突和參與效率不高等挑戰。最近大型語言模型(LLMs)的進步展示了它們在自然語言生成和推理方面的強大能力,引發了一個問題:LLMs能否有效地委派會議參與者?為了探索這一問題,我們開發了一個原型LLM驅動的會議代表系統,並使用真實會議記錄創建了一個全面的基準。我們的評估顯示,GPT-4/4o在積極和謹慎參與策略之間保持平衡的表現。相比之下,Gemini 1.5 Pro傾向於更謹慎,而Gemini 1.5 Flash和Llama3-8B/70B展現出更積極的傾向。整體而言,約60\%的回應至少涉及一個來自真實情況的關鍵要點。然而,仍需要改進以減少無關或重複的內容,並增強對於在現實環境中常見的轉錄錯誤的容忍度。此外,我們在實際環境中實施了該系統並收集了來自演示的真實反饋。我們的研究強調了利用LLMs作為會議代表的潛力和挑戰,為減輕會議負擔的實際應用提供了寶貴的見解。

26

SPARC:在LLMs中實現穩健持續學習的子空間感知提示適應
SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs

Feb 5
ByDinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi
2
2

我們提出了一個名為SPARC的輕量級持續學習框架,適用於大型語言模型(LLMs),通過在低維空間中進行提示調整實現有效的任務適應。通過利用主成分分析(PCA),我們識別出訓練數據的一個緊湊子空間。在這個低維空間中優化提示可以增強訓練效率,因為它專注於最相關的特徵更新,同時減少計算開銷。此外,由於模型的內部結構保持不變,因此從預訓練中獲得的豐富知識得以完全保留,確保在適應過程中不會損害先前學到的信息。我們的方法在任務增量和領域增量的持續學習設置中實現了高知識保留,同時僅微調了模型參數的0.04%。此外,通過集成LoRA,我們增強了對計算限制的適應性,允許在準確性和訓練成本之間進行權衡。在SuperGLUE基準測試上的實驗表明,我們基於PCA的提示調整結合LoRA可以保持完整的知識保留,同時提高準確性,僅利用模型參數的1%。這些結果確立了我們的方法作為大型語言模型持續學習的可擴展和資源高效的解決方案。

27

智能感知至行動:邊緣強大自主性的機會與挑戰
Intelligent Sensing-to-Action for Robust Autonomy at the Edge: Opportunities and Challenges

Feb 4
ByAmit Ranjan Trivedi, Sina Tayebati, Hemant Kumawat, Nastaran Darabi, Divake Kumar, Adarsh Kumar Kosta, Yeshwanth Venkatesha, Dinithi Jayasuriya, Nethmi Jayasinghe, Priyadarshini Panda, Saibal Mukhopadhyay, Kaushik Roy
0
2

在機器人學、智慧城市和自動駕駛領域,自主邊緣運算依賴於感知、處理和執行的無縫整合,以實現在動態環境中的即時決策。其核心是感知到行動的迴路,透過將感測器輸入與計算模型迭代地對齊,以驅動適應性控制策略。這些迴路可以適應超局部條件,增強資源效率和響應性,但也面臨著資源限制、多模態數據融合中的同步延遲,以及反饋迴路中串聯錯誤的風險等挑戰。本文探討了如何透過主動的、上下文感知的感知到行動和行動到感知適應,通過根據任務需求動態調整感知和計算,例如感知環境的極其有限部分並預測其餘部分,來增強效率。通過引導感知透過控制行動,行動到感知路徑可以提高任務相關性和資源使用,但也需要強大的監控以防止串聯錯誤並保持可靠性。多智能體感知行動迴路通過協調分佈式智能體之間的感知和行動,進一步擴展了這些能力,通過協作優化資源使用。此外,受生物系統啟發的神經形態運算提供了一個高效的基於脈衝的事件驅動處理框架,節省能源、降低延遲,並支持分層控制,使其成為多智能體優化的理想選擇。本文強調了端到端共同設計策略的重要性,通過將算法模型與硬體和環境動態相一致,改善跨層次相互依賴關係,以提高在複雜環境中的能源高效邊緣自主性的吞吐量、精度和適應性。

Feb 7
Feb 10
Feb 11