ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

1

CLIMB:基於聚類的迭代數據混合自舉法用於語言模型預訓練
CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

Apr 17
ByShizhe Diao, Yu Yang, Yonggan Fu, Xin Dong, Dan Su, Markus Kliegl, Zijia Chen, Peter Belcak, Yoshi Suhara, Hongxu Yin, Mostofa Patwary, Yingyan, Lin, Jan Kautz, Pavlo Molchanov
93
2

預訓練數據集通常從網絡內容中收集,缺乏固有的領域劃分。例如,廣泛使用的數據集如Common Crawl並未包含明確的領域標籤,而手動整理帶標籤的數據集如The Pile則耗費大量人力。因此,儘管優化預訓練數據混合對提升預訓練性能具有顯著益處,但如何確定最佳預訓練數據混合仍是一個具有挑戰性的問題。為應對這些挑戰,我們提出了基於聚類的迭代數據混合引導框架(CLIMB),這是一個自動化框架,用於在預訓練環境中發現、評估和優化數據混合。具體而言,CLIMB將大規模數據集嵌入並聚類於語義空間中,然後使用較小的代理模型和預測器迭代搜索最佳混合。當我們的1B模型在4000億個token上持續訓練並使用此混合時,其性能超越了當前最先進的Llama-3.2-1B模型2.0%。此外,我們觀察到,針對特定領域(如社會科學)進行優化,相比隨機採樣可帶來5%的性能提升。最後,我們推出了ClimbLab,這是一個包含20個聚類的過濾後1.2萬億token語料庫,作為研究平臺;以及ClimbMix,這是一個緊湊而強大的4000億token數據集,專為高效預訓練設計,在相同token預算下提供卓越性能。我們分析了最終的數據混合,闡明了最佳數據混合的特徵。我們的數據可在以下網址獲取:https://research.nvidia.com/labs/lpr/climb/

2

反蒸餾採樣
Antidistillation Sampling

Apr 17
ByYash Savani, Asher Trockman, Zhili Feng, Avi Schwarzschild, Alexander Robey, Marc Finzi, J. Zico Kolter
59
4

生成延伸推理軌跡的前沿模型無意中產生了豐富的詞元序列,這些序列可能促進模型蒸餾。認識到這一脆弱性,模型所有者可能會尋求採樣策略,在不影響模型性能的前提下限制蒸餾的有效性。反蒸餾採樣正是提供了這種能力。通過策略性地修改模型的下一個詞元概率分佈,反蒸餾採樣毒害了推理軌跡,使其在保持模型實際效用的同時,對蒸餾的效果大幅降低。更多詳情,請參見https://antidistillation.com。

3

在視頻生成的下幀預測模型中整合輸入幀上下文
Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

Apr 17
ByLvmin Zhang, Maneesh Agrawala
51
3

我們提出了一種名為FramePack的神經網絡結構,用於訓練視頻生成中的下一幀(或下一幀片段)預測模型。FramePack通過壓縮輸入幀,使得變換器的上下文長度成為固定值,而不受視頻長度的影響。因此,我們能夠利用與圖像擴散相似的計算瓶頸來處理大量幀,這也使得訓練視頻的批次大小顯著提高(批次大小與圖像擴散訓練相當)。此外,我們提出了一種抗漂移採樣方法,該方法以倒序時間順序生成幀,並提前確定端點,以避免曝光偏差(迭代過程中誤差的累積)。最後,我們展示了現有的視頻擴散模型可以通過FramePack進行微調,並且由於下一幀預測支持更平衡的擴散調度器,具有較不極端的流動偏移時間步長,其視覺質量可能得到提升。

4

生成但驗證:透過回顧性重採樣降低視覺語言模型中的幻覺現象
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling

Apr 17
ByTsung-Han Wu, Heekyung Lee, Jiaxin Ge, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
39
2

視覺語言模型(VLMs)在視覺理解方面表現卓越,但常常面臨視覺幻覺問題,即生成對不存在物體、動作或概念的描述,這在安全關鍵應用中構成重大風險。現有的幻覺緩解方法通常遵循兩種範式之一:生成調整,即修改解碼行為以使文本與視覺輸入對齊;以及事後驗證,即使用外部模型評估並修正輸出。雖然有效,但生成調整方法通常依賴啟發式方法且缺乏修正機制,而事後驗證則較為複雜,通常需要多個模型且傾向於拒絕輸出而非精煉它們。在本研究中,我們引入了REVERSE,一個將幻覺感知訓練與即時自我驗證相結合的統一框架。通過利用包含超過130萬半合成樣本的新幻覺驗證數據集,以及一種新穎的推理時回顧性重採樣技術,我們的方法使VLMs能夠在生成過程中檢測幻覺並動態修正這些幻覺。我們的評估顯示,REVERSE在幻覺減少方面達到了最先進的水平,在CHAIR-MSCOCO和HaloQuest上分別比現有最佳方法高出12%和28%。我們的數據集、模型和代碼可在以下網址獲取:https://reverse-vlm.github.io。

5

感知編碼器:最佳的視覺嵌入並非位於網絡的輸出層
Perception Encoder: The best visual embeddings are not at the output of the network

Apr 17
ByDaniel Bolya, Po-Yao Huang, Peize Sun, Jang Hyun Cho, Andrea Madotto, Chen Wei, Tengyu Ma, Jiale Zhi, Jathushan Rajasegaran, Hanoona Rasheed, Junke Wang, Marco Monteiro, Hu Xu, Shiyu Dong, Nikhila Ravi, Daniel Li, Piotr Dollár, Christoph Feichtenhofer
34
3

我們推出感知編碼器(Perception Encoder, PE),這是一種通過簡單的視覺-語言學習訓練而成、用於圖像和視頻理解的最新編碼器。傳統上,視覺編碼器依賴於多種預訓練目標,每種目標都針對特定的下游任務(如分類、字幕生成或定位)進行定制。令人驚訝的是,在擴展我們精心調校的圖像預訓練方案並通過我們強大的視頻數據引擎進行精煉後,我們發現僅對比視覺-語言訓練就能為所有這些下游任務生成強大且通用的嵌入。只有一個注意事項:這些嵌入隱藏在網絡的中間層中。為了提取它們,我們引入了兩種對齊方法:用於多模態語言建模的語言對齊,以及用於密集預測的空間對齊。結合核心對比檢查點,我們的PE模型家族在各種任務上實現了最先進的性能,包括零樣本圖像和視頻分類與檢索;文檔、圖像和視頻問答;以及檢測、深度估計和跟踪等空間任務。為了促進進一步的研究,我們將發布我們的模型、代碼以及一個包含合成和人工註釋視頻的新數據集。

6

WORLDMEM:基於記憶的長期一致性世界模擬
WORLDMEM: Long-term Consistent World Simulation with Memory

Apr 16
ByZeqi Xiao, Yushi Lan, Yifan Zhou, Wenqi Ouyang, Shuai Yang, Yanhong Zeng, Xingang Pan
34
2

世界模擬因其能夠建模虛擬環境並預測行動後果而日益受到關注。然而,有限的時間上下文窗口常常導致在保持長期一致性方面出現問題,特別是在維持3D空間一致性方面。在本研究中,我們提出了WorldMem框架,該框架通過一個由記憶單元組成的記憶庫來增強場景生成,這些記憶單元存儲記憶幀和狀態(例如,姿態和時間戳)。通過採用一種記憶注意力機制,能夠根據這些記憶幀的狀態有效地提取相關信息,我們的方法即使在顯著的視角或時間間隔下,也能準確重建先前觀察到的場景。此外,通過將時間戳納入狀態中,我們的框架不僅能模擬靜態世界,還能捕捉其隨時間的動態演變,從而實現模擬世界中的感知與互動。在虛擬和真實場景中的大量實驗驗證了我們方法的有效性。

7

70% 體積,100% 準確率:透過動態長度浮點數實現無損 LLM 壓縮,提升 GPU 推理效率
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

Apr 15
ByTianyi Zhang, Yang Sui, Shaochen Zhong, Vipin Chaudhary, Xia Hu, Anshumali Shrivastava
31
5

大型語言模型(LLMs)的規模迅速增長,這對在資源受限的硬體上進行高效部署帶來了重大挑戰。本文介紹了一種無損壓縮框架——動態長度浮點數(DFloat11),該框架能將LLM的體積減少30%,同時保持輸出與原始模型在比特級別上完全一致。DFloat11的動機來自於LLMs中BFloat16權重表示的低熵特性,這揭示了現有存儲格式的顯著低效性。通過應用熵編碼,DFloat11根據頻率為權重分配動態長度編碼,實現了近乎信息最優的壓縮,且無任何精度損失。為了支持動態長度編碼的高效推理,我們開發了一個定制的GPU內核,用於快速在線解壓縮。我們的設計包含以下幾點:(i) 將內存密集型的查找表(LUTs)分解為適合GPU SRAM的緊湊LUTs,(ii) 使用輕量級輔助變量協調線程讀寫位置的兩階段內核,以及(iii) 變壓器塊級別的解壓縮以最小化延遲。在包括Llama-3.1、Qwen-2.5和Gemma-3在內的近期模型上的實驗驗證了我們的假設,即DFloat11在保持比特級別精確輸出的同時,實現了約30%的模型體積縮減。與將未壓縮模型的部分數據卸載到CPU以滿足內存限制的潛在替代方案相比,DFloat11在令牌生成方面實現了1.9至38.8倍的更高吞吐量。在固定的GPU內存預算下,DFloat11使得上下文長度比未壓縮模型延長了5.3至13.17倍。值得注意的是,我們的方法使得在配備8x80GB GPU的單個節點上無損推理810GB的Llama-3.1-405B模型成為可能。我們的代碼和模型可在https://github.com/LeanModels/DFloat11獲取。

8

小型語言模型的戰略協調框架在數據合成中媲美大型語言模型
A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis

Apr 11
ByXin Gao, Qizhi Pei, Zinan Tang, Yu Li, Honglin Lin, Jiang Wu, Conghui He, Lijun Wu
28
2

雖然數據合成與蒸餾是提升小型語言模型的有效策略,但現有方法過度依賴大型語言模型(LLMs),這些模型存在計算成本高、環境效率低以及從單一架構中繼承的潛在偏見等問題。相比之下,小型LLMs更易於獲取且更具可持續性,但其個體能力在生成高質量、多樣化且可靠的數據方面往往不足。受人類協作過程(如同行評審)的啟發,我們提出了一個多個小型LLMs參與的框架——GRA,該框架通過聚合小型LLMs的專業角色來實現通常由單一大型LLM完成的迭代優化和質量控制。在這個協作框架中,多個小型LLMs承擔不同的角色——生成者、審閱者和裁決者——以模擬一個受同行評審啟發的數據合成流程。生成者提出初始數據樣本,審閱者對其質量和多樣性進行評判,而裁決者則解決衝突以最終確定輸出。通過將合成過程分解為專業的子任務,協作的小型LLMs能夠在數據層面達到與基於大型LLM的蒸餾相當的水平。通過在多個基準上的實驗,我們證明GRA生成的數據匹配甚至超越了單一大型LLM的輸出質量,例如Qwen-2.5-72B-Instruct。我們的結果挑戰了高質量數據合成必須依賴單一大型模型的必要性,轉而倡導對小型代理進行戰略性協調。我們的數據集、模型和代碼已公開於https://github.com/GX-XinGao/GRA。

9

ChartQAPro:一個更為多元且具挑戰性的圖表問答基準測試
ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering

Apr 7
ByAhmed Masry, Mohammed Saidul Islam, Mahir Ahmed, Aayush Bajaj, Firoz Kabir, Aaryaman Kartha, Md Tahmid Rahman Laskar, Mizanur Rahman, Shadikur Rahman, Mehrad Shahmohammadi, Megh Thakkar, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty
25
2

圖表無處不在,人們常利用它們來分析數據、解答問題並挖掘關鍵見解。然而,執行複雜的圖表分析任務需要大量的感知與認知努力。圖表問答系統(CQA)通過使模型能夠解讀並推理數據的視覺表示,自動化這一過程。但現有的基準測試如ChartQA缺乏現實世界的多樣性,且近期顯示出現代大型視覺語言模型(LVLMs)的性能飽和。為解決這些限制,我們推出了ChartQAPro,這是一個新基準,包含來自157個不同來源的1,341張圖表,涵蓋多種圖表類型,包括信息圖和儀表板,並設有1,948道多樣化的問題,如選擇題、對話式問題、假設性問題及無解問題,以更好地反映現實世界的挑戰。我們對21個模型的評估顯示,LVLMs在ChartQAPro上的表現大幅下降;例如,Claude Sonnet 3.5在ChartQA上得分90.5%,但在ChartQAPro上僅得55.81%,凸顯了圖表推理的複雜性。我們通過詳細的錯誤分析和消融研究補充了這些發現,識別出提升LVLMs在圖表理解與推理方面能力的關鍵挑戰與機遇。ChartQAPro已發佈於https://github.com/vis-nlp/ChartQAPro。

10

DMM:基於蒸餾的模型合併構建多功能圖像生成模型
DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging

Apr 16
ByTianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang
22
3

文本到圖像(T2I)生成模型的成功,促進了從同一基礎模型針對各種專業數據集微調而來的眾多模型檢查點的激增。這種過度專業化的模型生產帶來了高參數冗餘和巨大存儲成本的新挑戰,因此迫切需要開發有效的方法來整合和統一多種強大模型的能力於單一模型中。模型合併的常見做法是在參數空間中採用靜態線性插值以實現風格混合的目標。然而,這種方法忽略了T2I生成任務的特點,即眾多不同模型涵蓋了多樣化的風格,這可能導致合併模型中的不相容性和混淆。為解決這一問題,我們引入了一種風格可提示的圖像生成管道,該管道能夠在風格向量的控制下精確生成任意風格的圖像。基於這一設計,我們提出了基於分數蒸餾的模型合併範式(DMM),將多個模型壓縮成一個多功能的T2I模型。此外,我們重新思考並重新表述了在T2I生成背景下的模型合併任務,提出了新的合併目標和評估協議。我們的實驗表明,DMM能夠緊湊地重組來自多個教師模型的知識,並實現可控的任意風格生成。

11

VistaDPO:面向大型視頻模型的層次化時空直接偏好優化
VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models

Apr 17
ByHaojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei
20
4

基於大型語言模型(LLMs)構建的大型視頻模型(LVMs)在視頻理解方面展現出潛力,但常面臨與人類直覺不對齊及視頻幻覺問題。為應對這些挑戰,我們引入了VistaDPO,一個新穎的視頻層次時空直接偏好優化框架。VistaDPO在三個層次上增強了文本與視頻的偏好對齊:i) 實例層次,將整體視頻內容與回應對齊;ii) 時間層次,將視頻的時序語義與事件描述對齊;iii) 感知層次,將空間對象與語言標記對齊。鑑於缺乏細粒度視頻-語言偏好對齊的數據集,我們構建了VistaDPO-7k,這是一個包含7.2K問答對的數據集,每個問答對都標註了選定和拒絕的回應,以及時空定位信息,如時間戳、關鍵幀和邊界框。在視頻幻覺、視頻問答和字幕生成等基準測試上的廣泛實驗表明,VistaDPO顯著提升了現有LVMs的性能,有效緩解了視頻與語言的不對齊和幻覺問題。代碼和數據可在https://github.com/HaroldChen19/VistaDPO獲取。

12

NoisyRollout:透過數據增強強化視覺推理能力
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation

Apr 17
ByXiangyan Liu, Jinjie Ni, Zijian Wu, Chao Du, Longxu Dou, Haonan Wang, Tianyu Pang, Michael Qizhe Shieh
19
2

近期強化學習(RL)的進展增強了視覺語言模型(VLMs)的推理能力。然而,在VLMs中,如何提升策略探索以更有效地擴展測試時計算資源仍未被充分探索。此外,VLMs在處理不完美的視覺感知方面仍存在困難,這反過來影響了後續的推理過程。為此,我們提出了NoisyRollout,這是一種簡單而有效的RL方法,通過混合來自乾淨和適度失真圖像的軌跡,在視覺感知和由此產生的推理模式中引入有針對性的多樣性。在無需額外訓練成本的情況下,NoisyRollout通過融入視覺導向的歸納偏置,增強了VLMs的探索能力。此外,NoisyRollout採用了一種噪聲退火調度,在訓練過程中逐漸降低失真強度,確保在早期從噪聲信號中獲益,同時在後期保持訓練的穩定性和可擴展性。僅使用2.1K訓練樣本,NoisyRollout在涵蓋推理和感知任務的5個域外基準測試中,實現了開源RL調優模型中的最先進性能,同時保持了相當甚至更好的域內性能。

13

PerceptionLM:開放式視覺理解數據集與模型
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

Apr 17
ByJang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer
19
4

視覺語言模型是計算機視覺研究的核心組成部分,然而許多高性能模型仍保持閉源,隱藏了其數據、設計和訓練方法。研究界對此的回應是通過從黑箱模型中進行蒸餾來標註訓練數據,從而取得強勁的基準測試結果,但這是以可衡量的科學進步為代價的。然而,若不了解教師模型的細節及其數據來源,科學進步仍難以衡量。本文中,我們研究在一個完全開放且可重現的框架下構建感知語言模型(PLM),以促進圖像和視頻理解領域的透明研究。我們分析了不依賴於專有模型蒸餾的標準訓練流程,並探索大規模合成數據以識別關鍵數據缺口,特別是在細粒度視頻理解方面。為彌補這些缺口,我們發布了280萬條人工標註的細粒度視頻問答對及時空定位的視頻描述。此外,我們引入了PLM-VideoBench,這是一套專注於評估視頻理解中“什麼”、“在哪裡”、“何時”和“如何”推理能力的挑戰性任務的測試集。我們通過提供數據、訓練方法、代碼和模型,確保我們的工作完全可重現。

14

InstantCharacter:基於可擴展擴散變換器框架的個性化角色生成
InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework

Apr 16
ByJiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu
16
2

當前基於學習的主體定制方法,主要依賴於U-Net架構,存在泛化能力有限和圖像質量受損的問題。與此同時,基於優化的方法需要針對特定主體進行微調,這不可避免地降低了文本的可控性。為解決這些挑戰,我們提出了InstantCharacter,這是一個基於基礎擴散變換器的可擴展角色定制框架。InstantCharacter展現了三個基本優勢:首先,它能夠在保持高保真結果的同時,實現跨多樣角色外觀、姿態和風格的開放域個性化。其次,該框架引入了一個帶有堆疊變換器編碼器的可擴展適配器,有效處理開放域角色特徵,並與現代擴散變換器的潛在空間無縫交互。第三,為了有效訓練該框架,我們構建了一個包含千萬級樣本的大規模角色數據集。該數據集系統地組織成配對(多視角角色)和非配對(文本-圖像組合)子集。這種雙數據結構通過不同的學習路徑,實現了身份一致性和文本可編輯性的同步優化。定性實驗展示了InstantCharacter在生成高保真、文本可控且角色一致的圖像方面的先進能力,為角色驅動的圖像生成樹立了新標杆。我們的源代碼可在https://github.com/Tencent/InstantCharacter獲取。

15

睡眠時間計算:超越測試時的推理擴展
Sleep-time Compute: Beyond Inference Scaling at Test-time

Apr 17
ByKevin Lin, Charlie Snell, Yu Wang, Charles Packer, Sarah Wooders, Ion Stoica, Joseph E. Gonzalez
15
3

擴展測試時計算已成為使大型語言模型(LLMs)解決難題的關鍵要素,但這也伴隨著高延遲和推理成本。我們引入了休眠時計算,該方法允許模型在查詢提出之前離線“思考”上下文:通過預測用戶可能提出的查詢並預先計算有用的量,我們可以顯著降低測試時的計算需求。為了展示我們方法的有效性,我們創建了兩個推理任務的修改版本——有狀態的GSM-Symbolic和有狀態的AIME。我們發現,休眠時計算可以將達到相同準確度所需的測試時計算量減少約5倍於有狀態的GSM-Symbolic和有狀態的AIME,並且通過擴展休眠時計算,我們可以進一步將準確度提高最多13%於有狀態的GSM-Symbolic和18%於有狀態的AIME。此外,我們引入了多查詢GSM-Symbolic,它通過在每個上下文中包含多個相關查詢來擴展GSM-Symbolic。通過使用多查詢GSM-Symbolic將休眠時計算分攤到同一上下文的多個相關查詢上,我們可以將每查詢的平均成本降低2.5倍。然後,我們進行了額外的分析以了解休眠時計算何時最有效,發現用戶查詢的可預測性與休眠時計算的有效性高度相關。最後,我們進行了一項案例研究,將休眠時計算應用於一個現實的代理軟件工程任務中。

16

探索專家失誤提升LLM代理調校
Exploring Expert Failures Improves LLM Agent Tuning

Apr 17
ByLi-Cheng Lan, Andrew Bai, Minhao Cheng, Ruochen Wang, Cho-Jui Hsieh, Tianyi Zhou
12
4

大型語言模型(LLMs)作為代理已展現出巨大潛力,在需要多輪推理與互動的任務中表現卓越。拒絕採樣微調(RFT)已成為微調LLMs作為代理的有效方法:它首先模仿專家生成的成功軌跡,並通過在自我生成的成功軌跡上進行迭代微調來進一步提升代理技能。然而,由於專家(例如GPT-4)主要在較簡單的子任務上取得成功,且RFT本質上偏向於簡單情境,許多複雜的子任務仍然未解決並持續處於分佈外(OOD)。在調查這些具有挑戰性的子任務時,我們發現先前失敗的專家軌跡往往能提供有價值的指導,例如計劃和關鍵行動,這些指導能顯著提高代理探索效率和關鍵技能的獲取。基於這些觀察,我們提出了探索專家失敗(EEF),該方法從失敗的專家軌跡中識別出有益的行動,並將其整合到訓練數據集中。潛在有害的行動則被謹慎排除,以防止污染模型的學習過程。通過利用專家失敗中的有益行動,EEF成功解決了一些先前無法解決的子任務,並提升了代理微調性能。值得注意的是,我們的方法在WebShop中達到了62%的勝率,超越了RFT(53.6%)和GPT-4(35.6%),並且據我們所知,首次在WebShop中超過0.81分,並在SciWorld中超過81分,創下了新的最先進水平。

17

CCMNet:利用校準色彩校正矩陣實現跨相機色彩恆常性
CCMNet: Leveraging Calibrated Color Correction Matrices for Cross-Camera Color Constancy

Apr 10
ByDongyoung Kim, Mahmoud Afifi, Dongyun Kim, Michael S. Brown, Seon Joo Kim
10
2

計算色彩恆常性,或稱白平衡,是相機圖像信號處理器(ISP)中的關鍵模組,用於校正場景照明造成的色偏。由於此操作在相機特定的原始色彩空間中進行,白平衡算法必須適應不同的相機。本文介紹了一種基於學習的跨相機色彩恆常性方法,該方法能夠在不重新訓練的情況下泛化到新相機。我們的方法利用了ISP上預先校準的色彩校正矩陣(CCMs),這些矩陣將相機的原始色彩空間映射到標準空間(例如,CIE XYZ)。我們的方法使用這些CCMs將預定義的照明顏色(即沿普朗克軌跡)轉換到測試相機的原始空間中。映射後的照明顏色被編碼成一個緊湊的相機指紋嵌入(CFE),使網絡能夠適應未見過的相機。為了防止由於訓練期間相機和CCMs數量有限而導致的過擬合,我們引入了一種數據增強技術,該技術在相機及其CCMs之間進行插值。在多個數據集和骨幹網絡上的實驗結果表明,我們的方法在保持輕量級且僅依賴於相機ISP中現有數據的情況下,實現了最先進的跨相機色彩恆常性。

18

FocusedAD:以角色為中心的電影口述影像
FocusedAD: Character-centric Movie Audio Description

Apr 16
ByXiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
8
3

電影音頻描述(AD)旨在對話空白段中敘述視覺內容,特別有益於盲人和視力障礙(BVI)觀眾。與一般的視頻字幕相比,AD要求提供與情節相關的敘述,並明確提及角色名稱,這在電影理解方面提出了獨特的挑戰。為了識別活躍的主要角色並聚焦於與故事線相關的區域,我們提出了FocusedAD,這是一個新穎的框架,提供以角色為中心的電影音頻描述。它包括:(i)一個角色感知模塊(CPM),用於追蹤角色區域並將其與名稱關聯;(ii)一個動態先驗模塊(DPM),通過可學習的軟提示從先前的AD和字幕中注入上下文線索;(iii)一個聚焦字幕模塊(FCM),生成富含情節相關細節和命名角色的敘述。為克服角色識別的局限性,我們還引入了一個自動化管道來構建角色查詢庫。FocusedAD在多個基準測試中達到了最先進的性能,包括在MAD-eval-Named和我們新提出的Cinepile-AD數據集上的強大零樣本結果。代碼和數據將在https://github.com/Thorin215/FocusedAD 發布。

19

Complex-Edit:面向複雜度可控圖像編輯基準的類CoT指令生成
Complex-Edit: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark

Apr 17
BySiwei Yang, Mude Hui, Bingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie
7
2

我們推出了Complex-Edit,這是一個全面的基準測試,旨在系統性地評估基於指令的圖像編輯模型在不同複雜度指令下的表現。為構建此基準,我們利用GPT-4o大規模自動收集多樣化的編輯指令集。我們的方法遵循一個結構化的“編輯鏈”流程:首先獨立生成單個原子級編輯任務,然後將其整合形成連貫的複雜指令。此外,我們引入了一套評估指標來衡量編輯性能的各個方面,並配備了一個基於視覺語言模型的自動評估管道,以支持大規模評估。我們的基準測試揭示了幾個重要發現:1)開源模型相較於專有的閉源模型表現顯著落後,且隨著指令複雜度增加,性能差距進一步擴大;2)指令複雜度的提升主要損害了模型保留輸入圖像關鍵元素及維持整體美學質量的能力;3)將複雜指令分解為一系列原子步驟並逐步執行,會在多個指標上顯著降低性能;4)簡單的Best-of-N選擇策略無論是對直接編輯還是逐步順序方法都能提升結果;5)我們觀察到“合成數據的詛咒”:當模型訓練涉及合成數據時,隨著編輯指令複雜度的提升,這些模型生成的編輯圖像趨向於呈現出越來越多的合成痕跡——這一現象有趣地也在最新的GPT-4o輸出中顯現。

20

基於矛盾證據的檢索增強生成
Retrieval-Augmented Generation with Conflicting Evidence

Apr 17
ByHan Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal
6
2

大型語言模型(LLM)代理越來越多地採用檢索增強生成(RAG)技術來提升其回應的事實準確性。然而,在實際應用中,這些系統常常需要處理模糊的用戶查詢以及來自多個來源的潛在衝突信息,同時還需抑制來自噪聲或不相關文件的不準確信息。以往的研究通常孤立地探討和解決這些挑戰,每次只考慮一個方面,例如處理模糊性或對噪聲和錯誤信息的魯棒性。我們則同時考慮多個因素,提出了(i)RAMDocs(帶有模糊性和錯誤信息的文件檢索),這是一個模擬複雜且現實情境下用戶查詢衝突證據的新數據集,包括模糊性、錯誤信息和噪聲;以及(ii)MADAM-RAG,這是一種多代理方法,其中LLM代理在多輪討論中辯論答案的優劣,允許聚合器整理對應於消除模糊性實體的回應,同時丟棄錯誤信息和噪聲,從而共同處理多種衝突來源。我們在AmbigDocs(需要為模糊查詢呈現所有有效答案)上展示了MADAM-RAG的有效性,使用閉源和開源模型均優於強RAG基線,最高提升11.40%;在FaithEval(需要抑制錯誤信息)上,使用Llama3.3-70B-Instruct模型,我們最高提升了15.80%(絕對值)。此外,我們發現RAMDocs對現有的RAG基線構成了挑戰(Llama3.3-70B-Instruct僅獲得32.60的精確匹配分數)。儘管MADAM-RAG開始解決這些衝突因素,我們的分析表明,特別是在增加支持證據和錯誤信息的不平衡程度時,仍存在顯著的差距。

21

MetaSynth:基於元提示驅動的代理框架,實現多樣化合成數據生成
MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation

Apr 17
ByHaris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood
4
2

近期如Phi-3.5和Phi-4等較小型的語言模型,依賴於利用更大規模語言模型生成的合成數據。然而,關於如何將合成數據應用於其他用途,例如使大型語言模型(LLMs)適應特定領域,仍存在疑問。合成數據的一個主要限制是其多樣性不足,這對其用於改進其他模型的下游應用產生了負面影響。為解決這一問題,我們提出了MetaSynth,這是一種通過元提示(meta-prompting)來生成合成數據的方法,其中一個語言模型協調多個“專家”LLM代理協作生成數據。僅使用MetaSynth生成的2500萬個token的合成數據,我們成功將一個訓練良好的LLM(Mistral-7B-v0.3)適應到兩個專業領域——金融和生物醫學——且未損害模型在通用任務中的能力。此外,我們使用七種自動化指標評估了合成數據的多樣性,發現其接近LLM預訓練語料庫的多樣性。 持續使用MetaSynth對Mistral-7B-v0.3進行預訓練,顯著超越了基礎LLM,在金融領域提升了高達4.08%,在生物醫學領域提升了13.75%。當使用模板提示生成的數據進行訓練時,即使模板包含先前的生成結果和不同的真實數據上下文示例,同一模型的性能也會下降。我們的研究表明,在使用MetaSynth時,僅需數百萬個token的多樣性合成數據,無需混合任何真實數據,即可實現有效的領域適應。

22

正本清源:自動導航去噪軌跡以規避不良概念
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts

Apr 17
ByLeyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong
3
2

確保文本到圖像模型的倫理部署,需要有效技術來防止生成有害或不當內容。雖然概念擦除方法提供了一個有前景的解決方案,但現有的基於微調的方法存在顯著限制。無錨方法可能破壞採樣軌跡,導致視覺偽影,而有錨方法則依賴於啟發式選擇的錨概念。為克服這些不足,我們引入了一個名為ANT的微調框架,它能自動引導去噪軌跡以避免不需要的概念。ANT基於一個關鍵洞察:在去噪的中後期階段反轉無分類器引導的條件方向,可以在不犧牲早期結構完整性的前提下實現精確的內容修改。這啟發了一種軌跡感知的目標函數,它保持了早期階段分數函數場的完整性,引導樣本向自然圖像流形靠近,而無需依賴啟發式的錨概念選擇。對於單一概念擦除,我們提出了一種增強型權重顯著性圖,以精確識別對不需要概念貢獻最大的關鍵參數,從而實現更徹底和高效的擦除。對於多概念擦除,我們的目標函數提供了一個靈活的即插即用解決方案,顯著提升了性能。大量實驗表明,ANT在單一和多概念擦除方面均達到了最先進的成果,在不損害生成保真度的前提下,輸出了高質量且安全的結果。代碼可在https://github.com/lileyang1210/ANT 獲取。

23

學習抗遮擋視覺變換器以實現無人機即時追蹤
Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking

Apr 12
ByYou Wu, Xucheng Wang, Xiangyang Yang, Mengyuan Liu, Dan Zeng, Hengzhou Ye, Shuiwang Li
3
2

近期,基於視覺Transformer(ViT)骨幹的單流架構在實時無人機(UAV)追蹤中展現出巨大潛力。然而,建築物和樹木等障礙物頻繁造成的遮擋暴露了這些模型的一個主要缺陷:它們往往缺乏有效處理遮擋的策略。因此,需要新的方法來增強單流ViT模型在航空追蹤中的遮擋魯棒性。在本研究中,我們提出了一種基於ViT的遮擋魯棒表示(ORR)學習方法,通過強制目標特徵表示對由空間Cox過程建模的隨機遮罩操作保持不變性,來提升UAV追蹤的遮擋魯棒性。這種隨機遮罩操作近似模擬了目標遮擋,從而使我們能夠學習到對目標遮擋具有魯棒性的ViT模型,用於UAV追蹤。該框架被命名為ORTrack。此外,為了促進實時應用,我們提出了一種自適應特徵知識蒸餾(AFKD)方法,以創建一個更為緊湊的追蹤器,該追蹤器根據任務難度自適應地模仿教師模型ORTrack的行為。這個學生模型被稱為ORTrack-D,它在保持ORTrack大部分性能的同時,提供了更高的效率。在多個基準上的廣泛實驗驗證了我們方法的有效性,展示了其最先進的性能。代碼可在https://github.com/wuyou3474/ORTrack 獲取。

Apr 17
Apr 18
Apr 21