ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

ROICtrl:提升視覺生成的實例控制
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27, 2024
Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
712

自然語言通常難以準確地將位置和屬性信息與多個實例關聯起來,這限制了當前基於文本的視覺生成模型僅能處理較簡單組合,其中僅包含少數主要實例。為解決這一限制,本研究通過引入區域實例控制來增強擴散模型,其中每個實例由與自由形式標題配對的邊界框控制。該領域的先前方法通常依賴於隱式位置編碼或顯式注意力遮罩來分離感興趣區域(ROIs),這導致注入坐標不準確或計算開銷過大。受物體檢測中的ROI-Align啟發,我們引入了一個稱為ROI-Unpool的互補操作。ROI-Align和ROI-Unpool共同在高分辨率特徵圖上實珅了明確、高效且準確的ROI操作。基於ROI-Unpool,我們提出了ROICtrl,這是一個用於預訓練擴散模型的適配器,實現精確的區域實例控制。ROICtrl與社區微調的擴散模型兼容,同時也兼容現有的基於空間的附加組件(例如ControlNet、T2I-Adapter)和基於嵌入的附加組件(例如IP-Adapter、ED-LoRA),將它們的應用擴展到多實例生成。實驗表明,ROICtrl在區域實例控制方面實現了優越性能,同時顯著降低了計算成本。

交錯式場景圖用於交錯式文本和圖像生成的評估
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26, 2024
Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna
192

許多現實世界的使用者查詢(例如:"如何製作蛋炒飯?")可以從能夠生成具有文字步驟和相應圖像的回應系統中受益,類似於烹飪書。設計用於生成交錯文本和圖像的模型在確保這些模態內部和之間的一致性方面面臨挑戰。為了應對這些挑戰,我們提出了ISG,一個用於交錯文本和圖像生成的全面評估框架。ISG利用場景圖結構來捕捉文本和圖像區塊之間的關係,通過四個級別的粒度進行評估:整體、結構、區塊級和圖像特定。這種多層次的評估允許對一致性、連貫性和準確性進行微妙評估,並提供可解釋的問答反饋。除了ISG,我們還引入了一個基準,ISG-Bench,包括8個類別和21個子類別的1,150個樣本。這個基準數據集包含複雜的語言-視覺依賴關係和黃金答案,以有效評估模型在視覺中心任務上的表現,例如風格轉換,這是當前模型中具有挑戰性的領域。使用ISG-Bench,我們展示了最近的統一視覺-語言模型在生成交錯內容方面表現不佳。儘管組合方法結合了獨立的語言和圖像模型在整體水平上比統一模型提高了111%,但它們在區塊和圖像級別的表現仍然不理想。為了促進未來的工作,我們開發了ISG-Agent,一個基線代理,採用“計劃-執行-優化”流程來調用工具,實現了122%的性能改善。

透過頻率分解保持身份的文本到視頻生成
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26, 2024
Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan
133

保持身份的文本到視頻(IPT2V)生成旨在創建具有一致人類身份的高保真度視頻。這是視頻生成中的一項重要任務,但對生成模型來說仍然是一個未解決的問題。本文在兩個文獻中尚未解決的方向上推動了IPT2V的技術前沿:(1)一個無需繁瑣的案例調整即可調整的管道,以及(2)一個頻率感知啟發式保持身份的DiT控制方案。我們提出了ConsisID,一個無需調整的DiT控制可控IPT2V模型,以保持生成的視頻中的人類身份一致。受擴散變壓器頻率分析先前發現的啟發,它在頻率域中使用身份控制信號,其中面部特徵可以被分解為低頻全局特徵和高頻固有特徵。首先,從低頻角度出發,我們引入了一個全局面部提取器,將參考圖像和面部關鍵點編碼為潛在空間,生成富含低頻信息的特徵。然後,將這些特徵集成到網絡的淺層中,以減輕與DiT相關的訓練挑戰。其次,從高頻角度出發,我們設計了一個局部面部提取器,捕捉高頻細節並將其注入變壓器塊,增強模型保存細粒特徵的能力。我們提出了一種分層訓練策略,利用頻率信息進行身份保持,將普通的預訓練視頻生成模型轉換為IPT2V模型。大量實驗表明,我們的頻率感知啟發式方案為基於DiT的模型提供了最佳控制解決方案。由於這個方案,我們的ConsisID生成了高質量、保持身份的視頻,朝著更有效的IPT2V邁出了一步。

MARVEL-40M+: 多層次視覺闡釋,用於高保真度文本轉3D內容創作
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26, 2024
Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
214

從文本提示生成高保真度的3D內容仍然是計算機視覺中的一個重要挑戰,這是由於現有數據集的規模、多樣性和標註深度有限。為了應對這一挑戰,我們引入了MARVEL-40M+,這是一個包含4000萬文本標註的龐大數據集,涵蓋了從七個主要3D數據集中匯總的超過890萬個3D資產。我們的貢獻是一種新穎的多階段標註流程,該流程整合了開源預訓練的多視圖VLM和LLM,以自動生成從詳細(150-200字)到簡潔語義標籤(10-20字)的多級描述。這種結構支持精細的3D重建和快速原型設計。此外,我們將來自源數據集的人類元數據納入我們的標註流程中,以在標註中添加特定領域的信息並減少VLM的幻覺。此外,我們開發了MARVEL-FX3D,這是一個兩階段的文本到3D流程。我們使用我們的標註對Stable Diffusion進行微調,並使用預訓練的圖像到3D網絡在15秒內生成3D紋理網格。廣泛的評估顯示,MARVEL-40M+在標註質量和語言多樣性方面明顯優於現有數據集,通過GPT-4達到了72.41%的勝率,通過人類評估者達到了73.40%的勝率。

CAT4D:使用多視角視頻擴散模型在4D中創建任何事物
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27, 2024
Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski
595

我們提出了CAT4D,一種從單眼視頻創建4D(動態3D)場景的方法。CAT4D利用在多個視角上進行訓練的視頻擴散模型,該模型是在各種數據集的基礎上訓練的,從而能夠在任意指定的相機姿勢和時間戳下進行新視角合成。結合一種新穎的採樣方法,該模型可以將單眼視頻轉換為多視角視頻,通過優化可變形的3D高斯表示來實現強大的4D重建。我們展示了在新視角合成和動態場景重建基準測試中的競爭性表現,並突出了從真實或生成的視頻中生成4D場景的創造性能力。請查看我們的項目頁面以獲取結果和互動演示:cat-4d.github.io。

大型語言模型驅動的 GUI 代理:一項調查
Large Language Model-Brained GUI Agents: A Survey

Nov 27, 2024
Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
323

GUI(圖形用戶界面)長期以來一直是人機交互的核心,提供了直觀且視覺化的方式來訪問和與數字系統互動。LLM(大型語言模型)的出現,特別是多模型,開啟了GUI自動化的新時代。它們在自然語言理解、代碼生成和視覺處理方面展示了卓越的能力。這為一代新型的LLM大腦GUI代理鋪平了道路,能夠解釋複雜的GUI元素並根據自然語言指令自主執行操作。這些代理代表了一種範式轉變,使用戶能夠通過簡單的對話命令執行複雜的多步任務。它們的應用涵蓋網頁導航、移動應用程序交互和桌面自動化,提供了一種革命性的用戶體驗,徹底改變了個人與軟件互動的方式。這一新興領域正在迅速發展,無論在研究還是行業中都取得了顯著進展。 為了對這一趨勢提供結構化理解,本文提出了對LLM大腦GUI代理的全面調查,探討它們的歷史演變、核心組件和高級技術。我們探討了研究問題,如現有的GUI代理框架、為訓練專門的GUI代理收集和利用數據、為GUI任務量身定制的大型動作模型的開發,以及評估其有效性所需的評估指標和基準。此外,我們還研究了由這些代理驅動的新興應用。通過詳細分析,這項調查確定了關鍵的研究空白,並概述了未來在該領域取得進展的路徑。通過整合基礎知識和最新發展,本研究旨在引導研究人員和從業者克服挑戰,發揮LLM大腦GUI代理的全部潛力。

擴散自我蒸餾用於零樣本定制圖像生成
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27, 2024
Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein
166

文字到圖像擴散模型產生令人印象深刻的結果,但對於希望精細控制的藝術家來說,這些工具令人沮喪。例如,一個常見的用例是在新的情境中創建特定實例的圖像,即「保持身份生成」。這種情況,以及許多其他任務(例如,重新照明),都非常適合圖像+文字條件生成模型。然而,目前缺乏高質量的配對數據來直接訓練這樣的模型。我們提出了擴散自我蒸餾,一種利用預先訓練的文字到圖像模型生成自己數據集以進行文本條件的圖像對圖像任務的方法。我們首先利用文字到圖像擴散模型的上下文生成能力來創建圖像網格,並在視覺語言模型的幫助下精心編輯一個大型配對數據集。然後,我們通過使用經過精心編輯的配對數據集,將文字到圖像模型微調為文本+圖像對圖像模型。我們展示了擴散自我蒸餾在廣泛的身份保留生成任務中優於現有的零樣本方法,並與每個實例調整技術競爭,而無需測試時優化。

3D凸面片:使用3D光滑凸面渲染辐射场
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22, 2024
Jan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck
165

最近在輝度場重建方面取得的進展,如三維高斯飛濺(3DGS),通過以高斯基元素的組合來表示場景,實現了高質量的新視角合成和快速渲染。然而,三維高斯存在幾個限制,對於準確捕捉硬邊緣而不顯著增加高斯數量以減少記憶體佔用是一項挑戰。此外,它們難以表示平面表面,因為它們在空間中擴散。在沒有手工設計的正則化器的情況下,它們往往會在實際表面周圍不規則地分散。為了避免這些問題,我們引入了一種新方法,名為三維凸飛濺(3DCS),它利用三維平滑凸形作為基元素,從多視圖圖像中建模幾何有意義的輝度場。平滑的凸形形狀比高斯更具靈活性,可以更好地表示具有硬邊緣和密集體積的三維場景,並使用更少的基元素。憑藉我們高效的基於CUDA的光柵化器,3DCS在Mip-NeRF360、Tanks and Temples和Deep Blending等基準測試中實現了優異性能。具體而言,我們的方法在PSNR和LPIPS方面相對於3DGS取得了高達0.81和0.026的改善,同時保持高渲染速度並減少所需基元素的數量。我們的結果突顯了三維凸飛濺成為高質量場景重建和新視角合成的新標準的潛力。項目頁面:convexsplatting.github.io。

DiffusionDrive:端截式擴散模型用於端對端自主駕駛
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22, 2024
Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
152

最近,擴散模型已成為機器人政策學習的強大生成技術,能夠建模多模式動作分佈。利用其端到端自主駕駛的能力是一個有前途的方向。然而,在機器人擴散政策中存在眾多去噪步驟,以及交通場景更具動態、開放性的特性,這對於實時速度生成多樣化駕駛動作構成了重大挑戰。為了應對這些挑戰,我們提出了一種新穎的截斷擴散政策,該政策結合了先前的多模錨點,並截斷了擴散時間表,使模型能夠從錨定的高斯分佈學習去噪至多模式駕駛動作分佈。此外,我們設計了一個高效的級聯擴散解碼器,以增強與條件場景上下文的交互作用。所提出的模型DiffusionDrive相較於基本擴散政策,去噪步驟減少了10倍,僅需2步即可提供優越的多樣性和質量。在以規劃為導向的NAVSIM數據集上,搭配對齊的ResNet-34骨幹,DiffusionDrive實現了88.1的PDMS,無需花巧,創下了新紀錄,並在NVIDIA 4090上以每秒45幀的實時速度運行。對於具有挑戰性情景的定性結果進一步確認,DiffusionDrive能夠穩健地生成多樣且合理的駕駛動作。代碼和模型將在https://github.com/hustvl/DiffusionDrive 上提供。

Make-It-Animatable: 一個有效的框架,用於製作動畫就緒的3D角色
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27, 2024
Zhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang
144

現代創意產業中,3D角色是不可或缺的,但使它們具有動畫性往往需要大量手動工作,如骨骼綁定和皮膚設定。現有的自動骨骼綁定工具存在幾個限制,包括需要手動標註、僵硬的骨架拓撲和在不同形狀和姿勢之間的泛化能力有限。另一種方法是生成可動化的預綁定到骨骼模板網格的化身。然而,這種方法通常缺乏靈活性,並且通常僅限於逼真的人體形狀。為了解決這些問題,我們提出了一種新穎的數據驅動方法,稱為Make-It-Animatable,可以使任何3D人形模型在不到一秒的時間內準備好進行角色動畫,無論其形狀和姿勢如何。我們的統一框架生成高質量的混合權重、骨骼和姿勢變換。通過結合基於粒子的形狀自編碼器,我們的方法支持各種3D表示,包括網格和3D高斯斑點。此外,我們採用粗到細的表示和結構感知建模策略,以確保對於具有非標準骨架結構的角色,即使是精確和穩健的。我們進行了大量實驗來驗證我們框架的有效性。與現有方法相比,我們的方法在質量和速度方面都取得了顯著的改善。

UniPose:一個統一的多模態框架,用於人體姿勢理解、生成和編輯。
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25, 2024
Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
134

在數位時代中,人體姿勢扮演著至關重要的角色。儘管最近的研究在理解和生成人體姿勢方面取得了令人印象深刻的進展,但它們通常僅支持單一模態的控制信號並且運作獨立,限制了它們在現實場景中的應用。本文提出了UniPose,一個利用大型語言模型(LLMs)來理解、生成和編輯人體姿勢的框架,跨越各種模態,包括圖像、文本和3D SMPL姿勢。具體而言,我們應用姿勢分詞器將3D姿勢轉換為離散的姿勢標記,實現與統一詞彙表中的LLM的無縫集成。為了進一步增強細粒度的姿勢感知能力,我們為UniPose提供了一組視覺編碼器,其中包括一個特定於姿勢的視覺編碼器。受益於統一的學習策略,UniPose有效地在不同的與姿勢相關的任務之間轉移知識,適應未見過的任務,並展現了擴展的能力。這項工作是建立一個通用框架用於姿勢理解、生成和編輯的首次嘗試。廣泛的實驗突顯了UniPose在各種與姿勢相關的任務中具有競爭力甚至優越的表現。

協作解碼使視覺自回歸建模更有效率。
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26, 2024
Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
122

在快速發展的影像生成領域中,視覺自回歸(VAR)建模因其創新的下一階段預測方法而引起廣泛關注。這種範式在效率、可擴展性和零樣本泛化方面帶來了顯著改進。然而,VAR固有的由粗到細的特性引入了較長的標記序列,導致內存消耗和計算冗餘變得難以承受。為了解決這些瓶頸,我們提出了協同解碼(CoDe),這是一種針對VAR框架量身定制的新型高效解碼策略。CoDe基於兩個關鍵觀察結果:在較大尺度上大幅降低了參數需求,以及不同尺度之間具有獨特生成模式。基於這些見解,我們將多尺度推理過程劃分為大模型和小模型之間的無縫協作。大模型充當“起草者”,專門生成較小尺度的低頻內容,而小模型則充當“精煉者”,僅專注於在較大尺度上預測高頻細節。這種協作方式實現了顯著的高效率,對質量幾乎沒有影響:CoDe實現了1.7倍的加速,將內存使用量減少約50%,並將圖像質量從FID僅從1.95增加到1.98。當進一步減少起草步驟時,CoDe可以實現令人印象深刻的2.9倍加速比,並在單個NVIDIA 4090 GPU上以256x256分辨率達到41張/秒的速度,同時保持了令人讚賞的FID值為2.27。代碼可在https://github.com/czg1225/CoDe找到。

DreamCache:通過特徵緩存實現無微調輕量化個性化圖像生成
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26, 2024
Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli
123

個性化圖像生成需要文本到圖像生成模型,這些模型能夠捕捉參考主題的核心特徵,以實現在不同情境下的可控生成。現有方法面臨著複雜的訓練需求、高推論成本、有限的靈活性,或這些問題的組合所帶來的挑戰。在本文中,我們介紹了DreamCache,一種可擴展的方法,用於高效且高質量的個性化圖像生成。通過從部分層的少量參考圖像特徵和預先訓練的擴散去噪器的單個時間步長中緩存,DreamCache實現了通過輕量級、訓練的條件適配器對生成的圖像特徵進行動態調節。DreamCache實現了最先進的圖像和文本對齊,利用了數量級更少的額外參數,並且比現有模型更具計算效率和多功能性。

ChatRex:馴服多模式LLM以進行聯合感知與理解
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Nov 27, 2024
Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang
103

知覺和理解是計算機視覺的兩大支柱。儘管多模式大型語言模型(MLLM)展示了卓越的視覺理解能力,但可以說它們缺乏準確的知覺能力,例如,最先進的模型Qwen2-VL在COCO數據集上僅實現了43.9的召回率,這限制了許多需要結合知覺和理解的任務。在這項工作中,我們旨在從模型設計和數據開發的角度來彌補這種知覺差距。我們首先介紹ChatRex,這是一種具有解耦知覺設計的MLLM。我們不是讓LLM直接預測框框座標,而是將來自通用提議網絡的輸出框框餵入LLM,使其能夠輸出相應的框框索引來表示其檢測結果,將回歸任務轉換為LLM更熟練處理的檢索式任務。從數據角度來看,我們構建了一個完全自動化的數據引擎,並構建了Rexverse-2M數據集,具有多個粒度,以支持知覺和理解的聯合訓練。經過標準的兩階段訓練,ChatRex展示了強大的知覺能力,同時保持了多模式理解性能。這兩種能力的結合同時解鎖了許多有吸引力的應用,展示了知覺和理解在MLLM中的互補作用。代碼可在https://github.com/IDEA-Research/ChatRex找到。

使用多模控制的視訊引導下的佛利聲音生成
Video-Guided Foley Sound Generation with Multimodal Controls

Nov 26, 2024
Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
102

為影片生成音效通常需要創作藝術性音效,這些音效與現實生活來源有顯著差異,並需要在音效設計中具有靈活控制。為解決這個問題,我們介紹了MultiFoley,這是一個針對影片導向音效生成而設計的模型,支援通過文本、音訊和影片進行多模態條件設定。給定一段無聲影片和一個文本提示,MultiFoley允許用戶創建乾淨的音效(例如,滑板輪轉動時沒有風噪音)或更為奇幻的音效(例如,讓獅子的吼聲聽起來像貓的喵喵聲)。MultiFoley還允許用戶從音效庫或部分影片中選擇參考音訊進行條件設定。我們模型的一個關鍵創新之處在於它在互聯網視頻數據集和專業音效錄製上進行聯合訓練,實現高質量、全頻帶(48kHz)音頻生成。通過自動化評估和人類研究,我們展示了MultiFoley成功生成了在不同條件輸入下同步高質量音效,並且優於現有方法。請查看我們的項目頁面以獲取影片結果:https://ificl.github.io/MultiFoley/

Omegance:擴散式合成中不同粒度的單一參數
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Nov 26, 2024
Xinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy
72

在這項工作中,我們引入了一個單一參數 omega,以有效地控制擴散式合成中的粒度。這個參數是在擴散模型反向過程的去噪步驟中加入的。我們的方法不需要重新訓練模型、架構修改或在推論期間增加額外的計算負擔,但能夠精確控制生成輸出中的細節水平。此外,可以應用具有不同 omega 值的空間遮罩或去噪時間表,以實現區域特定或時間步特定的粒度控制。從控制信號或參考圖像中的圖像組成的先前知識進一步有助於為特定對象的粒度控制創建精確的 omega 遮罩。為了突顯參數在控制微妙細節變化中的作用,這項技術被命名為 Omegance,結合了"omega"和"nuance"。我們的方法在各種圖像和視頻合成任務中展現出令人印象深刻的性能,並且適用於先進的擴散模型。程式碼可在 https://github.com/itsmag11/Omegance 找到。

草擬模型知道何時停止:自我驗證長度策略用於推理解碼
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Nov 27, 2024
Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
62

推測解碼(SD)已成為加速大型語言模型推理速度的重要技術。傳統的SD方法使用固定的草稿長度,忽略了跨任務的標記生成難度。因此,在本文中,我們解決了這個問題,並引入了SVIP - 一種針對推測解碼系統的難度感知動態草稿長度策略。基於草稿標記接受率的理論下限及其推理時間近似,SVIP根據每個草稿標記分佈的熵自適應地確定草稿序列的長度。對主流SD基準和框架的實驗結果顯示,SVIP的性能優越,相較於基準SD方法,在SpecBench上實現高達20\%的牆時速度提升,在長達8K標記的MT-Bench上實現60\%的速度提升。此外,SVIP完全無需訓練,與任何生成草稿標記的自回歸SD方法兼容。實驗結果還表明,SVIP在GliDe&CaPE和EAGLE-2的基礎上持續提高牆時性能。

VideoLLM 知道何時發聲:透過影片-文字二重互動格式增強時效性影片理解
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Nov 27, 2024
Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
52

近期對於影片大型語言模型(VideoLLM)的研究主要聚焦於模型架構和訓練數據集,而對使用者與模型之間的互動格式則尚未深入探討。在現有研究中,使用者通常透過整個影片和查詢作為輸入與VideoLLMs進行互動,隨後模型生成回應。這種互動格式限制了VideoLLMs在諸如直播理解等場景中的應用,其中影片不會結束且需要即時回應,同時導致在需要定位影片片段的時間敏感任務上表現不佳。本文專注於影片文本二重奏互動格式。這種互動格式的特點是影片的連續播放,使用者和模型都可以在影片播放期間的任何位置插入他們的文本消息。當文本消息結束時,影片繼續播放,類似於二位表演者進行二重奏的方式。我們建立了MMDuetIT,一個旨在使VideoLLMs適應影片文本二重奏互動格式的影片文本訓練數據集。我們還引入了多答案基於影片的問答(MAGQA)任務,以評估VideoLLMs的實時回應能力。在MMDuetIT上訓練後,MMDuet表明採用影片文本二重奏互動格式使模型在各種時間敏感任務上實現顯著改進(YouCook2密集影片字幕的76% CIDEr,QVHighlights亮點檢測的90% mAP和Charades-STA時間影片定位的25% R@0.5),並且使VideoLLMs能夠在影片播放時以實時方式回覆。代碼、數據和演示可在以下鏈接找到:https://github.com/yellow-binary-tree/MMDuet。

利用MedNeXt對腦腫瘤分割進行優化:BraTS 2024 SSA和兒科
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Nov 24, 2024
Sarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub
52

在腦部磁共振影像中識別關鍵的病理特徵對於膠質瘤患者的長期存活至關重要。然而,手動分割耗時,需要專家干預,並容易受到人為錯誤的影響。因此,已經有大量研究致力於開發能夠準確分割3D多模態腦部磁共振掃描中腫瘤的機器學習方法。儘管取得了進展,但最先進的模型通常受到其訓練數據的限制,這引發了對於應用於可能引入分布轉移的不同人群時其可靠性的擔憂。這種轉移可能源自較低質量的磁共振技術(例如在撒哈拉以南非洲)或患者人口統計變化(例如兒童)。BraTS-2024挑戰提供了一個平台來解決這些問題。本研究介紹了我們在BraTS-2024 SSA和兒科腫瘤任務中使用MedNeXt、全面模型集成和徹底後處理來分割腫瘤的方法論。我們的方法在未見過的驗證集上表現出色,在BraTS-2024 SSA數據集上實現了平均Dice相似性系數(DSC)為0.896,在BraTS兒科腫瘤數據集上實現了平均DSC為0.830。此外,我們的方法在BraTS-2024 SSA數據集上實現了平均Hausdorff距離(HD95)為14.682,在BraTS兒科腫瘤數據集上實現了平均HD95為37.508。我們的GitHub存儲庫可以在此處訪問:專案存儲庫:https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics

適應性盲目全能圖像修復
Adaptive Blind All-in-One Image Restoration

Nov 27, 2024
David Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral
42

盲目的全能影像修復模型旨在從受到未知失真的輸入中恢復高質量影像。然而,這些模型在訓練階段需要定義所有可能的失真類型,同時對未知失真的泛化能力有限,這限制了它們在複雜情況下的實際應用。本文提出了一種簡單但有效的自適應盲目全能修復(ABAIR)模型,能處理多種失真,對未知失真有良好泛化能力,並通過訓練少量參數有效地整合新的失真。首先,我們在大量自然影像數據集上訓練基準模型,其中包含多種合成失真,並增加了一個分割頭部來估計每像素的失真類型,從而產生一個強大的骨幹,能夠泛化到各種失真。其次,我們使用獨立的低秩適配器將基準模型適應到不同的影像修復任務。第三,我們通過靈活輕量的失真估計器學習如何自適應地組合適配器以適應多樣的影像。我們的模型在處理特定失真方面強大且靈活適應複雜任務,不僅在五項和三項任務的影像修復設置中遠遠優於最先進技術,而且在對未知失真和複合失真的泛化方面也有所提升。

使用基於模板的數據生成訓練和評估語言模型
Training and Evaluating Language Models with Template-based Data Generation

Nov 27, 2024
Yifan Zhang
33

大型語言模型(LLMs)如GPT-3、PaLM和Llama的快速發展顯著改變了自然語言處理,展示出在理解和生成語言方面的卓越能力。然而,這些模型在需要複雜推理的任務中通常遇到困難,特別是在數學問題解決方面,部分原因是缺乏用於訓練複雜推理能力所需的大規模、高質量、特定領域的數據集。為了解決這一限制,我們引入了基於模板的數據生成(TDG)方法,這是一種新穎的方法,利用LLMs(GPT-4)自動生成參數化的元模板,然後用於合成各種高質量問題和解決方案。利用TDG,我們創建了TemplateMath Part I: TemplateGSM數據集,包括超過700萬個合成生成的小學數學問題,每個問題都附有基於代碼和自然語言的解決方案,並具有生成無限數量問題的潛力。這個數據集緩解了大規模數學數據集的稀缺問題,並為LLMs在數學推理中的預訓練、微調和評估提供了寶貴資源。我們的方法不僅能夠生成幾乎無限的數據,還通過使用GPT-4進行元模板生成,將數據擴增提升到一個新水平,確保多樣且高質量的問題結構。TemplateMath Part I: TemplateGSM數據集可在https://huggingface.co/datasets/math-ai/TemplateGSM公開獲得。代碼可在https://github.com/iiis-ai/TemplateMath獲得。

修改即消失:個人生物識別防禦對抗惡意生成編輯
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25, 2024
Hanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu
23

最近擴散模型的進步使生成式圖像編輯更易於使用,使創意編輯變得更加容易,但也引發了道德問題,特別是針對威脅隱私和身份安全的惡意對人像進行的編輯。現有的保護方法主要依賴對抗性干擾來抵消編輯,但常常無法應對各種不同的編輯要求。我們提出了FaceLock,一種新穎的人像保護方法,它優化對抗性干擾以破壞或顯著改變生物特徵信息,使編輯輸出在生物特徵上無法被識別。FaceLock將人臉識別和視覺感知整合到干擾優化中,以提供對各種編輯嘗試的強大保護。我們還強調了常用評估指標中存在的缺陷,並揭示了它們如何被操縱,強調了對保護的可靠評估的需求。實驗表明,FaceLock在防禦惡意編輯方面優於基線方法,並且對淨化技術具有很強的韌性。消融研究證實了其穩定性,以及在基於擴散的編輯算法中的廣泛應用性。我們的工作推動了生物特徵防禦的發展,為圖像編輯中的隱私保護實踐奠定了基礎。代碼可在以下鏈接找到:https://github.com/taco-group/FaceLock。

Nov 27
Nov 28
Nov 29