AI研究論文每日精選

每日精選AI研究論文及翻譯

CAT4D：使用多視角視頻擴散模型在4D中創建任何事物
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27

ByRundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski

我們提出了CAT4D，一種從單眼視頻創建4D（動態3D）場景的方法。CAT4D利用在多個視角上進行訓練的視頻擴散模型，該模型是在各種數據集的基礎上訓練的，從而能夠在任意指定的相機姿勢和時間戳下進行新視角合成。結合一種新穎的採樣方法，該模型可以將單眼視頻轉換為多視角視頻，通過優化可變形的3D高斯表示來實現強大的4D重建。我們展示了在新視角合成和動態場景重建基準測試中的競爭性表現，並突出了從真實或生成的視頻中生成4D場景的創造性能力。請查看我們的項目頁面以獲取結果和互動演示：cat-4d.github.io。

大型語言模型驅動的 GUI 代理：一項調查
Large Language Model-Brained GUI Agents: A Survey

Nov 27

ByChaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

GUI（圖形用戶界面）長期以來一直是人機交互的核心，提供了直觀且視覺化的方式來訪問和與數字系統互動。LLM（大型語言模型）的出現，特別是多模型，開啟了GUI自動化的新時代。它們在自然語言理解、代碼生成和視覺處理方面展示了卓越的能力。這為一代新型的LLM大腦GUI代理鋪平了道路，能夠解釋複雜的GUI元素並根據自然語言指令自主執行操作。這些代理代表了一種範式轉變，使用戶能夠通過簡單的對話命令執行複雜的多步任務。它們的應用涵蓋網頁導航、移動應用程序交互和桌面自動化，提供了一種革命性的用戶體驗，徹底改變了個人與軟件互動的方式。這一新興領域正在迅速發展，無論在研究還是行業中都取得了顯著進展。為了對這一趨勢提供結構化理解，本文提出了對LLM大腦GUI代理的全面調查，探討它們的歷史演變、核心組件和高級技術。我們探討了研究問題，如現有的GUI代理框架、為訓練專門的GUI代理收集和利用數據、為GUI任務量身定制的大型動作模型的開發，以及評估其有效性所需的評估指標和基準。此外，我們還研究了由這些代理驅動的新興應用。通過詳細分析，這項調查確定了關鍵的研究空白，並概述了未來在該領域取得進展的路徑。通過整合基礎知識和最新發展，本研究旨在引導研究人員和從業者克服挑戰，發揮LLM大腦GUI代理的全部潛力。

MARVEL-40M+: 多層次視覺闡釋，用於高保真度文本轉3D內容創作
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26

BySankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal

從文本提示生成高保真度的3D內容仍然是計算機視覺中的一個重要挑戰，這是由於現有數據集的規模、多樣性和標註深度有限。為了應對這一挑戰，我們引入了MARVEL-40M+，這是一個包含4000萬文本標註的龐大數據集，涵蓋了從七個主要3D數據集中匯總的超過890萬個3D資產。我們的貢獻是一種新穎的多階段標註流程，該流程整合了開源預訓練的多視圖VLM和LLM，以自動生成從詳細（150-200字）到簡潔語義標籤（10-20字）的多級描述。這種結構支持精細的3D重建和快速原型設計。此外，我們將來自源數據集的人類元數據納入我們的標註流程中，以在標註中添加特定領域的信息並減少VLM的幻覺。此外，我們開發了MARVEL-FX3D，這是一個兩階段的文本到3D流程。我們使用我們的標註對Stable Diffusion進行微調，並使用預訓練的圖像到3D網絡在15秒內生成3D紋理網格。廣泛的評估顯示，MARVEL-40M+在標註質量和語言多樣性方面明顯優於現有數據集，通過GPT-4達到了72.41%的勝率，通過人類評估者達到了73.40%的勝率。

擴散自我蒸餾用於零樣本定制圖像生成
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27

ByShengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein

文字到圖像擴散模型產生令人印象深刻的結果，但對於希望精細控制的藝術家來說，這些工具令人沮喪。例如，一個常見的用例是在新的情境中創建特定實例的圖像，即「保持身份生成」。這種情況，以及許多其他任務（例如，重新照明），都非常適合圖像+文字條件生成模型。然而，目前缺乏高質量的配對數據來直接訓練這樣的模型。我們提出了擴散自我蒸餾，一種利用預先訓練的文字到圖像模型生成自己數據集以進行文本條件的圖像對圖像任務的方法。我們首先利用文字到圖像擴散模型的上下文生成能力來創建圖像網格，並在視覺語言模型的幫助下精心編輯一個大型配對數據集。然後，我們通過使用經過精心編輯的配對數據集，將文字到圖像模型微調為文本+圖像對圖像模型。我們展示了擴散自我蒸餾在廣泛的身份保留生成任務中優於現有的零樣本方法，並與每個實例調整技術競爭，而無需測試時優化。

3D凸面片：使用3D光滑凸面渲染辐射场
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22

ByJan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck

最近在輝度場重建方面取得的進展，如三維高斯飛濺（3DGS），通過以高斯基元素的組合來表示場景，實現了高質量的新視角合成和快速渲染。然而，三維高斯存在幾個限制，對於準確捕捉硬邊緣而不顯著增加高斯數量以減少記憶體佔用是一項挑戰。此外，它們難以表示平面表面，因為它們在空間中擴散。在沒有手工設計的正則化器的情況下，它們往往會在實際表面周圍不規則地分散。為了避免這些問題，我們引入了一種新方法，名為三維凸飛濺（3DCS），它利用三維平滑凸形作為基元素，從多視圖圖像中建模幾何有意義的輝度場。平滑的凸形形狀比高斯更具靈活性，可以更好地表示具有硬邊緣和密集體積的三維場景，並使用更少的基元素。憑藉我們高效的基於CUDA的光柵化器，3DCS在Mip-NeRF360、Tanks and Temples和Deep Blending等基準測試中實現了優異性能。具體而言，我們的方法在PSNR和LPIPS方面相對於3DGS取得了高達0.81和0.026的改善，同時保持高渲染速度並減少所需基元素的數量。我們的結果突顯了三維凸飛濺成為高質量場景重建和新視角合成的新標準的潛力。項目頁面：convexsplatting.github.io。

DiffusionDrive：端截式擴散模型用於端對端自主駕駛
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22

ByBencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang

最近，擴散模型已成為機器人政策學習的強大生成技術，能夠建模多模式動作分佈。利用其端到端自主駕駛的能力是一個有前途的方向。然而，在機器人擴散政策中存在眾多去噪步驟，以及交通場景更具動態、開放性的特性，這對於實時速度生成多樣化駕駛動作構成了重大挑戰。為了應對這些挑戰，我們提出了一種新穎的截斷擴散政策，該政策結合了先前的多模錨點，並截斷了擴散時間表，使模型能夠從錨定的高斯分佈學習去噪至多模式駕駛動作分佈。此外，我們設計了一個高效的級聯擴散解碼器，以增強與條件場景上下文的交互作用。所提出的模型DiffusionDrive相較於基本擴散政策，去噪步驟減少了10倍，僅需2步即可提供優越的多樣性和質量。在以規劃為導向的NAVSIM數據集上，搭配對齊的ResNet-34骨幹，DiffusionDrive實現了88.1的PDMS，無需花巧，創下了新紀錄，並在NVIDIA 4090上以每秒45幀的實時速度運行。對於具有挑戰性情景的定性結果進一步確認，DiffusionDrive能夠穩健地生成多樣且合理的駕駛動作。代碼和模型將在https://github.com/hustvl/DiffusionDrive 上提供。

Make-It-Animatable: 一個有效的框架，用於製作動畫就緒的3D角色
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27

ByZhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang

現代創意產業中，3D角色是不可或缺的，但使它們具有動畫性往往需要大量手動工作，如骨骼綁定和皮膚設定。現有的自動骨骼綁定工具存在幾個限制，包括需要手動標註、僵硬的骨架拓撲和在不同形狀和姿勢之間的泛化能力有限。另一種方法是生成可動化的預綁定到骨骼模板網格的化身。然而，這種方法通常缺乏靈活性，並且通常僅限於逼真的人體形狀。為了解決這些問題，我們提出了一種新穎的數據驅動方法，稱為Make-It-Animatable，可以使任何3D人形模型在不到一秒的時間內準備好進行角色動畫，無論其形狀和姿勢如何。我們的統一框架生成高質量的混合權重、骨骼和姿勢變換。通過結合基於粒子的形狀自編碼器，我們的方法支持各種3D表示，包括網格和3D高斯斑點。此外，我們採用粗到細的表示和結構感知建模策略，以確保對於具有非標準骨架結構的角色，即使是精確和穩健的。我們進行了大量實驗來驗證我們框架的有效性。與現有方法相比，我們的方法在質量和速度方面都取得了顯著的改善。

UniPose：一個統一的多模態框架，用於人體姿勢理解、生成和編輯。
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25

ByYiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen

在數位時代中，人體姿勢扮演著至關重要的角色。儘管最近的研究在理解和生成人體姿勢方面取得了令人印象深刻的進展，但它們通常僅支持單一模態的控制信號並且運作獨立，限制了它們在現實場景中的應用。本文提出了UniPose，一個利用大型語言模型（LLMs）來理解、生成和編輯人體姿勢的框架，跨越各種模態，包括圖像、文本和3D SMPL姿勢。具體而言，我們應用姿勢分詞器將3D姿勢轉換為離散的姿勢標記，實現與統一詞彙表中的LLM的無縫集成。為了進一步增強細粒度的姿勢感知能力，我們為UniPose提供了一組視覺編碼器，其中包括一個特定於姿勢的視覺編碼器。受益於統一的學習策略，UniPose有效地在不同的與姿勢相關的任務之間轉移知識，適應未見過的任務，並展現了擴展的能力。這項工作是建立一個通用框架用於姿勢理解、生成和編輯的首次嘗試。廣泛的實驗突顯了UniPose在各種與姿勢相關的任務中具有競爭力甚至優越的表現。

協作解碼使視覺自回歸建模更有效率。
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26

ByZigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

在快速發展的影像生成領域中，視覺自回歸（VAR）建模因其創新的下一階段預測方法而引起廣泛關注。這種範式在效率、可擴展性和零樣本泛化方面帶來了顯著改進。然而，VAR固有的由粗到細的特性引入了較長的標記序列，導致內存消耗和計算冗餘變得難以承受。為了解決這些瓶頸，我們提出了協同解碼（CoDe），這是一種針對VAR框架量身定制的新型高效解碼策略。CoDe基於兩個關鍵觀察結果：在較大尺度上大幅降低了參數需求，以及不同尺度之間具有獨特生成模式。基於這些見解，我們將多尺度推理過程劃分為大模型和小模型之間的無縫協作。大模型充當“起草者”，專門生成較小尺度的低頻內容，而小模型則充當“精煉者”，僅專注於在較大尺度上預測高頻細節。這種協作方式實現了顯著的高效率，對質量幾乎沒有影響：CoDe實現了1.7倍的加速，將內存使用量減少約50％，並將圖像質量從FID僅從1.95增加到1.98。當進一步減少起草步驟時，CoDe可以實現令人印象深刻的2.9倍加速比，並在單個NVIDIA 4090 GPU上以256x256分辨率達到41張/秒的速度，同時保持了令人讚賞的FID值為2.27。代碼可在https://github.com/czg1225/CoDe找到。

DreamCache：通過特徵緩存實現無微調輕量化個性化圖像生成
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26

ByEmanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli

個性化圖像生成需要文本到圖像生成模型，這些模型能夠捕捉參考主題的核心特徵，以實現在不同情境下的可控生成。現有方法面臨著複雜的訓練需求、高推論成本、有限的靈活性，或這些問題的組合所帶來的挑戰。在本文中，我們介紹了DreamCache，一種可擴展的方法，用於高效且高質量的個性化圖像生成。通過從部分層的少量參考圖像特徵和預先訓練的擴散去噪器的單個時間步長中緩存，DreamCache實現了通過輕量級、訓練的條件適配器對生成的圖像特徵進行動態調節。DreamCache實現了最先進的圖像和文本對齊，利用了數量級更少的額外參數，並且比現有模型更具計算效率和多功能性。

ChatRex：馴服多模式LLM以進行聯合感知與理解
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Nov 27

ByQing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang

知覺和理解是計算機視覺的兩大支柱。儘管多模式大型語言模型（MLLM）展示了卓越的視覺理解能力，但可以說它們缺乏準確的知覺能力，例如，最先進的模型Qwen2-VL在COCO數據集上僅實現了43.9的召回率，這限制了許多需要結合知覺和理解的任務。在這項工作中，我們旨在從模型設計和數據開發的角度來彌補這種知覺差距。我們首先介紹ChatRex，這是一種具有解耦知覺設計的MLLM。我們不是讓LLM直接預測框框座標，而是將來自通用提議網絡的輸出框框餵入LLM，使其能夠輸出相應的框框索引來表示其檢測結果，將回歸任務轉換為LLM更熟練處理的檢索式任務。從數據角度來看，我們構建了一個完全自動化的數據引擎，並構建了Rexverse-2M數據集，具有多個粒度，以支持知覺和理解的聯合訓練。經過標準的兩階段訓練，ChatRex展示了強大的知覺能力，同時保持了多模式理解性能。這兩種能力的結合同時解鎖了許多有吸引力的應用，展示了知覺和理解在MLLM中的互補作用。代碼可在https://github.com/IDEA-Research/ChatRex找到。

使用多模控制的視訊引導下的佛利聲音生成
Video-Guided Foley Sound Generation with Multimodal Controls

Nov 26

ByZiyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon

為影片生成音效通常需要創作藝術性音效，這些音效與現實生活來源有顯著差異，並需要在音效設計中具有靈活控制。為解決這個問題，我們介紹了MultiFoley，這是一個針對影片導向音效生成而設計的模型，支援通過文本、音訊和影片進行多模態條件設定。給定一段無聲影片和一個文本提示，MultiFoley允許用戶創建乾淨的音效（例如，滑板輪轉動時沒有風噪音）或更為奇幻的音效（例如，讓獅子的吼聲聽起來像貓的喵喵聲）。MultiFoley還允許用戶從音效庫或部分影片中選擇參考音訊進行條件設定。我們模型的一個關鍵創新之處在於它在互聯網視頻數據集和專業音效錄製上進行聯合訓練，實現高質量、全頻帶（48kHz）音頻生成。通過自動化評估和人類研究，我們展示了MultiFoley成功生成了在不同條件輸入下同步高質量音效，並且優於現有方法。請查看我們的項目頁面以獲取影片結果：https://ificl.github.io/MultiFoley/

Omegance：擴散式合成中不同粒度的單一參數
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Nov 26

ByXinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy

在這項工作中，我們引入了一個單一參數 omega，以有效地控制擴散式合成中的粒度。這個參數是在擴散模型反向過程的去噪步驟中加入的。我們的方法不需要重新訓練模型、架構修改或在推論期間增加額外的計算負擔，但能夠精確控制生成輸出中的細節水平。此外，可以應用具有不同 omega 值的空間遮罩或去噪時間表，以實現區域特定或時間步特定的粒度控制。從控制信號或參考圖像中的圖像組成的先前知識進一步有助於為特定對象的粒度控制創建精確的 omega 遮罩。為了突顯參數在控制微妙細節變化中的作用，這項技術被命名為 Omegance，結合了"omega"和"nuance"。我們的方法在各種圖像和視頻合成任務中展現出令人印象深刻的性能，並且適用於先進的擴散模型。程式碼可在 https://github.com/itsmag11/Omegance 找到。

草擬模型知道何時停止：自我驗證長度策略用於推理解碼
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Nov 27

ByZiyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu

推測解碼（SD）已成為加速大型語言模型推理速度的重要技術。傳統的SD方法使用固定的草稿長度，忽略了跨任務的標記生成難度。因此，在本文中，我們解決了這個問題，並引入了SVIP - 一種針對推測解碼系統的難度感知動態草稿長度策略。基於草稿標記接受率的理論下限及其推理時間近似，SVIP根據每個草稿標記分佈的熵自適應地確定草稿序列的長度。對主流SD基準和框架的實驗結果顯示，SVIP的性能優越，相較於基準SD方法，在SpecBench上實現高達20\%的牆時速度提升，在長達8K標記的MT-Bench上實現60\%的速度提升。此外，SVIP完全無需訓練，與任何生成草稿標記的自回歸SD方法兼容。實驗結果還表明，SVIP在GliDe＆CaPE和EAGLE-2的基礎上持續提高牆時性能。

利用MedNeXt對腦腫瘤分割進行優化：BraTS 2024 SSA和兒科
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Nov 24

BySarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub

在腦部磁共振影像中識別關鍵的病理特徵對於膠質瘤患者的長期存活至關重要。然而，手動分割耗時，需要專家干預，並容易受到人為錯誤的影響。因此，已經有大量研究致力於開發能夠準確分割3D多模態腦部磁共振掃描中腫瘤的機器學習方法。儘管取得了進展，但最先進的模型通常受到其訓練數據的限制，這引發了對於應用於可能引入分布轉移的不同人群時其可靠性的擔憂。這種轉移可能源自較低質量的磁共振技術（例如在撒哈拉以南非洲）或患者人口統計變化（例如兒童）。BraTS-2024挑戰提供了一個平台來解決這些問題。本研究介紹了我們在BraTS-2024 SSA和兒科腫瘤任務中使用MedNeXt、全面模型集成和徹底後處理來分割腫瘤的方法論。我們的方法在未見過的驗證集上表現出色，在BraTS-2024 SSA數據集上實現了平均Dice相似性系數（DSC）為0.896，在BraTS兒科腫瘤數據集上實現了平均DSC為0.830。此外，我們的方法在BraTS-2024 SSA數據集上實現了平均Hausdorff距離（HD95）為14.682，在BraTS兒科腫瘤數據集上實現了平均HD95為37.508。我們的GitHub存儲庫可以在此處訪問：專案存儲庫：https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics

VideoLLM 知道何時發聲：透過影片-文字二重互動格式增強時效性影片理解
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Nov 27

ByYueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao

近期對於影片大型語言模型（VideoLLM）的研究主要聚焦於模型架構和訓練數據集，而對使用者與模型之間的互動格式則尚未深入探討。在現有研究中，使用者通常透過整個影片和查詢作為輸入與VideoLLMs進行互動，隨後模型生成回應。這種互動格式限制了VideoLLMs在諸如直播理解等場景中的應用，其中影片不會結束且需要即時回應，同時導致在需要定位影片片段的時間敏感任務上表現不佳。本文專注於影片文本二重奏互動格式。這種互動格式的特點是影片的連續播放，使用者和模型都可以在影片播放期間的任何位置插入他們的文本消息。當文本消息結束時，影片繼續播放，類似於二位表演者進行二重奏的方式。我們建立了MMDuetIT，一個旨在使VideoLLMs適應影片文本二重奏互動格式的影片文本訓練數據集。我們還引入了多答案基於影片的問答（MAGQA）任務，以評估VideoLLMs的實時回應能力。在MMDuetIT上訓練後，MMDuet表明採用影片文本二重奏互動格式使模型在各種時間敏感任務上實現顯著改進（YouCook2密集影片字幕的76％ CIDEr，QVHighlights亮點檢測的90％ mAP和Charades-STA時間影片定位的25％ R@0.5），並且使VideoLLMs能夠在影片播放時以實時方式回覆。代碼、數據和演示可在以下鏈接找到：https://github.com/yellow-binary-tree/MMDuet。

適應性盲目全能圖像修復
Adaptive Blind All-in-One Image Restoration

Nov 27

ByDavid Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral

盲目的全能影像修復模型旨在從受到未知失真的輸入中恢復高質量影像。然而，這些模型在訓練階段需要定義所有可能的失真類型，同時對未知失真的泛化能力有限，這限制了它們在複雜情況下的實際應用。本文提出了一種簡單但有效的自適應盲目全能修復（ABAIR）模型，能處理多種失真，對未知失真有良好泛化能力，並通過訓練少量參數有效地整合新的失真。首先，我們在大量自然影像數據集上訓練基準模型，其中包含多種合成失真，並增加了一個分割頭部來估計每像素的失真類型，從而產生一個強大的骨幹，能夠泛化到各種失真。其次，我們使用獨立的低秩適配器將基準模型適應到不同的影像修復任務。第三，我們通過靈活輕量的失真估計器學習如何自適應地組合適配器以適應多樣的影像。我們的模型在處理特定失真方面強大且靈活適應複雜任務，不僅在五項和三項任務的影像修復設置中遠遠優於最先進技術，而且在對未知失真和複合失真的泛化方面也有所提升。

使用基於模板的數據生成訓練和評估語言模型
Training and Evaluating Language Models with Template-based Data Generation

Nov 27

ByYifan Zhang

大型語言模型（LLMs）如GPT-3、PaLM和Llama的快速發展顯著改變了自然語言處理，展示出在理解和生成語言方面的卓越能力。然而，這些模型在需要複雜推理的任務中通常遇到困難，特別是在數學問題解決方面，部分原因是缺乏用於訓練複雜推理能力所需的大規模、高質量、特定領域的數據集。為了解決這一限制，我們引入了基於模板的數據生成（TDG）方法，這是一種新穎的方法，利用LLMs（GPT-4）自動生成參數化的元模板，然後用於合成各種高質量問題和解決方案。利用TDG，我們創建了TemplateMath Part I: TemplateGSM數據集，包括超過700萬個合成生成的小學數學問題，每個問題都附有基於代碼和自然語言的解決方案，並具有生成無限數量問題的潛力。這個數據集緩解了大規模數學數據集的稀缺問題，並為LLMs在數學推理中的預訓練、微調和評估提供了寶貴資源。我們的方法不僅能夠生成幾乎無限的數據，還通過使用GPT-4進行元模板生成，將數據擴增提升到一個新水平，確保多樣且高質量的問題結構。TemplateMath Part I: TemplateGSM數據集可在https://huggingface.co/datasets/math-ai/TemplateGSM公開獲得。代碼可在https://github.com/iiis-ai/TemplateMath獲得。

修改即消失：個人生物識別防禦對抗惡意生成編輯
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25

ByHanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu

最近擴散模型的進步使生成式圖像編輯更易於使用，使創意編輯變得更加容易，但也引發了道德問題，特別是針對威脅隱私和身份安全的惡意對人像進行的編輯。現有的保護方法主要依賴對抗性干擾來抵消編輯，但常常無法應對各種不同的編輯要求。我們提出了FaceLock，一種新穎的人像保護方法，它優化對抗性干擾以破壞或顯著改變生物特徵信息，使編輯輸出在生物特徵上無法被識別。FaceLock將人臉識別和視覺感知整合到干擾優化中，以提供對各種編輯嘗試的強大保護。我們還強調了常用評估指標中存在的缺陷，並揭示了它們如何被操縱，強調了對保護的可靠評估的需求。實驗表明，FaceLock在防禦惡意編輯方面優於基線方法，並且對淨化技術具有很強的韌性。消融研究證實了其穩定性，以及在基於擴散的編輯算法中的廣泛應用性。我們的工作推動了生物特徵防禦的發展，為圖像編輯中的隱私保護實踐奠定了基礎。代碼可在以下鏈接找到：https://github.com/taco-group/FaceLock。

Morph：一個針對人體動作生成的無運動物理優化框架
Morph: A Motion-free Physics Optimization Framework for Human Motion Generation

Nov 22

ByZhuo Li, Mingshuang Luo, Ruibing Hou, Xin Zhao, Hao Liu, Hong Chang, Zimo Liu, Chen Li

人類動作生成在數位人類和人形機器人控制等應用中扮演著重要角色。然而，大多數現有方法忽略物理約束，導致生成的動作常常不合物理規律，出現明顯的問題，如漂浮和腳部滑動。本文提出了一個名為Morph的無動作物理優化框架，包括一個動作生成器和一個動作物理細化模組，用於提高物理合理性，而無需依賴昂貴的現實世界動作數據。具體而言，動作生成器負責提供大規模的合成動作數據，而動作物理細化模組利用這些合成數據在物理模擬器中訓練動作模仿者，強制實施物理約束，將嘈雜的動作投影到一個符合物理規律的空間。這些經過物理細化的動作進而用於微調動作生成器，進一步提升其能力。在文本轉動作和音樂轉舞蹈生成任務上的實驗表明，我們的框架實現了最先進的動作生成質量，同時極大地提高了物理合理性。

AI研究論文每日精選

每日精選AI研究論文及翻譯

CAT4D：使用多視角視頻擴散模型在4D中創建任何事物
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27

ByRundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski

大型語言模型驅動的 GUI 代理：一項調查
Large Language Model-Brained GUI Agents: A Survey

Nov 27

ByChaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

MARVEL-40M+: 多層次視覺闡釋，用於高保真度文本轉3D內容創作
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26

BySankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal

擴散自我蒸餾用於零樣本定制圖像生成
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27

ByShengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein

3D凸面片：使用3D光滑凸面渲染辐射场
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22

ByJan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck

DiffusionDrive：端截式擴散模型用於端對端自主駕駛
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22

ByBencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang

Make-It-Animatable: 一個有效的框架，用於製作動畫就緒的3D角色
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27

ByZhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang

UniPose：一個統一的多模態框架，用於人體姿勢理解、生成和編輯。
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25

ByYiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen

協作解碼使視覺自回歸建模更有效率。
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26

ByZigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

DreamCache：通過特徵緩存實現無微調輕量化個性化圖像生成
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26

ByEmanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli

VideoLLM 知道何時發聲：透過影片-文字二重互動格式增強時效性影片理解
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Nov 27

ByYueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao

適應性盲目全能圖像修復
Adaptive Blind All-in-One Image Restoration

Nov 27

ByDavid Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral

使用基於模板的數據生成訓練和評估語言模型
Training and Evaluating Language Models with Template-based Data Generation

Nov 27

ByYifan Zhang

修改即消失：個人生物識別防禦對抗惡意生成編輯
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25

ByHanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu

Morph：一個針對人體動作生成的無運動物理優化框架
Morph: A Motion-free Physics Optimization Framework for Human Motion Generation

Nov 22

ByZhuo Li, Mingshuang Luo, Ruibing Hou, Xin Zhao, Hao Liu, Hong Chang, Zimo Liu, Chen Li