HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

12 papers found

想像一下：無需調參的個性化圖像生成
Imagine yourself: Tuning-Free Personalized Image Generation

Sep 20

ByZecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Peter Vajda, Animesh Sinha

擴散模型在各種影像對影像任務中展現出卓越的效能。在這項研究中，我們介紹了Imagine yourself，這是一個專為個性化影像生成而設計的最先進模型。與傳統基於調整的個性化技術不同，Imagine yourself 是一個無需調整的模型，使所有用戶能夠利用共享框架而無需個別調整。此外，先前的工作在保持身份特徵、遵循複雜提示和保留良好視覺品質方面遇到挑戰，導致模型對參考影像具有較強的複製黏貼效應。因此，它們幾乎無法生成遵循需要對參考影像進行重大更改的提示的影像，例如更改面部表情、頭部和身體姿勢，並且生成的影像多樣性較低。為解決這些限制，我們提出的方法引入了1）一種新的合成配對數據生成機制以鼓勵影像多樣性，2）一種具有三個文本編碼器和一個完全可訓練視覺編碼器的全並行注意力架構以提高文本忠實度，以及3）一種新穎的從粗到細的多階段微調方法，逐漸推動視覺品質的邊界。我們的研究表明，Imagine yourself 超越了最先進的個性化模型，在身份保留、視覺品質和文本對齊方面展現出卓越的能力。該模型為各種個性化應用奠定了堅實基礎。人類評估結果驗證了該模型在所有方面（身份保留、文本忠實度和視覺吸引力）上相對於先前的個性化模型具有最先進的優越性。

YesBut：一個高質量的多模標註數據集，用於評估視覺語言模型對諷刺理解能力的表現。
YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models

Sep 20

ByAbhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly

即使對於當前的視覺語言模型來說，理解諷刺和幽默也是一項具有挑戰性的任務。本文提出了具有挑戰性的任務，包括諷刺圖像檢測（檢測圖像是否具有諷刺性）、理解（生成圖像具有諷刺性的原因）和完成（在給定圖像的一半的情況下，從兩個給定的選項中選擇另一半，使得完整圖像具有諷刺性），並釋出了一個高質量的數據集 YesBut，包含 2547 張圖像，其中 1084 張為諷刺性圖像，1463 張為非諷刺性圖像，包含不同的藝術風格，以評估這些任務。數據集中的每張諷刺性圖像描繪了一個正常情景，以及一個有趣或具有諷刺性的衝突情景。儘管當前的視覺語言模型在多模態任務（如視覺問答和圖像說明）上取得了成功，但我們的基準實驗表明，這些模型在 YesBut 數據集上的提出任務中，在零樣本設置下，無論是自動評估還是人工評估，表現不佳。此外，我們釋出了一個包含 119 張真實諷刺照片的數據集，供進一步研究使用。數據集和代碼可在 https://github.com/abhi1nandy2/yesbut_dataset 上獲得。

Prithvi WxC：天氣和氣候基礎模型
Prithvi WxC: Foundation Model for Weather and Climate

Sep 20

ByJohannes Schmude, Sujit Roy, Will Trojak, Johannes Jakubik, Daniel Salles Civitarese, Shraddha Singh, Julian Kuehnert, Kumar Ankur, Aman Gupta, Christopher E Phillips, Romeo Kienzler, Daniela Szwarcman, Vishal Gaur, Rajat Shinde, Rohit Lal, Arlindo Da Silva, Jorge Luis Guevara Diaz, Anne Jones, Simon Pfreundschuh, Amy Lin, Aditi Sheshadri, Udaysankar Nair, Valentine Anantharaj, Hendrik Hamann, Campbell Watson, Manil Maskey, Tsengdar J Lee, Juan Bernabe Moreno, Rahul Ramachandran

由於意識到人工智慧仿真器可以與在高性能計算系統上運行的傳統數值天氣預測模型相匹敵，現在有越來越多大型人工智慧模型應用於預測、降解或即時預報等用例。儘管人工智慧文獻中的平行發展著重於基礎模型，這些模型可以有效調整以應對多個不同的用例，但天氣和氣候方面的發展主要集中在特定用例，特別強調中程預報。我們通過引入Prithvi WxC來彌補這一差距，這是一個擁有23億參數的基礎模型，使用了來自現代回顧分析與應用第二版（MERRA-2）的160個變量。Prithvi WxC採用了基於編碼器-解碼器的架構，融入了各種最近的變壓器模型中的概念，以有效捕捉輸入數據中的區域和全球依賴性。該模型被設計為能夠容納大量標記，以在精細分辨率下對不同拓撲中的天氣現象進行建模。此外，它通過將遮罩重建與預測的範式相結合，以混合目標進行訓練。我們在一組具有挑戰性的下游任務上對模型進行測試，包括：自回歸滾動預報、降解、重力波通量參數化和極端事件估計。擁有23億參數的預訓練模型，以及相應的微調工作流程，已通過Hugging Face作為開源貢獻公開發布。

事實、檢索和推理：檢索增強生成的統一評估
Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

Sep 19

BySatyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui

大型語言模型（LLMs）已在各種認知任務中展示出顯著的性能改進。一個新興應用是利用LLMs增強檢索增強生成（RAG）能力。這些系統需要LLMs理解用戶查詢，檢索相關信息，並合成連貫準確的回應。鑒於這些系統在現實世界中的部署日益增多，全面的評估變得至關重要。為此，我們提出了FRAMES（Factuality, Retrieval, And reasoning MEasurement Set），這是一個高質量的評估數據集，旨在測試LLMs提供事實性回應的能力，評估檢索能力，並評估生成最終答案所需的推理。雖然先前的工作提供了用於獨立評估這些能力的數據集和基準，但FRAMES提供了一個統一框架，更清晰地展示了LLMs在端到端RAG情景中的性能。我們的數據集包含具有挑戰性的多跳問題，需要整合來自多個來源的信息。我們提出的基準結果顯示，即使是最先進的LLMs在這項任務上也面臨困難，沒有檢索時的準確率為0.40。通過我們提出的多步驟檢索管道，準確率顯著提高，達到0.66（>50%的改進）。我們希望我們的工作將有助於彌合評估差距，並協助開發更加強大和有能力的RAG系統。

MuCodec：超低比特率音樂編解碼器
MuCodec: Ultra Low-Bitrate Music Codec

Sep 20

ByYaoxun Xu, Hangting Chen, Jianwei Yu, Wei Tan, Rongzhi Gu, Shun Lei, Zhiwei Lin, Zhiyong Wu

音樂編碼器是音訊編碼研究中至關重要的一環，超低比特率壓縮對音樂傳輸和生成具有重要意義。由於音樂背景的複雜性和人聲豐富性，僅依賴建模語義或聲學信息無法有效地重建既包含人聲又包含背景音樂的音樂。為解決這一問題，我們提出了MuCodec，專門針對超低比特率的音樂壓縮和重建任務。MuCodec利用MuEncoder提取聲學和語義特徵，通過RVQ進行離散化，並通過流匹配獲得Mel-VAE特徵。然後使用預先訓練的MEL-VAE解碼器和HiFi-GAN重建音樂。MuCodec可以在超低（0.35kbps）或高比特率（1.35kbps）下重建高保真音樂，並在主觀和客觀指標上取得迄今為止最佳結果。代碼和演示：https://xuyaoxun.github.io/MuCodec_demo/.

多模態生成先驗強化的人像影片編輯
Portrait Video Editing Empowered by Multimodal Generative Priors

Sep 20

ByXuan Gao, Haiyao Xiao, Chenglai Zhong, Shimin Hu, Yudong Guo, Juyong Zhang

我們介紹了PortraitGen，一種強大的肖像視頻編輯方法，通過多模態提示實現了一致且具有表現力的風格化。傳統的肖像視頻編輯方法通常在3D和時間一致性方面遇到困難，並且通常在渲染質量和效率方面缺乏。為了應對這些問題，我們將肖像視頻幀提升到統一的動態3D高斯場，確保幀間的結構和時間一致性。此外，我們設計了一種新穎的神經高斯紋理機制，不僅實現了複雜的風格編輯，還實現了超過100FPS的渲染速度。我們的方法通過從大規模2D生成模型中提煉的知識，將多模態輸入納入其中。我們的系統還包括表情相似性指導和面部感知的肖像編輯模塊，有效地緩解了與迭代數據集更新相關的降級問題。大量實驗證明了我們方法的時間一致性、編輯效率和優越的渲染質量。所提出方法的廣泛應用性通過各種應用得到展示，包括文本驅動編輯、圖像驅動編輯和重新照明，突出了其推動視頻編輯領域發展的巨大潛力。在我們的項目頁面提供了演示視頻和發布的代碼：https://ustc3dv.github.io/PortraitGen/

野外多彩散射內在影像分解
Colorful Diffuse Intrinsic Image Decomposition in the Wild

Sep 20

ByChris Careaga, Yağız Aksoy

內在影像分解的目標是在給定單張照片的情況下，分離出表面反射率和光線照射效果。由於問題的複雜性，大多數先前的研究假設單色光照和蘭伯特世界，這限制了它們在具有照明感知的圖像編輯應用中的使用。在這項研究中，我們將輸入圖像分離為其漫反射反照率、色彩漫反射陰影和鏡面殘留組件。我們通過逐步消除首先是單色光照，然後是蘭伯特世界的假設，得出我們的結果。我們展示通過將問題分解為更容易的子問題，盡管受限於有限的真實數據集，也可以實現野外多彩漫反射陰影的估計。我們擴展的內在模型使得能夠對照片進行照明感知分析，並可用於圖像編輯應用，如去除鏡面反射和逐像素白平衡。

V^3：透過可串流的2D動態高斯函數在行動裝置上觀看體積視頻
V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians

Sep 20

ByPenghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu

體驗高保真體積影片和 2D 影片一樣流暢一直是一個夢想。然而，目前的動態 3DGS 方法，儘管具有高渲染質量，卻面臨在移動設備上流媒體播放的挑戰，這是由於計算和頻寬限制。在本文中，我們介紹了 V3（查看體積影片），這是一種新方法，通過動態高斯流的流媒體實現了高質量的移動渲染。我們的關鍵創新是將動態 3DGS 視為 2D 影片，從而便於使用硬件視頻編解碼器。此外，我們提出了一種兩階段訓練策略，通過快速訓練速度來減少存儲需求。第一階段採用哈希編碼和淺層 MLP 來學習運動，然後通過修剪減少高斯數量以滿足流媒體需求，同時第二階段通過殘差熵損失和時間損失來微調其他高斯屬性以改善時間連續性。這種策略將運動和外觀區分開來，保持了高渲染質量並具有緊湊的存儲需求。同時，我們設計了一個多平台播放器來解碼和渲染 2D 高斯影片。大量實驗證明了 V3 的有效性，通過在普通設備上實現高質量渲染和流媒體，勝過其他方法，這是前所未有的。作為首個在移動設備上流動動態高斯的人，我們的伴侶播放器為用戶提供了前所未有的體積影片體驗，包括流暢捲動和即時分享。我們的項目頁面和源代碼可在 https://authoritywang.github.io/v3/ 上找到。

吟遊詩人：結構提示生成與多智能體協調，針對非人工智慧專家
Minstrel: Structural Prompt Generation with Multi-Agents Coordination for Non-AI Experts

Sep 20

ByMing Wang, Yuanzhong Liu, Xiaoyu Liang, Yijie Huang, Daling Wang, Xiaocui Yang, Sijia Shen, Shi Feng, Xiaoming Zhang, Chaofeng Guan, Yifei Zhang

LLM在各個領域展現了令人讚賞的表現。然而，為了協助它們的工作而制定高質量提示對非人工智慧專家來說是一項挑戰。現有的提示工程研究表明，優化原則和設計有些零散，並且依賴實證的提示優化器。不幸的是，這些努力缺乏結構設計，導致高學習成本，並且不利於提示的迭代更新，尤其是對非人工智慧專家而言。受結構化可重複使用的編程語言的啟發，我們提出了LangGPT，一個結構提示設計框架。此外，我們引入了Minstrel，一個具有反思能力的多生成代理系統，用於自動生成結構提示。實驗和案例研究說明了Minstrel生成的結構提示或手動編寫的提示顯著提升了LLM的性能。此外，我們通過在線社區的用戶調查分析了結構提示的易用性。

Hackphyr：用於網絡安全環境的本地微調LLM代理
Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments

Sep 17

ByMaria Rigaki, Carlos Catania, Sebastian Garcia

大型語言模型（LLMs）展現出在各個領域，包括網絡安全，具有顯著潛力。使用商業雲端的LLMs可能不理想，因為涉及隱私擔憂、成本和網絡連接限制。本文介紹了Hackphyr，一個在網絡安全環境中作為紅隊代理的本地微調LLM。我們微調的70億參數模型可以在單個GPU卡上運行，並實現與較大且更強大的商業模型（如GPT-4）相當的性能。Hackphyr明顯優於其他模型，包括GPT-3.5-turbo和基準模型，如Q學習代理在複雜、以前未見過的情境中。為了達到這種性能，我們生成了一個新的特定於安全性的數據集，以增強基礎模型的能力。最後，我們對代理的行為進行了全面分析，提供了對這些代理的規劃能力和潛在缺陷的見解，有助於更廣泛地理解基於LLM的代理在網絡安全情境中的應用。

具有自回歸的視頻音頻時間對齊
Temporally Aligned Audio for Video with Autoregression

Sep 20

ByIlpo Viertola, Vladimir Iashin, Esa Rahtu

我們介紹了 V-AURA，這是第一個能夠在影音生成中實現高時間對齊和相關性的自回歸模型。V-AURA 使用高幀率的視覺特徵提取器和跨模態音視覺特徵融合策略，以捕捉細粒度的視覺運動事件並確保精確的時間對齊。此外，我們提出了 VisualSound，這是一個具有高音視覺相關性的基準數據集。VisualSound 基於 VGGSound，這是一個包含從 YouTube 提取的野外樣本的視頻數據集。在編輯過程中，我們刪除了聽覺事件與視覺事件不對齊的樣本。V-AURA 在時間對齊和語義相關性方面優於當前最先進的模型，同時保持可比較的音頻質量。代碼、樣本、VisualSound 和模型可在 https://v-aura.notion.site 找到。

LLM-Agent-UMF：基於LLM的代理統一建模框架，用於實現多主動/被動核心代理的無縫集成。
LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents

Sep 17

ByAmine B. Hassouna, Hana Chaari, Ines Belhaj

基於LLM的代理人中整合工具克服了獨立LLM和傳統代理人有限能力的困難。然而，這些技術的結合以及在幾項最新工作中提出的增強方案，都採用了非統一的軟件架構，導致缺乏模塊化。事實上，它們主要專注於功能，忽略了代理人內部組件界限的定義。這導致研究人員之間術語和架構上的不明確性，我們通過提出一個統一框架來解決這些問題，從功能和軟件架構的角度為基於LLM的代理人的開發建立清晰基礎。我們的框架，LLM-Agent-UMF（基於LLM的代理人統一建模框架），清楚區分了代理人的不同組件，將LLM和工具與一個新引入的元素核心代理人區分開來，核心代理人起著代理人的中央協調者的作用，包括五個模塊：規劃、記憶、檔案、行動和安全，後者在以往的工作中經常被忽略。核心代理人的內部結構差異導致我們將它們分類為被動和主動類型。基於此，我們提出了不同的多核心代理人架構，結合了各種個別代理人的獨特特徵。為了評估目的，我們將此框架應用於一組最新代理人，從而展示其與它們的功能的一致性，並澄清被忽視的架構方面。此外，我們通過將不同的代理人集成到混合主動/被動核心代理人系統中，徹底評估了我們提出的四種架構。這種分析為潛在改進提供了清晰見解，並突出了結合特定代理人所涉及的挑戰。