每日精選AI研究論文及翻譯
從文本或圖像創建沉浸式且可遊玩的3D世界,仍然是計算機視覺與圖形學領域的一個根本性挑戰。現有的世界生成方法通常分為兩類:基於視頻的方法雖提供豐富多樣性,卻缺乏3D一致性和渲染效率;而基於3D的方法雖保證了幾何一致性,卻受限於訓練數據的不足和內存效率低下的表示方式。為解決這些限制,我們提出了HunyuanWorld 1.0,這是一個新穎的框架,它結合了兩者的優勢,能夠從文本和圖像條件生成沉浸式、可探索且互動的3D場景。我們的方法具備三大關鍵優勢:1)通過全景世界代理實現360°沉浸式體驗;2)網格導出功能,確保與現有計算機圖形管線的無縫兼容;3)解耦的物體表示,增強了互動性。我們框架的核心是一個語義分層的3D網格表示,它利用全景圖像作為360°世界代理,進行語義感知的世界分解與重建,從而能夠生成多樣化的3D世界。大量實驗證明,我們的方法在生成連貫、可探索且互動的3D世界方面達到了最先進的水平,同時在虛擬現實、物理模擬、遊戲開發及互動內容創作等領域展現了廣泛的應用潛力。
許多研究致力於將「下一個詞預測」範式擴展至視覺內容,旨在創建一種統一的方法來處理圖像生成與理解。然而,通過離散標記的自回歸建模來生成圖像的嘗試,一直受到視覺保真度低、輸出扭曲以及在渲染複雜細節時無法遵循複雜指令等問題的困擾。這些缺陷很可能歸因於自回歸推理過程中的累積誤差或離散化過程中的信息損失。或許正是由於這一挑戰,近期的研究逐漸轉向聯合訓練圖像生成(使用擴散目標)與語言生成(使用自回歸目標),而非採用統一建模方法。在本研究中,我們展示了強化學習能夠有效減輕偽影並大幅提升離散自回歸建模方法的生成質量,從而實現圖像與語言生成的無縫整合。我們的框架包括一個語義圖像標記器、一個適用於語言和圖像的統一自回歸模型,以及一個用於圖像生成的離線擴散解碼器,稱為X-Omni。X-Omni在圖像生成任務中,使用7B語言模型達到了最先進的性能,生成具有高美學質量的圖像,同時展現出強大的指令遵循能力和長文本渲染能力。
儘管大型語言模型(LLMs)已取得顯著進展,其在化學等科學領域的應用仍受制於淺薄的領域理解與有限的推理能力。本研究聚焦於化學這一特定領域,開發了一款化學推理大型語言模型——ChemDFM-R。首先,我們構建了一個全面的原子化知識點數據集,以增強模型對化學基本原理與邏輯結構的理解。隨後,提出了一種混合來源的蒸餾策略,將專家精選的知識與通用領域的推理技能相結合,並通過領域特定的強化學習來提升化學推理能力。在多樣化的化學基準測試中,ChemDFM-R展現了頂尖的性能,同時提供了可解釋、基於推理的輸出結果。進一步的案例研究表明,明確的推理鏈顯著提升了模型在實際人機協作場景中的可靠性、透明度及實用性。
大型語言模型的快速發展推動了對GPU計算資源需求的指數級增長,這使得自動化CUDA優化策略成為當務之急。儘管近期LLM在代碼生成方面展現出潛力,但當前最先進的模型(如R1、o1)在提升CUDA速度方面的成功率仍然較低。本文介紹了CUDA-L1,這是一個用於CUDA優化的自動化強化學習框架。 CUDA-L1在CUDA優化任務上實現了顯著的性能提升:在NVIDIA A100上訓練後,它在KernelBench的所有250個CUDA內核上平均加速了17.7倍,峰值加速甚至達到449倍。此外,該模型還展現了出色的跨GPU架構可移植性,在H100、RTX 3090、L40、H800和H20上分別實現了17.8倍、19.0倍、16.5倍、14.7倍和13.9倍的平均加速,儘管其專門針對A100進行了優化。 除了這些基準測試結果,CUDA-L1還展現了幾個顯著特性:1)發現了多種CUDA優化技術,並學會策略性地組合它們以實現最佳性能;2)揭示了CUDA優化的基本原理;3)識別了非顯而易見的性能瓶頸,並拒絕了看似有益但實際上會損害性能的優化方案。 CUDA-L1的能力表明,強化學習僅基於加速獎勵信號,就能將初始表現不佳的LLM轉變為有效的CUDA優化器,而無需人類專家的介入或領域知識。更重要的是,訓練後的RL模型能夠將獲得的推理能力擴展到新的內核上。這一範式為CUDA操作的自動化優化開闢了可能性,並有望大幅提升GPU效率,緩解GPU計算資源日益增長的壓力。
腦機介面(BCIs)實現了大腦與外部設備的直接通訊。近期的腦電圖(EEG)基礎模型旨在學習跨多種BCI範式的通用表徵。然而,這些方法忽視了範式特定的基本神經生理學差異,限制了其泛化能力。值得注意的是,在實際的BCI部署中,如用於中風康復或輔助機器人的運動想像(MI)等特定範式,通常在數據採集前就已確定。本文提出了MIRepNet,這是首個專為MI範式設計的EEG基礎模型。MIRepNet包含一個高質量的EEG預處理流程,整合了基於神經生理學的通道模板,可適應任意電極配置的EEG頭戴設備。此外,我們引入了一種混合預訓練策略,結合了自監督的掩碼令牌重建和監督的MI分類,促進了在新下游MI任務上的快速適應和精確解碼,每類僅需少於30次試驗。在五個公開的MI數據集上的廣泛評估表明,MIRepNet始終達到最先進的性能,顯著優於專門化和通用化的EEG模型。我們的代碼將在GitHub上提供:https://github.com/staraink/MIRepNet。
隨著大型語言模型(LLMs)代表用戶的時代展開,偏好優化(Preference Optimization, PO)方法已成為對齊LLMs與人類偏好並提升性能的核心途徑。我們提出了最大後驗偏好優化(Maximum a Posteriori Preference Optimization, MaPPO),這是一個從偏好中學習的框架,明確地將先驗獎勵知識納入優化目標。雖然現有方法如直接偏好優化(Direct Preference Optimization, DPO)及其變體將偏好學習視為最大似然估計(Maximum Likelihood Estimation, MLE)問題,MaPPO通過將先驗獎勵估計整合到一個有原則的最大後驗(Maximum a Posteriori, MaP)目標中,擴展了這一範式。這不僅推廣了DPO及其變體,還通過緩解回應的過於簡化的二元分類來增強對齊。更重要的是,MaPPO未引入額外的超參數,並支持離線和在線設置中的偏好優化。此外,MaPPO可作為插件使用,在DPO變體(包括廣泛使用的SimPO、IPO和CPO)上實現一致的改進。在包括MT-Bench、AlpacaEval 2.0和Arena-Hard在內的三個標準基準上,對不同模型大小和模型系列的廣泛實證評估顯示,在不犧牲計算效率的情況下,對齊性能得到了持續提升。
野生動物觀測在生物多樣性保護中扮演著重要角色,這要求我們採用穩健的方法來監測野生動物種群及其種間互動。近年來,計算機視覺的進步顯著推動了野生動物觀測基礎任務的自動化,如動物檢測和物種識別。然而,從足跡和糞便等間接證據中準確識別物種的研究相對不足,儘管這對野生動物監測至關重要。為彌補這一空白,我們推出了AnimalClue,這是首個基於間接證據圖像進行物種識別的大規模數據集。該數據集包含159,605個邊界框,涵蓋五類間接線索:足跡、糞便、卵、骨骼和羽毛,涉及968個物種、200個科和65個目。每張圖像均標註有物種級別標籤、邊界框或分割掩碼,以及細粒度特徵信息,如活動模式和棲息地偏好。與現有主要關注直接視覺特徵(如動物外觀)的數據集不同,AnimalClue因需識別更為細微和隱蔽的視覺特徵,為分類、檢測和實例分割任務帶來了獨特挑戰。在實驗中,我們廣泛評估了代表性視覺模型,並從動物痕跡識別中發現了關鍵挑戰。我們的數據集和代碼可在https://dahlian00.github.io/AnimalCluePage/獲取。
本研究聚焦于运动引导的少样本视频目标分割(FSVOS),旨在基于少量具有相同运动模式的标注示例,对视频中的动态目标进行分割。现有的FSVOS数据集与方法通常侧重于目标类别这一静态属性,忽视了视频中丰富的时序动态信息,限制了其在需要理解运动场景中的应用。为填补这一空白,我们引入了MOVE,一个专为运动引导FSVOS设计的大规模数据集。基于MOVE,我们在两种实验设置下全面评估了来自三个相关任务的六种最先进方法。结果表明,现有方法在处理运动引导FSVOS时面临挑战,促使我们深入分析相关难题,并提出了一种基线方法——解耦运动外观网络(DMA)。实验证明,我们的方法在少样本运动理解方面表现出色,为未来该方向的研究奠定了坚实基础。
近期,多模态大语言模型(MLLMs)在视觉-语言任务中取得了显著进展,然而其生成的内容可能存在潜在危害或不可信。尽管已有大量研究探讨语言模型的可信度,但MLLMs在面对视觉上无法回答的问题时,其诚实行为的能力仍很大程度上未被充分探索。本研究首次系统评估了多种MLLMs的诚实行为。我们将诚实性锚定于模型对视觉上无法回答问题的响应行为,定义了四类代表性的此类问题,并构建了MoHoBench——一个大规模MLLM诚实性基准,包含超过12,000个视觉问题样本,其质量通过多阶段筛选和人工验证得到保证。利用MoHoBench,我们对28个流行的MLLMs进行了诚实性基准测试,并进行了全面分析。我们的发现表明:(1)大多数模型在必要时未能适当地拒绝回答;(2)MLLMs的诚实性不仅仅是语言建模问题,还深受视觉信息的影响,因此需要开发专门的方法来实现多模态诚实性对齐。为此,我们实施了基于监督学习和偏好学习的初步对齐方法,以改善诚实行为,为未来可信MLLMs的研究奠定了基础。我们的数据和代码可在https://github.com/DSTTSD/MoHoBench找到。
非洲野生動物種群面臨嚴重威脅,過去五十年間脊椎動物數量減少了65%以上。為應對這一挑戰,基於深度學習的圖像分類技術已成為生物多樣性監測和保護的有力工具。本文對用於自動分類非洲野生動物圖像的深度學習模型進行了比較研究,重點探討了特徵提取器凍結情況下的遷移學習。利用包含水牛、大象、犀牛和斑馬四種物種的公開數據集,我們評估了DenseNet-201、ResNet-152、EfficientNet-B4和Vision Transformer ViT-H/14的性能。其中,DenseNet-201在卷積網絡中表現最佳(準確率67%),而ViT-H/14則達到了最高的總體準確率(99%),但其計算成本顯著更高,引發了部署方面的顧慮。我們的實驗揭示了準確性、資源需求和可部署性之間的權衡。性能最佳的CNN模型(DenseNet-201)已被集成到Hugging Face Gradio Space中,用於實地實時應用,展示了在保護環境中部署輕量級模型的可行性。本研究通過提供模型選擇、數據集準備以及深度學習工具在野生動物保護中的負責任部署的實踐見解,為紮根非洲的AI研究做出了貢獻。