HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

11 papers found

多模态大语言模型中的视觉表征法则
Law of Vision Representation in MLLMs

Aug 29

ByShijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu

我们提出了多模态大语言模型（MLLMs）中的“视觉表征定律”。该定律揭示了跨模态对齐、视觉表征一致性及MLLM性能三者之间的强相关性。我们采用跨模态对齐与一致性评分（AC评分）量化了这两个因素。通过涵盖十三种不同视觉表征设置及跨越八个基准的广泛实验，我们发现AC评分与模型性能呈线性相关。利用这一关系，我们能够仅识别并训练最优视觉表征，而无需每次微调语言模型，从而实现了计算成本99.7%的显著降低。

CogVLM2：面向图像与视频理解的多模态视觉语言模型
CogVLM2: Visual Language Models for Image and Video Understanding

Aug 29

ByWenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang

自VisualGLM与CogVLM起，我们持续探索视觉语言模型，致力于提升视觉-语言融合能力、构建高效的高分辨率架构、拓展多模态应用边界。现推出新一代视觉语言模型CogVLM2系列，包括图像理解模型CogVLM2、视频理解模型CogVLM2-Video以及GLM-4V。作为图像理解模型，CogVLM2沿用了视觉专家架构，并在预训练与后训练阶段优化训练策略，最高支持1344×1344像素的输入分辨率。视频理解模型CogVLM2-Video创新性地融合带时间戳的多帧输入，并提出自动化的时序定位数据构建方法。值得关注的是，CogVLM2系列在MMBench、MM-Vet、TextVQA、MVBench及VCGBench等基准测试中均取得了领先性能。所有模型均已开源（https://github.com/THUDM/CogVLM2 与 https://github.com/THUDM/GLM-4），助力领域发展。

WavTokenizer：一种面向音频语言建模的高效声学离散编码分词器
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

Aug 29

ByShengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao

语言模型已成功应用于图像、视频、语音和音频等自然信号的建模。这些模型的核心组件是编解码器分词器，它能将高维自然信号压缩为低维离散标记。本文提出的WavTokenizer在音频领域相比此前SOTA声学编解码模型具有以下优势：1）极致压缩。通过量化器层级与离散编码时间维度的联合压缩，24kHz采样率的1秒音频仅需单个量化器生成40或75个标记；2）提升主观质量。在减少标记数量的同时，WavTokenizer凭借优异的UTMOS评分实现SOTA重建质量，且内蕴更丰富的语义信息。具体而言，我们通过设计更广阔的向量量化空间、扩展上下文窗口、改进注意力网络，并引入强大的多尺度判别器与逆傅里叶变换结构达成上述成果。我们在语音、音频和音乐领域开展了大规模重建实验，WavTokenizer在各类主客观指标上均优于现有最优模型。我们还测试了语义信息表征能力、向量量化利用率及生成模型适配性，详尽的消融实验验证了WavTokenizer各模块的必要性。相关代码、演示及预训练模型已发布于https://github.com/jishengpeng/WavTokenizer。

ReconX：基于视频扩散模型从稀疏视角重建任意场景
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

Aug 29

ByFangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan

三维场景重建技术的进步已将现实世界的二维图像转化为三维模型，仅需数百张输入照片即可生成逼真的三维效果。尽管在密集视角重建场景中已取得显著成功，但从不足的拍摄视角渲染精细场景仍是一个不适定的优化问题，往往导致未观测区域出现伪影和畸变。本文提出ReconX这一新型三维场景重建范式，将模糊的重建挑战重新定义为时序生成任务。其核心思想在于释放大型预训练视频扩散模型的强大生成先验，以解决稀疏视角重建问题。然而，预训练模型直接生成的视频帧难以准确保持三维视角一致性。为此，在有限输入视角条件下，ReconX首先构建全局点云并将其编码至上下文空间作为三维结构条件。在该条件引导下，视频扩散模型合成的视频帧既能保留细节特征，又具备高度三维一致性，确保场景在不同视角下的连贯性。最后，我们通过置信度感知的三维高斯溅射优化方案从生成视频中恢复三维场景。在多个真实场景数据集上的大量实验表明，ReconX在重建质量和泛化能力方面均优于当前最先进方法。

SAM2Point：以零样本与可提示方式实现三维视频分割
SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners

Aug 29

ByZiyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng

我们推出SAM2Point，这是将分段任意模型2（SAM 2）适配于零样本可提示三维分割的初步探索。该框架将任意三维数据解析为多向视频序列，无需额外训练或2D-3D投影即可实现三维空间分割。我们的方法支持多种提示类型（包括三维点、边界框和掩码），并能泛化至多样场景，如三维物体、室内场景、户外环境及原始稀疏激光雷达数据。在Objaverse、S3DIS、ScanNet、Semantic3D和KITTI等多个三维数据集上的实验表明，SAM2Point具有强大的泛化能力。据我们所知，这是当前对SAM三维实现最忠实的复现，有望为可提示三维分割的未来研究提供基础。在线演示：https://huggingface.co/spaces/ZiyuG/SAM2Point 代码仓库：https://github.com/ZiyuGuo99/SAM2Point

语言模型的物理学：第二部（下）——如何从小学数学题的错误中学习
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

Aug 29

ByTian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu

语言模型在解决推理任务方面展现出卓越性能，但即便是最强大的模型仍会偶尔出现推理错误。近期研究热点聚焦于通过多轮提示使预训练语言模型实现"自我修正"，以此提升推理准确率。本文沿袭这一研究方向，重点探讨在预训练阶段直接引入"纠错"数据的有效性——这类数据由包含错误解的步骤及其后续修正组成。基于合成数学数据集的实验表明：相较于使用等量无错误数据预训练，这种预训练方式能帮助语言模型直接（即通过简单自回归而非多轮提示）获得更高的推理准确率。我们还深入探讨了诸多细节：(1)该方法与束搜索的区别；(2)此类数据的制备方式；(3)错误标记是否需要掩码处理；(4)所需错误量的阈值；(5)此类数据能否延至微调阶段使用等关键问题。

CSGO：文本到图像生成中的内容-风格组合
CSGO: Content-Style Composition in Text-to-Image Generation

Aug 29

ByPeng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li

扩散模型在可控图像生成方面展现出卓越能力，进一步激发了图像风格迁移的研究热情。由于特定数据的稀缺性，现有研究主要集中于免训练方法（如图像反转）。本研究提出了一种内容-风格-风格化图像三元组的数据构建流程，能够自动生成并清洗风格化数据三元组。基于该流程，我们构建了首个大规模风格迁移数据集IMAGStyle，包含21万个图像三元组，可供学界探索研究。依托IMAGStyle数据集，我们提出端到端训练的CSGO风格迁移模型，通过独立特征注入显式解耦内容与风格特征。该统一模型实现了图像驱动的风格迁移、文本驱动的风格化合成以及文本编辑驱动的风格化合成。大量实验证明，我们的方法能有效增强图像生成中的风格控制能力。更多可视化结果及源代码获取请访问项目页面：https://csgo-gen.github.io/。

基于空间记忆的3维重建
3D Reconstruction with Spatial Memory

Aug 28

ByHengyi Wang, Lourdes Agapito

我们提出Spann3R——一种从有序或无序图像集合中进行稠密三维重建的新方法。基于DUSt3R范式，Spann3R采用基于Transformer的架构，无需任何场景先验知识或相机参数即可直接从图像回归点云图。与DUSt3R预测每对图像在局部坐标系下的点云图不同，Spann3R能够预测全局坐标系下的单图像点云图，从而消除了基于优化的全局对齐需求。Spann3R的核心思想是维护一个外部空间记忆模块，该模块通过学习持续追踪所有先前的相关三维信息。随后Spann3R通过查询该空间记忆，在全局坐标系下预测下一帧的三维结构。该方法充分利用DUSt3R的预训练权重，并在部分数据集上进一步微调，在多种未见数据集上展现出卓越的性能和泛化能力，可实时处理有序图像序列。项目页面：https://hengyiwang.github.io/projects/spanner

风格重混：通过风格要素的精馏与扰动实现可解释的作者身份隐匿
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements

Aug 28

ByJillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi

作者身份混淆——即通过重写文本来刻意隐藏作者身份——是一项重要但具有挑战性的任务。当前基于大语言模型的方法缺乏可解释性与可控性，常常忽略作者特有的风格特征，导致整体鲁棒性不足。针对这一问题，我们提出了StyleRemix，一种自适应且可解释的混淆方法，通过对原始文本中特定的细粒度风格元素进行扰动来实现混淆。该方法采用预训练的低秩自适应模块，能够沿不同风格维度（如正式度与文本长度）对输入文本进行定向重写，同时保持较低的计算成本。经自动评估与人工评估验证，StyleRemix在多个领域均优于现有基线模型及参数量更大的语言模型。此外，我们发布了AuthorMix数据集（包含来自14位不同作者、4大领域的3万篇高质量长文本）以及DiSC平行语料库（涵盖7个风格维度、16个独特方向的1500篇文本）。

扩散模型与基于流的XGBoost模型规模化研究
Scaling Up Diffusion and Flow-based XGBoost Models

Aug 28

ByJesse C. Cresswell, Taewoo Kim

针对表格数据生成的新型机器学习方法通常基于小型数据集开发，难以满足科学应用所需的规模要求。我们研究了近期提出的采用XGBoost作为扩散模型与流匹配模型中函数逼近器的方案，发现即使在微型数据集上，该方法也存在极高的内存消耗。本文从工程角度对现有实现方案进行批判性分析，证明这些局限性并非方法本身固有缺陷——通过优化实现方案，可将处理数据集规模扩大至先前研究的370倍。我们的高效实现还支持将模型扩展至更大规模，实验证明这能直接提升基准任务的性能表现。此外，我们提出可进一步优化资源利用和模型性能的算法改进，包括特别适用于生成式建模的多输出树结构。最后，我们在源自实验粒子物理学的Fast Calorimeter模拟挑战赛大型科学数据集上呈现了实验结果。代码已发布于https://github.com/layer6ai-labs/calo-forest。

元流匹配：Wasserstein流形上的向量场集成
Meta Flow Matching: Integrating Vector Fields on the Wasserstein Manifold

Aug 26

ByLazar Atanackovic, Xi Zhang, Brandon Amos, Mathieu Blanchette, Leo J. Lee, Yoshua Bengio, Alexander Tong, Kirill Neklyudov

众多生物与物理过程可被建模为随时间连续演化的相互作用实体系统，例如通信细胞或物理粒子的动态变化。学习此类系统的动态规律对于预测新样本和未知环境中群体随时间演化的趋势至关重要。基于流的模型能够在群体层面学习这些动态——它们模拟的是整个样本分布的演化过程。然而，当前基于流的模型仅适用于单一初始群体和一组描述不同动态的预设条件。我们认为，自然科学中的多重过程必须被表示为Wasserstein概率密度流形上的向量场。也就是说，由于样本间的相互作用，群体在任何时刻的变化都取决于群体自身的状态。这一点在个性化医疗中尤为关键，因为疾病发展及其对应治疗反应取决于每位患者特有的细胞微环境。我们提出元流匹配（MFM），通过将初始群体的流模型进行摊销计算，实现在Wasserstein流形上沿这些向量场积分的一种实用方法。具体而言，我们使用图神经网络（GNN）对样本群体进行嵌入表示，并利用这些嵌入向量来训练流匹配模型。这使得MFM能够泛化到不同初始分布，与现有方法相比具有显著优势。我们通过大规模多患者单细胞药物筛选数据集证明，MFM能有效提升个体治疗反应的预测准确性。