每日精选AI研究论文及翻译
可缩放矢量图形(SVG)作为一种重要的图像格式,因其分辨率独立性和可编辑性在图形设计领域得到广泛应用。生成高质量SVG的研究持续吸引着AIGC社区中设计师与研究者的关注。然而,现有方法要么生成非结构化输出且计算成本高昂,要么仅限于生成结构过于简化的单色图标。为生成高质量且复杂的SVG,我们提出了OmniSVG,一个利用预训练视觉-语言模型(VLMs)进行端到端多模态SVG生成的统一框架。通过将SVG命令和坐标参数化为离散令牌,OmniSVG在保持复杂SVG结构表现力的同时,将结构逻辑与底层几何解耦,实现了高效训练。为进一步推动SVG合成技术的发展,我们引入了MMSVG-2M,一个包含两百万个丰富标注SVG资源的多模态数据集,并制定了条件SVG生成任务的标准化评估协议。大量实验表明,OmniSVG超越了现有方法,展现了其融入专业SVG设计流程的潜力。
大型语言模型(LLMs)已展现出通过高级推理、长文本生成及工具使用来应对日益复杂任务的能力。解决这些任务通常涉及长时间的推理计算。在人类问题解决过程中,一个常见的加速策略是协作:将问题分解为子任务、并行探索不同策略等。近期研究表明,LLMs也能通过实施明确的合作框架(如投票机制或创建可并行执行的独立子任务)来实现并行操作。然而,这些框架并非适用于所有任务类型,这限制了它们的通用性。在本研究中,我们提出了一种不同的设计思路:并行运行LLM“工作者”,允许它们通过同步更新的注意力缓存进行协调,并提示这些工作者决定如何最佳协作。我们的方法让实例能够针对当前问题自行制定协作策略,同时通过并发缓存“看到”彼此的部分进展。我们通过Hogwild!推理实现了这一方法:一个并行LLM推理引擎,其中同一LLM的多个实例在共享注意力缓存的情况下并行运行,能够“即时”访问彼此生成的标记。Hogwild!推理利用旋转位置嵌入(RoPE)避免重复计算,同时提升并行硬件利用率。我们发现,现代具备推理能力的LLMs无需额外微调即可直接使用共享的键值缓存进行推理。
我们推出Skywork R1V,这是一种多模态推理模型,通过高效的多模态迁移方法,将R1系列大型语言模型(LLM)扩展至视觉模态。借助轻量级视觉投影器,Skywork R1V实现了无缝的多模态适应,无需重新训练基础语言模型或视觉编码器。为加强视觉与文本的对齐,我们提出了一种混合优化策略,结合迭代监督微调(SFT)与群体相对策略优化(GRPO),显著提升了跨模态整合效率。此外,我们引入了一种自适应长度的思维链蒸馏方法,用于推理数据生成。该方法动态优化推理链长度,从而提升推理效率,避免过度推理。实证评估表明,仅拥有380亿参数的Skywork R1V展现出竞争力,在MMMU基准测试中取得69.0分,在MathVista上获得67.5分。同时,它保持了强劲的文本推理能力,在AIME上获得72.0分,在MATH500上达到94.0分。Skywork R1V的模型权重已公开发布,以促进开放性和可复现性。
图像生成领域已迅速发展,从早期的基于GAN的方法到扩散模型,再到最近寻求桥接理解与生成任务的统一生成架构。尤其是GPT-4o的最新进展,展示了高保真多模态生成的可行性,但其架构设计仍神秘未公开。这引发了一个问题:图像与文本生成是否已成功整合到这些方法的统一框架中。在本研究中,我们对GPT-4o的图像生成能力进行了实证分析,将其与领先的开源和商业模型进行基准测试。我们的评估涵盖四大类别,包括文本到图像、图像到图像、图像到3D以及图像到X的生成,涉及超过20项任务。通过分析,我们揭示了GPT-4o在不同设置下的优势与局限,并将其置于生成模型更广泛的演进背景中。通过这一探索,我们为未来统一生成模型指明了有前景的方向,强调了架构设计与数据扩展的重要性。
大语言模型(LLMs)与人类偏好的对齐已取得显著成功。然而,现有的中文偏好数据集受限于规模小、领域覆盖窄以及缺乏严格的数据验证。此外,依赖人工标注者进行指令和响应标注,极大地限制了人类偏好数据集的可扩展性。为解决这些挑战,我们设计了一个无需人工干预的基于LLM的中文偏好数据集标注流程。具体而言,我们爬取并精心筛选了92k条高质量中文查询,并利用15个主流LLM生成并评分优选-拒绝响应对。基于此,我们推出了COIG-P(中文开放指令通用偏好数据集),这是一个高质量、大规模的中文偏好数据集,包含1,009k对中文偏好数据,涵盖6个多样化领域:聊天、代码、数学、逻辑、小说和角色扮演。在COIG-P的基础上,为降低使用LLM进行评分的开销,我们训练了一个8B规模的中文奖励模型(CRM),并精心构建了中文奖励基准(CRBench)。基于AlignBench liu2024alignbenchbenchmarkingchinesealignment的评估结果显示,COIG-P显著优于其他中文偏好数据集,并为Qwen2/2.5和Infinity-Instruct-3M-0625模型系列分别带来了2%至12%的性能提升。CRBench上的结果表明,我们的CRM具备强大且稳健的评分能力。我们将其应用于COIG-P测试集部分的优选-拒绝响应对筛选,实验显示其在识别低质量样本方面与GPT-4o相当,同时保持了高效性和成本效益。我们的代码和数据已发布于https://github.com/multimodal-art-projection/COIG-P。
尽管主题驱动生成因其广泛应用在图像生成领域得到了深入探索,但在数据可扩展性和主题扩展性方面仍面临挑战。针对第一个挑战,从构建单一主题数据集转向多主题数据集并实现其规模化尤为困难。对于第二个挑战,近期方法多聚焦于单主题生成,难以应对多主题场景的需求。本研究提出了一种高度一致的数据合成流程以应对这一难题。该流程利用扩散变换器固有的上下文生成能力,生成高一致性的多主题配对数据。此外,我们引入了UNO模型,它包含渐进式跨模态对齐和通用旋转位置嵌入,是一个从文本到图像模型迭代训练而来的多图像条件主题到图像模型。大量实验表明,我们的方法在确保可控性的同时,在单主题及多主题驱动生成中均能实现高度一致性。
混合专家(Mixture of Experts, MoE)架构展现出显著优势,因其能在不按比例增加计算量的前提下提升模型容量。然而,大规模MoE模型仍带来巨大的内存需求,这在资源受限平台上通常需要专家卸载,并伴随显著开销。为降低专家加载开销,提出了混合CPU-GPU推理方案,利用CPU计算资源,但面临两大挑战:一方面,MoE模型的专家激活模式极不稳定,使得现有工作中的固定映射策略效率低下;另一方面,由于专家规模、结构多样及工作负载分布不均等因素,MoE的CPU-GPU混合调度本身极为复杂。针对这些挑战,本文提出HybriMoE,一种混合CPU-GPU推理框架,通过创新的CPU-GPU调度与缓存管理系统提升资源利用率。HybriMoE引入了(i)动态层内调度策略以平衡CPU与GPU间的工作负载,(ii)基于影响的层间预取算法,以及(iii)评分驱动的缓存算法,以缓解专家激活的不稳定性。我们在kTransformers框架上实现了HybriMoE,并在三种广泛使用的基于MoE的大语言模型上进行了评估。实验结果表明,与最先进的混合MoE推理框架相比,HybriMoE在预填充阶段平均加速1.33倍,在解码阶段平均加速1.70倍。代码已开源:https://github.com/PKU-SEC-Lab/HybriMoE。
文本到图像(T2I)扩散/流模型因其卓越的灵活视觉创作能力而备受瞩目。然而,高分辨率图像合成由于高分辨率内容的稀缺性和复杂性,仍面临巨大挑战。为此,我们提出了HiFlow,一个无需训练且与模型无关的框架,旨在释放预训练流模型的分辨率潜力。具体而言,HiFlow在高分辨率空间内建立了一个虚拟参考流,有效捕捉低分辨率流信息的特征,并通过三个关键方面为高分辨率生成提供指导:初始化对齐以确保低频一致性,方向对齐以保持结构完整性,以及加速对齐以保障细节保真度。通过利用这种流对齐指导,HiFlow显著提升了T2I模型的高分辨率图像合成质量,并在其个性化变体中展现了广泛的适用性。大量实验验证了HiFlow在实现优于当前最先进方法的高分辨率图像质量方面的卓越性能。
随着强大的大语言模型(LLMs)展现出超越人类的推理能力,一个关键问题随之而来:LLMs是否真正在推理,还是仅仅从其庞大的网络抓取训练数据集中回忆答案?一旦公开发布的基准被纳入后续LLM的训练集,它们不可避免地会受到污染,从而削弱其作为忠实评估工具的可靠性。为解决这一问题,我们引入了KUMO,一个专为评估LLMs推理能力而设计的生成式评估框架。KUMO将LLMs与符号引擎协同结合,动态生成多样化的多轮推理任务,这些任务部分可观察且难度可调。通过自动化流程,KUMO在开放领域持续生成新颖任务,迫使模型展示真正的泛化能力而非记忆能力。我们在KUMO创建的100个领域的5,000个任务上评估了23个最先进的LLMs,将其推理能力与大学生进行对比。我们的研究结果表明,许多LLMs在简单推理任务上已超越大学水平,而经过推理扩展的LLMs在复杂推理挑战中达到了大学水平。此外,LLMs在KUMO任务上的表现与新发布的现实世界推理基准结果高度相关,这凸显了KUMO作为评估LLMs真实推理能力的稳健、持久工具的价值。
多模态大语言模型(MLLMs)的最新进展已在各类多模态基准测试中取得了显著提升。然而,随着评估从静态数据集转向开放世界的动态环境,当前的游戏基准测试仍显不足,因其缺乏以视觉为中心的任务,且未能全面评估现实世界决策所需的多样化推理能力。为此,我们引入了视觉中心多能力游戏评估框架(V-MAGE),这是一个旨在评估MLLMs视觉推理能力的游戏化评估体系。V-MAGE包含五款多样化游戏,超过30个精心设计的关卡,测试模型在定位、轨迹追踪、时机把握及视觉记忆等核心视觉技能上的表现,同时考察长期规划与深思熟虑等高级推理能力。我们利用V-MAGE对领先的MLLMs进行了评估,揭示了它们在视觉感知与推理方面面临的重大挑战。在所有游戏环境中,根据Elo评分比较得出的表现最佳MLLMs,与人类相比存在显著的性能差距。我们的研究结果凸显了关键限制,包括模型做出的多种感知错误,并从智能体中心视角提出了改进的潜在路径,如优化智能体策略和解决感知不准确问题。代码已发布于https://github.com/CSU-JPG/V-MAGE。
在基于文本的图像编辑(TIE)中,平衡保真度与可编辑性至关重要,失败往往导致过度或不足的编辑问题。现有方法通常依赖注意力注入来保持结构,并利用预训练文本到图像(T2I)模型固有的文本对齐能力实现可编辑性,但它们缺乏明确且统一的机制来妥善平衡这两个目标。本文中,我们提出了UnifyEdit,一种无需调参的方法,通过扩散潜在优化在统一框架内实现保真度与可编辑性的平衡整合。与直接注意力注入不同,我们开发了两种基于注意力的约束:自注意力(SA)保持约束用于结构保真,以及交叉注意力(CA)对齐约束以增强文本对齐,提升可编辑性。然而,同时应用这两种约束可能导致梯度冲突,其中一种约束的主导会导致过度或不足的编辑。为解决这一挑战,我们引入了一种自适应时间步调度器,动态调整这些约束的影响,引导扩散潜在向最优平衡发展。大量定量与定性实验验证了我们方法的有效性,展示了其在多种编辑任务中实现结构保持与文本对齐之间稳健平衡的优越性,超越了其他最先进方法。源代码将发布于https://github.com/CUC-MIPG/UnifyEdit。
近期推理模型的进展,特别是在数学推理等复杂任务上,通过采用详尽全面的推理过程,显著提升了准确性。然而,生成这些冗长的推理序列计算成本高且耗时。为解决这一效率问题,我们利用某些任务固有的并行性来加速推理过程。具体而言,当存在多个并行推理分支时,我们使用专门的注意力掩码在每一步解码多个标记,并在单一序列中处理它们,从而避免了额外的内存占用。实验结果表明,我们的方法在保持答案质量的同时,解码时间实现了超过100%的加速。
强化微调(Reinforcement Finetuning, RFT)在提升大型语言模型(LLMs)的数学推理能力方面展现出巨大潜力,但其通常样本和计算效率低下,需要大量训练。在本研究中,我们提出了AdaRFT(自适应课程强化微调),一种通过自适应课程学习显著提升RFT效率和最终准确性的方法。AdaRFT根据模型最近的奖励信号动态调整训练问题的难度,确保模型始终在具有挑战性但可解决的任务上进行训练。这种自适应采样策略通过维持最佳难度范围加速学习,避免在过于简单或困难的问题上浪费计算资源。AdaRFT仅需对标准RFT算法(如近端策略优化PPO)进行轻量级扩展,无需修改奖励函数或模型架构。在包括AMC、AIME及IMO风格问题在内的竞赛级数学数据集上的实验表明,AdaRFT显著提升了训练效率和推理性能。我们评估了AdaRFT在多种数据分布和模型规模下的表现,结果显示其最多可减少2倍的训练步数,并大幅提高准确率,为RFT提供了一个更具扩展性和有效性的框架。
现有的大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的推理评估框架主要侧重于评估基于文本的推理能力或视觉语言理解能力,而在文本与视觉约束之间的动态交互方面存在局限。为应对这一不足,我们引入了CrossWordBench,一个通过填字游戏这一媒介来评估LLMs和LVLMs推理能力的基准测试。填字游戏任务要求模型同时遵循基于文本线索的语义约束和视觉网格结构的交叉约束。CrossWordBench利用可控的谜题生成框架,生成多种格式(文本与图像)的谜题,并提供从直接解谜到互动模式的不同评估策略。我们对超过20个模型进行了广泛评估,发现推理型LLMs通过有效利用交叉字母约束,显著优于非推理模型。此外,我们还发现LVLMs在此任务上表现欠佳,其解谜性能与网格解析准确性之间存在强相关性。我们的研究揭示了当前LLMs和LVLMs在推理能力上的局限性,并为未来评估中创建多模态约束任务提供了有效途径。
近期,通过大语言模型(LLMs)在自动定理证明(ATP)领域的进展,凸显了利用Lean 4代码进行形式化推理的潜力。然而,ATP尚未如OpenAI的O1/O3和Deepseek的R1所示,因后训练规模扩展而迎来革命性变革。本研究深入探讨了ATP的整个后训练过程,旨在使其与自然语言推理模型的突破性进展保持一致。首先,我们采用混合数据集对现有ATP模型进行持续训练,该数据集包含大量陈述-证明对,以及旨在融入模拟人类推理和假设精炼的认知行为的额外数据。接着,我们探索了利用Lean 4编译器返回的结果奖励进行强化学习的方法。通过我们设计的持续训练和强化学习流程,我们成功提升了包括DeepSeek-Prover-v1.5和Goedel-Prover在内的现有形式化证明器的性能,在全证明生成领域达到了最先进水平。例如,在MiniF2F测试集上,我们实现了59.8%的通过率(pass@32)。这是一项持续进行的研究,我们将逐步更新我们的发现,并公开我们的数据及训练细节。
模仿学习已成为构建通用机器人的一种前景广阔的方法。然而,由于其对高质量专家演示的依赖,将模仿学习扩展到大规模机器人基础模型仍面临挑战。与此同时,大量描绘广泛环境和多样行为的视频数据易于获取。这些数据提供了关于现实世界动态和智能体-环境交互的丰富信息来源。然而,由于缺乏大多数现代方法所需的动作标注,直接利用这些数据进行模仿学习已被证明是困难的。在本研究中,我们提出了统一世界模型(UWM),一个能够同时利用视频和动作数据进行策略学习的框架。具体而言,UWM在统一的Transformer架构中整合了动作扩散过程和视频扩散过程,其中独立的扩散时间步长控制每种模态。我们展示,通过简单地控制每个扩散时间步长,UWM可以灵活地表示策略、前向动态、逆向动态和视频生成器。通过模拟和真实世界的实验,我们表明:(1)UWM能够在大规模多任务机器人数据集上进行有效的预训练,包括动态和动作预测,从而产生比模仿学习更具泛化性和鲁棒性的策略;(2)UWM通过独立控制特定模态的扩散时间步长,自然促进了从无动作视频数据中学习,进一步提升了微调策略的性能。我们的结果表明,UWM为利用大规模异构数据集进行可扩展的机器人学习提供了一个有希望的步骤,并在模仿学习和世界建模这两个常常分离的范式之间实现了简单的统一。视频和代码可在https://weirdlabuw.github.io/uwm/获取。
广义类别发现(GCD)是一个实用但尚未充分探索的问题,它要求模型通过利用旧类别的标注样本来自动聚类并发现新类别。其挑战在于未标注数据中同时包含旧类别和新类别。早期工作采用参数化分类器进行伪标签处理,将旧类别和新类别分开处理,导致两者之间的准确率失衡。最近的方法利用对比学习,却忽视了潜在的正面样本,并与聚类目标脱节,导致表示偏差和次优结果。为解决这些问题,我们引入了一个统一且无偏的原型学习框架,即ProtoGCD,其中旧类别和新类别通过联合原型和统一学习目标进行建模,实现了新旧类别的统一建模。具体而言,我们提出了一种双层次自适应伪标签机制来缓解确认偏差,并结合两个正则化项共同帮助学习更适合GCD的表示。此外,出于实际考虑,我们设计了一个准则来估计新类别的数量。更进一步,我们将ProtoGCD扩展至检测未见过的异常值,实现了任务层面的统一。综合实验表明,ProtoGCD在通用和细粒度数据集上均达到了最先进的性能。代码可在https://github.com/mashijie1028/ProtoGCD获取。