每日精选AI研究论文及翻译
尽管大型语言模型(LLMs)表现出色,但其发展面临一个关键挑战,即可扩展的监督:为难以进行人工评估或LLMs胜过人类的任务提供有效反馈。尽管在利用LLMs进行批判方面存在越来越多的兴趣,但当前方法仍依赖于人类注释或更强大的模型,未解决在无外部监督下增强批判能力的问题。我们引入了SCRIT(Self-evolving CRITic),这是一个能够实现真正自我进化批判能力的框架。从技术上讲,SCRIT通过在合成数据上训练自我改进,这些数据是由基于对比的自我批评者生成的,该批评者使用参考解决方案进行逐步批判,并通过纠正结果确保批判质量的自我验证机制。SCRIT采用了Qwen2.5-72B-Instruct,这是最强大的LLMs之一,实现了对批判-纠正和错误识别基准的最多10.3\%改进。我们的分析表明,SCRIT的性能随着数据和模型规模的增加呈正向变化,优于替代方法,并且在很大程度上受益于其自我验证组件。
检索增强生成(RAG)是一种强大的策略,用于解决基础模型生成事实不准确输出的问题,通过检索与查询相关的外部知识并将其合并到生成过程中。然而,现有的RAG方法主要专注于文本信息,最近一些进展开始考虑图像,但很大程度上忽视了视频,这是一种丰富的多模态知识源,能够更有效地表示事件、过程和上下文细节,胜过其他模态。虽然最近一些研究探索了将视频整合到响应生成过程中,但它们要么预先定义与查询相关的视频而不根据查询检索它们,要么将视频转换为文本描述而未利用其多模态丰富性。为了解决这些问题,我们引入了VideoRAG,这是一个新颖的框架,不仅可以根据其与查询的相关性动态检索相关视频,还可以在输出生成中利用视频的视觉和文本信息。此外,为了实现这一目标,我们的方法围绕着大型视频语言模型(LVLMs)的最新进展,这些模型可以直接处理视频内容以表示检索和检索的视频与查询的无缝整合。我们通过实验证实了VideoRAG的有效性,展示其优于相关基线。
推理是解决复杂多步问题的基本能力,特别是在视觉环境中,其中序贯逐步理解至关重要。现有方法缺乏评估视觉推理的全面框架,并且不强调逐步问题解决。为此,我们提出了一个全面的框架,通过三个关键贡献推进大型语言模型(LMMs)中的逐步视觉推理。首先,我们引入了一个专门设计用于评估多步推理任务的视觉推理基准。该基准提供了一个多样化的挑战集,涵盖了八个不同类别,从复杂的视觉感知到科学推理,总共包含超过4k个推理步骤,能够对LLMs在多个步骤中执行准确和可解释的视觉推理能力进行强大评估。其次,我们提出了一种新颖的度量标准,以个别步骤的粒度评估视觉推理质量,强调正确性和逻辑连贯性。所提出的度量标准相较于传统的最终任务准确度指标,能够提供更深入的推理表现洞察。第三,我们提出了一个新的多模态视觉推理模型,命名为LlamaV-o1,采用多步课程学习方法进行训练,任务逐渐组织以促进增量技能习得和问题解决。所提出的LlamaV-o1专为多步推理而设计,并通过结构化训练范式逐步学习。广泛实验证明,我们的LlamaV-o1胜过现有的开源模型,并在推理扩展时表现优异,与封闭源专有模型相比。与最近的Llava-CoT相比,我们的LlamaV-o1在六个基准测试中取得了67.3的平均分,绝对增益为3.8\%,同时在推理扩展时速度提高了5倍。我们的基准测试、模型和代码均可公开获取。
在无结构环境中进行操纵的通用机器人系统的开发是一个重大挑战。虽然视觉语言模型(VLM)擅长高层次常识推理,但它们缺乏精细的三维空间理解,这是精确操纵任务所需的。在机器人数据集上微调VLM以创建视觉-语言-动作模型(VLA)是一个潜在的解决方案,但受到高数据收集成本和泛化问题的阻碍。为了解决这些挑战,我们提出了一种新颖的以物体为中心的表示,弥合了VLM高层次推理和操纵所需的低级精度之间的差距。我们的关键见解是,物体的规范空间,由其功能性可供性定义,提供了一种结构化和语义上有意义的描述交互基元(如点和方向)的方式。这些基元充当桥梁,将VLM的常识推理转化为可操作的三维空间约束。在这种背景下,我们引入了一个双闭环、开词汇的机器人操纵系统:一个用于通过基元重采样、交互渲染和VLM检查进行高层规划的闭环,另一个用于通过6D姿态跟踪进行低级执行。这种设计确保了强大的、实时的控制,而无需进行VLM微调。大量实验展示了在各种机器人操纵任务中强大的零样本泛化能力,突显了这种方法在自动化大规模模拟数据生成方面的潜力。
时间感知是离线和在线视频LLMs之间的关键区别,它指的是根据问题提出时的时间戳进行动态推理的能力。与依赖完整视频进行静态事后分析的离线模型不同,在线模型会逐步处理视频流,并根据问题提出时的时间戳动态调整其响应。尽管时间感知具有重要意义,但现有基准测试并未充分评估这一点。为填补这一空白,我们提出了OVO-Bench(Online-VideO-Benchmark),这是一个强调时间戳对于评估在线视频理解能力的重要性的新型视频基准测试。OVO-Bench评估视频LLMs根据三种不同场景在特定时间戳发生的事件进行推理和响应的能力:(1)向后追溯:追溯到过去的事件以回答问题。(2)实时理解:理解并响应当前时间戳发生的事件。(3)向前主动响应:延迟响应,直到有足够的未来信息可用以准确回答问题。OVO-Bench包括12个任务,涵盖644个独特视频和约人工策划的2,800个精细的元注释,具有精确的时间戳。我们结合自动化生成流水线和人工策划。借助这些高质量样本,我们进一步开发了一个评估流水线,以系统地查询视频LLMs沿视频时间轴。对九个视频LLMs的评估显示,尽管在传统基准测试上取得了进展,但当前模型在在线视频理解方面仍存在困难,与人类代理相比存在显著差距。我们希望OVO-Bench能推动视频LLMs的进展,并激发未来在线视频推理研究。我们的基准测试和代码可在https://github.com/JoeLeelyf/OVO-Bench 上访问。
最近多模态大型语言模型(MLLMs)的进展显著提高了它们对单个图像的细粒度感知和跨多个图像的一般理解能力。然而,现有的MLLMs在复杂的多图像场景中仍面临着精确定位的挑战。为了解决这个问题,我们首先探索了一个“思维链”(CoT)框架,将单图像定位与多图像理解相结合。虽然在一定程度上有效,但由于其非端到端的特性,它仍然不稳定,并且难以捕捉抽象的视觉信息。因此,我们引入了Migician,这是第一个能够在多个图像之间执行自由形式和准确定位的多图像定位模型。为了支持这一点,我们提出了MGrounding-630k数据集,其中包含了从现有数据集衍生的几个多图像定位任务的数据,以及新生成的自由形式定位指令跟随数据。此外,我们提出了MIG-Bench,这是一个专门设计用于评估多图像定位能力的全面基准。实验结果表明,我们的模型实现了显著优越的多图像定位能力,比现有最佳MLLMs提高了21.61%,甚至超过了规模更大的70B模型。我们的代码、模型、数据集和基准均已完全开源。
大型语言模型(LLMs)近年来取得了显著的性能,但基本上受到底层训练数据的限制。为了改进模型超越训练数据,最近的研究探讨了LLMs如何生成合成数据以进行自主自我改进。然而,连续的自我改进步骤可能会达到收益递减的点。在这项工作中,我们提出了一种辅助自我改进的方法,即对语言模型的多智能体社会应用微调。一组语言模型,都从同一基础模型开始,通过更新每个模型使用多智能体之间相互作用生成的数据来独立专门化。通过在独立数据集上训练每个模型,我们阐明了这种方法如何实现模型间的专业化和模型集合的多样化。因此,我们的整体系统能够保留多样化的推理链,并在比单一智能体自我改进方法更多轮的微调中自主改进。我们定量地展示了这种方法在广泛的推理任务中的有效性。
结构化图像理解,例如解释表格和图表,需要在图像中的各种结构和文本之间进行战略性地重新聚焦,形成推理序列以得出最终答案。然而,当前的多模态大型语言模型(LLMs)缺乏这种多跳选择性注意力能力。在这项工作中,我们引入了ReFocus,这是一个简单而有效的框架,它赋予多模态LLMs通过对输入图像进行代码视觉编辑的能力,从而转移和完善它们的视觉焦点,生成“视觉思维”。具体而言,ReFocus使多模态LLMs能够生成Python代码来调用工具并修改输入图像,依次绘制框,突出显示部分,并遮罩区域,从而增强视觉推理过程。我们对涉及表格和图表的各种结构化图像理解任务进行了实验。相较于没有视觉编辑的GPT-4o,ReFocus在所有任务上大幅提高了性能,表格任务平均提高了11.0%,图表任务提高了6.8%。我们对不同视觉编辑的影响效果进行了深入分析,以及ReFocus为何能提高性能而不引入额外信息的原因。此外,我们使用ReFocus收集了一个包含14k个训练集,并证明这种具有中间信息的视觉思维链比标准VQA数据提供更好的监督,相较于使用QA对训练的相同模型,平均提高了8.0%,比CoT提高了2.6%。
文本到视频生成通过扩散模型取得了显著进展。然而,多概念视频定制(MCVC)仍然是一个重要挑战。我们在这项任务中确定了两个关键挑战:1)身份解耦问题,直接采用现有的定制方法在同时处理多个概念时不可避免地会混合属性,以及2)高质量视频-实体对的稀缺性,这对于训练代表和解耦各种概念的模型至关重要。为了解决这些挑战,我们引入了ConceptMaster,这是一个创新框架,有效地解决了身份解耦的关键问题,同时在定制视频中保持概念的忠实度。具体地,我们引入了一种新颖的策略,学习解耦的多概念嵌入,以独立的方式注入扩散模型,这有效地保证了具有多个身份的定制视频的质量,即使是高度相似的视觉概念。为了进一步克服高质量MCVC数据的稀缺性,我们精心建立了一个数据构建流水线,这使得能够系统地收集跨不同概念的精确多概念视频-实体数据。我们设计了一个全面的基准测试来验证我们的模型在三个关键维度上的有效性:概念忠实度、身份解耦能力以及在六种不同概念组合场景下的视频生成质量。大量实验证明,我们的ConceptMaster在这项任务中明显优于先前的方法,为生成跨多个概念的个性化和语义准确的视频铺平了道路。
视频个性化方法使我们能够合成具有特定概念的视频,如人物、宠物和地点。然而,现有方法通常专注于有限的领域,需要针对每个主题进行耗时的优化,或仅支持单个主题。我们提出了Video Alchemist - 一种具有内置多主题、开放集个性化能力的视频模型,适用于前景对象和背景,消除了对耗时的测试时间优化的需求。我们的模型建立在一个新的Diffusion Transformer模块上,它通过交叉注意力层融合每个条件参考图像及其相应的主题级文本提示。开发这样一个庞大的模型面临两个主要挑战:数据集和评估。首先,由于参考图像和视频的配对数据集极其难以收集,我们对选定的视频帧进行采样作为参考图像,并合成目标视频的片段。然而,虽然模型可以轻松去噪训练视频,但它们无法推广到新的情境。为了缓解这个问题,我们设计了一个新的自动数据构建流水线,其中包括大量的图像增强。其次,评估开放集视频个性化本身就是一个挑战。为了解决这个问题,我们引入了一个专注于准确主题保真度并支持多样化个性化场景的个性化基准。最后,我们广泛的实验证明,我们的方法在定量和定性评估中明显优于现有的个性化方法。
本研究展示了一种新颖的方法,通过在JPEG图像中嵌入EICAR测试文件来测试Vision-Large Language Model(VLM/LLM)的安全边界。我们成功地在多个LLM平台上执行了四种不同的协议,包括OpenAI GPT-4o、Microsoft Copilot、Google Gemini 1.5 Pro和Anthropic Claude 3.5 Sonnet。实验证实,包含EICAR签名的修改后的JPEG文件可以被上传、操作,并可能在LLM虚拟工作空间内执行。关键发现包括:1)能够在图像元数据中掩盖EICAR字符串而不被检测到,2)成功使用基于Python的操作在LLM环境内提取测试文件,3)展示了多种混淆技术,包括base64编码和字符串反转。本研究将微软研究的“渗透测试规则”框架扩展到评估基于云的生成式人工智能和LLM的安全边界,特别关注容器化环境内的文件处理和执行能力。
传统的胶片动画制作流程包括多个关键步骤,如故事板设计、布局设计、关键帧动画、中间画制作和上色,这些步骤需要大量的人工劳动、技术专长和大量时间投入。这些挑战历来阻碍了胶片动画制作的效率和可扩展性。生成式人工智能(GenAI)的兴起,涵盖大型语言模型、多模态模型和扩散模型,通过自动化任务如中间画生成、上色和故事板创建,提供创新解决方案。本调查探讨了GenAI集成如何通过降低技术门槛、通过AniDoc、ToonCrafter和AniSora等工具扩大更广泛创作者的可访问性,使艺术家能够更专注于创意表达和艺术创新,从而彻底改变传统动画工作流程。尽管具有潜力,但保持视觉一致性、确保风格连贯性和解决伦理考虑等问题仍然存在挑战。此外,本文讨论了未来的发展方向,并探讨了AI辅助动画的潜在进展。欲了解更多信息和资源,请访问我们的GitHub存储库:https://github.com/yunlong10/Awesome-AI4Animation
领域自适应后训练大型语言模型(LLMs)已成为专业领域(如医学和金融)的一种有前途的方法。然而,在跨不同数据和模型配置识别最佳适应标准和训练策略方面仍存在重大挑战。为了解决这些挑战,我们引入了FINDAP,这是一个系统化且细致入微的研究,针对金融领域的LLMs进行领域自适应后训练。我们的方法首先确定目标领域所需的核心能力,并设计了一个与这些需求对齐的全面评估套件。然后,我们分析了关键后训练阶段的有效性,包括持续预训练、指导调整和偏好对齐。基于这些见解,我们提出了一个有效的训练配方,重点是一种新颖的偏好数据蒸馏方法,利用了来自生成奖励模型的过程信号。由此产生的模型,Llama-Fin,在广泛的金融任务中实现了最先进的性能。我们的分析还突出了每个后训练阶段如何为不同的能力做出贡献,揭示了具体的挑战和有效的解决方案,为LLMs的领域自适应提供了宝贵的见解。项目页面:https://github.com/SalesforceAIResearch/FinDap