Xindi Wu, Hee Seung Hwang, Polina Kirichenko, Olga Russakovsky
262
多模态大语言模型(MLLMs)在简单的视觉-语言任务上表现出色,但在面对需要多种能力的复杂任务时却显得力不从心,例如同时识别物体、计数并理解它们的空间关系。这在一定程度上可能是由于视觉指令调优(VIT)——MLLMs关键训练步骤——传统上侧重于扩大数据规模,而非提升训练样本的组合复杂性所致。我们提出了COMPACT(组合式原子到复杂视觉能力调优),它生成一个明确控制训练样本组合复杂性的训练数据集。COMPACT提供的数据使MLLMs能够通过原子能力的组合来更高效地学习复杂能力。在所有基准测试中,COMPACT在使用不到LLaVA-665k VIT 10%数据预算的情况下,实现了与其相当的性能,并在多个任务上超越之,尤其是在涉及复杂多能力任务时。例如,在需要四个或更多原子能力的特别复杂问题上,COMPACT相较于全规模VIT,在MMStar上实现了83.3%的显著提升,在MM-Vet上提升了94.0%。COMPACT提供了一种可扩展、数据高效的视觉组合调优方案,以改进复杂视觉-语言任务的表现。
Qihao Liu, Ju He, Qihang Yu, Liang-Chieh Chen, Alan Yuille
122
近年来,视频生成技术取得了显著进展。然而,在生成复杂运动和交互方面仍存在挑战。为应对这些挑战,我们提出了ReVision,一个即插即用的框架,它将参数化的三维物理知识显式地整合到预训练的条件视频生成模型中,显著提升了其生成高质量复杂运动和交互视频的能力。具体而言,ReVision包含三个阶段。首先,利用视频扩散模型生成粗略视频;接着,从该粗略视频中提取一组二维和三维特征,构建以对象为中心的三维表示,并通过我们提出的参数化物理先验模型进行优化,生成精确的三维运动序列;最后,将这一优化后的运动序列作为额外条件反馈至同一视频扩散模型,从而即使在涉及复杂动作和交互的场景下,也能生成运动一致性的视频。我们在Stable Video Diffusion上验证了该方法的有效性,ReVision显著提高了运动的真实性和连贯性。值得注意的是,仅拥有15亿参数的ReVision,在复杂视频生成任务上,大幅超越了拥有超过130亿参数的最先进视频生成模型。我们的结果表明,通过融入三维物理知识,即便是相对较小的视频扩散模型,也能以更高的真实感和可控性生成复杂的运动和交互,为物理可信的视频生成提供了一个有前景的解决方案。