每日精选AI研究论文及翻译
语言代理在规定的环境和短时间内展现了令人印象深刻的问题解决能力。然而,随着开放世界模拟的不断复杂化,迫切需要代理能够灵活适应复杂环境,并始终保持长期记忆以确保行动连贯性。为了弥合语言代理和开放世界游戏之间的差距,我们引入了角色扮演语言代理(LARP),其中包括一个涵盖记忆处理和决策辅助的认知架构,一个具有反馈驱动可学习行动空间的环境交互模块,以及一种促进各种个性对齐的后处理方法。LARP框架优化了用户与代理之间的交互,预先设定了独特背景和个性,最终增强了在开放世界环境中的游戏体验。此外,它突出了语言模型在娱乐、教育和各种模拟场景等多个领域的广泛用途。项目页面发布在https://miao-ai-lab.github.io/LARP/。
扩散模型已经改变了图像到图像(I2I)合成,并且正在渗透到视频领域。然而,视频到视频(V2V)合成的进展受到了跨视频帧保持时间一致性的挑战的阻碍。本文提出了一种一致的V2V合成框架,通过共同利用源视频中的空间条件和时间光流线索。与先前严格遵循光流的方法相反,我们的方法利用其优势同时处理流估计中的不完美之处。我们通过从第一帧进行变形来编码光流,并将其作为扩散模型中的补充参考。这使得我们的模型能够通过使用任何主流I2I模型编辑第一帧,然后将编辑传播到后续帧进行视频合成。我们的V2V模型FlowVid展示了显著的特性:(1)灵活性:FlowVid与现有I2I模型无缝配合,支持各种修改,包括风格化、对象交换和局部编辑。 (2)效率:生成一段30 FPS、512x512分辨率的4秒视频仅需1.5分钟,比CoDeF、Rerender和TokenFlow分别快3.1倍、7.2倍和10.5倍。 (3)高质量:在用户研究中,我们的FlowVid在45.7%的时间内被优先选择,优于CoDeF(3.5%)、Rerender(10.2%)和TokenFlow(40.4%)。
我们介绍了SynCLR,这是一种新颖的方法,专门从合成图像和合成标题中学习视觉表示,而无需任何真实数据。我们使用LLMs合成了一个大型图像标题数据集,然后利用现成的文本到图像模型生成与每个合成标题对应的多个图像。我们通过对比学习在这些合成图像上进行视觉表示学习,将共享相同标题的图像视为正对。由此产生的表示在许多下游任务中具有良好的迁移性能,在图像分类任务中与其他通用视觉表示学习器(如CLIP和DINO v2)竞争激烈。此外,在诸如语义分割之类的密集预测任务中,SynCLR在性能上优于以前的自监督方法,例如,在ADE20k的ViT-B/16上,相对于MAE和iBOT,mIoU提高了6.2和4.3个百分点。
最近大语言模型(LLMs)的趋势是增加模型规模(即参数数量)和数据集规模,以实现更好的生成能力,这一点已被许多工作所证实,如著名的GPT和Llama。然而,大型模型往往涉及巨大的计算成本,实际应用无法承受如此高昂的价格。然而,针对LLMs构建强大模型架构的方法很少被讨论。我们首先分析了最先进的语言模型架构,并观察到特征坍塌问题。基于理论分析,我们提出非线性对于语言模型也非常重要,这通常在用于视觉任务的卷积神经网络中进行研究。然后引入了一种系列通知激活函数,通过可以忽略的微小计算,并进一步使用增强的快捷方式来增强模型的非线性。我们随后证明了所提出的方法通过精心设计的消融实验显著有效,因此我们提出了一种用于建立现代模型的高效模型架构,即PanGu-pi。然后使用相同的数据集和训练策略进行实验,将PanGu-pi与最先进的LLMs进行比较。结果显示,PanGu-pi-7B可以实现与基准模型相当的性能,推理速度提高约10%,而PanGu-pi-1B在准确性和效率方面可以实现最先进的性能。此外,我们已将PanGu-pi-7B部署在金融和法律等高价值领域,开发了一个名为YunShan的LLM用于实际应用。结果显示,YunShan在基准测试中可以超越其他类似规模的模型。
对于多模态大型语言模型(MLLMs)的兴趣日益增长,比如OpenAI的GPT-4V(ision),已经显著影响了学术界和工业界。这些模型通过增强大型语言模型(LLMs)的高级视觉理解能力,促进了它们在各种多模态任务中的应用。最近,谷歌推出了Gemini,这是一款专门设计用于多模态整合的尖端MLLM。尽管Gemini在常识推理任务上落后于GPT模型的初步基准测试显示。然而,这一评估是基于有限数据集(即HellaSWAG)进行的,未能充分捕捉Gemini在真实常识推理潜力。为填补这一空白,我们的研究对Gemini在需要跨模态整合常识知识的复杂推理任务中的表现进行了彻底评估。我们对12个常识推理数据集进行了全面分析,涵盖了从一般到特定领域任务的范围。其中包括11个仅关注语言的数据集,以及一个融合了多模态元素的数据集。我们在四个LLMs和两个MLLMs上的实验表明Gemini具有竞争力的常识推理能力。此外,我们还确定了当前LLMs和MLLMs在解决常识问题时面临的共同挑战,强调了在增强这些模型的常识推理能力方面需要进一步的进展。