AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Jina CLIP：あなたのCLIPモデルはテキスト検索エンジンでもある
Jina CLIP: Your CLIP Model Is Also Your Text Retriever

May 30

ByAndreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao

コントラスティブ言語-画像事前学習（CLIP）は、画像とテキストを固定サイズのベクトルにマッピングすることで、共通の埋め込み空間で整合させるモデルを訓練するために広く使用されています。これらのモデルは、マルチモーダル情報検索や関連タスクにおいて重要な役割を果たします。しかし、CLIPモデルは、専門的なテキストモデルと比較して、テキストのみのタスクでは一般的に性能が低いです。これにより、テキストのみのタスクとマルチモーダルタスクのために別々の埋め込みとモデルを保持する情報検索システムに非効率性が生じます。この問題に対処するため、我々は新しいマルチタスクコントラスティブ訓練手法を提案し、それを用いてjina-clip-v1モデルを訓練し、テキスト-画像検索とテキスト-テキスト検索の両方のタスクにおいて最先端の性能を達成しました。

類似性だけでは不十分：多層的思考を備えた検索拡張生成
Similarity is Not All You Need: Endowing Retrieval Augmented Generation with Multi Layered Thoughts

May 30

ByChunjing Gan, Dan Yang, Binbin Hu, Hanxiao Zhang, Siyuan Li, Ziqi Liu, Yue Shen, Lin Ju, Zhiqiang Zhang, Jinjie Gu, Lei Liang, Jun Zhou

近年、大規模言語モデル（LLM）は様々な領域で顕著な成果を上げてきた。しかし、知識更新の遅延やコスト、そしてLLMの幻覚問題が、知識集約型タスクにおけるその応用を制限しており、そこで検索拡張生成（RAG）が役立つ可能性がある。とはいえ、既存の検索拡張モデルは通常、クエリとドキュメントの間の橋渡しとして類似性を用い、検索後に読むという手順を踏む。本研究では、類似性が常に万能薬ではなく、類似性に完全に依存することが時として検索拡張生成の性能を低下させることを主張する。この目的のために、我々はMetRagという、多層思考を強化した検索拡張生成フレームワークを提案する。まず、既存の類似性指向の思考を超えて、LLMからの監督を利用した小規模な有用性モデルを取り入れ、有用性指向の思考を導入し、さらに類似性と有用性指向の思考を包括的に組み合わせることで、よりスマートなモデルを構築する。さらに、検索されたドキュメントセットが膨大になり、それらを個別に使用することが共通点や特徴を捉えることを困難にするという事実を踏まえ、LLMをタスク適応型の要約器として活用し、検索拡張生成にコンパクトネス指向の思考を付与することを提案する。最後に、前段階からの多層思考を踏まえ、LLMを呼び出して知識拡張生成を行う。知識集約型タスクにおける広範な実験により、MetRagの優位性が実証された。

MotionLLM: 人間の動作と映像から人間の行動を理解する
MotionLLM: Understanding Human Behaviors from Human Motions and Videos

May 30

ByLing-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang

本研究は、大規模言語モデル（LLMs）の強力な能力を活用して、マルチモダリティ（すなわち、ビデオとモーションのモダリティ）における人間の行動理解の領域に深く踏み込むものである。最近のビデオのみまたはモーションのみを理解するために設計されたLLMsとは異なり、人間の行動を理解するためには、ビデオとモーションシーケンス（例えば、SMPLシーケンス）の両方からの共同モデリングが必要であり、これにより身体部位の動的かつ意味的なニュアンスを効果的に捉えることができると主張する。この観点から、人間のモーション理解、キャプション生成、および推論のためのシンプルでありながら効果的なフレームワークであるMotionLLMを提案する。具体的には、MotionLLMは、既存の粗いビデオ-テキストデータと細かいモーション-テキストデータの相補的な利点を活用して、豊かな時空間的洞察を得るための統一されたビデオ-モーショントレーニング戦略を採用している。さらに、多様なビデオ、モーション、キャプション、および指示を含む大規模なデータセットMoVidを収集した。加えて、ビデオとモーションにおける人間の行動理解をより適切に評価するために、慎重に手動でアノテーションされたMoVid-Benchを提案する。広範な実験により、MotionLLMがキャプション生成、時空間的理解、および推論能力において優れていることが示された。

Xwin-LM: 大規模言語モデルのための強力かつスケーラブルなアライメント手法
Xwin-LM: Strong and Scalable Alignment Practice for LLMs

May 30

ByBolin Ni, JingCheng Hu, Yixuan Wei, Houwen Peng, Zheng Zhang, Gaofeng Meng, Han Hu

本研究では、大規模言語モデル（LLM）のための包括的なアライメント手法スイートであるXwin-LMを提案します。このスイートは、教師ありファインチューニング（SFT）、報酬モデリング（RM）、リジェクションサンプリングファインチューニング（RS）、および直接選好最適化（DPO）といったいくつかの主要な技術を包含しています。主要な構成要素は以下の通りです：（1）高品質な指示データで初期ファインチューニングされたXwin-LM-SFTモデル、（2）GPT-4を用いて詳細にアノテーションされた大規模なマルチターン選好データセットであるXwin-Pair、（3）Xwin-Pairでトレーニングされた7B、13B、70Bパラメータ規模の報酬モデルであるXwin-RM、（4）各プロンプトがXwin-LM-SFTによって生成された64のユニークな応答とXwin-RMによるスコアがリンクされたマルチワイズ選好データセットであるXwin-Set、（5）Xwin-Setから最高スコアの応答でファインチューニングされたXwin-LM-RSモデル、（6）Xwin-Set上でDPOアルゴリズムを用いてさらに最適化されたXwin-LM-DPOモデル。AlpacaEvalおよびMT-benchでの評価により、パイプライン全体を通じて一貫した大幅な改善が示され、Xwin-LMの強力さとスケーラビリティが実証されました。コミュニティ研究を促進するため、リポジトリhttps://github.com/Xwin-LM/Xwin-LMは継続的に更新されます。

MOFA-Video: 凍結画像-動画拡散モデルにおける生成モーションフィールド適応による制御可能な画像アニメーション
MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

May 30

ByMuyao Niu, Xiaodong Cun, Xintao Wang, Yong Zhang, Ying Shan, Yinqiang Zheng

本論文では、MOFA-Videoを提案する。これは、与えられた画像からビデオを生成する高度に制御可能な画像アニメーション手法であり、様々な追加制御信号（人間のランドマーク参照、手動軌跡、さらには別のビデオなど）またはそれらの組み合わせを利用する。これは、特定のモーションドメインにのみ対応可能な従来手法や、拡散事前分布を用いた弱い制御能力しか持たない手法とは異なる。我々の目標を達成するため、ビデオ生成パイプラインにおいて生成されるモーションを制御するために、複数のドメイン対応モーションフィールドアダプタ（MOFA-Adapter）を設計した。MOFA-Adapterでは、ビデオの時間的モーション一貫性を考慮し、与えられたスパースな制御条件からまず密なモーションフローを生成し、その後、与えられた画像のマルチスケール特徴をラップして、安定したビデオ拡散生成のためのガイド特徴とする。手動軌跡と人間のランドマークの両方が制御に関するスパースな情報を含むため、これら2つのモーションアダプタを個別にナイーブに学習する。学習後、異なるドメインのMOFA-Adapterを組み合わせることで、より制御可能なビデオ生成が可能となる。

GECO: 1秒以内の生成的な画像から3Dへの変換
GECO: Generative Image-to-3D within a SECOnd

May 30

ByChen Wang, Jiatao Gu, Xiaoxiao Long, Yuan Liu, Lingjie Liu

3D生成技術は近年目覚ましい進歩を遂げています。既存の手法、例えばスコア蒸留法は顕著な結果を生み出しますが、シーンごとの最適化に多大な時間を要し、効率性に影響を与えます。一方、再構築ベースのアプローチは効率性を重視しますが、不確実性の扱いが限定的であるため品質が犠牲になります。本論文では、GECOという高品質な3D生成モデリングを1秒以内で行う新たな手法を紹介します。我々のアプローチは、現在の手法が抱える不確実性と非効率性という普遍的な課題に対処するため、2段階のプロセスを採用しています。最初の段階では、スコア蒸留を用いて単一ステップのマルチビュー生成モデルを学習します。その後、第2段階の蒸留を適用し、マルチビュー予測から生じるビュー間の不整合性の問題を解決します。この2段階プロセスにより、3D生成において品質と効率性の両方を最適化するバランスの取れたアプローチを実現します。我々の包括的な実験により、GECOが前例のないレベルの効率性で高品質な画像から3Dへの生成を達成することが実証されました。

DITTO-2: 音楽生成のための蒸留拡散推論時最適化
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

May 30

ByZachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan

人間中心のAIベース音楽創作において、制御可能な音楽生成手法は極めて重要であるが、現在は速度、品質、制御設計のトレードオフによって制限されている。特に、Diffusion Inference-Time T-optimization（DITTO）は最先端の結果を提供するが、リアルタイムの10倍以上遅く、実用的な使用が制限されている。本論文では、Distilled Diffusion Inference-Time T-Optimization（DITTO-2）を提案し、推論時間最適化ベースの制御を高速化し、音楽のインペインティング、アウトペインティング、強度、メロディ、音楽構造制御など、多様なアプリケーションにおいてリアルタイムを超える生成を可能にする。本手法は、(1) 事前学習済み拡散モデルを効率的に修正された一貫性または一貫性軌道蒸留プロセスにより高速サンプリングのために蒸留し、(2) 蒸留モデルを使用して1ステップサンプリングを効率的な代理最適化タスクとして推論時間最適化を実行し、(3) 推定されたノイズ潜在変数を使用して最終的なマルチステップサンプリング生成（デコード）を行い、最高品質の高速で制御可能な生成を実現する。徹底的な評価を通じて、本手法が生成速度を10～20倍以上高速化するだけでなく、制御の遵守度と生成品質を同時に向上させることを確認した。さらに、テキスト遵守度（CLAPスコア）を最大化する新たなアプリケーションに本アプローチを適用し、テキスト入力なしの無条件拡散モデルを最先端のテキスト制御を実現するモデルに変換できることを示す。音声サンプルはhttps://ditto-music.github.io/ditto2/で確認できる。

DevEval: 実世界のコードリポジトリに基づいた手動アノテーションによるコード生成ベンチマーク
DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories

May 30

ByJia Li, Ge Li, Yunfei Zhao, Yongmin Li, Huanyu Liu, Hao Zhu, Lecheng Wang, Kaibo Liu, Zheng Fang, Lanshen Wang, Jiazheng Ding, Xuanming Zhang, Yuqi Zhu, Yihong Dong, Zhi Jin, Binhua Li, Fei Huang, Yongbin Li

大規模言語モデル（LLMs）のコーディング能力をどのように評価するかは、依然として未解決の問題です。既存のベンチマークは、実世界のコードリポジトリとの整合性が低く、LLMsのコーディング能力を評価するには不十分であることがわかりました。この知識のギャップを埋めるため、我々はDevEvalという新しいベンチマークを提案します。DevEvalには3つの特徴があります。(1) DevEvalは、コード分布や依存関係分布など、複数の次元で実世界のリポジトリと整合しています。(2) DevEvalは13人の開発者によって注釈が付けられており、要件、元のリポジトリ、参照コード、参照依存関係など、包括的な注釈を含んでいます。(3) DevEvalは、117のリポジトリから1,874のテストサンプルを収集し、インターネットやデータベースなど10の主要なドメインをカバーしています。DevEvalに基づいて、我々はリポジトリレベルのコード生成を提案し、gpt-4、gpt-3.5、StarCoder 2、DeepSeek Coder、CodeLLaMaなど8つの人気LLMsをDevEvalで評価しました。実験の結果、これらのLLMsの実世界のコードリポジトリにおけるコーディング能力が明らかになりました。例えば、我々の実験では、gpt-4-turboの最高Pass@1はわずか53.04%でした。また、LLMsの失敗ケースを分析し、その欠点をまとめました。我々は、DevEvalが実コードリポジトリにおけるLLMsの開発を促進することを期待しています。DevEval、プロンプト、およびLLMsの予測は公開されています。

PLA4D: テキストから4Dガウススプラッティングへのピクセルレベルアライメント
PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting

May 30

ByQiaowei Miao, Yawei Luo, Yi Yang

テキスト条件付き拡散モデル（DMs）が画像、ビデオ、3D生成においてブレークスルーを達成する中、研究コミュニティの焦点はより挑戦的なテキストから4D合成へと移行しつつあり、これは動的な3Dオブジェクトを生成するために時間次元を導入するものです。この文脈において、テキストから3D合成に広く使用されているスコア蒸留サンプリング（SDS）が、Janus-faced問題やテクスチャの非現実性の問題、そして高い計算コストにより、テキストから4D性能の重大な障害となっていることを指摘します。本論文では、テキストからビデオフレームを明示的なピクセルアライメントターゲットとして利用し、静的3Dオブジェクトを生成し、それらに動きを注入する新しい手法である、テキストから4Dガウススプラッティングのためのピクセルレベルアライメント（PLA4D）を提案します。具体的には、レンダリングのためのカメラポーズを校正するフォーカルアライメントと、ピクセルレベルでレンダリングされた画像コントラストからジオメトリの事前知識を蒸留するGS-Meshコントラスティブラーニングを導入します。さらに、変形ネットワークを使用してガウシアンの変化を駆動するモーションアライメントと、滑らかな4Dオブジェクト表面を実現するためのリファレンスリファインメントを開発します。これらの技術により、4Dガウススプラッティングはジオメトリ、テクスチャ、および動きを生成されたビデオとピクセルレベルでアライメントすることが可能になります。従来の方法と比較して、PLA4Dはより良いテクスチャ詳細を短時間で生成し、Janus-faced問題を効果的に軽減します。PLA4Dはオープンソースモデルを使用して完全に実装されており、4Dデジタルコンテンツ作成のためのアクセス可能でユーザーフレンドリーな有望な方向性を提供します。私たちのプロジェクトページは以下です：https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}。

DeMamba：百万規模GenVideoベンチマークにおけるAI生成動画検出
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark

May 30

ByHaoxing Chen, Yan Hong, Zizheng Huang, Zhuoer Xu, Zhangxuan Gu, Yaohui Li, Jun Lan, Huijia Zhu, Jianfu Zhang, Weiqiang Wang, Huaxiong Li

近年、ビデオ生成技術は急速に進歩しています。ソーシャルメディアプラットフォームにおけるビデオコンテンツの人気を背景に、これらのモデルは偽情報の拡散に対する懸念を高めています。そのため、AI生成の偽ビデオと本物のビデオを区別し、偽情報による潜在的な被害を軽減できる検出器への需要が高まっています。しかし、最先端のビデオ生成器から得られる大規模なデータセットの不足が、そのような検出器の開発における障壁となっています。このギャップを埋めるため、我々は初のAI生成ビデオ検出データセットであるGenVideoを紹介します。GenVideoは以下の特徴を持っています：(1) 100万以上のAI生成ビデオと実ビデオを含む大規模なビデオデータ、(2) 生成されたコンテンツと手法の多様性で、幅広いビデオカテゴリと生成技術をカバーしています。我々はこのデータセットに対する広範な研究を行い、現実世界に近いシナリオに適した2つの評価方法を提案しました：クロスジェネレータビデオ分類タスクは、訓練された検出器のジェネレータに対する汎化性能を評価し、劣化ビデオ分類タスクは、伝播中に品質が劣化したビデオを処理する検出器の堅牢性を評価します。さらに、時空間次元における不整合を分析することでAI生成ビデオを識別するプラグアンドプレイモジュール、Detail Mamba (DeMamba) を導入しました。我々の広範な実験により、DeMambaがGenVideoにおいて既存の検出器と比較して優れた汎化性能と堅牢性を発揮することが示されました。GenVideoデータセットとDeMambaモジュールは、AI生成ビデオ検出の分野を大きく前進させると確信しています。我々のコードとデータセットは https://github.com/chenhaoxing/DeMamba で公開されます。

Parrot: セマンティック変数を用いたLLMベースアプリケーションの効率的な提供
Parrot: Efficient Serving of LLM-based Applications with Semantic Variable

May 30

ByChaofan Lin, Zhenhua Han, Chengruidong Zhang, Yuqing Yang, Fan Yang, Chen Chen, Lili Qiu

大規模言語モデル（LLM）の台頭により、LLMを基盤としたアプリケーション（AIエージェントやコパイロットとも呼ばれる）という新しいソフトウェアパラダイムが可能となりました。これは、LLMと従来のソフトウェアの強みを組み合わせたものです。異なるテナントからの多様なLLMアプリケーションは、複数のLLMリクエストを使用して複雑なワークフローを設計し、1つのタスクを達成することができます。しかし、現在のパブリックLLMサービスが提供する過度に簡素化されたリクエストレベルのAPIを使用せざるを得ず、アプリケーションレベルの重要な情報が失われています。パブリックLLMサービスは、個々のLLMリクエストを盲目的に最適化するため、LLMアプリケーションのエンドツーエンドのパフォーマンスが最適化されない結果となっています。本論文では、LLMベースのアプリケーションのエンドツーエンド体験に焦点を当てたLLMサービスシステム「Parrot」を紹介します。Parrotは、アプリケーションレベルの知識をパブリックLLMサービスに公開するための統一された抽象化として「セマンティック変数」を提案します。セマンティック変数は、リクエストのプロンプト内の入力/出力変数に注釈を付け、複数のLLMリクエストを接続する際にデータパイプラインを作成し、LLMアプリケーションをプログラミングする自然な方法を提供します。セマンティック変数をパブリックLLMサービスに公開することで、従来のデータフロー分析を実行し、複数のLLMリクエスト間の相関関係を明らかにすることができます。この相関関係は、LLMベースのアプリケーションのエンドツーエンドパフォーマンスのための全く新しい最適化の余地を開きます。広範な評価により、ParrotがLLMアプリケーションの人気のある実用的なユースケースにおいて、最大で桁違いの改善を達成できることが実証されています。