翻訳付きの日次キュレーションされたAI研究論文
LLM(大規模言語モデル)とRAG(検索拡張生成)システムは、現在数百万以上の入力トークンを処理できる能力を持っています。しかし、長文脈タスクにおけるこれらのシステムの出力品質を評価することは依然として困難であり、「干し草の山の中の針探し」のようなタスクは複雑性に欠けています。本研究では、要約がそのような評価において中心的な役割を果たすことができると主張します。私たちは、特定の洞察が文書間で繰り返されるように文書の「干し草の山」を合成する手順を設計しました。「干し草の山の要約」(SummHay)タスクでは、システムが干し草の山を処理し、クエリに基づいて関連する洞察を特定し、正確にソース文書を引用した要約を生成する必要があります。干し草の山の要約にどの洞察が現れるべきか、どの文書が引用されるべきかを正確に知っているため、カバレッジと引用の2つの側面で要約を評価する再現性の高い自動評価を実装しました。私たちは、会話とニュースの2つのドメインで干し草の山を生成し、10のLLMと対応する50のRAGシステムを大規模に評価しました。私たちの調査結果は、SummHayが現在のシステムにとって未解決の課題であることを示しています。文書の関連性に関するオラクル信号が提供されたシステムでさえ、人間の性能の推定値(56%)をJoint Scoreで10ポイント以上下回っています。検索器なしでは、GPT-4oやClaude 3 Opusのような長文脈LLMはSummHayで20%未満のスコアしか得られません。私たちは、SummHayが企業のRAGシステムや長文脈モデルのポジションバイアスを研究するためにも使用できることを示します。将来のシステムがSummHayで人間の性能に匹敵し、それを超えることを期待しています。
大規模言語モデル(LLM)の最近の進展により、コード合成、プログラム修復、テスト生成などのソフトウェア開発タスクの自動化が大幅に進展しています。さらに最近では、研究者や業界の実務家が、エンドツーエンドのソフトウェア開発タスクを実行するためのさまざまな自律型LLMエージェントを開発しています。これらのエージェントは、ツールを使用し、コマンドを実行し、環境からのフィードバックを観察し、将来のアクションを計画する能力を備えています。しかし、これらのエージェントベースのアプローチの複雑さと、現在のLLMの能力の限界から、次の疑問が生じます:本当に複雑な自律型ソフトウェアエージェントを採用する必要があるのでしょうか?この疑問に答えるために、我々はAgentlessを構築しました。これは、ソフトウェア開発の問題を自動的に解決するためのエージェントレスなアプローチです。エージェントベースのアプローチの冗長で複雑なセットアップと比較して、Agentlessは、ローカライゼーションに続いて修復を行うというシンプルな2段階のプロセスを採用し、LLMに将来のアクションを決定させたり、複雑なツールを操作させたりしません。人気のあるSWE-bench Liteベンチマークでの結果は、驚くべきことに、シンプルなAgentlessが、既存のすべてのオープンソースソフトウェアエージェントと比較して最高のパフォーマンス(27.33%)と最低のコスト(\$0.34)を達成できることを示しています!さらに、我々はSWE-bench Liteの問題を手動で分類し、正確なグラウンドトゥルースパッチがある問題や不十分/誤解を招く問題説明がある問題を特定しました。そのため、これらの問題を除外したSWE-bench Lite-Sを構築し、より厳密な評価と比較を行いました。我々の研究は、自律型ソフトウェア開発におけるシンプルで解釈可能な技術の現在の見過ごされていた可能性を強調しています。Agentlessが、自律型ソフトウェアエージェントのベースライン、出発点、そして地平線をリセットし、この重要な方向性に沿った将来の研究を刺激することを願っています。
テキストからビデオ(T2V)生成は、大規模マルチモダリティモデルSoraの登場により、最近大きな注目を集めています。しかし、T2V生成には依然として2つの重要な課題が存在します。1)正確でオープンソースの高品質データセットの不足。従来の人気のあるビデオデータセット、例えばWebVid-10MやPanda-70Mは、品質が低いか、ほとんどの研究機関にとって規模が大きすぎるかのいずれかです。そのため、T2V生成のための正確で高品質なテキストとビデオのペアを収集することは困難ですが、非常に重要です。2)テキスト情報を十分に活用していないこと。最近のT2V手法はビジョントランスフォーマーに焦点を当て、ビデオ生成に単純なクロスアテンションモジュールを使用していますが、これではテキストプロンプトから意味情報を十分に抽出できません。これらの問題に対処するため、我々は表現力豊かなキャプションを持つ正確で高品質なデータセットOpenVid-1Mを紹介します。このオープンシナリオのデータセットは100万以上のテキストとビデオのペアを含み、T2V生成の研究を促進します。さらに、OpenVid-1Mから433Kの1080pビデオを選び、高解像度ビデオ生成を進めるためにOpenVidHD-0.4Mを作成しました。加えて、ビジュアルトークンから構造情報を、テキストトークンから意味情報を掘り下げることができる新しいマルチモーダルビデオ拡散トランスフォーマー(MVDiT)を提案します。広範な実験とアブレーションスタディにより、OpenVid-1Mが従来のデータセットを上回ること、および我々のMVDiTの有効性が検証されました。
大規模言語モデル(LLM)の推論における計算上の課題は、特にプロンプトの長さが増加し続ける中で、その広範な展開に対する大きな障壁となっています。アテンション計算の二次的な複雑さのため、8BのLLMが1Mトークンのプロンプト(つまり、プリフィリング段階)を単一のA100 GPUで処理するのに30分かかります。既存のプリフィリング高速化手法は、長文脈LLMに適用した場合、許容可能な精度や効率を維持できないことが多いです。このギャップを埋めるため、我々はMInference(Milliontokens Inference)を導入しました。これは、長文シーケンス処理のプリフィリングを加速するためのスパース計算手法です。具体的には、長文脈アテンションマトリックスにおける3つの独特なパターン(A字型、垂直スラッシュ、ブロックスパース)を特定し、GPU上での効率的なスパース計算に活用します。各アテンションヘッドに対して最適なパターンをオフラインで決定し、推論時に割り当てられたパターンに基づいてスパースインデックスを動的に構築します。このパターンとスパースインデックスを用いて、最適化されたGPUカーネルを通じて効率的なスパースアテンション計算を実行し、長文脈LLMのプリフィリング段階のレイテンシを大幅に削減します。提案手法は、既存のLLMに直接適用可能で、事前学習設定の変更や追加のファインチューニングを必要としません。InfiniteBench、RULER、PG-19、Needle In A Haystackなどの多様な下流タスク、およびLLaMA-3-1M、GLM4-1M、Yi-200K、Phi-3-128K、Qwen2-128Kなどのモデルを用いて評価を行った結果、MInferenceがA100上でのプリフィリングの推論レイテンシを最大10倍削減しつつ、精度を維持することを実証しました。コードはhttps://aka.ms/MInferenceで公開されています。
大規模言語モデル(LLM)の性能向上において、選好アライメントは重要な要素となっているが、マルチモーダル大規模言語モデル(MLLM)におけるその影響は比較的未開拓のままである。言語モデルと同様に、画像理解タスクにおけるMLLMも、幻覚(hallucination)のような課題に直面している。MLLMでは、誤った事実を述べるだけでなく、画像の内容と矛盾する応答を生成することによっても幻覚が発生する可能性がある。MLLMのアライメントの主な目的は、これらのモデルが画像情報により密接に整合した応答を生成するよう促すことである。最近、複数の研究がMLLM向けの選好データセットを導入し、Direct Preference Optimization(DPO)やProximal Policy Optimization(PPO)といった異なるアライメント手法を検証している。しかし、データセット、ベースモデルの種類、アライメント手法の違いにより、これらの研究で報告された改善に最も大きく寄与する具体的な要素は依然として不明である。本論文では、MLLMにおける選好アライメントの各側面を独立して分析する。まず、アライメントアルゴリズムをオフライン(DPOなど)とオンライン(オンラインDPOなど)の2つのグループに分類し、特定のシナリオにおいてオフラインとオンラインの手法を組み合わせることがモデルの性能を向上させることを示す。次に、公開されている多様なマルチモーダル選好データセットをレビューし、その構築の詳細がモデルの性能にどのように影響するかを議論する。これらの知見に基づき、追加のアノテーションや外部モデルを必要としない新しいマルチモーダル選好データ作成方法であるBias-Driven Hallucination Sampling(BDHS)を提案し、これが既存のマルチモーダルモデル向けアライメント研究と競合する性能を一連のベンチマークで達成できることを示す。
本論文では、Magic Insertを提案する。これは、ユーザー提供の画像から被写体をドラッグ&ドロップし、異なるスタイルのターゲット画像に物理的に妥当な方法で挿入しながら、ターゲット画像のスタイルに合わせる手法である。本研究では、スタイルを考慮したドラッグ&ドロップの問題を定式化し、それを解決するための手法を提示する。具体的には、スタイルを考慮したパーソナライゼーションと、スタイル化された画像への現実的なオブジェクト挿入という2つのサブ問題に取り組む。スタイルを考慮したパーソナライゼーションでは、まずLoRAと学習済みテキストトークンを使用して、被写体画像に対して事前学習済みのテキストから画像への拡散モデルをファインチューニングし、その後、ターゲットスタイルのCLIP表現を組み込む。オブジェクト挿入では、ブートストラップドメイン適応を使用して、ドメイン固有のフォトリアリスティックなオブジェクト挿入モデルを多様な芸術的スタイルのドメインに適応させる。全体として、この手法はインペインティングなどの従来のアプローチを大幅に上回る性能を示す。最後に、この分野の評価と今後の進展を促進するためのデータセット、SubjectPlopを提示する。プロジェクトページ: https://magicinsert.github.io/
大規模言語モデル(LLMs)は、膨大なコーパスで学習されるため、個人のプライバシー情報や著作権保護されたコンテンツなどの機微なデータを保持せざるを得ません。最近の知識忘却技術の進展では、特定の知識を消去するためにLLMのパラメータを更新する手法が提案されています。しかし、現在の忘却パラダイムは曖昧な忘却境界に悩まされており、しばしば知識を無差別に消去してしまう問題があります。本研究では、著作権コンテンツとユーザープライバシーの領域を含むベンチマーク「KnowUnDo」を導入し、忘却プロセスが意図せずに重要な知識を消去してしまうかどうかを評価します。我々の調査結果によると、既存の忘却手法は過剰な忘却に陥りがちです。この問題に対処するため、勾配情報を利用して機微なパラメータを正確にターゲットし忘却する、シンプルかつ効果的な手法「MemFlex」を提案します。実験結果は、MemFlexがLLMの正確な知識忘却と一般的な知識保持の両面において、既存手法を凌駕することを示しています。コードとデータセットはhttps://github.com/zjunlp/KnowUnDoで公開予定です。
フローマッチング(FM)は、ノイズとデータサンプル間の変換を実現するために、常微分方程式(ODE)を用いて確率経路を定義する一般的なフレームワークです。最近のアプローチでは、高品質なサンプルを少ない関数評価回数で生成するために、これらのフロー軌道を直線化しようと試みており、通常は反復的な補正手法や最適輸送ソリューションを介して行われます。本論文では、速度場における自己一貫性を明示的に強制する新しいFM手法であるConsistency Flow Matching(Consistency-FM)を紹介します。Consistency-FMは、異なる時刻から同じ終点に向かう直線的なフローを直接定義し、それらの速度値に制約を課します。さらに、Consistency-FMの表現力を向上させるために、マルチセグメントトレーニングアプローチを提案し、サンプリング品質と速度の間のより良いトレードオフを実現します。予備実験では、Consistency-FMが一貫性モデルよりも4.4倍、補正フローモデルよりも1.7倍速く収束し、生成品質も向上させることで、トレーニング効率を大幅に改善することが示されています。私たちのコードは以下で公開されています: https://github.com/YangLing0818/consistency_flow_matching
大規模言語モデル(LLM)に潜在する価値観や意見を明らかにすることは、バイアスを特定し、潜在的な危害を軽減するのに役立ちます。最近では、LLMに調査質問を提示し、道徳的・政治的にセンシティブな声明に対する姿勢を定量化するアプローチが取られています。しかし、LLMが生成する姿勢は、プロンプトの与え方によって大きく異なる可能性があり、特定の立場を支持または反対するための議論の方法も多岐にわたります。本研究では、6つのLLMが420種類のプロンプト変種を用いて生成した、政治コンパステスト(PCT)の62の命題に対する156kのLLM応答からなる大規模で堅牢なデータセットを分析することで、この問題に取り組みます。我々は、生成された姿勢の粗粒度分析と、それらの姿勢に対する平文の正当化の細粒度分析を行います。細粒度分析では、応答内のトロープ(反復的で一貫した意味的に類似したフレーズ)を特定することを提案します。これにより、特定のLLMが生成しやすいテキストのパターンを明らかにします。我々は、プロンプトに追加された人口統計学的特徴がPCTの結果に大きな影響を与え、バイアスを反映すること、および閉形式の応答とオープンドメインの応答を引き出す際のテスト結果の間に差異があることを発見しました。さらに、平文の根拠におけるトロープを通じたパターンは、異なる姿勢であっても、モデルやプロンプトを跨いで類似した正当化が繰り返し生成されることを示しています。
拡散モデルに基づくビデオ生成の最近の進展は目覚ましい成果を示しているが、合成ビデオと実世界のビデオの間のギャップはまだ十分に探求されていない。本研究では、このギャップを外観、動き、幾何学の3つの基本的な観点から検証し、実世界のビデオと最先端のAIモデルであるStable Video Diffusionによって生成されたビデオを比較する。これを実現するため、3D畳み込みネットワークを使用して3つの分類器を訓練し、それぞれ外観には視覚基盤モデルの特徴、動きにはオプティカルフロー、幾何学には単眼深度をターゲットとする。各分類器は、質的および量的に偽ビデオ検出において高い性能を示す。これは、AI生成ビデオが依然として容易に検出可能であり、実ビデオと偽ビデオの間には依然として大きなギャップが存在することを示唆している。さらに、Grad-CAMを利用して、AI生成ビデオの外観、動き、幾何学における体系的な失敗を特定する。最後に、外観、オプティカルフロー、深度情報を統合したエキスパートアンサンブルモデルを提案し、偽ビデオ検出のための堅牢性と汎化能力を向上させる。我々のモデルは、訓練中にSoraのビデオに一切触れることなく、Soraによって生成されたビデオを高精度で検出することができる。これは、実ビデオと偽ビデオの間のギャップが様々なビデオ生成モデルにわたって一般化可能であることを示唆している。プロジェクトページ: https://justin-crchang.github.io/3DCNNDetection.github.io/
本研究では、ビデオと同期した高品質なサウンドエフェクトを自動生成するNeural Foleyを探求し、没入感のある視聴覚体験を実現します。幅広い応用が期待される一方で、既存の手法では高品質かつビデオに整合した(すなわち、意味的に関連し時間的に同期した)音声を同時に合成する際に制約がありました。これらの制約を克服するため、我々はFoleyCrafterという新しいフレームワークを提案します。FoleyCrafterは、事前学習済みのテキストから音声へのモデルを活用して高品質な音声生成を保証します。FoleyCrafterは、意味的アラインメントのためのセマンティックアダプタと、正確な音声-ビデオ同期のためのテンポラルコントローラという2つの主要コンポーネントで構成されています。セマンティックアダプタは、並列クロスアテンションレイヤーを利用してビデオ特徴に基づいた音声生成を行い、視覚内容と意味的に関連したリアルなサウンドエフェクトを生成します。一方、テンポラルコントローラは、オンセット検出器とタイムスタンプベースのアダプタを組み込み、正確な音声-ビデオアラインメントを実現します。FoleyCrafterの注目すべき利点の一つは、テキストプロンプトとの互換性があり、ユーザーの意図に応じて制御可能で多様なビデオから音声への生成をテキスト記述を用いて実現できる点です。我々は、標準ベンチマークにおいて広範な定量的および定性的実験を行い、FoleyCrafterの有効性を検証しました。モデルとコードはhttps://github.com/open-mmlab/FoleyCrafterで公開されています。
近年の顕微鏡技術の進歩により、細胞生物学や生物医学研究においてテラバイト規模の画像データが迅速に生成されるようになりました。視覚言語モデル(VLMs)は、大規模な生物画像分析において有望な解決策を提供し、研究者の効率を向上させ、新しい画像バイオマーカーを特定し、仮説生成と科学的発見を加速します。しかし、生物画像理解におけるVLMsの知覚および認知能力を評価するための標準化された多様で大規模な視覚言語ベンチマークが不足しています。このギャップを埋めるため、我々は{\mu}-Benchを導入します。これは、専門家がキュレートしたベンチマークで、さまざまな科学分野(生物学、病理学)、顕微鏡モダリティ(電子、蛍光、光学)、スケール(細胞内、細胞、組織)、および正常および異常状態の生物を網羅する22の生物医学タスクを含みます。我々は、最先端の生物医学、病理学、および一般VLMsを{\mu}-Benchで評価し、以下のことを発見しました:i)現在のモデルは、顕微鏡モダリティの区別などの基本的なタスクを含むすべてのカテゴリーで苦戦している、ii)生物医学データでファインチューニングされた現在の専門モデルは、一般モデルよりもしばしば性能が劣る、iii)特定の顕微鏡領域でのファインチューニングは、基本モデルにエンコードされた以前の生物医学知識を破壊するカタストロフィックフォゲッティングを引き起こす可能性がある、iv)ファインチューニングされたモデルと事前学習されたモデル間の重み補間は、フォゲッティングに対する一つの解決策を提供し、生物医学タスク全体での一般的な性能を向上させます。我々は、顕微鏡基盤モデルの研究開発を加速するため、{\mu}-Benchを許諾ライセンスの下で公開します。