翻訳付きの日次キュレーションされたAI研究論文
本論文は、テキストガイダンスのみを用いた画像へのオブジェクト追加という重要な課題に取り組む。この課題は、新しいオブジェクトを照明、テクスチャ、空間的位置など視覚的コンテキストと一貫性を持ってシームレスに統合しなければならないため、困難である。既存のテキストガイド画像インペインティング手法はオブジェクトを追加できるが、背景の一貫性を維持できないか、バウンディングボックスの指定やユーザースクリブルマスクといった煩雑な人的介入を必要とする。この課題に対処するため、我々はテキスト制御のみでテキストガイドオブジェクト追加を可能にするText-to-Image(T2I)モデル、Diffreeを提案する。これに向けて、高度な画像インペインティング技術を用いてオブジェクトを除去した精巧な合成データセットOABenchを構築した。OABenchは、元画像、オブジェクトを除去したインペイント画像、オブジェクトマスク、オブジェクト記述からなる74Kの実世界タプルで構成される。Stable Diffusionモデルに追加のマスク予測モジュールを組み込み、OABenchで学習したDiffreeは、新しいオブジェクトの位置を独自に予測し、テキストガイダンスのみでオブジェクト追加を実現する。大規模な実験により、Diffreeが背景の一貫性、空間的適切性、オブジェクトの関連性と品質を維持しつつ、高い成功率で新しいオブジェクトを追加できることが実証された。
大規模モデルの力を活用した新しいオープンソースのコード不要マルチエージェントデータ分析システム「LAMBDA」を紹介します。LAMBDAは、自然言語を用いて反復的かつ生成的に動作する革新的に設計されたデータエージェントを通じて、複雑なデータ駆動型アプリケーションにおけるデータ分析の課題に対処するために設計されています。LAMBDAの中核には、シームレスに連携するように設計された2つの主要なエージェントの役割があります。具体的には、プログラマーがユーザーの指示とドメイン固有の知識に基づいてコードを生成し、高度なモデルによって強化されます。一方、インスペクターは必要に応じてコードをデバッグします。堅牢性を確保し、不測の事態に対処するために、LAMBDAは操作ループに直接ユーザーが介入できるユーザーインターフェースを備えています。さらに、LAMBDAは知識統合メカニズムを通じて外部モデルやアルゴリズムを柔軟に統合でき、カスタマイズされたデータ分析のニーズに対応します。LAMBDAは、さまざまな機械学習データセットで強力なパフォーマンスを発揮しています。人間と人工知能をシームレスに統合することで、データサイエンスの実践と分析パラダイムを強化し、多様な背景を持つ個人にとってよりアクセスしやすく、効果的で効率的なものにする可能性を秘めています。LAMBDAがデータサイエンスの問題を解決する際の強力なパフォーマンスは、いくつかのケーススタディで実証されており、https://www.polyu.edu.hk/ama/cmfai/lambda.html で紹介されています。
大規模言語モデル(LLMs)の最近の進展により、超大規模シミュレーションにおけるマルチエージェントシステムの応用に新たな道が開かれました。しかし、既存のプラットフォームを用いたマルチエージェントシミュレーションを行う際には、スケーラビリティと効率性の制限、エージェントの多様性の不足、管理プロセスの手間のかかる性質など、いくつかの課題が残されています。これらの課題に対処するため、我々はユーザーフレンドリーなマルチエージェントプラットフォームであるAgentScopeに対して、新たな機能とコンポーネントを開発し、超大規模マルチエージェントシミュレーションを支援するための利便性と柔軟性を向上させました。具体的には、高いスケーラビリティと効率性を実現するための基盤技術としてアクターベースの分散メカニズムを提案し、様々な現実世界のシナリオをシミュレートするための柔軟な環境サポートを提供します。これにより、複数のエージェントの並列実行、集中型ワークフローのオーケストレーション、エージェント間およびエージェントと環境間の相互作用が可能となります。さらに、AgentScopeには使いやすい設定可能なツールと自動的な背景生成パイプラインを統合し、多様かつ詳細な背景設定を持つエージェントの作成プロセスを簡素化しました。最後に、複数のデバイスにまたがって展開される可能性のある大量のエージェントを便利に監視および管理するためのウェブベースのインターフェースを提供します。我々は、AgentScopeに提案された機能強化の有効性を実証するための包括的なシミュレーションを実施し、大規模シミュレーションにおけるマルチエージェントシステムの応用の大きな可能性を強調するための詳細な観察と議論を提供します。ソースコードはGitHub(https://github.com/modelscope/agentscope)で公開されており、大規模マルチエージェントシミュレーションにおけるさらなる研究と開発を促進することを目的としています。
大規模データセットを用いて学習することで、ゼロショット単眼深度推定(MDE)手法は実世界での堅牢な性能を示すが、しばしば十分に精密なディテールを欠くという課題がある。最近の拡散モデルベースのMDEアプローチは魅力的なディテール抽出能力を示すものの、多様なデータセットから堅牢な幾何学的な事前情報を得る難しさから、幾何学的に複雑なシーンでは依然として苦戦している。両者の補完的な利点を活用するため、我々はBetterDepthを提案し、幾何学的に正確なアフィン不変MDE性能を効率的に達成しつつ、細かなディテールを捉えることを目指す。具体的には、BetterDepthは事前学習済みMDEモデルの予測を深度条件として取り込み、その中でグローバルな深度コンテキストが十分に捉えられた上で、入力画像に基づいてディテールを反復的に洗練する条件付き拡散ベースのリファイナである。このようなリファイナの学習のために、我々はグローバルな事前アライメントとローカルパッチマスキング手法を提案し、BetterDepthが深度条件に忠実でありつつ、細かなシーンディテールを捉えることを保証する。小規模な合成データセットでの効率的な学習により、BetterDepthは多様な公開データセットおよび実世界のシーンにおいて、最先端のゼロショットMDE性能を達成する。さらに、BetterDepthは追加の再学習なしに、他のMDEモデルの性能をプラグアンドプレイ方式で向上させることができる。
AIエージェントは、環境を認識し、タスクを理解し、自律的に目標を達成する能力において、ますます注目を集めています。モバイルシナリオにおけるAIエージェントの研究を推進するため、我々はAndroid Multi-annotation EXpo(AMEX)を紹介します。これは、汎用モバイルGUI制御エージェント向けに設計された包括的で大規模なデータセットです。モバイルデバイスのグラフィカルユーザーインターフェース(GUI)を直接操作して複雑なタスクを完了する能力が、提案されたデータセットを用いて訓練および評価されます。AMEXは、110の主要なモバイルアプリケーションから収集された10万4千以上の高解像度スクリーンショットで構成され、複数のレベルで注釈が付けられています。既存のモバイルデバイス制御データセット(例:MoTIF、AitWなど)とは異なり、AMEXは3つのレベルの注釈を含んでいます:GUIインタラクティブ要素のグラウンディング、GUI画面と要素の機能説明、および平均13ステップの段階的なGUIアクションチェーンを伴う複雑な自然言語指示です。我々は、既存のデータセットの一般的な設定を補完するため、より教育的で詳細な観点からこのデータセットを開発しました。さらに、ベースラインモデルSPHINX Agentを開発し、他のデータセットで訓練された最先端のエージェントとの性能を比較します。さらなる研究を促進するため、データセット、モデル、および関連する評価ツールをオープンソースとして公開しています。プロジェクトはhttps://yuxiangchai.github.io/AMEX/で利用可能です。
大規模言語モデル(LLM)によって生成される有害コンテンツのリスクは、重要な懸念事項となっています。本論文では、LLMが有害なコンテンツの生成を自律的に回避する能力(コース修正能力)を評価し、改善するための体系的な研究を提示します。まず、定量的評価のためのC^2-Evalベンチマークを導入し、10の主要なLLMを分析することで、現在の安全性チューニングされたLLMのコース修正能力にばらつきがあることを明らかにします。改善策として、タイムリーなコース修正を優先する選好学習を用いたLLMのファインチューニングを提案します。自動化されたパイプラインを使用して、750Kのペアワイズ選好を含む合成データセットC^2-Synを作成し、データ駆動型の選好学習を通じてモデルにタイムリーなコース修正の概念を教えます。Llama2-Chat 7BとQwen2 7Bの2つのLLMを用いた実験では、本手法が一般的な性能に影響を与えることなく、コース修正スキルを効果的に向上させることを示しています。さらに、特にジェイルブレイク攻撃に対する耐性において、LLMの安全性を効果的に改善します。
今日の最強の言語モデルの事前学習データは不透明である。特に、様々なドメインや言語がどのような割合で含まれているかはほとんど知られていない。本研究では、学習データの分布構成を明らかにすることを目的とした「データ混合推論」というタスクに取り組む。我々は、現代の言語モデルの大多数が使用するバイトペアエンコーディング(BPE)トークナイザーという、これまで見過ごされてきた情報源に基づく新たな攻撃手法を提案する。鍵となる洞察は、BPEトークナイザーが学習するマージルールの順序付きリストが、その学習データにおけるトークンの頻度に関する情報を自然に明らかにするということである。最初のマージは最も頻度の高いバイトペアであり、2番目のマージは最初のトークンをマージした後の最も頻度の高いペア、といった具合である。トークナイザーのマージリストと、各カテゴリのデータサンプルが与えられた場合、我々は線形計画法を定式化し、トークナイザーの学習セットにおける各カテゴリの割合を求める。重要な点として、トークナイザーの学習データが事前学習データを代表している限り、我々は間接的に事前学習データについて学ぶことができる。制御された実験において、我々の攻撃手法が、自然言語、プログラミング言語、データソースの既知の混合で訓練されたトークナイザーに対して、高い精度で混合比率を復元することを示す。次に、我々のアプローチを最近の言語モデルに付属する市販のトークナイザーに適用する。これらのモデルに関する多くの公表情報を確認し、さらにいくつかの新しい推論を行う:GPT-4oのトークナイザーはその前身よりもはるかに多言語的で、39%の非英語データで訓練されている;Llama3はGPT-3.5のトークナイザーを主に多言語(48%)使用のために拡張している;GPT-3.5とClaudeのトークナイザーは主にコード(約60%)で訓練されている。我々の研究が、現在の事前学習データの設計慣行に光を当て、言語モデルのデータ混合推論に関する研究の継続を促すことを願っている。
命令追従型大規模視覚言語モデル(LVLM)の分野において、これらのモデルの効率的な展開は、特にキー・バリュー(KV)キャッシュの高いメモリ要求により課題に直面しています。従来のLLM向けキャッシュ管理戦略はキャッシュの削除に焦点を当てていますが、これはマルチモーダルな命令追従モデルの特定のニーズに対応しきれないことが多いです。このギャップを認識し、本論文ではElastic Cacheを紹介します。これは、命令エンコーディングと出力生成の各段階に異なる高速化手法を適用することでメリットを得る新しいアプローチです。私たちは、異なる段階における重要性の指標を調査し、冗長なキャッシュを削減するための重要性駆動型キャッシュ統合戦略を提案します。重要性の低いキャッシュを単に破棄するのではなく、重要なキー/バリューベクトルをアンカーポイントとして特定します。その後、重要性の低いキャッシュをこれらのアンカーに統合することで、KVキャッシュ内の文脈情報の保存を強化しつつ、任意の加速比を実現します。命令エンコーディングに関しては、キャッシュの重要性を評価するために頻度を利用します。出力生成に関しては、オフセットを伴う距離に基づいてトークンを優先し、初期および最新のトークンを保持します。様々なLVLMでの結果は、Elastic Cacheが効率を向上させるだけでなく、様々なタスクにおける言語生成において既存のプルーニング手法を著しく上回ることを示しています。コードはhttps://github.com/liuzuyan/ElasticCacheで公開されています。
近年の進歩により、マルチモーダル大規模言語モデル(MLLM)の画像からテキストへの生成および理解能力が大幅に向上しました。しかし、これらの成功にもかかわらず、進展は主に英語に限定されており、他の言語での高品質なマルチモーダルリソースの不足が原因です。この制約は、アラビア語などの言語での競争力のあるモデルの開発を妨げています。この状況を改善するため、我々はLLaMA-2に基づく先進的な言語モデルを活用した効率的なアラビア語マルチモーダルアシスタント「Dallah」を紹介します。Dallahは、アラビア語MLLMにおいて最先端の性能を発揮します。6つのアラビア語方言をファインチューニングすることで、Dallahはテキストと視覚要素を組み込んだ複雑な方言間の相互作用を処理する能力を示しています。このモデルは、現代標準アラビア語(MSA)の性能を評価するベンチマークテストと、方言応答を評価するために特別に設計されたテストの両方で優れた成績を収めています。マルチモーダル相互作用タスクにおける堅牢な性能に加えて、Dallahは方言を意識したアラビア語MLLMのさらなる開発の道を開く可能性を秘めています。
血液染色剤であるヘマトキシリン・エオシン(H&E)で染色された組織画像における細胞核のセグメンテーションは、様々な臨床応用や分析において不可欠です。細胞形態の複雑な特性により、高品質なセグメンテーションを生成するためには、大きな受容野が重要であると考えられています。しかし、従来の手法では、受容野と計算負荷のバランスを取ることが課題となっていました。この問題を解決するため、我々は高精度かつ効率的な細胞セグメンテーション手法であるLKCellを提案します。その核心的な洞察は、大きな畳み込みカーネルの潜在能力を引き出し、計算効率の良い大きな受容野を実現することにあります。具体的には、(1) 事前学習済みの大きな畳み込みカーネルモデルを初めて医療分野に転用し、細胞セグメンテーションにおけるその有効性を実証します。(2) 従来手法の冗長性を分析し、大きな畳み込みカーネルに基づく新しいセグメンテーションデコーダを設計します。これにより、パラメータ数を大幅に削減しながら、より高い性能を達成します。我々の手法を最も困難なベンチマークで評価し、細胞核インスタンスセグメンテーションにおいて最先端の結果(0.5080 mPQ)を達成しました。これは、従来の主要な手法と比較してわずか21.6%のFLOPsで実現されています。ソースコードとモデルはhttps://github.com/hustvl/LKCellで公開しています。
FIGNEWS共有タスクの概要を紹介します。本タスクは、ACL 2024と共催されるArabicNLP 2024カンファレンスの一環として開催されました。この共有タスクは、多言語ニュース投稿におけるバイアスとプロパガンダの注釈付けに取り組むものです。具体的なケーススタディとして、イスラエル・ガザ戦争の初期段階に焦点を当てています。本タスクの目的は、潜在的なバイアスやプロパガンダを強調する多様なナラティブを分析するためのフレームワークを作成することで、主観的なタスクのための注釈ガイドラインの開発における協力を促進することです。多様性を育み、奨励する精神のもと、英語、フランス語、アラビア語、ヘブライ語、ヒンディー語の5言語を対象とした多言語的視点からこの問題に取り組みました。合計17チームが、バイアス(16チーム)とプロパガンダ(6チーム)の2つの注釈サブタスクに参加しました。各チームは、ガイドライン開発、注釈品質、注釈量、一貫性の4つの評価トラックで競いました。全体で、チームは129,800のデータポイントを生成しました。本分野における主要な発見とその意義についても議論します。
引用知識グラフの複雑な相互関係において重要な参考文献を特定することは困難な課題であり、これは引用、著者、キーワード、その他の関係属性を通じた接続を含みます。論文ソース追跡(PST)タスクは、高度なデータマイニング技術を活用して、与えられた学術論文の重要な参考文献を自動的に特定することを目指しています。KDD CUP 2024では、PSTタスクに特化した推薦ベースのフレームワークを設計しました。このフレームワークは、最終的な予測を生成するためにニューラル協調フィルタリング(NCF)モデルを採用しています。論文のテキスト属性を処理し、モデルの入力特徴を抽出するために、事前学習済み言語モデルであるSciBERTを利用しています。実験結果によると、私たちの手法は平均適合率(MAP)指標で0.37814のスコアを達成し、ベースラインモデルを上回り、全参加チーム中11位にランクインしました。ソースコードはhttps://github.com/MyLove-XAB/KDDCupFinalで公開されています。