翻訳付きの日次キュレーションされたAI研究論文
本論文では、SAM 2フレームワークを活用し、2Dおよび3D医用画像セグメンテーションタスクに対応する高度なセグメンテーションモデルであるMedical SAM 2(MedSAM-2)を紹介します。MedSAM-2は、医用画像をビデオとして扱うという哲学を採用することで、3D医用画像に適用可能なだけでなく、新たな「ワンプロンプトセグメンテーション」機能を実現します。この機能により、ユーザーは特定の画像内の対象物に対して1つのプロンプトを提供するだけで、モデルがその後のすべての画像において、画像間の時間的関係に関係なく、同じタイプの対象物を自律的にセグメント化することが可能となります。MedSAM-2は、腹部臓器、視神経乳頭、脳腫瘍、甲状腺結節、皮膚病変など、さまざまな医用画像モダリティにおいて評価を行い、従来のセグメンテーション設定およびインタラクティブセグメンテーション設定での最先端モデルと比較しました。その結果、MedSAM-2は既存のモデルを性能で上回るだけでなく、幅広い医用画像セグメンテーションタスクにおいて優れた汎化性能を示すことが明らかになりました。私たちのコードは以下のURLで公開されます:https://github.com/MedicineToken/Medical-SAM2
大規模な自己教師あり事前学習は、1つの基盤モデルが多くの異なる視覚タスクを処理する道を開いてきました。ほとんどの事前学習手法では、一度に特定のサイズの単一モデルを訓練します。しかし、現実世界のシナリオでは、さまざまな計算やストレージの制約により、異なるサイズのモデルシリーズを開発して展開するために多大な努力が必要となります。そこで本研究では、この問題に対処するために、POA(Pre-training Once for All)と呼ばれる新しい3分岐自己教師あり訓練フレームワークを提案します。私たちのアプローチは、現代の自己蒸留パラダイムに革新的な弾性学生分岐を導入します。各事前学習ステップで、元の学生からサブネットワークをランダムにサンプリングして弾性学生を形成し、すべての分岐を自己蒸留方式で訓練します。事前学習が完了すると、POAは下流タスクのためにさまざまなサイズの事前学習済みモデルを抽出することを可能にします。注目すべきは、弾性学生が異なるサイズの複数のモデルを同時に事前学習することを促進し、さまざまなサイズのモデルの追加的なアンサンブルとしても機能し、表現学習を強化することです。k近傍法、線形プローブ評価、および複数の下流タスクでの評価を含む広範な実験は、私たちのPOAの有効性と利点を実証しています。ViT、Swin Transformer、ResNetバックボーンを使用して、単一の事前学習セッションで約100の異なるサイズのモデルを生成し、最先端のパフォーマンスを達成します。コードは以下で利用可能です: https://github.com/Qichuzyy/POA。
エンティティリンキング(EL)と関係抽出(RE)は、自然言語処理における基本的なタスクであり、幅広いアプリケーションにおいて重要な構成要素として機能しています。本論文では、ELとREの両方に対応するRetriever-ReaderアーキテクチャであるReLiKを提案します。このアーキテクチャでは、入力テキストが与えられると、Retrieverモジュールがテキスト内に現れる可能性のある候補エンティティや関係の特定を行います。その後、Readerモジュールが、取得された関連するエンティティや関係を識別し、それらを対応するテキストスパンと整合させる役割を担います。特に、候補エンティティや関係をテキストと共に組み込んだ革新的な入力表現を提案し、エンティティのリンキングや関係の抽出を単一のフォワードパスで行うことを可能にし、事前学習済み言語モデルの文脈化能力を最大限に活用します。これは、各候補に対してフォワードパスを必要とする従来のRetriever-Readerベースの手法とは対照的です。私たちのELとREの定式化は、学術的な予算でのトレーニングを行いながら、ドメイン内およびドメイン外のベンチマークで最先端の性能を達成し、競合他社と比較して最大40倍の推論速度を実現しています。最後に、このアーキテクチャが情報抽出(cIE)、すなわちELとREの組み合わせにシームレスに使用できることを示し、エンティティと関係を同時に抽出する共有Readerを採用することで、新たな最先端の性能を確立します。
3Dメッシュが与えられた場合、任意のテキスト記述に対応する3Dテクスチャを合成することを目指します。現在の方法では、サンプリングされたビューからテクスチャを生成および組み立てる際に、目立つ継ぎ目や過度の平滑化が生じることがよくあります。これらの問題に対処するため、我々はTexGenを提案します。これは、事前学習済みのテキストから画像への拡散モデルを活用した、テクスチャ生成のための新しいマルチビューサンプリングおよびリサンプリングフレームワークです。ビュー整合性を保つサンプリングのために、まず、RGB空間にテクスチャマップを維持し、拡散モデルの各サンプリングステップ後に更新して、ビューの不一致を段階的に減少させます。注意誘導型のマルチビューサンプリング戦略を利用して、ビュー間で外観情報を広めます。テクスチャの詳細を保持するために、ノイズリサンプリング技術を開発し、テキストプロンプトと現在のテクスチャマップに基づいて、後続のノイズ除去ステップのための入力を生成する際にノイズの推定を支援します。質的および量的な評価を通じて、提案手法が多様な3Dオブジェクトに対して、高いビュー整合性と豊富な外観詳細を備えた、大幅に優れたテクスチャ品質を生成することを実証し、現在の最先端の手法を凌駕することを示します。さらに、提案するテクスチャ生成技術は、元のアイデンティティを保持しながらテクスチャ編集にも適用可能です。追加の実験結果はhttps://dong-huo.github.io/TexGen/でご覧いただけます。
音声と言語を統合的に処理するマルチモーダルモデルは、音声理解において大きな可能性を秘めており、音楽領域での採用が増えつつある。ユーザーがテキストでクエリを実行し、与えられた音声入力に関する情報を得られるようにすることで、これらのモデルは言語ベースのインターフェースを通じて多様な音楽理解タスクを可能にする潜在力を有している。しかし、その評価には大きな課題があり、現在の手法で音楽関連の入力を正しく解釈する能力を効果的に測定する方法は未だ明確ではない。この問題意識から、我々はMuChoMusicを導入する。これは、音声に焦点を当てたマルチモーダル言語モデルの音楽理解を評価するためのベンチマークである。MuChoMusicは、公開されている2つの音楽データセットから抽出された644の音楽トラックに基づき、人間のアノテーターによって検証された1,187の多肢選択問題で構成されており、多様なジャンルを網羅している。ベンチマーク内の質問は、基本的な音楽概念とそれらが文化的・機能的文脈とどのように関連するかといった複数の次元にわたる知識と推論能力を評価するために設計されている。このベンチマークによる包括的な分析を通じて、我々は5つのオープンソースモデルを評価し、言語モダリティへの過度な依存を含むいくつかの課題を特定し、より優れたマルチモーダル統合の必要性を指摘する。データとコードは公開されている。
生成型大規模言語モデル(LLM)がコンテキスト内学習を実行する能力は、様々な自然言語処理タスクにおいてモデルを最適にプロンプトする方法に関する多くの研究を引き起こしてきました。本論文では、機械翻訳(MT)に焦点を当てます。このタスクは、コンテキスト内の翻訳例から恩恵を受けることが示されています。しかし、最適な例の選択方法に関する体系的な研究は発表されておらず、類似性に基づく選択がランダム選択よりも有用であるかどうかについても、結果が混在しています。我々は、複数のLLMと複数のコンテキスト内例検索戦略をカバーし、多言語文埋め込みを比較する研究を提供します。いくつかの言語方向(英語からフランス語、ドイツ語、スワヒリ語、ウォロフ語)をカバーし、異なるレベルの言語リソースの豊富さを表しています。以前に発表された結果とは異なり、文埋め込みの類似性がMTを改善できること、特に低リソース言語方向において有効であることを発見し、選択プールの多様性と品質のバランスについて議論します。また、LLMベースのMTの評価における潜在的な問題を指摘し、COMETメトリックをLLMの評価に適応させたより適切な評価プロトコルを提案します。コードと出力はhttps://github.com/ArmelRandy/ICL-MTで自由に利用可能です。
我々は、リレーショナルデータベース上の予測タスクをグラフニューラルネットワークで解決するための公開ベンチマーク「RelBench」を提案します。RelBenchは、多様なドメインとスケールにわたるデータベースとタスクを提供し、将来の研究の基盤となるインフラストラクチャを目指しています。我々はRelBenchを用いて、リレーショナルディープラーニング(RDL)(Fey et al., 2024)の最初の包括的な研究を実施しました。RDLは、グラフニューラルネットワークの予測モデルと、生のテーブルから初期のエンティティレベルの表現を抽出する(ディープ)テーブルモデルを組み合わせたものです。エンドツーエンドで学習されたRDLモデルは、主キーと外部キーのリンクにエンコードされた予測信号を完全に活用し、手動の特徴量エンジニアリングとテーブルモデルを組み合わせた従来の主流パラダイムからの大きな転換を示しています。この従来のゴールドスタンダードに対してRDLを徹底的に評価するため、経験豊富なデータサイエンティストが各タスクに対して手動で特徴量を設計する詳細なユーザー調査を実施しました。この調査では、RDLはより優れたモデルを学習しつつ、必要な人間の作業量を1桁以上削減しました。これは、リレーショナルデータベース上の予測タスクを解決するためのディープラーニングの力を示しており、RelBenchによって可能となる多くの新しい研究機会を開拓しています。
言語モデル(LM)の表現にはどのような潜在的特徴が符号化されているのか? 最近の研究では、スパースオートエンコーダ(SAE)を訓練してLM表現内の解釈可能な特徴を分離する手法が注目を集めています。しかし、優れたSAEが回復すべき解釈可能な特徴の真の集合が存在しないため、これらのSAEの品質を評価することは困難です。そこで我々は、チェスとオセロの棋譜を学習したLMの設定下で作業することで、解釈可能な辞書学習の進捗を測定することを提案します。これらの設定には自然な解釈可能な特徴の集合が含まれており、例えば「F3にナイトが存在する」といった特徴を活用して、SAEの品質を評価するための教師あり指標を構築します。解釈可能な辞書学習の進捗を導くために、我々は新しいSAE訓練手法であるp-annealingを導入し、これまでの教師なし指標だけでなく、新たに提案した指標においても性能を向上させます。