翻訳付きの日次キュレーションされたAI研究論文
大規模なテキストから画像への生成モデルの最近の進展にもかかわらず、これらのモデルを用いて実画像を操作することは依然として難しい問題である。既存の編集手法の主な制約は、広範な画像編集に対して一貫した品質を発揮できないか、あるいは入力画像の特定の外観を維持するために時間のかかるハイパーパラメータの調整や拡散モデルのファインチューニングを必要とすることである。我々は、ガイダンス機構を介した修正された拡散サンプリングプロセスに基づく新しいアプローチを提案する。本研究では、入力画像の全体的な構造と編集すべきでない局所領域の外観を維持するために、自己ガイダンス技術を探求する。特に、ソース画像の局所的および大域的な構造を保存することを目的としたレイアウト保存エネルギー関数を明示的に導入する。さらに、生成中にクラスファリーフリーガイダンスと提案するガイダーのノルムをバランスさせることで、ノイズ分布を維持するノイズ再スケーリング機構を提案する。このようなガイダンスアプローチは、拡散モデルのファインチューニングや正確な反転プロセスを必要としない。その結果、提案手法は高速で高品質な編集メカニズムを提供する。実験では、人間による評価と定量的分析を通じて、提案手法が人間により好まれる望ましい編集を実現し、編集品質と元の画像の保存の間のより良いトレードオフを達成することを示す。我々のコードはhttps://github.com/FusionBrainLab/Guide-and-Rescaleで公開されている。
ChatGPTの登場以来、大規模言語モデル(LLM)は様々なタスクで優れた性能を発揮しているものの、その多くは依然としてブラックボックス的なシステムである。このため、LLMの開発はデータ駆動型アプローチに大きく依存しており、内部アーキテクチャや推論経路の変更による性能向上には限界がある。この状況を受けて、多くの研究者がLLMの潜在的な内部メカニズムの解明に乗り出し、推論のボトルネックの本質を特定しようとしており、その大部分の研究はアテンションヘッドに焦点を当てている。本サーベイ論文は、アテンションヘッドの解釈性と基礎メカニズムに着目することで、LLMの内部推論プロセスに光を当てることを目的とする。まず我々は人間の思考プロセスを「知識想起」「文脈内特定」「潜在推論」「表現準備」という4段階のフレームワークに整理した。このフレームワークに基づき、既存研究を体系的にレビューし、特定のアテンションヘッドの機能を同定・分類する。さらに、これらの特殊なヘッドを発見するために用いられる実験手法を「モデリング不要手法」と「モデリング必要手法」の2つに分類してまとめる。また、関連する評価手法とベンチマークについても概説する。最後に、現在の研究の限界を議論し、将来の潜在的な研究方向性を提案する。参考文献リストはhttps://github.com/IAAR-Shanghai/Awesome-Attention-Headsで公開している。
ファジングは、複雑なソフトウェアの脆弱性発見を目的とした重要な動的プログラム解析技術である。ファジングは、ターゲットプログラムに細工された悪意のある入力を提示し、クラッシュ、バッファオーバーフロー、メモリエラー、例外を引き起こすことを含む。効率的な方法で悪意のある入力を細工することは困難な未解決問題であり、最も優れたアプローチでは、既存の有効な入力に対して均一なランダム変異を適用することが多い。本研究では、微調整された大規模言語モデル(FuzzCoder)を採用し、成功した攻撃からの入力ファイル内パターンを学習して将来のファジング探索を導くことを提案する。具体的には、コードLLMを活用してファジングにおける入力の変異プロセスを導くフレームワークを開発する。変異プロセスはシーケンス-to-シーケンスモデリングとして定式化され、LLMはバイト列を受け取り、変異されたバイト列を出力する。FuzzCoderは、ヒューリスティックなファジングツールから収集された成功したファジング履歴を含む作成された指示データセット(Fuzz-Instruct)で微調整される。FuzzCoderは、プログラムの異常動作を引き起こす入力ファイル内の変異位置と戦略位置を予測できる。実験結果により、AFL(American Fuzzy Lop)を基盤としたFuzzCoderが、ELF、JPG、MP3、XMLなどの様々な入力形式において、有効変異率(EPM)とクラッシュ数(NC)の点で顕著な改善を達成することが示された。
オンライン教育の最初の事例、すなわちコースがアクセス可能な共有オンラインプラットフォームにアップロードされた時点から、人類の知識伝達を拡大しより広範な聴衆に届けるこの形態は、広範な議論と普及を引き起こしてきた。パーソナライズド学習には依然として大きな改善の余地があることを認識し、新たなAI技術がこの学習形式に継続的に統合され、教育レコメンデーションやインテリジェントチューターリングなど、多様な教育AIアプリケーションが生み出されてきた。大規模言語モデル(LLM)における知性の出現により、これらの教育機能強化が統一された基盤モデル上に構築され、より深い統合が可能となった。この文脈において我々は、LLM駆動のマルチエージェントシステムを活用し、拡張性と適応性を両立させたAI拡張型教室を構築する、新たなオンライン教育形態であるMAIC(Massive AI-empowered Course)を提案する。概念的枠組みと技術的革新の探求を超えて、中国を代表する大学の一つである清華大学において予備実験を実施する。500人以上の学生から得られた10万件以上の学習記録に基づき、一連の貴重な知見と初期分析を得ている。本プロジェクトは継続的に進化し、大規模モデルAI時代におけるオンライン教育の可能性を探る研究・技術・応用を支援し統合する包括的なオープンプラットフォームの確立を最終目標とする。このプラットフォームを、教育者・研究者・革新者が協働するハブとして、AI駆動型オンライン教育の未来を共に探求する場と構想している。
テキスト記述からの高品質な3Dオブジェクト生成は、計算コスト、3Dデータの不足、複雑な3D表現のため、依然として困難な課題である。本論文では、ジオメトリ画像を用いて3D形状を2D画像で効率的に表現することで、複雑な3D対応アーキテクチャを必要としない新しいText-to-3Dモデル「Geometry Image Diffusion(GIMDiffusion)」を提案する。協調制御メカニズムを統合することで、Stable Diffusionのような既存のText-to-Imageモデルが持つ豊富な2D事前知識を活用する。これにより、限られた3D学習データ(高品質な学習データのみを使用可能)であっても強力な汎化性能を実現し、IPAdapterのようなガイダンス技術との互換性も維持する。要約すると、GIMDiffusionは現在のText-to-Imageモデルと同等の速度で3Dアセットの生成を可能にする。生成されるオブジェクトは意味論的に意味のある分離された部品で構成され、内部構造を含むため、有用性と汎用性の両方が強化される。
マルチモーダル大規模言語モデル(MLLM)は、文書画像の解像度対応範囲を拡大することで、OCRに依存しない文書理解において有望な性能を達成してきた。しかし、単一の文書画像に対して数千もの視覚トークンを生成する必要があるため、GPUメモリの過剰な消費や推論速度の低下、特に複数ページにわたる文書理解において課題が生じている。本研究ではこれらの課題に対処するため、高解像度文書画像を低解像度の大域的特徴に基づいて324トークンに圧縮するHigh-resolution DocCompressorモジュールを提案する。この圧縮モジュールを活用し、複数ページ文書の理解能力を強化するとともに、トークン効率と質問応答性能のバランスを最適化するため、3段階の学習フレームワーク(単一画像事前学習、複数画像継続事前学習、マルチタスクファインチューニング)でDocOwl2を開発した。DocOwl2は複数ページ文書理解ベンチマークにおいて新たな最高性能を達成し、初回トークン遅延を50%以上削減。複数ページにわたる質問応答、証拠ページを伴う説明、ページを跨ぐ構造理解において高度な能力を示した。さらに、同様のデータで学習された単一画像MLLMと比較して、視覚トークン数を20%未満に抑えながら同等の単一ページ理解性能を実現している。コード、モデル、データはhttps://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2 で公開中。
実世界の会話データの増加は、研究者がユーザーとチャットボットの相互作用を研究する上で新たな可能性を開いています。しかし、その膨大な量ゆえに、個々の会話を手動で検討することは非現実的です。この課題を克服するため、高速で多目的かつ大規模な会話分析を可能にする対話型ツール「WildVis」を開発しました。WildVisは、テキスト空間と埋め込み空間の両方において、様々な基準に基づいた検索と可視化機能を提供します。数百万規模のデータセットを扱うため、検索インデックス構築、埋め込みの事前計算と圧縮、キャッシュ機能などの最適化を実装し、数秒以内の応答性を確保しています。本ツールの有用性は、3つのケーススタディを通じて実証しています:チャットボットの悪用研究の支援、データセット間のトピック分布の可視化と比較、ユーザー固有の会話パターンの特性分析です。WildVisはオープンソースであり、追加データセットやカスタマイズされた検索・可視化機能をサポートする拡張性を備えています。
数式認識は、数学式の複雑な構造と多様な表記法により大きな課題を抱えている。数式認識モデルが絶えず進歩しているにもかかわらず、これらのモデルで用いられるBLEUや編集距離などの評価指標には依然として顕著な限界がある。これらは同一の数式が多様な表現を持ち、訓練データの分布に敏感に反応するという事実を見落としており、それにより数式認識評価における不公平性を引き起こしている。この問題に対処するため、我々は文字検出マッチング(CDM)指標を提案する。これはLaTeXレベルではなく画像レベルの指標スコアを設計することで、評価の客観性を確保するものである。具体的には、CDMはモデルが予測したLaTeXと正解LaTeXの数式を両方とも画像形式の数式にレンダリングし、視覚的特徴抽出と位置特定技術を用いて空間的位置情報を組み込んだ文字レベルの精密なマッチングを行う。このように空間認識を備えた文字マッチング手法は、従来のテキストベースの文字マッチングに依存するBLEUや編集距離指標と比較して、より正確で公平な評価を提供する。実験では、CDM、BLEU、ExpRateの各指標を用いて様々な数式認識モデルを評価した。その結果、CDMは人間の評価基準により密接に合致し、多様な数式表現による不一致を排除することで異なるモデル間の公平な比較を提供することが実証された。
近年の研究では、大規模言語モデル(LLM)の数学問題解決能力が、コードインタプリタなどの外部ツールの統合や、マルチターン連鎖思考(CoT)推論を活用することで強化できることが示されている。現在の手法は合成データ生成と教師ありファインチューニング(SFT)に焦点を当てているが、本論文ではモデル性能をさらに向上させるための補完的な直接選好学習アプローチを検討する。しかし、既存の直接選好学習アルゴリズムは単一ターンの対話タスク向けに設計されたものであり、ツール統合型数学推論タスクに必要なマルチターン推論と外部ツール統合の複雑性を十分に扱えていない。この課題を解決するため、我々はコードインタプリタからのフィードバックを活用し、軌跡レベルの選好を最適化する、この文脈に特化したマルチターン直接選好学習フレームワークを提案する。このフレームワークには、マルチターンDPOとマルチターンKTOを具体的な実装として含む。GSM8KおよびMATHデータセットから拡張したプロンプトセットを用いた各種言語モデルの学習を通じて、本フレームワークの有効性を検証した。結果として、教師ありファインチューニング済みのGemma-1.1-it-7Bモデルでは、GSM8Kで77.5%から83.9%へ、MATHで46.1%から51.2%へ、またGemma-2-it-9BモデルではGSM8Kで84.1%から86.3%へ、MATHで51.0%から54.5%へと、大幅な性能向上が実証された。
大規模言語モデル(LLM)の急速な発展と流動的な性質により、従来の定量的ベンチマークではその能力を正確に評価することが困難となっている。我々は「レポートカード」を提案する。これは特定のスキルやトピックにおけるモデルの振る舞いを、人間が解釈可能な自然言語要約として提示するものである。評価フレームワークとして、(1) 特定性(モデル間の識別能力)、(2) 忠実性(モデル能力の正確な反映)、(3) 解釈可能性(人間にとっての明確性と関連性)の3基準を確立した。さらに、人的監督なしでレポートカードを生成する反復アルゴリズムを提案し、各種設計選択をアブレーション実験により検証する。主要なLLMを用いた実験を通じて、レポートカードが従来のベンチマークを超えた知見を提供し、LLMのより解釈可能かつ包括的な評価ニーズに対応できることを実証する。
オープン語彙セグメンテーションは、制約のない環境下で開放されたカテゴリ集合に属する物体をセグメンテーションし認識することを要求するため、多大な課題を抱えています。CLIPのような強力な視覚言語基盤モデルの成功を踏まえ、近年の研究ではこれらのモデルのゼロショット能力を活用して未見カテゴリを認識しようとする試みが進められてきました。顕著な性能向上が見られるものの、これらのモデルは未見カテゴリやシナリオに対する精密なマスク提案を生成するという重大な問題に依然として直面しており、最終的には不十分なセグメンテーション性能に留まっています。この課題に対処するため、我々は新規手法FrozenSegを提案します。この手法は、位置情報基盤モデル(例:SAM)からの空間的知識と、視覚言語モデル(例:CLIP)から抽出された意味的知識を相乗的フレームワークで統合するように設計されています。視覚言語モデルの視覚エンコーダを特徴量バックボーンとして採用し、空間認識特徴量を学習可能なクエリとCLIP特徴量にトランスフォーマーデコーダ内で注入します。さらに、リコール率とマスク品質をさらに向上させるためのマスク提案アンサンブル戦略を考案しました。事前学習知識を最大限に活用しつつ訓練オーバーヘッドを最小化するため、両基盤モデルを凍結し、性能ボトルネックであるマスク提案生成のための軽量トランスフォーマーデコーダのみに最適化努力を集中させます。大規模な実験により、FrozenSegがCOCOパノプティックデータのみで訓練され、ゼロショット方式で評価された様々なセグメンテーションベンチマークにおいて、最先端の結果を推進することが実証されています。コードはhttps://github.com/chenxi52/FrozenSegで公開されています。
大規模言語モデル(LLM)はプログラム合成の分野を再構築してきた。しかし、現代のLLMベースのコード補完システムは、適切な文脈、特にトレーニングデータに存在しないかカーソル近くにない定義を扱う際に、壊れたコードを生成(ハルシネーション)することが多い。本論文では、言語サーバーが提供する型とバインディング構造との緊密な統合が、この文脈化問題をトークン効率の良い方法で解決できることを示す。端的に言えば、AIにもIDEが必要だと我々は主張する!特に、LLMコード生成をHazelライブプログラムスケッチ環境に統合した。Hazel言語サーバーは、エラーが存在する場合でも、穴埋め対象のホールの型と型付けコンテキストを識別し、意味のあるプログラムスケッチが常に利用可能であることを保証する。これにより、カーソルの字句的に近くになく、同じファイル内にある必要もないが、開発者の目標に対して意味的に近い可能性が高い、コードベース全体の文脈情報を用いたプロンプティングが可能となる。LLMによって合成された補完候補は、その後、言語サーバーとの対話を通じて反復的に洗練される。これらの手法を評価するために、モデル・ビュー・アップデート(MVU)ウェブアプリケーションのデータセットであるMVUBenchを導入する。これらのアプリケーションは、アプリケーション固有のデータ構造に依存するため、難問として機能する。型定義を用いた文脈化が特に効果的であることがわかった。Hazelを背景に我々のアイデアを紹介した後、これらの手法の汎用性を検証するために、手法を複製し、MVUBenchをTypeScriptに移植した。最後に、言語サーバーが実装可能なLanguage Server Protocol(LSP)への保守的拡張であるChatLSPの概要を説明する。これは、様々な設計のAIコード補完システムが、LLMへのプロンプト生成時に静的コンテキストを組み込むために利用できる機能を公開するものである。