翻訳付きの日次キュレーションされたAI研究論文
画像編集にはさまざまな複雑なタスクが関わり、効率的かつ正確な操作技術が必要です。本論文では、創造的なアイデアを迅速に具現化することができる統合画像編集システムであるMagicQuillを提案します。当システムは、簡素化されたが機能的に堅牢なインターフェースを特徴とし、最小限の入力で編集操作(要素の挿入、オブジェクトの消去、色の変更など)を明確に行うことができます。これらの相互作用は、編集意図をリアルタイムで予測し、明示的なプロンプト入力の必要性を回避するために、マルチモーダルな大規模言語モデル(MLLM)によって監視されます。最後に、編集リクエストを精密に制御するために、慎重に学習された2つのブランチのプラグインモジュールによって強化された強力な拡散事前確率を適用します。実験結果は、MagicQuillが高品質な画像編集を実現する効果を示しています。当システムを試すには、https://magic-quill.github.io をご覧ください。
本研究は、テキストで事前学習された大規模言語モデル(LLMs)の機能を拡張し、統合モデル内で3Dメッシュを生成する可能性を探るものである。これにより、LLMsにすでに埋め込まれた空間知識(3Dチュートリアルなどのテキストソースから派生)を活用する利点があり、また、会話形式の3D生成とメッシュ理解を可能にする。主な課題は、3DメッシュデータをLLMsがシームレスに処理できる離散トークンに効果的にトークン化することである。この課題に対処するために、私たちはLLaMA-Meshという新しいアプローチを導入し、3Dメッシュの頂点座標と面の定義をプレーンテキストとして表現し、語彙を拡張せずにLLMsと直接統合できるようにした。事前学習されたLLMsが(1)テキストプロンプトから3Dメッシュを生成し、(2)必要に応じて交互にテキストと3Dメッシュの出力を生成し、(3)3Dメッシュを理解し解釈するための教師ありファインチューニング(SFT)データセットを構築した。本研究は、LLMsをファインチューニングして、テキストベースの形式で3Dメッシュ生成のための複雑な空間知識を獲得できることを初めて示したものであり、効果的に3Dとテキストのモダリティを統合している。LLaMA-Meshは、ゼロからトレーニングされたモデルと同等のメッシュ生成品質を達成しつつ、強力なテキスト生成パフォーマンスを維持している。
言語モデルがますます大きくなるにつれて、その語彙も増加しています。これにより、訓練中のLLMのメモリフットプリントが不均衡になり、1つの単一レイヤー、つまり損失計算のクロスエントロピーにシフトしました。クロスエントロピーは、入力トークンと語彙アイテムの各ペアごとにエントリを持つロジット行列を構築し、小規模モデルではLLM全体よりもメモリを桁違いに消費します。私たちは、すべてのトークンのロジットをグローバルメモリに具現化せずにクロスエントロピー損失を計算する方法であるCut Cross-Entropy(CCE)を提案します。代わりに、CCEは正しいトークンのロジットのみを計算し、すべてのロジットに対する対数和指数をその場で評価します。私たちは、フラッシュメモリ内で語彙全体にわたる行列乗算と対数和指数の縮小を実行するカスタムカーネルを実装し、クロスエントロピー計算におけるグローバルメモリ消費を無視できるレベルに抑えます。これには劇的な効果があります。たとえば、Gemma 2(2B)モデルを取ると、CCEにより損失計算のメモリフットプリントが24 GBから1 MBに、分類器ヘッドの合計訓練時メモリ消費が28 GBから1 GBに削減されます。CCEのスループットを向上させるために、ソフトマックスの固有の疎さを活用し、勾配計算の要素のうち、勾配への寄与が無視できる(つまり、数値精度以下)ものをスキップすることを提案します。実験では、メモリ消費の劇的な削減が、訓練速度や収束を犠牲にすることなく達成されていることが示されています。
大規模言語モデル(LLMs)は、医療テキスト処理タスクや医療資格試験における優れた能力から、現在の臨床システムを革新する可能性を秘めています。一方で、SVMやXGBoostなどの従来の機械学習モデルは、主に臨床予測タスクで採用されてきました。新たな疑問として、LLMsは臨床予測において従来の機械学習モデルに勝ることができるのかという点が浮上しています。そこで、一般用途および医療用途のLLMsと従来の機械学習モデルの臨床予測モデリング能力を包括的に研究し、比較するために新しいベンチマークであるClinicalBenchを構築しました。ClinicalBenchは、3つの一般的な臨床予測タスク、2つのデータベース、14の一般用途LLMs、8つの医療用途LLMs、および11の従来の機械学習モデルを含んでいます。広範な実証調査を通じて、異なるモデルスケールや多様なプロンプトやファインチューニング戦略を用いた一般用途および医療用途のLLMsでも、まだ臨床予測において従来の機械学習モデルに勝ることができないことがわかりました。これは、臨床推論や意思決定における潜在的な欠点を示しており、臨床応用においてLLMsを採用する際には慎重である必要があることを示唆しています。ClinicalBenchは、LLMsの医療分野での開発と実際の臨床実践との間のギャップを埋めるために活用できます。
ユーザーの活動のビデオ記録、特にデスクトップの記録は、ユーザーの行動を理解しプロセスを自動化するための豊富なデータソースを提供します。しかし、ビジョン言語モデル(VLMs)の進歩とそのビデオ分析での利用が増加しているにもかかわらず、デスクトップの記録からユーザーの行動を抽出することは未開拓の分野です。本論文では、このギャップに取り組み、ユーザーの行動抽出のための2つの新しいVLMベースの手法を提案します。直接フレームベースアプローチ(DF)は、サンプリングされたフレームを直接VLMに入力する手法であり、差分フレームベースアプローチ(DiffF)は、コンピュータビジョン技術によって検出された明示的なフレームの差分を組み込んでいます。これらの手法を、基本的な自己収集データセットと、以前の研究から適応した高度なベンチマークを使用して評価します。結果は、DF手法がユーザーの行動を識別する際に70%から80%の精度を達成し、抽出されたアクションシーケンスはロボティックプロセス自動化を通じて再生可能であることを示しています。VLMには潜在能力がある一方で、明示的なUIの変更を組み込むとパフォーマンスが低下することがわかり、DF手法がより信頼性があることが示されました。この研究は、デスクトップの記録からユーザーの行動シーケンスを抽出するためのVLMの初の応用であり、将来の研究のための新しい手法、ベンチマーク、洞察を提供しています。
拡散モデルは非常に高品質なサンプルを生成できますが、その高価な反復サンプリング手法によって本質的にボトルネックが生じます。一方、コンシステンシーモデル(CM)は、最近注目されている拡散モデル蒸留手法であり、高忠実度のサンプルをわずか数回の反復で生成することでサンプリングコストを削減します。コンシステンシーモデル蒸留は、既存の拡散モデルによって定義される確率流れ常微分方程式(ODE)を解決することを目指しています。CMはODEソルバーに対する誤差を最小化するよう直接トレーニングされるのではなく、より計算上扱いやすい目的を使用します。CMが確率流れODEをどのように効果的に解決し、誘発される誤差が生成されたサンプルの品質に与える影響を調査するために、この誤差を直接最小化するDirect CMを導入します。興味深いことに、Direct CMは、CMに比べてODE解決の誤差を減少させますが、生成されるサンプルの品質が著しく悪化する結果となります。このことから、なぜCMが初めからうまく機能するのかという点が問われます。完全なコードは以下で入手可能です:https://github.com/layer6ai-labs/direct-cms.
細胞ネットワークの運用を自動化する動きは、これらのシステムの複雑さが増すにつれて拡大してきた。進歩があったにもかかわらず、完全な自律性は現在も達成されておらず、ネットワークの振る舞いのモデリングや目標要件を満たすための方針の定義に人間の介入が依存しているためである。ネットワーク・デジタル・ツイン(NDT)はネットワークの知能向上に有望性を示しているが、この技術の成功した導入はユースケース固有のアーキテクチャに制約されており、ネットワークの自律性の推進においてその役割が制限されている。より能力のあるネットワークの知能、あるいは「通信の脳」が必要とされ、これにより細胞ネットワークのシームレスで自律的な管理が可能となる。大規模言語モデル(LLM)は、このビジョンの実現を可能にする潜在的な促進要因として浮上しているが、特に推論や多様なデータタイプの取り扱いにおいてネットワークのモデリングにおいて課題に直面している。これらのギャップに対処するために、私たちはHermesを導入する。Hermesは、構造化された説明可能な論理的ステップを通じてNDTインスタンスを構築するための「設計図」を使用するLLMエージェントの連鎖であり、多様なユースケースと構成の自動的で信頼性の高い正確なネットワークモデリングを可能とし、これにより完全に自律的なネットワーク運用に向けた進展を示している。