翻訳付きの日次キュレーションされたAI研究論文
LG AI Researchが開発した大規模言語モデル(LLM)ファミリーにおいて、初のオープンモデルとなるEXAONE 3.0インストラクションチューニング言語モデルを紹介します。様々なモデルサイズの中から、オープンな研究とイノベーションを促進するため、7.8Bのインストラクションチューニングモデルを公開します。広範な公開ベンチマークおよび社内ベンチマークにわたる徹底的な評価を通じて、EXAONE 3.0は、同サイズの他の最先端オープンモデルと比較して、指示追従能力において非常に競争力のある実世界のパフォーマンスを実証しています。比較分析によると、EXAONE 3.0は特に韓国語において優れており、一般的なタスクや複雑な推論においても説得力のある性能を発揮します。その強力な実世界での有効性と二言語能力により、EXAONEがエキスパートAIの進歩に貢献し続けることを期待しています。EXAONE 3.0インストラクションチューニングモデルは、https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct で利用可能です。
汎用エージェントの構築は、人工知能分野における長年のビジョンである。既存のエージェントは多くの領域で顕著な進歩を遂げているが、オープンワールドにおける長期的なタスクの遂行には依然として苦戦している。これは、エージェントが多様な長期的タスクを遂行するために必要な世界知識とマルチモーダルな経験が不足しているためだと我々は考えている。本論文では、これらの課題に対処するためにハイブリッドマルチモーダルメモリモジュールを提案する。このモジュールは、1) 知識を階層的指向知識グラフに変換し、エージェントが世界知識を明示的に表現し学習できるようにし、2) 過去の情報を抽象化されたマルチモーダル経験プールに要約し、エージェントに文脈内学習のための豊富な参照を提供する。ハイブリッドマルチモーダルメモリモジュールを基盤として、マルチモーダルエージェントOptimus-1が構築され、専用の知識誘導プランナーと経験駆動リフレクターを備えることで、Minecraftにおける長期的タスクに対する計画と反省を改善する。大規模な実験結果は、Optimus-1が挑戦的な長期的タスクベンチマークにおいて既存のすべてのエージェントを大幅に上回り、多くのタスクで人間に近い性能を示すことを示している。さらに、Optimus-1の基盤として様々なマルチモーダル大規模言語モデル(MLLMs)を導入した。実験結果は、Optimus-1がハイブリッドマルチモーダルメモリモジュールの助けを借りて強力な汎化能力を示し、多くのタスクでGPT-4Vベースラインを上回ることを示している。
現実世界のタスクにおいて人間並みの速度と性能を達成することは、ロボティクス研究コミュニティにとっての北極星である。本研究はその目標に向けて一歩を進め、競技卓球においてアマチュア人間並みの性能を達成する初めての学習済みロボットエージェントを提示する。卓球は身体的に要求の厳しいスポーツであり、人間プレイヤーは高度な熟練度を達成するために何年ものトレーニングを必要とする。本論文では、(1) エージェントの能力をモデル化しシミュレーションから現実へのギャップを埋める詳細なスキル記述子を持つ低レベルコントローラと、低レベルスキルを選択する高レベルコントローラからなる階層的でモジュール型のポリシーアーキテクチャ、(2) 現実世界に基づいたタスク分布の定義と自動カリキュラムを提供する反復的アプローチを含むゼロショットシミュレーションから現実への移行技術、(3) 未知の相手へのリアルタイム適応を貢献する。ポリシーの性能は29回のロボット対人間の試合を通じて評価され、ロボットは45%(13/29)の試合に勝利した。すべての人間プレイヤーは未知のプレイヤーであり、そのスキルレベルは初心者からトーナメントレベルまで様々であった。ロボットは最も上級者との試合ではすべて敗北したが、初心者との試合では100%、中級者との試合では55%の勝率を記録し、確固たるアマチュア人間並みの性能を示した。試合の動画はhttps://sites.google.com/view/competitive-robot-table-tennisで閲覧可能である。
大規模言語モデル(LLM)は、HumanEvalやMBPPのような独立したコードタスクにおいて優れた性能を発揮しますが、コードリポジトリ全体を扱うことには苦戦しています。この課題に対処するため、リポジトリ規模でのLLMとコードベースの相互作用を強化する研究が進められています。現在の解決策は、類似性に基づく検索や手動ツール、APIに依存していますが、それぞれに顕著な欠点があります。類似性に基づく検索は、複雑なタスクにおいて再現率が低くなる傾向があり、手動ツールやAPIは通常タスク固有であり、専門知識を必要とするため、多様なコードタスクや実世界のアプリケーションにおける汎用性が低下します。これらの制限を緩和するため、我々は\frameworkを導入します。これは、コードリポジトリから抽出されたグラフデータベースインターフェースとLLMエージェントを統合するシステムです。グラフデータベースの構造的特性とグラフクエリ言語の柔軟性を活用することで、\frameworkはLLMエージェントがクエリを構築し実行することを可能にし、正確でコード構造を意識したコンテキスト検索とコードナビゲーションを実現します。我々は、CrossCodeEval、SWE-bench、EvoCodeBenchの3つのベンチマークを使用して\frameworkを評価します。さらに、5つの実世界のコーディングアプリケーションを開発しました。統一されたグラフデータベーススキーマにより、\frameworkは学術的および実世界の環境の両方で競争力のある性能と潜在能力を示し、ソフトウェアエンジニアリングにおけるその汎用性と有効性を実証しています。我々のアプリケーションデモは以下をご覧ください: https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent。
WalledEvalは、大規模言語モデル(LLM)を評価するために設計された包括的なAI安全性テストツールキットです。オープンウェイトモデルやAPIベースのモデルなど、多様なモデルに対応しており、多言語安全性、過剰な安全性、プロンプトインジェクションなどの分野をカバーする35以上の安全性ベンチマークを備えています。このフレームワークは、LLMとジャッジのベンチマークをサポートし、未来形や言い換えなど、さまざまなテキストスタイルの変異に対する安全性をテストするためのカスタムミューテータを組み込んでいます。さらに、WalledEvalは、新たに小型で高性能なコンテンツモデレーションツールであるWalledGuardと、文化的文脈における過剰な安全性を評価するためのベンチマークであるSGXSTestを導入しています。WalledEvalは、https://github.com/walledai/walledevalA で公開されています。
3Dガウシアンスプラッティング(3DGS)は最近、3Dガウシアンベースの表現を活用し、近似ボリュームレンダリングを導入することで、非常に高速なレンダリング速度と有望な画質を実現する代替表現として登場しました。さらに、その後の研究では3DGSを動的な3Dシーンに拡張することに成功し、その幅広い応用可能性が示されています。しかし、3DGSおよびその派生手法は、レンダリング画像の高忠実度を維持するために大量のガウシアンを必要とするという重大な欠点があります。これにより、大量のメモリとストレージが必要となります。この重要な課題に対処するため、我々は特に2つの主要な目標に焦点を当てました:性能を犠牲にすることなくガウシアンポイントの数を削減すること、および視点依存の色や共分散などのガウシアン属性を圧縮することです。この目的のために、我々は学習可能なマスク戦略を提案し、高性能を維持しながらガウシアンの数を大幅に削減します。さらに、球面調和関数に頼るのではなく、グリッドベースのニューラルフィールドを使用して、視点依存の色をコンパクトかつ効果的に表現します。最後に、残差ベクトル量子化を用いて幾何学的および時間的属性をコンパクトに表現するためのコードブックを学習します。量子化やエントロピー符号化などのモデル圧縮技術を用いることで、静的シーンにおいて3DGSと比較して25倍以上のストレージ削減とレンダリング速度の向上を一貫して示し、シーン表現の品質を維持します。動的シーンにおいては、既存の最先端手法と比較して12倍以上のストレージ効率を達成し、高品質な再構築を保持します。我々の研究は、高性能、高速な学習、コンパクトさ、リアルタイムレンダリングを実現する3Dシーン表現の包括的なフレームワークを提供します。プロジェクトページはhttps://maincold2.github.io/c3dgs/で公開されています。
最近の画像生成モデルは、簡潔なキャプションから高品質な画像を作成するのに優れています。しかし、長い文脈に遭遇した場合、複数のインスタンス間の一貫性を維持することができません。この不整合は、既存のトレーニングデータセットに細かいインスタンス特徴のラベル付けが欠如していることが主な原因です。これらの問題に対処するため、我々はOpenstory++を導入しました。これは、追加のインスタンスレベルのアノテーションを画像とテキストの両方に組み合わせた大規模なデータセットです。さらに、エンティティ中心の画像テキスト生成を重視するトレーニング方法論を開発し、モデルが視覚情報とテキスト情報を効果的に織り交ぜることを学習することを保証します。具体的には、Openstory++はオープンドメインのビデオからキーフレームを抽出するプロセスを合理化し、ビジョン言語モデルを使用してキャプションを生成し、その後、大規模言語モデルによって物語の連続性を保つために洗練されます。これは、自動キャプション生成、インスタンス数に合わせた高解像度画像、時間的一貫性のための広範なフレームシーケンスを組み込んだ、より広範なオープンドメインリソースを提供することで、以前のデータセットを凌駕します。さらに、我々はCohere-Benchを提示します。これは、長いマルチモーダルコンテキストが提供された場合の画像生成タスクを評価するための先駆的なベンチマークフレームワークであり、背景、スタイル、指定されたコンテキスト内のインスタンスを一貫して保つ能力を含みます。既存のベンチマークと比較して、我々の研究はマルチモーダル生成における重要なギャップを埋め、オープンドメイン環境で複雑な物語を巧みに生成し解釈できるモデルの開発を推進します。Cohere-Bench内で実施された実験は、Openstory++が高品質なビジュアルストーリーテリングモデルを育成し、オープンドメイン生成タスクに対処する能力を向上させることの優位性を確認しています。詳細はhttps://openstorypp.github.io/をご覧ください。
本論文では、多言語音声言語理解(SLU)データセットであるSpeech-MASSIVEを紹介します。このデータセットは、MASSIVEテキストコーパスの一部に対応する音声データを含んでいます。Speech-MASSIVEは、異なる言語族に属する12言語をカバーし、MASSIVEから意図予測とスロット充填タスクのアノテーションを継承しています。この拡張は、大規模な多言語SLUデータセットの不足と、基盤モデル(LLM、音声エンコーダ)を言語やタスク横断で評価するための多用途な音声データセットの必要性の高まりに応じて行われました。我々は、マルチモーダル、マルチタスク、多言語のデータセットを提供し、カスケード型とエンドツーエンド型のアーキテクチャを用いた様々なトレーニングシナリオ(ゼロショット、少数ショット、完全微調整)でのSLUベースラインを報告します。さらに、Speech-MASSIVEが音声書き起こし、言語識別、音声翻訳などの他のタスクのベンチマークに適していることを示します。データセット、モデル、コードは以下のURLで公開されています: https://github.com/hlt-mt/Speech-MASSIVE
微分可能なボリュメトリックレンダリングに基づく手法は、新規視点合成において大きな進展を遂げました。一方では、Neural Radiance Fields (NeRF)ネットワークを局所的にパラメータ化された構造に置き換える革新的な手法が登場し、合理的な時間内で高品質なレンダリングを実現しています。他方では、NeRFのレイキャスティングの代わりに微分可能なスプラッティングを用いて、ガウシアンカーネルを活用して放射場を迅速に最適化するアプローチが採用され、シーンへの細かな適応を可能にしています。しかし、不規則に配置されたカーネルの微分可能なレイキャスティングはほとんど探索されておらず、スプラッティングは高速なレンダリングを可能にする一方で、明らかなアーティファクトが生じやすいという課題があります。 本研究はこのギャップを埋めるため、放射輝度cと密度σを物理的に一貫した形で定式化し、全周波数の色度表現のために球面ガウシアン/球面調和関数に関連付けたガウス関数で分解します。さらに、不規則に分布するガウシアンの微分可能なレイキャスティングを可能にする手法を導入し、放射場をスラブごとに統合し、BVH構造を活用するアルゴリズムを使用します。これにより、スプラッティングのアーティファクトを回避しつつ、シーンに細かく適応することが可能になります。その結果、最新技術と比較して優れたレンダリング品質を実現し、合理的な学習時間を維持しつつ、Blenderデータセットにおいて25 FPSの推論速度を達成しました。プロジェクトページ(動画とコードあり):https://raygauss.github.io/
本論文では、アニメーショングラフィックスをスプライト(基本要素またはレイヤーの集合)に分解するアプローチを提案する。本手法は、ラスタービデオに適合するようスプライトパラメータを最適化することを基盤としている。効率性を考慮し、スプライトのテクスチャを静的と仮定することで探索空間を縮小しつつ、テクスチャ事前モデルを用いてアーティファクトを防止する。さらに最適化を高速化するため、事前学習済みのビデオオブジェクトセグメンテーションモデルと単一フレームのユーザーアノテーションを活用したスプライトパラメータの初期化を導入する。本研究では、オンラインデザインサービスからCrello Animationデータセットを構築し、抽出されたスプライトの品質を測定するための定量的な指標を定義した。実験結果から、本手法は類似の分解タスクにおいて品質と効率性のトレードオフの観点でベースラインを大幅に上回ることを示す。
Cinematic audio source separation (CASS) is a fairly new subtask of audio source separation. A typical setup of CASS is a three-stem problem, with the aim of separating the mixture into the dialogue stem (DX), music stem (MX), and effects stem (FX). In practice, however, several edge cases exist as some sound sources do not fit neatly in either of these three stems, necessitating the use of additional auxiliary stems in production. One very common edge case is the singing voice in film audio, which may belong in either the DX or MX, depending heavily on the cinematic context. In this work, we demonstrate a very straightforward extension of the dedicated-decoder Bandit and query-based single-decoder Banquet models to a four-stem problem, treating non-musical dialogue, instrumental music, singing voice, and effects as separate stems. Interestingly, the query-based Banquet model outperformed the dedicated-decoder Bandit model. We hypothesized that this is due to a better feature alignment at the bottleneck as enforced by the band-agnostic FiLM layer. Dataset and model implementation will be made available at https://github.com/kwatcharasupat/source-separation-landing.