翻訳付きの日次キュレーションされたAI研究論文
テキストや画像から没入感とプレイアビリティを兼ね備えた3D世界を生成することは、コンピュータビジョンとグラフィックスにおける根本的な課題である。既存の世界生成手法は、一般的に2つのカテゴリに分類される。1つは、豊かな多様性を提供するが3D一貫性とレンダリング効率に欠けるビデオベースの手法、もう1つは幾何学的な一貫性を提供するが限られたトレーニングデータとメモリ効率の悪い表現に悩む3Dベースの手法である。これらの制約を克服するため、我々はHunyuanWorld 1.0を提案する。これは、テキストと画像の条件から没入感、探索性、インタラクティブ性を兼ね備えた3Dシーンを生成するために、両手法の長所を組み合わせた新しいフレームワークである。我々のアプローチは、以下の3つの主要な利点を特徴とする。1) パノラマ世界プロキシによる360°の没入体験、2) 既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能、3) インタラクティブ性を強化するための分離されたオブジェクト表現。本フレームワークの中核は、パノラマ画像を360°世界プロキシとして活用し、意味的に層化された3Dメッシュ表現を用いて世界の分解と再構築を行うことで、多様な3D世界の生成を可能にするものである。大規模な実験により、本手法が一貫性、探索性、インタラクティブ性を兼ね備えた3D世界の生成において最先端の性能を達成し、仮想現実、物理シミュレーション、ゲーム開発、インタラクティブコンテンツ作成など多岐にわたる応用を可能にすることが示された。
「次のトークン予測」のパラダイムを視覚コンテンツに拡張し、画像生成と理解の両方に対する統一的なアプローチを構築するための数多くの試みがなされてきた。しかし、離散トークンを用いた自己回帰モデリングによる画像生成の試みは、視覚的な忠実度の低さ、歪んだ出力、複雑な指示に従わない詳細のレンダリングといった問題に悩まされてきた。これらの欠点は、自己回帰推論中の累積誤差や離散化プロセスにおける情報損失に起因すると考えられる。おそらくこの課題のため、最近の研究は統一モデリングアプローチから離れ、拡散目標を用いた画像生成と自己回帰目標を用いた言語生成を共同で訓練する方向にシフトしつつある。本研究では、強化学習が離散自己回帰モデリング手法のアーティファクトを効果的に軽減し、生成品質を大幅に向上させることで、画像と言語生成のシームレスな統合を可能にすることを示す。我々のフレームワークは、セマンティック画像トークナイザー、言語と画像の両方に対する統一自己回帰モデル、および画像生成のためのオフライン拡散デコーダーから構成され、X-Omniと名付けられている。X-Omniは、7Bの言語モデルを用いて画像生成タスクにおいて最先端の性能を達成し、高い美的品質の画像を生成するとともに、指示に従う能力や長文のレンダリングにおいても優れた能力を示す。
大規模言語モデル(LLM)は目覚ましい進歩を遂げているものの、化学などの科学分野への応用は、浅いドメイン理解と限られた推論能力によって依然として妨げられている。本研究では、化学という特定の分野に焦点を当て、化学推論LLMであるChemDFM-Rを開発する。まず、モデルの基本原理と論理構造の理解を深めるために、原子化された知識ポイントの包括的なデータセットを構築する。次に、専門家がキュレートした知識と一般領域の推論スキルを統合する混合ソース蒸留戦略を提案し、その後、化学推論を強化するためのドメイン固有の強化学習を実施する。多様な化学ベンチマークでの実験により、ChemDFM-Rが最先端の性能を達成し、解釈可能で根拠に基づいた出力を提供することが実証された。さらに、ケーススタディを通じて、明示的な推論チェーンが現実世界の人間-AI協働シナリオにおけるモデルの信頼性、透明性、実用性を大幅に向上させることを示す。
大規模言語モデルの急速な進展に伴うGPUコンピューティングリソース需要の指数関数的な増加は、自動化されたCUDA最適化戦略の緊急な必要性を生み出しています。最近のLLMの進歩はコード生成において有望ではあるものの、現在のSOTAモデル(例:R1、o1)はCUDAの高速化において低い成功率に留まっています。本論文では、CUDA最適化のための自動強化学習フレームワークであるCUDA-L1を紹介します。 CUDA-L1はCUDA最適化タスクにおいて性能向上を達成します:NVIDIA A100でトレーニングされたCUDA-L1は、KernelBenchの250のCUDAカーネル全体で平均17.7倍の高速化を実現し、ピーク時には449倍の高速化に達します。さらに、このモデルはGPUアーキテクチャ間での優れた移植性も示し、A100向けに最適化されているにもかかわらず、H100で平均17.8倍、RTX 3090で19.0倍、L40で16.5倍、H800で14.7倍、H20で13.9倍の高速化を達成します。これらのベンチマーク結果を超えて、CUDA-L1はいくつかの注目すべき特性を示します:1)多様なCUDA最適化技術を発見し、それらを戦略的に組み合わせて最適な性能を達成することを学習する;2)CUDA最適化の基本原理を解明する;3)非自明な性能ボトルネックを特定し、性能を損なう一見有益な最適化を拒否する。 CUDA-L1の能力は、強化学習が人間の専門知識やドメイン知識なしに、速度向上に基づく報酬信号のみを通じて、当初は性能の低いLLMを効果的なCUDA最適化ツールに変えることができることを示しています。さらに重要なことに、トレーニングされたRLモデルは、獲得した推論能力を新しいカーネルに拡張します。このパラダイムは、CUDA操作の自動最適化の可能性を開き、GPU効率を大幅に向上させ、GPUコンピューティングリソースに対する増大する圧力を緩和することを約束します。
脳-コンピュータインターフェース(BCI)は、脳と外部デバイス間の直接的な通信を可能にします。最近のEEG基盤モデルは、多様なBCIパラダイムにわたる汎用的な表現の学習を目指しています。しかし、これらのアプローチはパラダイム固有の神経生理学的な差異を見落としており、その汎化能力を制限しています。重要な点として、実用的なBCIの展開においては、脳卒中リハビリテーションや支援ロボティクスのための運動イメージ(MI)などの特定のパラダイムは、一般にデータ取得前に決定されます。本論文では、MIパラダイムに特化した最初のEEG基盤モデルであるMIRepNetを提案します。MIRepNetは、任意の電極配置を持つEEGヘッドセットに適応可能な、神経生理学的に基づいたチャネルテンプレートを組み込んだ高品質なEEG前処理パイプラインを備えています。さらに、自己教師ありのマスクトークン再構築と教師ありのMI分類を組み合わせたハイブリッド事前学習戦略を導入し、クラスあたり30試行未満の新しい下流MIタスクにおいて迅速な適応と正確なデコーディングを可能にします。5つの公開MIデータセットにわたる広範な評価により、MIRepNetが一貫して最先端の性能を達成し、専門化および汎化されたEEGモデルを大幅に上回ることが実証されました。私たちのコードはGitHub(https://github.com/staraink/MIRepNet)で公開されます。
ユーザーに代わって大規模言語モデル(LLMs)の時代が到来する中、選好最適化(Preference Optimization, PO)手法は、LLMsを人間の選好に適合させ、性能を向上させるための中心的なアプローチとなっています。本論文では、事前報酬知識を最適化目標に明示的に組み込む選好学習の枠組みであるMaximum a Posteriori Preference Optimization(MaPPO)を提案します。既存のDirect Preference Optimization(DPO)やその派生手法が選好学習を最尤推定(Maximum Likelihood Estimation, MLE)問題として扱うのに対し、MaPPOは事前報酬推定を原則に基づいたMaximum a Posteriori(MaP)目標に統合することで、このパラダイムを拡張します。これにより、DPOとその派生手法を一般化するだけでなく、応答の過度に単純化された二値分類を緩和することで適合性を向上させます。さらに重要なことに、MaPPOは追加のハイパーパラメータを導入せず、オフラインとオンラインの両方の設定で選好最適化をサポートします。また、MaPPOはプラグインとして使用でき、広く使用されているSimPO、IPO、CPOを含むDPO派生手法に対して一貫した改善をもたらします。MT-Bench、AlpacaEval 2.0、Arena-Hardの3つの標準ベンチマークにおける異なるモデルサイズとモデルシリーズの広範な実証評価により、計算効率を犠牲にすることなく、適合性能の一貫した向上が実証されています。
野生生物観察は生物多様性保全において重要な役割を果たしており、野生生物個体群や種間相互作用をモニタリングするための堅牢な方法論が求められている。近年のコンピュータビジョンの進展は、動物検出や種識別といった基本的な野生生物観察タスクの自動化に大きく貢献している。しかし、足跡や糞などの間接的な証拠から種を正確に識別することは、野生生物モニタリングへの貢献において重要であるにもかかわらず、比較的未開拓の領域である。このギャップを埋めるため、我々は間接的な証拠の画像から種を識別するための初の大規模データセットであるAnimalClueを紹介する。このデータセットは、足跡、糞、卵、骨、羽毛の5つのカテゴリーにわたる159,605のバウンディングボックスで構成され、968種、200科、65目をカバーしている。各画像には種レベルのラベル、バウンディングボックスまたはセグメンテーションマスク、活動パターンや生息地選好性などの詳細な特性情報が注釈付けされている。既存のデータセットが主に直接的な視覚的特徴(例:動物の外観)に焦点を当てているのに対し、AnimalClueはより詳細で微妙な視覚的特徴を認識する必要があるため、分類、検出、インスタンスセグメンテーションタスクにおいて独特の課題を提示する。実験では、代表的なビジョンモデルを広範に評価し、痕跡からの動物識別における主要な課題を特定した。データセットとコードはhttps://dahlian00.github.io/AnimalCluePage/で公開されている。
本研究は、モーションガイド型Few-Shot Video Object Segmentation(FSVOS)に取り組むものであり、同じモーションパターンを持つ少数の注釈付き例に基づいて、ビデオ内の動的オブジェクトをセグメント化することを目的としています。既存のFSVOSデータセットと手法は、通常、オブジェクトカテゴリに焦点を当てており、これはビデオ内の豊かな時間的ダイナミクスを無視する静的な属性であり、モーション理解を必要とするシナリオでの応用を制限しています。このギャップを埋めるため、我々はモーションガイド型FSVOSに特化した大規模データセット「MOVE」を導入しました。MOVEに基づいて、2つの実験設定で3つの関連タスクから6つの最先端手法を包括的に評価しました。その結果、現在の手法はモーションガイド型FSVOSに対処するのに苦労していることが明らかになり、これに関連する課題を分析し、ベースライン手法としてDecoupled Motion Appearance Network(DMA)を提案しました。実験により、我々のアプローチがFew-Shotモーション理解において優れた性能を発揮し、この方向性の将来の研究のための堅固な基盤を確立することが示されました。
近年、マルチモーダル大規模言語モデル(MLLMs)は視覚-言語タスクにおいて大きな進展を遂げているが、潜在的に有害または信頼できないコンテンツを生成する可能性がある。言語モデルの信頼性を調査する研究は数多く存在するものの、特に視覚的に回答不能な質問に直面した際のMLLMsの正直さに関する能力は、ほとんど未解明のままである。本研究では、様々なMLLMsの正直さの行動を体系的に評価する初めての試みを提示する。我々は、回答不能な視覚的質問に対するモデルの応答行動に基づいて正直さを定義し、そのような質問の4つの代表的なタイプを定義し、12,000以上の視覚的質問サンプルからなる大規模なMLLMs正直さベンチマーク「MoHoBench」を構築した。その品質は、多段階のフィルタリングと人間による検証によって保証されている。MoHoBenchを使用して、28の主要なMLLMsの正直さをベンチマークし、包括的な分析を行った。我々の調査結果は以下の通りである:(1)ほとんどのモデルは、必要な場合に適切に回答を拒否することができない、(2)MLLMsの正直さは単なる言語モデリングの問題ではなく、視覚情報に深く影響を受けるため、マルチモーダル正直さアラインメントのための専用の手法の開発が必要である。したがって、我々は教師あり学習と選好学習を用いた初期のアラインメント手法を実装し、正直さの行動を改善し、信頼できるMLLMsのための将来の研究の基盤を提供した。我々のデータとコードはhttps://github.com/DSTTSD/MoHoBenchで公開されている。
アフリカの野生生物個体群は深刻な脅威に直面しており、過去50年間で脊椎動物の数は65%以上減少している。これに対応して、深層学習を用いた画像分類が生物多様性のモニタリングと保全のための有望なツールとして登場している。本論文では、アフリカの野生生物画像を自動分類するための深層学習モデルの比較研究を提示し、凍結された特徴抽出器を用いた転移学習に焦点を当てる。バッファロー、ゾウ、サイ、シマウマの4種を含む公開データセットを使用し、DenseNet-201、ResNet-152、EfficientNet-B4、およびVision Transformer ViT-H/14の性能を評価した。DenseNet-201は畳み込みネットワークの中で最高の性能(67%の精度)を達成し、ViT-H/14は全体で最高の精度(99%)を達成したが、計算コストが大幅に高く、実用上の懸念を引き起こした。我々の実験は、精度、リソース要件、および実用性の間のトレードオフを明らかにしている。最高性能のCNN(DenseNet-201)は、Hugging Face Gradio Spaceに統合され、保全現場でのリアルタイム使用の実現可能性を示した。本研究は、モデル選択、データセットの準備、および野生生物保全のための深層学習ツールの責任ある展開に関する実践的な洞察を提供することで、アフリカに根ざしたAI研究に貢献する。