翻訳付きの日次キュレーションされたAI研究論文
Matrix-Gameを紹介する。これは、制御可能なゲームワールド生成のためのインタラクティブな世界基盤モデルである。Matrix-Gameは、環境理解のための大規模なラベルなし事前学習を行い、その後インタラクティブなビデオ生成のためのアクションラベル付き学習を行う2段階のパイプラインで訓練される。これを支援するため、Matrix-Game-MCという包括的なMinecraftデータセットを構築した。このデータセットには、2,700時間以上のラベルなしゲームプレイ動画クリップと、1,000時間以上の高品質なラベル付きクリップが含まれており、細かいキーボードとマウスのアクションアノテーションが付いている。我々のモデルは、参照画像、モーションコンテキスト、ユーザーアクションを条件とした制御可能な画像からワールド生成パラダイムを採用している。170億以上のパラメータを持つMatrix-Gameは、キャラクターのアクションやカメラの動きを精密に制御しつつ、高い視覚品質と時間的一貫性を維持する。性能を評価するため、Minecraftワールド生成の視覚品質、時間的品質、アクション制御性、物理法則理解を測定する統一ベンチマークであるGameWorld Scoreを開発した。広範な実験により、Matrix-Gameは、すべての指標において既存のオープンソースMinecraftワールドモデル(OasisやMineWorldを含む)を一貫して上回り、特に制御性と物理的一貫性において大きな向上を示した。ダブルブラインドの人間評価もMatrix-Gameの優位性をさらに確認し、多様なゲームシナリオにおいて知覚的に現実的で精密に制御可能なビデオを生成する能力を強調した。インタラクティブな画像からワールド生成の将来の研究を促進するため、Matrix-Gameのモデル重みとGameWorld Scoreベンチマークをhttps://github.com/SkyworkAI/Matrix-Gameでオープンソースとして公開する予定である。
写真レタッチは、現代のビジュアルストーリーテリングにおいて不可欠な要素となり、ユーザーが美的感覚を捉え、創造性を表現することを可能にしている。Adobe Lightroomのようなプロフェッショナルツールは強力な機能を提供するが、それらは相当な専門知識と手作業を要求する。一方、既存のAIベースのソリューションは自動化を提供するが、調整の自由度が限られ、汎化性能が低いため、多様で個別化された編集ニーズを満たすことができない。このギャップを埋めるため、我々はJarvisArtを紹介する。これは、ユーザーの意図を理解し、プロフェッショナルアーティストの推論プロセスを模倣し、Lightroom内の200以上のレタッチツールをインテリジェントに調整するマルチモーダル大規模言語モデル(MLLM)駆動のエージェントである。JarvisArtは二段階のトレーニングプロセスを経る:最初にChain-of-Thoughtによる教師ありファインチューニングを行い、基本的な推論とツール使用スキルを確立し、その後、Group Relative Policy Optimization for Retouching(GRPO-R)を実施して意思決定とツールの熟練度をさらに向上させる。また、Lightroomとのシームレスな統合を促進するため、Agent-to-Lightroom Protocolを提案する。性能を評価するために、実世界のユーザー編集から構築された新しいベンチマークであるMMArt-Benchを開発した。JarvisArtは、ユーザーフレンドリーなインタラクション、優れた汎化性能、グローバルおよびローカルな調整に対するきめ細かい制御を実証し、インテリジェントな写真レタッチの新たな道を切り開く。特に、MMArt-Benchにおけるコンテンツの忠実度において、平均ピクセルレベルメトリクスで60%の改善を示し、GPT-4oを上回りながら、同等の指示追従能力を維持している。プロジェクトページ: https://jarvisart.vercel.app/。
本論文では、AnimaXを紹介する。これは、ビデオ拡散モデルのモーションプライアとスケルトンベースアニメーションの制御可能な構造を橋渡しするフィードフォワード型3Dアニメーションフレームワークである。従来のモーション合成手法は、固定された骨格トポロジーに制限されるか、高次元の変形空間でのコストのかかる最適化を必要としていた。これに対し、AnimaXは、ビデオベースのモーション知識を3D領域に効果的に転移し、任意のスケルトンを持つ多様な関節メッシュをサポートする。本手法では、3Dモーションを多視点・多フレームの2Dポーズマップとして表現し、テンプレートレンダリングとテキストモーションプロンプトに基づくビデオ-ポーズ拡散を可能にする。ビデオとポーズシーケンス間の時空間整合性を確保するために、共有位置エンコーディングとモダリティ認識埋め込みを導入し、ビデオプライアをモーション生成タスクに効果的に転移する。得られた多視点ポーズシーケンスは、3D関節位置に三角測量され、逆運動学を介してメッシュアニメーションに変換される。新たにキュレーションされた160,000のリグ付きシーケンスのデータセットで学習されたAnimaXは、VBenchにおいて一般化、モーション忠実度、効率性において最先端の結果を達成し、カテゴリーに依存しない3Dアニメーションのためのスケーラブルなソリューションを提供する。プロジェクトページ: https://anima-x.github.io/{https://anima-x.github.io/}。
ソフトウェア工学(SWE)は、次世代LLMエージェントの重要な試験場として最近注目を集めており、2つの重要な次元における本質的な能力が求められている。すなわち、持続的な反復的問題解決(例:50回以上のインタラクション)と、長文脈依存性の解決(例:32kトークン以上)である。しかし、SWEにおけるデータキュレーションプロセスは、依然として非常に時間がかかることで知られており、コードファイルのフィルタリングや、ユニットテストの実行と検証のための専用ランタイム環境の設定に手動のアノテーションが大きく依存している。その結果、既存のデータセットのほとんどは、GitHubから収集されたわずか数千のインスタンスに限定されている。この問題に対処するため、我々は、SWEデータセットの量と多様性を体系的に拡張するための漸進的で自動化されたデータキュレーションパイプラインを提案する。我々のデータセットは、2,531の異なるGitHubリポジトリから収集された10,169の実世界のPythonタスクインスタンスで構成され、それぞれに自然言語で指定されたタスクと、自動化されたユニットテスト検証のための専用ランタイム環境イメージが付属している。我々は、提案したSWEデータセットから8,000以上のランタイム検証済みのトレーニング軌跡を慎重にキュレーションした。これらの軌跡を用いてSkywork-SWEモデルをファインチューニングした結果、データサイズが増加するにつれて、LLMのソフトウェア工学能力に対するモデルの性能が向上し続け、飽和の兆候が見られないという顕著なデータスケーリング現象を明らかにした。特に、我々のSkywork-SWEモデルは、検証器や複数のロールアウトを使用せずに、SWE-bench Verifiedベンチマークで38.0%のpass@1精度を達成し、OpenHandsエージェントフレームワークに基づくQwen2.5-Coder-32BベースのLLMの中で新たな最先端(SOTA)を確立した。さらに、テスト時のスケーリング技術を組み込むことで、性能は47.0%の精度にまで向上し、32Bパラメータ未満のモデルにおける従来のSOTA結果を上回った。我々は、今後の研究を加速するために、Skywork-SWE-32Bモデルのチェックポイントを公開する。
我々は、Chain-of-Experts(CoE)という新しいMixture-of-Experts(MoE)アーキテクチャを提案する。CoEは、各層内で専門家間の逐次的なコミュニケーションを導入する。従来のMoEモデルでは、専門家が並列に独立して動作するのに対し、CoEは層内の専門家チェーンを介してトークンを反復的に処理する。反復ステップごとに動的な専門家選択を可能にするため、CoEは各層内の各反復ステップで専用のルーターを採用する。この設計により、トークンは静的に割り当てられるのではなく、各反復ごとに異なる専門家を再評価して選択できる。その結果、CoEは柔軟なルーティングメカニズムを導入し、専門家の組み合わせの多様性を増し、モデルの表現能力を豊かにする。CoEは、固定計算量下で性能向上を示す:数学的推論タスクにおいて、標準的なMoEと比較して検証損失を1.20から1.12に減少させる。性能を超えて、CoEは新しいスケーリング軸を提供する:専門家の反復による深さであり、従来の幅/深さのスケーリングを補完する。例えば、2倍の反復を使用することで、3倍の専門家選択(幅において)と同等の性能を達成し、他のスケーリング戦略と比較してメモリ使用量を17.6-42%削減する。我々の分析は、CoEの利点がその反復的な残差構造と、反復ルーティングによって強化された専門家の特化から生じることを明らかにする。これらが相まって、より表現力豊かな表現を可能にする。コードはhttps://github.com/ZihanWang314/coeで公開されている。
視覚-言語-行動モデル(VLA)は、ロボット操作の進展における可能性から大きな注目を集めている。しかし、従来のアプローチは主に視覚-言語モデル(VLM)の一般的な理解能力に依存して行動信号を生成しており、視覚観測に埋め込まれた豊かな時間的および因果的構造を見落とすことが多かった。本論文では、UniVLAを紹介する。これは、視覚、言語、行動信号を離散トークンシーケンスとして自己回帰的にモデル化する統一されたネイティブなマルチモーダルVLAモデルである。この定式化により、特に大規模なビデオデータからの柔軟なマルチモーダルタスク学習が可能となる。ポストトレーニング中に世界モデリングを組み込むことで、UniVLAはビデオから因果的ダイナミクスを捉え、下流のポリシー学習、特に長期タスクへの効果的な転移を促進する。我々のアプローチは、CALVIN、LIBERO、Simplenv-Bridgeなど、広く使用されているシミュレーションベンチマークにおいて新たな最先端の結果を達成し、従来の手法を大幅に上回った。例えば、UniVLAはLIBEROベンチマークで95.5%の平均成功率を達成し、pi0-FASTの85.5%を上回った。さらに、現実世界のALOHA操作や自動運転における幅広い適用性も実証した。
近年の強化学習アプローチ、例えばアウトカム監視型GRPO(Outcome-Supervised GRPO)は、大規模言語モデル(LLMs)における連鎖的思考推論(Chain-of-Thought Reasoning)を進化させてきた。しかし、マルチモーダル大規模言語モデル(MLLMs)への適応は未開拓の領域である。MLLMのポストトレーニング手法に対する厳密な評価の欠如に対処するため、我々はSEED-Bench-R1を導入した。これは、バランスの取れた知覚と推論を必要とする複雑な実世界のビデオを含むベンチマークであり、大規模なトレーニングセットを提供し、分布内、クロス環境、およびクロス環境タスクのシナリオという3段階の難易度で一般化能力を評価する。SEED-Bench-R1を用いて、標準的なGRPOが回答精度を向上させる一方で、推論ステップと回答間の論理的一貫性を低下させ、一貫性率が57.9%に留まることを発見した。これは、報酬信号が最終回答のみに焦点を当てることでショートカットを促し、厳格なKLペナルティが探索を制限するためである。この問題に対処するため、我々はGRPO-CAREを提案する。これは、明示的な監視なしに回答の正確性と推論の一貫性の両方を最適化する一貫性認識型強化学習フレームワークである。GRPO-CAREは、二層構造の報酬を導入する:(1)回答の正確性に対する基本報酬、(2)モデルの推論から回答への尤度(緩やかに進化する参照モデルを介して)をグループ内の他モデルと比較して計算される適応型一貫性ボーナス。この二重メカニズムにより、正しくかつ論理的に一貫した推論経路に対する報酬が増幅される。KLペナルティをこの適応型ボーナスに置き換えることで、GRPO-CAREはSEED-Bench-R1において標準的なGRPOを上回り、最も難しい評価レベルで6.7%の性能向上と一貫性において24.5%の改善を達成した。また、多様なビデオ理解ベンチマークにおいてモデル性能を向上させる強い転移性も示した。本研究は、体系的な設計に基づくベンチマークと汎用性の高いポストトレーニングフレームワークを提供し、より解釈可能でロバストなMLLMの開発を推進するものである。
本論文では、包括的かつ詳細な画像キャプションを生成する推論時スケーラブルな画像キャプション戦略「ScaleCap」を提案する。高品質な画像キャプション生成における主要な課題は、大規模視覚言語モデル(LVLM)に内在するバイアスにある。具体的には、多モーダルバイアスによる記述粒度の不均衡(一部の要素を詳細に記述する一方で他の要素を軽視する)や、言語的バイアスによる存在しない物体の幻覚的記述が挙げられる。これらの問題に対処するため、我々は推論予算の増加に伴ってキャプションを継続的に充実させ、較正するスケーラブルなデバイアスキャプション戦略を提案する。特に、ヒューリスティックな質問応答と対照的な文評価という2つの新規コンポーネントを導入する。前者は画像に基づいて内容固有の質問を生成し、それに答えることで関連情報をキャプションに段階的に注入する。後者は文レベルのオフライン対照デコードを用いて、言語的バイアスによる幻覚を効果的に識別し排除する。推論コストが増加するにつれて、ScaleCapはより多くのヒューリスティックな質問を生成し、追加の視覚的詳細を段階的に捕捉することで、より正確でバランスの取れた情報量の多いキャプションを生成する。大規模なモダリティアライメント実験により、ScaleCapの有効性が実証された。ScaleCapを用いて45万枚の画像にアノテーションを施し、それをLVLMの事前学習に使用した結果、11の広く使用されているベンチマークで一貫した性能向上が確認された。さらに、ScaleCapは生成キャプションの豊富さと忠実度を、VQAタスクにおける画像のキャプション置換や、キャプションからの画像再構築による意味的カバレッジ評価という2つの追加タスクで示した。コードはhttps://github.com/Cooperx521/ScaleCapで公開されている。
複雑なSQL問題の解決は、現実世界のデータベースアプリケーションにおいて依然として重大なボトルネックとなっています。現在の大規模言語モデル(LLMs)は、テキストからSQLへの翻訳に熟練しているものの、より困難なSQL問題のデバッグタスクについては厳密に評価されていません。このギャップを埋めるため、我々はBIRD-CRITICを導入しました。これは、530のPostgreSQLタスク(BIRD-CRITIC-PG)と570のマルチダイアレクトタスク(BIRD-CRITIC-Multi)からなる新しいSQL問題デバッグベンチマークで、実際のユーザー問題から抽出され、新しい環境で再現されることで厳密な評価を可能にします。ベースライン評価はこのタスクの複雑さを浮き彫りにしており、主要な推論モデルであるO3-Miniは、BIRD-CRITIC-PGで38.87%、BIRD-CRITIC-Multiで33.33%の成功率しか達成できませんでした。一方、データベースタスクのためのオープンソースモデルの進展は、ローカル開発を強化しつつデータプライバシーを保護するために重要です。そこで我々は、SQL問題デバッグのためのオープンソースモデル能力を向上させるトレーニング環境であるSix-Gym(Sql-fIX-Gym)を提案します。この環境は、検証済みSQLから問題をリバースエンジニアリングすることで実行可能な問題解決データセットを自動生成するSQL-Rewind戦略を活用します。しかし、人気のある軌跡ベースのファインチューニング手法は、十分な監督信号を探索しません。我々はさらに、SQLソリューションから高レベルのデバッグプランを抽出し、教師LLMがトレーニング用の成功軌跡を73.7%多く生成できるようにするf-Plan Boostingを提案します。これらのコンポーネントをオープンソースエージェントであるBird-Fixerに統合しました。Qwen-2.5-Coder-14BをベースにしたBird-Fixerは、BIRD-CRITIC-PGで38.11%、BIRD-CRITIC-Multiで29.65%の成功率を達成し、Claude-3.7-SonnetやGPT-4.1などの主要なプロプライエタリモデルを上回り、高度なSQLデバッグ能力の民主化に向けた重要な一歩を記しました。リーダーボードとソースコードは以下で利用可能です: https://bird-critic.github.io/
現実世界のシナリオにおける大規模マルチモーダルモデル(LMMs)の堅牢な展開には、現実世界の情報の複雑さと動的な性質を考慮して、外部の知識源へのアクセスが必要である。既存のアプローチである検索拡張生成(RAG)やプロンプトエンジニアリングされた検索エージェントは、硬直的なパイプラインに依存しており、しばしば非効率的または過剰な検索行動を引き起こす。本論文では、MMSearch-R1を提案する。これは、LMMsが現実世界のインターネット環境においてオンデマンドでマルチターン検索を実行することを可能にする初めてのエンドツーエンドの強化学習フレームワークである。本フレームワークは、画像とテキストの検索ツールを統合し、モデルが結果ベースの報酬と検索ペナルティに基づいて、いつどのようにそれらを呼び出すかを推論することを可能にする。トレーニングを支援するために、多様な視覚的およびテキスト的な知識ニーズをカバーする半自動化されたパイプラインを通じてマルチモーダル検索VQAデータセットを収集し、検索が必要なサンプルと検索不要なサンプルの両方を含む検索バランスの取れたサブセットをキュレーションした。これは、効率的でオンデマンドの検索行動を形成するために不可欠であることが証明された。知識集約型および情報探索型のVQAタスクにおける広範な実験により、本モデルが同じモデルサイズのRAGベースのベースラインを上回るだけでなく、より大きなRAGベースのモデルの性能に匹敵しつつ、検索呼び出しを30%以上削減することが示された。さらに、マルチモーダル検索の研究を進めるための実践的な洞察を提供するために、重要な経験的知見を分析する。
人間のアノテーションにおけるばらつき(すなわち、アノテーションの不一致)は、自然言語処理(NLP)において一般的であり、タスクの主観性やサンプルの曖昧性といった重要な情報を反映することが多い。大規模言語モデル(LLMs)は、人間の労力を削減するために自動アノテーションにますます利用されているが、その評価はしばしば多数決による「グラウンドトゥルース」ラベルの予測に焦点を当てている。しかし、これらのモデルが情報量の多い人間のアノテーションのばらつきも捉えているかどうかはまだ明らかではない。本研究は、繰り返しの人間のラベルにアクセスせずに、LLMsがアノテーションの不一致を予測する能力を広範に評価することで、このギャップを埋めるものである。結果は、LLMsが不一致のモデリングに苦戦しており、これは多数ラベルに基づく評価では見落とされがちであることを示している。特に、RLVRスタイル(検証可能な報酬を用いた強化学習)の推論は一般的にLLMの性能を向上させるが、不一致予測では性能を低下させる。我々の知見は、不一致モデリングにおけるLLMアノテーターの評価と改善の重要性を強調している。コードとデータはhttps://github.com/EdisonNi-hku/Disagreement_Predictionにて公開されている。
大規模言語モデル(LLMs)は推論タスクにおいて顕著な進歩を遂げているが、教師ありファインチューニング(SFT)と強化学習(RL)の最適な統合は依然として根本的な課題である。エントロピーに基づく視点からトークン分布、学習ダイナミクス、および統合メカニズムを包括的に分析することで、これらのパラダイム間の重要な差異を明らかにした:SFTはLLMのポリシー分布に粗粒度のグローバルな変化をもたらす一方、RLは細粒度の選択的最適化を実行し、エントロピーはトレーニング効果の重要な指標として機能する。これらの観察に基づき、エントロピーを考慮した重み付けメカニズムを通じて両方のファインチューニングパラダイムを統合する単一段階の手法である「教師あり強化学習ファインチューニング(SRFT)」を提案する。本手法は、二段階の逐次的手法ではなく、デモンストレーションと自己探索のロールアウトを用いてLLMを直接最適化するためにSFTとRLを同時に適用する。大規模な実験により、SRFTは平均59.1%の精度を達成し、5つの数学的推論ベンチマークにおいてゼロRL手法を9.0%、3つの分布外ベンチマークにおいて10.9%上回ることが示された。
分類器不要ガイダンス(CFG)は、現代の条件付き拡散モデルにおいて不可欠な要素となっている。実践的には非常に効果的であるものの、CFGが品質、詳細、プロンプトの整合性を向上させる根本的なメカニズムは完全には理解されていない。本論文では、CFGの効果を周波数領域で分析することにより、低周波数と高周波数が生成品質に異なる影響を与えることを示す新たな視点を提示する。具体的には、低周波数ガイダンスはグローバルな構造と条件の整合性を制御し、高周波数ガイダンスは主に視覚的な忠実度を向上させる。しかし、すべての周波数に均一なスケールを適用する標準的なCFGでは、高スケールでは過剰な飽和と多様性の低下が生じ、低スケールでは視覚品質が劣化する。これらの知見に基づき、我々は周波数分離ガイダンス(FDG)を提案する。FDGは、CFGを低周波数成分と高周波数成分に分解し、それぞれに異なるガイダンス強度を適用する効果的な手法である。FDGは、低ガイダンススケールでの画像品質を向上させ、高CFGスケールの欠点を設計上回避する。複数のデータセットとモデルにわたる広範な実験を通じて、FDGがサンプルの忠実度を一貫して向上させながら多様性を維持し、CFGと比較してFIDとリコールを改善することを実証し、本手法を標準的な分類器不要ガイダンスのプラグアンドプレイ代替として確立する。
潜在拡散モデルは、効率的なビデオ生成の主要なパラダイムとして登場しました。しかし、ユーザーの期待が高解像度出力へと移行するにつれ、潜在空間での計算のみに依存するのは不十分となっています。有望なアプローチとして、プロセスを2段階に分離する方法があります。すなわち、意味的コンテンツ生成と詳細合成です。前者では、低解像度で計算集約的なベースモデルを使用し、後者では軽量なカスケード型ビデオ超解像(VSR)モデルを活用して高解像度出力を実現します。本研究では、現在十分に研究されていない後者のカスケード型VSRモデルの設計原則に焦点を当てます。まず、ベースモデルの出力特性をより適切に模倣するトレーニングペアを生成するための2つの劣化戦略を提案し、VSRモデルとその上流の生成器との整合性を確保します。次に、(1)タイムステップサンプリング戦略、(2)低解像度(LR)入力に対するノイズ拡張効果の系統的な分析を通じて、VSRモデルの動作に関する重要な洞察を提供します。これらの知見は、アーキテクチャとトレーニングの革新に直接寄与します。最後に、効率的なトレーニングと推論を実現するために、インタリーブ時間単位とスパースローカルアテンションを導入し、計算オーバーヘッドを大幅に削減します。広範な実験により、我々のフレームワークが既存の手法を凌駕することを示し、アブレーションスタディにより各設計選択の有効性を確認しました。本研究は、カスケード型ビデオ超解像生成のためのシンプルかつ効果的なベースラインを確立し、効率的なカスケード合成システムの将来の発展を導く実践的な洞察を提供します。
推論モデルは長い連鎖思考を生成することで優れた性能を発揮しますが、その結果として生じる数千のトークンをデコードするのは遅いという課題があります。トークンレベルの推測的デコーディング(SD)はこれを改善しますが、その効果には限界があります。なぜなら、ガンマトークンの推測全体が正しい確率は、ガンマが大きくなるにつれて指数関数的に低下するからです。これは、より長いトークンドラフトに対して計算リソースを割り当てても、アルゴリズム的な上限に直面することを意味し、高速化の効果は控えめでハードウェアに依存しないものとなります。私たちは、この上限を「Lookahead Reasoning」によって引き上げます。これは、第二の並列処理層であるステップレベルを活用するものです。私たちの重要な洞察は、推論モデルがステップバイステップで生成を行い、各ステップは正確なトークンマッチングではなく、意味的に正しいだけで十分であるということです。Lookahead Reasoningでは、軽量なドラフトモデルが複数の将来のステップを提案し、ターゲットモデルが各提案を一括処理で展開し、検証器が意味的に正しいステップを保持し、失敗したステップはターゲットモデルに再生成させます。トークンレベルのSDは各推論ステップ内で依然として動作するため、二つの並列処理層が相乗効果を発揮します。私たちは、Lookahead ReasoningがSDのピーク高速化を理論的にも実証的にも向上させることを示します。GSM8K、AIME、その他のベンチマークにおいて、Lookahead ReasoningはSDの高速化を1.4倍から2.1倍に改善し、回答品質を維持しつつ、追加のGPUスループットに対してより良いスケーリングを示します。私たちのコードはhttps://github.com/hao-ai-lab/LookaheadReasoningで公開されています。
自己教師あり学習(SSL)は音声表現に革命をもたらしたが、モデルはしばしばドメイン特化型であり、音声または非音声タスクのいずれかに焦点を当てている。本研究では、Universal Speech and Audio Distillation(USAD)を提案する。これは、音声、音響、音楽といった多様な音声タイプを単一のモデルに統合する、音声表現学習の統一的なアプローチである。USADは、ドメイン特化型SSLモデルからの効率的なレイヤー間蒸留を活用し、包括的な音声データセットで学生モデルを訓練する。USADは、フレームレベルおよびインスタンスレベルの音声処理タスク、音声タグ付け、音響分類など、さまざまなベンチマークやデータセットにおいて競争力のある性能を発揮し、SUPERBおよびHEARベンチマークにおいて単一のエンコーダでほぼ最先端の結果を達成する。
コードスイッチング(CSW)とは、単一の談話の中で二つ以上の言語を切り替えて使用する行為を指します。この現象は多言語コミュニティで広く見られ、オンラインコンテンツにおいても日常的なコミュニケーションで自然に言語が混ざり合うため、ますます一般的になっています。その結果、コンテンツ処理や生成の中心的存在となっている大規模言語モデル(LLMs)は、コードスイッチングされた入力に頻繁にさらされています。LLMsの広範な使用を考えると、このような混合言語テキストをどのように処理し、推論するかを理解することが重要です。本論文では、確立された推論および理解ベンチマークのコードスイッチングバリエーションを生成することで、LLMsのコードスイッチング下での理解を体系的に評価します。外国語のトークンが英語テキストを妨げる場合、たとえ言語的制約下であっても性能の低下が明らかですが、英語を他の言語に埋め込むことで理解が向上することがしばしば見られます。プロンプティングは結果がまちまちですが、ファインチューニングは性能低下の緩和に向けたより安定した道を提供します。
直交ファインチューニング(OFT)は、パラメータ効率の高い適応を実現しつつ破滅的忘却を防ぐが、高い実行時間とメモリ要求のため実用的な展開が制限されている。本研究では、OFTの計算上のボトルネックが、立方オーダーの複雑さを持つ高コストな行列-行列乗算に依存する重み中心の実装にあることを特定した。これを克服するため、行列-ベクトル乗算(すなわち行列フリー計算)を用いる入力中心の再定式化であるOFTv2を提案し、計算コストを二次オーダーに削減した。さらに、ケイリー変換における行列逆変換を切断ノイマン級数で近似する効率的な直交パラメータ化手法であるケイリー-ノイマンパラメータ化を導入した。これらの改良により、OFTv2は性能を損なうことなく、最大10倍の高速な学習と3倍の低GPUメモリ使用量を実現した。加えて、OFTv2を量子化された基盤モデルのファインチューニングに対応させ、人気のQLoRAを訓練の安定性、効率性、メモリ使用量の点で上回ることを示した。
大規模言語モデル(LLMs)はデータ分析タスクの自動化において有望であるが、オープンソースモデルはこの種の推論集約的なシナリオにおいて重大な制約に直面している。本研究では、オープンソースLLMsのデータ分析能力を向上させるための戦略を調査する。多様で現実的なシナリオからなるシードデータセットをキュレーションし、モデルをデータ理解、コード生成、戦略的計画の3つの次元で評価する。我々の分析から以下の3つの主要な知見が得られた:(1) 戦略的計画の質がモデルの性能を決定する主要な要因である、(2) インタラクションデザインとタスクの複雑さが推論能力に大きな影響を与える、(3) 最適な性能を達成するためには、多様性よりもデータの質がより大きな影響を示す。これらの知見を活用してデータ合成手法を開発し、オープンソースLLMsの分析的推論能力に大幅な改善を示す。
高次元の視覚モダリティを生成することは計算集約的なタスクである。一般的な解決策として、出力を粗から細へとスペクトル自己回帰的に合成するプログレッシブ生成が用いられる。拡散モデルはノイズ除去の粗から細への性質を活用するが、明示的な多段階アーキテクチャはほとんど採用されていない。これらのアーキテクチャは全体のアプローチの複雑さを増し、カスタム拡散定式化、分解依存の段階遷移、アドホックなサンプラー、またはモデルカスケードの必要性を導入する。我々の貢献であるDecomposable Flow Matching(DFM)は、視覚メディアのプログレッシブ生成のためのシンプルで効果的なフレームワークである。DFMは、ユーザー定義のマルチスケール表現(例えばラプラシアンピラミッド)の各レベルで独立してFlow Matchingを適用する。実験により、我々のアプローチは画像と動画の両方で視覚品質を向上させ、従来の多段階フレームワークと比較して優れた結果を示すことが確認された。Imagenet-1k 512pxにおいて、DFMはベースアーキテクチャに対してFDDスコアで35.2%、最高性能のベースラインに対して26.4%の改善を達成し、同じトレーニング計算量で実現した。FLUXのような大規模モデルのファインチューニングに適用すると、DFMはトレーニング分布への収束速度が速いことが示された。重要な点として、これらの利点は単一のモデル、アーキテクチャの簡潔さ、既存のトレーニングパイプラインへの最小限の変更で達成されている。
大規模言語モデル(LLMs)、特に遅い思考を行うモデルは、推論中に知識の境界を正確に認識できないため、誤った内容を出力する深刻な幻覚(hallucination)を示すことが多い。強化学習(Reinforcement Learning, RL)は複雑な推論能力を向上させることができるが、その結果指向型の報酬メカニズムは思考プロセスに対する事実に基づく監督を欠いており、幻覚問題をさらに悪化させることがある。遅い思考モデルにおける高い幻覚を解決するため、我々は知識強化型RLであるKnowRLを提案する。KnowRLは、知識検証に基づく事実性報酬をRLトレーニングプロセスに統合することで、モデルが知識の境界を認識し、事実に基づいた遅い思考を行うよう導く。このRLトレーニング中のターゲットを絞った事実入力により、モデルは事実に基づいた推論戦略を学習し、内在化することが可能となる。推論ステップ内での事実への忠実さを直接報酬とすることで、KnowRLはより信頼性の高い思考プロセスを促進する。3つの幻覚評価データセットと2つの推論評価データセットにおける実験結果は、KnowRLが遅い思考モデルの幻覚を効果的に軽減しつつ、元々の強力な推論能力を維持することを示している。我々のコードはhttps://github.com/zjunlp/KnowRLで公開されている。
本研究は、風力発電効率の向上における予知保全モデルの有効性と、インテリジェントな運用・保守(O&M)システムの最適化について探求する。質的研究を通じて、風力発電所のエンジニアおよび保守マネージャー5名を対象に構造化インタビューを実施した。各参加者はタービン運用における豊富な経験を有している。テーマ分析を用いた結果、予知保全モデルは主要な故障を特定することでダウンタイムを効果的に削減する一方、小さな漸進的な故障の検出には課題があることが明らかになった。主な課題として、誤検知、センサーの故障、古いタービンシステムとの新モデルの統合の難しさが挙げられた。デジタルツイン、SCADAシステム、状態監視などの先進技術は、タービン保守の実践を大幅に向上させている。しかし、これらの技術は、特にAIの精緻化とリアルタイムデータ統合において、さらなる改善が必要である。研究結果は、風力タービンの性能を完全に最適化し、再生可能エネルギーの普及を支援するための継続的な開発の必要性を強調している。
大規模都市環境における視覚と言語ナビゲーション(VLN)は、具現化されたエージェントが複雑なシーンにおいて言語指示を接地し、長期的な時間軸にわたって関連する経験を想起することを要求する。従来のモジュール型パイプラインは解釈可能性を提供するが、統一されたメモリを欠いており、一方でエンドツーエンドの(M)LLMエージェントは視覚と言語の融合に優れているものの、固定されたコンテキストウィンドウと暗黙的な空間推論に制約されている。本論文では、Mem4Navを紹介する。これは、任意のVLNバックボーンを強化できる階層的な空間認知長短期記憶システムである。Mem4Navは、細かいボクセルインデックス化のための疎なオクツリーと、高レベルのランドマーク接続性のためのセマンティックトポロジグラフを融合し、両方を可逆Transformerを介して埋め込まれた学習可能なメモリトークンに保存する。長期記憶(LTM)は、オクツリーとグラフノードの両方で歴史的観測を圧縮して保持し、短期記憶(STM)は最近のマルチモーダルエントリを相対座標でキャッシュし、リアルタイムの障害物回避と局所計画を可能にする。各ステップで、STMの検索は動的コンテキストを鋭く刈り込み、より深い履歴が必要な場合、LTMトークンは損失なくデコードされて過去の埋め込みを再構築する。TouchdownとMap2Seqにおいて、3つのバックボーン(モジュール型、プロンプトベースLLMを備えた最先端VLN、ストライドアテンションMLLMを備えた最先端VLN)で評価された結果、Mem4Navはタスク完了率で7-13ポイントの向上、十分なSPD削減、および10ポイント以上のnDTW改善をもたらした。アブレーション研究は、階層的なマップと二重メモリモジュールの両方が不可欠であることを確認している。我々のコードはhttps://github.com/tsinghua-fib-lab/Mem4Navで公開されている。
大規模言語モデル(LLMs)は、しばしば内在的なバイアスを伴う応答を生成し、実世界での信頼性を損なうことがある。既存の評価手法は、長文応答におけるバイアスやLLM出力の本質的な変動性を見落とすことが多い。これらの課題に対処するため、我々はFiSCo(Fine-grained Semantic Computation)を提案する。これは、デモグラフィックグループ間の長文応答における微妙な意味的差異を検出することで、LLMsのグループレベルの公平性を評価する新しい統計的フレームワークである。感情やトークンレベルの比較に焦点を当てた従来の研究とは異なり、FiSCoは主張レベルで動作し、含意チェックを活用して応答間の意味の一貫性を評価することで、表面的な分析を超えた深い洞察を提供する。モデル出力を意味的に異なる主張に分解し、統計的仮説検定を適用してグループ間およびグループ内の類似性を比較することで、微妙なバイアスの頑健な検出を可能にする。我々は新しいグループ反事実的公平性の定義を形式化し、性別、人種、年齢にわたる合成データセットと人間による注釈付きデータセットでFiSCoを検証した。実験結果は、FiSCoが確率的なLLMの変動性の影響を低減しつつ、微妙なバイアスをより確実に識別し、様々な評価指標を凌駕することを示している。