翻訳付きの日次キュレーションされたAI研究論文
汎用AIエージェントは、複雑な推論、ウェブインタラクション、コーディング、自律的な研究能力を可能にする次世代人工知能の基盤フレームワークとして、ますます認識されるようになっています。しかし、現在のエージェントシステムは、クローズドソースであるか、あるいは多様な有料APIやプロプライエタリツールに大きく依存しており、研究コミュニティにとってのアクセシビリティと再現性を制限しています。本研究では、先進的なAIエージェントの開発と評価を民主化するために設計された、完全にオープンソースで(可能な限り)無料のマルチモジュールエージェントフレームワークであるCognitive Kernel-Proを紹介します。Cognitive Kernel-Pro内では、エージェント基盤モデルのための高品質なトレーニングデータのキュレーションを体系的に調査し、ウェブ、ファイル、コード、一般的な推論という4つの主要なドメインにわたるクエリ、軌跡、検証可能な回答の構築に焦点を当てています。さらに、エージェントの堅牢性とパフォーマンスを向上させるための、エージェントのテスト時におけるリフレクションと投票の新たな戦略を探求します。Cognitive Kernel-ProをGAIAで評価し、オープンソースおよび無料エージェントの中で最先端の結果を達成しました。特に、8Bパラメータのオープンソースモデルは、WebDancerやWebSailorなどの以前の主要システムを上回り、アクセス可能で高能力なAIエージェントの新たな性能基準を確立しました。コードはhttps://github.com/Tencent/CognitiveKernel-Proで公開されています。
Diffusion Large Language Models(DLLMs)は、現在主流のAutoregressive Large Language Modelsに代わる強力な選択肢として台頭しつつあり、効率的な並列生成とグローバルなコンテキストモデリングを可能にしています。しかし、DLLMsの実用的な応用は、静的に事前定義された生成長が必要であるという重要なアーキテクチャ上の制約によって妨げられています。この静的な長さの割り当ては、複雑なタスクでは性能が低下する一方で、過剰な長さは計算コストを大幅に増加させ、時には性能の劣化を招くという問題のあるトレードオフを生み出します。推論フレームワークが硬直的である一方で、モデル自体が特定のタスクに最適な応答長と相関する内部信号を持っていることが観察されています。このギャップを埋めるため、我々はこれらの潜在信号を活用し、Diffusion Large Language Modelsのための動的適応的長さ拡張を可能にする新しいトレーニング不要のノイズ除去戦略であるDAEDALを導入します。DAEDALは2つのフェーズで動作します:1) ノイズ除去プロセスの前に、DAEDALは短い初期長から始め、シーケンス完了メトリックに基づいて反復的にタスクに適した粗い長さに拡張します。2) ノイズ除去プロセス中に、DAEDALはマスクトークンの挿入を通じて不十分な生成領域を特定し拡張することで動的に介入し、最終的な出力が完全に発展することを保証します。DLLMsに関する広範な実験により、DAEDALは慎重に調整された固定長ベースラインと同等、場合によってはそれを上回る性能を達成しつつ、有効なトークン比率を高めることで計算効率を向上させることが示されています。静的な長さ制約を解決することにより、DAEDALはDLLMsの新たな可能性を解き放ち、Autoregressiveモデルとの重要なギャップを埋め、より効率的で能力のある生成への道を開きます。
現在の拡散トランスフォーマーの成功は、事前学習された変分オートエンコーダ(VAE)によって形成された圧縮された潜在空間に大きく依存している。しかし、この二段階の学習パラダイムは、避けられない累積誤差とデコードアーティファクトを導入する。これらの問題に対処するため、研究者たちは複雑なカスケードパイプラインと増加したトークン複雑性を代償として、ピクセル空間に戻ることを選択している。彼らの取り組みとは対照的に、我々はニューラルフィールドを用いたパッチ単位のデコードをモデル化し、単一スケール、単一段階、効率的なエンドツーエンドの解決策を提案する。これをピクセルニューラルフィールド拡散(PixelNerd)と名付ける。PixNerdにおける効率的なニューラルフィールド表現のおかげで、我々は複雑なカスケードパイプラインやVAEを使用せずに、ImageNet 256×256で2.15のFID、ImageNet 512×512で2.84のFIDを直接達成した。また、我々のPixNerdフレームワークをテキストから画像への応用に拡張した。PixNerd-XXL/16は、GenEvalベンチマークで競争力のある0.73の総合スコア、DPGベンチマークで80.9の総合スコアを達成した。
大規模視覚言語モデル(VLMs)は2次元視覚理解タスクにおいて大きな進展を遂げており、これらの能力を3次元シーン理解に拡張することへの関心が高まっています。しかし、現在の3D VLMsは、高品質な空間データの制約や視点仮定の静的な性質により、堅牢な推論と一般化に苦戦しています。これらの課題に対処するため、我々は3D VLMsの推論能力を強化する基盤モデルである3D-R1を提案します。具体的には、まず既存の3D-VLデータセットとGemini 2.5 Proに基づくデータエンジンを活用し、CoT(Chain-of-Thought)を備えた高品質な合成データセット「Scene-30K」を構築します。これは3D-R1のコールドスタート初期化データとして機能します。さらに、強化学習のトレーニングプロセスにおいてGRPOなどのRLHF(Reinforcement Learning from Human Feedback)ポリシーを活用し、推論能力を強化します。また、検出精度と回答の意味的精度を維持するために、知覚報酬、意味的類似性報酬、フォーマット報酬の3つの報酬関数を導入します。さらに、3Dシーン理解において最も情報量の多い視点を適応的に選択する動的視点選択戦略を導入します。大規模な実験により、3D-R1がさまざまな3Dシーンベンチマークで平均10%の改善をもたらすことが示され、3Dシーン理解における推論と一般化の強化の有効性が強調されています。コード: https://github.com/AIGeeksGroup/3D-R1. ウェブサイト: https://aigeeksgroup.github.io/3D-R1.
大規模言語モデル(LLM)エージェントの最近の進展は、マルチエージェント協調やモンテカルロ木探索(MCTS)などの高度な技術を活用し、ソフトウェア問題解決において顕著な進歩を示しています。しかし、現在のエージェントはメモリレスな探索者として動作しており、各問題を個別に扱い、以前の修復経験から得た知識を保持または再利用しません。これにより、失敗した軌跡の冗長な探索や、類似の問題に対して成功した問題解決方法を適用する機会を逃すことになります。この問題に対処するため、我々はSWE-Expを導入します。これは、以前のエージェントの軌跡から簡潔で実践的な経験を蒸留し、問題を跨いだ継続的な学習を可能にする経験強化アプローチです。我々の手法は、成功した修復試行と失敗した修復試行の両方を捕捉する多面的な経験バンクを導入します。具体的には、高レベルの問題理解から特定のコード変更まで、異なるレベルで再利用可能な問題解決知識を抽出します。実験結果は、SWE-Expがオープンソースエージェントフレームワーク下でSWE-bench-Verifiedにおいて最先端の解決率(41.6% Pass@1)を達成することを示しています。我々のアプローチは、自動化されたソフトウェアエンジニアリングエージェントが修復専門知識を体系的に蓄積し活用する新たなパラダイムを確立し、試行錯誤的な探索から戦略的で経験駆動型の問題解決へと根本的にシフトします。
大規模言語モデル(LLMs)の高度な推論能力により、課題解決は著しい進歩を遂げてきました。最近では、SWE-agentのようなエージェントベースのフレームワークが、自律的でツールを使用するエージェントが複雑なソフトウェアエンジニアリングタスクに取り組むことを可能にし、この進歩をさらに推し進めています。既存のエージェントベースの課題解決アプローチは主にエージェントの独立した探索に基づいていますが、ローカルな解決策に陥りやすく、コードベースの異なる部分にまたがる課題パターンを特定できないことがよくあります。この制限を解決するため、我々はSWE-Debateを提案します。これは、多様な推論パスを促進し、より統合された課題のローカライゼーションを実現する競争的なマルチエージェント討論フレームワークです。SWE-Debateはまず、コード依存グラフをトラバースすることで、複数の障害伝播トレースをローカライゼーション提案として作成します。次に、障害伝播トレースに沿った異なる推論視点を体現する専門エージェント間で3ラウンドの討論を組織します。この構造化された競争により、エージェントは協力的に統合された修正計画に収束します。最後に、この統合された修正計画は、MCTSベースのコード修正エージェントに統合され、パッチ生成が行われます。SWE-benchベンチマークでの実験では、SWE-Debateがオープンソースのエージェントフレームワークにおいて新たな最先端の結果を達成し、ベースラインを大幅に上回る性能を示しました。
大規模言語モデル(LLM)の会話能力を評価することは、依然として困難な課題です。現在の主流のアプローチは、主に「LLM-as-a-judge」パラダイムに依存しており、LLMに評価者としての役割を促し、対話の品質を評価します。しかし、このような方法はしばしばさまざまなバイアスに悩まされ、評価結果の信頼性と一貫性を損なうことがあります。これらのバイアスを軽減するために、最近の手法では複数のLLMを評価者として採用し、それらの判断を集約して最適な評価を選択します。この多評価者アプローチは効果的ではありますが、推論時に大きな計算コストを伴います。本論文では、複数のLLM評価者の集合知を捉え、それらの選好知識を単一のモデルに集約する効率的な多ターン対話評価器を提案します。私たちのアプローチは、多様な多評価者フィードバックの利点を維持しつつ、評価コストを大幅に削減し、迅速かつ柔軟な対話品質評価を可能にします。7つの単一評価およびペアワイズ比較対話評価ベンチマークでの広範な実験により、私たちの手法が多様なシナリオにおいて既存のベースラインを上回り、その効率性と堅牢性を示しています。
大規模言語モデルの最近の進展により、テキスト、音声、視覚を統合したマルチモーダルLLM(MLLM)の開発が加速しています。MLLMが特定タスクに特化した単一言語システムから汎用目的の指示追従モデルへと進化する中で、重要なフロンティアは、長文脈と短文脈の両方における多言語・マルチモーダル能力の評価にあります。しかし、既存のベンチマークはこれらの次元を同時に評価するには不十分です。英語に限定されていることが多く、単一モダリティに焦点を当てることが多い、短文脈に依存している、または人間によるアノテーションが欠如しているため、言語、モダリティ、タスクの複雑さにわたるモデル性能の包括的な評価が妨げられています。これらのギャップを埋めるため、我々はMCIF(Multimodal Crosslingual Instruction Following)を導入します。これは、科学講演に基づいた初の多言語人間アノテーションベンチマークであり、短・長文脈の入力における多言語・マルチモーダル設定での指示追従を評価するように設計されています。MCIFは、音声、視覚、テキストの3つの主要モダリティと、英語、ドイツ語、イタリア語、中国語の4つの多様な言語をカバーし、MLLMが言語間で指示を解釈し、マルチモーダル文脈情報と組み合わせる能力を包括的に評価することを可能にします。MCIFはCC-BY 4.0ライセンスの下で公開され、MLLM開発におけるオープンな研究と進展を促進します。
マルチモーダル参照セグメンテーションは、テキストまたは音声形式の参照表現に基づいて、画像、動画、3Dシーンなどの視覚シーン内のターゲットオブジェクトをセグメント化することを目的としています。このタスクは、ユーザーの指示に基づいた正確な物体認識を必要とする実用的なアプリケーションにおいて重要な役割を果たします。過去10年間、畳み込みニューラルネットワーク、トランスフォーマー、大規模言語モデルの進歩に後押しされ、マルチモーダル認識能力が大幅に向上したことで、この分野はマルチモーダルコミュニティにおいて大きな注目を集めてきました。本論文では、マルチモーダル参照セグメンテーションに関する包括的な調査を提供します。まず、この分野の背景、問題定義、および一般的に使用されるデータセットを紹介します。次に、参照セグメンテーションのための統一されたメタアーキテクチャを要約し、画像、動画、3Dシーンという3つの主要な視覚シーンにおける代表的な手法をレビューします。さらに、現実世界の複雑さに対処するための一般化参照表現(GREx)手法や、関連タスクおよび実用的なアプリケーションについて議論します。標準ベンチマークにおける広範な性能比較も提供します。関連する研究はhttps://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentationで継続的に追跡しています。
音声駆動型ビデオ生成は、人間が聴覚入力からシーンを視覚化する能力と同様に、入力音声記録と整合するリアルなビデオを合成することを目指しています。しかし、既存のアプローチは主に、音源のクラスなどの意味情報を探索することに焦点を当てており、正確な内容と空間構成を持つビデオを生成する能力が制限されています。対照的に、私たち人間は、音源の意味的カテゴリを自然に識別できるだけでなく、その位置や移動方向などの深くエンコードされた空間的属性も決定できます。この有用な情報は、音の固有の物理的特性(例えば、音量や周波数)から導出される特定の空間指標を考慮することで明らかにすることができます。従来の方法はこの要素をほとんど無視しているため、私たちはSpA2Vを提案します。これは、音声からこれらの空間的聴覚手がかりを明示的に活用し、高い意味的および空間的対応を持つビデオを生成する初めてのフレームワークです。SpA2Vは生成プロセスを2つの段階に分解します:1)音声ガイド付きビデオ計画:最先端のMLLMを入念に適応させ、入力音声から空間的および意味的手がかりを活用してビデオシーンレイアウト(VSL)を構築する新しいタスクに取り組みます。これは、音声とビデオのモダリティ間のギャップを埋める中間表現として機能します。2)レイアウトに基づくビデオ生成:VSLを条件付きガイダンスとして事前学習済みの拡散モデルにシームレスに統合する効率的で効果的なアプローチを開発し、トレーニング不要でVSLに基づくビデオ生成を可能にします。広範な実験により、SpA2Vが入力音声と意味的および空間的に整合するリアルなビデオを生成するのに優れていることが実証されています。
大規模言語モデル(LLM)は、人間の文章に極めて近いテキストを生成する能力において顕著な熟達度を示しています。しかし、事実に反する記述を生成することが多く、これは一般的に「幻覚(hallucination)」と呼ばれる問題です。幻覚に対処することは、LLMの信頼性と有効性を向上させるために極めて重要です。これまでの研究の多くは英語における幻覚に焦点を当ててきましたが、本研究では、ヒンディー語、ペルシャ語、中国語(北京語)の会話データに調査を拡張します。GPT-3.5、GPT-4o、Llama-3.1、Gemma-2.0、DeepSeek-R1、Qwen-3を対象に、これらの言語における事実的および言語的エラーを包括的に分析しました。その結果、LLMは中国語では幻覚的な応答が非常に少ない一方、ヒンディー語とペルシャ語では幻覚が大幅に多く生成されることが明らかになりました。
画像を目標とした視覚ナビゲーションは、基本的でありながら困難な問題です。従来の手法は、エンドツーエンドの強化学習(RL)に依存するか、トポロジカルグラフやBEVマップをメモリとして使用するモジュール型ポリシーに基づいており、探索された3D環境と目標画像の間の幾何学的関係を完全にモデル化することができませんでした。3D空間内で目標画像を効率的かつ正確に位置特定するために、私たちはレンダリング可能な3Dガウシアン(3DGS)表現に基づいてナビゲーションシステムを構築しました。しかし、3DGSの最適化が計算集約的であり、6自由度のカメラポーズの探索空間が大きいため、エージェントの探索プロセス中に3DGSを直接利用して画像の位置特定を行うことは非常に非効率的です。この問題を解決するために、私たちはIGL-Navという、効率的で3D認識を備えた画像目標ナビゲーションのための増分的3Dガウシアン位置特定フレームワークを提案します。具体的には、新しい画像が到着するたびに、単眼予測を用いてシーン表現を増分的に更新します。次に、幾何学的情報を活用して離散空間マッチングを行い、目標を大まかに位置特定します。これは、効率的な3D畳み込みと同等です。エージェントが目標に近づいたら、微分可能レンダリングによる最適化を用いて精密なターゲットポーズを最終的に解決します。提案されたIGL-Navは、多様な実験設定において、既存の最先端手法を大幅に上回る性能を示します。また、より困難な自由視点画像目標設定にも対応でき、任意のポーズで目標画像を撮影するためにスマートフォンを使用して実世界のロボットプラットフォームに展開することも可能です。プロジェクトページ: https://gwxuan.github.io/IGL-Nav/。
AIはテキスト、音声、画像、動画の生成において優れているが、ビデオゲームのようなインタラクティブなオーディオビジュアルコンテンツの作成は依然として課題である。現在の大規模言語モデル(LLM)はJavaScriptゲームやアニメーションを生成できるが、自動評価指標が欠如しており、通常は人間のチームが数か月かけて作成する複雑なコンテンツ(マルチショット、マルチエージェント)やアーティストが作成したアセットを扱うことが難しい。これらの問題に対処するため、我々は新しい評価指標とマルチエージェントシステムを構築した。 我々は、オーディオビジュアル記録(AVR)を用いたマルチメディアコンテンツの品質を評価する相対的指標であるAVR-Evalを提案する。オムニモーダルモデル(テキスト、ビデオ、音声を処理)が2つのコンテンツのAVRを比較し、テキストモデルが評価をレビューして優劣を決定する。AVR-Evalが正常なコンテンツと壊れたまたはミスマッチしたコンテンツを適切に識別することを示す。 我々は、マルチメディアアセット(音声、画像、3Dモデル)のバンクからJavaScriptコードを生成するマルチエージェントシステムであるAVR-Agentを構築した。コーディングエージェントは関連するアセットを選択し、複数の初期コードを生成し、AVR-Evalを使用して最良のバージョンを特定し、AVRからのオムニモーダルエージェントのフィードバックを通じて反復的に改善する。 我々は、AVR-Evalを使用してゲームとアニメーションの実験を行い(コンテンツA対Bの勝率)、AVR-Agentによって生成されたコンテンツがワンショット生成によるコンテンツに対して有意に高い勝率を持つことを見出した。しかし、モデルはカスタムアセットとAVRフィードバックを効果的に活用することができず、勝率の向上は見られなかった。これは重要なギャップを明らかにしている:人間は高品質なアセットとオーディオビジュアルフィードバックから利益を得るが、現在のコーディングモデルはこれらのリソースを効果的に活用していない。これは、人間と機械のコンテンツ作成アプローチの根本的な違いを示している。