翻訳付きの日次キュレーションされたAI研究論文
ビジョン言語モデル(VLM)によって駆動されるグラフィカルユーザーインターフェース(GUI)エージェントは、人間らしいコンピュータ制御能力を示しています。デジタル自動化の推進に役立つ一方で、訓練用の高品質な軌跡データを収集するという重要なボトルネックが依然として存在しています。このようなデータを収集するための一般的な手法は、人間の監督または事前定義されたタスクの実行を通じた合成データ生成に依存しており、いずれもリソースを多く必要とするか、データ品質を保証できません。さらに、これらの手法は、合成データと実世界の環境との間に限られたデータの多様性や大きなギャップがあるという課題に直面しています。これらの課題に対処するために、我々はOS-Genesisを提案します。これは、従来の軌跡収集プロセスを逆転させる革新的なGUIデータ合成パイプラインです。OS-Genesisは、事前定義されたタスクに依存するのではなく、エージェントに最初に環境を認識させ、段階的な相互作用を行わせ、その後後ろ向きに高品質なタスクを導き出して軌跡レベルの探索を可能にします。その後、軌跡報酬モデルが生成された軌跡の品質を確保するために使用されます。OS-Genesisを使用してGUIエージェントを訓練すると、高度に挑戦的なオンラインベンチマークでのパフォーマンスが大幅に向上することを示します。詳細な分析は、既存の合成手法と比較して、OS-Genesisの効率性、優れたデータ品質、多様性をさらに検証します。我々のコード、データ、およびチェックポイントは、{OS-Genesisホームページ}で入手可能です。
Xmodel-2は、推論タスクに特化した12億パラメータの大規模言語モデルです。そのアーキテクチャにより、異なるモデルスケールが統一された一連のハイパーパラメータを共有できるため、小さなモデルでの幅広い実験や最適な構成の大きなモデルへのシームレスな転送が可能となります。トレーニング効率と安定性を最大化するため、Xmodel-2はMiniCPMからのWSD学習率スケジューラを使用しています。多様なソースからの1.5兆トークンで事前学習されたXmodel-2は、複雑な推論およびエージェントベースのタスクで最先端のパフォーマンスを達成し、低いトレーニングコストを維持しています。これらの結果は、効率的なモデル設計とトレーニング戦略が推論能力の向上にどれだけの潜在能力を秘めているかを示しています。モデルのチェックポイントとコードはGitHubで一般に公開されています:https://github.com/XiaoduoAILab/Xmodel-2
大規模ビジョン言語モデル(VLMs)は、ビジョン入力をテキストと整合させることで、コンピュータビジョンタスクのパフォーマンスを大幅に向上させてきました。さらに、VLMsを実世界のアプリケーションで効果的に活用するためには、サーマル、深度、X線など多様なマルチビジョンセンサーデータの理解が不可欠です。しかし、現在のVLMsは、センサー情報の深い理解なしにマルチビジョンセンサー画像を処理しており、各センサー固有の物理特性を無視しています。この制限により、複数のビジョンセンサー推論が必要な複雑な問いに対応する能力が制限されています。この課題に対処するため、私たちは新しいマルチビジョンセンサー認識および推論(MS-PR)ベンチマークを提案し、VLMsのセンサー固有の推論能力を評価します。さらに、多様なネガティブ属性(DNA)最適化を導入して、VLMsがマルチビジョンセンサータスクで深い推論を行うことを可能にし、画像とセンサーデータ間の核心情報ギャップを埋めるのに役立ちます。幅広い実験結果が、提案されたDNA手法がVLMsのマルチビジョンセンサー推論を大幅に改善できることを検証しています。
Hunyuan 7B からファインチューニングされた言語モデル HunyuanProver を紹介します。LEAN4 を用いた対話型自動定理証明に使用されます。データの希少性の問題を緩和するため、低コストでデータを反復的に合成するスケーラブルなフレームワークを設計しています。さらに、「システム2の思考」を可能にするために、誘導された木探索アルゴリズムが設計されています。HunyuanProver は主要なベンチマークで最先端のパフォーマンスを達成しています。具体的には、現在の SOTA 結果である 65.9% に比べて、miniF2F-test で 68.4% の合格率を達成しています。miniF2F-test では imo_1960_p2、imo_1962_p2、imo_1964_p2、imo_1983_p6 の 4 つの IMO ステートメントを証明しています。コミュニティに貢献するために、30k の合成されたインスタンスのデータセットをオープンソースで公開します。各インスタンスには、自然言語での元の質問、自動形式化による変換された文、および HunyuanProver による証明が含まれています。
拡散モデルはテキストから画像を生成する際に卓越した才能を示す一方、高度な美的な画像を生成することには依然として失敗する可能性があります。具体的には、色彩、照明、構図などの微細な次元において、生成された画像と実世界の美的な画像との間にはまだ隔たりがあります。本論文では、可視性コンセプト全体にわたって一般性を維持しながら生成された画像の品質を向上させるために、プラグアンドプレイの美学アダプタであるCross-Attention Value Mixing Control(VMix)アダプタを提案します。これは、(1)美的埋め込みの初期化によって入力テキストプロンプトをコンテンツ記述と美学的記述に分解し、(2)ゼロ初期化された線形層によってネットワークを接続し、値混合されたクロスアテンションを介して美学的条件をノイズ除去プロセスに統合することによって実現されます。私たちの鍵となる洞察は、既存の拡散モデルの美的表現を向上させるために、画像とテキストの整合性を保ちながら優れた条件制御方法を設計することです。慎重な設計により、VMixは再トレーニングを必要とせずにコミュニティモデルに適用できる柔軟性があります。当社の手法の有効性を検証するために、包括的な実験を行い、VMixが他の最先端の手法を凌駕し、画像生成のための他のコミュニティモジュール(例:LoRA、ControlNet、およびIPAdapter)と互換性があることを示しました。プロジェクトページはhttps://vmix-diffusion.github.io/VMix/ です。