翻訳付きの日次キュレーションされたAI研究論文
「深層推論」のパラダイムは、数学のような検証可能な領域において重要な進展を遂げてきたが、そのオープンエンドで創造的な生成への応用は依然として重大な課題である。推論能力を付与するための2つの主要な手法——強化学習(RL)と指示蒸留——は、この領域では限界に直面している。RLは明確な報酬信号や高品質な報酬モデルの欠如に苦しみ、蒸留はコストが高すぎる上に教師モデルの能力に制限される。これらの制約を克服するため、我々はREverse-Engineered Reasoning(REER)という新たなパラダイムを提案する。これは、試行錯誤や模倣を通じて推論プロセスを「順方向」に構築するのではなく、既知の優れた解から「逆方向」に働きかけ、それらを生成し得る潜在的な段階的な深層推論プロセスを計算的に発見するアプローチである。このスケーラブルで勾配不要な手法を用いて、我々はDeepWriting-20Kという大規模データセットを整備し公開した。これは、オープンエンドタスクにおける20,000の深層推論軌跡を収録したものである。このデータで訓練された我々のモデル、DeepWriter-8Bは、強力なオープンソースのベースラインを凌駕するだけでなく、GPT-4oやClaude 3.5のような主要なプロプライエタリモデルと競合し、時にはそれを上回る性能を達成した。
大規模言語モデル(LLMs)のパラダイムは、エージェント的な応用に向けてますますシフトしており、ウェブブラウジング能力は多様なオンラインソースから情報を取得するための基盤となっている。しかし、既存のオープンソースのウェブエージェントは、複雑なタスクにおける情報探索能力が限られているか、透明性のある実装を欠いている。本研究では、この課題の核心が、情報探索のための挑戦的なデータの不足にあることを明らかにした。この制約を克服するため、我々はWebExplorerを導入する:モデルベースの探索と反復的な長文から短文へのクエリ進化を用いた体系的なデータ生成手法である。この方法は、多段階の推論と複雑なウェブナビゲーションを必要とする挑戦的なクエリと回答のペアを作成する。我々がキュレートした高品質なデータセットを活用し、教師ありファインチューニングと強化学習を経て、高度なウェブエージェントWebExplorer-8Bを開発することに成功した。我々のモデルは128Kのコンテキスト長と最大100回のツール呼び出しをサポートし、長期的な問題解決を可能にする。多様な情報探索ベンチマークにおいて、WebExplorer-8Bはその規模において最先端の性能を達成した。特に、8BサイズのモデルであるWebExplorer-8Bは、強化学習トレーニング後に平均16回の探索を効果的に実行し、BrowseComp-en/zhにおいてWebSailor-72Bよりも高い精度を達成し、WebWalkerQAとFRAMESにおいて100Bパラメータまでのモデルの中で最高の性能を発揮した。これらの情報探索タスクを超えて、我々のモデルは知識集約的なQAデータのみでトレーニングされているにもかかわらず、HLEベンチマークにおいても強力な汎化性能を示した。これらの結果は、我々のアプローチが長期的なウェブエージェントに向けた実践的な道筋であることを強調している。
我々はTraceRLを提案する。これは、拡散言語モデル(DLM)向けの軌跡認識型強化学習フレームワークであり、推奨される推論軌跡をポストトレーニングに組み込み、様々なアーキテクチャに適用可能である。拡散ベースの価値モデルを備えることでトレーニングの安定性を向上させ、複雑な数学やコーディングタスクにおいて改善された推論性能を実証した。さらに、ブロック固有のモデルをより大きなブロックに適応させることも可能で、サンプリングの柔軟性が向上する。TraceRLを活用し、一連の最先端拡散言語モデルTraDoを導出した。7BスケールのARモデルよりも小規模であるにもかかわらず、TraDo-4B-Instructは複雑な数学的推論タスクにおいて一貫して優れた性能を示す。TraDo-8B-Instructは、数学的推論ベンチマークにおいてQwen2.5-7B-Instructに対して6.1%、Llama3.1-8B-Instructに対して51.3%の相対的な精度向上を達成した。カリキュラム学習を通じて、初の長文CoT DLMも導出し、MATH500においてQwen2.5-7B-Instructを18.1%の相対精度向上で上回った。再現可能な研究と実用的な応用を促進するため、様々なアーキテクチャにわたる拡散LLMの構築、トレーニング、デプロイのための包括的なオープンソースフレームワークを公開した。このフレームワークは、推論と強化学習の両方に対応した高速化KVキャッシュ技術と推論エンジンを統合し、数学、コーディング、一般タスクのための様々な教師あり微調整とRL手法の実装を含んでいる。コードとモデル: https://github.com/Gen-Verse/dLLM-RL
大規模な視覚基盤モデルの登場は、多様な自然画像で事前学習されたことにより、コンピュータビジョンにおけるパラダイムシフトをもたらしました。しかし、最先端の視覚基盤モデルの有効性が、医療画像などの専門領域にどのように転移するかは未解決の問題です。本報告では、密な予測タスクにおいて強力な能力を発揮する最新の自己教師あり視覚トランスフォーマー(ViT)であるDINOv3が、ドメイン固有の事前学習なしに、医療視覚タスクの統一的なエンコーダーとして直接利用できるかどうかを調査します。これを検証するため、DINOv3を2D/3D分類やセグメンテーションなど、幅広い医療画像モダリティにわたる一般的な医療視覚タスクでベンチマークしました。モデルサイズや入力画像解像度を変えることで、そのスケーラビリティを体系的に分析しました。その結果、DINOv3は印象的な性能を示し、新たな強力なベースラインを確立することが明らかになりました。特に、自然画像のみで学習されたにもかかわらず、BiomedCLIPやCT-Netなどの医療特化型基盤モデルをいくつかのタスクで上回ることも確認されました。しかし、明確な限界も存在します。例えば、Whole-Slide Pathological Images(WSIs)、電子顕微鏡(EM)、陽電子放射断層撮影(PET)など、深いドメイン特化を必要とするシナリオでは、モデルの特徴が劣化します。さらに、DINOv3は医療領域においてスケーリング則に一貫して従わず、より大きなモデルや細かい特徴解像度で性能が必ずしも向上しないことが観察され、タスク間で多様なスケーリング挙動を示しました。最終的に、本研究はDINOv3を強力なベースラインとして確立し、その強力な視覚特徴が複雑な医療タスクに対する堅牢な事前知識として機能することを示しました。これにより、3D再構成におけるマルチビュー一貫性を強化するためにその特徴を活用するなど、将来の有望な研究方向が開かれます。
視覚的推論は、人間の知能の基盤をなすものであり、多様な視覚的問題を解決するために不可欠な複雑な知覚的・論理的なプロセスを包含しています。コンピュータビジョンの進歩により、さまざまな知覚タスクに対して強力なモデルが開発されてきましたが、これらを一般的な視覚的推論に活用することは依然として困難です。これまでの研究では、視覚モデルを大規模言語モデル(LLM)に教師ありファインチューニングで組み込むことで性能が向上することが示されていますが、高コストなデータ生成、慎重なデータフィルタリングへの依存、そして汎化性能の低さといった重要な課題が残されています。これらの問題を解決するため、我々はReVPTを提案し、強化学習を通じてマルチモーダルLLMの視覚ツールを推論し活用する能力を強化します。我々は、GRPOに基づく新しい強化学習アルゴリズムを導入し、4つの視覚ツールを活用して推論するモデルを訓練するように設計しました。広範な実験を通じて、我々の手法がSAT、CV-Bench、BLINK、MMStarといった知覚重視のベンチマークで最先端の性能を達成し、教師ありおよびテキストベースの強化学習ファインチューニングのベースラインを大幅に上回ることを示しました。特に、ReVPT-3BとReVPT-7Bは、CV-Benchにおいてinstructモデルをそれぞれ9.03%と9.44%上回りました。最後に、我々は広範なアブレーション研究を通じて、強化学習に基づく視覚ツールの使用に関する新たな洞察をコミュニティに提供します。我々のコードはhttps://github.com/ls-kelvin/REVPTで公開されています。
深層研究システム、すなわち複雑で多段階のタスクを解決するためのエージェント型AIは、推論の調整、オープンウェブおよびユーザーファイルの検索、ツールの使用を統合し、プランナー、コーディネーター、エグゼキューターを階層的に配置する方向に進化しています。実際には、エンドツーエンドでスタック全体をトレーニングすることは依然として非現実的であるため、ほとんどの研究では、検索、ブラウジング、コードなどのコアツールに接続された単一のプランナーをトレーニングしています。SFT(Supervised Fine-Tuning)はプロトコルの忠実性を提供しますが、模倣バイアスや露出バイアスに悩まされ、環境フィードバックを十分に活用できません。DPO(Direct Preference Optimization)などの選好整合手法は、スキーマとプロキシに依存し、オフポリシーであり、長期的なクレジット割り当てや多目的トレードオフに対して弱いです。SFTとDPOのさらなる制限は、スキーマ設計とラベル付き比較を通じて人間が定義した決定点とサブスキルに依存することです。強化学習(RL)は、閉ループのツールインタラクション研究と整合し、軌跡レベルのポリシーを最適化することで、探索、回復行動、原則に基づいたクレジット割り当てを可能にし、そのような人間の事前知識や評価者バイアスへの依存を軽減します。 この調査は、私たちの知る限り、深層研究システムのRL基盤に特化した最初のものです。DeepSeek-R1以降の研究を3つの軸に沿って体系化しています:(i) データ合成とキュレーション、(ii) 安定性、サンプル効率、長文脈処理、報酬とクレジット設計、多目的最適化、マルチモーダル統合をカバーするエージェント型研究のためのRL手法、(iii) エージェント型RLトレーニングシステムとフレームワーク。また、エージェントアーキテクチャと調整、評価とベンチマーク、最近のQA(質問応答)、VQA(視覚的質問応答)、長文合成、ドメインに基づいたツールインタラクションタスクについても取り上げています。繰り返し現れるパターンを抽出し、インフラストラクチャのボトルネックを明らかにし、RLを用いて堅牢で透明性の高い深層研究エージェントをトレーニングするための実践的なガイダンスを提供します。
マルチタスク学習(MTL)は、ファインチューニング前にデータセットを統合することで実現されることが多いが、ファインチューニングされたモデルの増加に伴い、タスク算術を介したモデル統合などの新しいアプローチが登場している。この設定における主要な課題は、タスク干渉であり、タスク数が増えるほど悪化する。本研究では、異なるタスクで訓練されたモデルを単一のモデルに統合し、すべてのタスクで高い性能を維持する手法を提案する。提案手法は、追加のラベル付きデータを必要とせず、Jensen-Shannonダイバージェンスを活用して統合プロセスを導き、タスクの重要性を自動的に調整する。既存の手法とは異なり、提案手法はタスク数が増えても堅牢であり、従来の研究を一貫して上回る性能を示す。
本研究では、研究論文をAIエージェントに変換する自動化フレームワーク「Paper2Agent」を提案します。Paper2Agentは、研究の成果物を受動的なアーティファクトから能動的なシステムへと変革し、下流での利用、採用、発見を加速します。従来の研究論文では、読者が論文のコード、データ、手法を理解し、自身の研究に適応させるために多大な労力を要し、普及と再利用に障壁が生じていました。Paper2Agentはこの課題に対処するため、論文を知識豊富な研究アシスタントとして機能するAIエージェントに自動変換します。複数のエージェントを用いて論文と関連コードベースを体系的に分析し、Model Context Protocol(MCP)サーバーを構築した後、反復的にテストを生成・実行して結果のMCPを洗練・強化します。これらの論文MCPは、チャットエージェント(例:Claude Code)に柔軟に接続でき、元の論文のツールやワークフローを呼び出しながら、自然言語を通じて複雑な科学的クエリを実行します。詳細なケーススタディを通じて、Paper2Agentが信頼性と能力を備えた論文エージェントを効果的に作成できることを実証します。Paper2Agentは、AlphaGenomeを活用してゲノム変異を解釈するエージェントや、ScanPyとTISSUEに基づいて単一細胞および空間トランスクリプトミクス解析を実行するエージェントを作成しました。これらの論文エージェントが元の論文の結果を再現し、新規のユーザークエリを正しく実行できることを検証します。静的な論文を動的でインタラクティブなAIエージェントに変えることで、Paper2Agentは知識普及の新たなパラダイムを導入し、AI共科学者の協力的なエコシステムの基盤を築きます。
Vision-Language Models(VLM)は多様な視覚タスクにおいて顕著な成功を収めているが、複雑な視覚環境ではその性能が低下する。既存の改善手法は追加のトレーニングを必要とするか、外部のセグメンテーションツールに依存するか、粗い粒度で動作するものが多く、VLMの内在的な能力を見落としている。このギャップを埋めるため、我々はVLMの注意パターンを調査し、以下の発見を得た:(1) 視覚的複雑さは注意エントロピーと強く相関し、推論性能に負の影響を与える。(2) 注意は浅い層でのグローバルなスキャンから深い層での集中した収束へと段階的に洗練され、その収束度は視覚的複雑さによって決定される。(3) 理論的に、一般的なクエリとタスク固有のクエリ間の注意マップのコントラストが、視覚信号を意味信号と視覚ノイズ成分に分解することを証明した。これらの知見に基づき、我々はContrastive Attention Refinement for Visual Enhancement(CARVE)を提案する。これはピクセルレベルでの注意のコントラストを通じてタスク関連の視覚信号を抽出するトレーニング不要の手法である。大規模な実験により、CARVEが一貫して性能を向上させ、オープンソースモデルで最大75%の改善を達成することが実証された。本研究は、視覚的複雑さと注意メカニズムの相互作用に関する重要な洞察を提供し、コントラスト注意を用いた視覚推論の改善に向けた効率的な道筋を示すものである。
最近、統一されたマルチモーダル理解と生成モデルは、画像生成能力において大幅な進歩を遂げています。しかし、GPT-4oのように理解と生成を密接に連携させたシステムと比較すると、指示の追従や詳細の保持において大きな隔たりが残っています。最近のインタリーブ推論の進展に触発され、私たちはそのような推論がテキストから画像(T2I)生成をさらに改善できるかどうかを探求します。本論文では、テキストベースの思考と画像合成を交互に行う「インタリーブ推論生成(IRG)」というフレームワークを紹介します。このモデルは、まずテキストベースの思考を行って初期画像を導き出し、その結果を反映して細部の詳細、視覚的品質、美学を洗練させながら意味を保持します。IRGを効果的に訓練するために、私たちは「インタリーブ推論生成学習(IRGL)」を提案します。これは2つのサブゴールを目指します:(1)初期の思考と生成段階を強化してコアコンテンツと基本品質を確立すること、(2)高品質なテキスト反映とその洗練を後続の画像に忠実に実装することです。私たちはIRGL-300Kというデータセットをキュレーションし、テキストベースの思考と完全な思考-画像軌跡をカバーする6つの分解された学習モードに整理しました。インタリーブされたテキスト-画像出力を自然に発する統一された基盤モデルから始め、2段階のトレーニングを行います。最初に堅牢な思考と反映を構築し、その後、完全な思考-画像軌跡データでIRGパイプラインを効率的にチューニングします。広範な実験により、GenEval、WISE、TIIF、GenAI-Bench、OneIG-ENにおいて5~10ポイントの絶対的な向上を示し、視覚的品質と細部の忠実度においても大幅な改善が見られました。コード、モデルウェイト、データセットは以下のURLで公開されます:https://github.com/Osilly/Interleaving-Reasoning-Generation。
UniVerse-1を紹介します。これは、Veo-3に似た統合モデルであり、音声と映像を同時に生成することが可能です。トレーニング効率を向上させるため、ゼロからのトレーニングを回避し、代わりに「エキスパートの結合(SoE)」技術を採用しました。このアプローチでは、事前にトレーニングされた映像生成と音楽生成のエキスパートモデルの対応するブロックを深く融合させ、それらの基盤となる能力を最大限に活用します。環境音や音声と映像コンテンツの正確なアノテーションと時間的整合性を確保するため、必要なトレーニングデータを処理し、トレーニングプロセス中にラベルを生成するオンラインアノテーションパイプラインを開発しました。この戦略により、テキストベースのアノテーションの不整合による性能低下を回避しています。これらの技術の相乗効果により、約7,600時間の音声-映像データでファインチューニングされた当社のモデルは、環境音生成において音声と映像がよく調和した結果を生成し、音声生成においても強力な整合性を示します。提案手法を体系的に評価するため、新しいベンチマークデータセットであるVerse-Benchを導入しました。音声-映像生成の研究を進め、Veo3のような最先端モデルとの性能差を埋めるため、当社のモデルとコードを公開します。この貢献が広範な研究コミュニティに役立つことを願っています。プロジェクトページ: https://dorniwang.github.io/UniVerse-1/。
テキストから画像(T2I)生成は、テキストプロンプトから画像を合成することを目的としており、プロンプトは何を示すべきかを指定すると同時に、何を推論できるかを暗示するものであり、これらは構成(composition)と推論(reasoning)という2つの核心的な能力に対応しています。しかし、T2Iモデルの推論能力が構成を超えて進化するにつれ、既存のベンチマークでは、これらの能力を包括的かつ詳細に評価する際に明らかな限界が露呈しています。また、これらの進化により、モデルはより複雑なプロンプトを処理できるようになりましたが、現在のベンチマークは低いシーン密度や単純な一対一の推論に限定されたままです。これらの限界を解決するため、我々はT2I-CoReBenchを提案します。これは、T2Iモデルの構成と推論の両方の能力を評価するための包括的かつ複雑なベンチマークです。包括性を確保するため、構成をシーングラフ要素(インスタンス、属性、関係)に基づいて構造化し、推論を哲学的な推論フレームワーク(演繹的、帰納的、仮説的)に基づいて整理し、12次元の評価分類を策定しました。複雑性を高めるため、現実世界のシナリオに内在する複雑さを反映し、各プロンプトを高い構成密度で構成し、推論のためには多段階の推論を組み込みました。また、各プロンプトに対応するチェックリストを作成し、意図した各要素を独立して評価するための個別のYes/No質問を指定し、細粒度かつ信頼性の高い評価を可能にしました。統計的には、我々のベンチマークは1,080の挑戦的なプロンプトと約13,500のチェックリスト質問で構成されています。27の最新T2Iモデルを対象とした実験では、複雑な高密度シナリオにおける構成能力が依然として限定的である一方、推論能力はさらに遅れており、プロンプトから暗黙の要素を推論する際にすべてのモデルが苦戦する重要なボトルネックとなっています。プロジェクトページ: https://t2i-corebench.github.io/。
大規模言語モデル(LLMs)を自動定理証明に統合することは非常に有望であるが、訓練時の強化学習(RL)と推論時の計算資源の両方のスケーリングにおける課題によって根本的に制約されている。本論文では、この二重のスケーリング問題に対処するために設計されたシステム、BFS-Prover-V2を紹介する。我々は二つの主要な革新を提示する。第一に、訓練時にLLMステップ証明器の性能を継続的に向上させるための、新しいマルチターンオフポリシーRLフレームワークを提案する。このフレームワークは、AlphaZeroの原則にインスパイアされ、適応的な戦術レベルのデータフィルタリングと定期的な再訓練を特徴とする多段階のエキスパートイテレーションパイプラインを活用し、LLMベースのエージェントにおける長期的なRLの性能頭打ちを克服する。第二の革新は、推論時に推論能力をスケールするプランナー強化型マルチエージェント検索アーキテクチャである。このアーキテクチャは、高レベルのプランナーとして一般的な推論モデルを使用し、複雑な定理を一連のより単純なサブゴールに反復的に分解する。この階層的アプローチにより、検索空間が大幅に削減され、共有証明キャッシュを活用して並列証明エージェントのチームが効率的に協力できるようになる。我々は、この二重のスケーリングアプローチが、確立された形式数学ベンチマークで最先端の結果をもたらすことを実証する。BFS-Prover-V2は、MiniF2FとProofNetのテストセットでそれぞれ95.08%と41.4%を達成した。形式数学の領域で実証されているが、本論文で提示されたRLと推論技術は、長期的なマルチターン推論と複雑な検索を必要とする他の領域にも適用可能であり、広範な関心を集めるものである。
大規模言語モデル(LLM)に複雑で連鎖的な推論能力とツール使用能力を備えさせることは、エージェント型AI研究における重要な焦点となっており、特に最近の推論指向(「思考」)モデルの進展に伴いその重要性が増しています。こうした能力は、多くの重要なアプリケーションを実現する鍵となります。その一例が「ディープリサーチ(DR)」であり、これは多数の情報源にわたる広範な検索と推論を必要とします。本論文では、最小限のウェブクローリングとPythonツール統合を特徴とする、DR向けのネイティブな自律型シングルエージェントモデルの開発に焦点を当てています。マルチエージェントシステムでは、エージェントが事前に定義された役割を担い、静的なワークフローの各ステップで何をすべきかを指示されますが、自律型シングルエージェントは、手動の指示なしに文脈に基づいて次のアクションを動的に決定します。これまでの研究では、ベースモデルや指示チューニングされたLLMのトレーニング手法が提案されてきましたが、我々は推論最適化モデルの継続的強化学習(RL)に焦点を当て、エージェントのスキルをさらに向上させながら推論能力を維持することを目指しています。この目的に向けて、我々は完全に合成データを用いたシンプルなRL手法を提案し、これを様々なオープンソースLLMに適用しました。我々の最良のバリアントであるSFR-DR-20Bは、Humanity's Last Examベンチマークで最大28.7%のスコアを達成しました。さらに、我々の手法に関するより深い洞察を提供するために、重要な分析実験を実施しました。
テストタイムスケーリングは、モデルが長い推論チェーンを生成できるようにすることで推論時の計算量を増やし、多くの領域で強力なパフォーマンスを示しています。しかし、本研究では、このアプローチが、高い事実の正確性と低い虚構率が不可欠な知識集約型タスクにはまだ効果的でないことを示します。私たちは、12の推論モデルを用いて2つの知識集約型ベンチマークでテストタイムスケーリングの包括的な評価を行いました。その結果、テストタイムの計算量を増やしても一貫して精度が向上するわけではなく、多くの場合、虚構が増えることが明らかになりました。次に、拡張された推論が虚構の挙動にどのように影響するかを分析しました。その結果、虚構の減少は、多くの場合、事実の想起が改善されたためではなく、モデルがより考えた後に回答を控えることによるものであることがわかりました。逆に、一部のモデルでは、長い推論が以前は回答されなかった質問への試みを促し、その多くが虚構につながります。ケーススタディでは、拡張された推論が確証バイアスを誘発し、過信による虚構を引き起こす可能性があることが示されています。これらの制限にもかかわらず、思考を有効にすることは、思考を無効にする場合と比較して依然として有益であることが観察されました。コードとデータはhttps://github.com/XuZhao0/tts-knowledgeで公開されています。
大規模言語モデル(LLMs)を様々なアプリケーションに統合する中で、構造化された信頼性の高い応答の必要性が高まっています。検索拡張生成(RAG)システムにおける主要な課題は、出力が期待される形式に沿っていることを保証しつつ、幻覚(hallucination)を最小限に抑えることです。本研究では、RAGシステムにおけるガイド付きデコーディングの役割を検証し、アウトライン、XGrammar、LM Format Enforcerという3つの手法を、異なるマルチターンプロンプティング設定(0ターン、1ターン、2ターン)で比較します。成功率、幻覚率、出力品質を評価することで、これらの手法の性能と適用可能性に関する洞察を提供します。我々の調査結果は、マルチターンインタラクションがガイド付きデコーディングにどのように影響を与えるかを明らかにし、特定のユースケースにおける手法選択に役立つ予期せぬ性能の変動を発見しました。この研究は、RAGシステムにおける構造化出力生成の理解を進め、LLMの展開に関する理論的洞察と実践的なガイダンスを提供します。
オンラインミームにおけるブラックユーモアは、その暗黙的でセンシティブかつ文化的文脈に依存する性質から、独特の課題を提起します。多モーダルコンテンツにおけるブラックユーモア検出のためのリソースと手法の不足に対処するため、我々は4,379件のRedditミームからなる新規データセットを導入しました。このデータセットは、ブラックユーモアの有無、ターゲットカテゴリ(性別、メンタルヘルス、暴力、人種、障害、その他)、および3段階の強度評価(軽度、中度、重度)でアノテーションされています。このリソースを基盤として、我々は推論強化型フレームワークを提案します。このフレームワークでは、まず大規模視覚言語モデル(VLM)を使用して各ミームの構造化された説明を生成します。ロールリバーサル・セルフループを通じて、VLMは作者の視点を採用し、説明を反復的に洗練させ、完全性と整合性を確保します。次に、OCR転写文と自己洗練された推論からテキスト特徴を抽出し、視覚特徴はビジョントランスフォーマーを使用して取得します。Tri-stream Cross-Reasoning Network(TCRNet)は、テキスト、画像、推論の3つのストリームをペアワイズアテンションメカニズムで融合し、分類のための統一された表現を生成します。実験結果は、我々のアプローチがブラックユーモア検出、ターゲット識別、強度予測の3つのタスクにおいて強力なベースラインを上回ることを示しています。データセット、アノテーション、コードは公開され、多モーダルユーモア理解とコンテンツモデレーションのさらなる研究を促進します。コードとデータセットは以下で利用可能です: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
Llama-GENBA-10Bを紹介します。これは、大規模言語モデルにおける英語中心のバイアスに対処するための三言語基盤モデルです。Llama 3.1-8Bを基盤として構築され、100億パラメータにスケールアップされたLlama-GENBA-10Bは、1640億トークン(英語820億、ドイツ語820億、バイエルン語8000万)で継続的に事前学習され、リソースのバランスを取りながら英語の支配を防ぎます。ドイツ語NLPコミュニティを主な対象としつつ、低リソース言語であるバイエルン語の促進も図っています。開発では、以下の4つの課題に取り組みました:(1) バイエルン語の不足にもかかわらず多言語コーパスをキュレーションすること、(2) 英語、ドイツ語、バイエルン語の統一トークナイザーを作成すること、(3) 言語間転移のためのアーキテクチャと言語比率のハイパーパラメータを最適化すること、(4) ドイツ語のベンチマークをバイエルン語に翻訳することで、初の標準化された三言語評価スイートを確立することです。評価の結果、Llama-GENBA-10Bは強力な言語間性能を発揮し、ファインチューニングされたバリアントはApertus-8B-2509とgemma-2-9bをバイエルン語で上回り、この言語におけるクラス最高のモデルとしての地位を確立しました。また、英語ではEuroLLMを上回り、ドイツ語では同等の結果を達成しました。Cerebras CS-2でのトレーニングは、エネルギー使用量を記録しながら大規模な多言語事前学習を効率的に行い、低リソース言語を統合する包括的な基盤モデルの青写真を提供しています。
ドラッグベースの画像編集は、直感的な画像操作のための強力なパラダイムとして登場しました。しかし、既存のアプローチは主に生成モデルの潜在空間を操作することに依存しており、精度の制限、フィードバックの遅延、モデル固有の制約といった課題があります。そこで、我々はInpaint4Dragを提案します。これは、ドラッグベースの編集をピクセル空間における双方向ワープと画像インペインティングに分解する新しいフレームワークです。物理世界における弾性物体の変形に着想を得て、画像領域をユーザー操作下で自然な形状を維持する変形可能な材料として扱います。我々の手法は、512x512解像度においてリアルタイムのワーププレビュー(0.01秒)と効率的なインペインティング(0.3秒)を実現し、1回の編集に数分を要する既存の手法と比較して、インタラクション体験を大幅に改善します。ドラッグ入力を直接標準的なインペインティング形式に変換することで、我々のアプローチはアーキテクチャの変更を必要とせずに、あらゆるインペインティングモデルのためのユニバーサルアダプタとして機能し、インペインティング技術の将来の進化を自動的に継承します。広範な実験により、我々の手法がリアルタイム性能を維持しつつ、優れた視覚品質と精密な制御を実現することを示しています。プロジェクトページ: https://visual-ai.github.io/inpaint4drag/
本ポジションペーパーでは、急速に進化するAIの能力と遅れがちな安全性の進展との間に存在する持続的なギャップに取り組む。既存のパラダイムは、「AIを安全にする」アプローチと「安全なAIを作る」アプローチに分かれる。前者は事後的アライメントやガードレールを適用するが、脆弱で反応的である。後者は本質的な安全性を重視するが、開放的な環境での予期せぬリスクに対処するのに苦労する。そこで我々は、生物学的免疫にインスパイアされた「安全なAIを作る」パラダイムの新たな定式化として、安全性を動的で敵対的かつ継続的な学習プロセスとする「共進化による安全(safe-by-coevolution)」を提案する。このビジョンを実践するため、既知の脅威に対する耐性と予期せぬリスクに対する回復力を統合した実用的なフレームワークとして、R^2AI(Resistant and Resilient AI)を導入する。R^2AIは、高速および低速の安全モデル、安全性風洞による敵対的シミュレーションと検証、安全性と能力の共進化を導く継続的フィードバックループを統合する。このフレームワークは、動的な環境での継続的な安全性を維持するためのスケーラブルで先見的な道筋を提供し、AIがAGIやASIに向けて進化する中で、近未来の脆弱性と長期的な存続的リスクの両方に対処するものであると主張する。
Vision-Language-Action (VLA) モデルは、新しいタスク、モダリティ、環境に迅速に適応できる汎用エージェントを実現するための有望なアプローチである。しかし、VLAを解釈し制御する手法は、運動学、力学、制御の明示的なモデルに基づいた古典的なロボティクスパイプラインに比べて大きく遅れている。この機構的洞察の欠如は、ロバスト性と説明可能性が重要な現実世界のロボティクスにおいて、学習されたポリシーを展開する上での中心的な課題である。大規模言語モデルの機構的解釈可能性の進展に触発され、我々はVLAの内部表現を通じてその動作を解釈し制御するための初のフレームワークを提案する。これにより、推論時にモデルの動作に直接介入することが可能となる。トランスフォーマー層内のフィードフォワード活性化をトークン埋め込み基底に投影し、速度や方向などのスパースな意味方向を特定し、それらが行動選択と因果的に結びついていることを示す。これらの知見を活用し、ファインチューニング、報酬信号、環境相互作用を必要とせずに、リアルタイムで動作を調整する汎用の活性化制御手法を導入する。この手法を、最近のオープンソースVLAであるPi0とOpenVLAで評価し、シミュレーション(LIBERO)および物理ロボット(UR5)上でのゼロショット行動制御を実証する。本研究は、具現化されたVLAの解釈可能な構成要素を体系的に制御に活用できることを示し、ロボティクスにおける透明かつ制御可能な基盤モデルの新たなパラダイムを確立する。
スマートフォンやコンピュータなど様々なプラットフォームにおけるGUIエージェントの効率を向上させるため、柔軟なGUI操作と効率的なショートカット(例:API、ディープリンク)を組み合わせたハイブリッドパラダイムが有望な方向性として登場しています。しかし、これらのハイブリッドエージェントを体系的にベンチマークするためのフレームワークはまだ十分に検討されていません。このギャップを埋める第一歩として、我々はMAS-Benchを紹介します。これは、特にモバイル領域に焦点を当てたGUI-ショートカットハイブリッドエージェントの評価を先駆けるベンチマークです。MAS-Benchは、事前定義されたショートカットを使用するだけでなく、再利用可能で低コストのワークフローを発見・作成することで、エージェントが自律的にショートカットを生成する能力を評価します。11の実世界アプリケーションにわたる139の複雑なタスク、88の事前定義されたショートカット(API、ディープリンク、RPAスクリプト)の知識ベース、および7つの評価指標を特徴としています。タスクはGUIのみの操作で解決可能ですが、ショートカットをインテリジェントに組み込むことで大幅に加速できます。実験では、ハイブリッドエージェントがGUIのみのエージェントよりも大幅に高い成功率と効率を達成することが示されました。この結果は、エージェントのショートカット生成能力を評価する我々の方法の有効性も示しています。MAS-Benchは重要な評価ギャップを埋め、より効率的で堅牢なインテリジェントエージェントを作成するための将来の進歩のための基盤となるプラットフォームを提供します。
CLIPのような視覚言語モデル(VLM)は、多様なアプリケーションにおいて印象的なゼロショットおよび少数ショット学習能力を示している。しかし、これらのモデルを新しい細粒度のドメインに適応させることは、プロンプトエンジニアリングへの依存やモデル全体のファインチューニングの高コストにより依然として困難である。既存の適応手法は、プロンプトトークンやアダプタモジュールなどの拡張コンポーネントに依存しており、適応品質を制限し、モデルを不安定にし、事前学習中に獲得された豊富な知識を損なう可能性がある。本研究では、CLIP-SVDを提案する。これは、特異値分解(SVD)を活用してCLIPの内部パラメータ空間を変更し、追加モジュールを注入することなく多モーダルかつパラメータ効率的な適応を実現する新しい手法である。具体的には、CLIPパラメータ行列の特異値のみをファインチューニングし、基底ベクトルを再スケーリングしてドメイン適応を行う一方で、事前学習済みモデルを保持する。この設計により、モデルの総パラメータのわずか0.04%を使用して適応性能を向上させ、その汎化能力をより良く保持することが可能となる。CLIP-SVDは、11の自然データセットと10の生物医学データセットにおいて、従来の手法を上回る分類精度と少数ショット設定下での汎化性能を達成し、最先端の結果を示す。さらに、自然言語ベースのアプローチを活用してCLIP適応の有効性と動態を分析し、CLIP-SVDの解釈可能性を可能にする。コードはhttps://github.com/HealthX-Lab/CLIP-SVDで公開されている。
高品質で論理的に整合性のあるデータの不足は、大規模言語モデル(LLMs)の数学的推論能力を向上させる上で重大なボトルネックとなっています。本研究は、数十年にわたる自動定理証明の研究をスケーラブルなデータエンジンに変換することで、この課題に取り組みます。エラーの発生しやすいLLMsやLeanやIsabelleのような複雑な証明支援システムの構文に依存するのではなく、我々のフレームワークはE-proverの飽和機能をTPTP公理ライブラリに適用し、大規模で保証された有効性を持つ定理のコーパスを導出します。我々のパイプラインは原理的でシンプルです:公理を飽和させ、「興味深い」定理をフィルタリングし、タスクを生成します。LLMsをループに含めないことで、構成的に事実誤認を排除します。この純粋に記号的なデータは、難易度が制御された3つの課題に変換されます:含意検証、前提選択、証明再構築です。最先端モデルに対するゼロショット実験では、深い構造的推論を必要とするタスクにおいて性能が著しく低下するという明確な弱点が明らかになりました。我々のフレームワークは、このギャップを測定する診断ツールと、それを解決するためのスケーラブルな記号的トレーニングデータの両方を提供します。コードとデータは公開されています。 https://github.com/sileod/reasoning_core https://hf.co/datasets/reasoning-core/rc1
LiDAR点群の位置合わせは、ロボットの知覚とナビゲーションにおいて基本的な課題である。しかし、幾何学的に退化した環境や狭い環境では、位置合わせ問題が悪条件となり、解が不安定になり精度が低下する。既存の手法はこれらの問題に対処しようと試みているが、核心的な課題である悪条件の正確な検出、解釈、解決に至っておらず、検出の見落としや解の破損を引き起こしている。本研究では、DCRegという原則に基づいたフレームワークを提案し、三つの統合された革新を通じて悪条件の位置合わせ問題を体系的に解決する。まず、DCRegはヘッセ行列に対するシューア補分解を用いることで、信頼性の高い悪条件の検出を実現する。この技術により、位置合わせ問題を回転と並進のクリーンな部分空間に分離し、従来の分析では隠されていた退化パターンを明らかにする。次に、これらのクリーンな部分空間内で、数学的な固有空間と物理的な運動方向との間に明示的なマッピングを確立する定量的な特性評価技術を開発し、どの特定の運動が制約を欠いているかについての実践的な洞察を提供する。最後に、このクリーンな部分空間を活用して、特定された悪条件の方向のみを選択的に安定化し、観測可能な空間内のすべての良好に制約された情報を保持する新しい前処理法を設計する。これにより、物理的に解釈可能な単一のパラメータを用いた前処理付き共役勾配法による効率的かつロバストな最適化が可能となる。広範な実験により、DCRegが多様な環境において、最先端の手法と比較して少なくとも20%~50%の位置精度の向上と5~100倍の高速化を達成することが示された。我々の実装はhttps://github.com/JokerJohn/DCRegで公開される予定である。