翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルの性能向上を目的として、自己反省と強化学習を組み合わせた手法を探求します。モデルが誤答した際に、より優れた自己反省を生成するよう促すことで、合成データの生成が困難で二値フィードバックしか得られない状況においても、複雑で検証可能なタスクを解決する能力が向上することを実証します。我々のフレームワークは2段階で動作します。まず、与えられたタスクに失敗した際に、モデルは前回の試みを分析する自己反省コメントを生成します。次に、その自己反省を文脈に含めた状態で、再度タスクに挑戦します。その後の試みが成功した場合、自己反省フェーズで生成されたトークンが報酬として与えられます。実験結果では、様々なモデルアーキテクチャにおいて大幅な性能向上が見られ、数式記述では最大34.7%、関数呼び出しでは18.1%の改善が確認されました。特に、ファインチューニングされた小規模モデル(15億から70億パラメータ)は、同じファミリーの10倍規模のモデルを上回る性能を示しました。この新たなパラダイムは、限定的な外部フィードバックのもとで困難なタスクに対して自己改善可能な、より有用で信頼性の高い言語モデルを実現するための有望な道筋となります。
既存の統一モデルは、視覚言語理解とテキストから画像への生成において強力な性能を発揮していますが、ユーザーが幅広いアプリケーションで切望している画像知覚と操作タスクの探索には限界があります。最近、OpenAIは包括的な画像知覚と操作のための強力なGPT-4o-Imageモデルをリリースし、表現力の高さからコミュニティの関心を集めています。私たちが慎重に設計した実験におけるGPT-4o-Imageの性能を観察した結果、GPT-4o-ImageはVAEではなくセマンティックエンコーダーによって抽出された特徴を活用していると推測されます。一方で、VAEは多くの画像操作モデルにおいて不可欠なコンポーネントとされています。このような興味深い観察に触発され、強力な視覚言語モデルとコントラスティブセマンティックエンコーダーが提供するセマンティック特徴に基づいた統一生成フレームワーク「UniWorld」を提案します。その結果、BAGELのデータ量のわずか1%を使用して強力な統一モデルを構築し、画像編集ベンチマークで一貫してBAGELを上回る性能を発揮しました。UniWorldはまた、競争力のある画像理解と生成能力を維持し、複数の画像知覚タスクにおいて強力な性能を達成しています。私たちは、モデルウェイト、トレーニングおよび評価スクリプト、データセットを含むモデルを完全にオープンソース化しています。
近年のVision Language Models(VLM)の進展により、対話型エージェントタスクへの適用が拡大しているが、既存のベンチマークは単一エージェントまたはテキストのみの環境に限定されている。一方、現実世界のシナリオでは、複数のエージェントが視覚的・言語的な文脈の中で相互作用することが多く、マルチモーダルな観察と戦略的な相互作用の両方に課題が存在する。このギャップを埋めるため、我々はVisual Strategic Bench(VS-Bench)を提案する。これは、マルチエージェント環境における戦略的推論と意思決定を評価するマルチモーダルベンチマークである。VS-Benchは、協力的、競争的、および混合動機の相互作用を含む8つの視覚的環境で構成され、エージェントが他者の将来の行動を予測し、長期的な目標を最適化する能力を評価するように設計されている。我々は、次の行動予測の精度による戦略的推論のオフライン評価と、正規化されたエピソードリターンによる意思決定のオンライン評価という2つの補完的な評価次元を考慮する。14の主要なVLMに対する大規模な実験により、現在のモデルと最適な性能との間に大きなギャップがあることが明らかになり、最高のモデルでも47.8%の予測精度と24.3%の正規化リターンしか達成できなかった。さらに、マルチモーダル観察、テスト時のスケーリング、社会的行動、およびVLMエージェントの失敗事例について詳細な分析を行った。評価を標準化し、既存モデルの限界を明らかにすることで、我々はVS-Benchが戦略的マルチモーダルエージェントの将来の研究の基盤となることを期待している。コードとデータはhttps://vs-bench.github.ioで公開されている。
検証可能な報酬を用いた強化学習(RLVR)で訓練された視覚言語モデル(VLM)は、テスト時の計算リソースを効果的にスケーリングする点で顕著な進展を見せています。本研究では、合成されたRLデータがRLVRをさらに改善する方法を探ります。そのために、推論指向のRLトレーニングにおける自動データスケーリングのためのスケーラブルで保証されたパイプラインであるSynthRLを提案します。SynthRLは3つの主要な段階で構成されます:(1)適切な分布を持つシード質問を選択、(2)元の回答を保持しながらより挑戦的なバリエーションに拡張、(3)ほぼ完璧な正確性と難易度の向上を保証する検証段階です。我々の実証実験は、SynthRLのスケーラビリティと有効性を示しています。MMK12データセットに適用した場合、SynthRLは約8Kのシードサンプルから3.3K以上の検証可能で挑戦的な質問を合成します。我々の合成データで訓練されたモデルは、5つのドメイン外視覚数学推論ベンチマークで一貫した向上を示し、シードデータのみで訓練されたベースラインモデルを大幅に上回りました。特に、詳細な分析により、最も挑戦的な評価サンプルにおいて向上がより顕著であることが明らかになり、SynthRLがより深く複雑な推論パターンを引き出す効果を強調しています。
VLMを活用したGUIエージェントの構築における主要な課題の一つは、視覚的グラウンディング、すなわち視覚的コンテンツとテキストプランに基づいてアクション実行のための適切な画面領域を特定することです。既存の研究の多くはこれをテキストベースの座標生成タスクとして定式化しています。しかし、これらのアプローチにはいくつかの制限があります:空間的・意味的アラインメントの弱さ、曖昧な監督ターゲットの処理能力の欠如、画面座標の密な性質とVision Transformersのようなモデルが抽出する粗いパッチレベルの視覚的特徴とのミスマッチなどです。本論文では、座標フリーのGUIグラウンディングのためのVLMベースの手法であるGUI-Actorを提案します。GUI-Actorの核心は、専用の<ACTOR>トークンを関連するすべての視覚的パッチトークンとアラインメントすることを学習するアテンションベースのアクションヘッドを導入し、モデルが単一のフォワードパスで一つ以上のアクション領域を提案できるようにすることです。これに伴い、アクション実行のために提案された候補から最も妥当なアクション領域を評価・選択するグラウンディング検証器をさらに設計します。広範な実験により、GUI-Actorが複数のGUIアクショングラウンディングベンチマークにおいて従来の最先端手法を上回り、未見の画面解像度やレイアウトに対する一般化能力が向上していることが示されました。特に、GUI-Actor-7BはScreenSpot-ProにおいてUI-TARS-72B(38.1)を上回り、Qwen2-VLをバックボーンとした場合に40.7、Qwen2.5-VLをバックボーンとした場合に44.6のスコアを達成しました。さらに、検証器を組み込むことで、新たに導入されたアクションヘッド(7Bモデルで約100Mパラメータ)のみをファインチューニングし、VLMバックボーンを凍結したままでも、従来の最先端モデルに匹敵する性能を達成できることがわかりました。これは、GUI-Actorが基盤となるVLMに汎用的な強みを損なうことなく効果的なグラウンディング能力を付与できることを示しています。
ビジョン・ランゲージモデル(VLMs)はマルチモーダル理解において顕著な進歩を示してきたが、科学的推論能力については十分に評価されていない。現在のマルチモーダルベンチマークは、主に一般的な画像理解やテキスト駆動型の推論を評価するものであり、視覚的証拠の分析とドメイン固有の知識の統合を必要とする本物の科学的文脈が欠けている。このギャップを埋めるため、我々はCSVQAを提案する。これは、ドメインに基づいた視覚的質問応答を通じて科学的推論を評価するために特別に設計された診断型マルチモーダルベンチマークである。我々のベンチマークは、多様なSTEM分野にわたる1,378の慎重に構築された質問-回答ペアを特徴としており、それぞれがドメイン知識、視覚的証拠の統合、および高次推論を要求する。従来のマルチモーダルベンチマークと比較して、CSVQAは現実世界の科学的コンテンツと複雑な推論に重点を置いている。さらに、我々は、モデルの予測がキュレートされた説明に基づく有効な中間推論ステップによって裏付けられているかどうかを体系的に評価するための厳密な評価プロトコルを提案する。このベンチマークにおける15のVLMsの包括的評価は、トップランクのプロプライエタリモデルでさえ49.6%の精度しか達成できないという顕著な性能差を明らかにした。この経験的証拠は、VLMsの科学的推論能力を向上させるための緊急の必要性を強調している。我々のCSVQAはhttps://huggingface.co/datasets/Skywork/CSVQAで公開されている。
空間推論は認知心理学の重要な側面であり、現在の視覚言語モデル(VLM)にとって主要なボトルネックとなっています。これまで、左右の区別、遠近の判断、物体の数え上げといった基本的な空間関係の理解を評価または改善するための研究が数多く行われてきましたが、これらのタスクは空間推論の最も基礎的なレベルに過ぎません。本研究では、認知心理学に基づいた包括的で挑戦的な空間推論ベンチマーク「OmniSpatial」を提案します。OmniSpatialは、動的推論、複雑な空間論理、空間的相互作用、視点取得の4つの主要カテゴリと50の細分化されたサブカテゴリを網羅しています。インターネットデータのクローリングと慎重な手動アノテーションを通じて、1,500以上の質問-回答ペアを構築しました。広範な実験により、オープンソースおよびクローズドソースのVLM、ならびに既存の推論および空間理解モデルが、包括的な空間理解において重大な制限を示すことが明らかになりました。さらに、失敗事例を分析し、今後の研究の可能性のある方向性を提案します。
近年の高度な大規模推論モデル(LRM)は、拡張された連鎖思考(CoT)推論を活用して複雑なタスクを解決し、最先端の性能を達成しています。しかし、その成功にもかかわらず、重要な問題が明らかになりました。LRMによって解決される単純なタスクの大部分は、非推論型の大規模言語モデル(LLM)によっても、はるかに少ないトークン数で解決可能であり、複雑な推論が常に必要とは限らないことが示唆されています。この問題に対処するため、我々はLRMの推論軌跡を体系的に分析し、特定されたパラダイムとLLM-Judgeを活用してこれらの軌跡を「冗長推論」または「本質的推論」に分類する方法を提示します。さらに、OThink-R1という手法を導入し、論理的な妥当性を保ちながら冗長な推論ステップを削減します。OThink-R1は、単純な問題に対しては非思考モード(高速思考)を動的に採用し、複雑な問題に対しては慎重な思考(低速思考)を適用します。数学的タスクや質問応答タスクにおける実験により、OThink-R1が精度を損なうことなく推論の冗長性を平均で約23%削減することが実証され、効率的な推論モデルのための実践的なガイドラインを提供します。コードはhttps://github.com/AgenticIR-Lab/OThink-R1で公開されています。
マルチモーダル大規模言語モデル(MLLMs)は近年急速な発展を遂げてきた。しかし、金融分野においては、効果的で専門的なマルチモーダル評価データセットが著しく不足している。金融分野におけるMLLMsの発展を推進するため、我々はFinMMEを導入した。FinMMEは、18の金融分野と6つの資産クラスにわたる11,000以上の高品質な金融研究サンプルを網羅し、10の主要なチャートタイプと21のサブタイプを特徴としている。データ品質は20人のアノテーターと慎重に設計された検証メカニズムを通じて確保されている。さらに、幻覚ペナルティと多次元能力評価を組み込んだ評価システムであるFinScoreを開発し、偏りのない評価を提供する。広範な実験結果は、GPT-4oのような最先端のモデルでさえFinMMEでのパフォーマンスが不十分であることを示しており、その挑戦的な性質を浮き彫りにしている。このベンチマークは高いロバスト性を示し、異なるプロンプト下での予測変動は1%未満であり、既存のデータセットと比較して優れた信頼性を実証している。我々のデータセットと評価プロトコルは、https://huggingface.co/datasets/luojunyu/FinMME および https://github.com/luo-junyu/FinMME で利用可能である。
マルチモーダル大規模言語モデル(MLLMs)の著しい進歩により、それらを脚式ロボットなどの物理的実体に拡張することへの関心が高まっています。これには通常、MLLMsがマルチモーダル理解能力を習得するだけでなく、視覚的空間推論と物理的相互作用能力を統合することが求められます。しかし、既存の手法ではこれらの能力を統一することが困難です。本論文では、現実世界における知覚、推論、制御を統合するためのフレームワークであるVisual Embodied Brain(VeBrain)を提案します。VeBrainは、ロボット制御を2D視覚空間における一般的なテキストベースのMLLMタスクに再定式化し、異なるタスクの目的とマッピング空間を統一します。さらに、MLLMsからのテキスト制御信号を実ロボットの動作ポリシーに変換するための新しいロボットアダプタを提案します。データの観点から、VeBrainの様々な能力を網羅した高品質な指示データセットであるVeBrain-600kを導入します。VeBrain-600kでは、数百時間をかけてデータを収集、キュレーション、注釈し、マルチモーダル連鎖思考(CoT)を採用して異なる能力を単一の会話に統合します。13のマルチモーダルベンチマークと5の空間知能ベンチマークにおける広範な実験により、VeBrainがQwen2.5-VLなどの既存のMLLMsを凌駕する性能を示すことが実証されました。脚式ロボットやロボットアームに展開した場合、VeBrainは既存の手法と比較して強い適応性、柔軟性、および構成能力を示します。例えば、Qwen2.5-VLと比較して、VeBrainはMMVetで+5.6%の大幅な向上を達成するだけでなく、脚式ロボットタスクでも平均+50%の向上を実現しました。
Diffusion LLMは、従来の自己回帰型LLMに代わる有望な選択肢として登場し、実行時の効率性向上に大きな可能性を提供しています。しかし、既存のDiffusionモデルは、正規表現などのユーザー指定の形式的制約を確実に強制する能力を欠いており、固定スキーマのJSON生成など構造化された出力を必要とするタスクにおいて信頼性が低いという課題があります。自己回帰モデルがトークンを逐次的に生成するのに対し、Diffusion LLMはトークンのブロックを並列に予測します。この並列性により、逐次的なトークン予測を前提とした従来の制約付きデコードアルゴリズムは、真の出力分布を維持するのに効果的ではありません。この制限を解決するため、我々はDINGOを提案します。DINGOは、動的計画法に基づく制約付きデコード戦略であり、効率的かつ確実に分布を保存します。DINGOは、モデルの予測分布の下で最も高い確率を持つ出力文字列をサンプリングしつつ、ユーザー指定の正規表現を厳密に満たすことを可能にします。標準的な記号数学およびJSON生成ベンチマークにおいて、DINGOは制約なしの推論と比較して最大68パーセントポイントの改善を達成しました。
マルチモーダル大規模言語モデル(MLLMs)の進展にもかかわらず、細粒度の映像モーション理解におけるその能力は依然として重大な制限を受けています。これらのモデルは、フレーム間の差分を捉えることができず、微妙な視覚的キューを平均化したり無視したりする傾向があります。さらに、視覚的プロンプティングが静止画像において潜在的な可能性を示している一方で、映像の時間的複雑性、特に細粒度のモーション理解への応用はほとんど未開拓のままです。本研究では、内在的な能力を引き出し、MLLMsのモーション知覚を向上させ、物体とカメラのモーションキューを分離するための独自の視覚的シグネチャを可能にすることができるかどうかを調査します。本研究では、MotionSightを紹介します。これは、物体中心の視覚的スポットライトとモーションブラーを視覚的プロンプトとして活用し、トレーニングなしで細粒度のモーション理解を効果的に改善する新しいゼロショット手法です。これを貴重なデータ資産に変換するために、MotionVid-QAをキュレーションしました。これは、SFTと選好データを含む階層的なアノテーション、Θ(40K)の映像クリップ、およびΘ(87K)のQAを備えた、細粒度の映像モーション理解のための初の大規模データセットです。実験結果は、MotionSightがオープンソースの最先端の性能を達成し、商用モデルと競争力があることを示しています。特に、細粒度のモーション理解において、新しいゼロショット技術と大規模で高品質なデータセットを提示します。すべてのコードとアノテーションは公開されます。
大規模視覚言語モデル(LVLM)は、具象化された推論とロボット制御を組み合わせることで、ロボティクスの進展に大きな可能性を示しています。一般的なアプローチとして、教師ありファインチューニング(SFT)を用いてロボット制御に関連する具象化推論タスクを学習する方法が採用されています。しかし、SFTデータセットはしばしばヒューリスティックに構築されており、ロボット制御の向上に最適化されていません。さらに、SFTは破滅的忘却や汎化性能の低下といった問題を引き起こすことがあります。これらの課題を解決するため、我々はロボット制御に特化した具象化推論を強化する新しいフレームワーク「Robot-R1」を提案します。Robot-R1は、現在のシーン画像と専門家のデモンストレーションから得られた環境メタデータを条件として、タスク完了に必要な次のキーポイント状態を予測することを学習します。DeepSeek-R1の学習アプローチに着想を得たRobot-R1は、推論に基づく応答をサンプリングし、より正確な予測につながる応答を強化します。実験結果から、Robot-R1で学習したモデルは、具象化推論タスクにおいてSFT手法を上回ることが示されました。7Bパラメータしか持たないにもかかわらず、Robot-R1は空間的および原始的な動作推論といった低レベルな動作制御に関連する推論タスクにおいて、GPT-4oをも凌駕する性能を発揮しました。
拡散トランスフォーマー(DiTs)はビデオ生成においてブレークスルーを達成しているものの、この長いシーケンス生成タスクは依然として注意機構の二次的な複雑さに制約されており、推論の遅延が顕著です。ビデオ拡散トランスフォーマー(vDiT)における注意マップの詳細な分析を通じて、我々は3つの繰り返し現れるスパースパターンを特定しました:対角線、多重対角線、および垂直ストライプ構造です。さらに、3-6\%の注意ヘッドをスキップすることも可能です。重要なことに、これらのパターンは層の深さとヘッドの位置に強い相関を示しますが、入力内容への依存性は限定的です。これらの知見を活用して、我々はSparse-vDiTを提案します。これはvDiTのためのスパース加速フレームワークであり、以下の要素を含みます:1)各特定されたスパースパターンに対して、密な注意を計算効率の高い実装に置き換えるパターン最適化スパースカーネル。2)ハードウェアを意識したコストモデリングを通じて、層ごとおよびヘッドごとに最適なスパース計算戦略を選択するオフラインスパース拡散探索アルゴリズム。最適な構成を決定した後、同じ層内で同じ注意戦略を共有するヘッドを融合し、推論効率を向上させます。最先端のvDiTモデル(CogVideoX1.5、HunyuanVideo、およびWan2.1)に統合されたSparse-vDiTは、それぞれ2.09倍、2.38倍、1.67倍の理論的なFLOP削減を達成し、実際の推論速度は1.76倍、1.85倍、1.58倍向上しました。これらは高い視覚的忠実度を維持し、PSNR値は24.13、27.09、22.59に達しました。我々の研究は、vDiTにおける潜在的な構造的スパース性を体系的に活用して長いビデオ合成を行うことができることを示しています。
我々はCUREを提案する。これは、コーディングとユニットテスト生成能力をその相互作用の結果に基づいて共進化させる専用の報酬設計を備えた新しい強化学習フレームワークであり、教師データとしての正解コードを一切必要としない。このアプローチにより、柔軟でスケーラブルな学習が可能となり、ユニットテスターがコーダーのミスから直接学ぶことを可能にする。我々が開発したReasonFlux-Coder-7Bおよび14Bモデルは、Qwen2.5-Instructモデル上で最適化を行った結果、コード生成精度を5.3%、Best-of-N精度を9.0%向上させ、同規模のQwen-Coder、DeepSeek-Coder、Seed-Coderを上回った。これらのモデルは、テスト時のスケーリングやエージェント型コーディングといった下流タスクにも自然に拡張可能で、ベースモデルに対して8.1%の改善を達成した。long-CoTモデルにおいては、ReasonFlux-Coder-4BがQwen3-4Bを一貫して上回りつつ、ユニットテスト生成において64.8%の推論効率を達成した。特に注目すべきは、我々のモデルがベースモデルに対する強化学習の効果的な報酬モデルとしても機能し得る点である。プロジェクト: https://github.com/Gen-Verse/CURE
本論文では、ゼロショットの被写体駆動生成において被写体の忠実度を向上させる新しい比較学習フレームワークであるSubject Fidelity Optimization(SFO)を提案する。事前学習段階と同様に拡散損失を使用し、正のターゲットのみに依存する教師ありファインチューニング手法を超えて、SFOは合成された負のターゲットを導入し、ペアワイズ比較を通じてモデルが正のターゲットを優先するよう明示的に誘導する。負のターゲットについては、高価な人間のアノテーションを必要とせず、視覚的およびテキスト的な手がかりを意図的に劣化させることで、特徴的で情報量の多い負のサンプルを自動生成するCondition-Degradation Negative Sampling(CDNS)を提案する。さらに、被写体の詳細が現れる中間ステップにファインチューニングを集中させるため、拡散タイムステップの重み付けを再調整する。大規模な実験により、SFOとCDNSを組み合わせることで、被写体駆動生成ベンチマークにおいて、被写体の忠実度とテキストの整合性の両方でベースラインを大幅に上回ることが実証された。プロジェクトページ:https://subjectfidelityoptimization.github.io/
近年のAI生成コンテンツ(AIGC)の進展により、アニメーション制作が大幅に加速しています。魅力的なアニメーションを制作するためには、物語の脚本とキャラクターの参照画像を伴った一貫性のあるマルチショット動画クリップを生成することが不可欠です。しかし、既存の公開データセットは主に現実世界のシナリオに焦点を当てており、グローバルな記述が中心で、一貫したキャラクターガイダンスのための参照画像が不足しています。このギャップを埋めるため、我々はAnimeShooterを提案します。これは参照画像を基にしたマルチショットアニメーションデータセットです。AnimeShooterは、自動化されたパイプラインを通じて、包括的な階層的アノテーションとショット間の強力な視覚的一貫性を特徴としています。ストーリーレベルのアノテーションは、物語の概要、キーシーン、参照画像を含む主要キャラクターのプロファイルを提供し、ショットレベルのアノテーションは物語を連続するショットに分解し、各ショットにシーン、キャラクター、物語的および記述的な視覚キャプションを付与します。さらに、専用のサブセットであるAnimeShooter-audioは、各ショットの同期されたオーディオトラックと、オーディオ記述および音源を提供します。AnimeShooterの有効性を実証し、参照画像を基にしたマルチショット動画生成タスクのベースラインを確立するため、我々はAnimeShooterGenを導入します。これは、マルチモーダル大規模言語モデル(MLLM)とビデオ拡散モデルを活用しています。参照画像と以前に生成されたショットは、まずMLLMによって処理され、参照とコンテキストを意識した表現を生成し、その後、拡散モデルの条件として使用され、次のショットをデコードします。実験結果は、AnimeShooterで訓練されたモデルが、ショット間の視覚的一貫性と参照視覚ガイダンスへの忠実さにおいて優れていることを示しており、我々のデータセットが一貫性のあるアニメーションビデオ生成に価値があることを強調しています。
ネイティブ解像度画像合成を紹介します。これは、任意の解像度とアスペクト比で画像を合成することを可能にする新しい生成モデリングパラダイムです。このアプローチは、従来の固定解像度・正方形画像手法の限界を克服し、可変長のビジュアルトークンをネイティブに扱うことで、従来技術の核心的な課題に対処します。この目的のために、Native-resolution diffusion Transformer(NiT)を導入しました。これは、そのノイズ除去プロセス内でさまざまな解像度とアスペクト比を明示的にモデル化するように設計されたアーキテクチャです。固定フォーマットの制約から解放されたNiTは、幅広い解像度とアスペクト比の画像から本質的な視覚分布を学習します。特に、単一のNiTモデルは、ImageNet-256x256と512x512のベンチマークの両方で最先端のパフォーマンスを同時に達成します。驚くべきことに、高度な大規模言語モデルに見られる強力なゼロショット能力と同様に、ImageNetのみでトレーニングされたNiTは、優れたゼロショット汎化性能を示します。図1に示すように、以前に見られなかった高解像度(例:1536 x 1536)や多様なアスペクト比(例:16:9、3:1、4:3)で高忠実度の画像を生成することに成功しています。これらの発見は、視覚生成モデリングと高度なLLM手法の間の架け橋としてのネイティブ解像度モデリングの大きな可能性を示しています。
長尺動画生成は、エンターテイメントやシミュレーションなどの分野での幅広い応用により、注目を集めています。進展があるにもかかわらず、時間的に一貫性があり視覚的に魅力的な長尺シーケンスを合成することは依然として大きな課題です。従来のアプローチでは、短いクリップを順次生成して連結したり、キーフレームを生成してから階層的に中間フレームを補間したりすることが一般的です。しかし、これらの方法では依然として重大な課題が残っており、時間的な繰り返しや不自然な遷移などの問題が生じます。本論文では、階層的な長尺動画生成パイプラインを再検討し、明示的にモーションガイダンスを導入するフレームワークであるLumosFlowを提案します。具体的には、まずLarge Motion Text-to-Video Diffusion Model (LMTV-DM)を使用して、より大きなモーション間隔を持つキーフレームを生成し、生成される長尺動画の内容の多様性を確保します。キーフレーム間の文脈遷移を補間する複雑さを考慮し、中間フレーム補間をモーション生成と事後精細化に分解します。各キーフレームペアに対して、Latent Optical Flow Diffusion Model (LOF-DM)が複雑で大きなモーションのオプティカルフローを合成し、MotionControlNetがワープ結果を精細化して品質を向上させ、中間フレーム生成をガイドします。従来の動画フレーム補間と比較して、15倍の補間を実現し、隣接フレーム間の合理的で連続的なモーションを確保します。実験結果は、本手法が一貫したモーションと外観を持つ長尺動画を生成できることを示しています。コードとモデルは受理後に公開されます。プロジェクトページ: https://jiahaochen1.github.io/LumosFlow/
大規模言語モデル(LLM)の文脈内学習メカニズムに着想を得て、汎用的な視覚プロンプトに基づく画像編集の新たなパラダイムが登場しつつある。既存の単一参照手法は、通常、スタイルや外観の調整に焦点を当てており、非剛体変換には苦戦している。これらの制限に対処するため、我々はソース-ターゲット画像ペアを活用して、コンテンツを意識した編集意図を抽出し、新しいクエリ画像に転送することを提案する。この目的のために、我々はRelationAdapterを導入する。これは、Diffusion Transformer(DiT)ベースのモデルが最小限の例から視覚的変換を効果的に捕捉し適用することを可能にする軽量モジュールである。また、視覚プロンプト駆動のシナリオにおけるモデルの汎化性と適応性を評価するために、218の多様な編集タスクを含む包括的なデータセットRelation252Kを導入する。Relation252Kでの実験により、RelationAdapterが編集意図の理解と転送能力を大幅に向上させ、生成品質と全体的な編集性能において顕著な向上をもたらすことが示された。
拡散モデルはビデオ合成において顕著な成果を達成しているが、反復的なノイズ除去ステップを必要とするため、計算コストが大幅に増大する。一貫性モデルは拡散モデルの高速化において重要な進展を遂げている。しかし、これらを直接ビデオ拡散モデルに適用すると、時間的な一貫性や外観の詳細が著しく劣化することが多い。本論文では、一貫性モデルの学習動態を分析し、蒸留プロセスにおける重要な学習動態の矛盾を特定する:異なるタイムステップ間で最適化勾配と損失寄与に大きな不一致が生じる。この不一致により、蒸留された学生モデルが最適な状態に到達できず、時間的な一貫性が損なわれ、外観の詳細が劣化する。この問題を解決するため、パラメータ効率の良いデュアルエキスパート一貫性モデル(DCM)を提案する。ここでは、セマンティックエキスパートがセマンティックレイアウトとモーションの学習に焦点を当て、ディテールエキスパートが細部の洗練に特化する。さらに、セマンティックエキスパートのモーション一貫性を向上させるために時間的コヒーレンス損失を導入し、ディテールエキスパートの合成品質を向上させるためにGANと特徴マッチング損失を適用する。我々のアプローチは、サンプリングステップを大幅に削減しながら、最先端の視覚品質を達成し、ビデオ拡散モデルの蒸習におけるエキスパート特化の有効性を実証する。我々のコードとモデルはhttps://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}で公開されている。
高品質なデータセットは機械学習モデルの訓練と評価において不可欠であるが、特に正確な人間によるアノテーションを伴うその作成は依然として大きな課題である。多くのデータセット論文の投稿は、独創性や多様性、厳格な品質管理を欠いており、これらの欠点は査読プロセスでしばしば見落とされている。また、データセットの構築と特性に関する重要な詳細が頻繁に省略されている。データシートなどの既存のツールは透明性を促進することを目的としているが、これらは主に記述的であり、データ品質を評価するための標準化された測定可能な方法を提供していない。同様に、学会におけるメタデータの要件は責任を促進するが、一貫して強制されていない。これらの制限に対処するため、本ポジションペーパーは、特に投稿数が増え続ける中で、体系的なルーブリックに基づく評価指標をデータセットの査読プロセスに統合することを提唱する。また、専用ツールやLLM-as-a-judgeアプローチを含む、スケーラブルでコスト効率の良い合成データ生成方法を探り、より効率的な評価を支援する。行動を促すために、人間およびモデル生成のデータセットの品質を評価するための構造化されたフレームワークであるDataRubricsを紹介する。LLMベースの評価の最近の進歩を活用し、DataRubricsは再現性があり、スケーラブルで、実行可能なデータセット品質評価ソリューションを提供し、著者と査読者の両方がデータ中心の研究においてより高い基準を維持することを可能にする。また、LLMベースの評価の再現性を支援するコードをhttps://github.com/datarubrics/datarubricsで公開している。
テキストからビデオを生成する拡散モデルは、モーションや物理法則、動的な相互作用といった時間的側面をモデル化する能力が限られていることで知られています。既存のアプローチでは、この制約を克服するためにモデルの再学習を行ったり、時間的一貫性を強制する外部の条件付け信号を導入したりしています。本研究では、追加の学習や補助的な入力なしに、事前学習済みモデルの予測から意味のある時間的表現を直接抽出できるかどうかを探求します。我々はFlowMoを提案します。これは、各拡散ステップにおいてモデル自身の予測のみを使用してモーションの一貫性を向上させる、新しい学習不要のガイダンス手法です。FlowMoはまず、連続するフレームに対応する潜在表現間の距離を測定することで、外見のバイアスを取り除いた時間的表現を導出します。これにより、モデルが予測する暗黙的な時間構造が浮き彫りになります。次に、時間次元にわたるパッチ単位の分散を測定することでモーションの一貫性を推定し、サンプリング中にこの分散を動的に減少させるようにモデルをガイドします。複数のテキストからビデオを生成するモデルを用いた広範な実験により、FlowMoが視覚品質やプロンプトとの整合性を損なうことなくモーションの一貫性を大幅に向上させることが実証されました。これにより、事前学習済みのビデオ拡散モデルの時間的忠実度を高めるための効果的なプラグアンドプレイソリューションが提供されます。
大規模言語モデル(LLMs)を用いたコード生成、いわゆる「バイブコーディング」は、生産環境での採用が増加しているものの、特にセキュリティ(例:SQLインジェクションの脆弱性)や保守性(例:型アノテーションの欠如)においてコード品質を保証することができていない。既存の手法、例えば教師ありファインチューニングやルールベースの後処理は、労力を要するアノテーションや脆弱なヒューリスティクスに依存しており、その拡張性と有効性が制限されている。本研究では、プログラム解析に基づくフィードバックを用いてLLMsに生産品質のコードを生成させる強化学習フレームワーク「REAL」を提案する。具体的には、REALは2つの自動化されたシグナルを統合する:(1)セキュリティや保守性の欠陥を検出するプログラム解析、(2)機能的正しさを保証するユニットテスト。従来の研究とは異なり、本フレームワークはプロンプトに依存せず、参照データを必要としないため、手動介入なしで拡張可能な監視を実現する。複数のデータセットとモデル規模にわたる実験により、REALは機能性とコード品質の同時評価において最先端の手法を上回ることを示す。本研究は、迅速なプロトタイピングと本番環境対応コードの間のギャップを埋め、LLMsが速度と品質の両方を提供することを可能にする。
近年、ビデオ拡散技術は大きく進歩しているが、ほとんどの運転データセットにおいて事故イベントが少ないため、自動車事故の現実的な映像生成には苦戦している。交通安全の向上には、現実的で制御可能な事故シミュレーションが必要である。この問題に対処するため、我々はCtrl-Crashを提案する。これは、バウンディングボックス、事故タイプ、初期画像フレームなどの信号を条件とする制御可能な自動車事故ビデオ生成モデルである。本手法は、入力のわずかな変化が劇的に異なる事故結果を引き起こす反事実的シナリオ生成を可能にする。推論時に細かい制御をサポートするため、各条件信号に対して独立に調整可能なスケールを持つクラシファイアーフリーガイダンスを活用する。Ctrl-Crashは、定量的なビデオ品質指標(例:FVD、JEDi)および物理的リアリズムとビデオ品質に基づく人間評価による定性的測定において、従来の拡散ベースの手法と比較して最先端の性能を達成している。
大規模言語モデルは、ツールを使用可能な知的エージェントの基盤として急速に進化しています。しかし、そのようなエージェントを訓練することは困難です。なぜなら、多様なタスク、ツール、評価基準を人間が作成し、注釈を付ける必要があるからです。本論文では、エージェント自身が生成した高品質なタスクを用いて訓練を行う「Self-Challenging」フレームワークを提案します。このフレームワークでは、エージェントはまず挑戦者としての役割を果たし、与えられたツールと対話した後にタスクを生成します。これらのタスクは「Code-as-Task」と呼ばれる新しい一般的な問題クラスとして定義され、指示文、検証関数、およびテストとして機能する解決例と失敗例を含みます。これにより、高品質なタスクのみを選別することが可能です。その後、エージェントは実行者としての役割を担い、評価フィードバックを報酬として強化学習を用いてこれらのタスクで訓練を行います。既存のマルチターンツール使用エージェントベンチマークであるM3ToolEvalとTauBenchでの評価では、Self-ChallengingフレームワークがLlama-3.1-8B-Instructにおいて2倍以上の改善を達成し、自己生成した訓練データのみを使用しているにもかかわらず優れた結果を示しました。
知識蒸留(KD)は、教師モデルの知識を活用してコンパクトでタスク特化型のモデルを訓練するために広く用いられるフレームワークです。しかし、アノテーションコストを最小化するために反復的なサンプル選択を行う能動学習(AL)への応用は、まだ十分に検討されていません。このギャップは、KDが通常十分なラベル付きデータへのアクセスを前提としているのに対し、ALはデータが限られた状況で動作し、タスク特化型の教師モデルが利用できないことが多いという事実に起因しています。本論文では、大規模な視覚言語モデル(VLM)のゼロショットおよび少数ショット能力を活用してALとKDを統合するActiveKDフレームワークを紹介します。ActiveKDの重要な側面は、VLMの構造化された予測バイアス、すなわち、その予測が確率空間でクラスターを形成するという特性です。この構造を教師モデルの帰納的バイアスと見なし、学生モデルの学習に有益な一般化可能な出力パターンを捉えるものとします。このバイアスを活用するために、特徴空間ではなく確率空間でのカバレッジを最大化する選択戦略であるProbabilistic CoreSet(PCoreSet)を提案します。PCoreSetは、カテゴリ的に多様な未ラベルサンプルを戦略的に選択し、限られたアノテーションバジェットの下で教師の知識をより効率的に転移させます。11のデータセットでの評価により、PCoreSetがActiveKDフレームワーク内で既存の選択手法を一貫して上回り、ALとKDの交差点における研究を進展させることが示されました。
現在のテキスト-to-SQLにおける自己修正アプローチは、2つの重要な課題に直面しています。1) 従来の自己修正手法は、大規模言語モデル(LLMs)の再帰的な自己呼び出しに依存しており、計算オーバーヘッドが乗算的に増大する問題があります。2) LLMsは、宣言型SQLクエリに対する効果的なエラー検出と修正を実装するのに苦労しており、その根底にある推論パスを明示することができません。本研究では、SHARE(SLM-based Hierarchical Action corREction assistant)を提案します。これは、LLMsがより正確なエラー位置特定と効率的な修正を可能にする階層型アクション修正アシスタントです。SHAREは、3つの専門化された小型言語モデル(SLMs)を順次パイプラインで編成し、まず宣言型SQLクエリを段階的なアクション軌跡に変換して根底の推論を明らかにし、その後2段階の粒度の細かい修正を行います。さらに、データ効率的なトレーニングのための新しい階層型自己進化戦略を提案します。実験結果は、SHAREが自己修正能力を効果的に向上させ、さまざまなLLMsにおいて堅牢性を証明することを示しています。さらに、詳細な分析により、SHAREは低リソースのトレーニング設定においても強力な性能を維持し、データプライバシー制約のあるテキスト-to-SQLアプリケーションにとって特に価値があることが明らかになりました。
本論文では、MoCA-Video(Motion-Aware Concept Alignment in Video)を紹介する。これは、画像領域の意味的混合とビデオの間のギャップを埋めるトレーニング不要のフレームワークである。生成されたビデオとユーザー提供の参照画像が与えられた場合、MoCA-Videoは参照画像の意味的特徴をビデオ内の特定のオブジェクトに注入しつつ、元の動きと視覚的コンテキストを保持する。本手法は、対角ノイズ除去スケジュールとクラス非依存のセグメンテーションを活用し、潜在空間内でオブジェクトを検出・追跡し、ブレンドされたオブジェクトの空間的位置を精密に制御する。時間的整合性を確保するために、モーメンタムベースの意味的補正とガンマ残差ノイズ安定化を組み込み、スムーズなフレーム遷移を実現する。MoCAの性能を評価するために、標準的なSSIM、画像レベルのLPIPS、時間的LPIPSを使用し、さらに新しい指標CASS(Conceptual Alignment Shift Score)を導入して、ソースプロンプトと修正されたビデオフレーム間の視覚的シフトの一貫性と効果を評価する。独自に構築したデータセットを使用して、MoCA-Videoは現在のベースラインを上回り、トレーニングやファインチューニングを行わずに、優れた空間的一貫性、連続した動き、および大幅に高いCASSスコアを達成する。MoCA-Videoは、拡散ノイズ軌跡における構造化された操作が、制御可能で高品質なビデオ合成を可能にすることを示している。
大規模言語モデル(LLM)の生成速度は、トークンを逐次的に予測する自己回帰型デコードによってボトルネックが生じています。一方で、拡散型大規模言語モデル(dLLM)は理論的には並列トークン生成を可能としますが、実際には品質を大幅に犠牲にすることなく自己回帰モデルの速度を達成するのに苦労しています。そこで我々は、並列にサンプリングするトークン数を動的に調整する新しい手法である適応型並列デコード(APD)を導入します。これを実現するために、dLLMの周辺確率と小さな補助的自己回帰モデル下での系列の結合確率との乗法混合を定義します。これは、小さなモデルからドラフトを作成して大きな自己回帰型検証器からサンプリングすることを目的とする、推測的デコードの標準的な設定を逆転させます。さらに、KVキャッシュを有効にし、マスクされた入力のサイズを制限することでAPDを最適化します。全体として、我々の手法はスループットと品質の柔軟なトレードオフを可能にする3つの調整可能なパラメータを提示します。APDが下流ベンチマークにおいて最小限の品質低下で著しく高いスループットを提供することを示します。
テレオペレーションによる現実世界のロボットシミュレーションデータの取得は、非常に時間と労力を要することが知られています。最近では、安全性の懸念を排除し、メンテナンスの手間を軽減するため、アクション駆動型の生成モデルがロボット学習とシミュレーションにおいて広く採用されています。しかし、これらの手法で使用されるアクションシーケンスは、全体的に粗いアラインメントのため、制御精度が限られ、汎化性能が低いという問題があります。これらの制限に対処するため、我々はORV(Occupancy-centric Robot Video generation framework)を提案します。ORVは、4Dセマンティックオキュパンシーシーケンスを細粒度の表現として利用し、ビデオ生成により正確なセマンティックおよび幾何学的ガイダンスを提供します。オキュパンシーベースの表現を活用することで、ORVはシミュレーションデータをフォトリアルなロボットビデオにシームレスに変換し、高い時間的一貫性と正確な制御性を確保します。さらに、我々のフレームワークは、ロボットの把持操作のマルチビュービデオを同時に生成することをサポートします。これは、下流のロボット学習タスクにとって重要な能力です。広範な実験結果は、ORVが様々なデータセットとサブタスクにおいて、既存のベースラインメソッドを一貫して上回ることを示しています。デモ、コード、モデルはこちら:https://orangesodahub.github.io/ORV
大規模言語モデル(LLM)は、強化学習と拡張された連鎖思考(CoT)技術を活用することで、最近目覚ましい進歩を遂げています。しかし、特に極めて長い出力を伴う推論時に、効率的な言語推論を行うという課題は、研究コミュニティからますます注目を集めています。本研究では、複雑なデータアノテーションや複数のモデル間の補間に依存しない、動的な比率ベースのトレーニングパイプラインを提案します。モデルのSystem-1とSystem-2データ間の重みを継続的に調整することで、冗長な推論プロセスを排除しつつ、モデルの推論能力を維持します。私たちは、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデル、およびさまざまな難易度のベンチマークセットを用いて、このアプローチを検証しました。私たちの方法は、推論の精度を維持しながら、出力トークン数を約40%削減することに成功しました。コードとデータは近日中に公開予定です。
可視化は、概念や情報を効果的に伝達する上で重要な役割を果たします。近年の推論と検索拡張生成の進歩により、大規模言語モデル(LLMs)は深いリサーチを行い、包括的なレポートを生成できるようになりました。しかし、その進歩にもかかわらず、既存の深いリサーチフレームワークは主にテキストのみのコンテンツ生成に焦点を当てており、テキストと可視化を交互に組み合わせた自動生成は十分に探求されていません。この新しいタスクは、情報量の多い可視化を設計し、それらをテキストレポートと効果的に統合する上で重要な課題を提起します。これらの課題に対処するため、我々は「Formal Description of Visualization(FDV)」を提案します。これは、チャートの構造化されたテキスト表現であり、LLMsが多様で高品質な可視化を学習し生成することを可能にします。この表現を基に、我々は「Multimodal DeepResearcher」を導入します。これは、タスクを4つの段階に分解するエージェント型フレームワークです:(1)リサーチ、(2)模範レポートのテキスト化、(3)計画、(4)マルチモーダルレポート生成。生成されたマルチモーダルレポートの評価のために、我々は「MultimodalReportBench」を開発しました。これは、100の多様なトピックを入力として含み、5つの専用メトリクスを備えています。モデルと評価方法にわたる広範な実験により、Multimodal DeepResearcherの有効性が実証されました。特に、同じClaude 3.7 Sonnetモデルを使用した場合、Multimodal DeepResearcherはベースライン手法に対して82%の総合勝率を達成しました。
アラビア文字の持つ固有の複雑さ、すなわちその筆記体の性質、発音記号(タシュキール)、そして多様な書体は、光学文字認識(OCR)にとって持続的な課題となっています。本論文では、Qwen2-VL-2B-Instructから派生した一連の視覚言語モデルであるQari-OCRを紹介します。これらのモデルは、専門的に合成されたデータセットに対する反復的なファインチューニングを通じて、アラビア語に最適化されています。我々の主要モデルであるQARI v0.2は、発音記号が豊富なテキストにおいて、単語誤り率(WER)0.160、文字誤り率(CER)0.061、BLEUスコア0.737を達成し、新たなオープンソースの最先端を確立しました。Qari-OCRは、タシュキールの処理、多様なフォント、ドキュメントレイアウトにおいて優れた性能を示し、低解像度画像に対しても印象的な性能を発揮します。さらなる探求(QARI v0.3)では、構造的なドキュメント理解と手書き文字に対する強い潜在能力を示しています。本研究は、アラビア語OCRの精度と効率を大幅に向上させ、すべてのモデルとデータセットを公開してさらなる研究を促進するものです。
本論文は、大規模推論モデル(LRM)における長い連鎖思考(CoT)推論における「思考不足」と「過剰思考」の課題に取り組むため、構造化された制御信号を注入して木探索の観点から推論を導く新しいテスト時アプローチであるReasoning Control Fields(RCF)を提案する。RCFは、複雑な課題を解決する際に、与えられた制御条件に応じて推論努力を調整することを可能にする。さらに、詳細な推論プロセスと対応する制御フィールドを注釈付けた挑戦的な問題からなるControl-R-4Kデータセットを提示する。推論制御をさらに強化するため、テスト時に推論努力を効果的に調整するようモデル(特にControl-R-32B)を訓練するConditional Distillation Finetuning(CDF)手法を提案する。AIME2024やMATH500などのベンチマークにおける実験結果は、32Bスケールで最先端の性能を達成しつつ、制御可能な長い連鎖思考推論プロセス(L-CoT)を実現することを示している。全体として、本論文は制御可能なテスト時スケーリング推論のための効果的なパラダイムを導入するものである。
公開された大規模推論モデル(LRM)であるR1のリリースに伴い、研究者たちは一般的に、R1の長い連鎖思考(CoT)推論を用いて言語モデルを訓練することで、新しいLRMを訓練しています。これまでの研究では、LRMの能力が直接的な蒸留によって再現可能であることが示されていますが、既存のモデル(例:R1)への依存が続くことは、この分野の進歩における重要な制約となっています。独立したLRM開発に向けた第一歩として、本論文では、推論時のスケーリングを目的としないLLMを用いて長いCoTデータセットを構築する可能性を探ります。この目的のために、既存の短いCoT LLMを用いて注釈付けされた10万件のCoT推論からなる「Long CoT Collection」データセットを提示します。私たちは、短いCoT LLMにo1の新しい推論戦略を導入し、それらがより長く思考できるようにし、過剰思考問題をより適切に管理するための思考予算の制御性を導入するパイプラインを開発しました。私たちの詳細な分析により、このデータセットがR1と同等か、わずかに劣る品質を達成していることが検証されました。さらに、私たちの実験では、このデータセットで訓練を行うことで、一般的な推論スキルが強化されるだけでなく、強化学習の強固な基盤が提供されることが示されています。私たちのデータで初期化されたモデルは、RLVRを用いることで2~3倍の大きな向上を達成しました。
大規模言語モデル(LLM)における最近のブレークスルーは、特に検証可能な答えを持つ数学的・論理的問題において、教師ありファインチューニング(SFT)や強化学習(RL)といった技術を通じて、推論能力を効果的に向上させてきました。先行研究によれば、RLは探索戦略を内部化し、長い連鎖的思考(CoT)推論を可能にし、バックトラッキングが自然に学習された能力として現れることが示されています。しかし、バックトラッキングの具体的な利点、特にそれが推論の改善にどの程度寄与し、その使用の最適な範囲がどこにあるかについては、まだ十分に理解されていません。本研究では、Countdown、Sudoku、Arc 1D、Geometry、Color Cube Rotation、List Functions、Zebra Puzzles、Self Referenceという8つの推論タスクにおいて、SFTとRLの間のダイナミクスを体系的に調査します。我々の調査結果は、SFTでウォームアップとして使用される短いCoTシーケンスが、コールドスタートのRLと比較して、RLトレーニングに中程度の貢献をする一方で、タスクが難しくなるにつれてその貢献が減少することを明らかにしています。この観察に基づき、バックトラッキングステップの数を体系的に変化させた合成データセットを構築し、正しさ(内容)または構造(すなわち、バックトラッキング頻度)の影響を分離するための制御実験を行いました。その結果、(1) バックトラックを含む長いCoTは、一般的により良いかつ安定したRLトレーニングを誘導し、(2) 探索空間が大きいより難しい問題ほど、SFT段階でより多くのバックトラックを必要とする傾向があることがわかりました。さらに、蒸留データを用いた実験を通じて、RLトレーニングが長いCoTシーケンスの正しさにほとんど影響されないことを示し、RLが内容の正しさよりも構造的なパターンを優先することを示唆しています。全体として、我々の結果は、LLMの推論を効果的にスケールするための最適なトレーニング戦略を設計する上で実用的な洞察を提供します。
長時間動画の理解は、広範な時空間的複雑性と、そのような拡張された文脈下での質問応答の難しさにより、重要な課題を提示している。大規模言語モデル(LLMs)は、動画分析能力と長い文脈の処理において大きな進歩を示しているものの、情報密度の高い1時間以上の動画を処理する際には依然として限界がある。このような限界を克服するため、我々はセグメント化された動画クリップに対してエージェント型検索戦略を活用するDeep Video Discoveryエージェントを提案する。従来の動画エージェントが手動で設計した硬直的なワークフローとは異なり、我々のアプローチはエージェントの自律性を重視している。マルチグラニュラリティの動画データベース上で検索中心のツールセットを提供することにより、DVDエージェントはLLMの高度な推論能力を活用して現在の観察状態に基づいて計画を立て、戦略的にツールを選択し、アクションのための適切なパラメータを策定し、収集された情報に基づいて内部推論を反復的に洗練する。我々は、複数の長時間動画理解ベンチマークにおいて包括的な評価を行い、システム設計全体の優位性を実証した。我々のDVDエージェントは、挑戦的なLVBenchデータセットにおいて、従来の研究を大幅に上回るSOTA性能を達成した。また、包括的なアブレーション研究と詳細なツール分析も提供され、長時間動画理解タスクに特化したインテリジェントエージェントをさらに進化させるための洞察が得られた。コードは後日公開される予定である。
意味検索は現代のアプリケーションにおいて重要であるにもかかわらず、現在の研究では十分に探求されていない。既存のデータセットは単一言語、単一画像、または単一の検索条件に限定されており、画像をキャプションに置き換えても性能が維持されることからも明らかなように、視覚情報の表現力を十分に活用できていない。しかし、実際の検索シナリオでは、複数の画像を含む複合的な条件クエリが頻繁に発生する。そこで本論文では、初の多言語複合条件意味検索データセットであるMERITを紹介する。MERITは5つの言語で32万のクエリと13万5千の製品をカバーし、7つの異なる製品カテゴリを含む。MERITを用いた広範な実験により、既存のモデルの限界が明らかになった:クエリ内の特定の条件要素を無視し、グローバルな意味情報のみに焦点を当てていることである。その結果、我々はCoralを提案する。Coralは、事前学習済みのMLLMを適応させる新しいファインチューニングフレームワークであり、細粒度の条件要素を保持するための埋め込み再構築と、包括的なグローバル意味を抽出するための対照学習を統合している。実験により、CoralはMERITにおいて従来のアプローチよりも45.9%の性能向上を達成し、8つの確立された検索ベンチマークで強力な汎化能力を実証した。全体として、我々の貢献——新しいデータセット、既存アプローチの重要な限界の特定、革新的なファインチューニングフレームワーク——は、複合条件意味検索の将来の研究の基盤を確立するものである。
コントラスティブ言語-画像事前学習は、各モダリティ専用のエンコーダーを用いて、テキストと画像のペアの特徴を共通の潜在空間に整列させます。このアプローチは、いくつかのゼロショットタスクで印象的な性能を達成しますが、マルチモーダル入力をネイティブに処理することはできません。つまり、画像とテキストを単一の特徴ベクトルにエンコードすることができません。この問題を解決するため、ユニモーダルエンコーダーによって抽出された特徴を統合するために追加のモジュールを使用することが一般的です。本研究では、マルチモーダル埋め込みのための代替アーキテクチャであるFuseLIPを提案します。離散画像トークナイザーの最近の進展を活用し、テキストと画像のトークンからなる拡張語彙を操作する単一のトランスフォーマーモデルを使用することを提案します。この早期融合アプローチにより、異なるモダリティがエンコーディングの各段階で相互作用し、一般的な後期融合と比較してより豊かな表現を得ることができます。マルチモーダル事前学習と評価のための新しいデータセットを収集し、マルチモーダルエンコーダーモデルにとって挑戦的なタスクを設計します。FuseLIPが、VQAやテキストガイド付き画像変換検索などのマルチモーダル埋め込みタスクで他のアプローチを上回り、ユニモーダルタスクではベースラインと同等の性能を示すことを実証します。
大規模言語モデル(LLM)の最近のブレークスルーにより、金融領域における性能評価のための新しいベンチマークの開発が進んでいます。しかし、現在の金融ベンチマークは、ニュース記事、決算報告書、または発表に依存することが多く、金融会議の現実世界のダイナミクスを捉えることが困難です。このギャップを埋めるため、我々はM^3FinMeetingという新しいベンチマークを提案します。これは、金融会議の理解を目的とした多言語、多セクター、多タスクのデータセットです。まず、M^3FinMeetingは英語、中国語、日本語をサポートし、多様な言語環境での金融ディスカッションの理解を強化します。次に、グローバル産業分類基準(GICS)に基づいて定義されたさまざまな産業セクターを網羅し、ベンチマークが幅広い金融活動をカバーすることを保証します。最後に、M^3FinMeetingは、要約、質問応答(QA)ペア抽出、および質問応答の3つのタスクを含み、より現実的で包括的な理解評価を可能にします。7つの人気LLMを用いた実験結果は、最も先進的な長文脈モデルでさえも改善の余地が大きいことを明らかにし、M^3FinMeetingがLLMの金融会議理解スキルを評価するベンチマークとして有効であることを示しています。
現在の大規模言語モデル(LLM)に対する強化学習微調整(RFT)のパラダイムは、均一なデータサンプリングによる同一クエリの冗長な露出により、サンプル効率が低下する問題を抱えています。これまでの研究では、ヒューリスティックな難易度指標を用いたカリキュラム学習が探求されてきましたが、これらの戦略はモデル自体が生成する内在的な学習信号を無視するため、最適ではない訓練体制につながるという限界があります。本論文では、LLMが特定のデータから学習する能力を効果的に反映する、角度集中(angle concentration)と呼ばれるモデル内在信号を特定します。我々は、トークンの隠れ状態ベクトルの角度分布とそれに伴う勾配との相関を理論的かつ実証的に示し、角度集中が高いデータに対する学習の選好を明らかにします。この発見に基づき、我々は勾配駆動型角度情報ナビゲーション強化学習フレームワーク(GAIN-RL)を提案します。GAIN-RLは、モデルの内在的な角度集中信号を活用して各エポックで訓練データを動的に選択し、一貫して影響力のある勾配更新を保証することで、全体の訓練効率を大幅に向上させます。実証評価では、GAIN-RL(GRPO)が多様な数学およびコーディングタスク、および様々なモデルスケールにおいて、訓練効率を2.5倍以上加速することを示しています。さらに、GAIN-RL(GRPO)の効率的なサンプリングはデータ効率的な訓練を実現し、元のデータの半分で従来のGRPOと同等以上の性能を達成します。コードはhttps://github.com/wangqinsi1/GAINRL/tree/mainで公開されています。
文化は地理と時間の両方にわたって進化する豊かでダイナミックな領域である。しかし、視覚言語モデル(VLM)を用いた文化理解に関する既存の研究は、主に地理的多様性を強調しており、重要な時間的次元を見落としがちである。このギャップを埋めるため、我々は専門家がキュレートした新しいマルチモーダルデータセットであるHanfu-Benchを導入する。漢服は、古代中国の王朝にわたる伝統的な衣装であり、中国文化の深い時間的側面を反映しつつ、現代中国社会で非常に人気のある代表的な文化遺産である。Hanfu-Benchは、文化的視覚理解と文化的画像変換という2つの核心的なタスクから構成される。前者のタスクは、単一または複数の画像入力に基づく時間的文化的特徴の認識を多肢選択式の視覚質問応答を通じて検証し、後者は伝統的な衣装を現代的なデザインに変換するために文化的要素の継承と現代的な文脈への適応に焦点を当てる。我々の評価によると、閉じたVLMは視覚的文化理解において非専門家と同等の性能を示すが、人間の専門家には10%及ばず、開いたVLMはさらに非専門家にも及ばない。変換タスクでは、多面的な人間評価により、最高性能のモデルでも成功率はわずか42%に留まることが示された。我々のベンチマークは、この新しい時間的文化理解と創造的適応の方向性における重要な課題を明らかにする必須のテストベッドを提供する。
大規模マルチモーダルモデル(LMMs)の最近の進展により、視覚と言語の推論が効果的に行えるようになりましたが、ビデオコンテンツの理解能力は、最適でないフレーム選択戦略によって制限されています。既存のアプローチでは、静的なヒューリスティクスや外部検索モジュールに依存してビデオ-LLMにフレーム情報を供給することが多く、これではクエリに関連する情報を提供できない場合があります。本研究では、ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)を提案します。これは、最適化の対象をテキスト応答から視覚的入力選択にシフトする新しいフレームレベルのポリシー最適化フレームワークです。ReFoCUSは、強化学習を用いてフレーム選択ポリシーを学習し、参照LMMから得られる報酬信号を使用して、時間的に根拠のある応答を最もよくサポートするフレームに対するモデルの内在的な選好を反映します。大きな組み合わせフレーム空間を効率的に探索するために、時間的整合性を保ちつつ複雑さを低減する自己回帰的で条件付きの選択アーキテクチャを採用しています。本アプローチはフレームレベルでの明示的な監督を必要とせず、複数のビデオQAベンチマークで一貫して推論性能を向上させ、フレーム選択とモデル内部の有用性を整合させる利点を強調しています。
既存の補間手法では、事前学習されたビデオ拡散モデルを利用して、疎にサンプリングされたキーフレーム間の中間フレームを生成します。しかし、3D幾何学的なガイダンスがない場合、これらの手法は複雑で関節的な人間の動きに対して説得力のある結果を生成することが難しく、合成されたダイナミクスに対する制御も限られています。本論文では、3D人間ガイダンス信号を拡散プロセスに統合する新しいフレームワークであるPoseFuse3D Keyframe Interpolator (PoseFuse3D-KI)を提案し、制御可能な人間中心キーフレーム補間(CHKI)を実現します。補間のための豊富な空間的および構造的な手がかりを提供するために、3D情報を活用した制御モデルであるPoseFuse3Dは、3Dジオメトリと形状を2D潜在条件空間に変換する新しいSMPL-Xエンコーダと、これらの3D手がかりを2Dポーズ埋め込みと統合する融合ネットワークを特徴としています。評価のために、2Dポーズと3D SMPL-Xパラメータの両方で注釈付けされた新しいデータセットであるCHKI-Videoを構築しました。PoseFuse3D-KIは、CHKI-Videoにおいて最先端のベースラインを一貫して上回り、PSNRで9%の改善、LPIPSで38%の削減を達成しました。包括的なアブレーション研究により、PoseFuse3Dモデルが補間の忠実度を向上させることが示されました。
ゼロショットChain-of-Thought(CoT)プロセスの成功が完了前に予測可能かどうかを調査します。LLMの表現に基づくプロービング分類器が、単一のトークンが生成される前でも良好な性能を発揮することを発見しました。これは、推論プロセスに関する重要な情報が初期段階の表現に既に含まれていることを示唆しています。一方、生成されたトークンのみに依存する強力なBERTベースのベースラインは、より浅い言語的キューに依存しているため、性能が劣ります。驚くべきことに、後の推論ステップを使用しても分類が必ずしも改善されるわけではありません。追加のコンテキストが役に立たない場合、初期の表現は後の表現に似ており、LLMが重要な情報を早期にエンコードしていることを示唆しています。これは、推論が早期に停止しても損失がないことを意味します。これをテストするために、早期停止実験を実施し、CoT推論を途中で打ち切っても、CoTを全く使用しない場合よりも性能が向上することを示しましたが、完全な推論との間には依然としてギャップが残ります。しかし、CoTチェーンを短縮するために設計された教師あり学習や強化学習などのアプローチは、早期停止が効果的である時期を特定するために、我々の分類器のガイダンスを活用できる可能性があります。我々の知見は、そのような方法を支援し、CoTの効率を最適化しながらその利点を維持するための洞察を提供します。
大規模レコメンダーモデルは、LLM(大規模言語モデル)を強力なレコメンダーとして拡張し、エンコーディングやアイテム生成を通じてその能力を発揮してきました。また、最近のLLMの推論能力におけるブレークスルーは、レコメンデーションにおける推論の探求を同時に促しています。現在の研究では、通常、LLMを外部の推論モジュールとして位置づけ、従来のレコメンデーションパイプラインを強化するための補助的な思考を生成しています。しかし、このような分離された設計は、多大なリソースコストと最適化の不十分さに制限されています。これらの問題に対処するため、我々は\nameを提案します。これは、内在的な推論能力を備えた統一された大規模レコメンダーモデルです。最初に、自己回帰プロセスにおいて推論とレコメンデーションを交互に行うためのモデルアーキテクチャを再構築します。次に、RecPOという対応する強化学習フレームワークを提案します。このフレームワークは、単一のポリシー更新において、\name\の推論能力とレコメンデーション能力を同時に最適化します。RecPOは、推論能力をシミュレートするためにレコメンデーションラベルのみを活用する融合報酬スキームを導入し、専門的な推論アノテーションへの依存を排除します。3つのデータセットにおける様々なベースラインを用いた実験により、\name\の有効性が検証され、Hit@5で68.67%、NDCG@20で45.21%の相対的改善が示されました。コードはhttps://github.com/YRYangang/RRecで公開されています。
非剛体運動、カメラ視点の変化、物体の変形、人間の関節動作、複雑な相互作用を反映する指示による画像編集は、コンピュータビジョンにおいて挑戦的でありながら未開拓の問題である。既存のアプローチやデータセットは主に静的なシーンや剛体変換に焦点を当てており、動的な動きを含む表現力豊かな編集を扱う能力が限られている。このギャップを埋めるため、非剛体運動に重点を置いた指示ベースの画像編集の包括的フレームワークであるByteMorphを提案する。ByteMorphは、大規模データセットByteMorph-6Mと、Diffusion Transformer(DiT)に基づく強力なベースラインモデルByteMorpherで構成される。ByteMorph-6Mは、トレーニング用の600万以上の高解像度画像編集ペアと、慎重に選定された評価ベンチマークByteMorph-Benchを含む。これらは、多様な環境、人間の姿、物体カテゴリにわたる幅広い非剛体運動のタイプを捉えている。データセットは、モーションガイド付きデータ生成、レイヤー合成技術、自動キャプション生成を用いて構築され、多様性、リアリズム、意味的整合性を確保している。さらに、学術界と商業界の両方から最近の指示ベースの画像編集手法の包括的な評価を実施する。
Transformerモデルに対する効果的な説明可能性ツールの開発は、深層学習研究における重要な課題です。この分野で最も有望なアプローチの一つが、層ごとの関連性伝播法(Layer-wise Relevance Propagation, LRP)です。LRPは、事前に定義されたルールに基づいて活性化値を再分配し、関連性スコアをネットワークを通じて入力空間に逆伝播させます。しかし、Transformerの説明可能性に関する既存のLRPベースの手法は、Transformerアーキテクチャの重要な構成要素である位置エンコーディング(Positional Encoding, PE)を完全に見落としており、これにより保存性の原則が破られ、構造的および位置的特徴に関連する重要なタイプの関連性が失われています。この制約を解決するため、我々はTransformerの説明可能性における入力空間を位置-トークンペアの集合として再定式化しました。これにより、Rotary、Learnable、Absolute PEなど、さまざまな位置エンコーディング手法にわたって帰属を伝播するための、理論的に基づいた専用のLRPルールを提案することが可能になりました。LLaMA 3などのファインチューニングされた分類器やゼロショット基盤モデルを用いた広範な実験により、我々の手法が視覚およびNLPの説明可能性タスクにおいて最先端の手法を大幅に上回ることを実証しました。我々のコードは公開されています。
インコンテキスト学習(ICL)は、事前学習済みの大規模言語モデル(LLM)が持つ重要でありながら完全には理解されていない能力である。ICLは、ファインチューニングを行わずに、少数の例(デモンストレーションと呼ばれる)を使用してタスクのパフォーマンスを大幅に向上させることができる。質問応答においては効果的であるが、要約などの長文生成タスクではしばしば性能が低下する。適切に現実的な仮定の下で、我々は経験的および理論的に、ICLのデモンストレーションだけではLLMに生成のためのタスク言語とフォーマットの分布を教えるには不十分であることを示す。我々は、タスク分布への明示的な曝露を主張し、それらをプロンプトによって定義することがモデルの性能を向上させると仮説を立てる。この目的のために、タスク言語とフォーマットの特性を捉えた2つの並列ガイドラインを効率的に生成するLongGuideを提案する:(i)モデルに自己評価メトリクスを最適化するよう指示するメトリックガイドライン(MGs);(ii)トークンおよび文レベルで生成を制約する出力制約ガイドライン(OCGs)。LongGuideは、最適なガイドラインの組み合わせを自動的に選択し、強力なオープンソースおよびクローズドソースのLLMのゼロショットおよび少数ショット設定において、両方で5%以上性能を向上させる。LongGuideは一般化可能であり、弱いモデルによって学習されて強いモデルを強化することができ、自動プロンプト最適化ツールと相乗的に統合されることを示す。