翻訳付きの日次キュレーションされたAI研究論文
Reward Feedback Learning (ReFL) は、画像生成を人間の選好に合わせるために有効であることが実証されている。しかし、これを動画生成に拡張するには大きな課題がある。既存の動画報酬モデルは、ピクセル空間入力を想定して設計された視覚言語モデルに依存しており、ReFLの最適化は、計算コストの高いVAE復号後の、ほぼ完了したデノイジング段階に限定されている。このピクセル空間アプローチは、多大なメモリオーバーヘッドと訓練時間の増加をもたらし、その後段階での最適化は初期段階の監督を欠き、基本的な動態や構造的一貫性ではなく、視覚的品質のみを調整するに留まる。本研究では、事前学習済み動画生成モデルが、任意のタイムステップにおけるノイジーな潜在表現を処理するように明示的に設計され、逐次モデリング能力を通じて時間情報を本質的に保持するため、ノイジーな潜在空間における報酬モデリングに自然に適していることを示す。これに基づき、我々は Process Reward Feedback Learning (PRFL) を提案する。このフレームワークは、最適化を完全に潜在空間内で実行し、VAE復号なしでデノイジング連鎖全体を通じた効率的な勾配逆伝播を可能にする。大規模な実験により、PRFLが人間の選好との整合性を大幅に改善しつつ、RGB ReFLと比較してメモリ消費量と訓練時間を大幅に削減できることを実証する。
現代の拡散モデルは高品質で多様な画像生成に優れているものの、特にテキストプロンプト、被写体参照、空間配置、ポーズ制約、レイアウト注釈などを同時に指定する場合の、高精度な構成的・マルチモーダル制御には依然として課題を抱えています。本論文では、これらの異種制御を単一のキャンバスインターフェースに統合し、ユーザーの意図を忠実に反映した画像生成を可能にする統一フレームワーク「Canvas-to-Image」を提案します。核心となるアイデアは、多様な制御信号を単一の複合キャンバス画像に符号化し、モデルが統合的な視覚的・空間的推論を直接行えるようにすることです。さらに、マルチタスクデータセットを精選し、拡散モデルが統一学習パラダイム内で異種制御を統合的に理解しテキストから画像への生成に組み込むことを最適化する「マルチタスクキャンバス学習」戦略を提案します。この共同学習により、Canvas-to-Imageはタスク固有のヒューリスティクスに依存するのではなく、複数の制御モダリティを横断的に推論し、推論時におけるマルチ制御シナリオにも優れた汎化性能を発揮します。大規模な実験により、Canvas-to-Imageが複数人物の構成、ポーズ制御合成、レイアウト制約生成、マルチ制御生成といった困難なベンチマークにおいて、識別性の維持と制御遵守の両面で最先端手法を大幅に上回ることを実証しました。
身体化認知は、知能が受動的な観察ではなく、感覚運動相互作用から生じると主張する。これは興味深い疑問を提起する:主に非身体的な方法で訓練された現代の視覚言語モデル(VLM)は、身体化認知の兆候を示すのだろうか?我々はENACTを紹介する。これは身体化認知の評価を、視覚質問応答(VQA)形式での一人称視点相互作用からの世界モデリングとして捉えるベンチマークである。部分観測マルコフ決定過程(POMDP)として枠組みされ、その行動はシーングラフの変化に対応するENACTは、二つの相補的な系列再順序付け課題から構成される:順方向世界モデリング(行動が与えられたシャッフル観測の再順序付け)と逆方向世界モデリング(観測が与えられたシャッフル行動の再順序付け)。概念的には単純ながら、これらの課題を解決するには、身体化認知の中核能力―アフォーダンス認識、行動-効果推論、身体化された意識、部分観測的な一人称視点入力からの対話的で長期的な記憶―が暗黙的に要求され、評価を混乱させる可能性のある低レベル画像合成を回避する。我々は、ロボティクスシミュレーション(BEHAVIOR)からQAペアを合成するスケーラブルなパイプラインを提供し、長期的な家庭規模活動にわたる8,972のQAペアでモデルを評価する。実験結果は、フロンティアのVLMと人間の間に性能差があり、その差が相互作用の時間的視野とともに広がることを示す。モデルは一貫して逆方向課題よりも順方向課題で性能が高く、右利き行動への選好や、カメラ内部パラメータや視点が人間の視覚から逸脱した場合の性能劣化といった人間中心バイアスを示す。詳細はウェブサイト(https://enact-embodied-cognition.github.io/)を参照。
言語理解とは、単に言語入力の表面的な意味を抽出することではなく、それが記述する状況の豊かなメンタルモデルを構築することを意味する。ここで我々は、脳のコア言語システム内での処理が根本的に限界があるため、言語を深く理解するには、言語システムから情報を他の脳領域へエクスポートする必要があると提案する。これらの領域は、知覚的・運動的表現を計算し、メンタルモデルを構築し、私たちの世界知識や自伝的記憶を保存している。本稿では、この仮説を支持する既存の証拠を検討し、認知神経科学の最近の進歩が、この仮説を直接検証する概念的基盤と方法論の両方を提供していると論じる。これにより、言語を理解するということが認知的・神経的に何を意味するのかを明らかにする新たな戦略が開かれる。
指示文による画像編集は、ユーザーが自然言語で画像を編集する直感的な方法を提供します。しかし、拡散モデルベースの編集モデルは、複雑なユーザー指示(特に構成的関係、文脈的手がかり、または参照表現を含む指示)を正確に解釈することに苦戦し、意味的に逸脱した編集や意図した変更が反映されない結果を招くことがよくあります。我々はこの問題に取り組むため、軽量でプラグアンドプレイ可能なマルチモーダル推論エージェントであるMIRA(Multimodal Iterative Reasoning Agent)を提案します。MIRAは反復的な知覚-推論-アクションループを通じて編集を実行し、多段階の人間-モデル相互作用プロセスを効果的に模倣します。単一のプロンプトや静的な計画を発行する代わりに、MIRAは視覚的フィードバックを利用して判断を行い、原子編集指示を段階的に予測します。15万サンプルからなるマルチモーダルツール使用データセットMIRA-Editingと、2段階のSFT+GRPOトレーニングパイプラインを組み合わせることで、MIRAは複雑な編集指示に対する推論と編集を実行可能になります。Flux.1-Kontext、Step1X-Edit、Qwen-Image-Editなどのオープンソース画像編集モデルと組み合わせた場合、MIRAは意味的一貫性と知覚的品質の両方を大幅に改善し、GPT-ImageやNano-Bananaなどのプロプライエタリシステムに匹敵する、またはそれを上回る性能を達成します。
大規模マルチモーダルモデル(LMM)は、強力な指示追従能力と人間の選好との一致から、マルチモーダル評価システムにおける審査役としての採用が増加している。しかし、多様できめ細かい評価基準に従う能力については、未だ十分に検証されていない。本研究では、マルチモーダル審査役が多元的基準に従い、信頼性のある基準レベルでの判断を生成する能力を評価するベンチマーク「Multi-Crit」を開発した。オープンエンド生成タスクと検証可能な推論タスクの両方を網羅するMulti-Critは、多基準の人間注釈付き困難な応答ペアを収集する厳密なデータ精製パイプラインを通じて構築されている。さらに、多元的遵守性、基準切り替えの柔軟性、基準レベルの選好衝突を認識する能力を体系的に評価する3つの新規指標を導入する。25のLMMに対する包括的分析により、以下の知見が得られた:1)プロプライエタリモデルでも、特にオープンエンド評価において多元的基準への一貫した遵守を維持するのは困難である、2)オープンソースモデルは多様な基準への柔軟な追随においてさらに遅れをとっている、3)全体的判断信号による批評的ファインチューニングは視覚的接地を強化するが、多元的な基準レベル判断には一般化しない。推論ファインチューニング、テスト時スケーリング、オープンソースとプロプライエタリモデル間の境界一貫性に関する追加分析により、現行のマルチモーダル審査役の限界がさらに探求された。先駆的研究として、Multi-Critは信頼性と制御可能性の高いマルチモーダルAI評価の基盤を築くものである。
MLLMは個別のクエリに対して強力な推論能力を示す一方で、それらは常に「de novo(新規)」に動作する。つまり、各問題を独立して解決し、同じ過ちを繰り返しがちである。既存のメモリ拡張エージェントは、主に過去の軌跡を再利用のために保存する。しかし、軌跡ベースのメモリは簡潔性バイアスに悩まされ、本質的な領域知識を次第に失っていく。さらに深刻なのは、真にマルチモーダルな問題解決設定においてさえ、過去の行動の単一モダリティの痕跡しか記録せず、視覚的注意と論理的推論がどのように協調して解決に貢献したかを保存できない点である。これは人間の認知と根本的に異なる。人間の意味記憶はマルチモーダルかつ統合的であり、視覚的知識と抽象的な知識を、調整されつつも区別された表現ストリームを通じて保持する。そこで我々はViLoMemを提案する。これはコンパクトでスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。これは視覚的な注意散漫パターンと論理的推論エラーを別々に符号化し、MLLMが自身の成功および失敗体験から学習することを可能にする。成長・洗練化の原則に従い、システムはマルチモーダルな意味知識を段階的に蓄積・更新する。これにより、安定した一般化可能な戦略を保持しつつ、破滅的忘却を回避する。6つのマルチモーダルベンチマークにわたって、ViLoMemはpass@1精度を一貫して向上させ、繰り返される視覚的・論理的エラーを大幅に削減した。 ablation研究は、注意散漫と幻覚を明示的に分離したデュアルストリームメモリの必要性を確認し、エラーを認識するマルチモーダルメモリが生涯学習およびクロスドメインのエージェント学習にとって価値があることを実証した。プロジェクトページは https://weihao-bo.github.io/ViLoMeo-page で公開予定である。