翻訳付きの日次キュレーションされたAI研究論文
テストタイムスケーリングは、大規模言語モデル(LLM)の推論性能を向上させるために、計算リソースを追加することを目指す。この分野で広く用いられているアプローチは、サンプリングベースのテストタイムスケーリング手法であり、推論時に与えられた入力に対して複数の推論パスを生成することで推論を強化する。しかし、その実用的な成功にもかかわらず、理論的な基盤は未だ十分に探求されていない。本論文では、信頼度推定の観点に基づいて、サンプリングベースのテストタイムスケーリング手法を分析するための初めての理論的フレームワークを提供する。このフレームワークに基づき、自己一貫性とパープレキシティという二つの主要なパラダイムを分析し、自己一貫性は推定誤差が高く、パープレキシティはモデル誤差が大きく、推定誤差の収束が劣化する可能性があるという重要な限界を明らかにする。これらの限界を解決するために、我々はRPCというハイブリッド手法を提案する。RPCは、パープレキシティ一貫性と推論プルーニングという二つの主要なコンポーネントを通じて、理論的洞察を活用する。パープレキシティ一貫性は、自己一貫性とパープレキシティの長所を組み合わせ、推定誤差の収束速度を線形から指数関数的に向上させながら、モデル誤差を維持する。推論プルーニングは、低確率の推論パスを排除することで劣化を防ぐ。7つのベンチマークデータセットにおける理論分析と実証結果は、RPCが推論誤差を削減する強力な可能性を持つことを示している。特に、RPCは自己一貫性と同等の推論性能を達成しつつ、信頼度の信頼性を向上させるだけでなく、サンプリングコストを50%削減する。コードとリソースはhttps://wnjxyk.github.io/RPCで公開されている。
機械知能を進化させるためには、人間が世界を感知するように、複数のモダリティにわたって知覚する能力を開発する必要があります。本稿では、強力なオープンソースのオムニモーダルLLMを構築するためのイニシアチブであるOmniVinciを紹介します。モデルアーキテクチャとデータキュレーションにわたる設計選択を慎重に検討します。モデルアーキテクチャに関して、以下の3つの主要なイノベーションを提示します:(i) 共有されたオムニモーダル潜在空間における視覚と音声の埋め込み間の整合性を強化するためのOmniAlignNet、(ii) 視覚と音声信号間の相対的な時間的整合性を捕捉するためのTemporal Embedding Grouping、(iii) オムニモーダル埋め込みにおける絶対的な時間情報をエンコードするためのConstrained Rotary Time Embedding。さらに、24Mのシングルモーダルおよびオムニモーダル会話を生成するキュレーションと合成パイプラインを導入します。モダリティが知覚と推論の両方において互いに強化されることを発見しました。我々のモデルOmniVinciは、Qwen2.5-Omniと比較して、DailyOmni(クロスモーダル理解)で+19.05、MMAR(音声)で+1.7、Video-MME(視覚)で+3.9の性能向上を示し、トレーニングトークン数は0.2Tと、Qwen2.5-Omniの1.2Tに比べて6分の1に削減されています。最後に、ロボティクス、医療AI、スマートファクトリーにわたる下流アプリケーションにおけるオムニモーダルの利点を実証します。
3Dオブジェクト編集は、ゲーム、アニメーション、ロボティクスにおけるインタラクティブコンテンツ作成において不可欠であるが、現在の手法は非効率的で一貫性に欠け、未編集領域の保存に失敗することが多い。多くの手法は、マルチビューレンダリングを編集した後に再構築することを前提としており、これがアーティファクトを導入し、実用性を制限している。これらの課題に対処するため、我々はNano3Dを提案する。Nano3Dは、マスクを必要とせずに正確かつ一貫性のある3Dオブジェクト編集を実現するトレーニング不要のフレームワークである。Nano3Dは、FlowEditをTRELLISに統合し、正面ビューレンダリングに基づいて局所的な編集を実行する。さらに、Voxel/Slat-Mergeと呼ばれる領域認識マージ戦略を導入し、編集済み領域と未編集領域の一貫性を確保することで、構造的な忠実度を適応的に維持する。実験により、Nano3Dが既存の手法と比較して優れた3D一貫性と視覚的品質を達成することが示された。このフレームワークに基づき、我々は初の大規模3D編集データセットNano3D-Edit-100kを構築した。このデータセットは、10万以上の高品質な3D編集ペアを含んでいる。本研究は、アルゴリズム設計とデータ可用性の両方における長年の課題に対処し、3D編集の汎用性と信頼性を大幅に向上させ、フィードフォワード型3D編集モデルの開発の基盤を築くものである。プロジェクトページ: https://jamesyjl.github.io/Nano3D
指示に基づく動画編集は、コンテンツ制作の民主化を約束するものの、その進展は大規模で高品質なトレーニングデータの不足によって深刻に阻害されている。本論文では、この根本的な課題に取り組むために設計された包括的フレームワーク「Ditto」を紹介する。Dittoの中核には、既存モデルの限定的な範囲を克服するため、主要な画像エディタの創造的多様性とコンテキスト内動画生成器を融合させた新しいデータ生成パイプラインが備わっている。このプロセスを実現可能にするため、我々のフレームワークは、効率的で蒸留されたモデルアーキテクチャと時間的エンハンサーを組み合わせることで、計算コストと品質のトレードオフを解決し、計算オーバーヘッドを削減すると同時に時間的一貫性を向上させる。最後に、完全なスケーラビリティを実現するため、このパイプライン全体は、多様な指示を作成し、出力を厳密にフィルタリングするインテリジェントエージェントによって駆動され、大規模な品質管理を保証する。このフレームワークを用いて、我々は12,000 GPU日以上を投資し、100万の高忠実度動画編集例を含む新しいデータセット「Ditto-1M」を構築した。我々のモデル「Editto」をDitto-1Mでカリキュラム学習戦略を用いてトレーニングした結果、指示追従能力の優位性が示され、指示に基づく動画編集において新たな最先端を確立した。
最近の研究では、狭範囲のファインチューニングが広範にミスアラインメントした大規模言語モデル(LLM)を生み出すことが示されており、この現象は「創発的ミスアラインメント(Emergent Misalignment, EM)」と呼ばれています。この発見は懸念されるものの、これまでの研究はファインチューニングとアクティベーション・ステアリングに限定されており、インコンテキスト学習(ICL)は対象外でした。そこで我々は問います:ICLにおいてもEMは発生するのか?その結果、ICLにおいてもEMが発生することがわかりました。3つのデータセットと3つの最先端モデルを用いた実験では、64個の狭範囲なインコンテキスト例を与えた場合、2%から17%の範囲で広範にミスアラインメントした応答が生成され、256個の例では最大58%に達しました。また、EMのメカニズムを探るため、段階的な推論を引き出しながらインコンテキスト例を変更せずに分析を行いました。その結果得られたチェーン・オブ・シンク(連鎖思考)を手動で分析したところ、67.5%のミスアラインメントしたトレースが、無謀または危険な「ペルソナ」を採用することで有害な出力を明示的に正当化しており、ファインチューニングによるEMに関する先行研究の結果を裏付けるものでした。
大規模で探索可能かつ幾何学的に正確な3D都市シーンの合成は、没入型で身体的なアプリケーションを提供する上で困難ながらも価値のある課題です。その難しさは、汎用的な生成モデルを訓練するための大規模で高品質な実世界の3Dスキャンデータの不足にあります。本論文では、現実的な粗い幾何学を提供する衛星画像と、高品質なクローズアップ外観を作成するためのオープンドメイン拡散モデルを融合させることで、大規模な3Dシーンを作成する代替ルートを提案します。私たちは、Skyfall-GSという、高コストな3Dアノテーションを必要とせずにシティブロックスケールの3Dシーンを作成する初めてのフレームワークを提案します。このフレームワークは、リアルタイムで没入型の3D探索も特徴としています。幾何学的な完全性とフォトリアルなテクスチャを段階的に向上させるために、カリキュラム駆動型の反復改良戦略をカスタマイズしました。広範な実験により、Skyfall-GSが最先端のアプローチと比較して、クロスビュー一貫性のある幾何学とより現実的なテクスチャを提供することが実証されています。プロジェクトページ: https://skyfall-gs.jayinnn.dev/
拡散ベースの視覚生成における最近の進展は、変分オートエンコーダ(VAE)を用いた潜在拡散モデルに大きく依存してきた。高忠実度の合成において有効である一方で、このVAE+拡散パラダイムは、トレーニング効率の低さ、推論の遅さ、およびより広範な視覚タスクへの転移性の低さといった課題を抱えている。これらの問題は、VAEの潜在空間における重要な制限、すなわち明確な意味的分離と強力な識別構造の欠如に起因している。我々の分析は、これらの特性が知覚および理解タスクだけでなく、潜在拡散モデルの安定かつ効率的なトレーニングにおいても重要であることを確認している。この洞察に基づき、我々はSVG(Self-supervised Visual Generation)を提案する。これは変分オートエンコーダを用いない新しい潜在拡散モデルであり、自己教師あり表現を活用して視覚生成を行う。SVGは、凍結されたDINO特徴を活用して明確な意味的識別性を持つ特徴空間を構築し、軽量な残差ブランチが高忠実度再構成のための微細な詳細を捕捉する。拡散モデルは、この意味的に構造化された潜在空間上で直接トレーニングされ、より効率的な学習を促進する。その結果、SVGは拡散トレーニングの加速、少数ステップでのサンプリングのサポート、および生成品質の向上を実現する。実験結果はさらに、SVGが基盤となる自己教師あり表現の意味的および識別的機能を保持し、タスク汎用的で高品質な視覚表現に向けた原理的な道筋を提供することを示している。
ソシュールやチョムスキーの理論的枠組みに強く影響を受けた大規模言語モデル(LLM)に対する言語学的評論は、しばしば推測的で非生産的である。批評家たちは、理想化された言語的「能力」を達成するためには「深層構造」や「基盤付け」が必要であると指摘し、LLMが言語を正当にモデル化できるかどうかに疑問を投げかける。我々は、著名な一般言語学者かつ歴史言語学者であるヴィトルト・マンチャックの経験主義的原則に向けた視点の根本的な転換を主張する。彼は言語を「記号の体系」や「脳の計算システム」としてではなく、語られ書かれたものの総体として定義する。特に、彼は特定の言語要素の使用頻度を言語の主要な支配原理として位置づけている。彼の枠組みを用いて、我々はこれまでのLLMに対する批判に異議を唱え、言語モデルの設計、評価、解釈のための建設的な指針を提供する。
レンズフレアは画像品質を著しく低下させ、物体検出や自動運転といった重要なコンピュータビジョンタスクに影響を及ぼします。最近の単一画像フレア除去(SIFR)手法は、フレーム外の光源が不完全または存在しない場合に性能が低下します。本研究では、SIFRを強化するために、フレーム外光源を再構築する拡散ベースのアウトペインティングフレームワーク「LightsOut」を提案します。本手法は、マルチタスク回帰モジュールとLoRAファインチューニングされた拡散モデルを活用し、現実的かつ物理的に整合性のあるアウトペインティング結果を保証します。包括的な実験により、LightsOutが既存のSIFR手法の性能を挑戦的なシナリオにおいて一貫して向上させ、追加の再トレーニングなしで汎用的に適用可能なプラグアンドプレイの前処理ソリューションとして機能することが実証されました。プロジェクトページ: https://ray-1026.github.io/lightsout/
大規模言語モデルは、二つのファミリーに分かれる:推論中心のLLM(内部の連鎖的思考推論を強化するが外部ツールを呼び出せない)と、エージェント型LLM(環境との相互作用を学びツールを活用するが深い推論では遅れがち)である。この分断は、根本的に異なる訓練目的から生じ、単純なクエリにおいて両ファミリーが過剰に思考したりツールを過剰に呼び出したりするため、強みの不一致と非効率性を引き起こす。本研究では、Adaptive Agent Foundation Model (A^2FM)を提案する。これは、ルート・アラインメント原則に従う統一フレームワークであり、モデルはまずタスク対応のルーティングを学び、その後共有バックボーンの下でモード固有の軌跡を整列させる。非効率性のギャップに対処するため、第三のモード「インスタント」を導入し、単純なクエリを直接処理することで、不必要な推論やツール呼び出しを防ぎつつ、エージェント型と推論型のモードを補完する。精度と効率を同時に向上させるため、Adaptive Policy Optimization (APO)を提案する。これは、モード間での適応的サンプリングを強制し、コスト正則化された報酬を適用する。32Bスケールにおいて、A^2FMはBrowseCompで13.4%、AIME25で70.4%、HLEで16.7%を達成し、比較可能なモデルの中で新たなSOTAを樹立し、エージェント型、推論型、および一般的なベンチマークにおいてフロンティアLLMと競争力のある性能を示す。特に、適応的実行は正解あたりのコストを$0.00487に抑え、推論型に比べて45.2%、エージェント型に比べて33.5%のコスト削減を実現し、同等の精度を維持しながら大幅に高いコスト効率を提供する。
学術プロジェクトのウェブサイトは、コアコンテンツを明確に提示し、直感的なナビゲーションとインタラクションを可能にすることで、研究の普及をより効果的に行うことができます。しかし、現在のアプローチである大規模言語モデル(LLM)の直接生成、テンプレート、または直接HTML変換では、レイアウトを考慮したインタラクティブなサイトを生成することが難しく、このタスクに対する包括的な評価スイートが不足していました。本論文では、学術ウェブページ生成を評価するためのベンチマークデータセットと多次元評価フレームワークであるPaper2Webを紹介します。これには、接続性、完全性などのルールベースのメトリクスや、インタラクティブ性、美学、情報量をカバーする人間検証済みのLLM-as-a-Judge、および論文レベルの知識保持を測定するPaperQuizが含まれます。さらに、科学論文をインタラクティブでマルチメディア豊富な学術ホームページに変換する自律パイプラインであるPWAgentを提案します。このエージェントは、強調、バランス、プレゼンテーション品質を向上させるMCPツールを通じて、コンテンツとレイアウトを反復的に洗練します。実験結果から、PWAgentは、テンプレートベースのウェブページやarXiv/alphaXivバージョンなどのエンドツーエンドのベースラインを大幅に上回りながら、低コストを維持し、学術ウェブページ生成におけるパレートフロントを達成することが示されました。
BLIP3シリーズの最新作であるBLIP3o-NEXTを紹介します。これは完全にオープンソースの基盤モデルであり、ネイティブ画像生成の新たなフロンティアを切り拓くものです。BLIP3o-NEXTは、テキストから画像への生成と画像編集を単一のアーキテクチャに統合し、強力な画像生成および編集能力を実証しています。最先端のネイティブ画像生成モデルの開発において、私たちは以下の4つの重要な洞察を得ました:(1) ほとんどのアーキテクチャの選択肢は同等の性能を発揮し、効率的にスケールし、高速な推論をサポートするアーキテクチャが有効と見なされること、(2) 強化学習の成功した応用がネイティブ画像生成のフロンティアをさらに押し上げること、(3) 画像編集は依然として困難なタスクであるが、ポストトレーニングとデータエンジンを通じて指示の追従と生成画像と参照画像の一貫性を大幅に向上できること、(4) データの品質と規模がモデル性能の上限を決定する決定的な要因であり続けること。これらの洞察に基づき、BLIP3o-NEXTは、オートリグレッシブモデルがまずマルチモーダル入力を条件に離散的な画像トークンを生成し、その隠れ状態を拡散モデルの条件信号として使用して高精細な画像を生成する「オートリグレッシブ+拡散」アーキテクチャを採用しています。このアーキテクチャは、オートリグレッシブモデルの推論力と指示追従能力を拡散モデルの微細なディテール描写能力と統合し、新たなレベルの一貫性とリアリズムを実現しています。様々なテキストから画像への生成および画像編集ベンチマークでの広範な評価により、BLIP3o-NEXTが既存のモデルを凌駕する優れた性能を達成していることが示されています。
大規模推論モデルの進化に伴い、これらのモデルの推論能力を効果的に評価することがますます重要になっています。しかし、大規模モデルの推論能力を評価するために設計された既存のベンチマークは、その範囲が限定的であり、モデルの進化する推論能力に応じて難易度を柔軟に調整する機能を欠いています。この問題に対処するため、我々はMorphoBenchを提案します。これは、大規模モデルの推論能力を評価するために学際的な問題を取り入れ、先進モデルの推論能力に基づいて問題の難易度を調整・更新できるベンチマークです。具体的には、既存のベンチマークやオリンピアドレベルの競技などのソースから複雑な推論問題を選定・収集することでベンチマークを構築します。さらに、MorphoBenchは、モデルの推論プロセス中に生成される重要なステートメントを活用して、問題の分析的難易度を適応的に変更します。また、シミュレーションソフトウェアを使用して生成された問題も含まれており、最小限のリソース消費でベンチマークの難易度を動的に調整することが可能です。我々は1,300以上のテスト問題を収集し、o3やGPT-5などのモデルの推論能力に基づいてMorphoBenchの難易度を反復的に調整しました。MorphoBenchは、モデルの推論評価の包括性と妥当性を向上させ、大規模モデルの推論能力と科学的堅牢性の改善に向けた信頼性の高い指針を提供します。コードはhttps://github.com/OpenDCAI/MorphoBenchで公開されています。
テキストからビデオへの合成技術は急速に進歩しているにもかかわらず、生成されるビデオの品質は、ユーザーの正確なプロンプトに大きく依存しています。他の分野では成功している既存のテスト時最適化手法も、ビデオの多面的な性質に対応するのに苦戦しています。本研究では、VISTA(Video Iterative Self-improvemenT Agent)を紹介します。これは、反復ループを通じてプロンプトを改良し、ビデオ生成を自律的に改善する新しいマルチエージェントシステムです。VISTAはまず、ユーザーのアイデアを構造化された時間的計画に分解します。生成後、堅牢なペアワイズトーナメントを通じて最良のビデオを特定します。この勝ち抜いたビデオは、視覚、音声、文脈の忠実度に焦点を当てた3つの専門エージェントによって批評されます。最後に、推論エージェントがこのフィードバックを統合し、内省的にプロンプトを書き直し、次の生成サイクルのために強化します。単一シーンおよび複数シーンのビデオ生成シナリオでの実験では、従来の手法が一貫した改善をもたらさないのに対し、VISTAはビデオの品質とユーザーの意図との整合性を一貫して向上させ、最先端のベースラインに対して最大60%のペアワイズ勝率を達成しました。人間の評価者もこれを支持し、比較の66.4%でVISTAの出力を選好しました。
GPT-4やAlphaFoldなどの基盤モデル(Foundation Models, FMs)は、科学研究の風景を変革しつつある。仮説生成、実験設計、結果解釈といったタスクを加速するだけでなく、より根本的な問いを提起している:FMsは既存の科学的手法を単に強化しているのか、それとも科学の進め方を再定義しているのか?本論文では、FMsが新しい科学パラダイムへの移行を促進していると主張する。この進化を記述するために、3段階のフレームワークを導入する:(1) メタ科学的統合(Meta-Scientific Integration)—FMsが従来のパラダイム内でのワークフローを強化する段階、(2) 人間とAIのハイブリッド共創(Hybrid Human-AI Co-Creation)—FMsが問題設定、推論、発見において積極的な協力者となる段階、(3) 自律的科学発見(Autonomous Scientific Discovery)—FMsが人間の介入を最小限に抑えつつ、新たな科学的知識を生成する独立したエージェントとして機能する段階。この視点を通じて、既存の科学パラダイムにおけるFMsの現在の応用と新たな能力をレビューする。さらに、FMsを活用した科学発見におけるリスクと将来の方向性を特定する。本ポジションペーパーは、科学コミュニティがFMsの変革的役割を理解し、科学発見の未来について考察を深めることを目的としている。本プロジェクトはhttps://github.com/usail-hkust/Awesome-Foundation-Models-for-Scientific-Discoveryで公開されている。
OpenAI-o1、DeepSeek-R1、Qwenなどの推論言語モデルは、拡張された思考の連鎖により高い性能を達成するが、しばしば不必要に長い出力を生成する。トークンあたりの知性(応答の長さに対する精度)を最大化することは、未解決の問題である。本研究では、最も単純な長さペナルティである「切り捨て」を用いた強化学習(RL)を再検討し、精度の低下が洗練されたペナルティの欠如ではなく、不十分なRL最適化に起因することを示す。我々は3つの主要な課題を特定した:(i) アドバンテージ推定における大きなバイアス、(ii) エントロピーの崩壊、(iii) スパースな報酬信号。これらを解決するため、バッチ単位の報酬正規化、高いクリッピング、動的サンプリング、および単純な切り捨て長さペナルティを組み合わせたトレーニング手法「Doing Length pEnalty Right (DLER)」を提案する。DLERは、出力長を70%以上削減しながら、従来のすべてのベースライン精度を上回る、精度と効率のトレードオフにおいて最先端の性能を達成する。また、テスト時のスケーリングも改善し、DeepSeek-R1-7Bと比較して、DLER-7Bは並列で複数の簡潔な応答を生成し、28%高い精度と低いレイテンシを実現する。さらに、容易な質問に対して切り捨てを適応的に強化する「Difficulty-Aware DLER」を導入し、追加の効率向上を図る。また、RLトレーニングデータが不足しているシナリオにおいて有用な、ベースライン精度を維持しながらDLERモデルの簡潔な推論能力を保持する更新選択的マージ手法を提案する。
科学的発見の自動化は、人工知能(AI)研究における重要なマイルストーンを表している。しかし、既存の科学的エージェントシステムは、中間的な発見に適応できない硬直的な事前プログラムされたワークフローと、長期的な研究を妨げる不十分なコンテキスト管理という2つの根本的な制約に直面している。本論文では、freephdlaborを紹介する。これは、リアルタイムのエージェント推論によって決定される完全に動的なワークフローと、シームレスなカスタマイズを可能にするモジュラーアーキテクチャを特徴とするオープンソースのマルチエージェントフレームワークである。ユーザーは、ドメイン固有の要件に対応するためにエージェントを変更、追加、または削除することができる。このフレームワークは、自動コンテキスト圧縮、情報の劣化を防ぐワークスペースベースのコミュニケーション、セッション間でのメモリの永続性、非ブロッキングな人間介入メカニズムなど、包括的なインフラストラクチャを提供する。これらの機能により、自動化された研究は、孤立した単一実行の試みから、以前の探索を体系的に構築し、人間のフィードバックを取り入れる継続的な研究プログラムへと変革される。本論文は、カスタマイズ可能な共同研究者システムを構築するためのアーキテクチャ原則と実用的な実装を提供することで、科学分野全体での自動化研究のより広範な採用を促進し、実践者がアイデアの創出から実験、出版準備原稿までのエンドツーエンドの研究を自律的に行うインタラクティブなマルチエージェントシステムを展開することを可能にすることを目指している。
深層研究ウェブエージェントは、ウェブ環境、ファイル、マルチモーダル入力など多様な情報源から情報を取得するだけでなく、より重要なことに、洞察に富んだ研究のためには知識を厳密に分析し、集約する必要がある。しかし、既存のオープンソースの深層研究エージェントは、特定の情報を探し出すためのウェブエージェントの情報探索能力の向上に主眼を置いており、情報集約の必要性を見落としている。これにより、深層研究を支援する能力が制限されている。我々は、ウェブエージェントのための検証可能なトレーニングデータをスケーラブルに構築するための「探索から進化へ」というパラダイムを提案する。このパラダイムでは、エージェントが積極的にオンライン探索を行い、実際のウェブを探索することで根拠のある情報を収集する。収集した証拠を用いて、エージェントは12の高レベル論理タイプから操作を選択、構成、洗練することで集約プログラムを自己進化させ、検証可能なQAペアを合成する。この高レベルガイダンスから具体的な操作への進化により、50,000のウェブサイトと11のドメインにわたる10,000サンプルのデータセット「WebAggregatorQA」をスケーラブルに生成することができた。オープンソースのエージェントフレームワーク「SmolAgents」に基づき、教師ありファインチューニングの軌跡を収集し、一連の基盤モデル「WebAggregator」を開発した。WebAggregator-8BはGPT-4.1と同等の性能を示し、32BバリアントはGAIA-textにおいてGPT-4.1を10%以上上回り、Claude-3.7-sonnetに迫る性能を発揮した。さらに、ウェブエージェントの情報集約能力を評価するベンチマークの限られた可用性を考慮し、WebAggregatorQAの人間による注釈付き評価スプリットを構築し、挑戦的なテストセットとした。このベンチマークでは、Claude-3.7-sonnetは28%、GPT-4.1は25.8%しか達成できなかった。エージェントがすべての参照を取得できた場合でも、WebAggregatorQAでは依然として苦戦しており、ウェブエージェント基盤の情報集約能力を強化する必要性が浮き彫りとなった。
大規模言語モデル(LLMs)は、特に数学やコードなど報酬をプログラム的に検証可能な領域において、強化学習(RL)を通じて著しい進展を示してきた。これらの領域では、明示的なルールベースの目的に導かれた明確な操作基盤がモデルに利点をもたらす。しかし、この進展は重要な限界を明らかにしている。創造的な文章作成、科学的推論、そして特に医療相談など、報酬が曖昧で主観的または文脈依存的なオープンエンドな領域では、堅牢な報酬関数が欠如しており、これらの領域は現在のRL戦略にとって困難である。このギャップを埋めるため、我々はORBITを導入する。これは、高リスクの医療対話に特化したオープンエンドなルーブリックベースの漸進的トレーニングフレームワークである。ORBITは、合成対話生成とルーブリックの動的作成を統合し、これらのルーブリックを用いて漸進的なRLプロセスを導く。特に、このアプローチは外部の医療知識や手動ルールに依存せず、代わりにルーブリックに基づくフィードバックを活用して学習を形成する。Qwen3-4B-Instructモデルに実装した場合、我々の手法はHealthBench-Hardベンチマークにおいて、わずか2,000サンプルで性能を7.0から27.2に大幅に向上させ、この規模のモデルにおいて最先端の結果を達成する。我々の分析は、ルーブリック駆動型RLが、単なる数値的改善を超えて、多様な相談シナリオにおいて一貫した性能向上を促進することを確認している。これらの発見は、複雑でオープンエンドなタスクにおいてLLMsを進歩させるためのスケーラブルな戦略として、ルーブリックベースのフィードバックを強調するものである。
芸術的で一貫性のある3Dシーンレイアウトの生成は、デジタルコンテンツ制作において極めて重要です。従来の最適化ベースの手法は、煩雑な手動ルールに制約されることが多く、深層生成モデルは豊かさと多様性を備えたコンテンツの生成に課題を抱えています。さらに、大規模言語モデルを利用するアプローチは、堅牢性に欠け、複雑な空間関係を正確に捉えることができないことが多いです。これらの課題に対処するため、本論文では、新しいビジョンガイド型3Dレイアウト生成システムを提案します。まず、2,037のシーンアセットと147の3Dシーンレイアウトを含む高品質なアセットライブラリを構築します。次に、画像生成モデルを使用してプロンプト表現を画像に拡張し、アセットライブラリに合わせて微調整します。その後、視覚的セマンティクスと幾何学的情報に基づいてシーンの3Dレイアウトを復元する堅牢な画像解析モジュールを開発します。最後に、シーングラフと全体的な視覚的セマンティクスを使用してシーンレイアウトを最適化し、論理的一貫性と画像との整合性を確保します。大規模なユーザーテストにより、本アルゴリズムがレイアウトの豊かさと品質において既存の手法を大幅に上回ることが実証されました。コードとデータセットはhttps://github.com/HiHiAllen/Imaginariumで公開されます。
近年の大規模言語モデル(LLM)は、金融関連の問題解決において有望な能力を示している。しかし、その高いリスクと重大な影響を伴う性質から、現実世界の金融アプリケーションへのLLMの適用は依然として課題が多い。本論文では、金融アプリケーションにおけるLLMの信頼性を評価するために特別に設計された包括的なベンチマーク「FinTrust」を紹介する。本ベンチマークは、実践的な文脈に基づいた幅広い整合性の問題に焦点を当て、信頼性評価の各次元に対して細分化されたタスクを特徴としている。我々はFinTrustを用いて11のLLMを評価し、o4-miniのようなプロプライエタリモデルが安全性などのほとんどのタスクで優れている一方、DeepSeek-V3のようなオープンソースモデルが業界レベルの公平性などの特定の領域で優位性を持つことを明らかにした。受託者としての整合性や開示といった困難なタスクでは、すべてのLLMが不十分な結果を示し、法的意識の大きなギャップが浮き彫りとなった。FinTrustは、金融領域におけるLLMの信頼性評価において貴重なベンチマークとなり得ると我々は考えている。
大規模言語モデル(LLMs)における感情的知性への需要が高まる中、感情表現を生み出す内部メカニズムの理解と、生成テキストにおける感情の制御が重要な課題となっている。本研究では、以下の3つの核心的な問いに取り組む:(1) LLMsは文脈に依存しない感情表現を形作るメカニズムを含んでいるか?(2) これらのメカニズムはどのような形態をとるか?(3) それらを普遍的な感情制御に活用できるか?まず、感情間で比較可能な内部状態を引き出すために、制御されたデータセットSEV(Scenario-Event with Valence)を構築する。続いて、文脈に依存しない感情方向を抽出し、感情の一貫したクロスコンテキストエンコーディングを明らかにする(Q1)。分析的な分解と因果分析を通じて、感情計算を局所的に実装するニューロンとアテンションヘッドを特定し、アブレーションおよび強化介入によってそれらの因果的役割を検証する。次に、各サブレイヤーがモデルの最終的な感情表現に及ぼす因果的影響を定量化し、特定された局所的な構成要素を統合して、感情表現を駆動する一貫したグローバルな感情回路を構築する(Q2)。これらの回路を直接調整することで、テストセットにおいて99.65%の感情表現精度を達成し、プロンプトベースおよびステアリングベースの手法を凌駕する(Q3)。我々の知る限り、これはLLMsにおける感情回路を体系的に解明し検証した初めての研究であり、解釈可能性と制御可能な感情的知性に関する新たな洞察を提供するものである。
経験的なスケーリング則は、パラメータ、データ、計算リソースの割り当て方を規定し、最大更新パラメータ化(muP)は、幅を跨いだ学習率の転移を初期更新の大きさを均一化することで可能にする。しかし、現代のスケール不変アーキテクチャでは、訓練は迅速にオプティマイザーが支配する定常状態に入り、正規化層が後方スケール感度を生み出し、実効学習率が幅に依存するようになり、muPの転移が劣化する。これを解決するために、AdamWにおける重み減衰のスケーリング則を導入し、幅を跨いだサブレイヤーゲインを保持する。経験的に、各行列パラメータの特異値スペクトルはノルムとしてeta/lambdaに比例し、形状はほぼ不変である。幅スケーリングdの下で、最上位の特異値はほぼeta/lambda * d^{0.75}に比例することを観察する。この観察を、行列類似パラメータに対するmuP学習率則eta_2 ∝ d^{-1}と組み合わせることで、経験的な重み減衰スケーリング則lambda_2 ∝ dが導かれ、サブレイヤーゲインを幅不変に保つ。これに加えて、eta_1 = Theta_d(1)およびlambda_1 = 0で訓練されるベクトル類似パラメータを組み合わせることで、学習率と重み減衰の両方をプロキシ幅からターゲット幅へゼロショット転移させ、幅ごとの探索を不要にする。この則をLLaMAスタイルのTransformerおよび最小限の合成設定で検証し、サブレイヤーゲイン不変性を確認するための簡単な診断法(最上位特異値の一致)を提供する。我々の結果は、muPを初期近傍領域を超えて拡張し、オプティマイザーによって設定される定常状態のスケールを明示的に制御することで、AdamW下での幅ロバストなハイパーパラメータ転移の実用的なレシピを提供する。
Mixture-of-Experts(MoE)モデルは、スパースなエキスパート活性化を通じて効率的なスケーリングを実現しますが、デプロイ時の分布シフトに起因するルーティング決定の最適化不足に悩まされることが多いです。既存のテスト時適応手法はこれらの問題に対処する可能性がありますが、主に密なモデルに焦点を当てており、外部データへのアクセスを必要とするため、MoEアーキテクチャへの実用的な適用が制限されています。しかし、参照データに依存する代わりに、入力コンテキストのみに基づいてMoEのエキスパート選択をオンザフライで最適化できることがわかりました。そこで、外部の監視やデータを必要とせず、テキスト生成中にMoEのルーティング決定を継続的に適応させるデータフリーのオンラインテスト時フレームワークを提案します。本手法は2つのフェーズを循環します:プリフィル段階およびその後定期的に、既に生成されたシーケンスに基づく自己監視を用いてモデルのルーティング決定を最適化します。その後、通常通りテキストを生成し、次の適応まで修正されたルーターを維持します。これを実現するために、選択された層のルーターロジットのみを更新する軽量な加算ベクトルを導入し、計算効率を維持しながら過剰適応を防ぎます。実験結果は、コンテキストシフトに対する堅牢性を維持しつつ、困難な推論タスクにおいて一貫した性能向上を示しています。例えば、本手法はOLMoEにおいてHumanEvalで5.5%の改善を達成しました。さらに、プラグアンドプレイの特性により、本手法は既存のテスト時スケーリング技術と自然に補完し、例えばDeepSeek-V2-Liteにおける自己整合性と組み合わせることで平均6%の向上を実現します。
大規模言語モデル(LLM)は、情報が段階的に提示される多ターン会話において、パフォーマンスの著しい低下に悩まされています。多ターン会話はLLMとの日常的なインタラクションを特徴づけるものであり、この低下は実世界での有用性に深刻な課題を突きつけています。我々は、モデルの不確実性の急激な増加が多ターンLLMインタラクションにおけるミスアラインメントを示すと仮定し、この洞察を活用して会話コンテキストを動的に再調整します。我々はERGO(Entropy-guided Resetting for Generation Optimization)を導入し、次トークン分布に対するシャノンエントロピーを通じて内部不確実性を継続的に定量化し、エントロピーの急激な上昇が検出された場合に適応的なプロンプト統合をトリガーします。不確実性を排除すべき厄介者ではなく第一級の信号として扱うことで、ERGOは言語とモデリングの変動を受け入れ、不確実性を表現し対応します。段階的に明らかにされる指示を伴う多ターンタスクにおいて、ERGOは標準ベースラインに対して平均56.6%のパフォーマンス向上をもたらし、適性(ピークパフォーマンス能力)を24.7%向上させ、信頼性の低さ(パフォーマンスの変動)を35.3%減少させました。これにより、不確実性を意識した介入が会話型AIの精度と信頼性の両方を向上させることが実証されました。
マルチモーダル大規模言語モデル(MLLMs)は、画像テキストキャプションデータとインタリーブドキュメントデータの混合データセットで継続的に事前学習が行われているが、画像テキストインタリーブドキュメントデータに対する高品質なデータフィルタリングは十分に検討されていない。本研究では、高品質な画像テキストキャプションおよびインタリーブデータをフィルタリングするための効率的なMLLMを、統一マルチモーダルデータ品質分類器(UniFilter)として訓練することを提案する。多様なラベル付きマルチモーダルデータを収集する課題に対処するため、容易に利用可能な生画像を活用し、4つの品質レベルに対応するテキストを生成する半合成アプローチを導入する。この方法により、キャプションおよびインタリーブドキュメントデータのサンプル-スコアペアを効率的に作成し、UniFilterを訓練する。UniFilterを適用して、DataCompキャプションデータセットから高品質なキャプションデータを、またOBELICS画像テキストインタリーブデータセットから高品質なインタリーブデータを選別する。フィルタリングされたデータで事前学習されたMLLMsは、ベースラインフィルタリングされたデータで訓練されたモデルと比較して、ゼロショット推論およびインコンテキスト学習能力が大幅に向上する。視覚的教師ありファインチューニング後、これらのUniFilter誘導MLLMsは、さまざまなベンチマークでより高い性能を達成し、高品質なマルチモーダル事前学習の下流効果を強調する。本研究では、UniFilterの訓練に使用された合成訓練データ、UniFilterモデルのチェックポイント、およびUniFilterによって選別された高品質なインタリーブドキュメントサブセットOBELICS-HQをコミュニティに公開し、再現性とさらなる発展を促進する。
本論文では、自己教師あり視覚トランスフォーマーから得られる単一の連続潜在トークンを用いて画像を表現する生成モデリングフレームワークであるRepresentation Tokenizer(RepTok)を提案する。事前学習されたSSLエンコーダを基盤として、セマンティックトークン埋め込みのみをファインチューニングし、標準的なフローマッチング目的関数を用いて共同で訓練された生成デコーダと組み合わせる。この適応により、トークンは低レベルの再構成関連の詳細を豊かにし、忠実な画像再構成を可能にする。元のSSL空間の良好な幾何学的特性を維持するために、適応されたトークンを正則化するコサイン類似度損失を追加し、潜在空間が滑らかで生成に適した状態を保つようにする。単一トークンの定式化により、2D潜在空間の空間的冗長性が解消され、訓練コストが大幅に削減される。簡潔さと効率性にもかかわらず、RepTokはクラス条件付きImageNet生成において競争力のある結果を達成し、極めて限られた訓練予算下でMS-COCOにおけるゼロショット性能においても競争力のある結果を示す。本研究の成果は、ファインチューニングされたSSL表現が、効率的な生成モデリングのためのコンパクトで効果的な潜在空間としての可能性を強調している。
本論文では、既存手法の重要な制約を解決する高品質かつ高度に制御可能な動的3D運転シーン生成のための新規フレームワーク、DriveGen3Dを提案する。現在の運転シーン合成手法は、長時間の時間的生成における計算負荷が過大であるか、3D表現を伴わない長時間ビデオ合成に限定されているか、あるいは静的な単一シーン再構成に制限されている。本研究は、マルチモーダル条件制御を通じて、加速された長期ビデオ生成と大規模動的シーン再構成を統合することで、この方法論的ギャップを埋める。DriveGen3Dは、2つの専門コンポーネントからなる統一パイプラインを導入する:FastDrive-DiTは、テキストおよび鳥瞰図(BEV)レイアウトのガイダンス下で高解像度かつ時間的に一貫したビデオ合成を行う効率的なビデオ拡散トランスフォーマーであり、FastRecon3Dは、時間を跨いで3Dガウス表現を迅速に構築するフィードフォワード再構成モジュールで、空間的・時間的一貫性を保証する。これらのコンポーネントを組み合わせることで、拡張された運転ビデオ(最大424×800、12 FPS)および対応する動的3Dシーンのリアルタイム生成を実現し、新規視点合成においてSSIM 0.811、PSNR 22.84を達成しつつ、パラメータ効率を維持する。