翻訳付きの日次キュレーションされたAI研究論文
厳密に管理された事前学習設定において、我々はクロスオーバー現象を観察した:ユニークデータが限定的な状況下では、拡散言語モデル(DLMs)がより多くのエポック学習することで、自己回帰(AR)モデルを一貫して凌駕するのである。このクロスオーバー点は、データ量の増加や高品質化に伴って後方にシフトし、モデルサイズの拡大に伴って前方に移動する。また、この現象は密なアーキテクチャと疎なアーキテクチャの両方で持続的に確認される。我々はこの性能向上を以下の3つの複合的要因に帰因する:(1)任意順序モデリング、(2)反復的双方向ノイズ除去による超密計算、(3)組み込みモンテカルロ拡張。入力またはパラメータノイズはデータ制約下でのARモデルの性能を改善するが、このギャップを埋めるには至らない。大規模設定では、約1.5Tトークンの計算予算で100億ユニークなPythonトークンを学習した1.7BパラメータのDLMが、厳密に同一条件で学習されたARコーダを逆転する。さらに、10億パラメータのDLMは、特殊な手法を用いず標準的な事前学習データを繰り返し学習するだけで、10億トークンのみを使用してHellaSwagで56%以上、MMLUで33%以上の精度を達成する。また、この領域では検証クロスエントロピーの上昇が下流タスクの性能劣化を意味しないことも示す。
効果的なクロスモーダルモデリングの欠如により、既存のオープンソースの音声-映像生成手法は、しばしば不十分な唇の同期性と意味的一貫性の低下を示す。これらの欠点を緩和するため、我々は音声と映像の統合生成のための統一フレームワークであるUniAVGenを提案する。UniAVGenは、二つの並列Diffusion Transformer(DiT)を組み込んだデュアルブランチ統合合成アーキテクチャを基盤とし、結束力のあるクロスモーダル潜在空間を構築する。その中核には、双方向的で時間的に整合したクロスアテンションを可能にする非対称クロスモーダル相互作用機構があり、これにより精密な時空間的同期と意味的一貫性が保証される。さらに、このクロスモーダル相互作用は、相互作用プロセスにおける顕著な領域を動的に優先化する顔認識モジュレーションモジュールによって拡張されている。推論時の生成忠実度を高めるため、我々はさらに、クロスモーダル相関信号を明示的に増幅する新規戦略であるモダリティ認識Classifier-Free Guidanceを導入する。特筆すべきは、UniAVGenの堅牢な統合合成設計により、音声-映像統合生成と継続、映像から音声への吹き替え、音声駆動映像合成といった重要な音声-映像タスクを単一モデル内でシームレスに統一可能である点である。包括的実験により、はるかに少ない訓練サンプル数(1.3M対30.1M)で、UniAVGenが音声-映像同期性、音色一貫性、感情一貫性において全体的な優位性を発揮することが実証された。
大規模言語モデル(LLM)を用いた3Dシーン自動生成において近年進展が見られるものの、生成されたシーンは実世界環境に見られる現実的な空間配置や物体属性を欠くことが多い。この問題は不十分に詳細で粗い指示に起因するため、実世界環境を反映したより詳細できめ細かい指示に導かれた3Dシーン合成の進展が重要となる。こうした現実的なシーンが不足すると、非現実的な環境で具現化エージェントを訓練した場合、実世界の物理法則や意味論から大きく逸脱した事前分布を学習させ、実稼働時の性能低下を招く恐れがある。したがって、きめ細かい指示と生成シーンとの整合性を検証することが効果的な学習には不可欠である。しかし現在の評価手法(CLIPScoreや視覚言語モデルなど)は、このような整合性を確実に評価できないことが多い。この欠点は主に、3Dシーンに対する浅い理解に起因し、不適切に接地されたシーン構成要素を生みやすい。この問題に対処するため、我々はLEGO-Evalを提案する。これはシーン構成要素を明示的に接地する多様なツールを備えた評価フレームワークであり、より正確な整合性評価を可能にする。さらに、実世界環境の複雑な配置と属性を規定する詳細な指示からなるベンチマークLEGO-Benchを提示する。実験により、LEGO-Evalはシーンと指示の整合性評価においてVLM裁判官手法をF1スコアで0.41上回ることを実証した。LEGO-Benchによるベンチマーク評価は、現在の生成手法に重大な限界があることを明らかにしている。評価対象とした全ての手法において、きめ細かい指示と完全に整合するシーンを生成する成功率は最大でも10%に留まった。
現在の大規模言語モデル(LLM)エージェントの評価は、主にタスク完了に重点が置かれており、リソース効率や適応性が見過ごされがちです。これにより、環境の変化に応じてコスト最適な計画を立案・調整するという重要な能力が軽視されています。この課題を解決するため、我々はCostBenchを提案します。これは、エージェントの経済的推論と計画再調整能力を評価するための、スケーラブルでコスト中心のベンチマークです。旅行計画領域を題材としたCostBenchは、多様でカスタマイズ可能なコストを持つ原子ツールと複合ツールの組み合わせにより解決可能なタスク群で構成されています。さらに、ツール障害やコスト変動など4種類の動的阻害事象をサポートし、現実世界の不確実性を模擬し、エージェントにリアルタイム適応を要求します。主要なオープンソースモデルおよびプロプライエタリモデルをCostBenchで評価した結果、コストを考慮した計画立案において重大な課題が明らかになりました:エージェントは静的な環境下でもコスト最適解を見出せないことが頻発し、最も困難なタスクではGPT-5ですら75%未満の完全一致率に留まり、動的環境下では性能が約40%も低下しました。これらの弱点を診断するCostBenchは、経済的に合理的かつ頑健な将来のエージェント開発の基盤を築くものです。
表形式データは、実世界のアプリケーションにおいて依然として主要な形式である。しかし、異種混合の特徴タイプと複数のスケールで発生する複雑な相互作用により、表形式データに対する効果的なニューラルモデルの開発は依然として困難な課題である。TabPFNやTabICLなどの表形式インコンテキスト学習(ICL)の最近の進展により、タスク固有のファインチューニングなしで勾配ブースティング木(GBT)に匹敵する最先端の性能が達成されている。しかし、現在のアーキテクチャには重要な限界がある:(1)階層的な依存関係を見落とす単一スケールの特徴処理、(2)表の幅に対して二次関数的にスケールする密な注意機構、(3)反復的な表現洗練やコンポーネント間通信を妨げる厳密に順次的なコンポーネント処理である。これらの課題に対処するため、我々はOrion-MSPを導入する。これは以下の3つの主要な革新を特徴とする表形式ICLアーキテクチャである:(1)階層的な特徴相互作用を捕捉するマルチスケール処理、(2)スケーラブルな効率性と長距離接続性を実現するウィンドウ・グローバル・ランダムパターンを組み合わせたブロック疎注意機構、(3)コンポーネント間の安全な双方向情報フローを可能にするPerceiverスタイルのメモリである。多様なベンチマークにおいて、Orion-MSPは高次元の表に効果的にスケールしながら、最先端の性能に匹敵またはそれを上回り、効率的な表形式インコンテキスト学習の新たな標準を確立する。本モデルはhttps://github.com/Lexsi-Labs/Orion-MSP で公開されている。
表データ基盤モデルは、構造化データ学習における新たなパラダイムとして台頭しており、大規模事前学習の利点を表データ領域に拡張するものです。しかしながら、異種混在の前処理パイプライン、断片化されたAPI、一貫性のないファインチューニング手順、さらに較正や公平性といった実装指向の指標に対する標準化された評価手法の欠如などから、その普及は依然として限られています。本論文では、単一インターフェースを通じて表データ基盤モデルの完全なワークフローを標準化する統合ライブラリ「TabTune」を提案します。TabTuneは、ゼロショット推論、メタ学習、教師ありファインチューニング(SFT)、パラメータ効率型ファインチューニング(PEFT)といった複数の適応戦略をサポートする7つの最先端モデルへの一貫したアクセスを提供します。本フレームワークはモデルを意識した前処理を自動化し、内部でアーキテクチャの異質性を管理するとともに、性能、較正、公平性の評価モジュールを統合しています。拡張性と再現性を考慮して設計されたTabTuneは、表データ基盤モデルの適応戦略に関する一貫したベンチマーク評価を可能にします。本ライブラリはオープンソースであり、https://github.com/Lexsi-Labs/TabTune で公開されています。
ロボットが物体を操作し、自身の関節構造をモデル化するためには、運動学的構造と可動部品に対する深い理解が不可欠である。このような理解は、関節を持つ物体モデルを通じて捉えられ、物理シミュレーション、運動計画、方策学習などのタスクにおいて重要な役割を果たす。しかし特に高自由度(DoF)の物体に対するこれらのモデルの作成は、依然として大きな課題である。既存手法は通常、手作業で整備されたデータセットからの運動シーケンスや強い仮定に依存しており、スケーラビリティの妨げとなっている。本論文では、任意のRGB画像やテキスト記述から直接関節物体を合成する自動フレームワーク「Kinematify」を提案する。本手法は、(i)高自由度物体の運動学的トポロジーの推論、(ii)静的形状からの関節パラメータの推定という2つの核心的課題に取り組む。これを実現するため、構造推論のためのMCTS探索と、関節推論のための幾何学駆動最適化を組み合わせ、物理的に一貫し機能的有効性を持つ記述を生成する。Kinematifyを合成環境および実世界環境の多様な入力で評価し、従来手法を上回る位置合わせ精度と運動学的トポロジー精度の向上を実証する。
大規模言語モデル(LLM)は、知識クイズや数学的推論からWebエージェントタスクに至るまで、様々なベンチマークで高い性能を発揮している。しかし、これらのテストは静的な環境で実施され、現実のダイナミクスや不確実性を欠いている。その結果、不確実性下での意思決定ではなく、孤立した推論や問題解決能力のみを評価することになる。この問題に対処するため、我々は現実的かつ変化する市場環境でLLMエージェントを評価するライブ取引環境「LiveTradeBench」を提案する。LiveTradeBenchは以下の3つの設計原則に基づく:(i) 市場価格とニュースのライブデータストリーミングにより、オフラインでのバックテスト依存性を排除し情報漏洩を防ぎつつ、リアルタイムの不確実性を捕捉;(ii) 単一資産の取引行動から複数資産の配分へと制御を拡張するポートフォリオ管理の抽象化により、リスク管理と資産間推論を統合;(iii) ボラティリティ・流動性・情報フローが異なる構造的に異なる市場環境(米国株式市場とPolymarket予測市場)でのマルチ市場評価。各ステップでエージェントは価格・ニュース・自身のポートフォリオを観察し、リスクとリターンのバランスを考慮した割合ベースの資産配分を出力する。LiveTradeBenchを用いて、主要ファミリーに属する21のLLMに対し50日間のライブ評価を実施。結果は、(1) LMArenaの高スコアが優れた取引成果を保証しないこと、(2) モデルがリスク選好や推論のダイナミクスを反映した独自のポートフォリオスタイルを示すこと、(3) 一部のLLMがライブシグナルを効果的に活用して意思決定を適応させることを明らかにした。これらの発見は、静的評価と実世界での能力の間に隔たりがあることを露呈し、ライブ不確実性下での逐次的意思決定と一貫性を試すベンチマークの必要性を示唆する。
推論モデルの急速なスケーリングに伴い、人間の認知におけるマルチモーダリティの本質的役割が鮮明となり、視覚中心の認知行動を探求する必要性が高まっている。しかし、既存のマルチモーダルベンチマークは、テキスト推論を過度に重視するか、視覚中心の認知行動を体系的に捉えることに不足しており、MLLM(大規模マルチモーダル言語モデル)の認知能力が不十分に評価されている。この課題に対処するため、我々はMME-CC(認知能力のマルチモーダル評価ベンチマーク)を提案する。これは視覚に基盤を置くベンチマークであり、11の代表的な推論タスクを空間的・幾何的・知識ベース推論という3つの基本的な視覚情報カテゴリに分類し、MLLMの認知能力をこれらの次元にわたって詳細に分析する。MME-CCに基づき、我々は16の代表的なMLLMで大規模な実験を実施した。本研究により、現状ではクローズドソースモデルが総合的に優位(例:Gemini-2.5-Proの42.66対GLM-4.5Vの30.45)である一方、空間推論と幾何推論は広範に弱点(30%以下)であることが明らかになった。さらに、方向認識の誤り、脆弱な異視点間の同一性維持、反事実的指示への低い遵守度といった共通の誤りパターンを特定し、Chain-of-Thoughtが通常3段階のプロセス(抽出→推論→検証)を経て、視覚的抽出に強く依存することを観察した。本研究成果が、MLLMの認知能力を評価とモデル設計の中心課題として扱う方向性を促進することを期待する。
言語モデルの推論におけるテストタイムスケーリングを再検討し、基本的な疑問を提起する:同じトークン予算と計算資源において、複数の独立したチェーンを並列実行するのと、反復的な洗練化を逐次ステップで行う少数のチェーンを実行するのでは、どちらが優れているか?5つの最先端オープンソースモデルと3つの難易度の高い推論ベンチマークを用いた包括的評価を通じて、チェーンが明示的に以前の試行を基に構築する逐次スケーリングが、支配的な並列自己一貫性パラダイムを95.6%の設定で一貫して上回り、最大46.7%の精度向上をもたらすことを明らかにした。さらに、逆エントロピー重み付き投票という新しいトレーニング不要手法を導入し、逐次スケーリングの精度をさらに向上させる。推論チェーンのエントロピー逆数に比例して回答に重み付けを行うことで、並列多数決を上回る成功率を達成し、これが最適なテストタイムスケーリング戦略であることを立証した。本知見は、Wangらによる自己一貫性デコーディング(Wang et al., 2022)以来テストタイムスケーリングを支配してきた並列推論の常識に根本的な疑問を投げかけ、逐次的洗練化を現代LLM推論の堅牢なデフォルト手法として位置づけ、推論時最適化のアプローチにおけるパラダイムシフトの必要性を示唆する。
協調的対話は参加者が段階的に共通基盤を確立することに依存するが、非対称的な状況下では、異なる実体を指し示しているにもかかわらず合意が得られていると信じる場合がある。本論文ではHCRC MapTaskコーパス(Anderson et al., 1991)に対して、話者と聞き手の接地解釈を参照表現ごとに分離して捕捉する視点主義的アノテーション手法を提案する。これにより、理解がどのように創発し、乖離し、修復されるかを時間経過に沿って追跡可能とする。方式制約付きLLMアノテーションパイプラインを用いて、信頼性推定値付きの13,000の注釈付き参照表現を取得し、生成された理解状態を分析した。結果として、語彙的変種を統一すれば完全な誤解は稀であるが、複数性の不一致が体系的に乖離を誘発することが明らかとなり、見かけ上の接地が如何に指示的齟齬を隠蔽しうるかを示す。本枠組みは、接地された誤解の研究および協調対話における視点依存的な接地をモデル化する(V)LLMの能力評価に対する、資源と分析的視座の両方を提供する。
クエリ拡張は、クエリに関連する文書を見つけるために追加情報を付与することで、クエリをより意味のあるものにする手法である。近年の研究では、大規模言語モデル(LLM)の生成能力を活用し、埋め込み表現の学習とクエリ拡張の生成をマルチタスク方式で行うLLMベースの埋め込みモデルが提案されている。推論時には、これらの共同訓練された埋め込みモデルがクエリ拡張を行った後に埋め込み処理を実施し、効果的な結果を示している。しかし、すべてのクエリを拡張すると埋め込みの遅延が大幅に増大し、一部のクエリでは性能低下を招く可能性がある。また、従来手法はマルチモーダル環境では検討されていない。これらの課題に対処するため、我々はクエリ拡張を適応的に判断可能な普遍的なマルチモーダル埋め込みモデルM-Solomonを提案する。本手法ではまず、訓練データセットのクエリをデータセットレベルで二群に分割する。一方は拡張を要するクエリ群、他方は拡張を要さないクエリ群である。次に、強力なマルチモーダルLLM(MLLM)を活用して、拡張を要するクエリに適切な拡張文を生成する合成プロセスを導入する。さらに適応的クエリ拡張を提案し、M-Solomonが拡張を要するクエリには接頭辞/augmentを付加した合成拡張文を生成し、それ以外のクエリには単純な文字列/embedを生成することを学習することで、必要時にのみクエリ拡張を実行可能とする。実験結果では、M-Solomonが拡張なしのベースラインを大幅に上回っただけでなく、常に拡張を行うベースラインよりも優れた性能を示し、埋め込み遅延も大幅に改善された。
AI Scientistシステムの現状の能力とリスクを理解することは、信頼性の高い持続可能なAI駆動型科学の発展を確保し、学術エコシステムの健全性を維持するために不可欠である。この目的に向けて、我々は新人学生研究者の中核的な研究ワークフローを模倣した最先端の自律型AI科学者システム「Jr. AI Scientist」を開発した。人間のメンターから提供されたベースライン論文をもとに、その限界を分析し、改善のための新たな仮説を立案し、厳密な実験を通じて検証し、結果を含む論文を執筆する。完全な自動化を想定したり小規模なコードで動作したりする従来のアプローチとは異なり、Jr. AI Scientistは明確に定義された研究ワークフローに従い、複雑なマルチファイル実装を処理するための最新のコーディングエージェントを活用することで、科学的に価値のある貢献を実現する。評価においては、AI Reviewerを用いた自動評価、著者主導の評価、およびAI駆動型科学貢献に特化した場であるAgents4Scienceへの投稿を通じて評価を実施した。結果、Jr. AI Scientistが生成する論文は、既存の完全自動化システムよりも高い査読スコアを得ることが示された。しかしながら、著者評価およびAgents4Scienceのレビューから重要な限界も明らかになり、現在のAI Scientistシステムを直接適用することの潜在的リスクと将来研究における主要な課題が示唆された。最後に、開発過程で特定された様々なリスクを包括的に報告する。これらの知見が、AI Scientist開発における現状の進歩とリスクに関する理解を深める一助となることを期待する。