翻訳付きの日次キュレーションされたAI研究論文
コードは、エージェント時代における推論と行動のための精密で実行可能な媒体として台頭してきた。しかし、その進展はプログラム合成やデバッグといった言語中心タスクに集中し、視覚中心のコーディングは未開拓のままだ。人間がスケッチを通じて推論する方法に着想を得て、我々はSVGコードをコンパクトで解釈可能、かつ実行可能な視覚表現として提唱する。本論文では、マルチモーダル理解をコード生成として再定義するベンチマークVCodeを提案する。具体的には、画像を入力として、下流の推論に必要な記号的意味を保持するSVGを生成するタスクである。VCodeは、一般常識(MM-Vet)、専門分野(MMMU)、視覚中心知覚(CV-Bench)の3領域を網羅する。記号的忠実性を評価するため、ポリシーモデルがレンダリングされたSVGに対して質問に答える新規評価手法CodeVQAを提案する。正しい回答は、記号の忠実な保存を示す。実験的に、最先端のVLMでさえ忠実なSVG生成に苦戦し、言語中心と視覚中心のコーディング間に永続的な隔たりが明らかになった。この隔たりを埋めるため、VLMを二軸で拡張するエージェント型フレームワークVCoderを導入する:(i)差異を反復分析しSVGコードを洗練する「修正を伴う思考」、(ii)検出器とパーサーがモデルの内在能力を超えたオブジェクト・形状・テキストなどの構造化手がかりを提供する「視覚ツールを伴う行動」である。ベンチマーク全体では、強力な推論能力を持つ最先端VLMは総合的に高得点を示すものの、専門知識と3D推論には限界が残る。VCoderは最高性能のClaude-4-Opusを12.3ポイント上回る。人間評価では、人間とVLMの両方がレンダリングSVGで性能低下するが、その一貫性は記号的視覚表現の可能性を示唆する。ベンチマークとコードはhttps://github.com/CSU-JPG/VCodeで公開されている。
視覚言語行動(VLA)モデルの成功が拡大している背景には、事前学習済みの視覚言語モデル(VLM)がエージェントに転移可能な世界知識と視覚言語(VL)基盤を付与し、より広範な汎化性を持つ行動モデルの基盤を築けるという期待がある。しかし、これらのVLMを行動モダリティに適応させる際、元のVL表現と知識がどの程度保持されるかは未解明である。本研究では、VLAファインチューニング時の表現保持について体系的な検証を行い、単純な行動ファインチューニングが視覚表現の劣化を招くことを示す。これらの効果を特徴付け測定するため、VLAの隠れ表現をプローブし注意マップを分析するとともに、VLAモデルと対応するVLMを比較するターゲットタスク群と手法を設計し、行動ファインチューニングによって誘発されるVL能力の変化を分離して評価する。さらに、視覚表現の整合性を確保する各種戦略を評価し、劣化を緩和して分布外(OOD)シナリオへの汎化性向上をもたらす簡潔かつ効果的手法を提案する。総合的に、本研究は行動ファインチューニングとVL表現劣化のトレードオフを明確にし、継承されたVL能力を回復する実用的アプローチを提示する。コードは公開済み:https://blind-vla-paper.github.io
我々はMIRAを提案する。これは、推論を成功させるために中間的な視覚的画像の生成が不可欠なシナリオでモデルを評価するための新しいベンチマークである。従来のテキストのみに依存するCoT(連鎖的思考)手法とは異なり、MIRAのタスクでは、モデルがスケッチ、構造図、経路図などの中間画像を生成し、それを推論プロセスのガイドとして利用することが求められる。この設定は、人間が「描いて考える」ことで複雑な問題を解決する方法に極めて近い。MIRAは本質的に困難で、複雑な構造や空間的関係、言語だけでは表現が難しい推論ステップを含むタスクに焦点を当てている。評価データの高品質化を図るため、546のマルチモーダル問題に、中間視覚画像と最終解答を付与した。さらに、MIRAに対する統一的な評価プロトコルを提案する。これは、画像と質問のみを直接入力する評価、画像と思考プロンプトを付与したテキストのみのCoT入力、注釈付き画像の手がかりとテキストの思考プロンプトの両方を含むVisual-CoT入力という、3つの評価入力レベルにわたる。ベンチマークにおけるモデル能力の上限を探るため、異なるk設定におけるpass@kと多数決による正解率も報告する。実験結果から、最も強力な非公開モデルや優れたオープンウェイトモデルを含む既存のマルチモーダル大規模言語モデルは、テキストプロンプトのみに依存した場合、成績が低いことが示された。しかし、中間的な視覚的手がかりが提供されると、モデルの性能は一貫して向上し、全モデルと全タスクで平均33.7%の相対的改善が得られた。また、探索空間を拡大し、Visual-CoTに沿ったテキストプロンプトを設計することで上限を探ったが、いずれも我々のVisual-CoT設定と比べて改善は限定的であった。これらの結果は、MIRAでの推論を成功させる上で、想像された視覚情報が決定的に重要であることを強く示唆している。
我々はStep-Audio-EditXを発表します。これは、感情・話し方・副言語情報を含む表現力豊かな反復的音声編集に優れ、堅牢なゼロショットテキスト読み上げ(TTS)機能も備えた、初のオープンソースLLMベース音声モデルです。中核的な革新は、大マージン合成データのみを活用する点にあり、埋め込みベースの事前情報や補助モジュールを必要としません。この大マージン学習アプローチにより、音声に対する反復的制御と高表現性の両方を実現し、従来の表現レベルでの分離に焦点を当てた手法からの根本的転換を意味します。評価結果では、Step-Audio-EditXが感情編集やその他の細粒度制御タスクにおいて、MiniMax-2.6-hdおよびDoubao-Seed-TTS-2.0を凌駕することを実証しています。
マルチモーダル大規模言語モデル(MLLM)は、異なるモダリティが矛盾する情報を提供する際の衝突を解決する必要があり、この過程を我々は「モダリティ追従」と呼ぶ。従来の研究ではこの振る舞いを粗いデータセットレベルの統計でのみ測定しており、単モダリティ推論におけるモデルの信頼度の影響を見落としていた。本論文では、モダリティ追従を二つの基本要素に分解する新しい枠組みを提案する:相対的推論不確実性(単モダリティ予測間の事例特異的な信頼度差)と内在的モダリティ選好(不確実性が均衡している場合のモデルの安定したバイアス)である。この枠組みを検証するため、視覚入力とテキスト入力の推論難易度を体系的に変化させる制御可能なデータセットを構築した。エントロピーを細粒度の不確実性指標として用いることで、普遍的な法則を明らかにした:モダリティを追従する確率は、その相対的不確実性が増加するにつれて単調減少する。両方のモダリティを同等の確率で追従する傾向がある相対的難易度レベル(我々が均衡点と呼ぶもの)は、モデルの内在的選好の実用的な指標となる。従来のマクロレベル比率とは異なり、この測定方法は、単モダリティ能力やデータセットの人為的要素から切り離された、より原理的で交絡の少ないモダリティバイアスの特徴付けを可能にする。さらに、層ごとの予測を調査することで、振動の内部メカニズムを明らかにした:均衡点近傍の曖昧な領域では、モデルは層を跨いでモダリティ間で揺れ動き、外部的に観測される優柔不断さを説明する。これらの発見は総合して、相対的不確実性と内在的選好がモダリティ追従を支配する二大原理であることを立証し、MLLMが矛盾する情報を如何に解決するかについて、定量的枠組みと機構的知見の両方を提供する。
AI開発の軌跡をたどると、将来的には異なる情報・権限・ツールを持つ独立開発されたエージェントで構成されるエージェントベースシステムへの依存度が高まることが示唆されている。こうしたシステムの成否は、部分観測性という条件下であっても、異種混合のエージェント間における効果的な協調に大きく依存する。強い関心が寄せられているにもかかわらず、このようなエージェント間協調を大規模に評価した実証研究はほとんどない。本研究では、(i) 協調能力を分離して評価し、(ii) 問題の複雑さを調整可能で、(iii) スケーラブルな自動採点を可能にし、(iv) 出力形式の制約を設けず生態学的妥当性を保った、協調型迷路解決ベンチマークを提案する。この枠組みを用いて、32の主要なオープンソースおよびクローズドソースモデルを、単独、同種ペア、異種ペアの設定で評価した。結果は「協調ギャップ」を明らかにした:単独では高い性能を発揮するモデルも、協調が要求されると性能が大幅に低下するのである。協調は劇的に破綻することがあり、例えば、単独では迷路をうまく解決する小型の蒸留モデルも、特定のペアリングではほとんど失敗する。より強力なエージェントから開始すると結果が改善される傾向があり、強力なエージェントが主導した後、弱いエージェントに引き継ぐ「リレー推論」アプローチの動機付けとなった。この手法によりギャップの大部分が解消される。我々の発見は、(1) 協調を意識した評価、(2) 協調能力を強化するための訓練戦略の開発、(3) エージェントの潜在能力を確実に引き出すインタラクションデザインの必要性を主張するものであり、この指針はAI間協調と人間-AI協調の両方に適用できる。
fMRI(機能的磁気共鳴画像法)による脳活動記録から被験者の見た画像を再構成する技術は、非侵襲的な脳機能解明の手段として注目されている。拡散モデルの進歩により近年飛躍的な発展をみせているものの、既存手法では実際の視覚画像への忠実性が不十分な場合が多い。本研究では「Brain-IT」を提案する。この脳機能に着想を得たアプローチでは、Brain Interaction Transformer(BIT)を中核とし、機能的に類似した脳ボクセル群のクラスター間での効果的な相互作用を実現する。これらの機能クラスターは全被験者で共通する構成要素として、単一脳内および複数脳間の情報統合の基盤となる。全モデル構成要素は全クラスター・全被験者で共有されるため、限られたデータ量での効率的な学習が可能である。画像再構成を導くため、BITは補完的な2種類の局所的なパッチレベル画像特徴を予測する:(i)高次セマンティック特徴は拡散モデルを正しい画像意味内容へ方向付け、(ii)低次構造特徴は拡散プロセスを正しい大まかな画像構図で初期化する。BITの設計により、脳ボクセルクラスターから局所画像特徴への直接的な情報流が実現される。これらの原理に基づき、本手法はfMRIから視覚画像を忠実に再構成し、視覚的評価および客観的指標の両面で現行のState-of-the-Art手法を凌駕する。さらに、新規被験者からのfMRIデータが1時間分のみの場合でも、従来手法が40時間分の全データで学習した結果に匹敵する性能を達成する。
段階的な推論を目的として訓練された大規模言語モデル(LLM)は、過度に冗長になりがちで、推論コストを上昇させる。検証可能な報酬を用いた標準的な強化学習(RLVR)パイプラインでは、訓練効率のために「容易な」問題をフィルタリングし、より長い推論連鎖を必要とする難しい問題に主に訓練を集中させる。これにより、出力長の分布が上方に偏り、「より長く考えること」と「より良く考えること」を混同するモデルが生じる。本研究では、中程度に容易な問題を保持し、適度に重み付けすることが、暗黙的な長さ正則化として機能することを示す。解決可能な短い連鎖タスクをモデルに提示することで、その出力分布が制約され、制御不能な冗長性が防止される。その結果が、**追加コストなしで生じる簡潔性の創発**である:明示的な長さ罰則が一切存在しないにもかかわらず、モデルは出力長を増大させることなく、より難しい問題を解決することを学習する。このアプローチを用いたQwen3-4B-Thinking-2507(16kトークン制限)でのRLVR実験では、ベースラインのpass@1 AIME25精度を維持しつつ、平均して約2倍短い解答を生成することに成功した。コードはhttps://github.com/MBZUAI-Paris/Frugal-AI{GitHub}で、データセットとモデルはhttps://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}で公開されている。
大規模マルチモーダルモデル(LMM)は、画像エンコーダによって導入される大量の視覚トークンにより、推論の非効率性に悩まされることが多い。近年、剪定や統合などのトークン圧縮手法が冗長性削減の可能性を示しているが、その評価は断片的で一貫性に欠ける。本研究では、マルチモーダルLLMにおける視覚トークン剪定のための統合的かつ拡張可能なベンチマーク「UniPruneBench」を提案する。UniPruneBenchは、6つの能力次元と10のデータセットにわたる標準化された評価プロトコルを提供し、10の代表的な圧縮アルゴリズムと3つのLMMファミリー(LLaVA-v1.5、Intern-VL3、Qwen2.5-VL)を網羅する。タスク精度に加え、実行時間やプリフィル遅延などのシステムレベル指標を統合し、包括的な視点を提供する。実験により以下の主要な知見を得た:(1)ランダム剪定が驚くほど強力なベースラインである、(2)単一の手法が全シナリオで他を一貫して凌駕するものはない、(3)剪定への感度はタスク間で大きく異なり、OCRが最も脆弱である、(4)剪定率が性能劣化を支配する主要因である。UniPruneBenchが効率的なマルチモーダルモデリングの将来研究における信頼できる基盤となることを期待する。
現在のコーディング評価指標は、特定のバグ修正やテストコード作成といった具体的で明確に定義されたタスクに対して言語モデル(LM)を評価する。しかし、人間のプログラマーは一日中、孤立したタスクをひたすら処理し続けているわけではない。現実のソフトウェア開発は、ユーザー維持率の向上やコスト削減といった高次元の目標達成を基盤としている。明示的な指示なしに、LMが反復的にコードを開発し、より自由度の高い目標を達成できるかどうかを評価することは、未解決の課題である。この問題に対処するため、我々は**CodeClash**を提案する。これは、競争的な目標を達成するための最良のコードベース構築を目指し、LMが多ラウンドのトーナメントで競い合うベンチマークである。 各ラウンドは2つのフェーズで進行する:エージェントが自身のコードを編集する「編集フェーズ」と、それらのコードベースがコードアリーナで直接対決し、スコア最大化、リソース獲得、生存などを目的として勝者が決定される「競技フェーズ」である。メモの作成、ドキュメントの精査、競合ログの分析、テストスイートの作成など、モデルは自らのコードベースを、絶対的な改善と対戦相手に対する相対的な改善の両面から、どのように改良すべきかを自律的に判断しなければならない。我々は6種類のアリーナにおいて8つのLMを評価するため、1680トーナメント(総ラウンド数25,200)を実施した。結果から、モデルが多様な開発スタイルを示す一方で、戦略的推論において根本的な限界を共通して有することが明らかになった。また、リポジトリが次第に煩雑で冗長になるにつれ、モデルは長期的なコードベースの維持管理に苦戦する。これらの限界は顕著であり、最高性能のモデルでも熟練した人間のプログラマーとの対戦では全ラウンドで敗北した。自律的かつ目標指向のコード開発研究を推進するため、我々はCodeClashをオープンソースとして公開する。
大規模データは、言語モデルから両手操作における視覚言語行動モデルに至るまで、ロボティクスの分野に飛躍的進歩をもたらしてきた。しかし、ヒューマノイドロボティクスには、同等に効果的なデータ収集フレームワークが不足している。既存のヒューマノイド遠隔操作システムは、非連携型の制御を採用するか、高価なモーションキャプチャ設定に依存している。本研究では、完全な全身制御を維持しつつ拡張性を高めた、携帯可能でモーションキャプチャ不要のヒューマノイド遠隔操作・データ収集システム「TWIST2」を提案する。本システムはPICO4U VRを活用してリアルタイムの人体全身動作を取得し、エゴセントリック視覚のためのカスタム2自由度ロボット首(コスト約250ドル)を組み合わせることで、人間からヒューマノイドへの包括的制御を実現する。我々は長期的で精巧な移動ヒューマノイド技能を実証し、ほぼ100%の成功率で15分間に100回の実演データを収集できる。このパイプラインに基づき、エゴセントリック視覚に基づいてヒューマノイド全身を自律制御する階層型視覚運動ポリシーフレームワークを提案する。当該視覚運動ポリシーは、全身を用いた精密把持動作および動的キック動作のタスクを成功裏に実証した。システム全体は完全に再現可能であり、https://yanjieze.com/TWIST2 でオープンソース化されている。収集したデータセットも https://twist-data.github.io で公開している。
大規模言語モデル(LLM)の現行評価パラダイムは、AI研究における重大な盲点である。空間推論の根本的限界を隠蔽する不透明な数値指標に依存し、モデル能力の直感的理解を提供しない。この欠陥は、報告される性能と実用的能力の間に危険な乖離を生み出しており、特に物理世界の理解を要する応用分野において顕著である。本研究ではLTD-Benchを提案する。ドットマトリックスや実行可能コードを通じた描画生成をモデルに要求することで、抽象的なスコアから直接観察可能な視覚的出力へとLLM評価を転換する画期的なベンチマークである。この手法により、非専門家であっても空間推論の限界が即座に明らかとなり、統計的性能と直感的評価の根本的隔たりを埋める。LTD-Benchは、3段階の難易度で補完的生成課題(空間的想像力の検証)と認識課題(空間的知覚の評価)を組み合わせた包括的方法論を実装し、言語と空間の重要な双方向マッピングを体系的に評価する。先進モデルを用いた大規模実験により驚くべき能力格差が暴露された:従来ベンチマークで印象的な結果を達成するLLMでさえ、言語と空間概念の双方向マッピング確立に深刻な欠陥を示す。これは真の世界モデルとしての潜在能力を損なう根本的限界である。さらにLTD-Benchの視覚的出力は強力な診断分析を可能とし、モデル類似性調査への新たな道筋を提供する。
ロボット制御アルゴリズムの評価において、実機テストは不可欠である。学習ベースのアルゴリズム、特にVLAモデルの文脈では、大規模評価、すなわち多数のモデルを多数のタスクでテストする必要性がますます高まっている。しかし、特に拡張性と再現性を考慮すると、これを適切に行うことは極めて容易ではない。本報告書では、ロボット制御アルゴリズムをテストするためのオンライン評価システム「RoboChallenge」の構築方法論と、初期ベンチマークTable30を用いた最近の先進的VLAモデルに関する調査結果について述べる。
大規模言語モデル(LLM)は、数多くの実世界アプリケーションにおいて顕著な能力を発揮している。実験的視点から行われる研究の大半が急速に進展している一方で、それは膨大な計算資源、データ、その他のリソースを必要とする。したがって、理論的立場からLLMのブラックボックスをいかに解明するかが重要な課題となっている。本論文は、レート歪み関数理論、有向情報量、グレンジャー因果性の理論を出発点とし、LLM背後にある情報理論的原理を探求する。これにより、意味を欠くビットではなく、トークンを基本単位とするLLMのための意味情報理論の構築につなげる。LLMの確率モデルを定義することで、構造に依存しない情報理論的測度、すなわち事前学習における有向レート歪み関数、事後学習における有向レート報酬関数、推論フェーズにおける意味情報フローについて論じる。本論文はさらに、トークンレベルの意味埋め込みの理論と、情報理論的に最適なベクトル化手法について深く掘り下げる。その後、Transformerアーキテクチャとその性能(ELBO、汎化誤差界、記憶容量、意味情報測度など)が理論的に導出可能な、自己回帰型LLMの一般的な定義を提案する。Mamba/Mamba2やLLaDAなどの他のアーキテクチャも、本フレームワーク内で議論する。結果として、本論文は意味情報理論の観点からLLMを理解するための理論的枠組みを提供し、さらなる深い研究に必要な理論的ツールを提供するものである。
我々は、新たなフレームワークの下で訓練された大規模視覚言語行動モデル「iFlyBot-VLA」を提案する。主な貢献は以下の通りである:(1) 大規模な人間及びロボット把持動作ビデオに基づいて徹底的に訓練された潜在行動モデル;(2) 訓練時に視覚言語モデルと行動エキスパートを共同で監督する二重階層型行動表現フレームワーク;(3) ロボット軌道データと一般QA・空間QAデータセットを組み合わせた混合訓練戦略により、VLMバックボーンの3D知覚・推論能力を効果的に強化。具体的には、VLMは二つの相補的な行動形式を予測するよう訓練される:異種身体構造にわたる把持データで事前学習された潜在行動モデルに基づく暗黙的高次意図を捉えた潜在行動、および連続制御信号の周波数領域変換により得られる明示的低次ダイナミクスを符号化した構造化離散行動トークンである。この二重監督により、言語・視覚・行動の表現空間が整合され、VLMが行動生成に直接寄与することが可能となる。LIBERO Frankaベンチマークにおける実験結果は本フレームワークの優位性を示し、実世界評価ではさらに、iFlyBot-VLAが多様で困難な把持タスクにおいて競争力のある成功率を達成することを実証した。加えて、今後のコミュニティ研究を支援するため、独自構築データセットの一部をオープンソース化する計画である。
大規模言語モデルは、多くの確立された推論ベンチマークにおいて強力な性能を示している。しかし、これらのベンチマークは主に定量的問題解決のような構造化されたスキルを評価するものであり、人間の知能の中核をなす柔軟で多面的な推論能力を測るには不十分である。これらの能力は、論理的推論と空間的認識、制約充足を統合することを必要とするが、現在の評価手法はこれを十分に測定できていない。この問題に対処するため、我々はこれらの核心的推論能力を探るために設計された、英語の1,737問の難解なパズルからなるベンチマーク「RiddleBench」を提案する。RiddleBenchにおける最先端モデルの評価結果は、根本的な弱点を明らかにしている。Gemini 2.5 Pro、o3、Claude 4 Sonnetといった最高水準の専有モデルでさえ、正答率はわずか60%強(それぞれ60.30%、63.37%、63.16%)に留まっている。分析をさらに進めると、深層的な失敗要因が明らかになり、例えば、他のモデルからの誤った推論を受け入れる「幻覚カスケード」や、強い自己確証バイアスに起因する不十分な自己修正能力が認められる。また、これらのモデルの推論は脆弱であり、制約の順序を変更したり無関係な情報を導入したりするだけで、性能が著しく低下する。RiddleBenchは、これらの問題を診断するツールとして、そして、より堅牢で信頼性の高い言語モデルの開発を導くリソースとして機能する。
複雑なチャート理解タスクでは、マルチモーダル大規模言語モデル(MLLM)に高度な視覚認識能力と推論能力が求められる。しかし、現状の研究では実世界アプリケーションで普及している複雑なチャートシナリオや計算集約型推論タスクへの対応が限られている。本研究では、これらの課題を解決するため、体系的な視覚推論データセット生成を目的とした自動化された多段階コード駆動パイプラインを提案する。本パイプラインは、専門的なチャートテンプレートを取得するための検索拡張生成(RAG)を統合し、実データ分布を模倣する推論コードを生成するために連鎖思考(CoT)戦略を採用することで、チャートの描画と質問に関連する統計計算を駆動する。モデルベースの評価を通じて、本パイプラインはチャートの多様性とデータ品質を向上させる。このフレームワークを用いて、我々はChartM^3を構築した。これは、学習用に38Kのチャートと142KのQ&Aペアを含む多次元かつ多段階のデータセットであり、実用的な性能評価を可能にする2,871の高品質な評価サンプルを備える。教師ありファインチューニング(SFT)および強化学習(RL)による実験により、本データセットが推論能力とクロスドメイン汎化性能を大幅に改善し、より小規模なモデルが複雑なチャート理解において大規模モデルに匹敵する性能を達成できることが実証された。
近年、ビデオ大規模言語モデル(VideoLLM)の進歩を背景に、映像からの感情の理解と予測に関する研究が注目を集めている。高度な手法が映像感情分析において進展を見せる一方で、感情そのものの性質が重大な課題をもたらしている。感情は動的かつ手がかり依存的特性を有するため、複雑に変化する感情状態を合理的な根拠をもって理解することは困難である。これらの課題に対処するため、本論文では、基礎的属性の知覚、表情分析、高次元の感情理解を段階的に統合する、新しい感情手がかり誘導型推論フレームワークを提案する。本手法の中核を成すのは、感情推論と指示追従に特化して設計されたビデオ感情基盤モデル群(VidEmo)である。これらのモデルは2段階の調整プロセスを経る:まず、感情知識を注入するためのカリキュラム感情学習、続いて感情推論のための感情ツリー強化学習を実施する。さらに、基盤的なデータインフラを構築し、210万の多様な指示ベースサンプルからなる感情中心の細粒度データセット(Emo-CFG)を導入する。Emo-CFGは、説明可能な感情質問応答、細粒度キャプション、関連する根拠を含み、感情理解タスクの発展に不可欠なリソースを提供する。実験結果では、本手法が競争力のある性能を達成し、15の顔知覚タスクにおいて新たなマイルストーンを確立したことを示す。
本論文では、中国語LLM応用シナリオに特化した動的かつ継続的に更新される安全性ベンチマーク「LiveSecBench」を提案する。本ベンチマークは、中国の法的・社会的枠組みに基づく6つの重要次元(合法性、倫理性、事実正確性、プライバシー、敵対的頑健性、推論安全性)でモデルを評価する。新たな脅威ベクトル(次期アップデートではテキスト画像生成安全性とエージェント安全性の追加を予定)を組み込む動的更新スケジュールにより、関連性を維持している。現在、LiveSecBench(v251030)は18のLLMを評価し、中国語コンテキストにおけるAI安全性の全体像を提供している。リーダーボードはhttps://livesecbench.intokentech.cn/で公開されている。
アルツハイマー病(AD)の世界的な負荷が増大し続ける中、特に高度な診断ツールへのアクセスが限られている地域において、早期かつ正確な検出の重要性がかつてなく高まっている。我々はこの課題に対処するため、BRAINS(Biomedical Retrieval-Augmented Intelligence for Neurodegeneration Screening)を提案する。この新しいシステムは、アルツハイマー病の検出とモニタリングにおいて、大規模言語モデル(LLM)の強力な推論能力を活用する。BRAINSは、認知診断モジュールと症例検索モジュールからなるデュアルモジュールアーキテクチャを特徴とする。診断モジュールは、MMSE、CDRスコア、脳容積指標などの認知機能および神経画像データセットでファインチューニングされたLLMを利用し、アルツハイマー病リスクの構造化された評価を実行する。一方、症例検索モジュールは、患者プロファイルを潜在表現に符号化し、厳選された知識ベースから類似症例を検索する。これらの補助症例は、Case Fusion Layerを介して入力プロファイルと融合され、文脈理解を強化する。統合された表現は、その後、推論のために臨床プロンプトと共に処理される。実世界のデータセットを用いた評価では、BRAINSが疾患重症度の分類および認知機能低下の早期徴候の識別において有効であることが実証されている。本システムは、スケーラブルで説明可能、かつ早期段階のアルツハイマー病検出のための補助ツールとしての強力な可能性を示すだけでなく、この分野における将来の応用への希望をもたらすものである。
現在の大規模言語モデルは、広範な汎用タスクにおいて優れた性能を発揮するが、深い文化的・言語的・専門的知識を要する高度に専門化された領域では一貫して性能が低下する。特にアーユルヴェーダのような伝統医療体系は、数世紀にわたる微妙なニュアンスを含む文献的・臨床的知見を具現化しており、主流の大規模言語モデルはこれを正確に解釈・適用することができない。本論文では、古典文献と臨床ガイダンスにわたる専門家精選のアーユルヴェーダデータセットを用いてParam-1-2.9Bからファインチューニングした、ドメイン特化型の二言語対応モデルAyurParam-2.9Bを提案する。AyurParamのデータセットは、英語とヒンディー語による文脈認識型推論問題および客観式Q&Aを包含し、事実の正確性と指導の明確性を担保するための厳格な注釈プロトコルを採用している。BhashaBench-Ayurによる評価では、AyurParamは同規模クラス(1.5~3Bパラメータ)のオープンソース指令チューニングモデルを全て凌駕するだけでなく、遥かに大規模なモデルに対しても競争力あるいは優位な性能を示した。AyurParamの結果は、専門医療知識における信頼性が高く文化的に適合したAIを実現するためには、真正のドメイン適応と高品質な監督が不可欠であることを明らかにしている。
テキストから画像への変換(T2I)拡散モデルは意味的整合性において高い性能を達成しているが、プロンプトで指定された正しい数のオブジェクトを生成する点では依然として課題を抱えている。既存のアプローチでは、通常、外部批評器として補助的な計数ネットワークを組み込み、数値処理能力を強化している。しかし、これらの批評器は生成過程において勾配ガイダンスを提供する必要があるため、本質的に微分可能な回帰ベースのモデルに限定されてしまう。これにより、列挙による計数という微分不可能な性質を持つ、優れた計数能力を有する検出器ベースのモデルが排除されている。この制限を克服するため、我々はDetector-to-Differentiable(D2D)を提案する。これは、微分不可能な検出モデルを微分可能な批評器に変換する新規フレームワークであり、その優れた計数能力を活用して数値処理生成を導くものである。具体的には、検出器のロジットをソフトな二値指標に変換するカスタム活性化関数を設計し、これを推論時に事前学習済みT2Iモデルのノイズ事前分布を最適化するために用いる。SDXL-Turbo、SD-Turbo、Pixart-DMDを用い、複雑さの異なる4つのベンチマーク(低密度、高密度、多オブジェクトシナリオ)で実施した広範な実験により、オブジェクト計数精度において一貫した大幅な改善(例えば、400プロンプトの低密度ベンチマークであるD2D-Smallで最大13.7%向上)が示され、全体的な画像品質と計算オーバーヘッドの悪化は最小限に抑えられた。
表データに対する複合推論は実世界のデータ分析において重要であるが、大規模言語モデル(LLM)は複雑なクエリ、ノイズの多いデータ、限定的な数値処理能力により、しばしば十分な性能を発揮できない。これらの課題に対処するため、我々は以下の要素から構成されるフレームワーク「\method」を提案する:(1)複雑な質問を分解するクエリ分解器、(2)ノイズの多いテーブルを洗浄・フィルタリングするテーブル清浄化器、(3)清浄化されたテーブルから最終回答を導出する実行可能コードを生成するプログラム思考(PoT)ベースの推論器。データ漏洩を防ぎ公平な評価を確保するため、表に対する複雑な数値推論に特化した新しいデータセットCalTab151を導入した。実験結果は、\method が既存手法を一貫して上回り、TAT-QA、TableBench、\method においてそれぞれ8.79%、6.08%、19.87%の精度向上で最先端(SOTA)の性能を達成することを示している。さらに、本フレームワークは主流のLLMとシームレスに統合され、複雑な表データの数値推論に対する堅牢なソリューションを提供する。これらの知見は、複雑な表データの数値推論におけるLLM性能向上への本フレームワークの有効性を裏付けるものである。データ及びコードは要請に応じて提供可能である。
深度と自己運動という2つの基本的な3D知覚タスクの教師なし学習は、近年著しい進歩を遂げている。しかし、ほとんどの手法は自己運動を補助タスクとして扱い、全ての運動タイプを混合するか、深度に依存しない回転運動を監督から除外している。このような設計は強力な幾何学的制約の導入を制限し、様々な条件下での信頼性と頑健性を低下させる。本研究は、運動成分を識別的に扱い、それぞれの剛体フローの幾何学的規則性を活用することで、深度と自己運動推定の両方に資する手法を提案する。連続するビデオフレームが与えられると、ネットワークの出力はまずソースカメラとターゲットカメラの光軸と成像面を整合させる。フレーム間のオプティカルフローはこれらの整合を通じて変換され、偏差を定量化して各自己運動成分に個別に幾何学的制約を課すことで、より標的を絞った精緻化を可能にする。これらの整合はさらに、共同学習プロセスを同軸および共面形式に再定式化し、深度と各並進成分が閉形式の幾何学的関係を通じて相互に導出できるようにする。これにより、深度の頑健性を向上させる相補的制約が導入される。これらの設計を取り入れた一般的な深度と自己運動の共同学習フレームワークであるDiMoDEは、複数の公開データセットと新たに収集した多様な実世界データセットにおいて、特に困難な条件下で最先端の性能を達成する。ソースコードは公開時にmias.group/DiMoDEで公開予定である。
近年、直接選好最適化(DPO)が報酬信号を必要とせず効率的に映像生成品質を向上させる手法として注目されている。しかし、既存手法は画像領域のパラダイムを継承しており、小規模モデル(約20億パラメータ)を主な対象として開発されているため、データ構築コストの高さ、訓練の不安定性、膨大なメモリ消費といった映像タスク特有の課題に対応する能力が限定されていた。これらの制約を克服するため、本研究では実写映像を正例、モデル生成映像を負例として高品質な選好ペアを自動構築するGT-Pairを提案し、外部アノテーションを完全に不要化した。さらに、DPO目的関数にSFT損失を正則化項として組み込むReg-DPOを開発し、訓練の安定性と生成の忠実度を同時に向上させる。加えて、FSDPフレームワークと複数のメモリ最適化技術を統合することで、FSDP単体使用時と比較して約3倍の訓練容量を実現した。複数データセットにおける画像から映像(I2V)およびテキストから映像(T2V)タスクでの大規模実験により、本手法が既存手法を一貫して凌駕し、優れた映像生成品質を達成することを実証した。