翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)の推論能力は、長年にわたり研究の焦点となってきた。最近の研究では、強化学習(RL)を用いてこれらの能力をさらに向上させており、多くの新手法が外部監視を最小限または全く必要とせずに大幅な改善を主張している。驚くべきことに、一部の研究では、ランダムまたは誤った報酬信号が推論性能を向上させる可能性さえ示唆されている。しかし、これらのブレークスルーは主にQwen2.5モデルファミリーで報告され、MATH-500、AMC、AIMEなどのよく知られたベンチマークで評価されている一方で、Llamaなどの他のモデルでは同様の成果が得られていないため、さらなる調査が必要である。我々の分析によれば、Qwen2.5は強力な数学的推論性能を達成しているものの、大規模なウェブコーパスでの事前学習により、人気のあるベンチマークでのデータ汚染に対して脆弱である。その結果、これらのベンチマークから得られた結果は信頼性に欠ける可能性がある。この問題に対処するため、任意の長さと難易度の完全に合成された算術問題を生成するジェネレータを導入し、RandomCalculationというクリーンなデータセットを作成した。これらの漏洩のないデータセットを使用して、正確な報酬信号のみが一貫して性能を向上させる一方で、ノイズの多いまたは誤った信号は効果がないことを示した。我々は、信頼できる結論を確保するために、RL手法を汚染のないベンチマークで評価し、多様なモデルファミリーにわたって検証することを提唱する。
言語モデルのスケーリングは印象的な能力を解き放つが、それに伴う計算量とメモリ要求により、トレーニングとデプロイメントの両方が高コストになる。既存の効率化努力は通常、パラメータ共有または適応的計算のいずれかを対象としており、両方を同時に達成する方法は未解決のままであった。本論文では、Mixture-of-Recursions(MoR)を紹介する。これは、単一の再帰型Transformer内で効率化の2つの軸を統合する統一フレームワークである。MoRは、再帰ステップ間で共有されたレイヤスタックを再利用することでパラメータ効率を実現し、軽量なルータが個々のトークンに異なる再帰深度を動的に割り当てることで、適応的なトークンレベルの思考を可能にする。これにより、MoRは特定の再帰深度でまだアクティブなトークン間でのみ二次的なアテンション計算に集中し、それらのキー・バリューペアを選択的にキャッシュすることでメモリアクセス効率をさらに向上させる。これらのコアメカニズムに加えて、最初の再帰からのキー・バリューペアを再利用するKV共有バリアントも提案し、プリフィルレイテンシとメモリフットプリントの削減を特に目的としている。135Mから1.7Bパラメータまでのモデルスケールにおいて、MoRは新しいパレートフロンティアを形成する。同等のトレーニングFLOPsとより小さなモデルサイズで、検証パープレキシティを大幅に低下させ、few-shot精度を向上させるとともに、バニラおよび既存の再帰型ベースラインと比較して高いスループットを提供する。これらの利点は、MoRが大規模モデルの品質を大規模モデルのコストなしに実現する効果的な道筋であることを示している。
大規模モデルの急速な発展は、デジタルヒューマン領域における重要なブレークスルーを促進してきました。これらの先進的な手法は、アバターの駆動とレンダリングに対する高忠実度のソリューションを提供し、学界の焦点を次の主要な課題である視聴覚双方向インタラクティブ仮想ヒューマンに向けさせています。この新興領域の研究を促進するため、我々はSpeakerVid-5Mデータセットを提示します。これは、視聴覚双方向インタラクティブ仮想ヒューマン生成のために設計された初の大規模かつ高品質なデータセットです。合計8,743時間以上に及ぶSpeakerVid-5Mは、520万以上の人物ポートレート動画クリップを含んでいます。これらは、単一の会話、傾聴、双方向の対話など、多様なスケールとインタラクションタイプをカバーしています。重要な点として、このデータセットはインタラクションタイプとデータ品質という2つの主要な次元に沿って構造化されています。まず、インタラクションシナリオに基づいて4つのタイプ(対話ブランチ、単一ブランチ、傾聴ブランチ、多ターンブランチ)に分類されます。次に、大規模な事前学習用サブセットと、教師あり微調整(SFT)用の精選された高品質サブセットに階層化されています。この二重構造により、幅広い2D仮想ヒューマンタスクに対応しています。さらに、このデータに基づいて訓練された自己回帰(AR)ベースのビデオチャットベースラインを提供し、将来の研究のベンチマークとしてVidChatBenchと呼ばれる専用のメトリクスとテストデータを伴っています。データセットと対応するデータ処理コードは公開されます。プロジェクトページ: https://dorniwang.github.io/SpeakerVid-5M/
近年の高度な視覚言語モデル(VLMs)は、受動的でオフラインの画像および映像理解タスクにおいて優れた性能を発揮しています。しかし、オンラインでのインタラクションと能動的なシーン理解を必要とするエンボディド(身体性を持った)環境での有効性は限定的です。このようなシナリオでは、エージェントは一人称視点で環境を認識し、各アクションがその後の観測を動的に形成します。GPT-4o、Claude 3.5 Sonnet、Gemini 2.5 Proといった最先端のモデルでさえ、オープン環境でのインタラクションに苦戦し、空間推論や長期的な計画立案において明らかな限界を示しています。このギャップを埋めるため、私たちはEmRACE-3Kを紹介します。これはUnreal EngineとUnrealCV-Zooフレームワークを使用して構築された多様でフォトリアルな環境に位置する3,000以上の言語ガイド付きタスクのデータセットです。これらのタスクは、ナビゲーション、物体操作、多段階の目標実行など、幅広いエンボディド課題を網羅しています。各タスクは多段階の軌跡として展開され、一人称視点の視覚観測と高レベルの指示、接地されたアクション、そして各ステップでのエージェントの意図を表す自然言語による根拠がペアになっています。EmRACE-3Kを使用して、私たちはVLMsのエンボディド推論能力を3つの主要な次元(探索、動的空間-意味推論、多段階目標実行)で評価するベンチマークを確立しました。ゼロショット設定では、すべてのモデルの成功率が20%未満であり、私たちのベンチマークが提示する課題と、インタラクティブ環境におけるVLMsの現在の限界が浮き彫りになりました。EmRACE-3Kの有用性を実証するため、私たちはさらにQwen2.5-VL-7Bを教師あり学習と強化学習を用いてファインチューニングしました。このアプローチにより、3つの課題カテゴリーすべてで大幅な改善が見られ、エンボディド推論能力の開発においてデータセットの有効性が強調されました。
近年の大規模推論モデル(LRMs)は、タスク固有のベンチマークで顕著な進歩を遂げているが、その評価方法は依然として孤立した問題解決パラダイムに制約されている。既存のベンチマークは主に、逐次テストを通じて単一質問の推論を評価しており、以下の重要な限界が生じている:(1) データ汚染への脆弱性と難易度の低さ(例えば、DeepSeek-R1はMATH500で97.0%を達成)、これにより、多大な人的労力を要する新たな質問の継続的な作成が強制されている、(2) 実世界での展開に不可欠な、複数コンテキスト下でのモデル評価の失敗。このギャップを埋めるため、我々はREST(Reasoning Evaluation through Simultaneous Testing)を提案する。これは、LRMsを複数の問題に同時に曝すストレステストフレームワークである。基本的な推論能力を超えて、RESTは特に、コンテキスト優先順位の割り当て、問題間干渉への耐性、動的な認知的負荷管理といった、これまで十分にテストされていない能力を評価する。我々の評価から、いくつかの驚くべき発見が明らかになった:DeepSeek-R1のような最先端(SOTA)モデルでさえ、ストレステスト下では大幅な性能低下を示す。重要なことに、RESTは既存のベンチマークよりも強力な識別力を示し、単一質問評価ではほぼ天井に達する類似の性能を示すモデル間でも、顕著な性能差を明らかにする。分析から得られたいくつかの重要なメカニズム的洞察がある:(1) 「過剰思考の罠」が性能低下の主要な要因である、(2) 「long2short」技術で訓練されたモデルは、REST下でも単一問題の性能の精度をより維持し、標準的に訓練されたモデルを上回る。これらの結果は、RESTが、実世界の推論要求をより反映しつつ、継続的な人間のアノテーションへの依存を軽減する、コスト効率の高い将来性のある評価パラダイムであることを示している。
大規模言語モデル(LLM)は自然言語の理解と生成において優れているが、事実誤認に対して脆弱であり、知識集約型タスクにおける信頼性が制限されている。デコード時の戦略は、トレーニングを必要としない効率的な解決策を提供するが、既存の手法では通常、トークンレベルとレイヤーレベルの信号を個別に扱い、それらの間の連動するダイナミクスを見落としている。本研究では、特定のトークンタイプを最も影響力のあるトランスフォーマーレイヤーと整合させることで、事実に基づく生成を改善するトークン認識型のレイヤー局所化コントラストデコード手法を提案する。経験的注意分析を通じて、句読点トークンが初期レイヤーで支配的な注意を受け、概念トークンが中間レイヤーで意味推論を支配するという2つの主要なパターンを特定した。これらのトークンタイプに対する注意をそれぞれの深さで選択的に抑制することで、制御された事実劣化を誘導し、最終的な事実デコードを導くためのコントラスト信号を導出する。本手法は追加のトレーニングやモデル変更を必要とせず、実験により、複数のLLMと様々なベンチマークにおいて一貫して事実性が向上することが示された。
本論文では、MoVieSという新しいフィードフォワードモデルを提案します。MoVieSは、単眼動画から4次元の動的新規視点を1秒で合成します。MoVieSは、動的3Dシーンをガウシアンプリミティブのピクセルアラインドグリッドで表現し、その時間変化する動きを明示的に監督します。これにより、初めて、外観、幾何学、動きの統一的なモデリングが可能となり、単一の学習ベースのフレームワーク内で視点合成、再構成、3Dポイントトラッキングを実現します。新規視点合成と動的幾何学再構成を橋渡しすることで、MoVieSは、タスク固有の監督に最小限の依存で多様なデータセットでの大規模な学習を可能にします。その結果、シーンフロー推定や移動物体セグメンテーションなど、幅広いゼロショットアプリケーションを自然にサポートします。広範な実験により、MoVieSの有効性と効率性が複数のタスクにわたって検証され、競争力のある性能を達成しながら、数桁の速度向上を提供することが示されました。
近年、大規模言語モデル(LLM)の評価における「LLM-as-judge」の役割が注目を集めている。しかし、現在の判定モデルは専門性が狭く、堅牢性に欠けるため、包括的な評価能力が制限されている。本研究では、これらの課題を克服する新たな汎用判定モデル「CompassJudger-2」を提案する。本アプローチの中核は、検証可能な報酬を用いて判定タスクを監督し、拒否サンプリングを通じて本質的な批判的推論を導くことで、堅牢で汎化可能な判定能力を育むことである。さらに、性能向上のため、マージン方策勾配損失を用いた洗練された学習目標を導入した。実験的には、CompassJudger-2は複数の判定および報酬ベンチマークで優れた結果を達成し、7BモデルはDeepSeek-V3やQwen3-235B-A22Bといった大幅に大規模なモデルと競合する判定精度を示した。加えて、クロスドメインの判定精度と順位一貫性を評価する包括的ベンチマーク「JudgerBenchV2」を提案し、判定モデルの評価を標準化した。これらの貢献により、堅牢でスケーラブルなLLM判定が進展し、新たな性能および評価基準が確立された。
大規模言語モデル(LLMs)の開発には、学術分野だけでなく産業分野も包含する堅牢なベンチマークが必要であり、現実世界のシナリオにおける適用性を効果的に評価することが求められます。本論文では、韓国の専門家レベルのベンチマークを2つ紹介します。既存のKMMLUを再構築したKMMLU-Reduxは、韓国の国家技術資格試験からの問題で構成され、信頼性を高めるために重大な誤りが除去されています。KMMLU-Proは、韓国の国家専門資格試験に基づいており、韓国における専門知識を反映しています。我々の実験は、これらのベンチマークが韓国の産業知識を包括的に代表していることを示しています。我々はこのデータセットを公開しています。
主題一貫生成(Subject-consistent Generation, SCG)—多様なシーン間で主題の同一性を維持することを目指す—は、テキストから画像(Text-to-Image, T2I)モデルにとって依然として課題となっている。既存の学習不要なSCG手法は、レイアウトやポーズの多様性を犠牲にして一貫性を達成することが多く、表現力豊かなビジュアルストーリーテリングを妨げている。この制限に対処するため、我々は主題の一貫性とポーズの多様性を両立するT2Iフレームワーク「CoDi」を提案する。CoDiは、拡散プロセスの漸進的な性質—粗い構造が早期に現れ、細部が後で洗練される—に着想を得て、2段階の戦略を採用している:Identity Transport(IT)とIdentity Refinement(IR)である。ITは初期のノイズ除去ステップで動作し、最適輸送を用いてポーズを考慮した方法で各ターゲット画像に同一性特徴を転送する。これにより、ポーズの多様性を保ちつつ主題の一貫性を促進する。IRは後期のノイズ除去ステップで適用され、最も顕著な同一性特徴を選択して主題の細部をさらに洗練する。主題の一貫性、ポーズの多様性、プロンプト忠実度に関する広範な定性的および定量的な結果は、CoDiがすべての指標においてより優れた視覚的知覚と強力な性能を達成することを示している。コードはhttps://github.com/NJU-PCALab/CoDiで提供されている。
本論文では、ユーザー提供の画像とテキストプロンプトから高品質なポスターをインテリジェントに合成し、コンテンツの忠実性を維持しながら柔軟な解像度とレイアウト出力をサポートするText-to-Image生成フレームワーク「DreamPoster」を提案する。具体的には、DreamPosterは我々のT2Iモデル「Seedream3.0」を基盤として構築され、異なるポスター生成タイプを一貫して処理する。データセット構築においては、ポスター画像内のテキスト内容とタイポグラフィ階層情報を正確に注釈するシステマティックなデータアノテーションパイプラインを提案し、ソース素材(例:生のグラフィックス/テキスト)とそれに対応する最終的なポスター出力を含むペアデータセットを構築するための包括的な方法論を採用する。さらに、モデルが高品質な生成を維持しながら階層的にマルチタスク生成能力を獲得することを可能にするプログレッシブトレーニング戦略を実装する。テストベンチマークでの評価により、DreamPosterは既存の手法を凌駕し、GPT-4o(47.56%)およびSeedEdit3.0(25.96%)と比較して88.55%の高い使用率を達成することが示された。DreamPosterはJimengおよびその他のBytedanceアプリでオンライン提供される予定である。
大規模言語モデル(LLMs)の数学的推論能力を向上させることは、AIの能力を進歩させる上で重要な課題です。教師ありファインチューニング(SFT)と強化学習(RL)が主要なトレーニングパラダイムである一方で、それらを組み合わせて精度と効率の両方を最大化する体系的な方法論は、まだほとんど検討されていません。本論文では、拡張されたSFTとオンライン推論からのRL(GRPO)を戦略的に統合した、実用的で効果的なトレーニングレシピを紹介します。我々は、これらの手法が補完的であり、競合するものではないと主張します。すなわち、長時間のSFTフェーズがまずモデルの精度を限界まで押し上げ、その後GRPOフェーズがこのピーク性能を維持しながらトークン効率を劇的に改善します。我々の実験では、SFTを最大10エポックまで拡張することが性能のブレークスルーに不可欠であり、このフレームワークにおけるGRPOの主な役割は解の長さを最適化することであることが明らかになりました。我々のレシピの有効性は、厳密にリークフリーなAI数学オリンピック(AIMO)において2,200以上のチームの中で高い順位を獲得するなど、挑戦的なベンチマークでのトップクラスのパフォーマンスを通じて厳密に検証されています。この研究は、非常に正確で実用的に効率的な最先端の数学的推論モデルを開発するための、実戦で鍛えられた青写真をコミュニティに提供します。完全な再現性を確保し、将来の研究を促進するために、我々はすべてのコード、モデルチェックポイント、トレーニング設定を含むフレームワーク全体をhttps://github.com/analokmaus/kaggle-aimo2-fast-math-r1でオープンソースとして公開します。
本論文では、ICO画像ファイルのアルファ透過レイヤーを使用して、ウェブブラウザ内で自己解凍型JavaScriptペイロードを埋め込み配信する新しい実行可能ステガノグラフィ手法を提案する。非透過アルファレイヤー画像値の最下位ビット(LSB)をターゲットにすることで、ファビコン画像内に圧縮されたJavaScriptコードを視覚的な忠実度に影響を与えずに隠蔽することに成功した。全世界のウェブトラフィックでは1日あたり2940億個のファビコンがロードされ、0.9ペタバイトのネットワーク帯域幅を消費している。概念実証の実装では、64x64のICO画像が非圧縮で最大512バイト、軽量な二段階圧縮を使用すると0.8キロバイトを埋め込めることが示された。ページロード時に、ブラウザは標準的な動作の一部としてファビコンを取得し、埋め込まれたローダースクリプトがネイティブJavaScript APIとキャンバスピクセルアクセスを使用してメモリ内でペイロードを抽出・実行することを可能にする。これにより、追加のネットワークリクエストやユーザー操作を必要としない二段階の秘密通信路が形成される。デスクトップとモバイル環境の複数ブラウザでのテストにより、埋め込まれたスクリプトの成功かつ無音での実行が確認された。脅威モデルを評価し、ファビコンベースの検出を回避する多形フィッシング攻撃との関連性を明らかにし、コンテンツセキュリティポリシーやアンチウイルススキャナーの回避を分析する。MITRE ATT&CKフレームワークの9つの目的を、ICOファイル内で任意に実行可能な単一行JavaScriptにマッピングする。既存のステガノグラフィ分析とサニタイゼーション防御について議論し、アルファチャネルエクスプロイトの検出や無力化における限界を強調する。結果は、静的画像と実行可能コンテンツの伝統的な境界を曖昧にする、ステルス性と再利用性の高い攻撃面を示している。現代のブラウザは、開発者がICOファイルのロードに失敗した場合に無音のエラーを報告するため、この攻撃面は、セキュリティを損なう必須のウェブ動作の興味深い例を提供する。
貴重なデジタル資産として、ディープニューラルネットワークには堅牢な所有権保護が必要であり、ニューラルネットワーク透かし(NNW)が有望な解決策として位置づけられています。さまざまなNNW手法の中でも、重みベースの手法はその簡潔さと実用性から好まれていますが、偽造や上書き攻撃に対して脆弱なままです。これらの課題に対処するため、我々はハッシュ化された透かしフィルタを中心に構築された堅牢な手法であるNeuralMarkを提案します。具体的には、ハッシュ関数を使用して秘密鍵から不可逆なバイナリ透かしを生成し、それをフィルタとして使用して埋め込むモデルパラメータを選択します。この設計は、埋め込みパラメータとハッシュ化された透かしを巧妙に絡み合わせることで、偽造と上書き攻撃の両方に対する堅牢な防御を提供します。さらに、微調整やプルーニング攻撃に抵抗するために平均プーリングも組み込まれています。さらに、さまざまなニューラルネットワークアーキテクチャにシームレスに統合できるため、幅広い適用性が確保されています。理論的には、そのセキュリティ境界を分析します。実証的には、5つの画像分類タスクと1つのテキスト生成タスクをカバーする13の異なる畳み込みおよびトランスフォーマーアーキテクチャにわたってその有効性と堅牢性を検証します。ソースコードはhttps://github.com/AIResearch-Group/NeuralMarkで公開されています。
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を発揮するが、生成される出力において論理的一貫性に問題を示す。その一貫性の欠如にもかかわらず、LLMの広範なパラメトリック知識を形式的推論にどのように活用できるだろうか?本論文では、LLMを直接、矛盾許容論理の形式的意味論の解釈関数に統合する方法を提案する。この方法の実現可能性を検証するため、いくつかの短形式事実性ベンチマークから作成されたデータセットを用いて関数を評価し、実験的証拠を提供する。従来の研究とは異なり、本手法は、LLMの知識を活用しつつ、基盤となる論理の健全性と完全性を保持するニューロシンボリック推論の理論的枠組みを提供する。