HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

37 papers found

アストロラーベ：蒸留された自己回帰型ビデオモデルのための順方向プロセス強化学習の制御
Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Mar 17

BySongchun Zhang, Zeyue Xue, Siming Fu, Jie Huang, Xianghao Kong, Y Ma, Haoyang Huang, Nan Duan, Anyi Rao

109

蒸留自己回帰（AR）動画モデルは効率的なストリーミング生成を可能とするが、人間の視覚的選好との整合性に課題を残す。既存の強化学習（RL）フレームワークはこれらのアーキテクチャに自然に適合せず、高コストな再蒸留またはソルバー結合型の逆過程最適化を必要とし、多大なメモリと計算オーバーヘッドを伴う。本論文では、蒸留ARモデルに特化した効率的なオンラインRLフレームワーク「Astrolabe」を提案する。既存のボトルネックを克服するため、ネガティブ認識ファインチューニングに基づく順過程RL定式化を導入する。推論端点で正例と負例を直接対比することで、逆過程の展開を必要とせずに暗黙的な方策改善方向を確立する。長尺動画への適用を可能にするため、ローリングKVキャッシュによる逐次生成と、局所クリップウィンドウへのRL更新に限定しつつ前文を条件付けることで長距離一貫性を保証するストリーミング訓練方式を考案した。さらに報酬ハッキングを軽減するため、不確実性認識選択的正則化と動的参照更新で安定化した多報酬目的関数を統合する。大規模実験により、本手法が複数の蒸留AR動画モデルで生成品質を一貫して向上させ、堅牢かつスケーラブルなアライメント解決策となることを実証する。

HopChain：一般化可能な視覚言語推論のためのマルチホップデータ合成
HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Mar 17

ByShenzhi Wang, Shixuan Liu, Jing Zhou, Chang Gao, Xiong-Hui Chen, Binghai Wang, An Yang, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin

109

VLMは強力なマルチモーダル能力を示すものの、細粒度の視覚言語推論には依然として課題を抱えています。我々は、長い連鎖思考（CoT）推論が、知覚、推論、知識、幻覚といった多様な失敗モードを露呈し、それらが中間ステップで累積することを発見しました。しかし、RLVRに用いられる既存の視覚言語データの多くは、視覚的証拠に依存する複雑な推論連鎖を含んでおらず、これらの弱点が十分に検出されていません。そこで我々は、VLMのRLVRトレーニング専用にマルチホップ視覚言語推論データを合成するスケーラブルなフレームワーク「HopChain」を提案します。合成された各マルチホップクエリは、論理的に依存するインスタンス接地型ホップの連鎖を形成し、初期のホップが後続のホップに必要なインスタンス、集合、条件を確立します。最終回答は検証可能な報酬に適した、具体的で曖昧さのない数値となります。HopChainで合成したマルチホップデータを、Qwen3.5-35B-A3BおよびQwen3.5-397B-A17Bのトレーニングに使用された元のRLVRデータに追加し、STEMとパズル、一般VQA、文字認識と文書理解、動画理解にわたる24のベンチマークで、従来のRLVRデータのみを使用した場合と比較しました。このマルチホップデータは特定のベンチマークをターゲットに合成されていないにもかかわらず、追加により両モデルで24ベンチマーク中20において改善が確認され、広範かつ一般化可能な効果が示されました。完全な連鎖クエリの重要性を実証するため、マルチホップの半減バージョンまたはシングルホップバージョンに置き換えたところ、24ベンチマークの平均精度がそれぞれ5.3ポイント、7.0ポイント低下しました。マルチホップトレーニングは長文CoT視覚言語推論も強化し、超長文CoT領域では精度が50ポイント以上向上するピークが見られました。これらの実験により、HopChainが一般化可能な視覚言語推論を改善するマルチホップデータ合成の効果的でスケーラブルなフレームワークであることが確認されました。

テラスコープ：地球観測のためのピクセル接地型視覚推論
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Mar 19

ByYan Shu, Bin Ren, Zhitong Xiong, Xiao Xiang Zhu, Begüm Demir, Nicu Sebe, Paolo Rota

視覚言語モデル（VLM）は地球観測（EO）分野で有望な成果を示しているが、複雑な空間推論を正確なピクセルレベル視覚表現に基づいて行うタスクには課題を抱えている。この問題を解決するため、我々はTerraScopeを提案する。これはピクセル接地型地理空間推論を実現する統一VLMであり、以下の2つの核心機能を備える：（1）モダリティ柔軟型推論：単一モダリティ入力（光学またはSAR）を扱い、両方のモダリティが利用可能な場合には適応的に異なるモダリティを推論プロセスに融合する；（2）多時期推論：複数の時間点にわたる変化分析のために時系列データを統合する。さらに、100万サンプル規模のTerra-CoTデータセットを構築した。これは複数ソースにわたる推論連鎖にピクセルレベルのマスクを埋め込んだ大規模データセットである。また、ピクセル接地型地理空間推論では初となるベンチマークTerraScope-Benchを提案する。6つのサブタスクから構成され、回答精度とマスク品質の両方を評価することで真のピクセル接地型推論を保証する。実験結果では、TerraScopeが解釈可能な視覚的証拠を提供しつつ、ピクセル接地型地理空間推論において既存VLMを大幅に上回る性能を示した。

ハイパーエージェント
Hyperagents

Mar 19

ByJenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina

自己改善AIシステムは、自身の学習と問題解決プロセスを改善する方法を学ぶことで、人間による設計への依存を軽減することを目指している。既存の自己改善アプローチは、固定的で手作りされたメタレベル機構に依存しており、そのようなシステムの改善速度を根本的に制限している。Darwin Gödel Machine（DGM）は、自己修正された変種を繰り返し生成・評価することで、コーディングにおけるオープンエンドな自己改善を実証している。評価と自己修正の両方がコーディング課題であるため、コーディング能力の向上が自己改善能力の向上に転換され得る。しかし、この整合性は一般にコーディング領域を超えては成立しない。我々は、ハイパーエージェントを提案する。これは、タスクエージェント（目標タスクを解決する）とメタエージェント（自身とタスクエージェントを修正する）を単一の編集可能なプログラムに統合した、自己言及的なエージェントである。決定的に、メタレベルでの修正手順自体が編集可能であり、メタ認知的自己修正を可能にする。これにより、タスク解決行動だけでなく、将来の改善を生み出すメカニズムそのものも改善される。我々はこの枠組みを具体化するため、DGMを拡張してDGM-Hyperagents（DGM-H）を創出した。これにより、タスク性能と自己修正技能の間の領域特異的な整合性という仮定を排除し、任意の計算可能タスクにおける自己加速的な進歩を潜在的に支援する。多様な領域にわたって、DGM-Hは時間とともに性能を向上させ、自己改善やオープンエンドな探索を行わないベースラインや、従来の自己改善システムを上回る性能を示す。さらに、DGM-Hは新しいエージェントを生成するプロセス（例：永続的メモリ、性能追跡）も改善し、これらのメタレベルの改善は領域間で転移し、実行を跨いで蓄積する。DGM-Hyperagentsは、単により良い解を探索するだけでなく、改善の方法そのものを探求する方法を絶えず改善し続ける、オープンエンドなAIシステムの一端を示唆している。

ProactiveBench: マルチモーダル大規模言語モデルにおける能動性のベンチマーク
ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

Mar 19

ByThomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini

効果的な協働は、適切なタイミングで助けを求めることから始まります。例えば、遮蔽された物体を識別しようとする際、人間は誰かに障害物を取り除いてもらうよう依頼するでしょう。MLLM（大規模言語モデル）も同様の「能動的」行動を示し、簡易的なユーザー介入を要求できるのでしょうか？本研究ではこの問いを探るため、7つのデータセットを再構成して構築したベンチマーク「ProactiveBench」を提案します。これは、遮蔽物体の認識、画質向上、粗いスケッチの解釈など様々なタスクにおける能動性を測定します。22のMLLMをProactiveBenchで評価した結果、(i) 全般的に能動性が欠如していること、(ii) 能動性はモデル容量と相関しないこと、(iii) 能動性を暗示するヒントによる改善効果は限定的であること、が明らかになりました。驚くべきことに、対話履歴やインコンテキスト学習は負のバイアスを導入し、性能を阻害することが判明しました。最後に、強化学習に基づく簡易なファインチューニング手法を検証した結果、能動性が学習可能であり、未経験のシナリオへの一般化も示唆されました。能動的なマルチモーダルモデル構築への第一歩として、ProactiveBenchを公開します。

LLMのためのYコンビネータ：λ計算による長文脈劣化問題の解決
The Y-Combinator for LLMs: Solving Long-Context Rot with λ-Calculus

Mar 20

ByAmartya Roy, Rasul Tutunov, Xiaotong Ji, Matthieu Zimmer, Haitham Bou-Ammar

大規模言語モデル（LLM）は汎用推論エンジンとしてますます利用されているが、長い入力は固定長のコンテキストウィンドウによってボトルネックとなっている。再帰的言語モデル（RLM）はプロンプトを外部化し部分問題を再帰的に解決することでこの課題に取り組む。しかし既存のRLMは、モデルが任意の制御コードを生成するオープンエンドのREPL（Read-Eval-Print Loop）に依存しており、実行の検証・予測・分析が困難である。我々はλ-RLMを提案する。これは長文脈推論のためのフレームワークであり、自由形式の再帰的コード生成を、λ計算に基づく型付き関数型ランタイムで置き換える。事前検証済みのコンビネータのコンパクトなライブラリを実行し、ニューラル推論を有界の末端部分問題にのみ適用することで、再帰的推論を明示的な制御フローを持つ構造化された関数型プログラムに変換する。λ-RLMが標準RLMにはない形式的保証を提供することを示す。これには終了性、閉形式のコスト上限、再帰深度に応じた精度制御、単純なコストモデル下での最適分割規則が含まれる。実証実験では、4つの長文脈推論タスクと9つの基盤モデルにおいて、λ-RLMは36のモデル・タスク比較のうち29で標準RLMを上回り、モデル階層全体で平均精度を最大21.9ポイント向上させ、レイテンシを最大4.1倍削減した。これらの結果は、型付き記号的制御がオープンエンドの再帰的コード生成よりも、長文脈推論においてより信頼性と効率性の高い基盤を提供することを示している。λ-RLMの完全な実装は、https://github.com/lambda-calculus-LLM/lambda-RLM でコミュニティに向けて公開されている。

FlowScene: マルチモーダルグラフ整流フローによるスタイル一貫性のある室内シーン生成
FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

Mar 20

ByZhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang

シーン生成は産業応用が広く、高いリアリズムと幾何学構造・外観の精密な制御が求められる。言語駆動型検索手法は大規模オブジェクトデータベースから妥当なシーンを構築するが、オブジェクトレベルの制御を軽視し、シーンレベルのスタイル一貫性を確保できないことが多い。グラフベースの定式化はオブジェクトに対する制御性が高く、関係性を明示的にモデル化することで全体的な一貫性を担保するが、既存手法は高精細なテクスチャ結果の生成に苦戦し、実用性が制限されている。本研究では、マルチモーダルグラフを条件とする三枝構造のシーン生成モデルFlowSceneを提案する。これはシーンレイアウト、オブジェクト形状、オブジェクトテクスチャを協調的に生成する。中核には、生成過程でオブジェクト情報を交換する緊密結合型修正フローモデルを配置し、グラフ横断的な協調的推論を実現する。これにより、オブジェクトの形状・テクスチャ・関係性の細粒度制御と、構造と外観にわたるシーンレベルのスタイル一貫性の両立が可能となる。大規模実験により、FlowSceneが生成のリアリズム、スタイル一貫性、人間の選好との整合性において、言語条件付きおよびグラフ条件付きベースラインを凌駕することを示す。

LumosX: 任意のアイデンティティと属性を関連付けるパーソナライズド動画生成
LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Mar 20

ByJiazheng Xing, Fei Du, Hangjie Yuan, Pengwei Liu, Hongbin Xu, Hai Ci, Ruigang Niu, Weihua Chen, Fan Wang, Yong Liu

拡散モデルの最近の進歩により、テキストからビデオへの生成が大幅に改善され、前景と背景の両要素に対するきめ細かい制御を可能にしたパーソナライズドコンテンツ作成が実現している。しかし、被写体間での正確な顔属性の整合性確保は依然として課題であり、既存手法にはグループ内一貫性を保証する明示的なメカニズムが欠如している。この課題に対処するには、明示的なモデリング戦略と顔属性を意識したデータ資源の両方が必要である。そこで我々は、データとモデル設計の両面で進歩をもたらすフレームワーク「LumosX」を提案する。データ面では、独立したビデオからキャプションと視覚的手がかりを調整する特化した収集パイプラインを構築し、マルチモーダル大規模言語モデル（MLLM）が被写体固有の依存関係を推論・割り当てる。これにより抽出された関係性プライアは、より細粒度の構造を課すことでパーソナライズドビデオ生成の表現制御を強化し、包括的ベンチマークの構築を可能にする。モデリング面では、Relational Self-Attention と Relational Cross-Attention が位置認識埋め込みを洗練された注意機構と融合させ、明示的な被写体-属性依存関係を刻み込むことで、規律あるグループ内結束を強制し、異なる被写体クラスタ間の分離を増幅する。提案ベンチマークによる総合的な評価では、LumosX が細粒度・アイデンティティ一貫性・意味的整合性を備えたパーソナライズド多被写体ビデオ生成において最先端の性能を達成することを実証している。コードとモデルは https://jiazheng-xing.github.io/lumosx-home/ で公開されている。

推論としての圧縮：条件付き情報ボトルネックによる予算強制の統一
Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

Mar 9

ByFabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi

Chain-of-Thought (CoT) プロンプティングは複雑なタスクにおける大規模言語モデル(LLM)の精度向上に寄与するが、トークン使用量と推論コストの増加を招くことが多い。既存の「Budget Forcing」手法は、発見的な長さペナルティを用いたファインチューニングによりコスト削減を図るが、本質的な推論と冗長なフィラー文の両方を抑制してしまう。本研究では、効率的な推論を情報ボトルネック(IB)原理に基づく非可逆圧縮問題として再定義し、単純なIBをトランスフォーマーに適用した際の理論的ギャップ、すなわち注意機構がプロンプト・推論過程・応答間のマルコフ性を破綻させる点を明らかにする。この問題を解決するため、条件付き情報ボトルネック(CIB)原理に基づくCoT生成をモデル化する。ここでは推論過程Zが計算の橋渡し役として機能し、プロンプトXから直接得られない応答Yに関する情報のみを保持する。これにより、推論過程に関する事前分布の下で完了文を圧縮しつつタスク報酬を最大化する、一般的な強化学習の目的関数が導かれる。この枠組みは、一般的な発見的手法（例：長さペナルティ）を特殊ケース（例：一様事前分布）として包含する。単純なトークン数ベースの手法とは対照的に、我々は言語モデル事前分布におけるサプライザル（驚き度）によってトークンコストを測定する意味論的事前分布を導入する。実験により、CIB目的関数は認知的肥大を削減しつつ流暢性と論理性を維持し、適度な圧縮では精度を向上させ、強力な圧縮では精度低下を最小限に抑えることを実証する。

長期的目標達成を改善するためのサブゴール駆動型フレームワーク
A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Mar 20

ByTaiyi Wang, Sian Gooding, Florian Hartmann, Oriana Riva, Edward Grefenstette

大規模言語モデル（LLM）を基盤としたエージェントは、モバイルインターフェース、オペレーティングシステム、ウェブブラウザなどのデジタル環境における強力な自律制御器として登場している。例えば、ウェブ操作タスクは、動的コンテンツの扱いや長い一連の行動を必要とするため、特に困難な課題である。既存のLLMベースのエージェントは、長期的な計画立案において主に2つの点で苦戦している。オンライン実行時には、新しい情報が入ってくるにつれて最終目標への明確で適応的な経路を見失いがちである。この問題は強化学習（RL）によるファインチューニング時にさらに悪化する。すなわち、スパースで遅延した報酬により、どの行動が成功に結びつくのかをエージェントが特定することが難しく、長期的なタスクにおいて一貫した推論を維持できなくなる。これらの課題に対処するため、我々は2つの貢献を提案する。第一に、サブゴール分解によるオンライン計画のためにプロプライエタリモデルを活用するエージェントフレームワークを導入する。第二に、高密度でマイルストーンに基づく報酬信号を用いるRL訓練フレームワークであるMiRA（Milestoning your Reinforcement Learning Enhanced Agent）を提示する。このリアルタイム計画メカニズムは、WebArena-Liteベンチマークにおいて、Geminiのようなプロプライエタリモデルの成功率（SR）を約10%絶対値で向上させた。一方、オープンなGemma3-12BモデルにMiRAを適用すると、その成功率は6.4%から43.0%に増加した。この性能は、GPT-4-Turbo（17.6%）やGPT-4o（13.9%）といったプロプライエタリシステム、および従来のオープンモデルのState-of-the-ArtであったWebRL（38.4%）をも上回る。全体として、我々の知見は、明示的な推論時計画とマイルストーンに基づく報酬を組み合わせることが、エージェントの長期的能力を大幅に向上させ、より堅牢で汎用的な自律システムへの道を開くことを実証している。

トレーニング不要で実現する映像コンテンツ・アクション・ダイナミクスの多用途編集
Versatile Editing of Video Content, Actions, and Dynamics without Training

Mar 18

ByVladimir Kulikov, Roni Paiss, Andrey Voynov, Inbar Mosseri, Tali Dekel, Tomer Michaeli

近年、制御された動画生成は飛躍的な進歩を遂げている。しかしながら、実世界の動画においてアクションや動的イベントを編集したり、他のオブジェクトの挙動に影響を与えるべきコンテンツを挿入することは、依然として大きな課題である。既存の学習済みモデルは複雑な編集に苦戦しており、これは関連する学習データの収集が困難であることに起因する可能性が高い。同様に、既存の学習不要な手法は、本質的に構造と動きを保存する編集に制限されており、動きや相互作用の変更をサポートしていない。本論文では、学習済みのテキスト-to-動画フローモデルを用いて多様な動画編集機能を実現する、学習不要な編集手法DynaEditを提案する。本手法は、モデルの内部に干渉しない最近導入された反転不要アプローチに依存しており、したがってモデル非依存である。我々は、このアプローチを一般的な制約のない編集に単純に適用しようと試みると、深刻な低周波数の位置ずれと高周波数のジッターが生じることを示す。これらの現象の原因を説明し、それらを克服する新しいメカニズムを導入する。広範な実験を通じて、DynaEditが、アクションの変更、シーンと相互作用するオブジェクトの挿入、グローバルな効果の導入を含む、複雑なテキストベースの動画編集タスクにおいて最先端の結果を達成することを示す。

LoopRPT: ループ型言語モデルのための強化学習事前学習
LoopRPT: Reinforcement Pre-Training for Looped Language Models

Mar 20

ByGuo Tang, Shixin Jiang, Heng Chang, Nuo Chen, Yuhan Li, Huiming Fan, Jia Li, Ming Liu, Bing Qin

ループ構造言語モデル（LoopLM）は、内部表現を反復的に洗練させる潜在計算を行うことで、明示的な連鎖思考（CoT）推論に対する有望な代替手段を提供する。しかし、既存の強化学習（RL）パラダイムは主に出力トークンを対象としており、推論が暗黙的に展開するループ構造との間に構造的なミスマッチが生じている。本研究では、LoopLMに特化した強化学習事前学習フレームワークであるLoopRPTを提案する。次トークン予測を次トークン推論タスクとして再定義し、EMA教師参照とノイジーな潜在状態ロールアウトを用いて、強化学習信号を潜在ステップに直接付与する。この定式化により、RLが中間表現を直接形成し、効果的な推論をより少ない反復回数に圧縮することが可能となる。我々はOuroアーキテクチャにおいて、複数のモデル規模でLoopRPTを実装した。結果は、LoopRPTがステップごとの表現品質を一貫して向上させ、精度と計算量のトレードオフにおいてパレート優位性を達成することを示している。特に、難易度の高いトークンにおける顕著な性能向上は、LoopRPTが単なる早期終了の促進ではなく、初期段階の推論能力を強化していることを示唆する。本成果は、LoopLMにおける効率的な潜在推論を学習するための原理的なパラダイムとして、強化学習事前学習の重要性を浮き彫りにする。

継続的経験駆動実行による深層表形式データ研究
Deep Tabular Research via Continual Experience-Driven Execution

Mar 10

ByJunnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Qiufeng Wang, Yinghui Li, Siyu An, Di Yin, Xing Sun, Feiyue Huang

大規模言語モデルは、階層的かつ双方向の見出しと非正規化されたレイアウトを特徴とする非構造化テーブルに対する複雑な長期的分析タスクにおいて、しばしば困難に直面する。我々はこの課題をDeep Tabular Research（DTR）として形式化し、相互依存的なテーブル領域に対する多段階推論を必要とする。DTRに対処するため、表形式推論を閉ループ意思決定プロセスとして扱う新しいエージェントフレームワークを提案する。経路決定と操作実行のための結合されたクエリとテーブル理解を注意深く設計する。具体的には、(i) DTRはまず双方向の意味論を捕捉する階層的メタグラフを構築し、自然言語クエリを操作レベルの探索空間に写像する。(ii) この空間を探索するため、高効用な実行経路を優先する期待値認識選択ポリシーを導入する。(iii) 決定的に、過去の実行結果はシャム構造化メモリ、すなわちパラメータ化された更新と抽象化されたテキストへと統合され、継続的な改善を可能にする。困難な非構造化テーブルベンチマークにおける大規模な実験により、有効性が検証され、長期的表形式推論において戦略的計画と低レベル実行を分離する必要性が強調された。

WorldAgents: 基盤画像モデルは3D世界モデルのエージェントとなり得るか？
WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

Mar 20

ByZiya Erkoç, Angela Dai, Matthias Nießner

2次元基盤画像モデルが高精細な出力を生成する顕著な能力を有することから、我々は一つの根源的疑問を検討する：2次元基盤画像モデルは本質的に3次元世界モデルの能力を内包しているのか？この問いに答えるため、我々は3次元世界合成タスクにおいて、複数の最先端画像生成モデルと視覚言語モデル（VLM）を体系的に評価する。潜在的3次元能力を活用しベンチマークするため、3次元世界生成を促進するエージェント的枠組みを提案する。本手法はマルチエージェントアーキテクチャを採用する：画像合成を誘導するプロンプトを策定するVLMベースのディレクター、新規視点画像を合成するジェネレーター、そして2次元画像空間と3次元再構成空間の両方から生成フレームを評価・選別するVLM支援の2段階検証器から構成される。決定的に、我々のエージェント的アプローチが、新規視点レンダリングによって探索可能な出力シーンを生成し、一貫性と堅牢性のある3次元再構成を実現することを実証する。様々な基盤モデルを用いた広範な実験を通じて、2次元モデルが確かに3次元世界の理解を内包していることを示す。この理解を活用することで、本手法は拡張性があり、現実的で、3次元一貫性のある世界の合成に成功する。

BEAVER: 構造を考慮したページ選択による階層的プロンプト圧縮法（学習不要）
BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

Mar 20

ByZhengpei Hu, Kai Li, Dapeng Fu, Chang Zeng, Yue Li, Yuanhao Tang, Jianqiang Huang

大規模言語モデル（LLM）におけるコンテキストウィンドウの指数的拡大は、長文書理解の能力を解放した一方で、推論遅延と情報利用効率に深刻なボトルネックをもたらしている。既存の圧縮手法は、高い学習コストや、過剰なトークン刈り込みに起因する意味的断片化に悩まされることが多い。本論文では、BEAVERを提案する。これは、圧縮を線形なトークン除去から、構造を考慮した階層的選択へと転換する、学習不要の新規フレームワークである。BEAVERは、可変長コンテキストをデュアルパスプーリングにより密なページレベルテンソルへマッピングすることでハードウェアの並列性を最大化し、意味的・語彙的デュアルブランチ選択と文平滑化を組み合わせたハイブリッドプランナにより談話の一貫性を保持する。4つの長文コンテキストベンチマークによる広範な評価により、BEAVERがLongLLMLinguaのような最先端手法と同等の性能を達成することが実証された。特にRULERベンチマークでは、ベースラインが性能劣化するマルチニードル検索タスクにおいて、BEAVERは高い正確性を維持した。効率性に関して、BEAVERは128kトークンのコンテキストにおいて遅延を26.4倍低減し、高スループット応用に向けたスケーラブルなソリューションを提供する。コードはhttps://cslikai.cn/BEAVER/ で公開されている。

生成的推薦システムはどの程度一般化できるのか？
How Well Does Generative Recommendation Generalize?

Mar 20

ByYijie Ding, Zitian Guo, Jiacheng Li, Letian Peng, Shuai Shao, Wei Shao, Xiaoqiang Luo, Luke Simon, Jingbo Shang, Julian McAuley, Yupeng Hou

生成的推薦（GR）モデルが従来のアイテムIDベースのモデルを凌駕する理由として広く受け入れられている仮説は、GRモデルの一般化能力の高さにある。しかし、この仮説を全体的な性能の表面的な比較を超えて体系的に検証する方法はほとんど存在しない。この課題を解決するため、我々は各データインスタンスを、正しい予測に必要とされる能力に基づいて分類した：記憶（学習時に観測されたアイテム遷移パターンの再利用）と、一般化（既知のパターンを組み合わせて未見のアイテム遷移を予測）である。大規模な実験により、GRモデルは一般化を必要とするインスタンスで優れた性能を発揮する一方、アイテムIDベースのモデルは記憶がより重要となる場合に優れていることが示された。この差異を説明するため、分析の焦点をアイテムレベルからトークンレベルに移し、GRモデルにおいてアイテムレベルの一般化に見える現象の多くが、実際にはトークンレベルの記憶に還元され得ることを示す。最後に、これら二つのパラダイムが相補的であることを示し、インスタンスごとにそれらを適応的に組み合わせる簡易な記憶考慮型指標を提案する。これにより、推薦性能の全体的な向上が達成される。

エゴフォージ：目標志向型エゴセントリック・ワールドシミュレーター
EgoForge: Goal-Directed Egocentric World Simulator

Mar 20

ByYifan Shen, Jiateng Liu, Xinzhuo Li, Yuanzhe Liu, Bingxuan Li, Houze Yang, Wenqi Jia, Yijiang Li, Tianjiao Yu, James Matthew Rehg, Xu Cao, Ismini Lourentzou

生成的ワールドモデルは動的環境のシミュレーションにおいて有望な成果を示しているが、エゴセントリック動画については、視点の急激な変化、頻繁な手と物体の相互作用、そして潜在的な人間の意図に依存して展開する目標指向的な手順といった課題により、依然として困難が伴う。既存の手法は、限定的なシーン進化に留まる手中心の指示合成に焦点を当てるか、行動ダイナミクスをモデル化しない静的な視点変換を行うか、あるいはカメラ軌道や長い動画プレフィックス、同期されたマルチカメラ撮影などの密な教師データに依存している。本研究では、EgoForgeを提案する。これは、最小限の静的入力（単一のエゴセントリック画像、高水準の指示、オプションの補助的エクソセントリックビュー）から、首尾一貫した一人称視点の動画の連続生成を可能とする、エゴセントリックで目標指向的なワールドシミュレータである。意図の整合性と時間的一貫性を向上させるため、拡散サンプリング過程において目標達成度、時間的因果性、シーン一貫性、知覚的忠実度を最適化する、軌道レベル報酬誘導型精緻化手法VideoDiffusionNFTを提案する。大規模な実験により、EgoForgeが強力なベースラインと比較して意味的整合性、幾何学的安定性、動作の忠実度において一貫した向上を達成し、現実世界のスマートグラス実験においても堅牢な性能を示すことを確認した。

HiMu: 長尺ビデオ質問応答のための階層的マルチモーダルフレーム選択
HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Mar 19

ByDan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin

長時間動画質問応答では、拡張された時間的コンテキストに対する推論が要求されるため、有限のコンテキストウィンドウに制約される大規模視覚言語モデル（LVLM）においてフレーム選択が極めて重要となる。既存手法は鋭いトレードオフに直面している：類似性ベースの選択手法は高速だが、合成的クエリを単一の密ベクトルに圧縮するため、サブイベントの順序関係やクロスモーダルな結合情報が失われる。エージェントベース手法は反復的なLVLM推論を通じてこの構造を回復するが、膨大なコストがかかる。我々はこのギャップを埋める学習不要フレームワークHiMuを提案する。単一のテキスト専用LLM呼び出しにより、クエリを階層的な論理木に分解し、その葉ノードは原子述語となる。各述語は視覚（CLIP、オープン語彙検出、OCR）および音声（ASR、CLAP）に跨る軽量エキスパートに振り分けられる。得られた信号は正規化され、異なるモダリティを整合させるため時間的に平滑化された後、時間的順序と隣接性を保証するファジィ論理演算子によるボトムアップ合成を経て、連続的な充足度曲線を生成する。Video-MME、LongVideoBench、HERBench-Liteによる評価では、HiMuが効率と精度のパレートフロンティアを推進することを示した：Qwen3-VL 8Bで16フレーム使用時、全ての競合する選択手法を性能で上回り、GPT-4oでは32-512フレーム動作するエージェント型システムを性能で凌駕しつつ、必要FLOPsを約10分の1に削減した。

単一トークンを超えて：離散MMDによる離散拡散モデルの蒸留
Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD

Mar 20

ByEmiel Hoogeboom, David Ruhe, Jonathan Heek, Thomas Mensink, Tim Salimans

現在、離散拡散モデルの蒸留は困難な課題となっています。一方、連続拡散モデルの研究分野では、サンプリングステップをわずか数回に削減できる多数の蒸留手法が存在します。我々の提案手法である離散モーメントマッチング蒸留（D-MMD）は、連続領域で高い成功を収めてきたアイデアを応用しています。従来の離散蒸留手法が破綻するのに対し、D-MMDは（十分なサンプリングステップが与えられれば）高品質性と多様性を維持します。これはテキストおよび画像データセットの両方で実証されています。さらに、新たに蒸留された生成器は教師モデルを凌駕する性能を発揮し得ることが示されました。

ポストトレーニングにおける大規模言語モデルの能力限界をマルコフ状態の再導入によって打破する
Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Mar 20

ByYurun Yuan, Tengyang Xie

強化学習（RL）は大規模言語モデル（LLM）の事後学習およびアラインメントにおける標準的なパラダイムとなっているが、最近の知見は、RLが頑固な「能力限界」に直面していることを示唆している。すなわち、新たな戦略を発見する古典的なRLシステムとは異なり、LLMに対するRLは、事前学習済みの重みに潜在的に存在するパターンの単なる洗練装置として機能することが多い。本研究では、その根本的な構造的ボトルネックを特定する。古典的なRLがコンパクトで情報量の多いマルコフ状態に依存するのに対し、現在のLLM事後学習の定式化は、際限なく拡大する行動履歴に縛られているのである。我々は、長らくRLの中核でありながらLLM事後学習では欠如していた古典的原理、すなわち明示的なマルコフ状態を再考する。理論的には、推定されたマルコフ状態を活用することでサンプル複雑性を大幅に低減できることを示す厳密な保証を提供する。実証的には、一連の複雑な論理パズルにおいて、マルコフ状態を導入することが標準的なRL事後学習の性能限界を一貫して打破することを示す。我々の発見は、「履歴を状態とする」モデリングを超えて、構造化されたマルコフ的表現を採用することが、生成AIにおけるオープンエンドな発見と真に新しい推論能力を解き放つために不可欠であることを示唆している。

AgentDSテクニカルレポート：ドメイン特化型データサイエンスにおける人間とAIの協働の未来をベンチマークする
AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Mar 19

ByAn Luo, Jin Du, Xun Xian, Robert Specht, Fangqiao Tian, Ganghua Wang, Xuan Bi, Charles Fleming, Ashish Kundu, Jayanth Srinivasa, Mingyi Hong, Rui Zhang, Tianxi Li, Galin Jones, Jie Ding

データサイエンスは、複雑なデータを様々な領域において実践的な洞察へと変換する上で極めて重要な役割を果たしている。大規模言語モデル（LLM）や人工知能（AI）エージェントの最近の進展により、データサイエンスのワークフローは大幅に自動化されてきた。しかし、特定領域のデータサイエンスタスクにおいて、AIエージェントが人間の専門家のパフォーマンスにどこまで迫れるのか、またどの側面で引き続き人間の専門性が優位性を発揮するのかは明らかになっていない。本論文では、特定領域のデータサイエンスにおけるAIエージェントおよび人間-AI協働のパフォーマンスを評価するためのベンチマーク兼競技会であるAgentDSを紹介する。AgentDSは、商業、食品生産、医療、保険、製造、小売銀行の6つの産業分野にわたる17の課題で構成されている。29チーム、80名の参加者による公開競技会を実施し、人間-AI協働アプローチとAIのみのベースラインとの体系的な比較を可能にした。結果は、現在のAIエージェントが領域特有の推論に苦戦することを示している。AIのみのベースラインは、参加者の中央値に近いか、それを下回るパフォーマンスであったのに対し、最も優れた解決策は人間-AI協働から生まれた。これらの知見は、AIによる完全な自動化という見方に疑問を投げかけ、データサイエンスにおける人間の専門知識の持続的な重要性を強調するとともに、次世代AIの進むべき方向性を示唆するものである。AgentDSのウェブサイト（https://agentds.org/）およびオープンソースデータセット（https://huggingface.co/datasets/lainmn/AgentDS）を参照されたい。

大規模言語モデルによる逐次的社会ジレンマ政策合成における協力と搾取
Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

Mar 19

ByVíctor Gallego

我々は、LLMによる政策合成を研究する。すなわち、大規模言語モデルを用いて、マルチエージェント環境におけるプログラム化されたエージェント政策を反復的に生成する手法である。強化学習によるニューラル政策の訓練とは異なり、我々のフレームワークはLLMにPythonの政策関数を生成させ、自己対戦で評価し、反復を跨いだ性能フィードバックを用いて洗練させる。我々はフィードバックエンジニアリング（洗練過程でLLMに提示する評価情報の設計）を調査し、スパースフィードバック（スカラー報酬のみ）と高密度フィードバック（報酬に加えて、効率性、公平性、持続可能性、平和といった社会的指標）を比較する。2つの代表的な逐次的社会ジレンマ（GatheringとCleanup）と2つの先進的LLM（Claude Sonnet 4.6, Gemini 3.1 Pro）を用いた実験において、高密度フィードバックは、全ての指標でスパースフィードバックと同等かそれを上回る性能を一貫して示した。この利点は、公共財ゲームであるCleanupで最も顕著であり、社会的指標を提供することが、コストのかかる清掃と収穫のトレードオフをLLMに調整させるのに役立った。公平性の過剰最適化を引き起こすのではなく、社会的指標は調整信号として機能し、領域分割、適応的な役割割り当て、無駄な攻撃の回避といった、より効果的な協調戦略へとLLMを導いた。さらに我々は、LLMがこれらの環境で報酬ハッキングを行えるかどうかを判断するための敵対的実験を実施した。5つの攻撃クラスを特徴付け、緩和策について議論し、LLM政策合成における表現力と安全性の間の本質的な緊張関係を浮き彫りにする。コードはhttps://github.com/vicgalle/llm-policies-social-dilemmasにて公開。

エージェントに一度に一つのパーツを描く方法を教える
Teaching an Agent to Sketch One Part at a Time

Mar 19

ByXiaodan Du, Ruize Xu, David Yunis, Yael Vinker, Greg Shakhnarovich

本論文では、ベクタースケッチをパーツ単位で生成する手法を提案する。この実現のために、教師ありファインチューニング後に、新規に開発したマルチターン過程報酬強化学習を用いてマルチモーダル言語モデルベースのエージェントを訓練する。我々の手法は、新たに構築したControlSketch-Partデータセットによって可能となった。このデータセットは、ベクタースケッチを意味的なパーツに分割し、構造化された多段階ラベリングプロセスでパスをパーツに割り当てる、新規で汎用的な自動アノテーションパイプラインを用いて取得された、スケッチの豊富なパートレベルのアノテーションを含んでいる。結果として、構造化されたパートレベルのデータを組み込み、プロセスを通じてエージェントに視覚的フィードバックを提供することが、解釈可能で制御性が高く、局所的に編集可能なテキストからベクタースケッチへの生成を実現することを示す。

VLMはVision Transformerを必要とするか？視覚エンコーダとしての状態空間モデルの評価
Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Mar 19

ByShang-Jui Ray Kuo, Paola Cascante-Bonilla

大規模視覚言語モデル（VLM）では、凍結された視覚バックボーンが多用され、その画像特徴は軽量なコネクタを介して大規模言語モデルにマッピングされる。トランスフォーマーベースのエンコーダが標準的な視覚バックボーンであるが、我々は状態空間モデル（SSM）ベースの視覚バックボーンが有力な代替手段となり得るかどうかを検討する。本論文では、制御された環境下でVLM向けSSM視覚バックボーンを体系的に評価する。ImageNet-1K初期化条件を統一した場合、SSMバックボーンはVQAとグラウンディング/位置特定の両タスクで最も優れた総合性能を達成する。さらに、SSMおよびViTファミリーバックボーンを検出またはセグメンテーション学習で適応させたところ、密なタスクチューニングはファミリー間で性能を全般的に向上させることが分かり、この適応後もSSMバックボーンは大幅に小規模なモデルサイズでありながら競争力を維持する。さらに観察された点は、(i) ImageNet精度の向上やバックボーンの大規模化が必ずしも優れたVLM性能に繋がらないこと、(ii) 一部の視覚バックボーンは位置特定タスクで不安定になることである。これらの知見に基づき、両バックボーンファミリーのロバスト性を向上させる安定化戦略を提案し、SSMバックボーンがVLMにおけるトランスフォーマーベース視覚エンコーの強力な代替手段であることを示す。

DROID-SLAM：実環境におけるSLAM
DROID-SLAM in the Wild

Mar 19

ByMoyang Li, Zihan Zhu, Marc Pollefeys, Daniel Barath

本論文では、微分可能な不確実性考慮バンドル調整を活用し、動的環境に対応するロバストなリアルタイムRGB SLAMシステムを提案する。従来のSLAM手法は典型的に静的なシーンを想定しており、動きが存在する場合には追跡失敗に陥りやすい。近年の動的SLAM手法は、事前定義された動的事前情報や不確実性考慮マッピングを用いてこの課題への対応を試みているが、未知の動的オブジェクトや、幾何学的マッピングが信頼できなくなる高度に雑多なシーンに直面した場合には限界がある。対照的に、本手法はマルチビュー視覚的特徴の不整合性を利用して画素単位の不確実性を推定し、実世界環境においてもロバストな追跡と再構成を可能にする。提案システムは、雑多な動的シナリオにおいて、約10 FPSでリアルタイム動作しながら、最先端のカメラ姿勢とシーン幾何学を実現する。コードとデータセットはhttps://github.com/MoyangLi00/DROID-W.gitで公開されている。

オンデマンドの言語、コアとなる知識：拡張可能な多言語対応を実現するためのエンコーダ・デコーダ翻訳モデルとLLMの構成
Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

Mar 18

ByMengyu Bu, Yang Feng

大規模言語モデル（LLM）は強力な汎用知能を示すが、その多言語性能は依然として著しく不均衡である。LLMは統一された意味空間に膨大な言語横断的知識を符号化するものの、低リソース言語や未学習言語に対してこの知識を確実に連動させることに苦戦することが多い。幸い、事前学習済みエンコーダ・デコーダ型翻訳モデルは既に均衡の取れた多言語能力を有しており、LLMを自然に補完する可能性を示唆している。本論文では、XBridgeを提案する。これは合成的なエンコーダ-LLM-デコーダ構造であり、多言語理解と生成を外部の事前学習済み翻訳モデルに委譲しつつ、LLMを汎用知識処理のための英語中心の中核として維持する。これに伴うモデル間の表現の不一致に対処するため、軽量なモデル間マッピング層と最適輸送理論に基づくアライメント目的関数を導入し、多言語生成における細粒度の意味的一貫性を実現する。多言語理解、推論、要約、生成の4タスクにおいて4種類のLLMで行った実験では、XBridgeが強力なベースラインを上回り、特に低リソース言語および未学習言語において、LLMの再学習なしに優れた性能を示すことが確認された。

エージェント的コードレビューにおける人間とAIのシナジー
Human-AI Synergy in Agentic Code Review

Mar 16

BySuzhen Zhong, Shayan Noei, Ying Zou, Bram Adams

コードレビューは、コード品質を確保し、欠陥を検出し、保守性を向上させるために、開発者が統合前にコード変更を確認する重要なソフトウェアエンジニアリングの実践である。近年、コードの文脈を理解し、レビューアクションを計画し、開発環境と対話できるAIエージェントが、コードレビュープロセスに統合されることが増えている。しかし、協調的なワークフローにおけるAIエージェントと人間のレビュアーの有効性を比較する実証的証拠は限られている。このギャップを埋めるため、我々は300のオープンソースGitHubプロジェクトにわたる278,790件のコードレビュー対話に関する大規模な実証分析を行った。本研究では、人間のレビュアーとAIエージェントによって提供されるフィードバックの差異を比較することを目的とする。レビュー対話における人間-AI協調パターンを調査し、相互作用がレビュー成果をどう形成するかを理解する。さらに、人間のレビュアーとAIエージェントによって提供されたコード提案がコードベースに採用される状況と、採用された提案がコード品質をどう変化させるかを分析する。その結果、人間のレビュアーは、理解、テスト、知識伝達を含む、AIエージェントよりも追加的なフィードバックを提供することがわかった。人間のレビュアーは、AI生成コードをレビューする際、人間が書いたコードをレビューする場合よりも11.8%多い対話ラウンドを交換する。さらに、AIエージェントによるコード提案がコードベースに採用される割合は、人間のレビュアーによる提案よりも有意に低い。AIエージェントからの採用されなかった提案の半数以上は、不正確であるか、開発者による別の修正によって対処されていた。採用された場合、AIエージェントによる提案は、人間のレビュアーによる提案よりも、コードの複雑性とコードサイズを有意に大きく増加させた。我々の発見は、AIエージェントが欠陥スクリーニングを拡張できる一方で、提案の品質を確保し、AIエージェントが欠如する文脈的フィードバックを提供するためには、人間による監視が依然として重要であることを示唆している。

適応的層間摂動: LLM強化学習におけるオフポリシー補正の統合
Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Mar 19

ByChenlu Ye, Xuanchang Zhang, Yifan Hao, Zhou Yu, Ziji Zhang, Abhinav Gullapalli, Hao Chen, Jing Huang, Tong Zhang

オフポリシー問題、すなわちポリシーの陳腐化や学習・推論間のミスマッチは、LLM強化学習における学習の安定性とさらなる探索の主要なボトルネックとなっている。推論効率を高めようとすると、更新されたポリシーと推論時のポリシーとの分布ギャップが拡大し、重要度比が裾の重い分布を示すようになる。裾の重い比は、ポリシーが局所的に急峻（シャープ）になった際に生じ、これがさらに急峻な勾配を膨張させ、更新を信頼領域外に押し出す可能性がある。この問題に対処するため、我々はAdaptive Layerwise Perturbation (ALP) を提案する。これは、更新時に各層の入力隠れ状態に小さな学習可能な摂動を注入し、これを目的関数内で変更されていない推論ポリシーに対する重要度比の分子として用いるものである。直感的には、中間表現に制御されたノイズを加えることで、ALPは更新されたポリシーが推論ポリシーから急激に乖離することを防ぎ、ミスマッチノイズを含む推論ポリシーファミリーをカバーするようにポリシーファミリーを拡大する。その結果、平坦化された分布は、更新ポリシーと推論ポリシーのギャップを自然に狭め、重要度比の裾を減少させることで、学習の安定性を維持する。これは実験的にもさらに検証されている。単一ターンの数学タスクと複数ターンのツール統合推論タスクにおける実験では、ALPが最終性能を向上させるだけでなく、反復学習中の重要度比の裾の爆発的増大やKLダイバージェンスの急上昇を回避し、探索を促進することが示されている。アブレーション研究により、全ての層にわたる表現レベルでの摂動が最も効果的であり、一部の層のみやロジットのみへの摂動を大幅に上回ることを確認した。

大規模言語モデルにおける文化的シグナルの作者プロファイリングによる分析
Probing Cultural Signals in Large Language Models through Author Profiling

Mar 17

ByValentin Lafargue, Ariel Guerra-Adames, Emmanuelle Claeys, Elouan Vuichard, Jean-Michel Loubes

大規模言語モデル（LLM）は社会的影響を伴うアプリケーションで展開が進むにつれ、その内在文化的バイアスへの懸念が高まっている。本研究では、LLMがゼロショット設定で歌詞から作者プロファイリング（歌手の性別・民族の推定）を遂行できるか評価し、これらの表現体系を探る。10,000件超の歌詞を用いて複数のオープンソースモデルを評価した結果、LLMは有意なプロファイリング性能を示す一方、体系的な文化的偏向を確認した。大半のモデルは北米の民族属性へデフォルトで傾くが、DeepSeek-1.5Bはアジア系民族属性への強い整合性を示した。この知見はモデルの予測分布と生成根拠の分析の双方から導出されている。これらの偏りを定量化するため、我々はModality Accuracy Divergence（MAD）とRecall Divergence（RD）という二つの公平性指標を提案し、Ministral-8Bが評価モデル中最も強い民族的バイアスを示す一方、Gemma-12Bが最も均衡のとれた振る舞いを示すことを明らかにした。コードはGitHub（https://github.com/ValentinLafargue/CulturalProbingLLM）で公開している。

s2n-bignum-bench: LLMの低レベルコード推論能力を評価する実践的ベンチマーク
s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs

Mar 15

ByBalaji Rao, John Harrison, Soonho Kong, Juneyoung Lee, Carlo Lipizzi

大規模言語モデル（LLM）と形式手法を活用する神経記号的アプローチは、数学志向の定理証明ベンチマークにおいて近年強力な成果を上げている。しかし、競技数学的な問題での成功自体は、実世界の実装に関する証明を構築する能力を実証するものではない。我々はこの隔たりを、産業界で使用される暗号ライブラリから派生したベンチマークによって埋める。このライブラリのアセンブリルーチンは既にHOL Lightで検証済みである。s2n-bignumはAWSで使用されている、暗号処理のための高速なアセンブリルーチンを提供するライブラリであり、その正当性は形式検証によって確立されている。このライブラリの形式検証は、自動推論グループにとって重要な成果であった。この作業には二つの課題が含まれていた：(1) プログラムの正しい動作を数学的な命題として精密に特定すること、(2) その命題が正しいことを証明すること。s2n-bignumの場合、両方の課題は人間の専門家によって実行された。s2n-bignum-benchでは、我々は形式的仕様を提供し、LLMが固定の証明チェックタイムアウト内でHOL Lightに受理される証明スクリプトを生成することを求める。我々の知る限り、s2n-bignum-benchは、HOL Lightにおける産業用低レベル暗号アセンブリルーチンのための、機械検証可能な証明合成に焦点を当てた最初の公開ベンチマークである。このベンチマークは、競技数学を超えたLLMベースの定理証明を評価するための、挑戦的かつ実用的に関連性の高いテストベッドを提供する。ベンチマークのセットアップと使用のためのコードは以下で利用可能である：https://github.com/kings-crown/s2n-bignum-bench{s2n-bignum-bench}

ReLi3D: 照明分離型リライタブル多視点3D再構成
ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Mar 20

ByJan-Niklas Dihlmann, Mark Boss, Simon Donne, Andreas Engelhardt, Hendrik P. A. Lensch, Varun Jampani

画像からの3Dアセット再構築は、従来、ジオメトリ再構築、マテリアル推定、照明回復それぞれに個別のパイプラインを必要とし、それぞれが異なる制約と計算コストを伴ってきました。本論文では、まばらなマルチビュー画像から、1秒未満で完全な3Dジオメトリ、空間的に変化する物理ベースマテリアル、環境照明を同時に再構築する、初の統合されたエンドツーエンドパイプラインであるReLi3Dを提案します。私たちの重要な知見は、マルチビューの制約が、単一画像手法では本質的に不良設定問題であるマテリアルと照明の分離を劇的に改善できる点です。私たちのアプローチの核心は、トランスフォーマーの相互条件付けアーキテクチャによるマルチビュー入力の融合と、それに続く新しい統合型二経路予測戦略にあります。第一の経路はオブジェクトの構造と外観を予測し、第二の経路は画像背景またはオブジェクトの反射から環境照明を予測します。これに、微分可能なモンテカルロ多重重点サンプリングレンダラーを組み合わせることで、最適な照明分離トレーニングパイプラインを構築します。さらに、合成PBRデータセットと実世界のRGBキャプチャを組み合わせた混合ドメイントレーニングプロトコルにより、ジオメトリ、マテリアル精度、照明品質において一般化可能な結果を実現しています。従来個別だった再構築タスクを単一の順伝搬処理に統合することで、完全で再照明可能な3Dアセットを瞬時に生成することを可能にします。プロジェクトページ: https://reli3d.jdihlmann.com/

CurveStream: 曲率認識型階層的視覚メモリ管理によるMLLMのストリーミング映像理解の向上
CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

Mar 20

ByChao Wang, Xudong Tan, Jianjian Cao, Kangcong Li, Tao Chen

マルチモーダル大規模言語モデルは、オフライン映像理解において大きな成功を収めているが、ストリーミング映像への応用は、視覚トークンの線形的な爆発的増加により深刻に制限されており、メモリ不足（OOM）エラーや破滅的忘滅を引き起こしやすい。既存の視覚情報保持およびメモリ管理手法は、一様サンプリング、低水準の物理的指標、または受動的なキャッシュ削除に依存する場合がほとんどである。しかし、これらの戦略は本質的な意味的認識を欠いており、文脈の一貫性を損なったり、一時的かつ重要な意味的遷移を曖昧にしたりする可能性がある。これらの課題を解決するため、我々は学習不要な曲率認識型階層的視覚メモリ管理フレームワーク「CurveStream」を提案する。本手法は、連続的な特徴軌跡に沿った高曲率領域が、重要な大域的意味的遷移と密接に対応するという重要な観察に基づいている。この幾何学的知見に基づき、CurveStreamは曲率スコアによりリアルタイムの意味的強度を評価し、オンラインK-シグマ動的閾値を統合することで、厳格なトークン予算の下でフレームを明確記憶状態と曖昧記憶状態に適応的に振り分ける。様々な時間スケールでの評価により、この軽量フレームワークであるCurveStreamが、それぞれのベースラインに対して一貫して10%以上の絶対性能向上（例：StreamingBenchで10.69%、OVOBenchで13.58%）をもたらし、ストリーミング映像知覚における新たなstate-of-the-artを確立することが確認された。コードはhttps://github.com/streamingvideos/CurveStreamで公開予定である。

Gen-AIテキストの自動検出：ニューラルモデルを用いた比較フレームワーク
Automatic detection of Gen-AI texts: A comparative framework of neural models

Mar 19

ByCristian Buttaro, Irene Amerini

大規模言語モデルの急速な普及により、人間が記述したテキストとAI生成テキストの識別が著しく困難となり、学術、出版、社会領域にわたる重大な問題が浮上している。本論文は、複数の機械学習ベースの検出器を設計・実装し比較評価することで、AI生成テキスト検出の問題を検討する。多層パーセプトロン、1次元畳み込みニューラルネットワーク、MobileNetベースのCNN、Transformerモデルという4つのニューラルネットワークアーキテクチャを開発し分析する。提案モデルは、ZeroGPT、GPTZero、QuillBot、Originality.AI、Sapling、IsGen、Rephrase、Writerなど、広く利用されているオンライン検出ツールと比較評価される。実験は、COLING多言語データセット（英語とイタリア語の構成）に加えて、芸術とメンタルヘルスに焦点を当てた独自のテーマ別データセットを用いて実施された。結果は、教師あり検出器が、異なる言語や領域にわたって商用ツールよりも安定した堅牢な性能を達成することを示しており、現在の検出戦略の主要な強みと限界を明らかにしている。

医療超音波画像セグメンテーションにおける半教師付き学習と対照学習のためのマルチスケールスイッチ
Multiscale Switch for Semi-Supervised and Contrastive Learning in Medical Ultrasound Image Segmentation

Mar 19

ByJingguo Qu, Xinyang Han, Yao Pu, Man-Lik Chui, Simon Takadiyi Gunda, Ziman Chen, Jing Qin, Ann Dorothy King, Winnie Chiu-Wing Chu, Jing Cai, Michael Tin-Cheung Ying

医用超音波画像セグメンテーションは、限られたラベル付きデータと、スペックルノイズや低コントラスト境界といった特徴的な画像アーティファクトにより、大きな課題に直面している。データ不足に対処するため半教師あり学習（SSL）手法が登場しているが、既存手法は未ラベルデータの利用が最適でなく、頑健な特徴表現機構を欠いている。本論文では、新たなSSLフレームワーク「Switch」を提案する。主な革新点は二つある。(1) 階層的パッチ混合により均一な空間的カバレッジを実現するMultiscale Switch（MSS）戦略、(2) フーリエ空間での振幅交換により頑健な特徴表現を行う、対照学習を組み合わせたFrequency Domain Switch（FDS）である。本フレームワークはこれらの要素を教師生徒アーキテクチャに統合し、ラベル付きデータと未ラベルデータの両方を効果的に活用する。6つの多様な超音波データセット（リンパ節、乳腺病変、甲状腺結節、前立腺）による総合的な評価は、最新手法を一貫して上回る性能を示した。ラベル付け率5％の条件下では、Switchは顕著な改善を達成した：LN-INTデータセットでDice係数80.04%、DDTIデータセットで85.52%、前立腺データセットで83.48%を記録し、本半教師あり手法は完全教師ありベースラインを凌駕した。本手法は、優れた性能を発揮しつつもパラメータ効率（180万パラメータ）を維持しており、リソースが限られた医療画像応用における有効性が確認された。ソースコードはhttps://github.com/jinggqu/Switch で公開されている。

TAPESTRY: 一貫性のあるターンテーブル動画による形状から質感へのアプローチ
TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

Mar 18

ByYan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu

テクスチャのない3Dモデルに対して、写実的かつ自己整合的な外観を自動生成することは、デジタルコンテンツ制作における重要な課題である。大規模ビデオ生成モデルの発展は、360度ターンテーブル動画（TTV）を直接合成するという自然なアプローチを可能にした。このTTVは、高品質な動的なプレビューとして機能するだけでなく、テクスチャ合成やニューラルレンダリングを駆動する中間表現としても活用できる。しかし、既存の汎用ビデオ拡散モデルは、全視点にわたる厳密な幾何学的一貫性と外観の安定性を維持するのが難しく、その出力は高品質な3D再構成には不向きである。この課題に対処するため、我々は明示的な3Dジオメトリを条件とした高精細なTTVを生成するフレームワーク、TAPESTRYを提案する。3D外観生成タスクを、ジオメトリ条件付きビデオ拡散問題として再定義する。具体的には、3Dメッシュが与えられると、まずマルチモーダルな幾何学的特徴をレンダリングおよびエンコードし、ピクセルレベルで精密な制約を以てビデオ生成プロセスを拘束することで、高品質で一貫性のあるTTVの生成を実現する。これを基盤として、TTV入力からの下流再構成タスクのための手法も設計する。この手法は、3D認識インペインティングを含む多段階パイプラインを特徴とする。モデルを回転させ、文脈を考慮した二次生成を実行することで、このパイプラインは自己オクルージョン領域を効果的に補完し、全面カバレッジを達成する。TAPESTRYによって生成された動画は、高品質な動的プレビューであるだけでなく、UVテクスチャへシームレスにバックプロジェクション可能、あるいは3DGSのようなニューラルレンダリング手法の教師信号として利用可能な、信頼性の高い3D認識中間表現としての役割も果たす。これにより、テクスチャのないメッシュから、制作現場で即利用可能な完成された3Dアセットの自動生成が可能となる。実験結果は、本手法が動画の一貫性と最終的な再構成品質の両面において、既存手法を凌駕することを示している。

マスクからピクセル、意味へ：VLM画像改ざんの新たな分類法、ベンチマーク、評価指標
From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

Mar 20

ByXinyi Shang, Yi Tang, Jiacheng Cui, Ahmed Elhagry, Salwa K. Al Khatib, Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao, Jing-Hao Xue, Hao Li, Salman Khan, Zhiqiang Shen

既存の改ざん検出ベンチマークの多くはオブジェクトマスクに依存しており、真の編集信号と深刻に乖離している。マスク内の多くの画素は未変更または僅かな修正しか加えられていない一方で、マスク外の微妙だが重要な編集は自然なものとして扱われている。我々はVLM画像改ざん検出を、粗い領域ラベルから画素単位で根拠づけられ、意味と言語を意識したタスクへと再定義する。第一に、編集プリミティブ（置換/削除/スプライス/修復/属性変更/色付けなど）と改ざん対象の意味的クラスにまたがる分類体系を導入し、低レベルの変化と高レベルの理解を結びつける。第二に、画素単位の改ざんマップと対応するカテゴリ監督を備えた新たなベンチマークを公開し、統一プロトコル下での検出と分類を評価する。第三に、真の編集強度に対する信頼度や予測を評価するための位置情報を考慮した画素レベルの正確性を定量化する訓練フレームワークと評価指標を提案し、さらに意味を意識した分類と予測領域に対する自然言語記述を通じて改ざんの意味理解を測定する。また、最近の強力な改ざん検出器を用いて既存の強力なセグメンテーション/位置特定ベースラインを再評価し、マスクのみの指標による過大評価・過小評価を明らかにするとともに、微細な編集やマスク外の変化における失敗モードを暴露する。本フレームワークは、マスクから画素、意味、言語記述へと分野を進展させ、改ざん位置特定、意味的分類、記述に対する厳密な標準を確立する。コードとベンチマークデータはhttps://github.com/VILA-Lab/PIXAR で公開されている。

ReLMXEL：説明可能なエネルギーとレイテンシ最適化を備えた適応型強化学習ベースメモリコントローラ
ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

Mar 18

ByPanuganti Chirag Sai, Gandholi Sarat, R. Raghunatha Sarma, Venkata Kalyan Tavva, Naveen M

現代コンピューティングにおけるメモリシステムの効率向上には、レイテンシとエネルギー消費の低減が不可欠である。本研究では、報酬分解を用いてメモリコントローラパラメータを動的に最適化する、説明可能なマルチエージェントオンライン強化学習フレームワーク「ReLMXEL」を提案する。ReLMXELはメモリコントローラ内で動作し、詳細なメモリ挙動メトリクスを活用して意思決定を行う。多様なワークロードによる実験的評価では、ベースライン構成を一貫して上回る性能向上が確認され、その改善はワークロード固有のメモリアクセス挙動に基づいて推進される。学習プロセスに説明可能性を組み込むことで、ReLMXELは性能を向上させるだけでなく、制御決定の透明性を高め、責任ある適応的メモリシステム設計への道を開くものである。