AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

DDT: 分離拡散トランスフォーマー
DDT: Decoupled Diffusion Transformer

Apr 8

ByShuai Wang, Zhi Tian, Weilin Huang, Limin Wang

拡散トランスフォーマーは優れた生成品質を実証しているものの、より長い訓練イテレーションと多数の推論ステップを必要とします。各ノイズ除去ステップにおいて、拡散トランスフォーマーはノイズの多い入力をエンコードして低周波の意味成分を抽出し、その後、同一のモジュールで高周波成分をデコードします。このスキームは、低周波の意味をエンコードするには高周波成分を削減する必要があるという、意味エンコードと高周波デコードの間の緊張関係を生み出す固有の最適化ジレンマを引き起こします。この課題を解決するため、我々は新しい\color{ddtD}分離型\color{ddtD}拡散\color{ddtT}トランスフォーマー（\color{ddtDDT}）を提案します。これは、意味抽出のための専用の条件エンコーダと特殊化された速度デコーダを分離した設計を採用しています。我々の実験では、より大規模なエンコーダがモデルサイズの増加に伴い性能向上をもたらすことが明らかになりました。ImageNet 256×256において、我々のDDT-XL/2は{1.31 FID}という新たな最先端の性能を達成し（従来の拡散トランスフォーマーと比較して約4倍の訓練収束速度を実現）、ImageNet 512×512では1.28 FIDという新たな最先端の性能を達成しました。さらに、有益な副産物として、我々の分離型アーキテクチャは、隣接するノイズ除去ステップ間で自己条件を共有することで推論速度を向上させます。性能低下を最小限に抑えるため、我々は最適な共有戦略を特定するための新しい統計的動的計画法アプローチを提案します。

OLMoTrace: 言語モデルの出力を数兆のトレーニングトークンに遡るトレース
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Apr 9

ByJiacheng Liu, Taylor Blanton, Yanai Elazar, Sewon Min, YenSung Chen, Arnavi Chheda-Kothary, Huy Tran, Byron Bischoff, Eric Marsh, Michael Schmitz, Cassidy Trier, Aaron Sarnat, Jenna James, Jon Borchardt, Bailey Kuehl, Evie Cheng, Karen Farley, Sruthi Sreeram, Taira Anderson, David Albright, Carissa Schoenick, Luca Soldaini, Dirk Groeneveld, Rock Yuren Pang, Pang Wei Koh, Noah A. Smith, Sophie Lebrecht, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, Jesse Dodge

我々はOLMoTraceを発表します。これは、言語モデルの出力をその数兆トークンに及ぶトレーニングデータにリアルタイムで遡及する初のシステムです。OLMoTraceは、言語モデルの出力セグメントとトレーニングテキストコーパス内の文書との間の逐語的な一致を発見し表示します。拡張版infini-gram（Liu et al., 2024）を活用した本システムは、数秒以内にトレーシング結果を返します。OLMoTraceは、ユーザーがトレーニングデータを通じて言語モデルの挙動を理解するのに役立ちます。我々は、ファクトチェック、ハルシネーション、そして言語モデルの創造性を探るための使用方法を実演します。OLMoTraceは公開されており、完全なオープンソースです。

欠落した前提が過剰思考を助長する：推論モデルは批判的思考能力を失いつつあるのか？
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Apr 9

ByChenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

我々は、強化学習または教師あり学習によって訓練された推論LLMの応答長が、前提条件が欠落した不適切な質問（MiP）に対して劇的に増加し、冗長で非効率な思考に終始することを発見しました。この新たに導入されたシナリオは、一般的な過剰思考問題を大幅に悪化させ、我々はこれをMiP-過剰思考と命名しました。このような失敗は「テスト時のスケーリング則」に反するものの、我々がMiPを用いて作成した複数のデータセットで広く観察され、安易な過剰思考と批判的思考の欠如の弊害を示しています。驚くべきことに、推論に特化して訓練されていないLLMは、MiPシナリオにおいてはるかに優れたパフォーマンスを示し、不適切なクエリを迅速に特定するはるかに短い応答を生成しました。これは、現在の推論LLMの訓練方法に重大な欠陥があることを示唆しており、効率的な思考を十分に促進せず、思考パターンの乱用を招いていると考えられます。このような失敗の背後にある理由をさらに調査するため、我々は異なるタイプのLLMにおける推論長、過剰思考パターン、および批判的思考の位置に関する詳細な分析を行いました。さらに、我々の拡張されたアブレーション研究は、推論モデルの応答を通じて過剰思考が伝染することを明らかにしました。これらの結果は、過剰思考の理解を深め、この問題を緩和するための新たな洞察を提供します。

FantasyTalking：コヒーレントなモーション合成によるリアルなトーキングポートレート生成
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

Apr 7

ByMengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu

単一の静止ポートレートから現実的なアニメーション可能なアバターを作成することは、依然として困難な課題です。既存の手法では、微妙な表情、関連する全身の動き、そして動的な背景を捉えることに苦戦しています。これらの制限を解決するため、我々は事前学習済みのビデオ拡散トランスフォーマーモデルを活用し、高精細で一貫性のある、制御可能なモーションダイナミクスを備えたトーキングポートレートを生成する新しいフレームワークを提案します。我々の研究の中核となるのは、二段階のオーディオビジュアルアライメント戦略です。第一段階では、クリップレベルのトレーニングスキームを用いて、参照ポートレート、文脈オブジェクト、背景を含むシーン全体のオーディオ駆動ダイナミクスを整列させ、一貫したグローバルモーションを確立します。第二段階では、リップトレーシングマスクを使用してフレームレベルで唇の動きを洗練し、オーディオ信号との正確な同期を保証します。モーションの柔軟性を損なうことなくアイデンティティを保持するため、一般的に使用される参照ネットワークを、ビデオ全体で顔の一貫性を効果的に維持する顔フォーカスクロスアテンションモジュールに置き換えます。さらに、表情と身体の動きの強度を明示的に制御するモーション強度変調モジュールを統合し、単なる唇の動きを超えたポートレートの動きの制御可能な操作を実現します。広範な実験結果は、提案手法がより高い品質、リアリズム、一貫性、モーション強度、およびアイデンティティの保持を達成することを示しています。プロジェクトページはこちら：https://fantasy-amap.github.io/fantasy-talking/。

条件付き画像生成を評価するための統合エージェントフレームワーク
A Unified Agentic Framework for Evaluating Conditional Image Generation

Apr 9

ByJifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang

条件付き画像生成は、コンテンツのパーソナライゼーション能力において注目を集めています。しかし、この分野では、タスクに依存せず、信頼性が高く、説明可能な評価指標の開発が課題となっています。本論文では、条件付き画像生成タスクの包括的な評価のための統一的なエージェントフレームワークであるCIGEvalを提案します。CIGEvalは、大規模マルチモーダルモデル（LMM）を中核として活用し、多機能ツールボックスを統合し、きめ細かい評価フレームワークを確立します。さらに、評価軌跡を合成してファインチューニングを行い、より小さなLMMが適切なツールを自律的に選択し、ツールの出力に基づいて微妙な分析を行うことを可能にします。7つの主要な条件付き画像生成タスクでの実験により、CIGEval（GPT-4oバージョン）は人間の評価との高い相関0.4625を達成し、アノテーター間の相関0.47に近い結果を示しました。さらに、7BのオープンソースLMMを用いてわずか2.3Kのトレーニング軌跡で実装した場合、CIGEvalは以前のGPT-4oベースの最先端手法を上回りました。GPT-4oの画像生成に関するケーススタディでは、CIGEvalが被写体の一貫性や制御ガイダンスの遵守に関わる微妙な問題を特定する能力を示し、人間レベルの信頼性で画像生成タスクの評価を自動化するための大きな可能性を示しています。

GenDoP: オートレグレッシブなカメラ軌道生成による撮影監督
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Apr 9

ByMengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin

カメラ軌道設計は映像制作において重要な役割を果たし、監督の意図を伝え、視覚的ストーリーテリングを強化するための基本的なツールとして機能します。撮影監督は、表現力豊かで意図的なフレーミングを実現するために、カメラの動きを入念に設計します。しかし、既存のカメラ軌道生成手法には限界があります。従来のアプローチは幾何学的最適化や手作りのプロシージャルシステムに依存しており、最近の学習ベースの手法では構造的なバイアスを引き継いだり、テキストとの整合性が欠けていたりするため、創造的な合成が制約されています。本研究では、撮影監督の専門知識に着想を得た自己回帰モデルを導入し、芸術的で表現力豊かなカメラ軌道を生成します。まず、29,000の実世界のショットを含む大規模なマルチモーダルデータセット「DataDoP」を紹介します。このデータセットには、自由に動くカメラ軌道、深度マップ、特定の動き、シーンとの相互作用、監督の意図に関する詳細なキャプションが含まれています。この包括的で多様なデータベースを活用し、テキストガイダンスとRGBD入力を基にした高品質で文脈を考慮したカメラ動き生成のための自己回帰型デコーダのみのTransformer「GenDoP」を訓練します。広範な実験により、GenDoPが既存の手法と比較して、より優れた制御性、より細かい軌道調整、そしてより高いモーション安定性を提供することが実証されました。我々のアプローチは、学習ベースの撮影技術における新たな基準を確立し、カメラ制御と映画制作の将来の発展への道を開くものと信じています。プロジェクトウェブサイト: https://kszpxxzmc.github.io/GenDoP/。

言語モデルの推論能力の進展を冷静に見つめる：再現性への課題と道筋
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

Apr 9

ByAndreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge

推論は言語モデル（LM）の次の主要なフロンティアとして台頭し、学術界と産業界の研究室で急速な進展が見られています。しかし、この進歩はしばしば方法論的な厳密性を上回り、多くの評価が透明性、堅牢性、統計的根拠を欠いたベンチマーク手法に依存しています。本研究では、包括的な実証研究を行い、現在の数学的推論ベンチマークが、デコードパラメータ、乱数シード、プロンプトのフォーマット、さらにはハードウェアやソフトウェアフレームワークの設定といった微妙な実装選択に非常に敏感であることを明らかにしました。最近の研究で報告された性能向上は、不明確な比較や報告されていない分散の源に依存していることが頻繁にあります。これらの問題に対処するため、明確に定義されたベストプラクティスと報告基準を備えた標準化された評価フレームワークを提案します。このフレームワークを用いて、最近の手法を再評価した結果、強化学習（RL）アプローチはわずかな改善しかもたらさず、以前の主張を大きく下回り、特にAIME24のような小規模ベンチマークでは過剰適合しやすいことがわかりました。一方、教師ありファインチューニング（SFT）手法は一貫して強い汎化性能を示しました。再現性を促進するため、推論ベンチマークのすべてのコード、プロンプト、モデル出力を公開し、将来の研究のためのより厳密な基盤を確立します。

OmniCaptioner: すべてを統べるキャプショナー
OmniCaptioner: One Captioner to Rule Them All

Apr 9

ByYiting Lu, Jiakang Yuan, Zhen Li, Shitian Zhao, Qi Qin, Xinyue Li, Le Zhuo, Licheng Wen, Dongyang Liu, Yuewen Cao, Xiangchao Yan, Xin Li, Botian Shi, Tao Chen, Zhibo Chen, Lei Bai, Bo Zhang, Peng Gao

我々は、多様な視覚領域にわたる細粒度のテキスト記述を生成するための汎用的な視覚キャプションフレームワーク「OmniCaptioner」を提案する。特定の画像タイプ（例：自然画像や幾何学的視覚）に限定されていた従来手法とは異なり、本フレームワークは自然画像、視覚的テキスト（例：ポスター、UI、教科書）、および構造化視覚（例：文書、表、チャート）のキャプション生成を統一的に解決する。低レベルのピクセル情報を意味的に豊かなテキスト表現に変換することで、本フレームワークは視覚とテキストのモダリティ間のギャップを埋める。我々の結果は、以下の3つの主要な利点を強調している：(i) LLMを用いた強化された視覚推論 - 視覚モダリティの長文脈キャプションが、特にDeepSeek-R1シリーズにおいて、マルチモーダルシナリオでの効果的な推論を可能にする；(ii) 画像生成の改善 - 詳細なキャプションがテキストから画像への生成や画像変換などのタスクを向上させる；(iii) 効率的な教師ありファインチューニング（SFT） - より少ないデータで迅速な収束を実現する。OmniCaptionerの汎用性と適応性は、言語と視覚のモダリティ間のギャップを埋める新たな視点を提供すると我々は考えている。

自己操舵型言語モデル
Self-Steering Language Models

Apr 9

ByGabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas

テスト時推論により言語モデルは複雑なタスクに取り組むことが可能になりますが、自然言語での探索や計画立案は遅く、コストがかかり、エラーが発生しやすいという課題があります。しかし、言語モデルが問題を解決するために必要な正確な推論ステップを模倣するのに苦労する場合でも、その抽象的な構造（解決策を検証する方法や探索する方法）を記述することには優れていることが多いです。本論文では、Plannerモデルがタスク固有の推論プログラムを生成し、それをFollowerモデルの集団が実行する「自己操舵」型言語モデルの手法であるDisCIPLを紹介します。このアプローチにより、言語モデルは再帰的な探索手順を記述する能力を獲得し、検証可能で効率的な新たな推論形式を実現します。小規模なFollowerモデル（例：Llama-3.2-1B）を用いて実装した場合、DisCIPLはGPT-4oやo1などの大規模モデルに匹敵し、時にはそれを上回る性能を、難しい制約付き生成タスクで示します。計画立案と実行を分離することで、本手法は高度に並列化されたモンテカルロ推論戦略の設計空間を開拓し、標準的なbest-of-Nサンプリングを上回り、ファインチューニングを必要とせず、既存の言語モデルによって自動的に実装可能です。

動画内のあらゆるものをキャプション化：時空間的マルチモーダルプロンプティングによる細粒度オブジェクト中心キャプショニング
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Apr 7

ByYunlong Tang, Jing Bi, Chao Huang, Susan Liang, Daiki Shimada, Hang Hua, Yunzhong Xiao, Yizhi Song, Pinxin Liu, Mingqian Feng, Junjia Guo, Zhuo Liu, Luchuan Song, Ali Vosoughi, Jinxi He, Liu He, Zeliang Zhang, Jiebo Luo, Chenliang Xu

本論文では、CAT-V（Caption AnyThing in Video）を提案します。これは、ユーザーが選択したオブジェクトの詳細な記述を時間軸に沿って可能にする、トレーニング不要の細粒度オブジェクト中心ビデオキャプションフレームワークです。CAT-Vは、3つの主要コンポーネントを統合しています：SAMURAIに基づくセグメンターによるフレーム間の正確なオブジェクトセグメンテーション、TRACE-Uniを活用したテンポラルアナライザーによる正確なイベント境界検出と時間分析、そしてInternVL-2.5を使用したキャプショナーによる詳細なオブジェクト中心の記述生成です。時空間的ビジュアルプロンプトと連鎖的思考推論を通じて、本フレームワークは追加のトレーニングデータを必要とせずに、オブジェクトの属性、動作、状態、相互作用、環境コンテキストの詳細かつ時間を意識した記述を生成します。CAT-Vは、様々なビジュアルプロンプト（ポイント、バウンディングボックス、不規則な領域）を通じた柔軟なユーザーインタラクションをサポートし、異なる時間セグメントにわたるオブジェクトの状態と相互作用を追跡することで時間的感度を維持します。本アプローチは、既存のビデオキャプションメソッドの限界、すなわち過度に抽象的な記述を生成するか、オブジェクトレベルの精度を欠くという問題に対処し、時間的整合性と空間的精度を維持しながら、細粒度でオブジェクト固有の記述を可能にします。本プロジェクトのGitHubリポジトリは、https://github.com/yunlong10/CAT-V で公開されています。

VideoChat-R1：強化学習による微調整を介した時空間知覚の強化
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Apr 9

ByXinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang

近年の強化学習の進展により、マルチモーダル大規模言語モデル（MLLM）の推論能力が大幅に向上しています。Group Relative Policy Optimization（GRPO）やルールベースの報酬メカニズムといったアプローチは、テキストや画像領域で有望な成果を示していますが、ビデオ理解への応用はまだ限られています。本論文では、ビデオMLLM向けのGRPOを用いた強化学習ファインチューニング（RFT）の体系的探求を提示し、一般的な能力を維持しながら時空間知覚を強化することを目指します。我々の実験では、RFTがタスク固有の改善において非常にデータ効率的であることが明らかになりました。限られたサンプルを用いた時空間知覚目標に対するマルチタスクRFTを通じて、チャット能力を犠牲にすることなく時空間知覚タスクで最先端の性能を達成し、新たな時空間推論能力を示す強力なビデオMLLMであるVideoChat-R1を開発しました。Qwen2.5-VL-7Bと比較して、VideoChat-R1は時間的グラウンディング（+31.8）やオブジェクトトラッキング（+31.2）といったタスクで数倍の性能向上を示しました。さらに、VideoMME（+0.9）、MVBench（+1.0）、Perception Test（+0.9）といった一般的なQAベンチマークでも大幅な改善が見られました。我々の研究結果は、ビデオMLLMの専門タスク強化におけるRFTの可能性を強調しています。本研究成果が、今後のビデオMLLMにおける強化学習研究に貴重な知見を提供することを期待します。

WildGS-SLAM: 動的環境における単眼ガウススプラッティングSLAM
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Apr 4

ByJianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni

本論文では、不確実性を考慮した幾何学的マッピングを活用することで動的環境に対応可能な、堅牢かつ効率的な単眼RGB SLAMシステム「WildGS-SLAM」を提案します。従来のSLAMシステムが静的なシーンを前提としているのに対し、本手法は深度と不確実性情報を統合し、移動物体が存在する状況下でのトラッキング、マッピング、レンダリング性能を向上させます。浅い多層パーセプトロンとDINOv2特徴量によって予測される不確実性マップを導入し、トラッキングとマッピングの両方において動的物体の除去をガイドします。この不確実性マップは、密なバンドル調整とガウスマップ最適化を強化し、再構成精度を向上させます。本システムは複数のデータセットで評価され、アーティファクトのないビュー合成を実現します。結果は、WildGS-SLAMが最先端の手法と比較して動的環境において優れた性能を発揮することを示しています。

DiTaiListener: 拡散モデルによる制御可能な高忠実度リスナービデオ生成
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Apr 5

ByMaksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani

長時間にわたるインタラクションにおける自然でニュアンス豊かなリスナーの動きの生成は、依然として未解決の問題である。既存の手法では、顔の動作生成に低次元のモーションコードを利用し、その後フォトリアリスティックなレンダリングを行うことが多いが、これにより視覚的な忠実度と表現の豊かさが制限されている。これらの課題に対処するため、我々はマルチモーダル条件を備えたビデオ拡散モデルを基盤とするDiTaiListenerを提案する。我々のアプローチでは、まずDiTaiListener-Genを用いて、話者の音声と顔の動きに基づいて短いリスナー応答セグメントを生成する。その後、DiTaiListener-Editを用いて遷移フレームを精緻化し、シームレスな遷移を実現する。具体的には、DiTaiListener-Genは、話者の聴覚的および視覚的キューを因果的に処理するCausal Temporal Multimodal Adapter（CTM-Adapter）を導入することで、リスナーの頭部ポートレート生成タスクにDiffusion Transformer（DiT）を適用する。CTM-Adapterは、話者の入力をビデオ生成プロセスに因果的に統合し、時間的に一貫したリスナー応答を保証する。長時間のビデオ生成のため、我々は遷移精緻化ビデオツービデオ拡散モデルであるDiTaiListener-Editを導入する。このモデルは、ビデオセグメントを滑らかで連続的なビデオに融合し、DiTaiListener-Genによって生成された短いビデオセグメントを統合する際に、顔の表情と画質の時間的一貫性を保証する。定量的には、DiTaiListenerは、ベンチマークデータセットにおいて、フォトリアリズム（RealTalkでのFIDで+73.8%）とモーション表現（VICOでのFDメトリックで+6.1%）の両方で最先端の性能を達成する。ユーザースタディは、DiTaiListenerの優れた性能を確認し、フィードバック、多様性、滑らかさの点で、競合モデルを大きく上回る明確な好みを示している。

マスクドシーンモデリング：3Dシーン理解における教師あり学習と自己教師あり学習のギャップを縮める
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Apr 9

ByPedro Hermosilla, Christian Stippel, Leon Sick

自己教師あり学習は、大規模な未注釈データセットで訓練されたモデルが、ラベル付きで訓練されたモデルと同等の性能を発揮する汎用的なオフ・ザ・シェルフ特徴を提供することで、2Dコンピュータビジョンを変革してきました。しかし、3Dシーン理解においては、自己教師あり手法は通常、タスク固有のファインチューニングのための重み初期化ステップとしてのみ使用され、汎用特徴抽出の有用性が制限されています。本論文はこの欠点に対処するため、3Dシーン理解のための自己教師あり特徴の品質を評価するために特別に設計された堅牢な評価プロトコルを提案します。私たちのプロトコルは、階層的モデルの多解像度特徴サンプリングを使用して、モデルの意味的機能を捉えたリッチなポイントレベル表現を作成し、線形プロービングや最近傍法による評価に適したものとします。さらに、線形プロービング設定でオフ・ザ・シェルフ特徴のみを使用した場合に、教師ありモデルと同等の性能を発揮する最初の自己教師ありモデルを紹介します。特に、私たちのモデルは、Masked Scene Modeling目的に基づく新しい自己教師ありアプローチでネイティブに3Dで訓練され、階層的3Dモデルに特化して、マスクされたパッチの深層特徴をボトムアップ方式で再構築します。私たちの実験は、私たちの手法が教師ありモデルと競合する性能を達成するだけでなく、既存の自己教師ありアプローチを大幅に上回ることを示しています。モデルと訓練コードは、私たちのGithubリポジトリ（https://github.com/phermosilla/msm）で見つけることができます。

RobustDexGrasp: 単一視点知覚による一般物体のロバストな巧緻把持
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception

Apr 7

ByHui Zhang, Zijian Wu, Linyi Huang, Sammy Christen, Jie Song

単一視点の知覚から多様な物体をロバストに把持することは、器用なロボットにとって基本的な能力である。従来の研究では、完全に観測可能な物体、専門家によるデモンストレーション、または静的な把持姿勢に依存することが多く、その汎化能力や外部擾乱への適応性が制限されていた。本論文では、単一視点の知覚から未見の物体をゼロショットで動的に把持し、外部擾乱に対して適応的な動作を行う強化学習ベースのフレームワークを提案する。我々は、形状のばらつきや不確実性に対するロバスト性を高めるため、相互作用に関連する局所形状を強調したハンド中心の物体表現を利用する。限られた観測下で擾乱に適応する効果的なハンド動作を実現するため、特権的なリアルタイム視覚-触覚フィードバックを用いて訓練されたポリシーを模倣学習で蒸留し、観測ノイズや動的ランダム化による擾乱下での適応動作を強化学習で徐々に学習する混合カリキュラム学習戦略を提案する。実験では、ランダムな姿勢の未見物体を把持する際の強力な汎化能力を示し、247,786個のシミュレーション物体で97.0%、512個の実物体で94.6%の成功率を達成した。また、観測されない物体の移動や外部力を含む様々な擾乱に対する本手法のロバスト性を、定量的および定性的な評価を通じて実証した。プロジェクトページ: https://zdchan.github.io/Robust_DexGrasp/

オブジェクト中心学習は終わったのか？
Are We Done with Object-Centric Learning?

Apr 9

ByAlexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh

オブジェクト中心学習（OCL）は、シーン内の他のオブジェクトや背景の手がかりから隔離された、オブジェクトのみをエンコードする表現を学習することを目指しています。このアプローチは、分布外（OOD）一般化、サンプル効率の良い合成、構造化された環境のモデリングなど、さまざまな目的を支えています。これまでの研究の多くは、表現空間内でオブジェクトを離散的なスロットに分離する教師なしメカニズムの開発に焦点を当て、教師なしオブジェクト発見を用いて評価されてきました。しかし、最近のサンプル効率の良いセグメンテーションモデルを用いることで、ピクセル空間でオブジェクトを分離し、独立してエンコードすることが可能になりました。これにより、OODオブジェクト発見ベンチマークで驚異的なゼロショット性能を達成し、基盤モデルにスケーラブルであり、変動するスロット数をそのまま扱うことができます。したがって、OCL手法の目的であるオブジェクト中心の表現を獲得するという目標は、ほぼ達成されたと言えます。しかし、この進歩にもかかわらず、重要な疑問が残っています：シーン内のオブジェクトを分離する能力が、OOD一般化などのより広範なOCLの目的にどのように貢献するのか？私たちは、OCLの視点を通じて、誤った背景の手がかりによって引き起こされるOOD一般化の課題を調査することで、この疑問に取り組みます。私たちは、Object-Centric Classification with Applied Masks（OCCAM）と呼ばれる新しい、トレーニング不要のプローブを提案し、個々のオブジェクトのセグメンテーションベースのエンコーディングが、スロットベースのOCL手法を大幅に上回ることを示します。しかし、実世界のアプリケーションにおける課題は依然として残っています。私たちは、OCLコミュニティがスケーラブルなオブジェクト中心の表現を使用するためのツールボックスを提供し、実用的なアプリケーションや、人間の認知におけるオブジェクト知覚の理解などの基本的な問題に焦点を当てます。私たちのコードはhttps://github.com/AlexanderRubinstein/OCCAM{こちら}で利用可能です。

通時的な言語変化発見のための言語モデルの事前学習
Pretraining Language Models for Diachronic Linguistic Change Discovery

Apr 7

ByElisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner

大規模言語モデル（LLM）は、科学的発見のツールとしての可能性を示してきた。これにより、歴史言語学や文学研究などの人文分野での利用に対する関心が高まっている。これらの分野では、ジャンルやより厳密な時代区分に基づいて議論を構築することが多い。特定のドメインに推論を制限するためにファインチューニングやモデル編集が試みられているが、真に保証されるのはドメイン限定の事前学習であると我々は主張する。これは通常、データと計算リソースを大量に消費する提案である。我々は、効率的な事前学習技術が、手動での検査には大きすぎるが「典型的な」LLMアプローチには小さすぎるコーパス上でも有用なモデルを生成できることを示す。時間的に分割されたデータセットを取得するために、新しい日付属性パイプラインを採用し、5つの1000万語スライスからなるデータセットを構築した。これらのコーパスセグメントに対して、効率的な事前学習とLlama3-8Bパラメータの効率的なファインチューニングを行い、対応する5モデルのバッテリーを訓練した。事前学習モデルは、ファインチューニングされたベースラインよりも訓練が速く、コーパスの歴史的区分をより尊重することがわかった。歴史的包括性よりも速度と精度を重視することで、対象分野における仮説発見と検証のための新しいアプローチが可能となる。通時言語学をテストベッドとして取り上げ、我々の手法が、大量の語彙変化、非語彙的（文法的および形態的）変化、語義の導入/廃用など、多様な現象の検出を可能にすることを示す。我々は、最小限の適応で他の対象分野にアプローチを拡張できる、すぐに使用可能なパイプラインを提供する。

RuOpinionNE-2024: ロシア語ニューステキストからの意見タプル抽出
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts

Apr 9

ByNatalia Loukachevitch, Natalia Tkachenko, Anna Lapanitsyna, Mikhail Tikhomirov, Nicolay Rusnachenko

本論文では、ロシア語ニューステキストから構造化された意見を抽出するDialogue Evaluation共有タスクを紹介する。このコンテストのタスクは、与えられた文に対して意見タプルを抽出することであり、タプルは感情の主体、その対象、表現、および主体から対象への感情で構成される。このタスクには合計100件以上の提出があった。参加者は主に、ゼロショット、少数ショット、およびファインチューニング形式の大規模言語モデルを実験した。テストセットでの最高の結果は、大規模言語モデルのファインチューニングによって得られた。また、1ショットおよび10ショット設定において、30のプロンプトと3-320億パラメータの11のオープンソース言語モデルを比較し、最良のモデルとプロンプトを見つけた。

言語モデルからの高速制御生成：適応的加重棄却サンプリングを用いた手法
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling

Apr 7

ByBenjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira

制約付き言語モデルからの生成において主流のアプローチは、局所的に制約されたデコーディング（LCD）であり、各タイムステップでトークンを逐次的にサンプリングし、制約が常に満たされるようにするものです。通常、これはトークンマスキングによって実現されます。つまり、語彙全体をループし、制約に適合しないトークンを除外します。このアプローチには2つの重要な問題があります。(i) すべてのトークンに対して制約を評価することは非常にコストがかかる可能性があります。言語モデルの語彙はしばしば10万トークンを超えるためです。(ii) LCDは文字列全体の分布を歪める可能性があり、局所的な情報のみに基づいてトークンをサンプリングするため、行き止まりのパスに導くことがあります。本研究では、これらの両方の問題に対処する新しいアルゴリズムを提案します。まず、生成の各ステップで語彙全体に対して制約を評価することを避けるために、通常は桁違いに少ない制約評価で済む適応的リジェクトサンプリングアルゴリズムを提案します。次に、このアルゴリズムを拡張して、非常に少ない追加コストで低分散かつ不偏な重要度重みの推定値を生成する方法を示します。これらの推定値は、以前に提案された逐次モンテカルロアルゴリズム内で使用することで、局所的な制約適用の近視眼的な挙動を補正することができます。テキストからSQL、分子合成、目標推論、パターンマッチング、JSONといった領域での広範な実証評価を通じて、我々のアプローチが最先端のベースラインを上回り、より広範なクラスの制約をサポートし、実行時間と性能の両方を改善することを示します。追加の理論的および実証的分析により、我々の手法の実行効率は、計算の動的な使用によって駆動され、制約なしと言語モデル間の乖離に応じてスケーリングし、その結果、より優れたモデルに対して実行時間の改善が大きくなることを示しています。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

DDT: 分離拡散トランスフォーマー
DDT: Decoupled Diffusion Transformer

Apr 8

ByShuai Wang, Zhi Tian, Weilin Huang, Limin Wang

OLMoTrace: 言語モデルの出力を数兆のトレーニングトークンに遡るトレース
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Apr 9

欠落した前提が過剰思考を助長する：推論モデルは批判的思考能力を失いつつあるのか？
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Apr 9

ByChenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

FantasyTalking：コヒーレントなモーション合成によるリアルなトーキングポートレート生成
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

Apr 7

ByMengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu

条件付き画像生成を評価するための統合エージェントフレームワーク
A Unified Agentic Framework for Evaluating Conditional Image Generation

Apr 9

ByJifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang

GenDoP: オートレグレッシブなカメラ軌道生成による撮影監督
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Apr 9

ByMengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin

言語モデルの推論能力の進展を冷静に見つめる：再現性への課題と道筋
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

Apr 9

ByAndreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge

OmniCaptioner: すべてを統べるキャプショナー
OmniCaptioner: One Captioner to Rule Them All

Apr 9

自己操舵型言語モデル
Self-Steering Language Models

Apr 9

ByGabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas

動画内のあらゆるものをキャプション化：時空間的マルチモーダルプロンプティングによる細粒度オブジェクト中心キャプショニング
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Apr 7

VideoChat-R1：強化学習による微調整を介した時空間知覚の強化
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Apr 9

ByXinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang

WildGS-SLAM: 動的環境における単眼ガウススプラッティングSLAM
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Apr 4

ByJianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni

DiTaiListener: 拡散モデルによる制御可能な高忠実度リスナービデオ生成
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Apr 5

ByMaksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani

マスクドシーンモデリング：3Dシーン理解における教師あり学習と自己教師あり学習のギャップを縮める
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Apr 9

ByPedro Hermosilla, Christian Stippel, Leon Sick

RobustDexGrasp: 単一視点知覚による一般物体のロバストな巧緻把持
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception

Apr 7

ByHui Zhang, Zijian Wu, Linyi Huang, Sammy Christen, Jie Song

言語モデルからの高速制御生成：適応的加重棄却サンプリングを用いた手法
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling

Apr 7

ByBenjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira