AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

LLMの肩に止まる確率的なオウム：物理的概念理解の総括評価
The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

Feb 13

ByMo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou

191

体系的な方法で、よくある質問である「LLMは本当に自分が言っていることを理解しているのか？」について調査します。これは、より馴染みのある用語である「確率的オウム」と関連しています。このために、私たちは慎重に設計された物理概念理解タスクPhysiCoに対する総合的な評価を提案します。私たちのタスクは、物理現象を抽象的に記述するグリッド形式の入力を使用することで、記憶の問題を緩和します。グリッドは、核となる現象、応用例、グリッドワールド内の他の抽象的なパターンへの類推など、さまざまな理解レベルを表しています。私たちのタスクに関する包括的な研究は次のことを示しています：（1）GPT-4o、o1、Gemini 2.0フラッシュ思考などの最先端のLLMは、人間よりも約40％遅れています；（2）確率的オウム現象はLLMに存在し、彼らは私たちのグリッドタスクで失敗しますが、自然言語で同じ概念をうまく説明し認識できます；（3）私たちのタスクは、LLMにとって未知のグリッド形式ではなく、固有の難しさによって挑戦を与えます。なぜなら、文脈に即した学習や同じフォーマットのデータでの微調整は、彼らのパフォーマンスにほとんど影響を与えなかったからです。

InfiniteHiP: 1 枚の単一 GPU で最大 3 百万トークンまで言語モデルのコンテキストを拡張
InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU

Feb 13

ByHeejun Lee, Geon Park, Jaduk Suh, Sung Ju Hwang

148

現代の大規模言語モデル（LLM）では、非常に長いコンテキスト長を扱うことは、推論速度の低下やメモリコストの増加といった重要な課題を引き起こします。さらに、既存の事前学習済みLLMのほとんどは、元のトレーニングシーケンス長を超えて一般化することができません。効率的かつ実用的な長いコンテキストの活用を可能にするために、私たちはInfiniteHiPを導入します。これは、新しい実用的なLLM推論フレームワークであり、モジュラー階層型トークン剪定アルゴリズムを用いて不要なコンテキストトークンを動的に除外することで処理を加速します。私たちの手法は、LLM内部の注意パターンに応じてさまざまなRoPE調整方法を選択的に適用することで、より長いシーケンスへの一般化も可能とします。さらに、推論中にキー値キャッシュをホストメモリにオフロードすることで、GPUメモリの負荷を大幅に軽減します。その結果、InfiniteHiPは、1つのL40s 48GB GPUで最大3百万トークンの処理を可能にし、コンテキスト情報の永続的な損失を伴うことなく、トークンを3倍増やします。私たちのフレームワークは、追加のトレーニングを必要とせずに、100万トークンのコンテキストに対する注意デコーディングを18.95倍高速化します。私たちはこの手法をSGLangフレームワークで実装し、広範な評価を通じてその効果と実用性を実証します。

Skrr：メモリ効率の高いテキストから画像への生成のためのスキップおよび再利用テキストエンコーダーレイヤー
Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation

Feb 12

ByHoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun

テキストから画像への変換（T2I）拡散モデルにおける大規模テキストエンコーダーは、テキストプロンプトから高品質な画像を生成する際に優れた性能を示しています。複数の反復ステップに依存するノイズ除去モジュールとは異なり、テキストエンコーダーはテキスト埋め込みを生成するために単一の順方向パスのみを必要とします。しかし、総推論時間や浮動小数点演算（FLOPs）への寄与が最小であるにもかかわらず、テキストエンコーダーはノイズ除去モジュールよりも最大8倍のメモリ使用量を要求します。この非効率性に対処するために、我々はテキストエンコーダー向けに特に設計されたシンプルかつ効果的な剪定戦略であるSkip and Re-use layers（Skrr）を提案します。Skrrは、T2Iタスク向けに調整された方法で、トランスフォーマーブロック内の固有の冗長性を利用し、特定のレイヤーを選択的にスキップまたは再利用することで、パフォーマンスを損なうことなくメモリ消費を削減します。包括的な実験により、Skrrが高い疎密度下でも元のモデルと同等の画質を維持し、既存のブロック単位の剪定手法を凌駕することが示されています。さらに、Skrrは、FID、CLIP、DreamSim、およびGenEvalスコアを含む複数の評価メトリクスにわたり、最先端のメモリ効率を達成し、パフォーマンスを維持しています。

TripoSG：大規模な整流フローモデルを用いた高精度3D形状合成
TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

Feb 10

ByYangguang Li, Zi-Xin Zou, Zexiang Liu, Dehu Wang, Yuan Liang, Zhipeng Yu, Xingchao Liu, Yuan-Chen Guo, Ding Liang, Wanli Ouyang, Yan-Pei Cao

最近の拡散技術の進歩により、画像およびビデオ生成は前例のない品質レベルに押し上げられ、生成AIの展開と応用が著しく加速されています。しかし、3D形状生成技術はこれまでに遅れをとっており、3Dデータの規模の制約、3Dデータ処理の複雑さ、および3D領域での高度な技術の探求が不十分であるという制約を受けています。現在の3D形状生成アプローチは、出力品質、一般化能力、および入力条件との整合性の観点から重大な課題に直面しています。私たちは、入力画像と正確に対応する高品質な3Dメッシュを生成することができる新しい合理化された形状拡散パラダイムであるTripoSGを提案します。具体的には、以下を提案します：1) 3D形状生成のための大規模な整流フロー変換器を使用し、広範囲で高品質なデータにトレーニングすることで最先端の忠実度を実現します。2) SDF、法線、およびeikonal損失を組み合わせたハイブリッド教師付きトレーニング戦略を提案し、高品質な3D再構築性能を達成します。3) データ処理パイプラインを使用して、2百万の高品質な3Dサンプルを生成し、3D生成モデルのトレーニングにおけるデータ品質と量の重要なルールを強調します。包括的な実験を通じて、新しいフレームワークの各コンポーネントの効果を検証しました。これらの部分のシームレスな統合により、TripoSGは3D形状生成において最先端のパフォーマンスを達成しました。結果として得られた3D形状は、高解像度の能力による強化された詳細を示し、入力画像に対する例外的な忠実度を示しています。さらに、TripoSGは、異なる画像スタイルとコンテンツから3Dモデルを生成する際の改善された汎用性を示し、強力な一般化能力を示しています。3D生成分野での進歩と革新を促進するために、当社のモデルを一般に公開します。

SelfCite: 大規模言語モデルにおける文脈帰属のための自己教師付きアライメント
SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models

Feb 13

ByYung-Sung Chuang, Benjamin Cohen-Wang, Shannon Zejiang Shen, Zhaofeng Wu, Hu Xu, Xi Victoria Lin, James Glass, Shang-Wen Li, Wen-tau Yih

SelfCiteは、LLMを整列させて、生成された応答の文レベルの引用を高品質かつ細かく生成する革新的な自己教師付きアプローチを紹介します。高額かつ労力を要する注釈にのみ依存するのではなく、SelfCiteはLLM自体によって提供される報酬信号を活用します。これはコンテキストの欠如を通じて行われ、引用が必要な場合、引用されたテキストをコンテキストから削除することで同じ応答を防ぐべきであり、十分な場合は引用されたテキストだけを保持することで同じ応答を維持すべきであるという考え方です。この報酬は、推論時のベストオブNサンプリング戦略を導くことで引用の品質を大幅に向上させるだけでなく、好みの最適化にも使用でき、モデルを直接微調整してより良い引用を生成するために利用できます。SelfCiteの効果は、5つの長文形式の質問応答タスク全体で、LongBench-Citeベンチマークにおける引用F1を最大5.3ポイント向上させることで示されています。

EmbodiedBench: 視覚駆動型具現エージェント向けの多モーダル大規模言語モデルの包括的ベンチマーク
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

Feb 13

ByRui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang

マルチモーダル大規模言語モデル（MLLMs）を活用して具現化エージェントを作成することは、現実世界のタスクに取り組むための有望な手段を提供します。言語中心の具現化エージェントは注目を集めていますが、MLLMベースの具現化エージェントは包括的な評価フレームワークの不足のために未開拓の領域となっています。このギャップを埋めるために、ビジョン駆動型の具現化エージェントを評価するために設計された包括的なベンチマークであるEmbodiedBenchを紹介します。EmbodiedBenchには以下が特徴として含まれます：（1）高レベルの意味的タスク（例：家庭）からナビゲーションや操作などの低レベルの原子的なアクションを含む、4つの環境にわたる1,128のテストタスクの多様なセット；および（2）常識的な推論、複雑な指示理解、空間認識、視覚認識、長期計画などの重要なエージェント能力を評価する、厳選された6つのサブセット。豊富な実験を通じて、13の主要なプロプライエタリおよびオープンソースのMLLMをEmbodiedBench内で評価しました。我々の調査結果によれば、MLLMは高レベルのタスクに優れていますが、低レベルの操作に苦労しており、最も優れたモデルであるGPT-4oでも平均28.9％しかスコアを獲得していません。EmbodiedBenchは、既存の課題を浮き彫りにするだけでなく、MLLMベースの具現化エージェントを前進させるための貴重な洞察を提供する多面的な標準化された評価プラットフォームを提供します。我々のコードはhttps://embodiedbench.github.ioで入手可能です。

このモデルは犬も認識できますか？重みからのゼロショットモデル検索
Can this Model Also Recognize Dogs? Zero-Shot Model Search from Weights

Feb 13

ByJonathan Kahana, Or Nathan, Eliahu Horwitz, Yedid Hoshen

公開されているモデルの数が増えるにつれて、おそらくユーザーが必要とするほとんどのタスクに対して、事前学習済みのオンラインモデルがあるでしょう。ただし、現在のモデル検索方法は基本的にはテキストベースの検索であり、ユーザーは関連するモデルを見つけることができません。本論文では、モデルのメタデータやトレーニングデータにアクセスせずに、「犬」などのターゲット概念を認識できる分類モデルを取得するための方法であるProbeLogを提案します。従来のプロービング方法とは異なり、ProbeLogは各モデルの各出力次元（ロジット）について、固定された入力セット（プローブ）上での応答を観察することによってディスクリプタを計算します。当社の方法は、ロジットベースの検索（「これに似たロジットを見つける」）とゼロショットのテキストベースの検索（「犬に対応するすべてのロジットを見つける」）の両方をサポートしています。プロービングベースの表現は、モデルを通過する複数の高コストの順方向パスが必要なため、当社は、エンコードリポジトリのコストを3倍に削減する協調フィルタリングに基づいた方法を開発しました。ProbeLogが、実世界および細かい検索タスクにおいて高い検索精度を達成し、フルサイズのリポジトリにスケーラブルであることを示します。

オープンレシピ：言語固有のLLMを1日で推論モデルに適応させるためのモデルマージング
An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging

Feb 13

ByKunat Pipatanakul, Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai

本論文は、DeepSeek R1の高度な推論能力などを言語固有の大規模言語モデル（LLM）に組み込むことを目的としたデータ選択およびモデル統合手法について調査しています。特に、タイのLLMに焦点を当てています。私たちの目標は、言語固有のLLMの推論能力を向上させることであり、同時にそれらの目標言語能力を維持することです。DeepSeek R1は推論に優れていますが、主に英語や中国語などの高リソース言語に恩恵をもたらしています。しかし、低リソース言語は英語中心のトレーニングデータやモデルの最適化の支配により、サービスが不十分です。この制限により、低リソース言語での信頼性のないコード切り替えやタスクの効果の低下が生じます。一方、地域および地域固有のLLMイニシアチブは、地域の言語的忠実度を向上させることに焦点を当てた言語固有のLLMの開発によって、このギャップを埋めようと試みています。われわれは、公開されているデータセットと120ドルの計算予算だけで、言語固有のLLMの推論能力をDeepSeek R1と同等のレベルに向上させることが可能であり、同時に目標言語タスクのパフォーマンスを損なうことなく示す。

CoSER: 既存の役割のLLMに基づくペルソナシミュレーションの調整
CoSER: Coordinating LLM-Based Persona Simulation of Established Roles

Feb 13

ByXintao Wang, Heng Wang, Yifei Zhang, Xinfeng Yuan, Rui Xu, Jen-tse Huang, Siyu Yuan, Haoran Guo, Jiangjie Chen, Wei Wang, Yanghua Xiao, Shuchang Zhou

役割言語エージェント（RPLAs）は、大規模言語モデル（LLMs）の有望な応用として登場しています。ただし、確立されたキャラクターのシミュレーションは、本物のキャラクターデータセットの不足やそのようなデータを使用した微妙な評価方法の欠如により、RPLAsにとって困難な課題です。本論文では、確立されたキャラクターの効果的なRPLAsに向けた高品質データセット、オープンモデル、および評価プロトコルであるCoSERを提案します。CoSERデータセットは、771冊の名著から17,966のキャラクターをカバーしています。これには、実世界の複雑さを持つ本物の対話や、会話の設定、キャラクターの経験、内面的な考えなど、さまざまなデータタイプが含まれています。演技法から着想を得て、本論文では、本のシーンでLLMsが複数のキャラクターを順次演じるためのトレーニングおよび評価に与えられた状況演技を導入します。私たちは、CoSER 8BとCoSER 70Bを開発しました。つまり、LLaMA-3.1モデルに基づいて構築された高度なオープンな役割言語モデルです。広範な実験により、CoSERデータセットがRPLAのトレーニング、評価、および検索において有用であることが示されます。さらに、CoSER 70Bは、InCharacterおよびLifeChoiceのベンチマークにおいて、GPT-4oを上回るか一致する最先端のパフォーマンスを発揮し、それぞれ75.80％と93.47％の精度を達成しています。

MME-CoT：推論品質、頑健性、効率における大規模マルチモーダルモデルにおけるChain-of-Thoughtのベンチマーク化
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

Feb 13

ByDongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li

Chain-of-Thought（CoT）による質問への回答は、大規模言語モデル（LLMs）の推論能力を大幅に向上させましたが、大規模多モーダルモデル（LMMs）への影響はまだ体系的な評価や詳細な調査が不足しています。本論文では、6つのドメイン（数学、科学、OCR、論理、時空間、一般シーン）を網羅するLMMsのCoT推論パフォーマンスを評価する専門ベンチマークであるMME-CoTを紹介します。この領域における初の包括的な研究として、推論品質、堅牢性、効率を細かいレベルで評価する3つの新しいメトリクスを組み込んだ徹底的な評価スイートを提案します。厳選された高品質データと独自の評価戦略を活用し、最先端のLMMsについて詳細な分析を行い、いくつかの重要な洞察を明らかにします。1）反射メカニズムを持つモデルは優れたCoT品質を示し、Kimi k1.5がGPT-4oを上回り、最高品質の結果を示すことができること；2）CoTプロンプトはしばしば知覚重視のタスクでLMMのパフォーマンスを低下させる傾向があり、潜在的に有害な過剰思考行動を示唆すること；3）CoT品質が高い一方で、反射を備えたLMMは通常の応答および自己修正段階の両方で著しい効率性の欠如が見られます。MME-CoTがLMMsにおける多モーダル推論の進歩の基盤となることを期待しています。プロジェクトページ：https://mmecot.github.io/

3D LMMにおけるエンコーダーフリーアーキテクチャの可能性の探索
Exploring the Potential of Encoder-free Architectures in 3D LMMs

Feb 13

ByYiwen Tang, Zoey Guo, Zhuhao Wang, Ray Zhang, Qizhi Chen, Junli Liu, Delin Qu, Zhigang Wang, Dong Wang, Xuelong Li, Bin Zhao

エンコーダーを使用しないアーキテクチャは、2Dビジュアル領域で予備的に探求されていますが、それが効果的に3D理解シナリオに適用できるかどうかは未解決の問題です。本論文では、エンコーダーを使用しないアーキテクチャの潜在能力を調査し、エンコーダーベースの3D大規模マルチモーダルモデル（LMMs）の課題を克服する可能性について初めて包括的に検討します。これらの課題には、さまざまなポイントクラウド解像度に適応できないことや、エンコーダーからのポイント特徴が大規模言語モデル（LLMs）の意味ニーズに満たないことが含まれます。私たちは、3D LMMsにおいてエンコーダーを取り除き、LLMが3Dエンコーダーの役割を担うための重要な側面を特定します。1）我々は、事前トレーニング段階でLLMに埋め込まれた意味エンコーディング戦略を提案し、さまざまなポイントクラウド自己教師付き損失の効果を探求します。また、高レベルの意味を抽出するためにハイブリッド意味損失を提示します。2）我々は、指示調整段階で階層的ジオメトリ集約戦略を導入します。これにより、LLMの初期層に帰納バイアスを組み込み、ポイントクラウドの局所詳細に焦点を当てます。最終的に、我々は初めてのエンコーダーを使用しない3D LMM、ENELを提示します。当社の7Bモデルは、現在の最先端モデルであるShapeLLM-13Bと競り合い、分類、キャプション付け、およびVQAタスクでそれぞれ55.0％、50.92％、42.7％を達成します。我々の結果は、エンコーダーを使用しないアーキテクチャが3D理解の分野でエンコーダーベースのアーキテクチャを置き換えるために非常に有望であることを示しています。コードはhttps://github.com/Ivan-Tang-3D/ENELで公開されています。

大規模言語モデルにおける論理推論：サーベイ
Logical Reasoning in Large Language Models: A Survey

Feb 13

ByHanmeng Liu, Zhizhang Fu, Mengru Ding, Ruoxi Ning, Chaoli Zhang, Xiaozhang Liu, Yue Zhang

OpenAI o3 や DeepSeek-R1 などの高度な推論モデルの台頭により、大規模言語モデル（LLMs）は顕著な推論能力を示しています。ただし、厳密な論理推論を行う能力は未解決の問題です。本調査は、LLMs内の論理推論の最近の進展を総合し、AI研究の重要な分野である論理推論に焦点を当てています。LLMsにおける論理推論の範囲、その理論的基盤、および推論能力を評価するために使用されるベンチマークを概説しています。我々は、演繹的、帰納的、推論的、類推的といった異なる推論パラダイムにわたる既存の能力を分析し、データ中心の調整、強化学習、デコーディング戦略、および神経記号アプローチなど、推論パフォーマンスを向上させる戦略を評価しています。レビューは、AIシステムにおける論理推論を強化するためのさらなる探求の必要性を強調しつつ、将来の方向性で締めくくります。

大規模言語モデルにおける思考連鎖の向上のためのSQuARE：Sequential Question Answering Reasoning Engine
SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models

Feb 13

ByDaniel Fleischer, Moshe Berchansky, Gad Markovits, Moshe Wasserblat

自然言語処理の急速に進化する分野において、大規模言語モデル（LLMs）はますます複雑な推論課題に取り組んでいます。連鎖思考プロンプトなどの従来の手法は有望性を示していますが、しばしばモデルの推論能力を十分に活用できていません。本論文では、SQuARE（Sequential Question Answering Reasoning Engine）という新しいプロンプト技術を紹介し、自己尋問のパラダイムを通じて推論を改善するよう設計されています。CoTフレームワークを基盤として、SQuAREはモデルに対して主要なクエリに取り組む前に複数の補助的な質問を生成して解決するよう促し、トピックのさまざまな側面をより徹底的に探求することを促進します。Llama 3とGPT-4oモデルを用いた幅広い評価により、SQuAREが従来のCoTプロンプトや既存の言い換えて応答する方法を大幅に上回ることが示されました。クエリを体系的に分解することで、SQuAREは推論タスクにおけるLLMの能力を向上させます。コードはhttps://github.com/IntelLabs/RAG-FiT/tree/square で公開されています。

台風 T1: オープンタイの推論モデル
Typhoon T1: An Open Thai Reasoning Model

Feb 13

ByPittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai, Kunat Pipatanakul

この論文では、オープンなタイの推論モデルを開発するための取り組みであるTyphoon T1を紹介します。推論モデルは、大規模言語モデル（LLMs）の上に構築された比較的新しいタイプの生成モデルです。推論モデルは、最終的な答えに至るまでの長い思考の連鎖を生成し、複雑なタスクでのパフォーマンス向上が確認されています。ただし、特に低リソース言語でトレースを生成できる推論モデルの開発に関する詳細は限られています。Typhoon T1は、強化学習ではなくオープンデータセットを活用した教師付きファインチューニングにより、推論モデルをより効率的に開発する詳細に踏み込むオープンな取り組みを提供します。この論文では、合成データの生成とトレーニング、データセットとモデルの重みについて共有します。さらに、ドメインを横断し一般化でき、低リソース言語で推論トレースを生成できる推論モデルの開発から得られた洞察を提供し、タイ語を例に挙げます。このオープンな取り組みが、この分野でのさらなる研究の基盤となることを期待しています。

mmE5：高品質な合成データを介したマルチモーダル多言語埋め込みの改善
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data

Feb 12

ByHaonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou

マルチモーダル埋め込みモデルは、テキストや画像など異なるモダリティのデータを統一された表現空間にマッピングする能力から、注目を集めています。ただし、限られたラベル付きマルチモーダルデータは、埋め込みの性能を妨げることが多いです。最近のアプローチでは、この問題に対処するためにデータ合成を活用していますが、合成データの品質は依然として重要なボトルネックです。本研究では、高品質な合成マルチモーダルデータのための3つの基準を特定しています。第一に、広範囲のスコープは生成されたデータが多様なタスクやモダリティをカバーし、さまざまな下流シナリオに適用可能であることを保証します。第二に、堅牢なクロスモーダルアラインメントは、異なるモダリティが意味的に一貫していることを確保します。第三に、高い忠実度は、合成データがリアルな詳細を維持し信頼性を高めることを保証します。これらの原則に従い、私たちは以下のようなデータセットを合成しています：（1）幅広いタスク、モダリティの組み合わせ、言語をカバーし、（2）マルチモーダル大規模言語モデルの単一パス内で深い思考プロセスを経て生成され、（3）正確で関連性のあるテキストとリアルな画像を取り入れ、自己評価と改良を通じて忠実度を確保しています。これらの高品質な合成およびラベル付きデータセットを活用して、私たちはマルチモーダル多言語E5モデルmmE5を訓練しています。包括的な実験により、mmE5がMMEBベンチマークで最先端の性能を達成し、XTDベンチマークで優れた多言語性能を発揮することが示されています。私たちのコード、データセット、モデルはhttps://github.com/haon-chen/mmE5 で公開されています。

CoT-Valve: 長さ可縮性のChain-of-Thought Tuning
CoT-Valve: Length-Compressible Chain-of-Thought Tuning

Feb 13

ByXinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang

Chain-of-Thoughtは、モデルの推論能力を大幅に向上させますが、長いチェーンによる推論コストの著しい増加も伴います。推論パスは簡単なタスクでは簡単に圧縮できるが、難しいタスクでは苦労することが観察されたため、1つのモデルで推論パスの長さを弾力的に制御する可能性を探求し、タスクの難易度に基づいて推論モデルの推論オーバーヘッドを動的に削減することを目指します。CoT-Valveという新しい調整および推論戦略を導入し、モデルが異なる長さの推論チェーンを生成できるよう設計されています。これを実現するために、生成されたCoTの長さを効果的に制御できるように、パラメータ空間内の方向を特定することを提案します。さらに、この特性が推論チェーンを圧縮するのに有用であることを示します。同じ質問に対して長いから短いまでのチェーンを持つデータセットを構築し、CoT-Valveの2つの強化戦略を探求します：(1)正確な長さ圧縮可能なCoT調整方法、および(2)段階的なチェーン長圧縮アプローチ。実験では、CoT-Valveがチェーンの制御可能性と圧縮性を成功裏に実現し、プロンプトベースの制御よりも優れたパフォーマンスを示すことを示しました。この手法をQwQ-32B-Previewに適用し、GSM8Kの推論チェーンを741から225トークンに削減し、僅かなパフォーマンス低下（95.07％から94.92％）とAIMEから6827から4629トークンに削減し、1つの追加の不正解回答のみを生じました。

大規模言語モデルにおける数学的推論：広範な数値範囲にわたる論理および算術のエラーの評価
Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges

Feb 12

BySafal Shrestha, Minwu Kim, Keith Ross

大規模言語モデル（LLMs）における数学的推論は、実世界の多様なスケールでの問題解決を反映しない、数値範囲が限られたベンチマークを用いて評価されることが一般的です。さらに、既存の評価方法の多くは、モデルの出力を正解と比較するだけであり、推論プロセスに関する洞察を隠蔽しています。これらの制約に対処するために、我々はGSM8Kから派生したデータセット生成器であるGSM-Rangesを導入し、数学問題における数値を系統的に変動させることで、モデルの数値スケールにわたる頑健性を評価します。さらに、論理的エラーと非論理的エラーを区別する新しい評価方法を提案し、計算の正確さを超えた推論プロセスのより正確な評価を提供します。様々なモデルを用いた実験では、数値の複雑さが増すにつれて論理的エラー率が14パーセンテージポイントまで上昇することが明らかとなり、分布外の数値を用いた推論における一般的な弱点が示されました。さらに、モデルは単独の算術タスクにおいて高い精度を示す一方で、計算が文章問題に埋め込まれた場合に性能が著しく低下します。これらの知見は、LLMsの数学的推論能力を包括的に評価し、言語モデルにおける数値の一般化を向上させるための将来の研究方向に関する示唆を提供します。

DexTrack：巧緻な操作のための汎用性のあるニューラルトラッキング制御に向けて、人間のリファレンスから
DexTrack: Towards Generalizable Neural Tracking Control for Dexterous Manipulation from Human References

Feb 13

ByXueyi Liu, Jianibieke Adalibieke, Qianwei Han, Yuzhe Qin, Li Yi

我々は、人間の参照から器用な操作のための汎化可能なニューラルトラッキングコントローラーの開発の課題に取り組んでいます。このコントローラーは、器用なロボットハンドを様々な目的のために様々な物体を操作することを目指しています。この目的は、運動学的な人間-物体の相互作用によって定義されます。このようなコントローラーの開発は、器用な操作の複雑な接触ダイナミクスと適応性、汎化性、堅牢性の必要性によって複雑化されています。現在の強化学習や軌道最適化手法は、しばしば、タスク固有の報酬や正確なシステムモデルへの依存からうまくいかないことがあります。私たちは、大規模な成功したロボットトラッキングデモを収集し、人間の参照とロボットのアクションのペアからニューラルコントローラーを訓練するアプローチを導入します。データフライホイールを活用して、コントローラーのパフォーマンスと成功したトラッキングデモの数と品質を反復的に向上させます。利用可能なトラッキングデモを活用し、強化学習と模倣学習を慎重に統合して、コントローラーのパフォーマンスをダイナミックな環境で向上させます。同時に、高品質なトラッキングデモを得るために、学習されたトラッキングコントローラーをホモトピー最適化手法で個別に最適化することで、軌道ごとのトラッキングを最適化します。ホモトピー最適化は、考えの連鎖を模倣し、挑戦的な軌道追跡問題を解決するのに役立ち、デモの多様性を増やします。私たちは、汎化可能なニューラルコントローラーを訓練し、シミュレーションと実世界の両方で評価することで成功を示しています。当社の手法は、主要なベースラインと比較して成功率が10%以上向上しています。アニメーション結果を掲載したプロジェクトのウェブサイトは、https://meowuu7.github.io/DexTrack/ でご覧いただけます。

VFXクリエーター：制御可能な拡散トランスフォーマーを用いたアニメーションビジュアルエフェクト生成
VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer

Feb 9

ByXinyu Liu, Ailing Zeng, Wei Xue, Harry Yang, Wenhan Luo, Qifeng Liu, Yike Guo

魔法と幻想を作り出すことは、映画製作の中でも最もスリリングな側面の1つであり、ビジュアルエフェクト（VFX）は忘れられない映画体験の背後にあるパワーハウスとして機能しています。最近の生成型人工知能の進歩は、一般的な画像とビデオの合成において進歩を遂げてきましたが、制御可能なVFX生成の領域は比較的未開拓のままです。本研究では、ユーザーフレンドリーなテキスト記述と静止画像から動的エフェクトを生成する画像アニメーションとしてのアニメーションVFX生成の新しいパラダイムを提案します。私たちの研究は2つの主要な貢献を行っています：(i) 15の異なるエフェクトカテゴリを網羅した高品質VFXビデオデータセットであるOpen-VFX。このデータセットには、テキスト記述、空間条件付けのためのインスタンスセグメンテーションマスク、時間制御のための開始-終了タイムスタンプがアノテーションされています。(ii) Video Diffusion Transformerに基づくシンプルで効果的な制御可能なVFX生成フレームワークであるVFX Creator。このモデルには、空間的および時間的に制御可能なLoRAアダプタが組み込まれており、最小限のトレーニングビデオが必要です。具体的には、プラグアンドプレイのマスク制御モジュールがインスタンスレベルの空間操作を可能にし、拡散プロセスに埋め込まれたトークン化された開始-終了モーションタイムスタンプとテキストエンコーダは、エフェクトのタイミングとペースに対する正確な時間制御を可能にします。 Open-VFXのテストセットでの広範な実験は、提案されたシステムがリアルでダイナミックなエフェクトを生成する上での優越性を示し、空間的および時間的な制御性において最先端の性能と汎化能力を達成しています。さらに、時間制御の精度を評価するための専門的なメトリックを導入しています。従来のVFX技術と生成的アプローチを結びつけることで、VFX Creatorは効率的で高品質なビデオエフェクト生成の新たな可能性を開拓し、先進的なVFXをより広い観客にアクセス可能にしています。

3CAD：教師なし異常検知のための大規模な実世界3C製品データセット
3CAD: A Large-Scale Real-World 3C Product Dataset for Unsupervised Anomaly

Feb 9

ByEnquan Yang, Peng Xing, Hanyang Sun, Wenbo Guo, Yuanwei Ma, Zechao Li, Dan Zeng

産業用の異常検知は、MVTec-ADやVisAなどのデータセットのおかげで進歩しています。しかし、これらは欠陥サンプルの数、欠陥の種類、実世界のシーンの可用性に関して制限があります。これらの制約により、研究者は産業用検知の性能をさらに高い精度で探求することが制約されています。このため、我々は、実際の3C生産ラインから派生した新しい大規模異常検知データセットである3CADを提案します。具体的には、提案された3CADには、合計27,039枚の高解像度画像が含まれ、ピクセルレベルの異常がラベル付けされた8種類の異なる製造部品が含まれています。3CADの主な特徴は、異なるサイズの異常領域、複数の異常タイプ、および異常画像あたりの複数の異常領域と複数の異常タイプをカバーしていることです。これは、コミュニティの探索と開発のために専用の3C製品品質管理のための最大かつ初の異常検知データセットです。一方で、非監督異常検知のためのシンプルで効果的なフレームワークであるCoarse-to-Fine検出パラダイムとRecovery Guidance（CFRG）を紹介します。小さな欠陥異常を検出するために、提案されたCFRGは、荒いから細かい検出パラダイムを利用します。具体的には、荒い位置特定のために異種蒸留モデルを利用し、その後、セグメンテーションモデルを介して細かい位置特定を行います。さらに、正常なパターンをよりよく捉えるために、回復特徴をガイダンスとして導入します。最後に、提案されたCFRGフレームワークと一般的な異常検知手法の3CADデータセットでの結果を報告し、強力な競争力を示し、異常検知分野の発展を促進するための非常に厳しいベンチマークを提供します。データとコードはこちらで入手可能です：https://github.com/EnquanYang2022/3CAD。

3次元認識を備えた2次元表現を用いた潜在放射フィールド
Latent Radiance Fields with 3D-aware 2D Representations

Feb 13

ByChaoyi Zhou, Xi Liu, Feng Luo, Siyu Huang

潜在的な3D再構築は、2D特徴を3D空間に蒸留することで、3D意味理解と3D生成を促進する可能性を示しています。ただし、既存の手法は、2D特徴空間と3D表現の間のドメインのギャップに苦しんでおり、レンダリング性能が低下しています。この課題に対処するために、我々は、3D意識を2D潜在空間に統合する新しいフレームワークを提案します。このフレームワークは、次の3つの段階で構成されています：（1）2D潜在表現の3D整合性を向上させる対応意識オートエンコーディング手法、（2）これらの3D意識的な2D表現を3D空間に引き上げる潜在放射フィールド（LRF）、および（3）レンダリングされた2D表現からの画像デコーディングを改善するVAE-放射フィールド（VAE-RF）の整列戦略。包括的な実験により、我々の手法が、多様な屋内外のシーンにわたる合成性能とクロスデータセットの汎化性能において、最先端の潜在的な3D再構築手法を上回ることが示されました。私たちの知る限り、これは、2D潜在表現から構築された放射フィールド表現が写実的な3D再構築性能をもたらすことを示す最初の研究です。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

LLMの肩に止まる確率的なオウム：物理的概念理解の総括評価
The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

Feb 13

ByMo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou

191

InfiniteHiP: 1 枚の単一 GPU で最大 3 百万トークンまで言語モデルのコンテキストを拡張
InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU

Feb 13

ByHeejun Lee, Geon Park, Jaduk Suh, Sung Ju Hwang

148

Skrr：メモリ効率の高いテキストから画像への生成のためのスキップおよび再利用テキストエンコーダーレイヤー
Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation

Feb 12

ByHoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun

TripoSG：大規模な整流フローモデルを用いた高精度3D形状合成
TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

Feb 10

ByYangguang Li, Zi-Xin Zou, Zexiang Liu, Dehu Wang, Yuan Liang, Zhipeng Yu, Xingchao Liu, Yuan-Chen Guo, Ding Liang, Wanli Ouyang, Yan-Pei Cao

SelfCite: 大規模言語モデルにおける文脈帰属のための自己教師付きアライメント
SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models

Feb 13

ByYung-Sung Chuang, Benjamin Cohen-Wang, Shannon Zejiang Shen, Zhaofeng Wu, Hu Xu, Xi Victoria Lin, James Glass, Shang-Wen Li, Wen-tau Yih

EmbodiedBench: 視覚駆動型具現エージェント向けの多モーダル大規模言語モデルの包括的ベンチマーク
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

Feb 13

ByRui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang

このモデルは犬も認識できますか？重みからのゼロショットモデル検索
Can this Model Also Recognize Dogs? Zero-Shot Model Search from Weights

Feb 13

ByJonathan Kahana, Or Nathan, Eliahu Horwitz, Yedid Hoshen

オープンレシピ：言語固有のLLMを1日で推論モデルに適応させるためのモデルマージング
An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging

Feb 13

ByKunat Pipatanakul, Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai

CoSER: 既存の役割のLLMに基づくペルソナシミュレーションの調整
CoSER: Coordinating LLM-Based Persona Simulation of Established Roles

Feb 13

ByXintao Wang, Heng Wang, Yifei Zhang, Xinfeng Yuan, Rui Xu, Jen-tse Huang, Siyu Yuan, Haoran Guo, Jiangjie Chen, Wei Wang, Yanghua Xiao, Shuchang Zhou

MME-CoT：推論品質、頑健性、効率における大規模マルチモーダルモデルにおけるChain-of-Thoughtのベンチマーク化
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

Feb 13

ByDongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li