翻訳付きの日次キュレーションされたAI研究論文
本研究では、「深みのあるナンセンス」として特徴づけられる独特の言語現象である「ドリヴェロロジー(Drivelology)」を紹介する。これは、構文的には一貫しているものの、語用的には逆説的、感情的、または修辞的に挑戦的な発話を指す。一見すると表面的なナンセンスに似ているが、その背後には文脈的推論、道徳的推論、または感情的解釈を必要とする暗黙の意味が含まれている。現在の大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクで優れた性能を発揮しているにもかかわらず、ドリヴェロロジーの多層的な意味を理解することに一貫して失敗していることが明らかになった。これを調査するため、英語、中国語、スペイン語、フランス語、日本語、韓国語を含む1,200以上の厳選された事例からなる多様なベンチマークデータセットを構築した。アノテーションは特に困難を伴い、各事例がドリヴェロロジーの特性を真に反映していることを確認するために専門家による慎重なレビューが必要であった。このプロセスでは、意見の相違を解消するために複数回の議論と裁定が行われ、ドリヴェロロジーの微妙で主観的な性質が浮き彫りになった。分類、生成、推論タスクにおいて、さまざまなLLMを評価した結果、モデルがドリヴェロロジーを浅薄なナンセンスと混同したり、一貫性のない説明を生成したり、暗黙の修辞機能を完全に見落としたりするなど、明確な限界が明らかになった。これらの発見は、LLMの語用的理解における深い表現のギャップを示しており、統計的な流暢さが認知的意味理解を意味するという仮定に疑問を投げかけている。本研究では、表面的な一貫性を超えた言語的深さをモデル化するためのさらなる研究を促進するため、データセットとコードを公開する。
事前学習済みのテキストから画像を生成する(T2I)モデルから得られる視覚的プライアを活用することは、密な予測タスクにおいて成功を収めてきました。しかし、密な予測は本質的に画像から画像へのタスクであるため、T2I生成モデルではなく、画像編集モデルがファインチューニングの基盤としてより適している可能性があります。 この動機に基づき、我々は密な幾何推定のための編集モデルと生成モデルのファインチューニング挙動を系統的に分析しました。その結果、編集モデルは固有の構造的プライアを持ち、それらの内在的特徴を「洗練」することでより安定して収束し、最終的には生成モデルよりも高い性能を達成できることがわかりました。 これらの知見に基づき、我々はFE2Eというフレームワークを提案します。これは、Diffusion Transformer(DiT)アーキテクチャに基づく先進的な編集モデルを密な幾何予測に初めて適用したものです。具体的には、この決定論的タスクに編集モデルを適合させるため、編集モデルの元々のフローマッチング損失を「一貫した速度」の学習目標に再定式化しました。また、編集モデルのネイティブなBFloat16フォーマットと我々のタスクが要求する高精度との間の矛盾を解決するため、対数量子化を使用しました。さらに、DiTのグローバルアテンションを活用して、深度と法線の共同推定を単一のフォワードパスで無償で行い、それらの教師信号が互いに強化し合うようにしました。 トレーニングデータを拡大することなく、FE2Eは複数のデータセットにおいて、ゼロショットの単眼深度推定と法線推定で印象的な性能向上を達成しました。特に、ETH3Dデータセットでは35%以上の性能向上を達成し、100倍のデータでトレーニングされたDepthAnythingシリーズを上回りました。プロジェクトページはhttps://amap-ml.github.io/FE2E/{こちら}からアクセスできます。
現代の言語モデルのポストトレーニングにおける主要なトレーニングデータのソースは2つ存在する:オンライン(モデル生成のロールアウト)データと、オフライン(人間または他のモデルのデモンストレーション)データである。これら2種類のデータは、通常、強化学習(RL)と教師ありファインチューニング(SFT)といったアプローチでそれぞれ使用される。本論文では、これらのアプローチが矛盾するものではなく、単一の最適化プロセスのインスタンスであることを示す。我々は統一されたポリシー勾配推定器を導出し、さまざまなデータ分布の仮定とバイアス-分散のトレードオフの下で、幅広いポストトレーニングアプローチの計算を共通の目的関数の勾配として提示する。この勾配推定器は、安定化マスク、参照ポリシーの分母、アドバンテージ推定、および尤度勾配という4つの交換可能な部分で構成されている。我々の理論的発見に基づき、異なるトレーニング信号を動的に選択するハイブリッドポストトレーニング(HPT)アルゴリズムを提案する。HPTは、学習された推論パターンを犠牲にすることなく、デモンストレーションの効果的な活用と安定した探索の両方を実現するように設計されている。我々は、統一された理論的フレームワークとHPTの有効性を検証するために、広範な実験とアブレーション研究を提供する。6つの数学的推論ベンチマークと2つの分布外スイートにおいて、HPTはさまざまなスケールとファミリーのモデルにわたって強力なベースラインを一貫して上回る。
深層研究エージェントは、文献の統合、方法論の設計、実証的検証にわたる多段階の研究ワークフローを調整する可能性から、注目を集めています。しかしながら、研究者の関心と知的探求心を真に捉える最先端の研究課題を収集する難しさから、その研究能力を忠実に評価することは非常に困難です。このギャップを埋めるため、我々は学術セミナーに基づいたベンチマーク「DeepResearch Arena」を導入しました。これは、専門家の豊富な議論と相互作用を捉え、現実世界の研究環境をよりよく反映し、データ漏洩のリスクを低減します。DeepResearch Arenaを自動的に構築するために、我々はセミナーのトランスクリプトから研究に値するインスピレーションを抽出する「Multi-Agent Hierarchical Task Generation (MAHTG)」システムを提案しました。MAHTGシステムは、研究に値するインスピレーションを高品質な研究タスクに変換し、研究タスクの策定のトレーサビリティを確保しながらノイズをフィルタリングします。MAHTGシステムを用いて、我々は200以上の学術セミナーから12の分野(文学、歴史、科学など)にわたる10,000以上の高品質な研究タスクをDeepResearch Arenaにキュレーションしました。我々の広範な評価により、DeepResearch Arenaが現在の最先端エージェントにとって大きな課題を提示し、異なるモデル間で明確な性能差が観察されることが示されました。
大規模言語モデル(LLMs)は多様なタスクで高い性能を発揮するが、しばしば認知的慣性を示し、教師ありファインチューニング(SFT)で学習した標準化されたパターンと矛盾する指示に従うことに苦労する。この制限を評価するため、我々はInverse IFEvalというベンチマークを提案する。これは、モデルの反直観的能力―訓練によって生じたバイアスを上書きし、敵対的な指示に従う能力―を測定するものである。Inverse IFEvalは、Question Correction(質問修正)、Intentional Textual Flaws(意図的なテキストの欠陥)、Code without Comments(コメントなしのコード)、Counterfactual Answering(反事実的応答)など、8種類の課題を導入する。人間を介在させたパイプラインを用いて、23のドメインにわたる1012の高品質な中国語と英語の質問からなるデータセットを構築し、最適化されたLLM-as-a-Judgeフレームワークの下で評価を行った。既存の主要なLLMを用いた実験により、我々が提案するInverse IFEvalベンチマークの必要性が実証された。我々の研究結果は、将来のアライメントの取り組みが、流暢さと事実の正確さを追求するだけでなく、非伝統的な文脈下での適応性も考慮すべきであることを強調している。Inverse IFEvalが、認知的慣性を軽減し、狭いパターンへの過剰適合を減らし、最終的には多様で予測不可能な現実世界のシナリオにおけるLLMの指示追従の信頼性を高めるための診断ツールおよび方法論開発の基盤となることを期待する。
生成モデリングにおける根本的なジレンマが続いている:反復的な拡散モデルは優れた忠実度を達成するが、多大な計算コストを伴い、一方で効率的な少数ステップの代替手法は厳しい品質の上限に制約されている。この生成ステップ数と出力品質の間の対立は、微小なダイナミクス(PF-ODE)または直接的なエンドポイント予測のいずれかにのみ焦点を当てた制限的な訓練目標から生じている。我々はこの課題に対処するため、任意の有限時間間隔における状態遷移を解析的に定義する正確な連続時間ダイナミクス方程式を導入する。これにより、任意ステップの遷移に適応し、単一の飛躍から細かな精緻化まで生成軌跡をシームレスに横断する新しい生成パラダイム、Transition Models(TiM)を提案する。TiMは865Mパラメータしか持たないにもかかわらず、SD3.5(8Bパラメータ)やFLUX.1(12Bパラメータ)などの主要モデルを全ての評価ステップ数で上回る最先端の性能を達成する。重要なことに、従来の少数ステップ生成器とは異なり、TiMはサンプリング予算が増加するにつれて品質が単調に向上することを示す。さらに、我々のネイティブ解像度戦略を採用すると、TiMは4096x4096までの解像度で卓越した忠実度を提供する。
長時間ビデオ理解は、長期的な時間的依存性と複数のイベントを特徴としており、依然として課題となっている。既存の手法は、静的推論や外部の視覚言語モデル(VLM)に依存することが多く、エンドツーエンドのトレーニングの欠如による複雑さや最適でない性能といった問題に直面している。本論文では、反復的なキービデオセグメント選択と質問理解を可能にするための強化されたマルチターン推論フレームワークであるVideo-MTRを提案する。従来のビデオ推論パイプラインが単一のターンで予測を生成するのに対し、Video-MTRは複数のターンで推論を行い、以前に処理されたセグメントと現在の質問に対する理解の進化に基づいてビデオセグメントを段階的に選択する。この反復的なプロセスにより、ビデオのより洗練された文脈を考慮した分析が可能となる。中間推論プロセスを確保するために、回答の正確性に基づく軌跡レベル報酬とフレームクエリ関連性を強調するターンレベル報酬を組み合わせた新しいゲート付き二段階報酬システムを導入する。このシステムは、ビデオセグメント選択と質問理解の両方を最適化し、外部VLMの必要性を排除し、エンドツーエンドのトレーニングを可能にする。VideoMME、MLVU、EgoSchemaなどのベンチマークでの大規模な実験により、Video-MTRが既存の手法を精度と効率の両面で上回り、長時間ビデオ理解の最先端を進めることが実証された。
本論文では、NER Retrieverを紹介します。これは、アドホックな固有表現検索(Named Entity Retrieval)のためのゼロショット検索フレームワークであり、固有表現認識(NER)の一種です。このタスクでは、事前に興味のあるタイプが提供されず、ユーザー定義のタイプ記述を使用してそのタイプのエンティティに言及する文書を検索します。固定スキーマやファインチューニングされたモデルに依存する代わりに、本手法は大規模言語モデル(LLM)の内部表現を基盤として、エンティティ言及とユーザー提供のオープンエンドなタイプ記述を共有の意味空間に埋め込みます。特に、中間層のトランスフォーマーブロックから得られる値ベクトルが、一般的に使用されるトップ層の埋め込みよりも細かいタイプ情報を効果的にエンコードすることを示します。これらの表現を洗練するために、タイプ互換性のあるエンティティを整列させながら無関係なタイプを分離する軽量なコントラスティブ投影ネットワークを訓練します。結果として得られるエンティティ埋め込みはコンパクトでタイプを意識しており、最近傍探索に適しています。3つのベンチマークで評価した結果、NER Retrieverは語彙ベースおよび密な文レベルの検索ベースラインを大幅に上回りました。本研究の結果は、LLM内での表現選択を実証的に支持し、スケーラブルでスキーマフリーなエンティティ検索のための実用的なソリューションを示しています。NER Retrieverのコードベースはhttps://github.com/ShacharOr100/ner_retrieverで公開されています。
Flow-based 3D生成モデルは、通常、推論時に数十のサンプリングステップを必要とします。特にConsistency Models (CMs)のような少ステップ蒸留法は、2D拡散モデルの高速化において大きな進展を遂げていますが、より複雑な3D生成タスクではまだ十分に探索されていません。本研究では、少ステップ3Dフロー蒸留のための新しいフレームワーク、MDT-distを提案します。我々のアプローチは、事前学習済みモデルを蒸留してMarginal-Data Transportを学習するという主要な目的に基づいています。この目的を直接学習するためには、速度場を統合する必要がありますが、この積分は実装が困難です。そこで、我々は2つの最適化可能な目的、Velocity Matching (VM)とVelocity Distillation (VD)を提案し、最適化ターゲットを輸送レベルから速度レベルおよび分布レベルにそれぞれ等価に変換します。Velocity Matching (VM)は、学生モデルと教師モデルの間の速度場を安定して一致させることを学習しますが、必然的にバイアスがかかった勾配推定を提供します。Velocity Distillation (VD)は、学習された速度場を活用して確率密度蒸留を実行することで、最適化プロセスをさらに強化します。先駆的な3D生成フレームワークであるTRELLISで評価した結果、我々の方法は各フロートランスフォーマーのサンプリングステップを25から1または2に削減し、A800上で0.68秒(1ステップ x 2)および0.94秒(2ステップ x 2)のレイテンシを達成し、9.0倍および6.5倍の高速化を実現しながら、高い視覚的および幾何学的忠実度を維持しました。広範な実験により、我々の方法が既存のCM蒸留法を大幅に上回り、TRELLISが少ステップ3D生成において優れた性能を発揮することを実証しました。
本研究では、Durianを提案します。これは、与えられた参照画像からターゲットポートレートへの顔属性転送をゼロショットで行い、ポートレートアニメーションビデオを生成する初の手法です。高忠実度かつ空間的に一貫したフレーム間属性転送を実現するため、デノイジングプロセスにポートレート画像と属性画像の両方から空間的特徴を注入するデュアルリファレンスネットワークを導入しました。モデルの訓練には自己再構成形式を採用し、同一ポートレートビデオから2フレームをサンプリングします。一方を属性参照、他方をターゲットポートレートとして扱い、残りのフレームをこれらの入力と対応するマスクに基づいて再構成します。空間的範囲が異なる属性の転送をサポートするため、キーポイント条件付き画像生成を用いたマスク拡張戦略を提案しました。さらに、属性画像とポートレート画像に空間的および外観レベルの変換を適用し、位置のずれに対するロバスト性を向上させています。これらの戦略により、明示的なトリプレット監視なしで訓練されたにもかかわらず、モデルは多様な属性と実世界の参照組み合わせに効果的に一般化できます。Durianは、属性転送を伴うポートレートアニメーションにおいて最先端の性能を達成し、特にそのデュアルリファレンス設計により、追加の訓練なしに単一の生成パスで複数属性の合成が可能となっています。
コンピュータ支援設計(CAD)の生成モデリングは、産業応用において重要な革新を推進しています。最近の研究では、点群、メッシュ、テキスト記述など様々な入力からソリッドモデルを作成する際に顕著な進展が見られています。しかし、これらの手法は、2Dのエンジニアリング図面から始まる従来の産業ワークフローとは根本的に異なっています。これらの2Dベクトル図面からパラメトリックCADモデルを自動生成することは、エンジニアリング設計において重要なステップであるにもかかわらず、まだ十分に検討されていません。このギャップを埋めるために、私たちの重要な洞察は、CAD生成をシーケンス・ツー・シーケンス学習問題として再定義し、ベクトル図面のプリミティブがパラメトリックCAD操作の生成に直接情報を提供し、変換プロセス全体を通じて幾何学的精度と設計意図を保持するというものです。私たちは、Drawing2CADというフレームワークを提案します。このフレームワークには、正確な幾何学情報を保持するネットワークフレンドリーなベクトルプリミティブ表現、コマンドタイプとパラメータ生成を分離しながら正確な対応関係を維持するデュアルデコーダトランスフォーマーアーキテクチャ、CADパラメータに内在する柔軟性に対応するソフトターゲット分布損失関数という3つの主要な技術的コンポーネントが含まれています。Drawing2CADを訓練および評価するために、私たちはCAD-VGDrawingというエンジニアリング図面とパラメトリックCADモデルのペアデータセットを作成し、私たちの手法の有効性を実証するための徹底的な実験を行いました。コードとデータセットはhttps://github.com/lllssc/Drawing2CADで公開されています。
強力なオープンソース大規模言語モデル(LLM)の成功により、特定のタスクやドメインに適応させた微調整済みモデルの膨大なコレクションがコミュニティによって作成されるようになりました。しかし、これらのモデルをナビゲートし理解することは、一貫性のないメタデータや非構造化されたリポジトリのため、依然として困難です。本論文では、ベースモデルに対する内部活性化の変化を測定することで、微調整済みモデルをベクトル埋め込みとして表現する「Delta Activations」という手法を紹介します。この表現により、ドメインやタスクごとの効果的なクラスタリングが可能となり、モデルのランドスケープにおける構造が明らかになります。Delta Activationsはまた、望ましい特性を示します:微調整設定にわたって頑健であり、微調整データセットが混合された場合に加法的な性質を示します。さらに、Delta Activationsが少数ショットの微調整を通じてタスクを埋め込むことができることを示し、モデル選択やマージへの活用についても探求します。Delta Activationsが公開されているモデルの再利用を促進することを期待しています。コードはhttps://github.com/OscarXZQ/delta_activationsで公開されています。
大規模言語モデル(LLM)は有害な指示に従う可能性があり、その印象的な能力にもかかわらず重大な安全性の懸念を引き起こします。最近の研究では、LLMの内部表現における悪意のある入力と良性の入力の分離可能性を調査するために、プロービングベースのアプローチが活用されており、研究者たちはそのようなプロービング手法を安全性検出に使用することを提案しています。私たちはこのパラダイムを体系的に再検証します。分布外データに対する性能の低さに動機づけられ、プローブが意味的な有害性ではなく表面的なパターンを学習しているという仮説を立てました。制御された実験を通じて、この仮説を確認し、学習された特定のパターン(指示パターンとトリガーワード)を特定しました。私たちの調査は体系的なアプローチに従い、単純なn-gram手法の同等の性能を示すことから始め、意味的にクリーンなデータセットを用いた制御実験、そしてパターン依存性の詳細な分析へと進めました。これらの結果は、現在のプロービングベースのアプローチに対する誤った安心感を明らかにし、モデルと評価プロトコルの再設計の必要性を強調しています。この方向性での責任あるさらなる研究を提案するために、さらなる議論を提供します。私たちはこのプロジェクトをhttps://github.com/WangCheng0116/Why-Probe-Failsでオープンソース化しました。