AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

説明的な指示：統一されたビジョンタスク理解とゼロショット汎化へ
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

Dec 24

ByYang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding

コンピュータビジョン（CV）は、自然言語処理（NLP）で観察されるゼロショットタスクの汎化を完全に達成していません。NLPで確立された多くのマイルストーンに従っており、大規模なトランスフォーマーモデル、広範な事前トレーニング、自己回帰パラダイムなどを採用しています。本論文では、CVが離散的で用語的なタスク定義（例：「画像セグメンテーション」）を採用していることが、ゼロショットタスクの汎化の主要な障壁である可能性を探求します。私たちの仮説は、これらの用語的定義によって以前に見たタスクを真に理解していないため、深層モデルが新しいタスクに汎化するのに苦労しているというものです。これを検証するために、入力画像から出力への詳細な言語的変換を介してCVタスク目標を直感的に定義する説明的指示を導入します。12百万の「画像入力から説明的指示への出力」トリプレットからなる大規模データセットを作成し、画像と説明的指示の両方を入力とする自己回帰型ビジョン言語モデル（ARベースのVLM）をトレーニングします。これらの指示に従うことを学習することで、ARベースのVLMは以前に見たタスクにおける指示レベルのゼロショット能力を達成し、見たことのないCVタスクに対する強力なゼロショット汎化を実証します。コードとデータセットは当社のGitHubリポジトリで公開されます。

医療画像のためのマルチモーダルLLMの合成的汎化に関する研究
On the Compositional Generalization of Multimodal LLMs for Medical Imaging

Dec 28

ByZhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang

マルチモーダル大規模言語モデル（MLLMs）は医療分野で大きな潜在能力を持っていますが、しばしば特定の医療領域におけるデータが不足しており、MLLMsが一般化に使用できる画像の種類を理解する必要性が強調されています。現在の研究では、複数タスクのトレーニングが単一タスクよりも優れていると示唆されており、異なるタスクが互いに利益をもたらすことができますが、これらのタスク内部の関係をしばしば見落としており、特定のタスクを強化するためのデータセットの選択に関する限られたガイダンスを提供しています。この現象を分析するために、我々は、学習した要素を再組み合わせることで新しい組み合わせを理解するモデルの能力である構成的一般化（CG）をガイドフレームワークとして採用しようとしました。医療画像はモダリティ、解剖領域、タスクによって正確に定義されるため、CGを探索する環境を自然に提供します。そのため、包括的な実験のために106の医療データセットを組み合わせてMed-MATを作成しました。実験は、MLLMsがCGを使用して見慣れない医療画像を理解し、複数タスクのトレーニングで観察される一般化の主要な要因の1つとしてCGを特定しました。さらに、さらなる研究では、CGがデータが限られているデータセットを効果的にサポートし、異なるバックボーン間で一貫したパフォーマンスを提供することが示され、その汎用性と広範な適用可能性が強調されました。Med-MATはhttps://github.com/FreedomIntelligence/Med-MAT で公開されています。

Certaindexを用いてLLM Reasoning Programsを効率的に提供する
Efficiently Serving LLM Reasoning Programs with Certaindex

Dec 30

ByYichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang

大規模言語モデル（LLMs）の急速な進化により、数学的問題解決、コード生成、法的分析などの高度な推論タスクにおける能力が開かれました。この進歩の中心にあるのは、推論時の推論アルゴリズムであり、複数の解決経路を探索することで出力を洗練させますが、計算要求と応答遅延が増加します。既存のサービングシステムは、これらのアルゴリズムのスケーリング動作やクエリの難易度の変化に適応できず、効率的なリソース利用や遅延目標の達成が困難となっています。 Dynasorは、LLM推論クエリの推論時計算を最適化するシステムです。従来のエンジンとは異なり、Dynasorは推論クエリ内のリクエストを追跡しスケジュールし、モデルの確信度に基づいて統計的推論進捗を測定するプロキシであるCertaindexを使用して、計算割り当てを動的に誘導します。Dynasorはスケジューリングを推論進捗と共に適応させます：難しいクエリにはより多くの計算を割り当て、より簡単なクエリには計算を減らし、見込みのないクエリを早期に終了させ、精度、遅延、コストをバランスさせます。様々なデータセットやアルゴリズムにおいて、Dynasorはバッチ処理において最大50％の計算削減を実現し、オンラインサービングにおいては3.3倍のクエリ率の向上や4.7倍のより厳密な遅延SLOを維持します。

エディコ：自然環境における一貫性のある画像編集
Edicho: Consistent Image Editing in the Wild

Dec 30

ByQingyan Bai, Hao Ouyang, Yinghao Xu, Qiuyu Wang, Ceyuan Yang, Ka Leong Cheng, Yujun Shen, Qifeng Chen

実証されたニーズとして、実世界の画像にわたる一貫した編集は、物体のポーズや照明条件、撮影環境など様々な制御不能な要因から生じる技術的課題となっています。Edichoは、拡散モデルに基づく学習不要のソリューションを提供し、明示的な画像対応関係を編集の指針とする基本原理を特徴としています。具体的には、事前に推定された対応関係を考慮したアテンション操作モジュールと、注意深く改良された分類器不要ガイダンス（CFG）のノイズ除去戦略が主要な構成要素です。この推論時アルゴリズムはプラグアンドプレイ性を有し、ControlNetやBrushNetなど、ほとんどの拡散ベースの編集手法と互換性があります。大規模な実験結果は、多様な設定下での画像間一貫性編集におけるEdichoの有効性を実証しています。今後の研究促進のため、コードを公開予定です。

単一の肖像画からの個人化された3D生成アバター
PERSE: Personalized 3D Generative Avatars from A Single Portrait

Dec 30

ByHyunsoo Cha, Inhee Lee, Hanbyul Joo

私たちは、参照ポートレートからアニメーション可能なパーソナライズされた生成アバターを構築するための方法であるPERSEを提案します。当社のアバターモデルは、各顔の属性を制御するための連続的で分離された潜在空間で顔の属性編集を可能にし、同時に個人のアイデンティティを保持します。このために、当社の手法は、顔の表情と視点の一貫した変化を含む大規模な合成2Dビデオデータセットを合成し、元の入力から特定の顔の属性の変化を組み合わせた各ビデオを生成することから始めます。私たちは、顔の属性編集を行う高品質で写実的な2Dビデオを生成するための新しいパイプラインを提案します。この合成属性データセットを活用して、3Dガウススプラッティングに基づく個人用アバター作成手法を提案し、直感的な顔の属性操作のための連続的で分離された潜在空間を学習します。この潜在空間でのスムーズな遷移を強制するために、補間された2D顔を監督として使用する潜在空間の正則化技術を導入します。従来の手法と比較して、PERSEは、参照者のアイデンティティを保持しながら、補間された属性を持つ高品質なアバターを生成することを示しています。

学習された埋め込みの伝播を用いた大規模言語モデルのロシア語適応の促進
Facilitating large language model Russian adaptation with Learned Embedding Propagation

Dec 30

ByMikhail Tikhomirov, Daniil Chernyshev

大規模言語モデル（LLM）技術の急速な進歩により、GPT-4などの最先端モデルと同等のテキスト生成品質を持つ強力なオープンソースの指示チューニングLLMが登場しました。このようなモデルの出現により、機密情報環境でのLLM技術の採用が加速されますが、これらのモデルの作成者は結果の複製に必要なトレーニングデータを開示していないため、達成はモデル固有となっています。これらのオープンソースモデルは多言語対応しているため、言語固有のLLMをトレーニングする利点が減少し、改善された推論計算効率がその高コスト手法の唯一の保証された利点となります。語彙の拡張や継続的な事前トレーニングなどのより費用対効果の高い選択肢も、高品質の指示チューニングデータへのアクセスの欠如によって妨げられています。このデータが結果のLLMタスク解決能力の主要な要因であるためです。これらの制限を解決し、言語適応パイプラインのコストを削減するために、Learned Embedding Propagation（LEP）を提案しています。既存のアプローチとは異なり、当社の手法は既存のLLM知識にほとんど影響を与えないため、トレーニングデータサイズ要件が低くなっています。これは、新しい言語知識を直接任意の既存の指示チューニングバリアントに埋め込むことができる新しい特許出願中の埋め込み伝播手順を使用して強化しています。私たちは、LLaMa-3-8BおよびMistral-7B向けの4つのロシア語語彙適応を評価し、LEPが従来の指示チューニング方法と競合し、OpenChat 3.5およびLLaMa-3-8B-Instructと同等のパフォーマンスを達成し、自己較正と継続的なチューニングによるタスク解決能力の向上を通じてさらなる改善を実現していることを示しました。

OneKE: Docker化されたスキーマガイドLLMエージェントベースの知識抽出システム
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

Dec 28

ByYujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen

OneKEは、Webや生のPDF書籍から知識を抽出し、さまざまなドメイン（科学、ニュースなど）をサポートする、Docker化されたスキーマに基づいた知識抽出システムを紹介します。具体的には、複数のエージェントと構成された知識ベースを持つOneKEを設計しています。異なるエージェントがそれぞれの役割を果たし、さまざまな抽出シナリオをサポートします。構成された知識ベースはスキーマの構成、エラーケースのデバッグと修正を容易にし、パフォーマンスをさらに向上させます。ベンチマークデータセットでの実証評価は、OneKEの有効性を示し、事例研究は、異なるドメインにわたる多様なタスクへの適応性をさらに明らかにし、幅広い応用の可能性を示しています。Codeはhttps://github.com/zjunlp/OneKEでオープンソース化されており、Videoはhttp://oneke.openkg.cn/demo.mp4で公開されています。

遅い知覚：幾何学図形を段階的に知覚しましょう
Slow Perception: Let's Perceive Geometric Figures Step-by-step

Dec 30

ByHaoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang

最近、「視覚 o1」が人々の視界に入り始め、このゆっくりとした思考設計が視覚推論タスク、特に幾何学的数学問題を解決できるという期待が高まっています。しかし、現在の大規模ビジョン言語モデル（LVLMs）は、幾何学的図形を正確にコピーすることさえ難しく、さらには幾何学的形状内の複雑な固有ロジックや空間関係を本当に理解することはほとんどありません。私たちは、正確なコピー（強い知覚）が視覚 o1への第一歩であると考えています。そのため、私たちは「遅い知覚」（SP）という概念を導入し、モデルが基本的な点線の組み合わせを徐々に知覚し、私たち人間が複雑な幾何学的構造を段階的に再構築するように導きます。SPには二つの段階があります。a) 知覚分解。知覚は瞬時ではありません。この段階では、複雑な幾何学図形が基本的な単純な単位に分解され、幾何学表現が統一されます。b) 知覚フロー。線を正確に追跡することは簡単なことではないことを認識します。この段階では、提案された「知覚尺」を使用して、線を一筆ずつ追跡することで、線分の回帰における「長い視覚的ジャンプ」を避けることを目指します。驚くべきことに、このような人間らしい知覚方法は推論時間のスケーリング法則を享受しています。遅いほど良いのです。研究者たちは過去にモデルの知覚を加速しようと努力してきましたが、私たちは再びそれを遅くし、モデルが画像をステップバイステップかつ注意深く読むことを可能にしています。

HumanEval ProとMBPP Pro：自己呼び出しコード生成における大規模言語モデルの評価
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Dec 30

ByZhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang

自己呼び出しコード生成を導入します。これは、LLMの進歩的な推論および問題解決能力を評価するために設計された新しいタスクです。このタスクでは、モデルに基本的な問題と関連するより複雑な問題が提示されます。モデルは基本的な問題を解決し、その解決策を利用してより複雑な問題に対処する必要があります。この研究には3つの主要な貢献があります。まず、既存のベンチマークのより難しいバージョンを生成するための一般的な手順を提案し、HumanEval Pro、MBPP Pro、BigCodeBench-Lite Proの3つの新しいベンチマークを導入しました。これらは、LLMの自己呼び出しコード生成能力を評価するために特に設計されています。第二に、20以上のLLMに対する実験結果の分析から、2つの重要な観察結果が得られました。すなわち、ほとんどのLLMはHumanEvalやMBPPなどの従来のコード生成ベンチマークで優れた成績を収めていますが、自己呼び出しタスクではパフォーマンスが低下しています。例えば、o1-miniはHumanEvalで96.2%のpass@1を達成していますが、HumanEval Proではわずか76.2%です。第三に、自己呼び出しコード生成タスクでは、指示に調整されたモデルはベースモデルと比較してわずかな改善しか示していません。最後に、評価結果に存在する失敗モードの種類を開示します。これらの結果は、自己呼び出しコード生成タスクにおけるさらなる進展の必要性を強調し、LLMのコード推論能力を向上させるための将来の研究への新たな方向性を提供しています。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

説明的な指示：統一されたビジョンタスク理解とゼロショット汎化へ
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

Dec 24

ByYang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding

学習された埋め込みの伝播を用いた大規模言語モデルのロシア語適応の促進
Facilitating large language model Russian adaptation with Learned Embedding Propagation

Dec 30

ByMikhail Tikhomirov, Daniil Chernyshev

OneKE: Docker化されたスキーマガイドLLMエージェントベースの知識抽出システム
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

Dec 28

ByYujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen

遅い知覚：幾何学図形を段階的に知覚しましょう
Slow Perception: Let's Perceive Geometric Figures Step-by-step

Dec 30

ByHaoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang

HumanEval ProとMBPP Pro：自己呼び出しコード生成における大規模言語モデルの評価
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Dec 30

ByZhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang