ChatPaper.aiChatPaper.ai
ホーム

arXiv

HuggingFace

料金プランアカウントワークスペース

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

1

MiniMax-01: ライトニングアテンションを用いたファウンデーションモデルのスケーリング
MiniMax-01: Scaling Foundation Models with Lightning Attention

Jan 14
ByMiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu
298
6

MiniMax-01シリーズを紹介します。これにはMiniMax-Text-01とMiniMax-VL-01が含まれており、トップモデルに匹敵しながらも、より長い文脈を処理する優れた機能を提供しています。その中核は、光速アテンションとその効率的なスケーリングにあります。計算能力を最大限に活用するために、32の専門家と4560億の合計パラメータを持つMixture of Experts(MoE)と統合しました。そのうち、各トークンに対して活性化されるのは459億です。MoEと光速アテンションのために最適化された並列戦略と非常に効率的な計算-通信の重なり技術を開発しました。このアプローチにより、数億のパラメータを持つモデルにおいて、数百万のトークンにわたる文脈で効率的なトレーニングと推論を行うことが可能となります。MiniMax-Text-01の文脈ウィンドウは、トレーニング中に最大100万トークンに達し、推論時には400万トークンまで拡張されますが、手頃なコストで実現します。また、ビジョン言語モデルであるMiniMax-VL-01は、5120億のビジョン言語トークンで継続的にトレーニングされて構築されています。標準および社内ベンチマークでの実験結果によると、GPT-4oやClaude-3.5-Sonnetなどの最先端モデルと同等の性能を発揮し、20〜32倍長い文脈ウィンドウを提供しています。MiniMax-01はhttps://github.com/MiniMax-AI で公開されています。

2

MangaNinja: 正確な参照に従った線画の着色
MangaNinja: Line Art Colorization with Precise Reference Following

Jan 14
ByZhiheng Liu, Ka Leong Cheng, Xi Chen, Jie Xiao, Hao Ouyang, Kai Zhu, Yu Liu, Yujun Shen, Qifeng Chen, Ping Luo
60
4

拡散モデルから派生したMangaNinjiaは、リファレンスに基づいた線画の着色タスクに特化しています。参照カラー画像と対象の線画との間の対応学習を容易にするパッチシャッフリングモジュールを組み込み、キャラクターの詳細な転写を確実にするための2つの慎重に設計された要素を取り入れています。また、細かい色のマッチングを可能にするポイント駆動型制御スキームを採用しています。自己収集したベンチマークでの実験により、当社のモデルが正確な着色において現行ソリューションよりも優れていることが示されています。さらに、提案されたインタラクティブなポイント制御の可能性を紹介し、既存のアルゴリズムでは到達できない難しいケース、クロスキャラクターの着色、複数のリファレンスの調和に対処する能力を示しています。

3

3DIS-FLUX: DiT レンダリングを用いたシンプルかつ効率的なマルチインスタンス生成
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering

Jan 9
ByDewei Zhou, Ji Xie, Zongxin Yang, Yi Yang
37
2

テキストから画像生成における制御可能な出力の需要が高まっており、マルチインスタンス生成(MIG)の重要な進歩がもたらされています。これにより、ユーザーはインスタンスのレイアウトと属性の両方を定義できるようになりました。現在、MIGにおける最先端の手法は主にアダプターベースです。ただし、これらの手法は、より高度なモデルがリリースされるたびに新しいアダプターを再トレーニングする必要があり、膨大なリソースを消費します。Depth-Driven Decoupled Instance Synthesis(3DIS)という手法が導入され、MIGを2つの異なるフェーズ、つまり1)深度ベースのシーン構築と2)幅広く事前トレーニングされた深度制御モデルによる詳細なレンダリングに分割します。3DIS手法では、シーン構築フェーズ中にアダプターのトレーニングのみが必要であり、さまざまなモデルにトレーニングフリーの詳細なレンダリングを可能にします。最初は、3DISはSD1.5、SD2、SDXLなどのU-Netアーキテクチャを利用したレンダリング技術に焦点を当てており、最近のDiTベースのモデルであるFLUXの可能性を探っていませんでした。本論文では、FLUXモデルを統合した3DISフレームワークの拡張である3DIS-FLUXを提案します。具体的には、深度マップ制御画像生成にFLUX.1-Depth-devモデルを使用し、FLUXの共同注意メカニズム内のAttention Maskをレイアウト情報に基づいて操作する詳細なレンダラーを導入します。このアプローチにより、各インスタンスの微細な属性を正確にレンダリングできます。実験結果は、FLUXモデルを活用した3DIS-FLUXが、SD2やSDXLを使用した元の3DIS手法を上回り、現在の最先端のアダプターベースの手法を性能と画質の両面で凌駕していることを示しています。プロジェクトページ:https://limuloo.github.io/3DIS/。

4

1 ステップのビデオ生成のための拡散敵対的事後トレーニング
Diffusion Adversarial Post-Training for One-Step Video Generation

Jan 14
ByShanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang
35
4

拡散モデルは画像およびビデオ生成に広く使用されていますが、その反復生成プロセスは遅く、費用がかかります。既存の蒸留アプローチは画像領域におけるワンステップ生成の潜在能力を示していますが、依然として著しい品質劣化に苦しんでいます。本研究では、1ステップのビデオ生成のための拡散事前トレーニングに続く実データに対するAdversarial Post-Training(APT)を提案します。トレーニングの安定性と品質を向上させるために、モデルアーキテクチャとトレーニング手順にいくつかの改良を導入し、近似されたR1正則化目的を取り入れます。経験的に、私たちの実験は、私たちのadversarial post-trainedモデル、Seaweed-APTが、単一のフォワード評価ステップを使用してリアルタイムで2秒間、1280x720、24fpsのビデオを生成できることを示しています。さらに、私たちのモデルは、1ステップで1024pxの画像を生成することができ、最先端の手法と比較して同等の品質を達成しています。

5

Omni-RGPT: トークンマークを介した画像とビデオの領域レベル理解の統合
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Jan 14
ByMiran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma
33
2

Omni-RGPTは、画像と動画の両方における領域レベルの理解を促進するために設計されたマルチモーダルな大規模言語モデルを提案します。時空間次元全体で一貫した領域表現を実現するために、視覚特徴空間内の対象領域を強調する一連のトークンであるToken Markを導入します。これらのトークンは、視覚的な領域プロンプト(たとえば、ボックスやマスク)を使用して空間領域に直接埋め込まれ、同時にテキストプロンプトに組み込まれ、対象を指定するためのテキストトークンとの間に直接的な接続を確立します。トラックレットを必要とせずに堅牢なビデオ理解をさらにサポートするために、トークンの一貫性を活用してToken Markをガイドする補助タスクを導入し、ビデオ全体で安定した領域の解釈を可能にします。さらに、大規模な領域レベルのビデオインストラクションデータセット(RegVID-300k)を導入します。Omni-RGPTは、画像およびビデオベースの常識推論ベンチマークで最先端の結果を達成し、キャプショニングや参照表現理解タスクでも強力なパフォーマンスを示しています。

6

パディングトーン:T2Iモデルにおけるパディングトークンの機構的分析
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models

Jan 12
ByMichael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov
32
2

画像生成(T2I)拡散モデルは、エンコードされたプロンプトに依存して画像生成プロセスをガイドします。通常、これらのプロンプトは、テキストエンコードの前にパディングトークンを追加して固定の長さに拡張されます。デフォルトの慣行であるにもかかわらず、パディングトークンが画像生成プロセスに与える影響は調査されていませんでした。本研究では、T2Iモデルにおけるパディングトークンの役割について初めて詳細な分析を行います。私たちは、情報がどのようにエンコードされるかを分析するための2つの因果関係技術を開発し、T2Iパイプラインの異なるコンポーネント間でトークンの表現がどのように影響するかを調査します。これらの技術を使用して、いつ、どのようにしてパディングトークンが画像生成プロセスに影響を与えるかを調査します。私たちの調査結果は、3つの異なるシナリオを明らかにします:パディングトークンは、テキストエンコード中、拡散プロセス中、または効果的に無視される可能性があります。さらに、これらのシナリオとモデルのアーキテクチャ(クロスまたはセルフアテンション)およびトレーニングプロセス(凍結またはトレーニングされたテキストエンコーダー)との重要な関係を特定します。これらの知見は、パディングトークンのメカニズムについてのより深い理解に貢献し、T2Iシステムにおける将来のモデル設計とトレーニング手法に影響を与える可能性があります。

7

指示に従ったシングルセル解析のためのマルチモーダルAIコパイロット
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following

Jan 14
ByYin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen
27
2

大規模言語モデルは、複雑な自然言語の指示を解釈するのに優れており、幅広いタスクを実行することができます。生命科学において、単一細胞RNAシーケンシング(scRNA-seq)データは細胞生物学の「言語」として機能し、単一細胞レベルで複雑な遺伝子発現パターンを捉えます。しかし、この「言語」とのやり取りを従来のツールを通じて行うことはしばしば非効率的で直感的でなく、研究者にとって課題を提起しています。これらの制約に対処するために、私たちはInstructCellを提案します。これは、自然言語をより直接的かつ柔軟に単一細胞解析に活用するためのマルチモーダルAIコパイロットです。私たちは、テキストベースの指示とさまざまな組織や種のscRNA-seqプロファイルをペアにした包括的なマルチモーダル指示データセットを構築します。これに基づいて、両方のモダリティを同時に解釈および処理できるマルチモーダル細胞言語アーキテクチャを開発します。InstructCellは、研究者が細胞型注釈、条件付き擬似細胞生成、および薬剤感受性予測などの重要なタスクを、わかりやすい自然言語コマンドを使用して達成できるようにします。包括的な評価により、InstructCellが既存の単一細胞基盤モデルの性能を一貫して満たすか上回ることが示され、さまざまな実験条件に適応します。さらに重要なことに、InstructCellは複雑な単一細胞データを探索するためのアクセスしやすく直感的なツールを提供し、技術的な障壁を低くし、より深い生物学的洞察を可能にします。

8

PokerBench: 大規模言語モデルをプロのポーカープレイヤーに育成する
PokerBench: Training Large Language Models to become Professional Poker Players

Jan 14
ByRichard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli
19
2

PokerBenchを紹介します - 大規模言語モデル(LLM)のポーカー対戦能力を評価するためのベンチマークです。LLMは従来の自然言語処理(NLP)タスクで優れているため、ポーカーなどの複雑で戦略的なゲームへの適用は新たな挑戦となります。不完全情報ゲームであるポーカーは、数学、推論、計画、戦略、ゲーム理論、人間心理の深い理解など多くのスキルが求められます。これにより、ポーカーは大規模言語モデルにとって理想的な次のフロンティアとなります。PokerBenchは、トレーニングされたポーカープレイヤーとの協力によって開発された、プリフロップとポストフロップのプレイに分かれた11,000の最も重要なシナリオの包括的なコンパイルから構成されています。GPT-4、ChatGPT 3.5、およびさまざまなLlamaおよびGemmaシリーズモデルなどの有名なモデルを評価し、すべての最先端のLLMが最適なポーカーのプレイで性能が低いことを発見しました。ただし、ファインチューニング後、これらのモデルは著しい改善を示します。異なるスコアを持つモデル同士を競わせることでPokerBenchを検証し、PokerBenchでの高いスコアが実際のポーカーゲームでの高い勝率につながることを示しました。ファインチューニングされたモデルとGPT-4とのゲームプレイを通じて、最適なプレイ戦略を学習するための単純な教師ありファインチューニングの限界を特定し、ゲームで優れた言語モデルを効果的にトレーニングするためのより高度な方法が必要であることを示唆しています。したがって、PokerBenchは、LLMのポーカー対戦能力を迅速かつ信頼性の高い評価するためのユニークなベンチマークと、複雑なゲームプレイシナリオでのLLMの進歩を研究する包括的なベンチマークを提供します。データセットとコードは次の場所で利用可能になります:https://github.com/pokerllm/pokerbench。

9

FramePainter: ビデオ拡散を用いたインタラクティブ画像編集への付与事前情報
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

Jan 14
ByYabo Zhang, Xinpeng Zhou, Yihan Zeng, Hang Xu, Hui Li, Wangmeng Zuo
19
2

インタラクティブ画像編集は、描画、クリック、ドラッグなどの視覚的相互作用操作を通じてユーザーが画像を変更できるようにします。既存の手法は、物体がさまざまな物理的相互作用でどのように変化するかを捉えるビデオからこのような監督信号を構築します。しかし、これらのモデルは通常、テキストから画像への拡散モデルに基づいて構築されるため、(i) 膨大なトレーニングサンプルと(ii) 実世界のダイナミクスと視覚的一貫性を学習するための追加の参照エンコーダが必要です。本論文では、このタスクを画像からビデオへの生成問題として再定式化し、トレーニングコストを削減し、時間的一貫性を確保するために強力なビデオ拡散先行事項を継承することで、FramePainterというこの定式化の効率的な具体化を紹介します。Stable Video Diffusionで初期化されたFramePainterは、軽量なスパース制御エンコーダのみを使用して編集信号を注入します。2つのフレーム間の大きな動きを処理するための時間的注意の制限を考慮し、編集された画像トークンとソース画像トークンとの密な対応を促進しながら、受容野を拡大するためのマッチングアテンションを提案します。FramePainterの効果的かつ効率的な性能を、さまざまな編集信号にわたって強調します。これは、過去の最先端技術を大幅に上回り、トレーニングデータをはるかに少なく使用して、画像の高度なシームレスで一貫した編集を実現します。例えば、カップの反射を自動的に調整します。さらに、FramePainterは、実世界のビデオには存在しないシナリオでも例外的な汎化能力を示し、クマノミをサメのような形に変換します。私たちのコードは、https://github.com/YBYBZhang/FramePainter で入手可能です。

10

コンパクトなテキスト感知型一次元トークンを用いたテキストから画像へのマスク生成モデルの民主化
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens

Jan 13
ByDongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen
17
3

画像トークナイザーは現代のテキストから画像を生成するモデルの基盤を形成していますが、訓練が非常に難しいことで知られています。さらに、既存のテキストから画像へのモデルのほとんどは大規模で高品質な非公開データセットに依存しており、これらを複製することが困難です。本研究では、Text-Aware Transformerベースの1次元トークナイザー(TA-TiTok)を導入しました。これは、効率的かつ強力な画像トークナイザーであり、離散または連続した1次元トークンのいずれかを利用できます。TA-TiTokは、トークナイザーのデコード段階(すなわち、トークン化解除)中にテキスト情報を独自に統合し、収束を加速しパフォーマンスを向上させます。TA-TiTokは、前の1次元トークナイザーで使用されていた複雑な2段階の蒸留の必要性を排除する、簡素で効果的な1段階のトレーニングプロセスからも利益を得ています。この設計により、大規模データセットへのシームレスなスケーラビリティが可能となります。さらに、我々は、オープンデータのみを使用して訓練されたMasked Generative Models(MaskGen)のファミリーを紹介しています。これらのモデルは、非公開データで訓練されたモデルと同等のパフォーマンスを達成しながら、より広範なアクセスとテキストから画像のマスク生成モデルの分野を民主化するために、効率的で強力なTA-TiTokトークナイザーとオープンデータ、オープンウェイトのMaskGenモデルをリリースすることを目指しています。

11

HALoGEN: 素晴らしいLLM幻覚とその発生源
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

Jan 14
ByAbhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi
17
2

高品質で流暢なテキストを生成する能力にもかかわらず、生成的大規模言語モデル(LLMs)は幻覚も生み出します。つまり、確立された世界知識や提供された文脈と一致しない文が生成されることです。ただし、幻覚を測定することは困難であり、モデル生成物をリアルタイムで人間が検証することは費用がかかり時間がかかります。本研究では、HALoGENという包括的な幻覚ベンチマークを公開します。これには、(1)プログラミング、科学的帰属、要約など9つの領域にわたる生成モデル向けの10,923のプロンプト、および(2)各ユースケースに対する自動高精度検証ツールが含まれます。このツールはLLMの生成物を原子単位に分解し、各単位を高品質な知識源と照合します。私たちはこのフレームワークを使用して、14の言語モデルから約150,000の生成物を評価し、最も性能の良いモデルでも幻覚が多く見られることを発見しました(ドメインによっては生成された原子的事実の86%まで)。さらに、LLMの幻覚について、トレーニングデータの誤った記憶に起因する可能性があるか(Type Aエラー)、トレーニングデータの誤った知識に起因するか(Type Bエラー)、または捏造であるか(Type Cエラー)に基づいた新しいエラー分類を定義しています。私たちは、このフレームワークが、生成モデルがなぜ幻覚を見るのかを原則的に研究する基盤を提供し、信頼性の高い大規模言語モデルの開発を進めることを期待しています。

12

Tarsier2: 詳細なビデオ説明から包括的なビデオ理解への大規模ビジョン言語モデルの進化
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

Jan 14
ByLiping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin
16
2

Tarsier2は、詳細で正確なビデオの説明を生成することを目的とした最先端の大規模ビジョン言語モデル(LVLM)であり、同時に優れた一般的なビデオ理解能力を示します。Tarsier2は、3つの主要なアップグレードを通じて重要な進展を達成しています:(1)11Mから40Mのビデオテキストペアへの事前トレーニングデータのスケーリングにより、ボリュームと多様性の両方を豊かにしました;(2)教師付きファインチューニング中の細かい時間的整合性の実行;(3)モデルベースのサンプリングを使用して自動的に選好データを構築し、最適化のためにDPOトレーニングを適用しています。幅広い実験により、Tarsier2-7Bは、GPT-4oやGemini 1.5 Proなどの主要なプロプライエタリモデルを常に上回り、詳細なビデオ説明タスクにおいて優れた性能を発揮します。DREAM-1Kベンチマークでは、Tarsier2-7Bは、GPT-4oよりもF1を2.8\%、Gemini-1.5-Proよりも5.8\%向上させます。人間のサイドバイサイド評価では、Tarsier2-7Bは、GPT-4oよりも+8.6\%、Gemini-1.5-Proよりも+24.9%の性能アドバンテージを示します。Tarsier2-7Bは、ビデオ質問回答、ビデオグラウンディング、幻覚テスト、具現化質問回答など、15の公開ベンチマーク全体で新しい最先端の結果を達成し、堅牢な一般的なビジョン言語モデルとしての汎用性を示しています。

13

出力中心の特徴記述による自動解釈性の向上
Enhancing Automated Interpretability with Output-Centric Feature Descriptions

Jan 14
ByYoav Gur-Arieh, Roy Mayan, Chen Agassy, Atticus Geiger, Mor Geva
11
2

自動解釈パイプラインは、大規模言語モデル(LLMs)における特徴が表す概念についての自然言語の説明を生成します。これらの説明は、特徴を活性化させる入力を用いて導出され、これらの入力はモデルの表現空間における次元または方向である可能性があります。ただし、活性化入力を特定することはコストがかかり、モデルの振る舞いにおける特徴の機械論的な役割は、入力が特徴を活性化させる方法と特徴の活性化が出力にどのように影響するかによって決定されます。ステアリング評価を使用して、現在のパイプラインが出力における特徴の因果効果を捉えられていないことを明らかにします。この問題を解決するために、特徴の説明を自動生成するための効率的な出力中心の手法を提案します。これらの手法は、特徴の刺激後に重み付けされたトークンまたは特徴に直接「unembedding」ヘッドを適用した後の最も重要なトークンを使用します。出力中心の説明は、入力中心の説明よりも特徴がモデルの出力に与える因果効果をよりよく捉えますが、両者を組み合わせることで、入力と出力の両方の評価において最良のパフォーマンスを発揮します。最後に、出力中心の説明を使用して、以前は「無効」と考えられていた特徴を活性化する入力を見つけることができることを示します。

14

OpenCSG中国語コーパス:LLMトレーニングのための一連の高品質な中国語データセット
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training

Jan 14
ByYijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei
9
2

大規模言語モデル(LLMs)は驚異的な能力を示していますが、その成功は事前学習コーパスの品質に大きく依存しています。中国語のLLMsにおいては、高品質な中国語データセットの不足がしばしばパフォーマンスを制限する重要な課題となっています。この問題に対処するため、LLMの事前学習、事後学習、微調整に特化した一連の高品質データセットであるOpenCSG Chinese Corpusを提案します。このコーパスには、Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese、Smoltalk-chineseが含まれており、それぞれ異なる特性を持っています。Fineweb-eduデータセットは、多様な中国のウェブソースから派生したフィルタリングされた高品質コンテンツに焦点を当てています。Cosmopedia-chineseは、知識集約型トレーニング用の合成的な教科書スタイルのデータを提供し、Smoltalk-chineseは、スタイル豊かで多様なチャット形式のデータに重点を置いています。OpenCSG Chinese Corpusは、その高品質なテキスト、領域全体にわたる多様なカバレッジ、スケーラブルで再現可能なデータキュレーションプロセスを特徴としています。さらに、C-Evalなどのタスクにおいて有意なパフォーマンス向上を示す小規模パラメータモデルの評価を含む幅広い実験的分析を実施し、中国語LLMsのトレーニングにおけるこのコーパスの効果を示しました。

15

AfriHate: アフリカ言語向けのヘイトスピーチと虐待的な言語の多言語コレクションデータセット
AfriHate: A Multilingual Collection of Hate Speech and Abusive Language Datasets for African Languages

Jan 14
ByShamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele, David Ifeoluwa Adelani, Ibrahim Said Ahmad, Saminu Mohammad Aliyu, Nelson Odhiambo Onyango, Lilian D. A. Wanzare, Samuel Rutunda, Lukman Jibril Aliyu, Esubalew Alemneh, Oumaima Hourrane, Hagos Tesfahun Gebremichael, Elyas Abdi Ismail, Meriem Beloucif, Ebrahim Chekol Jibril, Andiswa Bukula, Rooweither Mabuya, Salomey Osei, Abigail Oppong, Tadesse Destaw Belay, Tadesse Kebede Guge, Tesfa Tegegne Asfaw, Chiamaka Ijeoma Chukwuneke, Paul Röttger, Seid Muhie Yimam, Nedjma Ousidhoum
7
2

憎悪表現や虐待的な言語は、理解、特定、および調整するために社会文化的背景知識が必要な世界的現象です。しかし、グローバルサウスの多くの地域では、(1)モデレーションの不在および(2)文脈から切り離されたキーワードのスポッティングによる検閲の記録された事例がいくつかあります。さらに、著名人がしばしばモデレーションプロセスの中心におかれている一方で、少数派に対する大規模かつ標的を絞った憎悪表現キャンペーンが見過ごされてきました。これらの制約は、現地言語の高品質なデータの不足と、地域コミュニティをデータ収集、注釈付け、およびモデレーションプロセスに参加させないことに主に起因しています。この問題に対処するために、私たちはAfriHateを提案します。これは、15のアフリカ言語での憎悪表現や虐待的な言語の多言語データセットです。AfriHate内の各インスタンスは、現地文化に精通したネイティブスピーカーによって注釈付けされています。私たちはデータセットの構築に関連する課題を報告し、LLMを使用した場合と使用しない場合のさまざまな分類ベースライン結果を提示します。データセット、個々の注釈、憎悪表現や攻撃的な言語の辞書は、https://github.com/AfriHate/AfriHate で入手可能です。

16

MatchAnything:大規模事前学習を用いた汎用クロスモダリティ画像マッチング
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

Jan 13
ByXingyi He, Hao Yu, Sida Peng, Dongli Tan, Zehong Shen, Hujun Bao, Xiaowei Zhou
7
3

画像マッチングは、画像間の対応するピクセル位置を特定することを目的とし、画像登録、融合、分析など、幅広い科学分野で重要です。近年、深層学習ベースの画像マッチングアルゴリズムは、急速かつ正確に大量の対応を見つける点で人間を大幅に上回っています。ただし、外観の大きな変化をもたらす異なる画像モダリティでキャプチャされた画像を扱う際、これらのアルゴリズムの性能はしばしば劣化します。これは、注釈付きのクロスモーダルトレーニングデータが不足しているためです。この制約は、補完的な情報を得るために複数の画像モダリティに依存するさまざまな分野のアプリケーションを妨げています。この課題に対処するため、我々は、さまざまなソースからの多様なデータを取り入れ、基本的な構造を認識し、画像間で一致させるモデルを訓練するために合成クロスモーダルトレーニング信号を利用する大規模事前トレーニングフレームワークを提案します。この能力は、現実世界で未知のクロスモダリティ画像マッチングタスクに移せます。我々の主な発見は、当該フレームワークで訓練されたマッチングモデルが、同じネットワーク重みを使用して8つ以上の未知のクロスモダリティ登録タスク全体にわたって顕著な汎化性能を発揮し、一般化または特定のタスク向けに設計された既存の手法を大幅に上回ることです。この進歩により、画像マッチング技術の適用範囲が大幅に拡大し、さまざまな科学分野での人間と人工知能のマルチモダリティ分析など、新しいアプリケーションへの道を開くことができます。

17

大規模言語モデルが非構造化テキストデータの判断者としての可能性と危険性
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data

Jan 14
ByRewina Bedemariam, Natalie Perez, Sreyoshi Bhaduri, Satya Kapoor, Alex Gil, Elizabeth Conjar, Ikkei Itoku, David Theil, Aman Chadha, Naumaan Nayyar
6
2

大規模言語モデルの急速な進歩により、非構造化テキストデータの処理と要約において顕著な能力が開かれました。これは、調査回答などの豊富でオープンエンドなデータセットの分析に影響を与え、LLMが主要なテーマや感情を効率的に抽出する可能性を秘めています。しかしながら、組織がこれらの強力なAIシステムをテキストフィードバックの意味を理解するためにますます活用する中で、重要な問題が生じます。LLMがこれらのテキストベースのデータセットに含まれる視点を正確に表現することができるかどうかです。LLMは人間らしい要約を生成する点で優れていますが、その出力が元の回答の真の内容から誤って逸脱する可能性があります。LLMが生成した出力とデータに実際に存在するテーマとの不一致は、組織にとって遠隔的な影響を持つ誤った意思決定につながる可能性があります。この研究は、他のLLMによって生成された要約のテーマの整合性を評価するための判定モデルとしてのLLMの効果を調査しています。我々はAnthropic Claudeモデルを使用してオープンエンドの調査回答からテーマの要約を生成し、AmazonのTitan Express、Nova Pro、MetaのLlamaをLLMの判定者として使用しました。LLMによる判定アプローチは、Cohenのカッパ、Spearmanのロー、Krippendorffのアルファを使用した人間による評価と比較され、従来の人間中心の評価方法に対するスケーラブルな代替手段を検証しました。我々の調査結果は、LLMが判定者として提供するスケーラブルな解決策が人間の評価者と同等であることを示していますが、人間は微妙で文脈に特有のニュアンスを検出する点で優れている可能性があります。この研究は、AIによるテキスト分析に関する知識の増大に貢献しています。我々は制約事項を議論し、将来の研究に対する推奨事項を提供し、LLM判定モデルをさまざまな文脈やユースケースに一般化する際の慎重な考慮の必要性を強調しています。

18

Graph-PReFLexORを使用したイン・シチュー・グラフ推論と知識拡張
In-situ graph reasoning and knowledge expansion using Graph-PReFLexOR

Jan 14
ByMarkus J. Buehler
5
2

自動科学的発見の追求は、記号論理から現代のAIへの進歩を促し、推論とパターン認識の新たなフロンティアを築いてきました。トランスフォーマーは潜在的なシステムとして機能し、あらゆる関係がタスクが制約を課すまで潜在的な可能性として残されます。これは、測定に似たものです。しかし、彼らのサンプリングを洗練させるには確率的選択以上のものが必要です。解決策は特定の構造や規則に従う必要があり、一貫性と一般原則の発動を保証します。私たちは、探索的最適化のためのグラフベースの優先順位付け再帰言語モデリング(Graph-PReFLexOR)というフレームワークを提案します。これは、グラフ推論と象徴的抽象化を組み合わせてドメイン知識を動的に拡張します。強化学習に触発され、Graph-PReFLexORは推論を構造化されたマッピングとして定義し、タスクが知識グラフ、抽象パターン、そして最終的に最終的な答えをもたらすとします。圏論に触発され、それは概念をノードとして、それらの関係をエッジとして符号化し、同型表現を介して階層的推論と適応学習をサポートします。デモンストレーションには、仮説生成、材料設計、および創造的推論が含まれ、例えば「薄い場所」という神話的概念と材料科学の間の関係を発見するものです。私たちは、異なる領域を横断する洞察を統合し、学際的なつながりを促進する「知識の庭の成長」戦略を提案します。30億パラメータのGraph-PReFLexORモデルによる結果は、優れた推論の深さと適応性を示し、透明で多分野のAI駆動の発見の可能性を強調しています。これは一般的な自律推論ソリューションの基盤を築いています。

Jan 14
Jan 15
Jan 16