翻訳付きの日次キュレーションされたAI研究論文
科学的知識は主に書籍や学術雑誌に保存されており、その多くはPDF形式で存在しています。しかし、PDF形式では、特に数式表現において意味情報が失われるという課題があります。本論文では、Nougat(Neural Optical Understanding for Academic Documents)を提案します。これは、科学文書をマークアップ言語に変換するための光学文字認識(OCR)タスクを実行するVisual Transformerモデルであり、新たに構築した科学文書データセットにおいてその有効性を実証します。提案手法は、人間が読める文書と機械が読めるテキストの間のギャップを埋めることで、デジタル時代における科学的知識のアクセシビリティを向上させる有望なソリューションを提供します。今後の科学テキスト認識研究を加速させるため、モデルとコードを公開します。
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらしました。しかし、その実用的な展開は、膨大なメモリと計算リソースの要件によって妨げられています。最近の学習後量子化(PTQ)手法は、LLMのメモリフットプリントを削減し、計算効率を向上させるのに有効ですが、量子化パラメータを手動で設定するため、性能が低く、極端な低ビット量子化に対応できません。この問題を解決するため、我々はLLM向けの全方向較正量子化(OmniQuant)技術を提案します。OmniQuantは、PTQの計算効率を維持しつつ、様々な量子化パラメータを効率的に最適化することで、多様な量子化設定において優れた性能を発揮します。OmniQuantは、学習可能な重みクリッピング(LWC)と学習可能な等価変換(LET)という2つの革新的なコンポーネントで構成されています。LWCは、クリッピング閾値を最適化することで重みの極値を調整します。一方、LETは、学習可能な等価変換を通じて、量子化の課題を活性化から重みに移すことで、活性化の外れ値に対処します。ブロック単位の誤差最小化を用いた微分可能なフレームワーク内で動作するOmniQuantは、重みのみの量子化と重み-活性化の量子化の両方に対して、量子化プロセスを効率的に最適化できます。例えば、7Bから70BのサイズのLLaMA-2モデルファミリーは、128サンプルを使用して、単一のA100-40G GPU上で1〜16時間以内にOmniQuantで処理できます。広範な実験により、OmniQuantがW4A4、W6A6、W4A16、W3A16、W2A16といった多様な量子化設定において優れた性能を発揮することが検証されました。さらに、OmniQuantは指示チューニングされたモデルにおいても有効性を示し、実デバイス上での推論速度とメモリ削減において顕著な改善をもたらします。コードとモデルはhttps://github.com/OpenGVLab/OmniQuantで公開されています。
ソフトウェア開発は、現代社会におけるイノベーションと効率性を推進する上で重要な役割を果たしています。このダイナミックな分野の要求に応えるため、効果的なソフトウェア開発アシスタントの必要性が高まっています。しかし、ChatGPTに代表される既存の大規模言語モデルは、トレーニングデータやモデルウェイトのアクセス制限といった課題を抱えています。LLaMAのような他の大規模オープンソースモデルも有望ではありますが、人間の意図を理解する点で依然として苦戦しています。本論文では、オープンソースのソフトウェア開発アシスタントであるSoTaNaを紹介します。SoTaNaは、ChatGPTを利用してソフトウェアエンジニアリング分野における高品質な指示ベースのデータを生成し、パラメータ効率の良いファインチューニング手法を用いてオープンソースの基盤モデルであるLLaMAを強化します。Stack Overflowの質問に答える能力を評価し、その有効性を実証します。さらに、コードの要約と生成における能力、および生成データ量の変化がモデルの性能に与える影響についても議論します。特に、SoTaNaは単一のGPUで動作可能であり、より広範な研究者にとってアクセスしやすいものとなっています。私たちのコード、モデルウェイト、データはhttps://github.com/DeepSoftwareAnalytics/SoTaNaで公開されています。
Vision Transformersは、幅広い視覚認識タスクにおいて印象的な精度を達成しています。しかし残念ながら、その精度はしばしば高い計算コストを伴います。これは特にビデオ認識において顕著な問題で、モデルがフレームや時間的チャンクに繰り返し適用されることが多いためです。本研究では、ビデオ処理におけるTransformersのコストを削減するために、連続する入力間の時間的冗長性を活用します。我々は、時間の経過とともに大きく変化したトークンのみを特定し再処理する方法を提案します。提案するEventful Transformersモデルファミリーは、既存のTransformersから変換可能(多くの場合再トレーニングなしで)であり、実行時の計算コストを適応的に制御できます。大規模なビデオ物体検出(ImageNet VID)と行動認識(EPIC-Kitchens 100)データセットを用いて本手法を評価しました。その結果、精度のわずかな低下を伴いながらも、計算量を大幅に削減(2~4倍程度)できることが示されました。
本論文では、視点位置とは異なる移動点光源で照明された物体の少数の非構造化写真から、自由視点再照明を行うための新しいニューラル暗黙的放射輝度表現を提案する。形状を多層パーセプトロンによってモデル化された符号付き距離関数として表現する。従来の再照明可能な暗黙的ニューラル表現とは異なり、異なる反射成分を分離せず、各点における局所的および大域的な反射を第2の多層パーセプトロンによってモデル化する。このネットワークは、密度特徴、現在位置、符号付き距離関数から得られる法線、視線方向、光源位置に加えて、シャドウとハイライトのヒントも入力として受け取り、対応する高周波光輸送効果をモデル化するのに役立てる。これらのヒントは提案として提供され、最終的な再照明結果にどのように組み込むかはネットワークに委ねられる。本手法のニューラル暗黙的表現を、多様な形状、材質特性、大域照明光輸送を示す合成シーンと実シーンで実証し、検証する。