Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Table-GPT: GPT, адаптированный для работы с таблицами и решения разнообразных табличных задач
Table-GPT: Table-tuned GPT for Diverse Table Tasks

Oct 13, 2023

Peng Li, Yeye He, Dror Yashar, Weiwei Cui, Song Ge, Haidong Zhang, Danielle Rifinski Fainman, Dongmei Zhang, Surajit Chaudhuri

4112

Языковые модели, такие как GPT-3.5 и ChatGPT, демонстрируют впечатляющие способности следовать разнообразным инструкциям человека и выполнять широкий спектр задач. Однако при тестировании языковых моделей на различных базовых задачах, связанных с пониманием таблиц, мы наблюдаем, что современные языковые модели всё ещё неоптимальны во многих задачах, связанных с таблицами. Вероятно, это связано с тем, что они предварительно обучаются преимущественно на одномерных текстах естественного языка, тогда как реляционные таблицы представляют собой двумерные объекты. В данной работе мы предлагаем новую парадигму "настройки на таблицы" (table-tuning), в рамках которой мы продолжаем обучать/дообучать языковые модели, такие как GPT-3.5 и ChatGPT, используя разнообразные задачи, синтезированные из реальных таблиц, в качестве обучающих данных. Целью является улучшение способности языковых моделей понимать таблицы и выполнять задачи, связанные с ними. Мы показываем, что полученные модели Table-GPT демонстрируют (1) лучшие способности к пониманию таблиц, стабильно превосходя базовые GPT-3.5 и ChatGPT на широком спектре задач, включая ранее не встречавшиеся задачи, и (2) сильную обобщаемость, выражающуюся в способности реагировать на разнообразные инструкции человека для выполнения новых задач, связанных с таблицами, аналогично GPT-3.5 и ChatGPT.

PaLI-3: Модели обработки визуальной информации и языка — меньше, быстрее, мощнее
PaLI-3 Vision Language Models: Smaller, Faster, Stronger

Oct 13, 2023

Xi Chen, Xiao Wang, Lucas Beyer, Alexander Kolesnikov, Jialin Wu, Paul Voigtlaender, Basil Mustafa, Sebastian Goodman, Ibrahim Alabdulmohsin, Piotr Padlewski, Daniel Salz, Xi Xiong, Daniel Vlasic, Filip Pavetic, Keran Rong, Tianli Yu, Daniel Keysers, Xiaohua Zhai, Radu Soricut

294

В данной статье представлена модель PaLI-3 — более компактная, быстрая и мощная модель обработки визуальной информации и языка (VLM), которая демонстрирует конкурентоспособные результаты по сравнению с аналогичными моделями, в 10 раз превосходящими её по размеру. Для достижения таких высоких показателей мы сравниваем модели Vision Transformer (ViT), предобученные с использованием классификационных задач, с моделями, предобученными контрастным методом (SigLIP). Мы обнаружили, что, хотя SigLIP-версия PaLI немного уступает на стандартных бенчмарках классификации изображений, она показывает превосходные результаты на различных мультимодальных тестах, особенно в задачах локализации и понимания текста в визуальном контексте. Мы масштабировали кодировщик изображений SigLIP до 2 миллиардов параметров и достигли нового рекорда в задаче мультиязычного кросс-модального поиска. Мы надеемся, что PaLI-3, имея всего 5 миллиардов параметров, вдохновит исследования фундаментальных компонентов сложных VLM и станет основой для нового поколения масштабируемых моделей.

LoftQ: Квантование с учетом тонкой настройки LoRA для крупных языковых моделей
LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models

Oct 12, 2023

Yixiao Li, Yifan Yu, Chen Liang, Pengcheng He, Nikos Karampatziakis, Weizhu Chen, Tuo Zhao

284

Квантование является незаменимой техникой для обслуживания больших языковых моделей (LLM) и недавно нашло применение в тонкой настройке с использованием LoRA. В данной работе мы сосредоточимся на сценарии, где квантование и тонкая настройка LoRA применяются совместно на предварительно обученной модели. В таких случаях часто наблюдается устойчивый разрыв в производительности на последующих задачах между полной тонкой настройкой и подходом, сочетающим квантование с тонкой настройкой LoRA. В ответ на это мы предлагаем LoftQ (LoRA-Fine-Tuning-aware Quantization), новую структуру квантования, которая одновременно квантует LLM и находит подходящую низкоранговую инициализацию для тонкой настройки LoRA. Такая инициализация уменьшает расхождение между квантованной и полной точностью модели и значительно улучшает обобщение на последующих задачах. Мы оцениваем наш метод на задачах понимания естественного языка, ответов на вопросы, суммирования и генерации естественного языка. Эксперименты показывают, что наш метод высокоэффективен и превосходит существующие методы квантования, особенно в сложных режимах 2-битного и 2/4-битного смешанного представления. Мы опубликуем наш код.

Языковой агент с нулевым обучением для управления компьютером с использованием структурированного анализа
A Zero-Shot Language Agent for Computer Control with Structured Reflection

Oct 12, 2023

Tao Li, Gang Li, Zhiwei Deng, Bryan Wang, Yang Li

162

Крупные языковые модели (LLM) демонстрируют растущую способность планировать и выполнять высокоуровневые цели в реальной компьютерной среде (например, MiniWoB++). Для выполнения задачи в последних работах часто требуется, чтобы модель обучалась на примерах трассировок задачи с использованием либо обучения с учителем, либо подсказок с малым/большим количеством примеров. Без таких трассировок остается сложной задачей то, как агент может автономно обучаться и улучшать свое управление компьютером, что ограничивает его способность выполнять новые задачи. Мы подходим к этой проблеме с помощью агента, работающего в режиме "zero-shot", который не требует предоставления экспертных трассировок. Наш агент планирует выполнимые действия в частично наблюдаемой среде и итеративно продвигает задачу, выявляя и обучаясь на своих ошибках через саморефлексию и структурированное управление мыслями. На простых задачах MiniWoB++ мы показываем, что наш агент "zero-shot" часто превосходит последние модели с передовыми результатами (SoTA), демонстрируя более эффективное рассуждение. Для задач с большей сложностью наш рефлексивный агент показывает результаты, сопоставимые с лучшими предыдущими моделями, даже несмотря на то, что в предыдущих работах использовались преимущества доступа к экспертных трассировкам или дополнительной информации с экрана.

Игра консенсуса: генерация языковых моделей через поиск равновесия
The Consensus Game: Language Model Generation via Equilibrium Search

Oct 13, 2023

Athul Paul Jacob, Yikang Shen, Gabriele Farina, Jacob Andreas

143

При применении языковых моделей (ЯМ) к задачам ответов на вопросы и другим задачам генерации текста, их можно запрашивать генеративно (путем выборки ответов из их выходного распределения) или дискриминативно (путем использования их для оценки или ранжирования набора кандидатных ответов). Эти процедуры иногда приводят к совершенно разным предсказаниям. Как согласовать взаимно несовместимые процедуры оценки для получения согласованных предсказаний ЯМ? Мы представляем новую, не требующую обучения, процедуру декодирования языковых моделей, основанную на теории игр. Наш подход формулирует декодирование языковых моделей как регуляризованную последовательную игру с неполной информацией и сигнализацией, которую мы называем ИГРОЙ КОНСЕНСУСА, в которой ГЕНЕРАТОР стремится передать абстрактный параметр корректности с использованием естественно-языковых предложений ДИСКРИМИНАТОРУ. Мы разрабатываем вычислительные процедуры для нахождения приближенных равновесий этой игры, что приводит к алгоритму декодирования, который мы называем РАНЖИРОВАНИЕМ ПО РАВНОВЕСИЮ. Примененный к большому количеству задач (включая понимание прочитанного, рассуждения на основе здравого смысла, решение математических задач и диалоги), РАНЖИРОВАНИЕ ПО РАВНОВЕСИЮ последовательно, а иногда и значительно, улучшает производительность по сравнению с существующими процедурами декодирования ЯМ — на нескольких бенчмарках мы наблюдаем, что применение РАНЖИРОВАНИЯ ПО РАВНОВЕСИЮ к модели LLaMA-7B превосходит гораздо более крупные модели LLaMA-65B и PaLM-540B. Эти результаты подчеркивают перспективность использования инструментов теории игр для решения фундаментальных проблем правдивости и согласованности в языковых моделях.

Могут ли модели GPT быть финансовыми аналитиками? Оценка ChatGPT и GPT-4 на пробных экзаменах CFA
Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4 on mock CFA Exams

Oct 12, 2023

Ethan Callanan, Amarachi Mbakwe, Antony Papadimitriou, Yulong Pei, Mathieu Sibue, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu, Sameena Shah

143

Крупные языковые модели (LLM) продемонстрировали выдающиеся результаты в широком спектре задач обработки естественного языка (NLP), часто достигая или даже превосходя показатели современных специализированных моделей. Данное исследование направлено на оценку способностей LLM к финансовому анализу. Мы используем пробные экзаменационные вопросы программы Chartered Financial Analyst (CFA) для всесторонней оценки ChatGPT и GPT-4 в области финансового анализа, рассматривая сценарии Zero-Shot (ZS), Chain-of-Thought (CoT) и Few-Shot (FS). Мы представляем детальный анализ производительности и ограничений моделей, а также оцениваем, есть ли у них шансы сдать экзамены CFA. В заключение мы предлагаем идеи по потенциальным стратегиям и улучшениям для повышения применимости LLM в финансах. В этой перспективе мы надеемся, что данная работа проложит путь для будущих исследований, направленных на дальнейшее совершенствование LLM для финансового анализа через строгую оценку.

CodeChain: К модульной генерации кода через цепочку самокоррекций с использованием репрезентативных подмодулей
CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules

Oct 13, 2023

Hung Le, Hailin Chen, Amrita Saha, Akash Gokul, Doyen Sahoo, Shafiq Joty

131

Крупные языковые модели (LLM) уже достигли значительных успехов в решении более простых задач программирования, таких как те, что представлены в бенчмарках HumanEval или MBPP. Однако решение более сложных и конкурентных задач программирования по-прежнему остается серьезным вызовом для этих моделей — возможно, из-за их склонности генерировать решения в виде монолитных блоков кода вместо того, чтобы разбивать их на логические подзадачи и подмодули. С другой стороны, опытные программисты инстинктивно пишут модульный код с использованием абстракций для решения сложных задач, часто повторно используя ранее разработанные модули. Чтобы устранить этот разрыв, мы предлагаем CodeChain — новый фреймворк для вывода, который стимулирует генерацию модульного кода через цепочку самопересмотров, каждый из которых направляется репрезентативными подмодулями, сгенерированными на предыдущих итерациях. Конкретно, CodeChain сначала инструктирует LLM генерировать модульный код с помощью подсказок по цепочке рассуждений (chain-of-thought prompting). Затем он применяет цепочку самопересмотров, итерируя два шага: 1) извлечение и кластеризация сгенерированных подмодулей с выбором представителей кластеров в качестве более универсальных и повторно используемых реализаций и 2) дополнение исходной подсказки по цепочке рассуждений этими выбранными реализациями модулей и инструкция LLM повторно генерировать новые модульные решения. Мы обнаружили, что, естественным образом поощряя LLM повторно использовать ранее разработанные и проверенные подмодули, CodeChain может значительно повысить как модульность, так и корректность генерируемых решений, достигая относительного улучшения pass@1 на 35% для APPS и на 76% для CodeContests. Показано, что он эффективен как для LLM от OpenAI, так и для открытых LLM, таких как WizardCoder. Мы также проводим всесторонние исследования абляции с различными методами подсказок, количеством кластеров, размерами моделей, качеством программ и т.д., чтобы предоставить полезные инсайты, лежащие в основе успеха CodeChain.

К совместному языковому моделированию речевых единиц и текста
Toward Joint Language Modeling for Speech Units and Text

Oct 12, 2023

Ju-Chieh Chou, Chung-Ming Chien, Wei-Ning Hsu, Karen Livescu, Arun Babu, Alexis Conneau, Alexei Baevski, Michael Auli

101

Речь и текст являются двумя основными формами человеческого языка. Научное сообщество на протяжении многих лет сосредоточено на преобразовании речи в текст и наоборот. Однако в области языкового моделирования было приложено очень мало усилий для их совместного моделирования. В связи с этим мы исследуем совместное языковое моделирование для речевых единиц и текста. В частности, мы сравниваем различные речевые токенизаторы для преобразования непрерывных речевых сигналов в дискретные единицы и используем различные методы для создания смешанных данных, содержащих речь и текст. Мы вводим автоматические метрики для оценки того, насколько хорошо совместная языковая модель (LM) объединяет речь и текст. Мы также дообучаем модель на задачах понимания устной речи (SLU) с использованием различных модальностей (речь или текст) и тестируем её производительность, чтобы оценить, насколько модель усваивает общие представления. Наши результаты показывают, что при объединении речевых единиц и текста с использованием предложенных нами методов смешивания, совместная LM превосходит базовую модель, работающую только с речью, на задачах SLU и демонстрирует кросс-модальную передачу знаний в режиме zero-shot.

CodeChain: К модульной генерации кода через цепочку самокоррекций с использованием репрезентативных подмодулей
CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules

Oct 13, 2023

Hung Le, Hailin Chen, Amrita Saha, Akash Gokul, Doyen Sahoo, Shafiq Joty

131

Ежедневные статьи

Table-GPT: GPT, адаптированный для работы с таблицами и решения разнообразных табличных задач
Table-GPT: Table-tuned GPT for Diverse Table Tasks

PaLI-3: Модели обработки визуальной информации и языка — меньше, быстрее, мощнее
PaLI-3 Vision Language Models: Smaller, Faster, Stronger

LoftQ: Квантование с учетом тонкой настройки LoRA для крупных языковых моделей
LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models

Языковой агент с нулевым обучением для управления компьютером с использованием структурированного анализа
A Zero-Shot Language Agent for Computer Control with Structured Reflection

Игра консенсуса: генерация языковых моделей через поиск равновесия
The Consensus Game: Language Model Generation via Equilibrium Search

Могут ли модели GPT быть финансовыми аналитиками? Оценка ChatGPT и GPT-4 на пробных экзаменах CFA
Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4 on mock CFA Exams

К совместному языковому моделированию речевых единиц и текста
Toward Joint Language Modeling for Speech Units and Text

Support

Support

Ежедневные статьи

Table-GPT: GPT, адаптированный для работы с таблицами и решения разнообразных табличных задач
Table-GPT: Table-tuned GPT for Diverse Table Tasks

PaLI-3: Модели обработки визуальной информации и языка — меньше, быстрее, мощнее
PaLI-3 Vision Language Models: Smaller, Faster, Stronger

LoftQ: Квантование с учетом тонкой настройки LoRA для крупных языковых моделей
LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models

Языковой агент с нулевым обучением для управления компьютером с использованием структурированного анализа
A Zero-Shot Language Agent for Computer Control with Structured Reflection

Игра консенсуса: генерация языковых моделей через поиск равновесия
The Consensus Game: Language Model Generation via Equilibrium Search

Могут ли модели GPT быть финансовыми аналитиками? Оценка ChatGPT и GPT-4 на пробных экзаменах CFA
Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4 on mock CFA Exams

К совместному языковому моделированию речевых единиц и текста
Toward Joint Language Modeling for Speech Units and Text