Ежедневно отобранные исследовательские статьи по ИИ с переводами
Языковые модели, такие как GPT-3.5 и ChatGPT, демонстрируют впечатляющие способности следовать разнообразным инструкциям человека и выполнять широкий спектр задач. Однако при тестировании языковых моделей на различных базовых задачах, связанных с пониманием таблиц, мы наблюдаем, что современные языковые модели всё ещё неоптимальны во многих задачах, связанных с таблицами. Вероятно, это связано с тем, что они предварительно обучаются преимущественно на одномерных текстах естественного языка, тогда как реляционные таблицы представляют собой двумерные объекты. В данной работе мы предлагаем новую парадигму "настройки на таблицы" (table-tuning), в рамках которой мы продолжаем обучать/дообучать языковые модели, такие как GPT-3.5 и ChatGPT, используя разнообразные задачи, синтезированные из реальных таблиц, в качестве обучающих данных. Целью является улучшение способности языковых моделей понимать таблицы и выполнять задачи, связанные с ними. Мы показываем, что полученные модели Table-GPT демонстрируют (1) лучшие способности к пониманию таблиц, стабильно превосходя базовые GPT-3.5 и ChatGPT на широком спектре задач, включая ранее не встречавшиеся задачи, и (2) сильную обобщаемость, выражающуюся в способности реагировать на разнообразные инструкции человека для выполнения новых задач, связанных с таблицами, аналогично GPT-3.5 и ChatGPT.
В данной статье представлена модель PaLI-3 — более компактная, быстрая и мощная модель обработки визуальной информации и языка (VLM), которая демонстрирует конкурентоспособные результаты по сравнению с аналогичными моделями, в 10 раз превосходящими её по размеру. Для достижения таких высоких показателей мы сравниваем модели Vision Transformer (ViT), предобученные с использованием классификационных задач, с моделями, предобученными контрастным методом (SigLIP). Мы обнаружили, что, хотя SigLIP-версия PaLI немного уступает на стандартных бенчмарках классификации изображений, она показывает превосходные результаты на различных мультимодальных тестах, особенно в задачах локализации и понимания текста в визуальном контексте. Мы масштабировали кодировщик изображений SigLIP до 2 миллиардов параметров и достигли нового рекорда в задаче мультиязычного кросс-модального поиска. Мы надеемся, что PaLI-3, имея всего 5 миллиардов параметров, вдохновит исследования фундаментальных компонентов сложных VLM и станет основой для нового поколения масштабируемых моделей.
Квантование является незаменимой техникой для обслуживания больших языковых моделей (LLM) и недавно нашло применение в тонкой настройке с использованием LoRA. В данной работе мы сосредоточимся на сценарии, где квантование и тонкая настройка LoRA применяются совместно на предварительно обученной модели. В таких случаях часто наблюдается устойчивый разрыв в производительности на последующих задачах между полной тонкой настройкой и подходом, сочетающим квантование с тонкой настройкой LoRA. В ответ на это мы предлагаем LoftQ (LoRA-Fine-Tuning-aware Quantization), новую структуру квантования, которая одновременно квантует LLM и находит подходящую низкоранговую инициализацию для тонкой настройки LoRA. Такая инициализация уменьшает расхождение между квантованной и полной точностью модели и значительно улучшает обобщение на последующих задачах. Мы оцениваем наш метод на задачах понимания естественного языка, ответов на вопросы, суммирования и генерации естественного языка. Эксперименты показывают, что наш метод высокоэффективен и превосходит существующие методы квантования, особенно в сложных режимах 2-битного и 2/4-битного смешанного представления. Мы опубликуем наш код.
Крупные языковые модели (LLM) демонстрируют растущую способность планировать и выполнять высокоуровневые цели в реальной компьютерной среде (например, MiniWoB++). Для выполнения задачи в последних работах часто требуется, чтобы модель обучалась на примерах трассировок задачи с использованием либо обучения с учителем, либо подсказок с малым/большим количеством примеров. Без таких трассировок остается сложной задачей то, как агент может автономно обучаться и улучшать свое управление компьютером, что ограничивает его способность выполнять новые задачи. Мы подходим к этой проблеме с помощью агента, работающего в режиме "zero-shot", который не требует предоставления экспертных трассировок. Наш агент планирует выполнимые действия в частично наблюдаемой среде и итеративно продвигает задачу, выявляя и обучаясь на своих ошибках через саморефлексию и структурированное управление мыслями. На простых задачах MiniWoB++ мы показываем, что наш агент "zero-shot" часто превосходит последние модели с передовыми результатами (SoTA), демонстрируя более эффективное рассуждение. Для задач с большей сложностью наш рефлексивный агент показывает результаты, сопоставимые с лучшими предыдущими моделями, даже несмотря на то, что в предыдущих работах использовались преимущества доступа к экспертных трассировкам или дополнительной информации с экрана.
При применении языковых моделей (ЯМ) к задачам ответов на вопросы и другим задачам генерации текста, их можно запрашивать генеративно (путем выборки ответов из их выходного распределения) или дискриминативно (путем использования их для оценки или ранжирования набора кандидатных ответов). Эти процедуры иногда приводят к совершенно разным предсказаниям. Как согласовать взаимно несовместимые процедуры оценки для получения согласованных предсказаний ЯМ? Мы представляем новую, не требующую обучения, процедуру декодирования языковых моделей, основанную на теории игр. Наш подход формулирует декодирование языковых моделей как регуляризованную последовательную игру с неполной информацией и сигнализацией, которую мы называем ИГРОЙ КОНСЕНСУСА, в которой ГЕНЕРАТОР стремится передать абстрактный параметр корректности с использованием естественно-языковых предложений ДИСКРИМИНАТОРУ. Мы разрабатываем вычислительные процедуры для нахождения приближенных равновесий этой игры, что приводит к алгоритму декодирования, который мы называем РАНЖИРОВАНИЕМ ПО РАВНОВЕСИЮ. Примененный к большому количеству задач (включая понимание прочитанного, рассуждения на основе здравого смысла, решение математических задач и диалоги), РАНЖИРОВАНИЕ ПО РАВНОВЕСИЮ последовательно, а иногда и значительно, улучшает производительность по сравнению с существующими процедурами декодирования ЯМ — на нескольких бенчмарках мы наблюдаем, что применение РАНЖИРОВАНИЯ ПО РАВНОВЕСИЮ к модели LLaMA-7B превосходит гораздо более крупные модели LLaMA-65B и PaLM-540B. Эти результаты подчеркивают перспективность использования инструментов теории игр для решения фундаментальных проблем правдивости и согласованности в языковых моделях.
Крупные языковые модели (LLM) продемонстрировали выдающиеся результаты в широком спектре задач обработки естественного языка (NLP), часто достигая или даже превосходя показатели современных специализированных моделей. Данное исследование направлено на оценку способностей LLM к финансовому анализу. Мы используем пробные экзаменационные вопросы программы Chartered Financial Analyst (CFA) для всесторонней оценки ChatGPT и GPT-4 в области финансового анализа, рассматривая сценарии Zero-Shot (ZS), Chain-of-Thought (CoT) и Few-Shot (FS). Мы представляем детальный анализ производительности и ограничений моделей, а также оцениваем, есть ли у них шансы сдать экзамены CFA. В заключение мы предлагаем идеи по потенциальным стратегиям и улучшениям для повышения применимости LLM в финансах. В этой перспективе мы надеемся, что данная работа проложит путь для будущих исследований, направленных на дальнейшее совершенствование LLM для финансового анализа через строгую оценку.
Крупные языковые модели (LLM) уже достигли значительных успехов в решении более простых задач программирования, таких как те, что представлены в бенчмарках HumanEval или MBPP. Однако решение более сложных и конкурентных задач программирования по-прежнему остается серьезным вызовом для этих моделей — возможно, из-за их склонности генерировать решения в виде монолитных блоков кода вместо того, чтобы разбивать их на логические подзадачи и подмодули. С другой стороны, опытные программисты инстинктивно пишут модульный код с использованием абстракций для решения сложных задач, часто повторно используя ранее разработанные модули. Чтобы устранить этот разрыв, мы предлагаем CodeChain — новый фреймворк для вывода, который стимулирует генерацию модульного кода через цепочку самопересмотров, каждый из которых направляется репрезентативными подмодулями, сгенерированными на предыдущих итерациях. Конкретно, CodeChain сначала инструктирует LLM генерировать модульный код с помощью подсказок по цепочке рассуждений (chain-of-thought prompting). Затем он применяет цепочку самопересмотров, итерируя два шага: 1) извлечение и кластеризация сгенерированных подмодулей с выбором представителей кластеров в качестве более универсальных и повторно используемых реализаций и 2) дополнение исходной подсказки по цепочке рассуждений этими выбранными реализациями модулей и инструкция LLM повторно генерировать новые модульные решения. Мы обнаружили, что, естественным образом поощряя LLM повторно использовать ранее разработанные и проверенные подмодули, CodeChain может значительно повысить как модульность, так и корректность генерируемых решений, достигая относительного улучшения pass@1 на 35% для APPS и на 76% для CodeContests. Показано, что он эффективен как для LLM от OpenAI, так и для открытых LLM, таких как WizardCoder. Мы также проводим всесторонние исследования абляции с различными методами подсказок, количеством кластеров, размерами моделей, качеством программ и т.д., чтобы предоставить полезные инсайты, лежащие в основе успеха CodeChain.
Речь и текст являются двумя основными формами человеческого языка. Научное сообщество на протяжении многих лет сосредоточено на преобразовании речи в текст и наоборот. Однако в области языкового моделирования было приложено очень мало усилий для их совместного моделирования. В связи с этим мы исследуем совместное языковое моделирование для речевых единиц и текста. В частности, мы сравниваем различные речевые токенизаторы для преобразования непрерывных речевых сигналов в дискретные единицы и используем различные методы для создания смешанных данных, содержащих речь и текст. Мы вводим автоматические метрики для оценки того, насколько хорошо совместная языковая модель (LM) объединяет речь и текст. Мы также дообучаем модель на задачах понимания устной речи (SLU) с использованием различных модальностей (речь или текст) и тестируем её производительность, чтобы оценить, насколько модель усваивает общие представления. Наши результаты показывают, что при объединении речевых единиц и текста с использованием предложенных нами методов смешивания, совместная LM превосходит базовую модель, работающую только с речью, на задачах SLU и демонстрирует кросс-модальную передачу знаний в режиме zero-shot.